Zu Content wechseln
  • Startseite

  • Produktivität

  • Anwendungen: Tipps

Anwendungen: Tipps

6 Min. Lesezeit

Was sind Claude Computer Use und ChatGPT Operator?

Wie KI-Computeragenten funktionieren – und warum das wichtig ist

Von Harry Guinness · Januar 24, 2025
Hero-Bild mit einem Symbol, das einen KI-Agenten darstellt

Ich benutze Chatbots wie ChatGPT und Claude , um schnell Fragen zu beantworten, Probleme zu lösen, schlechten Code zu reparieren und das Wort zu finden, das mir gerade nicht einfällt. Aber einer der größten Nachteile der aktuellen KI-Chatbots ist, dass sie sich größtenteils auf ihre Gesprächsoberfläche beschränken.

Claude Computer und ChatGPT Operator wollen das ändern. 

Sie nutzen eine Kombination aus dem integrierten Sprachmodells, Screenshots und einer virtuellen Maschine, um die Art und Weise nachzuahmen, wie Menschen Computer verwenden – und so deinen Computer (mit deiner Erlaubnis) effektiv zu steuern. Auch wenn sie noch lange nicht komplett autonom sind, sind sie der erste echte Schritt in Richtung barrierefreier AI-Agenten für den allgemeinen Gebrauch. KI-Agenten , die selbstständig handeln können.

Hier ist, was Sie wissen müssen.

Warum sind Claudes Computer-Nutzung und OpenAIs Operator ein großes Deal?

KI-Computeragenten wie Claude Computer und OpenAI Operator (der das neue Computer-Using Agent [CUA]-Modell nutzt) werden immer wichtiger, deshalb lohnt es sich zu verstehen, wie die Dinge ohne KI-Agenten aussehen – das hilft uns zu erkennen, wie groß diese Fortschritte wirklich sind.

Abgesehen von der Hauptfunktion eines KI-Chatbots, dem Chatten, hängt fast jedes Feature eines KI-Chatbots von APIs ab. Diese können von den Entwicklern des Chatbots erstellt werden, wie es bei Sachen wie ChatGPT Search, oder von Drittentwicklern mit Tools wie benutzerdefinierte GPTs

Zum Beispiel hat Kayak, ein Reisebuchungsdienst, eine benutzerdefinierte GPT , die Sie selbst ausprobieren können. Es ist ziemlich karg. Es nutzt ChatGPT, um die relevanten Infos aus deiner Eingabe zu holen, sie über die API an Kayak zu schicken und dann die Ergebnisse anzuzeigen. Es funktioniert zwar, aber es ist nicht besonders flexibel, und ich kann ChatGPT nicht bitten, eine andere Flugvergleichsseite zu checken – oder sogar zu sehen, welchen Preis ich bei einer direkten Buchung bei der Fluggesellschaft bekommen würde. 

Das Kajak GPT

Es gibt noch ein paar andere Nachteile von KI-Tools, die nur auf APIs basieren. Zuerst mal muss die Seite oder der Dienst, auf den du zugreifen willst, eine API haben. Dann muss die Seite oder der Dienst alle Features, die du brauchst, über die API anbieten. Ich kann zwar Flüge über Kayaks GPT sehen, aber ich kann damit keine Flüge buchen, meine E-Mail-Adresse ändern oder viele andere Sachen machen, die ich über die Website machen kann.

KI-Computeragenten zu haben, die jede Website durchsuchen, jede Anwendung nutzen und mit jeder Datei arbeiten können, wäre ein unglaublicher Fortschritt. Du könntest deinen KI-Agenten zum Beispiel auf Kayak nach einer Reise für drei verschiedene Wochenenden suchen und die Preise vergleichen lassen und dir dann sagen lassen, welche die günstigste ist. Es könnte vielleicht sogar die Reise für dich buchen, obwohl das weit über das hinausgeht, was man von den aktuellen KI-Computeragenten erwarten kann. 

Wie funktionieren KI-Computeragenten?

KI-Computeragenten bringen ein paar aktuelle Fortschritte in der KI zusammen, darunter die multimodale Modelle , die mehr als nur Text verstehen können, und Modelle zum Schlussfolgern , die kompliziertere Probleme lösen können. 

So funktionieren sie:

  • Sie verwenden Screenshots, um auf einen Computerbildschirm zu schauen und zu verstehen, was passiert. 

  • Sie teilen komplizierte Anweisungen in logische Schritte auf, probieren sie aus und korrigieren sich selbst, wenn etwas nicht wie erwartet funktioniert.

  • Sie können mit einer virtuellen Maus und Tastatur durch eine normale Benutzeroberfläche in einer virtuellen Maschine navigieren. 

Das lässt sich in einen einfachen und wiederholbaren KI-Workflow aufteilen: 

  1. Machen Sie einen Screenshot.

  2. Entscheide dich für die nächste Computeraktion, die dich deinem Ziel näher bringt.

  3. Mach die Aktion.

  4. Machen Sie einen Screenshot.

  5. Entscheide dich für die nächste Computeraktion, die dich deinem Ziel näher bringt.

  6. Mach die Aktion.

  7. Wiederholen Sie dies, bis Sie das Ziel erreicht haben.

Unter der Haube geht es natürlich deutlich komplizierter zu. Die KI-Agenten mussten erst mal die Grundlagen der Mensch-Computer-Interaktion lernen. Außerdem musste eine Technik entwickelt werden, um Pixel auf einem Screenshot genau zu zählen, damit die KI wusste, wohin sie den Cursor bewegen und den Klick ausführen musste, bevor das Ganze funktionieren konnte. 

Die KI-Agenten werden auch auf bestimmten Plattformen wie Uber, OpenTable und DoorDash trainiert, damit sie mit echten Diensten arbeiten können "und dabei die geltenden Regeln beachten können." (Ich nehme an, das bedeutet, ohne vier Ubers auf einmal zu bestellen.)

Im Moment sind sowohl Claude Computer Use als auch ChatGPT Operator noch in der Beta-Phase. Die ersten Teile für KI-Computeragenten kommen langsam zusammen, aber sie sind noch lange nicht zuverlässig genug, um in der echten Welt eingesetzt zu werden.

Was können KI-Computeragenten machen?

Der große Durchbruch ist, dass KI-Computeragenten einen Computer wie ein Mensch benutzen können – wenn auch langsamer und weniger genau. Das sind nicht die Bots, die Taylor-Swift-Tickets kaufen. Dennoch sind sie selbst in Demos vielversprechend. 

Hier sind einige der Dinge, die Anthropic und OpenAI ihren computerbedienenden Agenten gezeigt haben, die sie über eine Texteingabeaufforderung tun können:

  • Sich auf Windows-, Mac- und Linux-Systemen zurechtfinden, Browser und andere Anwendungen starten, im Internet surfen und suchen.

  • Formulare ausfüllen, indem Daten aus Spreadsheets, CRMs und anderen Datenquellen gezogen werden.

  • Infos über eine Wanderung zum Sonnenaufgang bei Google suchen, die Entfernung mit Google Maps checken und einen Termin im Google Kalender für die Abfahrt eintragen.

  • Projekte und Einkaufslisten in To-Do-Anwendungen erstellen.

  • Finden Sie ein Rezept auf Allrecipes und legen Sie die Zutaten in einen Instacart-Warenkorb.

  • Herunterladen von Dateien, Kombinieren von PDFs und Exportieren von Bildern.

  • Lösen von Online-Quizfragen.

  • Spezifische Kundeninformationen in gefälschten eCommerce-Backends finden.

Hier ist ein Beispiel für eine Demo aus der Computernutzung von Claude.

Aber das ist genau das Zeug, das sie jetzt tun können. Das Spannende ist, was sie tun können, wenn sie gut genug sind. Aus dem Stegreif sind das Dinge wie:

  • All die langweiligen Buchhaltungsaufgaben, die du dir vorstellen kannst, wie Rechnungsstellung, Stunden erfassen, Kontoabgleich, Spesenabrechnungen einreichen und so weiter. 

  • Arbeiten mit Spreadsheets, um Daten aus allen möglichen Quellen zu sammeln.

  • Beobachten Sie nicht vorrätige Produkte in Online-Shops und geben Sie eine Bestellung auf, wenn sie verfügbar sind. 

  • Buchen Sie Kinokarten oder erhalten Sie Restaurantreservierungen, sobald sie öffnen. 

  • Scannen Sie Ihren Spam-Ordner, um sicherzustellen, dass Sie nichts Wichtiges übersehen haben.

  • Umgang mit Online-Support-Mitarbeitern und Chatbots.

Und ehrlich gesagt, das sind nur die Dinge, die ich mir in 30 Sekunden Brainstorming ausgedacht habe. Es gibt echt unzählige Möglichkeiten, wie ein KI-Computeragent nützlich sein kann.

Wie gut sind KI-Computeragenten derzeit?

In seiner Ankündigung zum Computer-Using Agent (CUA) behauptet OpenAI, dass sein Modell „ 38“ erreicht. „1% “, eine neue Bestmarke auf dem OSWorld-Benchmark. Die Computernutzung von Claude erreichte im Oktober letzten Jahres 22% des gleichen Benchmarks. 

Der Haken an der Sache: Ein normaler Mensch bekommt 72.4%. 

Ähnlich hat Anthropic in seiner Ankündigung zur Einführung der neuen EU-Dat Ankündigung der Markteinführungbetont, dass Claude während der Vorbereitung der Demo-Videos versehentlich einen Klick auf „Stopp“ gemacht hat, wodurch die gesamte Aufzeichnung gelöscht wurde.

Ähnlich verhält es sich auch bei der Geschwindigkeit. Im Moment brauchen Computer-Agenten Dutzende oder Hunderte von Schritten, um ziemlich einfache Sachen zu machen, wie eine Reihe von Vorlesungen runterzuladen, PDFs zusammenzufügen oder den Kunden mit den meisten Stornierungen in einem E-Commerce-Portal zu finden. Es ist zwar echt beeindruckend, dass es diese Aktionen überhaupt ausführen kann, aber die Tools, die es schon gibt (oder sogar selbst gemacht), sind fast sicher schneller. Es ist die Flexibilität, die diese KI-Agenten so nützlich macht, nicht die Geschwindigkeit.

Es ist auch erwähnenswert, dass sowohl Anthropic als auch OpenAI ein großes Deal auf Sicherheit machen, und es ist leicht zu verstehen, warum. Selbst wenn sie auf eine Chatbot-Schnittstelle beschränkt waren, haben frühere KI-Modelle schon jede Menge falsche Schlagzeilen gemacht. Mit vollem Zugriff auf einen Browser gibt es im Grunde keine Grenzen, was ein uneingeschränktes KI-Modell an böswilligen Aktionen machen oder mit seinen Fehlern an Schaden anrichten könnte. 

Keiner von beiden kann noch ganz alleine arbeiten: Wenn ChatGPT Operator auf eine Anmeldung, ein CAPTCHA oder Zahlungsinfos stößt, gibt es die Kontrolle über den virtuellen Computer wieder an den Nutzer zurück. In dieser Situation finde ich es gut, dass die Entwickler nur langsam vorankommen.

Und genau da hakt es bei KI-Computeragenten im Moment. Sie sind echt beeindruckend und vielversprechend, aber sie sind echt langsam und machen noch viele Fehler, vor allem bei unbekannten Benutzeroberflächen oder komplexeren Aufgaben. Die Sicherheitsbedenken sind auch sehr real. Es wird wahrscheinlich nicht lange dauern, bis sie für einige risikoarme Aufgaben wirklich nützlich sind, aber ich denke, es wird noch eine Weile dauern, bis es sinnvoll ist, ihnen deine Kreditkartendaten zu geben und sie bei Amazon einkaufen zu lassen.

Trotz all meiner Vorbehalte ist das die KI-Entwicklung, auf die ich mich am meisten freue.

Kann ich Claude Computer Use oder ChatGPT Operator ausprobieren?

Sowohl Claude Computer Use als auch ChatGPT Operator sind öffentlich zugänglich, allerdings ist es nicht ganz einfach, sie auszuprobieren. 

  • Claude kann nur über die API genutzt werden. Wenn Sie über die technischen Fähigkeiten verfügen, können Sie es in einer Entwicklungsumgebung zum Laufen bringen und Spaß haben. 

  • ChatGPT Operator ist in der öffentlichen Vorschau, aber nur für ChatGPT Pro Abonnenten – und das kostet dich200pro Monat. 

Verwandte Lektüre:

  • Claude versus ChatGPT: Was ist der Unterschied?

  • Die besten ChatGPT-Alternativen auf 8

  • KI-Agenten, die die Arbeit in deinen Anwendungen automatisch erledigen

Erhalten Sie Produktivität Tipps direkt in Ihren Posteingang.

Wir senden Ihnen 1-3 Mal pro Woche eine E-Mail und geben Ihre Informationen niemals weiter.

Tags
erwähnte Anwendungen

Ähnliche Artikel

Steigern Sie Ihre Produktivität automatisch. Verwenden Sie Zapier, damit Ihre Anwendungen zusammenarbeiten.

Registrieren
Entdecken Sie, wie Zapier funktioniert
Ein Zap mit dem Trigger „Wenn ich einen neuen Lead von Facebook erhalte“ und der Aktion „Mein Team in Slack benachrichtigen“