J’utilise des chatbots comme Chat GPT et Claude presque quotidiennement pour répondre à des questions rapides, m’aider à résoudre des problèmes, corriger un code terrible et trouver le mot qui est sur le bout de ma langue. Mais l’un des gros inconvénients des chatbots basés sur l'IA actuels est qu’ils sont largement limités à leur interface conversationnelle.
L’utilisation de l’ordinateur Claude et l’opérateur Chat GPT promettent de changer cela.
Ils utilisent une combinaison du modèle de langage intégré, de captures d’écran et d’une machine virtuelle pour imiter la façon dont les humains utilisent les ordinateurs, en contrôlant efficacement votre ordinateur (avec votre permission). Bien qu’ils soient encore loin d’être totalement autonomes, ils constituent le premier véritable pas vers la création d’agents d’IA accessibles à usage général qui peuvent agir de manière indépendante.
Voici ce que tu dois savoir.
Pourquoi l’utilisation de l’ordinateur Claude et de l’opérateur OpenAI sont-ils importants ?
Les agents d’IA comme Claude Computer Use et OpenAI Operator (qui utilise le nouveau modèleComputer-Using Agent [CUA] ) sont de plus en plus importants, il vaut donc la peine de comprendre à quoi ressemblent les choses sans agents d’IA – cela peut nous aider à voir l’importance de ces avancées.
Mis à part la fonction principale du chatbot, presque toutes les fonctionnalités d’un chatbot basé sur l'IA reposent sur des API. Ceux-ci peuvent être construits par les développeurs du chatbot, comme c’est le cas avec des choses comme Chat GPT Search, ou des développeurs tiers, à l’aide d’outils tels que les GPT personnalisés.
Par exemple, Kayak, un service de réservation de voyages, propose un GPT personnalisé que tu peux essayer toi-même. C'est assez simple. Il utilise Chat GPT pour extraire les détails pertinents de votre invite, les envoyer à Kayak à l’aide de l’API, puis afficher les résultats. Cela fonctionne, mais ce n’est pas très flexible, et je ne peux pas demander à Chat GPT de consulter un autre site de comparaison de vols à la place, ou même de voir quel prix j’obtiendrais en réservant directement auprès de la compagnie aérienne.

Les outils d’IA qui s’appuient exclusivement sur des API présentent quelques autres inconvénients. Pour commencer, le site ou le service auquel vous essayez d'accéder doit disposer d'une API, puis il doit offrir toutes les fonctionnalités souhaitées via l'API. Bien que je puisse consulter les vols via le GPT de Kayak, je ne parviens pas à réserver un vol, à modifier l'adresse e-mail de mon compte ou à faire d'innombrables autres choses que je peux faire via le site Web.
Avoir des agents informatiques AI capables de naviguer sur n’importe quel site web, d’utiliser n’importe quelle appli et de travailler avec n’importe quel fichier serait une étape incroyable. Vous pourriez, par exemple, demander à votre agent d'IA de rechercher et de comparer les prix d’un voyage sur Kayak pour trois week-ends différents et vous dire lequel est le moins cher. Il pourrait peut-être même réserver le voyage pour vous, bien que cela aille bien au-delà de ce que l’on peut faire confiance aux agents informatiques actuels de l’AI à faire.
Comment fonctionnent les agents informatiques AI ?
Les agents informatiques de l’AI rassemblent quelques avancées récentes en matière d’AI, notamment les modèles multimodaux qui peuvent comprendre plus que du texte et modèles de raisonnement capables de résoudre des problèmes plus complexes.
Voici comment ils fonctionnent :
Ils utilisent des captures d'écran pour regarder l'écran d'un ordinateur et comprendre ce qui se passe.
Ils décomposent des instructions complexes en une série d’étapes logiques, les testent et s’autocorrigent si les choses ne fonctionnent pas comme prévu.
Ils peuvent utiliser une souris et un clavier virtuels pour naviguer dans une interface utilisateur normale dans une machine virtuelle.
Cela se décompose en un flux de travail AI simple et reproductible :
Fais une capture d'écran.
Décidez de la prochaine action de l’ordinateur qui se rapproche de l’objectif.
Exécutez l’action.
Fais une capture d'écran.
Décidez de la prochaine action de l’ordinateur qui se rapproche de l’objectif.
Exécutez l’action.
Répète jusqu'à ce que tu atteins l'objectif.
Bien sûr, les choses sont bien plus compliquées sous le capot. Les agents d’IA ont dû être formés aux bases de l’interaction homme-machine, et une technique permettant de compter avec précision les pixels sur une capture d’écran afin que l’AI puisse savoir où déplacer son curseur et cliquer a dû être développée avant que tout cela ne commence à fonctionner.
Les agents d’IA sont également formés sur des plateformes spécifiques comme Uber, OpenTable et DoorDash afin qu’ils puissent travailler avec des services du monde réel « tout en respectant les normes établies ». (Je suppose que cela signifie qu'il ne faut pas commander quatre Uber à la fois.)
À l’heure actuelle, l’utilisation de l’ordinateur Claude et Chat GPT sont en version bêta. Bien que les éléments constitutifs des agents informatiques d’AI commencent à se rassembler, ils sont loin d’être suffisamment fiables pour une utilisation majeure dans le monde réel.
Que peuvent faire les agents informatiques AI ?
La grande percée est que les agents informatiques d’AI peuvent utiliser un ordinateur comme un humain, bien que plus lentement et moins précisément. Ce ne sont pas le genre de robots qui scalpent les billets de Taylor Swift. Pourtant, même lors des démos, elles sont très prometteuses.
Voici certaines des choses qu'Anthropic et OpenAI ont montrées à leurs agents informatiques capables de faire à partir d'un message texte :
Naviguer sur les systèmes Windows, Mac et Linux, ouvrir des navigateurs et d’autres applications, et naviguer et rechercher sur le Web.
Remplir des formulaires en extrayant des données de feuilles de calcul, de CRM et de différentes sources de données.
Trouver des informations sur une randonnée au lever du soleil sur Google, calculer la distance à l’aide de Google Maps et créer un événement Google Agenda au moment requis pour partir.
Créer des projets et des listes de courses dans des applications à faire.
Trouver une recette sur Allrecipes et ajouter les ingrédients à un panier Instacart.
Télécharger des fichiers, combiner des PDF et exporter des images.
Résoudre des questionnaires en ligne.
Trouver des informations spécifiques sur les clients dans des backends eCommerce fictifs.
Voici un exemple de démonstration de l'utilisation de l'ordinateur par Claude.
Mais c'est exactement ce qu'ils peuvent faire pour le moment. Ce qui est intéressant, c'est ce qu'ils peuvent faire une fois qu'ils seront assez bons. À première vue, ce sont des choses comme :
Toutes les corvées comptables ennuyeuses que vous pouvez imaginer, comme la facturation, l’enregistrement des heures, le rapprochement des comptes, la soumission des dépenses, etc.
Travailler avec des feuilles de calcul pour extraire des données de toutes sortes de sources.
Surveiller les produits en rupture de stock sur les boutiques en ligne et passer commande lorsqu'ils sont disponibles.
Réserver des billets de cinéma ou réserver des restaurants dès leur ouverture.
Scanner ton dossier de courriers indésirables pour t'assurer que tu n'as rien oublié d'important.
Gérer les agents de support en ligne et les chatbots.
Et honnêtement, ce ne sont que les choses auxquelles j'ai pensé en 30 secondes de brainstorming. Il existe littéralement d’innombrables façons dont un agent informatique AI pourrait être utile.
À quel point les agents informatiques AI sont-ils bons à l’heure actuelle ?
Dans son annonce sur l’Agent utilisant l’ordinateur (CUA), OpenAI affirme que son modèle atteint 38.1%, une nouvelle performance de pointe sur le benchmark OSWorld. L'utilisation de l'ordinateur par Claude a atteint 22% par rapport au même point de référence en octobre de l'année dernière.
Le hic : un humain normal obtient 72.4%.
De même, dans son annonce de lancement, Anthropic a souligné que, pendant qu’ils préparaient les vidéos de démonstration, l’ordinateur de Claude a accidentellement cliqué sur arrêter un long enregistrement d’écran, effaçant toutes les séquences.
Et les choses sont similaires en termes de vitesse. Actuellement, les agents utilisant des ordinateurs prennent des dizaines ou des centaines d’étapes pour effectuer des actions assez simples, comme télécharger une série de conférences, combiner des PDF ou trouver le client avec le plus d’annulations dans un portail eCommerce. Bien qu’il soit très impressionnant qu’il puisse effectuer ces actions, les outils existants (ou même le faire vous-même) sont presque certainement plus rapides. C’est la flexibilité qui va rendre ces agents d’IA utiles, et non la vitesse.
Il convient également de noter qu’Anthropic et OpenAI font toute une histoire de la sécurité, et il est facile de comprendre pourquoi. Même lorsqu’ils sont limités à une interface de chatbot, les modèles d’IA précédents ont créé tous les mauvais types de titres. Avec un accès complet à un navigateur Web, il n’y a essentiellement aucune limite au comportement contradictoire qu’un modèle d’IA sans restriction pourrait être amené à supporter ou aux dommages qu’il pourrait causer avec ses erreurs.
Aucun d’eux n’est encore en mesure de fonctionner de manière totalement autonome : lorsque l’opérateur Chat GPT rencontre une connexion, un CAPTCHA ou des informations de paiement, il redonne le contrôle de l’ordinateur virtuel à l’utilisateur. Dans cette situation, je trouve que c'est une bonne chose que les développeurs avancent lentement.
Et c’est là le cœur de la situation actuelle des agents informatiques de l’AI. Ils sont incroyablement impressionnants et très prometteurs, mais ils sont très lents et font encore beaucoup d’erreurs, en particulier avec des interfaces inconnues ou des tâches plus complexes. Les problèmes de sécurité sont également bien réels. Il ne faudra probablement pas longtemps avant qu’ils soient légitimement utiles pour certaines tâches à faible risque, mais je pense qu’il faudra un certain temps avant qu’il ne soit judicieux de leur donner les détails de votre carte de crédit et de les laisser faire des achats sur Amazon.
Malgré toutes mes mises en garde, c’est le développement de l’AI qui me passionne le plus.
Puis-je essayer l'utilisation de l'ordinateur Claude ou de Chat GPT ?
Claude Computer Use et Chat GPT Operator sont tous deux à la disposition du public, bien que les tester ne soit pas aussi simple.
L'utilisation de l'ordinateur Claude n'est disponible que via l'API. Si tu as les compétences techniques, tu peux le faire fonctionner dans un environnement de développement et t'amuser.
Chat GPT Operator est en préversion publique, mais uniquement pour les abonnés Chat GPT Pro — et cela vous coûtera 200$ par mois.
Lectures connexes :