O que Claude usa no computador e no operador ChatGPT?

Eu uso chatbots como ChatGPT e Claude quase diariamente para responder perguntas rápidas, me ajudar a resolver problemas, consertar códigos ruins e descobrir a palavra que está na ponta da minha língua. Mas uma das grandes desvantagens dos atuais chatbots de IA é que eles são amplamente limitados à sua interface de conversação.

O uso do computador por Claude e o operador ChatGPT prometem mudar isso.

Eles usam uma combinação do modelo de linguagem incorporado, capturas de tela e uma máquina virtual para imitar como os humanos usam os computadores, controlando efetivamente seu computador (com sua permissão). Embora ainda estejam longe de serem totalmente autônomos, eles são o primeiro passo real para a criação de agentes de IA de uso geral acessíveis que podem agir de forma independente.

Aqui está o que você precisa saber.

Por que o uso do computador Claude e o Operator da OpenAI são tão importantes?

Agentes de computador de IA como o Claude Computer Use e o OpenAI Operator (que usa o novo modelode agente que usa computador [CUA] ) estão se tornando mais proeminentes, então vale a pena entender como as coisas parecem sem agentes de IA — isso pode nos ajudar a ver o quão importante esses avanços são.

Além da função principal do chatbot de IA, quase todos os recursos de um chatbot de IA dependem de APIs. Eles podem ser criados pelos desenvolvedores do chatbot, como é o caso de coisas como o ChatGPT Search, ou por desenvolvedores terceirizados, usando ferramentas como GPTs personalizados.

Por exemplo, o Kayak, um serviço de reservas de viagens, tem um GPT personalizado que você pode testar. É bem básico. Ele usa o ChatGPT para extrair os detalhes relevantes do seu prompt, enviá-los ao Kayak usando a API e, em seguida, exibir os resultados. Funciona, mas não é muito flexível, e não posso pedir ao ChatGPT para verificar outro site de comparação de voos, nem mesmo ver qual preço eu conseguiria reservando diretamente da companhia aérea.

Há algumas outras desvantagens em ferramentas de IA que dependem exclusivamente de APIs. Para começar, é necessário que qualquer site ou serviço que você esteja tentando acessar tenha uma API e, depois, que o site ou serviço ofereça todos os recursos que você deseja por meio da API. Embora eu possa visualizar voos pelo GPT do Kayak, não consigo reservar um voo, alterar o endereço de e-mail da minha conta ou fazer inúmeras outras coisas que posso fazer pelo site.

Ter agentes de computador de IA que podem navegar em qualquer site, usar qualquer aplicativo e trabalhar com qualquer arquivo seria uma etapa incrível. Você poderia, por exemplo, pedir para seu agente de IA pesquisar e definir o preço de uma viagem no Kayak para três fins de semana diferentes e dizer qual é o mais barato. Talvez ele até pudesse reservar a viagem para você, embora isso vá muito além do que os atuais agentes de computador de IA podem ser confiáveis para fazer.

Como os agentes de computador de IA funcionam?

Os agentes de computador de IA reúnem alguns avanços recentes em IA, incluindo modelos multimodais que podem entender mais do que apenas texto e modelos de raciocínio que são capazes de resolver problemas mais complicados.

Veja como eles funcionam:

Eles usam capturas de tela para olhar para uma tela de computador e entender o que está acontecendo.
Eles dividem instruções complexas em uma série de etapas lógicas, testam-nas e se autocorrigem se as coisas não funcionam como esperado.
Eles podem usar um mouse e teclado virtuais para navegar em uma interface do usuário normal em uma máquina virtual.

Isso se divide em um fluxo de trabalho de IA simples e repetível:

Faça uma captura de tela.
Decida qual será a próxima ação do computador que mais se aproxima do objetivo.
Execute a ação.
Faça uma captura de tela.
Decida qual será a próxima ação do computador que mais se aproxima do objetivo.
Execute a ação.
Repita até atingir a meta.

Claro que as coisas são muito mais complicadas por baixo dos panos. Os agentes de IA tiveram que ser treinados nos conceitos básicos de interação humano-computador, e uma técnica para contar pixels com precisão em uma captura de tela, para que a IA pudesse saber onde mover o cursor e fazer clique, precisou ser desenvolvida antes que tudo isso começasse a funcionar.

Os agentes de IA também estão sendo treinados em plataformas específicas, como Uber, OpenTable e DoorDash, para que possam trabalhar com serviços do mundo real "respeitando as normas estabelecidas ". (Presumo que isso signifique não pedir quatro Ubers de uma vez.)

No momento, tanto o uso do computador por Claude quanto o operador ChatGPT estão em fase beta. Embora os blocos de construção dos agentes de computador da IA estejam começando a se formar, eles estão longe de ser confiáveis o suficiente para uso real no mundo real.

O que os agentes de computador de IA podem fazer?

O grande avanço é que os agentes de computador da IA podem usar um computador como um humano, embora de forma mais lenta e menos precisa. Esses não são os tipos de bots que vendem ingressos para Taylor Swift. Ainda assim, mesmo em demonstrações, eles se mostram muito promissores.

Aqui estão algumas coisas que a Anthropic e a OpenAI mostraram que seus agentes que usam computadores podem fazer a partir de um prompt de texto:

Navegar em sistemas Windows, Mac e Linux, abrir navegadores e outros aplicativos, além de navegar e pesquisar na web.
Preenchimento de formulários extraindo dados de planilhas, CRMs e diferentes fontes de dados.
Encontrar informações sobre uma caminhada ao nascer do sol no Google, calcular a distância usando o Google Maps e criar um evento no Google Agenda no horário necessário para sair.
Criação de projetos e listas de compras em aplicativos a fazer.
Encontrar uma receita no Allrecipes e adicionar os ingredientes ao carrinho de compras do Instacart.
Baixando arquivos, combinando PDFs e exportando imagens.
Resolvendo questionários on-line.
Encontrar informações específicas de clientes em backends de comércio eletrônico simulados.

Aqui está um exemplo de demonstração de uso do computador por Claude.

Mas isso é apenas o que eles podem fazer agora. O mais emocionante é o que eles poderão fazer quando ficarem bons o suficiente. De cabeça, são coisas como:

Todo o trabalho contábil chato que você pode imaginar, como faturamento, registrar horas, conciliar contas, enviar despesas e coisas do tipo.
Trabalhar com planilhas para extrair dados de todos os tipos de fontes.
Observar produtos fora de estoque em lojas on-line e fazer um pedido quando estiverem disponíveis.
Reservar ingressos de cinema ou fazer reservas em restaurantes assim que eles abrem.
Verificando sua caixa de spam para ter certeza de que não há nada importante que você tenha perdido.
Lidar com agentes de suporte on-line e chatbots.

E honestamente, essas são apenas as coisas que pensei em 30 segundos de brainstorming. Há literalmente inúmeras maneiras pelas quais um agente computacional de IA pode ser útil.

Quão bons são os agentes de computador com IA atualmente?

Em seu anúncio do Computer-Using Agent (CUA), a OpenAI afirma que seu modelo atinge 38.1%, um novo desempenho de última geração no benchmark OSWorld. O uso do computador por Claude atingiu 22% no mesmo patamar em outubro do ano passado.

O problema: um ser humano normal recebe 72.4%.

Da mesma forma, em seu anúncio de lançamento, a Anthropic destacou que, enquanto preparavam os vídeos de demonstração, o usuário do computador Claude acidentalmente deu um clique em parar em uma longa gravação de tela, apagando todas as filmagens.

E as coisas são semelhantes quando se trata de velocidade. Atualmente, os agentes que usam computadores realizam dezenas ou centenas de etapas para executar ações moderadamente simples, como baixar uma série de palestras, combinar PDFs ou encontrar o cliente com mais cancelamentos em um portal de comércio eletrônico. Embora seja impressionante que ele consiga executar essas ações, as ferramentas existentes (ou até mesmo fazê-las você mesmo) são quase certamente mais rápidas. É a flexibilidade sem intervenção que tornará esses agentes de IA úteis, não a velocidade.

Também vale a pena notar que tanto a Anthropic quanto a OpenAI estão dando muita importância à segurança, e é fácil entender o porquê. Mesmo quando limitados a uma interface de chatbot, modelos de IA anteriores criaram todos os tipos errados de manchetes. Com acesso total a um navegador da web, basicamente não há limites para o comportamento adversário que um modelo de IA irrestrito pode adotar ou para os danos que ele pode causar com seus erros.

Nenhum deles é capaz de operar de forma totalmente autônoma: quando o ChatGPT Operator encontra um login, CAPTCHA ou detalhes de pagamento, ele devolve o controle do computador virtual ao usuário. Nessa situação, acho bom que os desenvolvedores estejam agindo devagar.

E é nesse ponto crucial que os agentes computacionais de IA estão agora. Eles são incrivelmente impressionantes e prometem muito, mas são muito lentos e ainda cometem muitos erros, especialmente com interfaces desconhecidas ou tarefas mais complexas. As preocupações com a segurança também são muito reais. Provavelmente não demorará muito para que eles sejam legitimamente úteis para algumas tarefas de baixo risco, mas acho que levará um tempo até que seja sensato dar a eles os detalhes do seu cartão de crédito e deixá-los fazer compras na Amazon.

Apesar de todas as minhas ressalvas, esse é o desenvolvimento de IA que mais me entusiasma.

Posso tentar usar o computador do Claude ou o operador ChatGPT?

Tanto o Claude Computer Use quanto o ChatGPT Operator estão disponíveis ao público, embora testá-los não seja tão simples.

O uso do computador por Claude só está disponível via API. Se você tiver habilidades técnicas, poderá colocá-lo em execução em um ambiente de desenvolvimento e se divertir.
O ChatGPT Operator está em versão prévia pública, mas apenas para assinantes do ChatGPT Pro , o que custará US$200/mês.

Leitura relacionada: