Saltar al contenido
  • Inicio

  • Productividad

  • Consejos sobre aplicaciones

Consejos sobre aplicaciones

6 min de lectura

¿Para qué sirven la computadora Claude y el operador ChatGPT?

Cómo funcionan los agentes informáticos de IA y por qué debería importarle

Por Harry Guinness · Enero 24, 2025
Imagen de héroe con un ícono que representa un agente de IA

Utilizo chatbots como ChatGPT y Claude casi a diario para responder preguntas rápidas, ayudarme a resolver problemas, corregir códigos terribles y descubrir la palabra que tengo en la punta de la lengua. Pero una de las grandes desventajas de los chatbots de IA actuales es que están limitados en gran medida a su interfaz conversacional.

El uso de computadoras por parte de Claude y el operador ChatGPT prometen cambiar eso. 

Utilizan una combinación del modelo de lenguaje incorporado, capturas de pantalla y una máquina virtual para imitar cómo los humanos usan las computadoras, controlando efectivamente su computadora (con su permiso). Si bien aún están lejos de ser completamente autónomos, son el primer paso real hacia la creación de agentes de IA de uso general accesibles que puedan actuar de forma independiente.

Esto es lo que necesitas saber.

¿Por qué son tan importantes el uso de la computadora Claude y el Operador de OpenAI?

Los agentes IA informáticos, como Claude Computer Use y OpenAI Operator (que utiliza el nuevo modelode agente que utiliza computadoras [CUA] ) se están volviendo más prominentes, por lo que vale la pena entender cómo se ven las cosas sin agentes de IA, eso puede ayudarnos a ver cuán importantes son estos avances.

Aparte de la función principal del chatbot, casi todas las características de un chatbot de IA dependen de API. Estos pueden ser creados por los desarrolladores del chatbot, como es el caso de cosas como ChatGPT Search, o por desarrolladores externos, que utilizan herramientas como GPT personalizados

Por ejemplo, Kayak, un servicio de reserva de viajes, tiene un GPT personalizado que puedes probar tú mismo. Es bastante básico. Utiliza ChatGPT para extraer los detalles relevantes de tu mensaje, enviarlos a Kayak mediante la API y luego mostrar los resultados. Funciona, pero no es muy flexible y no puedo pedirle a ChatGPT que consulte un sitio de comparación de vuelos diferente, o incluso ver qué precio obtendría si reservara directamente con la aerolínea. 

El Kayak GPT

Las herramientas de IA que dependen exclusivamente de las API tienen otras desventajas. Requiere que cualquier sitio o servicio al que intentes acceder tenga una API, para empezar, y luego requiere que el sitio o servicio ofrezca todas las funciones que deseas a través de la API. Si bien puedo ver vuelos a través de GPT de Kayak, no puedo reservar un vuelo ni cambiar la dirección de correo electrónico de mi cuenta ni hacer innumerables otras cosas que puedo hacer a través de la página web.

Disponer de agentes informáticos de IA que puedan navegar por cualquier página web, utilizar cualquier aplicación y trabajar con cualquier archivo sería un asombroso paso adelante. Podrías, por ejemplo, hacer que tu agente de IA busque y cotice un viaje en Kayak para tres fines de semana diferentes y te diga cuál es el más barato. Tal vez incluso pueda reservar el viaje para usted, aunque eso va mucho más allá de lo que se puede confiar en que hagan los agentes informáticos de IA actuales. 

¿Cómo funcionan los agentes informáticos de IA?

Los agentes informáticos de IA reúnen algunos avances recientes en IA, incluidos los modelos multimodales que pueden comprender más que solo texto y modelos de razonamiento que pueden resolver problemas más complicados. 

Así es como funcionan:

  • Usan capturas de pantalla para mirar la pantalla de una computadora y comprender qué está sucediendo. 

  • Dividen instrucciones complejas en una serie de pasos lógicos, los prueban y se autocorrigen si las cosas no funcionan como se espera.

  • Pueden usar un mouse y un teclado virtuales para navegar por una interfaz de usuario normal en una máquina virtual. 

Esto se descompone en un flujo de trabajo de IA simple y repetible: 

  1. Tomar una captura de pantalla.

  2. Decide la siguiente acción de la computadora que más se acerque al objetivo.

  3. Ejecutar la acción.

  4. Tomar una captura de pantalla.

  5. Decide la siguiente acción de la computadora que más se acerque al objetivo.

  6. Ejecutar la acción.

  7. Repita hasta alcanzar la meta.

Por supuesto, las cosas son mucho más complicadas bajo el capó. Los agentes de IA tuvieron que ser entrenados en los conceptos básicos de la interacción humano-computadora, y fue necesario desarrollar una técnica para contar con precisión los píxeles en una captura de pantalla para que la IA pudiera saber dónde mover el cursor y hacer clic antes de que todo esto comenzara a funcionar. 

Los agentes de IA también están siendo entrenados en plataformas específicas como Uber, OpenTable y DoorDash para que puedan trabajar con servicios del mundo real "respetando las normas establecidas ". (Supongo que esto significa sin pedir cuatro Ubers a la vez).

En este momento, tanto la computadora Claude como el operador ChatGPT se encuentran en fase beta. Si bien los componentes básicos de los agentes informáticos de IA están empezando a unirse, están lejos de ser lo suficientemente confiables para un uso importante en el mundo real.

¿Qué pueden hacer los agentes informáticos de IA?

El gran avance es que los agentes informáticos de IA pueden utilizar una computadora como un humano, aunque de forma más lenta y con menor precisión. Estos no son el tipo de bots que revenden entradas para Taylor Swift. Aún así, incluso en las demostraciones, muestran mucha promesa. 

Estas son algunas de las cosas que Anthropic y OpenAI han demostrado que sus agentes que usan computadoras pueden hacer a partir de una indicación de texto:

  • Navegar por sistemas Windows, Mac y Linux, abrir navegadores y otras aplicaciones, y navegar y buscar en la web.

  • Completar formularios extrayendo datos de hojas de cálculo, CRM y diferentes fuentes de datos.

  • Buscar información sobre una caminata al amanecer en Google, calcular la distancia usando Google Maps y crear un evento de Google Calendar a la hora requerida para salir.

  • Creación de proyectos y listas de compras en aplicaciones de tareas pendientes.

  • Encontrar una receta en Allrecipes y agregar los ingredientes a un carrito de compras de Instacart.

  • Descargar archivos, combinar PDF y exportar imágenes.

  • Resolver cuestionarios en línea.

  • Encontrar información específica de clientes en backends de comercio electrónico simulados.

A continuación se muestra un ejemplo de demostración del uso de la computadora por parte de Claude.

Pero esto es sólo lo que pueden hacer por ahora. Lo emocionante es lo que podrían hacer, una vez que sean lo suficientemente buenos. Lo primero que me viene a la mente son cosas como:

  • Todo el trabajo contable aburrido y pesado que puedas imaginar, como la facturación, registrar horas, conciliar cuentas, enviar gastos y similares. 

  • Trabajar con hojas de cálculo para extraer datos de todo tipo de fuentes.

  • Mirar productos fuera de stock en las tiendas online y hacer un pedido cuando estén disponibles. 

  • Reservar entradas de cine o conseguir reservas en restaurantes tan pronto como abran. 

  • Escaneando su carpeta de correo no deseado para asegurarse de que no haya pasado nada importante por alto.

  • Cómo tratar con agentes de soporte online y chatbots.

Y honestamente, esas son sólo las cosas que pensé en 30 segundos de lluvia de ideas. Hay literalmente innumerables formas en las que un agente informático de IA podría ser útil.

¿Qué tan buenos son los agentes informáticos de IA en la actualidad?

En su anuncio de Computer-Using Agent (CUA), OpenAI afirma que su modelo alcanza 38.1%, un nuevo rendimiento de última generación en el punto de referencia OSWorld. El uso de la computadora por parte de Claude alcanzó 22% en el mismo índice de referencia en octubre del año pasado. 

El truco: un humano normal obtiene 72.4%. 

De manera similar, en su anuncio de lanzamiento, Anthropic destacó que, mientras preparaban los videos de demostración, el usuario de computadora Claude accidentalmente hizo clic en detener una grabación de pantalla larga, borrando todo el metraje.

Y las cosas son similares cuando se trata de velocidad. Actualmente, los agentes que utilizan computadoras realizan decenas o cientos de pasos para realizar acciones moderadamente simples como descargar una serie de conferencias, combinar archivos PDF o encontrar al cliente con más cancelaciones en un portal de comercio electrónico. Si bien es muy impresionante que pueda realizar estas acciones, las herramientas existentes (o incluso hacerlo usted mismo) son casi con certeza más rápidas. Es la flexibilidad sin intervención lo que hará que estos agentes de IA sean útiles, no la velocidad.

También vale la pena señalar que tanto Anthropic como OpenAI están haciendo un gran trato sobre la seguridad, y es fácil entender por qué. Incluso cuando se limitaban a una interfaz de chatbot, los modelos de IA anteriores crearon todos los tipos de titulares equivocados. Con acceso completo a un navegador web, esencialmente no existen límites a qué comportamiento adversario podría lograr un modelo de IA sin restricciones o qué daño podría causar con sus errores. 

Ninguno de ellos es capaz de funcionar aún de forma totalmente autónoma: cuando ChatGPT Operator encuentra un inicio de sesión, un CAPTCHA o detalles de pago, devuelve el control de la computadora virtual al usuario. En esta situación, creo que es bueno que los desarrolladores avancen lentamente.

Y este es el punto crucial de la situación actual de los agentes informáticos de IA. Son increíblemente impresionantes y muestran una enorme promesa, pero son muy lentos y aún cometen muchos errores, especialmente con interfaces desconocidas o tareas más complejas. Las preocupaciones de seguridad también son muy reales. Probablemente no pasará mucho tiempo antes de que sean legítimamente útiles para algunas tareas de bajo riesgo, pero creo que pasará un tiempo antes de que sea sensato darles los datos de su tarjeta de crédito y permitirles comprar en Amazon.

A pesar de todas mis advertencias, este es el desarrollo de IA que más me entusiasma.

¿Puedo probar el uso de la computadora Claude o el operador ChatGPT?

Tanto Claude Computer Use como ChatGPT Operator están disponibles para el público, aunque probarlos no es tan sencillo. 

  • El uso de la computadora de Claude solo está disponible a través de API. Si tienes las habilidades técnicas, puedes ponerlo en funcionamiento en un entorno de desarrollo y divertirte. 

  • ChatGPT Operator está en versión preliminar pública, pero solo para suscriptores de ChatGPT Pro , y eso le costará $200/mes. 

Lecturas relacionadas:

  • Claude frente a ChatGPT: ¿cuál es la diferencia?

  • Las 8 mejores alternativas a ChatGPT

  • Agentes de IA que automatizan el trabajo en todas tus aplicaciones

Recibe consejos para mejorar la productividad directamente en tu bandeja de entrada

Te enviaremos correos electrónicos 1-3 veces por semana y nunca compartiremos tu información.

etiquetas
aplicaciones mencionadas

Artículos relacionados

Mejora tu productividad automáticamente. Usa Zapier para que tus aplicaciones trabajen juntas.

Regístrate
Descubre cómo funciona Zapier
Un Zap con el trigger «Cuando consigo un nuevo cliente potencial de Facebook» y la acción «Notificar a mi equipo en Slack».