Yo, como tantos otros, vi la demostración informática de OpenAI en la que mostraban su implementación de Operator. Lo que me entusiasmó fue el hecho de que Operator hace uso de un modelo CUA, Computer-Using Agent (CUA) model.
Este es un buen ejemplo de cómo las capacidades multimodales de los modelos se están expandiendo con la visión y siendo capaces de interpretar GUIs dentro de un navegador.
Actualmente no tengo acceso a Operator, pero quería crear una aplicación de demostración basada en el modelo CUA, en la que hago una pregunta sencilla y el agente de IA abre un navegador para encontrar la respuesta.
Se puede acceder a la herramienta de uso del ordenador y al modelo a través de la API Responses.
En esencia, el modelo CUA examina una captura de pantalla de la interfaz del ordenador y sugiere acciones a realizar.
Más concretamente, emite computer_call(s) con instrucciones como click(x,y) o type(text), que luego debes llevar a cabo en tu entorno, seguidas de capturas de pantalla de los resultados.
En el siguiente vídeo, le pedí al Agente de IA que obtuviera el tiempo en Ciudad del Cabo, Dar Es Salaam y también que comprobara el precio de las acciones de Apple…


Teniendo en cuenta la imagen anterior, he aquí cómo añadir la herramienta de uso del ordenador a tu aplicación en sencillos pasos:
Un usuario envía una petición (1) al modelo, (2) incluye la herramienta ordenador en la lista de herramientas, junto con el tamaño de la pantalla y los detalles del entorno. Puedes adjuntar una captura de pantalla del estado inicial con la primera petición.
Obtén la respuesta del modelo, (3) busca cualquier elemento computer_call en la respuesta. Estos sugieren acciones como (4) hacer clic, escribir, desplazarse o esperar para avanzar hacia su objetivo.
Realiza la acción, (5) utiliza código para llevar a cabo la acción sugerida en tu ordenador o navegador (6).
Haz una nueva captura de pantalla, (7) después de la acción, captura el entorno actualizado como una captura de pantalla.
Repita: Envíe una nueva solicitud con la captura de pantalla actualizada como (7 de nuevo a 1) computer_call_output, y continúe hasta que el modelo deje de sugerir acciones o usted decida parar.
De nuevo, en un MacBook, puedes hacer uso de la aplicación terminal para realizar todas las tareas…

Desde la línea de comandos del terminal, crea un entorno virtual… Yo llamé al entorno virtual cua.
python3 -m venv cua
A continuación, activa el entorno virtual…
source cua/bin/activate
Verás que la línea de comandos cambia para mostrarte que ahora estás dentro del entorno virtual.

Clonar el proyecto de demostración de OpenAI desde GitHub…
git clone https://github.com/openai/openai-cua-sample-ap
Una vez que hayas introducido el comando, se te pedirá tu nombre de usuario de GitHub y, a continuación, la contraseña.
Para la contraseña, necesitas introducir un token de acceso que se encuentra en GitHub en tu configuración de usuario. Lee más al respecto aquí:
Verás que se crea una nueva carpeta, como se muestra a continuación, con los archivos y la estructura de archivos.

Ejecuta el siguiente comando para realizar la instalación de todos los requisitos…
pip install -r requirements.txt
Crea una variable de entorno para tu clave API de OpenAI…
export OPENAI_API_KEY=<your secret key>
Y por último ejecuta el Agente AI con el siguiente comando…
python3 cli.py --computer local-playwright
Verás que el prompt cambia, y se abre un navegador, ahora puedes hablar con el Agente AI a través de la línea de comandos. No hay necesidad de interactuar con el navegador ….

A continuación, puedes ver que le hago una pregunta al agente de la IA sobre el tiempo….

Y a continuación puede ver cómo el Agente de navegación está interactuando con el navegador…

Las respuestas del modelo computer-use-preview-2025-03-11 se pueden ver a continuación, en el panel de OpenAI.

Si haces clic en una de las líneas, se muestran las imágenes con la respuesta del modelo…

La clase Agente puede utilizar esquemas de funciones regulares como herramientas, devolviendo un valor fijo cuando son llamadas. Si incluye herramientas que coincidan con los métodos de su Computadora (junto con los requeridos), serán enviadas a su Computadora para que las maneje.
Esto ayuda en situaciones en las que las capturas de pantalla omiten cosas como la barra de búsqueda o la flecha de retroceso, que pueden confundir al modelo CUA.
Sígueme en LinkedIn
Chief Evangelist @ Kore.ai | Me apasiona explorar la intersección de la IA y el lenguaje. Desde modelos lingüísticos y agentes de IA hasta aplicaciones agenéticas, marcos de desarrollo y herramientas de productividad centradas en los datos, comparto ideas sobre cómo estas tecnologías están dando forma al futuro.