OpenAI

OpenAI ha lanzado Operator, su primer agente de IA.

Esta aplicación web puede realizar tareas online sencillas en un navegador web con sólo dar instrucciones e indicaciones. Este agente de IA puede «utilizar los ordenadores básicamente del mismo modo que nosotros». Es una locura y alucinante.

Por ejemplo, puedes reservar entradas de cine y hacer la compra online. También puedes rellenar formularios y crear memes con sólo pedírselo a ChatGPT.

Para utilizar Operator, sólo tienes que escribir tus instrucciones en un cuadro de texto. En lugar de utilizar un navegador en tu ordenador, Operator envía tus instrucciones a un navegador remoto. Este navegador se ejecuta en un servidor de OpenAI. OpenAI afirma que este enfoque mejora la eficacia del sistema.

OpenAI
Fuente de la imagen – Operator’s Live Stream on Youtube
image 4
Fuente de la imagen – Operator’s Live Stream on Youtube

El operador utiliza un nuevo modelo denominado Agente Informático (CUA). Este modelo se basa en el modelo de gran lenguaje multimodal de OpenAI, GPT-4o.

En palabras sencillas, este modelo está entrenado para interactuar con «los botones, menús y campos de texto que la gente utiliza a diario» en la web.

Este agente puede navegar por Internet y realizar tareas por ti. Tiene su propio navegador y puedes ver páginas web, escribir, hacer clic y desplazarte. También puede hacer preguntas de seguimiento para que las tareas que realiza sean más personales. Por ejemplo, puede pedirte datos de acceso a otras páginas web. Puedes tomar el control de la pantalla en cualquier momento, por si acaso… por si se vuelve rebelde.

Suena muy bien, ¿verdad?

Tabla de contenidos

Cómo acceder a Operator de OpenAI

Actualmente, sólo puedes acceder a Operator en operator.chatgpt.com si estás en Estados Unidos y tienes una suscripción ChatGPT Pro, que cuesta 200 dólares al mes.

OpenAI planea poner esta herramienta a disposición de más usuarios en el futuro. La compañía también afirma que su herramienta, Operator, funciona mejor que otras similares.

Entre ellas se encuentra Anthropic’s Computer Use, que es una versión de Claude 3.5 Sonnet para tareas informáticas sencillas. Otro competidor es Mariner, de Google DeepMind, un agente de navegación web basado en Gemini 2.0.

Cómo funciona el operador de OpenAI

Operator toma capturas de pantalla de un ordenador y escanea los píxeles para averiguar qué acciones puede realizar. CUA, el modelo en el que se basa, está diseñado para trabajar con las mismas interfaces gráficas de usuario.

Éstas incluyen botones, cuadros de texto y menús que la gente utiliza en Internet. El modelo escanea la pantalla, realiza una acción, vuelve a escanearla, realiza otra acción y así sucesivamente. Esto le permite realizar tareas en la mayoría de los sitios web que puede utilizar una persona.

CUA también divide las tareas en pasos más pequeños e intenta realizarlas una a una, retrocediendo cuando se atasca. Esto se debe a que CUA se entrenó con técnicas similares a las utilizadas para sus llamados modelos de razonamiento, como o1 y o1-preview.

Si el Operador se atasca debido a una interfaz compleja o a que le faltan detalles, te avisará. Entonces hará una pausa y te propondrá que te hagas cargo.

Una vez que hayas solucionado el problema o proporcionado la información necesaria, podrás terminar la tarea tú mismo. También puedes devolver el control al operador.

image 6
image 8
Fuente de la imagen – Operator’s Live Stream on Youtube

Limitaciones del operador

En la actualidad, Operator no es capaz de realizar de forma fiable muchas tareas complejas o especializadas. Entre ellas se incluyen la creación de presentaciones detalladas, la gestión de complejos sistemas de calendario o la interacción con interfaces web muy personalizadas o no estándar.

Dado que se encuentra en fase de investigación, Operator rechazará activamente algunas tareas importantes. Estas tareas incluyen transacciones financieras, envío de correos electrónicos, eliminación de eventos del calendario, etc.

Pero es de esperar que con el tiempo mejore en tareas tan complejas.

En resumen

OpenAI está colaborando con varias empresas, como OpenTable, StubHub, Instacart, DoorDash y Uber. La naturaleza de estas colaboraciones no está muy clara. Sin embargo, el operador parece sugerir sitios web específicos para determinadas tareas.

Estoy impaciente por probarlo en cuanto esté disponible en la India y otros lugares.

Esto nos acerca un poco más a la Inteligencia General Artificial (AGI). AGI significa sistemas de IA potentes que pueden utilizar un ordenador como lo hacemos tú o yo e igualar o superar el intelecto humano en una amplia gama de tareas.

¿Estás deseando probar Operator de OpenAI?
Cuéntame en los comentarios qué te parece y cómo puede influir en nuestro día a día. Puedes leer más sobre Operator de OpenAI aquí o en los enlaces que te comparto:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *