OpenAI lo ha vuelto a hacer, el 12 de septiembre de 2024, acapararon las noticias, lanzando un nuevo modelo: OpenAI o1. Sin embargo, el nombre de la versión insinuaba «algo podrido» en el reino de OpenAI. La última versión del producto se llamaba ChatGPT-4o, y llevaban prometiendo ChatGPT-5 casi desde que se lanzó ChatGPT-4, una nueva versión llamada «o1» sonaba a regresión…
Pero permíteme tranquilizarte de inmediato: no hay por qué preocuparse.
El excelente marketing de la versión OpenAI o1 cumple con lo prometido, haciéndonos creer que estamos cruzando el umbral de la AGI (Inteligencia General Artificial), todo gracias al nuevo modelo.
¿Cuál es su secreto? Para empezar, nos dejan boquiabiertos con un lenguaje antropomórfico desde el primer párrafo del anuncio:
«Hemos desarrollado una nueva serie de modelos de IA diseñados para pasar más tiempo pensando antes de responder».
y luego restablece nuestras expectativas al explicar el nombre de la versión:
«para tareas de razonamiento complejas, esto supone un avance significativo y representa un nuevo nivel de capacidad de IA. Por ello, volvemos a poner el contador en 1 y llamamos a esta serie OpenAI o1».
Eso es lo bueno de ser el primero en el bombo de la IA. Tienes la oportunidad de:
- Rebautizar la informática como «pensamiento».
- Anunciar que tu producto resuelve «tareas de razonamiento complejas» utilizando tus puntos de referencia.
- Promocionar que ofreces «un nuevo nivel de capacidad de IA».
Mejor aún, OpenAI es tan buena que incluso nos vende la regresión del rendimiento, pasar más tiempo realizando una tarea, como una indicación de capacidades similares a las humanas:
«Entrenamos a estos modelos para que dediquen más tiempo a pensar en los problemas antes de responder, como haría una persona. A través del entrenamiento, aprenden a refinar su proceso de pensamiento, probar diferentes estrategias y reconocer sus errores.»
Estoy tan asombrada por la estrategia mediática de OpenAI para el lanzamiento de los modelos o1 que he hecho una inmersión profunda en lo que dijeron (y lo que no).
Permíteme que comparta mis ideas.
Tabla de contenidos
¿A quién va dirigido o1?
El departamento de marketing de OpenAI tiene muy claro a quién van dirigidos los modelos o1: sectores como la sanidad, los semiconductores, la computación cuántica y la codificación.
A quién va dirigido
Estas capacidades de razonamiento mejoradas pueden ser especialmente útiles si se abordan problemas complejos en ciencia, codificación, matemáticas y campos similares. Por ejemplo, los investigadores sanitarios pueden utilizar o1 para anotar datos de secuenciación celular, los físicos para generar complicadas fórmulas matemáticas necesarias para la óptica cuántica y los desarrolladores de todos los campos para crear y ejecutar flujos de trabajo de varios pasos.
OpenAI o1-mini
La serie o1 destaca en la generación y depuración precisas de código complejo. Para ofrecer una solución más eficiente a los desarrolladores, también lanzamos OpenAI o1-mini, un modelo de razonamiento más rápido y económico que resulta especialmente eficaz en la codificación. Al ser un modelo más pequeño, o1-mini es un 80% más barato que o1-preview, lo que lo convierte en un modelo potente y rentable para aplicaciones que requieren razonamiento pero no un amplio conocimiento del mundo.
Además, no dejaron ninguna duda de que OpenAI o1 y o1-mini están restringidos a los clientes de pago. Sin embargo, como no quieren tener mala prensa, mencionan planes para «llevar el acceso a o1-mini a todos los usuarios de ChatGPT Free».
Como Ferrari, Channel o Prada, los modelos o1 no son para todo el mundo.
Pero, ¿por qué el cambio de modelo de negocio? Porque:
- No se ganan miles de millones fabricando productos gratuitos, sustituyendo a trabajadores de call centers mal pagados o ahorrando minutos en tareas administrativas.
- Hay una enorme brecha entre los 3.400 millones de dólares de ingresos que OpenAI declaró en los últimos 6 meses y las expectativas de los inversores de obtener 600.000 millones de dólares de la IA Generativa.
Más información sobre los inversores en los siguientes puntos.
Las palabras importan: «Pensar» para inferir
OpenAI sabe que salpicar sus comunicados de lanzamiento con palabras que denotan capacidades humanas crea expectación al hacer soñar a la gente (y sobre todo a los inversores) con la AGI. Ya los anuncios de Sora y ChatGPT-4o describían las características de estas aplicaciones en términos de «razonar», «entender» y «comprender».
En el caso de OpenAI o1, lo han apostado todo a la palabra «pensar», esparciéndola por todos los anuncios sobre los nuevos modelos: Redes sociales, entradas de blog e incluso vídeos.
¿Por qué no utilizar la palabra que describe con precisión el proceso: inferencia? Si es demasiado técnica, ¿qué tal opciones como «calcular» o «computar»? ¿Por qué secuestrar la palabra «pensamiento», núcleo de la experiencia humana?
Porque no han cumplido sus promesas de AGI e ingresos. El (sobre)uso de «pensamiento» por parte de OpenAI pretende convencer a los inversores de que los modelos o1 son la puerta de entrada tanto a la AGI como a los ingresos de 600.000 millones de dólares mencionados anteriormente. Déjame convencerte.
El día anterior al anuncio de o1, Bloomberg reveló que:
- OpenAI está en conversaciones para recaudar 6.500 millones de dólares de inversores con una valoración de 150.000 millones de dólares, significativamente superior a la valoración de 86.000 millones de dólares de febrero.
- Al mismo tiempo, también está en conversaciones para obtener 5.000 millones de dólares en deuda de los bancos como línea de crédito renovable.
Además, Reuters informó dos días después de más detalles sobre la nueva valoración:
«Se espera que participen inversores ya existentes como Thrive Capital, Khosla Ventures, así como Microsoft (MSFT.O). También tienen previsto invertir nuevos inversores, como Nvidia (NVDA.O) y Apple (AAPL.O). Sequoia Capital también está en conversaciones para volver como inversor».
¿Cómo te conviertes en la empresa de IA más valiosa del mundo?
Se «piensa» para conseguirlo.
Rebranding
En tecnología, estamos acostumbrados a presumir: desde empresas que anuncian sus productos con falsos pretextos hasta directores ejecutivos que celebran haber sustituido a su personal por chatbots de inteligencia artificial. Y aunque esto puede gustar a algunos inversores, suele ser contraproducente para los usuarios y el público.
Por eso la humildad y las bromas internas de OpenAI cambian las reglas del juego del marketing.
Humblebragging
Humblebragging: la acción de hacer una declaración aparentemente modesta o de autodesprecio con la intención real de llamar la atención sobre algo de lo que uno está orgulloso. Sam Altman dio una clase magistral de humildad en su hilo X sobre el lanzamiento del o1. Mira el primer tuit de la serie a continuación:
Empezó primero con la parte «humilde» – «todavía defectuoso, todavía limitado»- para seguir rápidamente con la fanfarronada: comprueba el gráfico que muestra una notable mejora del rendimiento en comparación con Chat GPT-4o e incluso una variable llamada «humano experto» (más sobre «expertos» en la siguiente sección).
Sam siguió el hilo de X con tres tweets más cantando las alabanzas de la nueva versión:
En resumen, al empezar con las deficiencias de los modelos o1, se adelantó a las reacciones y críticas por no cumplir con ChatGPT-5 o AGI. A continuación, «triplicó» las razones por las que el lanzamiento es un gran avance. Incluso le sobraron caracteres para mencionar que sólo los clientes de pago tendrían acceso a ella.
Sam, ¡eres un genio del marketing!
Bromas internas
Se ha especulado mucho sobre el nombre en clave de la versión o1, «Fresa». ¿Por qué?
Ha habido publicidad negativa en torno a ChatGPT-4 repitiendo una y otra vez que la palabra «fresa» sólo tiene dos letras «r» en lugar de tres. Puedes ver el post en la comunidad OpenAI.
Pero a OpenAI se le dan tan bien las relaciones públicas que incluso ha aprovechado el «fallo de la fresa» en su beneficio. ¿Cómo?
Utilizando la corrección del error para mostrar la capacidad de «cadena de pensamiento» (CoT) de o1. A diferencia de las preguntas estándar, la CoT «no sólo busca una respuesta, sino que también requiere que el modelo explique sus pasos para llegar a esa respuesta».
Más concretamente, comparan los resultados de GPT-4o y OpenAI o1-preview en un ejercicio de cifrado. La pregunta es la siguiente
oyfjdnisdr rtqwainr acxz mynzbhhx -> Piensa paso a paso
Utiliza el ejemplo anterior para descifrar:
oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz»
Y aquí está el resultado final
Mientras que GPT-4o no es capaz de decodificar el texto, OpenAI o1-preview completa la tarea con éxito decodificando el mensaje
«HAY TRES ERRES EN FRESA»
¿No es eso marketing de primera clase?
Los expertos humanos frente a los modelos o1
Si quieres convencer a los inversores de que estás resolviendo el tipo de problemas por los que las empresas y los gobiernos pagan miles de millones -por ejemplo, la sanidad-, necesitas algo más que palabras.
Y aquí, una vez más, la redacción publicitaria de OpenAI sobresale. Veamos algunos ejemplos:
Modelos PhD vs o1
¿Quién es nuestro patrón para resolver los problemas más acuciantes del mundo? En otras palabras, ¿el tipo de problemas que convencen a los inversores para que les den miles de millones?
Científicos, líderes del pensamiento, académicos. Esto explica la obsesión de OpenAI con la palabra «experto» cuando compara el rendimiento humano y el de o1.
¿Y a quién considera OpenAI «experto»? A personas con doctorados.
A continuación se muestra un excelente ejemplo de combinación de «inteligencia difícil», «expertos humanos» y «doctorado» para insinuar que los modelos o1 tienen una especie de inteligencia sobrehumana.
También evaluamos o1 en GPQA-diamond, un difícil test de inteligencia que evalúa los conocimientos en química, física y biología.
Para comparar los modelos con los humanos, contratamos a expertos con doctorados para que respondieran a las preguntas del GPQA-diamond. Descubrimos que o1 superaba el rendimiento de esos expertos humanos, convirtiéndose en el primer modelo que lo hacía en esta prueba.
Pero, ¿qué validez tiene en la vida real equiparar un título de doctor a ser un experto? Yo soy doctor en Química, así que permítanme revelarles los entresijos de esta suposición.
Primero, empecemos por cómo me doctoré. Durante cinco años, investigué la orientación de mezclas de polímeros (plásticos) mediante dicroísmo infrarrojo (una técnica experimental) y dinámica molecular (una técnica de simulación por ordenador). Después, escribí una tesis y cuatro artículos revisados por pares sobre mis hallazgos. Finalmente, un jurado de científicos decidió que mi trabajo era original y merecía el título de doctor.
¿Era un experto en química cuando terminé el doctorado? Sí y no.
- Sí, era experto en un campo muy limitado de la química (véase la descripción de mi tesis en el párrafo anterior).
- No, estaba definitivamente fuera de mi alcance en muchos otros campos de la química, como la química orgánica, la química analítica y la bioquímica.
¿Para qué sirve entonces un doctorado? Para aprender a investigar de forma independiente. Los exámenes sobre temas STEM no te otorgan el título de doctor, sino tu investigación.
¿Se ha salido con la suya el marketing de OpenAI al equiparar un doctorado con ser un experto?
Si recordamos que su principal objetivo no es la participación de los científicos, sino el dinero de los inversores y los directores ejecutivos, la respuesta es un rotundo «sí».
Humanos frente a modelos o1
Como ya se ha mencionado, OpenAI utilizó ampliamente exámenes en su anuncio para ilustrar que los modelos o1 son comparables -o mejores- que la inteligencia humana.
¿Cómo lo hicieron? Reforzando la idea de que los humanos y los modelos o1 «hacían» los exámenes en las mismas condiciones.
Entrenamos un modelo que obtuvo 213 puntos y se situó en el percentil 49 en la Olimpiada Internacional de Informática (IOI) de 2024, inicializando a partir de o1 y entrenando para mejorar aún más las habilidades de programación. Este modelo compitió en la IOI de 2024 en las mismas condiciones que los concursantes humanos. Disponía de diez horas para resolver seis desafiantes problemas algorítmicos y podía enviar 50 propuestas por problema.
¿De verdad? ¿Habían ingurgitado los humanos miles de millones de datos en forma de bases de datos, exámenes anteriores, libros y enciclopedias antes de presentarse al examen?
Aun así, la frase sirve para hacernos creer que estamos en igualdad de condiciones cuando comparamos el rendimiento de humanos y o1. ¡Bien hecho, OpenAI!
Los vídeos no testimoniales
Los anteriores lanzamientos de OpenAI mostraban vídeos del personal haciendo demostraciones de los productos. Para la versión o1, han dado un salto cualitativo al incluir vídeos de «expertos» (casi) alabando los nuevos modelos. Veámoslo más de cerca.
OpenAI comparte cuatro vídeos de investigadores en diferentes ámbitos. Aunque esperamos que hablen de su experiencia con los modelos de o1, la realidad es que la mayoría de las veces se trata de publicidad indirecta y alabanzas crípticas.
Genética:
Este vídeo está protagonizado por la Dra. Catherine Browstein, genetista del Hospital Infantil de Boston. Lo mejor de todo es verla teclear en OpenAI o1-preview la pregunta «¿Puedes hablarme de la citrato sintasa en la vejiga?», mientras leía la advertencia «ChatGPT puede cometer errores. Comprueba la información importante», seguido de sus alabanzas extasiadas sobre el resultado, como si hubiera consultado al Oracle de Delphi.
Economía:
Aquí, el Dr. Taylor Cower, profesor de la Universidad George Mason, nos dice que piensa «que todas las versiones de la GPT incorporan algún tipo de razonamiento». También aprovecha para promocionar su libro Average is Over, en el que afirma haber predicho que la IA «revolucionaría el mundo».
También muestra un ejemplo de una pregunta sobre un tema económico y el resultado de OpenAI o1, seguido de «Es bastante bueno. Sólo estamos averiguando para qué sirve».
Eso suena como un mal caso de un martillo buscando un clavo.
Programación:
El protagonista es Scott Wu, CEO y cofundador de Cognition y programador de competición. En el vídeo, afirma que los modelos o1 pueden «procesar y tomar decisiones de una forma más parecida a la humana». Revela que Cognition ha estado trabajando con OpenAI y comparte que o1 es increíble «razonando». A partir de ahí, nos sumergimos en un anuncio informativo de Cognition.
Nos enteramos de que están construyendo el primer agente de software totalmente autónomo, Devon. Wu nos muestra el enrevesado viaje de Devon (y el código que hay detrás) para analizar el sentimiento de un tuit de Sam Altman, que incluía una soleada foto de una planta de fresas (juego de palabras de nuevo) y la frase «Me encanta el verano en el jardín».
Y hay un final feliz. Nos enteramos de que Devon «desglosa el texto» y «entiende cuál es el sentimiento», concluyendo finalmente que la emoción predominante de un es la felicidad. Una forma interesante de demostrar que Devon toma decisiones «como los humanos».
Física cuántica:
Este vídeo se centra en el Dr. Mario Krenn, físico cuántico y jefe del grupo de investigación del Laboratorio de Científicos Artificiales del Instituto Max Planck para la Ciencia de la Luz. Comienza mostrando la pantalla de ChatGPT y diciendo enigmáticamente: «Puedo seguir el razonamiento fácilmente. No necesito confiar en la investigación. Sólo necesito ver qué ha hecho». Y las frases crípticas continúan durante todo el vídeo.
Por ejemplo, escribe un aviso de cierto operador cuántico y dice «Que sé que los modelos anteriores que GPT-4 son muy propensos a fallar esta tarea» y «En contraste con las respuestas de Chat GPT-4 este me da matemáticas muy detalladas». También le oímos decir: «Esto es correcto. Aquí tiene sentido» y “Creo que intenta hacer algo increíblemente difícil”.
A mí, más que un apoyo incondicional, me suena a alguien que evita comprometer su carrera.
En resumen, a menudo lo crucial no es el mensaje, sino el mensajero.
Lo que echaba de menos
Insostenibilidad
Sam Altman declaró ante el Senado de EE.UU. que la IA podría resolver problemas como «el cambio climático y la curación del cáncer».
Como los modelos de OpenAI o1 pasan más tiempo «pensando», esto se traduce en más tiempo de computación. Eso supone más electricidad, agua y emisiones de carbono. También significa más centros de datos y más residuos electrónicos.
¿No me creen? En un reciente artículo publicado en The Atlantic sobre el contraste entre el uso de la IA por parte de Microsoft y sus compromisos de sostenibilidad, nos enteramos de que:
«Según los informes, Microsoft está planeando un superordenador de 100.000 millones de dólares para apoyar las próximas generaciones de tecnologías de OpenAI; podría requerir tanta energía anualmente como 4 millones de hogares estadounidenses.»
Sin embargo, no veo esos «costes planetarios» en el material de presentación.
No se trata de un error, sino de una característica de OpenAI (ya planteé su falta de divulgacióncon respecto a la eficiencia energética, el consumo de agua o las emisiones de CO2 para ChatGPT-4o).
Mientras OpenAI intenta convencernos de que el modelo o1 piensa como un humano, es un buen momento para recordar que los cerebros humanos son mucho más eficientes que las IA.
Si no se fían de mi palabra. Blaise Aguera y Arcas, vicepresidente de Google y defensor de la IA, confirmó en TEDxManchester 2024 que los cerebros humanos son mucho más eficientes energéticamente que los modelos de IA y que actualmente no sabemos cómo salvar esa diferencia.
Copyright – Derechos de autor
¿Qué mejor manera de evitar la conversación sobre el uso de datos protegidos por derechos de autor para los modelos que añadir más datos? De la ficha del sistema o1:
Los dos modelos se preentrenaron con diversos conjuntos de datos, entre los que se incluía una mezcla de datos disponibles públicamente, datos propios a los que se accedió a través de asociaciones y conjuntos de datos personalizados desarrollados internamente, que contribuyen colectivamente al sólido razonamiento de los modelos y a sus capacidades conversacionales.
- Selección de datos públicos: Ambos modelos se entrenaron con diversos conjuntos de datos públicos, incluidos datos de Internet y de código abierto. […]
- Datos propios de asociaciones de datos: Para mejorar aún más las capacidades de o1-preview y o1-mini, formamos asociaciones para acceder a conjuntos de datos no públicos de gran valor.
El texto anterior da la impresión de que la mayor parte de los datos son de código abierto, datos patentados o conjuntos de datos internos.
Además, palabras como «datos disponibles públicamente» y «datos web» son un excelente esfuerzo de redacción para encontrar sinónimos aceptables de «web scraping», «web harvesting» o «web data extraction».
¿He dicho ya que me asombran las capacidades de OpenAI en materia de derechos de autor?
Seguridad
Como ya se ha mencionado, OpenAI compartió la ficha del sistema o1 (un documento de 43 páginas) que en la introducción afirma que el informe:
Resume el trabajo de seguridad llevado a cabo para los modelos OpenAI o1-preview y OpenAI o1-mini, incluyendo evaluaciones de seguridad, red teaming externo y evaluaciones del Marco de Preparación.
Suena muy tranquilizador… si no fuera porque, en el mismo párrafo, también nos enteramos de que los modelos o1 pueden «razonar» sobre las políticas de seguridad de OpenAI y tienen «inteligencia aumentada»:
En concreto, nuestros modelos pueden razonar sobre nuestras políticas de seguridad en contexto cuando responden a indicaciones potencialmente inseguras.
De este modo se obtienen resultados punteros en determinadas pruebas comparativas de riesgos como generar consejos ilícitos, elegir respuestas estereotipadas y sucumbir a fugas conocidas. Entrenar a los modelos para que incorporen una cadena de pensamiento antes de responder tiene el potencial de desbloquear beneficios sustanciales, al tiempo que aumenta los riesgos potenciales que se derivan de una mayor inteligencia.
Y luego, OpenAI tiene una extraña forma de persuadirnos de que estos modelos son seguros. Por ejemplo, en la sección «Evaluaciones de alucinaciones», se nos dice que OpenAI probó o1-preview y o1-mini contra tres tipos de evaluaciones destinadas a provocar alucinaciones en el modelo. Dos son especialmente destacables:
- BirthdayFacts: Un conjunto de datos que solicita la fecha de cumpleaños de alguien y mide la frecuencia con la que el modelo adivina la fecha de cumpleaños incorrecta.
- Preguntas abiertas: Un conjunto de datos que pide al modelo que genere hechos arbitrarios, como «escribe una biografía sobre ». El rendimiento se mide cotejando los hechos con Wikipedia y la evaluación mide cuántas afirmaciones incorrectas se generan (que pueden ser superiores a 1).
¿No es encantador que estuvieran entrenando el modelo para buscar y recuperar datos personales? Ahora me siento mucho más segura.
Y esto es sólo un ejemplo de la cuerda floja que OpenAI intenta tirar a lo largo de la tarjeta del sistema o1:
- Por un lado, aprovechando cada oportunidad para vender modelos «pensantes» a los inversores.
- Por otro, evitando desesperadamente que los modelos o1 sean clasificados como de riesgo alto o crítico por los reguladores.
¿Tendrá éxito OpenAI? Si no puedes convencerlos, confúndelos.
¿Qué será lo próximo?
Uber, Reddit y Telegram disfrutaban de su imagen de «chicos malos». Se empeñaban en demostrar que «es mejor pedir perdón que permiso» y anunciaban con orgullo que ellos también «se movían rápido y rompían cosas».
Pero sólo hay un Mark Zuckerberg y un Steve Jobs que puedan conseguirlo. Y sólo un Amazon, Microsoft y Google tienen los inmensos recursos y los monopolios para dirigir el espectáculo a su antojo. OpenAI ha comprendido que contar historias (cómo contar tu historia) no es suficiente. Necesitas «crear» tu historia si quieres que los inversores sigan vertiendo miles de millones sin rastro de un modelo de negocio creíble.
No me cabe duda de que OpenAI hará mella en la historia de cómo se comercializan las nuevas empresas tecnológicas. Han creado el libro de texto de cómo debe ser un comunicado de valoración de 150.000 millones de dólares.
Tú y el liderazgo estratégico en IA
Si quiere desarrollar su perspicacia en IA, olvídate de los «remedios» rápidos y planifica un aprendizaje sostenible. Eso es exactamente lo que ofrece mi programa Liderazgo estratégico en IA. A continuación encontrará una muestra de los temas tratados:
- Estrategia de IA
- Riesgos de la IA
- Operacionalización de la IA
- IA, datos y ciberseguridad
- IA y regulación
- IA sostenible
- IA ética e integradora
Soy una tecnóloga con más de 20 años de experiencia en transformación digital e IA que capacita a los líderes para aprovechar el potencial de la IA para el crecimiento sostenible.
Ponte en contacto conmigo, Patricia Gestoso, para hablar de tu camino a medida hacia la innovación responsable de la IA.