Cuando OpenAI presentó o1 afirmó que su último Gran Modelo Lingüístico (LLM) mostraba nuevos niveles de capacidad de IA. Hoy en día, el entusiasmo se ha desvanecido en gran medida, y las capacidades de este modelo han sido recuperadas por el código abierto. Por un momento, hubo un momento agridulce en el que casi parecía que el modelo había alcanzado las capacidades humanas. Más allá del marketing, o1 suscitó de nuevo un debate sobre lo avanzados que son realmente los LLM, lo bien que captan las capacidades humanas y lo que hace falta para llegar a una inteligencia artificial con las mismas capacidades cognitivas que nosotros.
«Creen que la inteligencia consiste en darse cuenta de las cosas que son relevantes (detectar patrones); en un mundo complejo, la inteligencia consiste en ignorar las cosas que son irrelevantes (evitar patrones falsos).» – Nassim Nicholas Taleb
En este artículo, intentaremos responder a las siguientes preguntas:
- ¿Cuáles son los límites actuales de la IA?
- ¿Es la AGI la que nos llevaría a una IA de nivel humano?
- ¿Qué necesitamos para la AGI?
La inteligencia artificial está transformando nuestro mundo y determinando nuestra forma de vivir y trabajar. Entender cómo funciona y sus implicaciones nunca ha sido tan crucial. Si buscas explicaciones sencillas y claras sobre temas complejos relacionados con la IA, estás en el lugar adecuado. Pulsa seguir o suscríbete gratis para estar al día de mis últimas historias y opiniones.
Tabla de contenidos
Los límites de un Dios
La revolución LLM hizo especular con que estábamos cerca de desarrollar la inteligencia artificial general (AGI). La llegada de ChatGPT fue un momento de éxtasis al poder hablar con un chatbot con capacidades nunca vistas, casi como si fuera otro ser humano. Después, el asombro se desvaneció. Hasta 2022, sin embargo, el gran público nunca se había preguntado: ¿está la inteligencia artificial al nivel cognitivo de un ser humano?
Esto se debe a que los modelos anteriores, sí tenían capacidades sobrehumanas, pero sólo para aplicaciones especializadas. Por ejemplo, AlphaGo [10] había sido capaz de derrotar a campeones humanos con relativa facilidad, pero nadie pensaba que lo que nos hace humanos es saber jugar al Go. En 2022, sin embargo, DALL-E y ChatGPT mostraron habilidades que solemos asociar exclusivamente a los humanos: crear arte y saber escribir.
Los LLM no sólo son buenos escribiendo, sino que muestran un abanico de habilidades tan amplio y flexible como el nuestro. En poco tiempo, han demostrado que pueden aprobar exámenes que normalmente estaban reservados a los humanos. Esto ha dado lugar a una extraña vacilación a la hora de debatir con ellos, y al temor de que pronto puedan sustituirnos en nuestro trabajo.
Pero, ¿tienen realmente los LLM capacidades cognitivas similares o superiores a las de los humanos?
El razonamiento y la creatividad son dos capacidades que generalmente se atribuyen sólo a los humanos. Ambas capacidades son difíciles de definir (y es difícil encontrar una definición unívoca y cómo medirlas). Ya hemos hablado en un artículo anterior de las supuestas limitaciones de los LLM en el razonamiento. Estudios recientes descartan que un LLM sea realmente capaz de razonar. En resumen, un LLM utiliza su gigantesca memoria para poder encontrar patrones que le permitan responder a una pregunta. Si no puede encontrar patrones es incapaz de resolver un problema.
Además, estudios recientes muestran que una LLM utiliza una bolsa de heurísticos para resolver cálculos matemáticos. En otras palabras, utiliza un conjunto de reglas para poder responder a un gran número de casos [3]. Esto suele ser suficiente para responder a la mayoría de los problemas. Un LLM o bien ha visto patrones similares en su enorme entrenamiento o bien puede utilizar una de las heurísticas. Esto no significa un razonamiento real.
La creatividad en la escritura ha sido cuestionada recientemente en un artículo [4]. Hasta ahora, no hemos podido cotejar el texto generado por los LLM con lo que hay en Internet. Esto hace difícil estimar si los LLM son creativos o no. Nuevos métodos nos permiten realizar este análisis [4]. Los autores muestran claramente que un LLM no es creativo, es simplemente texto aprendido durante el entrenamiento y regurgitado bajo demanda. En una comparación justa, vemos que los humanos son mucho más creativos que los LLM. Según ellos, el texto generado que parece original procede de datos privados utilizados en el entrenamiento que no podemos analizar. Además, al ser un loro estocástico, el texto producido no es exactamente el mismo, sino con alguna ligera variación.
Estos resultados muestran claramente que los LLM no son capaces ni de razonar ni de ser creativos. Los LLM son impresionantes a la hora de encontrar información en el enorme corpus de preentrenamiento y responder con este conocimiento a la pregunta de un usuario. Sin embargo, los LLM no son capaces de utilizar este conocimiento, recombinarlo o crear algo nuevo.
¿Es el LLM lo que nos traerá el AGI?
Ninguna religión necesita hechos; todas necesitan milagros y mandamientos. Cuando se publicó la ley de escalamiento en 2020, muchos investigadores vieron tanto un milagro como un mandamiento [5]. Aumentando el número de parámetros, el texto y el cálculo, la pérdida podía reducirse linealmente y predecirse. A partir de ahí se marcó el camino y escalar los modelos se convirtió en una religión. El segundo milagro fueron las propiedades emergentes. Para muchos, significaba que sólo había que escalar el modelo. El razonamiento y la creatividad en definitiva aparecerían por sí solos en algún momento del escalado.
No todas las religiones duran para siempre. La fe en la ley de la escala ha empezado a resquebrajarse en el último año. En primer lugar, las propiedades emergentes pueden no ser un fenómeno real, sino un error de medición. En segundo lugar, los modelos no escalan tan bien como se predijo (o al menos los LLM no son tan potentes como predijo la ley de escalado). Una corrección al dogma fue: que no hay una sola ley de escalado, sino al menos tres. Para algunos investigadores, hay que escalar el preentrenamiento, el postentrenamiento (alineación, ajuste fino o cualquier otro postproceso) y la última ley de escalado: el cálculo del tiempo de inferencia [6].
Sam Altman había defendido con vehemencia la carrera de los parámetros (al fin y al cabo, esta ley de escalado era un producto de OpenAI), pero ahora tampoco parece tan convencido:
«Cuando empezamos, las creencias fundamentales eran que el aprendizaje profundo funciona y mejora con la escala… de forma predecible… Una creencia de nivel religioso… era…. que eso no iba a parar… Entonces obtuvimos los resultados de la escala… En algún momento tienes que mirar las leyes de la escala y decir que vamos a seguir haciendo esto… Estaba pasando algo realmente fundamental. Habíamos descubierto un nuevo cuadrado en la tabla periódica» (fuente).
El problema es que la ley de escalado no es una ley física (por mucho que se haya hecho pasar por tal), sino una receta general que establece: para la mayoría de los casos, más parámetros y más entrenamiento conducirán a mejores resultados (menor pérdida). La pérdida no es un indicio de inteligencia, y extrapolar de la pérdida el concepto de inteligencia es erróneo.
Además, la nueva ley de escalado del tiempo de inferencia no es fiable. El rendimiento mejora con más pasos, pero después de unos 20 pasos empieza a degradarse rápidamente. Además, ChatGPT-4o1 rinde mejor que 4o sólo en unos pocos casos, lo que demuestra que este aumento del tiempo de reflexión es útil para casos limitados (en los que se pueden crear datos sintéticos fiables) y no para problemas abiertos.
Otro elemento de preocupación es que el rendimiento de los LLM ya no mejora exponencialmente. Ilya Sutskever afirmó que están llegando a una meseta y que «la década de 2010 fue la era del escalado, ahora estamos de nuevo en la era del asombro y el descubrimiento».
Sin embargo, esto era imaginable. Aunque pudiéramos construir un modelo infinitamente grande, no disponemos de suficientes textos de calidad para entrenarlo [7]:
En nuestra opinión, la cantidad total de datos de texto público generados por el ser humano es del orden de 300 billones de tokens, con un intervalo de confianza del 90% de 100T a 1000T. Esta estimación sólo incluye datos de calidad suficiente para ser utilizados en el entrenamiento, y tiene en cuenta la posibilidad de entrenar modelos para múltiples épocas (fuente).
El problema es que un modelo sólo aprende de los textos, y si no hay textos de calidad, no se puede entrenar. La calidad es más importante que el mero desguace de todos los textos posibles. De hecho, el entrenamiento con datos sintéticos es una especie de «destilación del conocimiento» y puede llevar al colapso del modelo [16]. Altman afirma que Orion (que puede considerarse GPT-5) rinde mejor que los modelos anteriores, pero no tanto como se esperaba (por ejemplo, nada comparable a lo que vimos entre GPT-3 y GPT-4)
Los LLM no traerán AGI por arte de magia simplemente escalándolos, eso ya está bien establecido. El transformador tiene limitaciones, es una arquitectura excepcional pero tiene limitaciones de generalización. Simplemente estamos llegando a los límites de una tecnología que fue diseñada para traducir mejor [8] y que afortunadamente ha demostrado ser mucho más flexible de lo esperado.
¿Cómo conseguir la AGI?
«Con un modelo del mundo avanzado, una IA podría desarrollar una comprensión personal de cualquier escenario en el que se encuentre y empezar a razonar posibles soluciones» (Mashrabov, fuente).
La inspiración para tener una AGI es el cerebro humano. Sin embargo, algunos aspectos de la cognición humana siguen siendo difíciles de alcanzar. Para algunos, uno de los elementos necesarios para la AGI es la evolución de un «modelo del mundo». En otras palabras, el cerebro humano aprende una representación del entorno externo. Esta representación se utiliza para imaginar posibles acciones o consecuencias de las mismas. Este modelo también se utilizaría para generalizar tareas que hemos aprendido en un dominio y aplicarlas a otro.
Algunos investigadores afirman que los LLM han aprendido un modelo rudimentario del mundo. Por ejemplo, en este trabajo, los autores muestran que los LLMs durante el entrenamiento forman modelos espaciales (y temporales) de palabras y que éstos pueden ser extraídos y estudiados [11].
Otros elementos indican también la aparición de una representación interna del mundo. Las representaciones internas de los modelos de las palabras en color son similares a los hechos sobre la percepción humana del color, la capacidad de hacer inferencias sobre las creencias del autor de un documento, la representación interna de la disposición espacial del escenario de una historia y el hecho de que superen diferentes puntos de referencia basados en el sentido común [14].
Otros investigadores demuestran [12-13] que los modelos entrenados en transcripciones de juegos como el ajedrez o como Otelo aprenden una representación del mundo que luego puede utilizarse para realizar predicciones sobre las jugadas. Estas jugadas serían legales y el modelo utilizaría esta representación para estimar la fuerza de su oponente.
Aunque estas representaciones espaciotemporales no constituyen por sí mismas un modelo causal dinámico del mundo, disponer de representaciones multiescala coherentes del espacio y el tiempo son ingredientes básicos necesarios en un modelo más completo (fuente).
Para varios autores, estos elementos significan que, aunque este modelo del mundo sea rudimentario, los LLM ya muestran los primeros ingredientes, por lo que una futura innovación (o escalamiento) permitiría evolucionar un modelo interno del mundo y dar un salto evolutivo en la cognición.
Sin embargo, no hay consenso. Según otros investigadores: aunque este modelo del mundo esté presente, no se utiliza ni para las simulaciones ni para el aprendizaje de las relaciones causales. Además, este modelo no es fiable y sólo es una aproximación. En un estudio publicado recientemente [15], entrenaron un LLM en un gran conjunto de datos de rutas tomadas por taxis en la ciudad de Nueva York. El LLM construía un mapa interno para realizar las predicciones. Este mapa tiene poco parecido con las calles reales de la ciudad, conteniendo rutas imposibles o sobrevolando otras rutas.
Dado que estos transformadores no consiguen recuperar el verdadero callejero de la ciudad de Nueva York, resultan frágiles para las tareas posteriores. Aunque a veces tienen una capacidad asombrosa para planificar rutas, su rendimiento se viene abajo cuando se introducen desvíos (fuente).
El ser humano utiliza el lenguaje como primera forma de comunicación y transmite una densa cantidad de información. Sin duda, en el lenguaje pueden aprenderse algunos patrones y surgir algún tipo de representación. Intuitivamente, es difícil que uno aprenda a razonar imitando a otra persona. Aunque también es cierto que la presencia de un patrón interno es fundamental para la AGI, en los humanos el patrón interno se actualiza continuamente gracias a la información sensorial que llega del exterior (mientras que los LLM no pueden funcionar en aprendizaje continuo). Para algunos investigadores, la integración de un sistema de retroalimentación podría ser un primer paso para mejorar el modelo interno de los LLM.
Aunque muchos investigadores confían en que un modelo interno es la clave de la AGI, es probable que se necesiten otros elementos. Por ejemplo, aunque surgiera un modelo interno que reflejara adecuadamente el mundo real, se necesitarían capacidades superiores de percepción (para actualizar el modelo) y razonamiento (para utilizar el modelo interno en las tareas). Otros investigadores afirman que muchas características de la cognición no pueden surgir si el modelo no puede explorar el mundo (embodied cognition). Sin una presencia física, el modelo no podría aprender cierta información sobre el mundo físico [17-18].
Un modelo del mundo parece indispensable para la inteligencia artificial, pero no suficiente. La personificación podría ayudar a la IA a perfeccionar este modelo interno. Aún faltan innovaciones arquitectónicas y teóricas para hacer posible la inteligencia artificial.
Reflexiones de despedida
Sam Altman afirma que la AGI llegará en 2025. Sin embargo, parece referirse al uso de herramientas por parte de los LLM para resolver problemas complejos. Los sistemas de agentes que ya existen simplemente se pondrán en producción, pero esto no es AGI (o al menos tal y como la entiende la comunidad científica). Los LLM actuales no son capaces de las habilidades necesarias para la AGI: razonamiento y creatividad. Especialmente ahora que los beneficios del escalado parecen disminuir, ni siquiera parece ser la tecnología adecuada para llegar a ello.
Un grupo de investigadores parte de la base de que se necesita un modelo del mundo que funcione para comprender las relaciones causales y avanzar hacia la AGI. Otros trabajos sugieren que este modelo del mundo debería recibir retroalimentación para ser realmente útil, quizás a través de la personificación. Al mismo tiempo, se están explorando nuevas arquitecturas e ideas para intentar superar las limitaciones del transformador [19].
Si la AGI llegara, los riesgos potenciales si se volviera malvada serían incalculables. Por ello, muchos investigadores están presionando para que se lleve a cabo una investigación responsable y centrada en la seguridad. La mayoría de los investigadores están convencidos de que podríamos tener una AGI dentro de diez años. Al fin y al cabo, los humanos son la prueba de que no hay límite teórico para tener un sistema que razone y sea creativo.
No hay consenso sobre cómo podemos conseguir la AGI. Una posibilidad es que la arquitectura que nos permita conseguir AGI se invente para otros fines, y luego al escalarla descubramos que tiene todas las características de AGI.
¿Qué opinas al respecto? ¿Qué crees que es necesario para tener AGI? Házmelo saber en los comentarios.
Si te ha parecido interesante: Puedes buscar mis otros artículos, y también puedes conectarte o ponerte en contacto conmigo en LinkedIn. Consulta este repositorio con noticias actualizadas semanalmente sobre ML e IA. Estoy abierto a colaboraciones y proyectos y puedes contactar conmigo en LinkedIn.