Uno de los objetivos de la neurociencia es descifrar patrones de actividad neuronal para entender cómo los seres humanos somos capaces de percibir, pensar y actuar. Los avances en este campo han sido posibles gracias al uso de redes neuronales para realizar una especie de «ingeniería inversa» de los mecanismos del cerebro humano. Posteriormente, también se aplicaron con éxito a dominios cognitivos de más alto nivel, como el lenguaje. Por ejemplo, los modelos lingüísticos basados en transformadores exploran la respuesta del cerebro a la entrada lingüística, lo que permite comprender cómo se procesa el lenguaje. Los resultados han sido en parte sorprendentes: los modelos consiguen explicar las respuestas funcionales del cerebro a las frases lingüísticas. Además, resulta intrigante que durante el entrenamiento surjan similitudes entre un LLM y algunas de las propiedades del cerebro.
A pesar de las muchas similitudes, también hay muchas diferencias. Una de las más importantes es que los modelos no tienen en cuenta la disposición espacial de las neuronas en la superficie cortical. En el cerebro, la disposición topográfica desempeña un papel importante tanto desde el punto de vista funcional como conductual. Por eso, en los últimos tiempos se ha intentado comprender mejor la topografía del cerebro y tratar de representarla en modelos de IA.
En el cerebro, la organización topográfica se refiere al hecho de que la disposición espacial de las neuronas en la lámina cortical está muy estructurada con respecto a sus perfiles de sintonización. En la corteza visual de nivel superior, se observan agrupaciones de neuronas que responden preferentemente a categorías de estímulos abstractos, como caras, cuerpos y escenas, entre otras estructuras de organización espacial basadas en diversas propiedades visuales y conceptuales de los estímulos – fuente
En otras palabras, para minimizar los costes asociados a la transmisión de señales, las neuronas con perfiles similares suelen agruparse. Esta topología no sólo ahorra recursos, sino que también cumple un propósito funcional. Tenerla en cuenta puede permitir crear mejores modelos. Esto ya se ha hecho en parte para aplicaciones de visión por ordenador.
Si esta topología espacial tiene sentido para la visión, ¿se aplica lo mismo al lenguaje?
También existe una organización espacio-funcional del sistema del lenguaje en el cerebro. Hay tanto una macroorganización como una microorganización en el córtex para la respuesta lingüística. Por ejemplo, hay grupos que responden a categorías sintácticas y semánticas como verbos, nombres y palabras concretas.
¿Podemos tener un LLM similar a la topografía del cerebro?
En este artículo, los autores intentan crear un modelo de este tipo.
El concepto principal es cómo hacer surgir una topología durante el entrenamiento. En el cerebro humano, nuestra experiencia y crecimiento guían la aparición de nuestra topología. Una forma de hacerlo es utilizar una pérdida de correlación espacial, además de la pérdida de la tarea de entropía cruzada. El transformador se entrena para predecir la siguiente palabra de una secuencia y utilizamos la entropía cruzada para controlar este aprendizaje. En este caso, añadimos una pérdida adicional que sirve para incentivar los comportamientos que son espacialmente eficientes.
¿Cómo podemos controlar esta topología espacial? Obviamente, tenemos que encontrar la manera de saber dónde están los componentes de nuestro modelo.
Para introducir una noción de «espacio» en el modelo, codificamos las unidades de cada capa de atención y MLP en una cuadrícula cuadrada con un mapeo uno a uno. Permutamos aleatoriamente estas posiciones para cada capa de forma que cada capa tenga una codificación espacial única. – fuente
Los autores intentan incentivar que las unidades que están próximas en el espacio tengan un comportamiento similar. Utilizan la correlación entre unidades intentando asegurarse de que las unidades que están próximas espacialmente estén muy correlacionadas, mientras que las unidades distantes deben estar poco correlacionadas. En otras palabras, se intenta optimizar el modelo para una tarea general (aprender la lengua) pero también para una topología bien definida (los componentes cercanos deben tener la misma función). Después, los autores toman un transformador y lo entrenan de esta forma (o de una forma no adaptada topológicamente como control).
Ahora, observando imágenes de resonancia magnética funcional podemos observar regiones del cerebro humano que tienen un papel especializado en la comprensión del lenguaje. Las subregiones del cerebro responden selectivamente a los estímulos. Estas especializaciones se producen durante el aprendizaje del lenguaje (un bebé no puede hablar).
El procesamiento del lenguaje en el cerebro implica un conjunto de regiones cerebrales frontales y temporales lateralizadas a la izquierda. Estas zonas suelen denominarse «sistema lingüístico central». En los individuos, el sistema central del lenguaje muestra una clara organización espacio-funcional, en la que las neuronas selectivas del lenguaje se agrupan en múltiples lóbulos corticales. Las subregiones anatómicamente diferenciadas de este sistema muestran perfiles de respuesta a estímulos muy coherentes, lo que sugiere que el sistema funciona como una red – fuente
¿Qué ocurre con nuestro modelo? ¿Podemos compararlo con el cerebro humano?
Sí, podemos tomar una serie de frases (los autores utilizan 160 frases) y pasarlas por el modelo siguiendo la activación de nuestros componentes (cada capa de atención y MLP), y ver si hay una selectividad lingüística similar. Además, podemos realizar clustering para ver si varias unidades vecinas comparten la misma selectividad (recordemos que hemos codificado espacialmente estas unidades antes del aprendizaje, por lo que tenemos una especie de mapeo de nuestras unidades).
Sorprendentemente, el modelo muestra una organización espacial de la red lingüística similar a la del cerebro. De hecho, en nuestra cartografía aparecen múltiples clusters selectivos del lenguaje. Cada grupo tiene una respuesta selectiva, y las unidades que lo componen son coherentes con la respuesta del grupo.
Ahora bien, no existe una alineación perfecta entre el cerebro y el LLM. Además, como el transformador no es un cerebro humano, el modelo tiene limitaciones a la hora de captar el comportamiento del cerebro humano y, por tanto, también limitaciones en su organización espacial.
Más allá de la selectividad para el lenguaje en general, la evidencia experimental apoya la existencia de grupos corticales selectivos de sustantivos y verbos en sujetos humanos durante el procesamiento de estímulos verbales y nominales en tareas auditivas, visuales y de producción.
Los autores comparan su modelo y dos estudios de IRMf con los mismos estímulos y una configuración similar. En el cerebro, parece que los grupos selectivos de verbos y sustantivos se encuentran en el hemisferio izquierdo. Extraen las activaciones de su modelo en respuesta a los mismos estímulos, descubriendo que existen clusters bien definidos y selectivos para sustantivos y verbos.
Examinando regiones cerebrales específicas definidas anatómicamente en fMRI, este estudio encuentra pruebas de selectividad entre verbos concretos y sustantivos concretos; sin embargo, críticamente, no hay pruebas de respuestas a palabras abstractas de las mismas categorías – fuente
En un estudio anterior, se vio que se encontraban áreas en el córtex que se centran en verbos y sustantivos concretos, mientras que estas áreas no se encontraban para conceptos abstractos. Curiosamente, encuentran agrupaciones de unidades modelo selectivas de verbos y sustantivos para conceptos concretos, pero encuentran agrupaciones débiles o inexistentes para palabras abstractas.
Los resultados muestran que el modelo no pierde prestaciones respecto a un transformador normal:
Aquí, presentamos un nuevo modelo topográfico de lenguaje Transformer basado en una restricción de suavidad espacial, y demostramos que predice patrones clave de organización espacio-funcional de la literatura de neuroimagen. – fuente
Los resultados de este estudio muestran que, utilizando estas restricciones espaciales, un LLM desarrolla patrones similares a los del cerebro humano (clusters selectivos para ciertos componentes del lenguaje). También presenta patrones similares a los del cerebro, como los clusters selectivos sustantivo-verbo, que son específicos para palabras concretas frente a abstractas.
En conjunto, nuestros resultados sugieren que el principio de suavidad espacial conduce a una organización topográfica coherente con la organización espaciofuncional del procesamiento lingüístico en el cerebro. – fuente
Es interesante ver cómo, en condiciones similares, los LLM desarrollan patrones parecidos a los del cerebro humano. Esto se debe probablemente a que los humanos nos expresamos principalmente a través del lenguaje, y el lenguaje transmite una gran cantidad de información sobre cómo pensamos. En cualquier caso, estudios de este tipo abren la puerta a estudiar mejor no sólo a los LLM, sino también a nosotros mismos.
¿Qué opinas al respecto? ¿Crees que hay otras similitudes entre los cerebros y los LLM? Házmelo saber en los comentarios.
Si te ha parecido interesante:
- Puedes buscar mis otros artículos, y también puedes conectarte o ponerte en contacto conmigo en LinkedIn.
- Consulta este repositorio con noticias actualizadas semanalmente sobre ML e IA. Estoy abierto a colaboraciones y proyectos y puedes contactar conmigo en LinkedIn.
- También puedes suscribirte gratuitamente para recibir notificaciones cuando publique un nuevo artículo.