Estudio exhaustivo de los Grandes Modelos del Lenguaje (LLM)

A medida que el panorama del LLM y la IA conversacional se amplía en términos de productos, proveedores y funcionalidades, resulta casi imposible realizar un seguimiento detallado de todas las dimensiones del mercado.

Tabla de contenidos

Puntos clave del estudio de LLM

El número medio de artículos publicados en arXiv que contenían «large language model» en el título o en el resumen pasó de 0,40 al día a 8,58 al día.
A pesar del progreso y la repercusión de los LLM, sus principios subyacentes aún no están bien explorados.
Los LLM de código abierto actúan como facilitadores de la expansión, personalización y crecimiento de los LLM. La contribución de Meta no debe subestimarse.
El trabajo de investigación realizado aprovechando LLaMA ha sido significativo. Un gran número de investigadores han ampliado los modelos LLaMA mediante el ajuste de instrucciones o el preentrenamiento continuo.
Tres habilidades emergentes para los LLMs son el Aprendizaje En-Contexto (ICL), el Seguimiento de Instrucciones y el Razonamiento Paso a Paso (CoT).
Las prácticas clave relacionadas con los LLM son: Escalado, Entrenamiento, Obtención de Habilidades, Ajuste de Alineación, Herramientas.
La adaptación de los LLMs incluye: Ajuste de Instrucción, Ajuste de Alineación, Adaptación de Modelo Eficiente en Memoria, etc.
Los tres enfoques principales de Prompt Engineering son: Aprendizaje en contexto, Cadena de pensamiento, Planificación.
Implementaciones de ingeniería de instrucciones ICL: KATE, EPR, SG-ICL, APE, Structured Prompting, GlobalE y LocalE.
Implementaciones de ingeniería de avisos CoT: CoT complejo, Auto-CoT, Selección-Inferencia, Autoconsistencia, DIVERSO, Conjuntos racionales-aumentados.
Planificación de implementación de Prompt Engineering: Least-to-most prompting, DECOMP, PS, Faithful CoT, PAL, HuggingGPT, AdaPlanner, TIP, RAP, ChatCoT, ReAct, Reflexion, Tree of Thoughts.

Actividad de investigación

Los dos gráficos siguientes muestran los números acumulados de artículos arXiv que contienen las frases clave «modelo de lenguaje» (desde junio de 2018) y «gran modelo del lenguaje» (desde octubre de 2019), respectivamente y en inglés. El crecimiento desde 2019 en artículos publicados relacionados con los LLM es asombroso.

Capacidades emergentes de los LLM

El estudio identifica tres habilidades emergentes típicas de los LLM, lo cual es muy perspicaz…

Aprendizaje en contexto (ICL)

GPT-3 introdujo formalmente el concepto de Aprendizaje en Contexto (ICL por sus siglas en inglés). El supuesto del ICL es que si al LLM se le ha proporcionado un estímulo con una o más demostraciones de la tarea, es más probable que el modelo genere una respuesta correcta.

Entre los modelos de la serie GPT, el modelo 175B GPT-3 mostró una gran capacidad ICL en general.

Seguimiento de instrucciones

Mediante el fine-tuning y una mezcla de conjuntos de datos multitarea formateados mediante descripciones en lenguaje natural (denominado ajuste de instrucciones), se demuestra que los LLM obtienen buenos resultados en tareas no vistas que también se describen en forma de instrucciones.

Con el instruction tuning, los LLM pueden seguir las instrucciones de tareas nuevas sin utilizar ejemplos explícitos, lo que mejora su capacidad de generalización.

Razonamiento paso a paso

Con la estrategia de razonamiento en cadena (CoT), los LLM pueden resolver tareas complejas utilizando técnicas de razonamiento que implican pasos intermedios para obtener la respuesta final.

Desarrollo LLM

La imagen de arriba es una línea de tiempo de los LLM existentes que tienen un tamaño superior a 10B. La cronología se establece en función de las fechas de publicación de los modelos. Los modelos marcados con fondo amarillo son todos públicos.

La imagen superior muestra un gráfico evolutivo de algunos de los trabajos de investigación realizados sobre LLaMA.

La colección de modelos LLaMA fue presentada por Meta AI en febrero de 2023. Consta de cuatro tamaños (7B, 13B, 30B y 65B). Desde entonces, LLaMA ha atraído una gran atención tanto de la comunidad investigadora como de la industria.

Fuentes de datos de formación

La siguiente imagen muestra las proporciones de varias fuentes de datos en los datos de preentrenamiento para los LLM existentes.

Las fuentes de datos del corpus de preentrenamiento pueden clasificarse a grandes rasgos en dos tipos:

Datos generales y
Datos especializados

Los datos generales, como páginas web, libros y textos conversacionales, son utilizados por la mayoría de los LLM debido a su naturaleza amplia, diversa y accesible, que puede mejorar las capacidades de modelización y generalización del lenguaje de los LLM.

A la luz de las impresionantes capacidades de generalización mostradas por los LLM, también hay estudios que amplían su corpus de preentrenamiento a conjuntos de datos más especializados, como datos multilingües, datos científicos y código.

A continuación, las aplicaciones de los LLM en direcciones de investigación representativas y dominios descendentes.

Por último

En resumen, la evolución de los grandes modelos lingüísticos marca una progresión significativa en el procesamiento del lenguaje natural. Y desde la primera gestión de diálogos basada en reglas hasta la aparición de potentes redes neuronales como GPT-3. Todo ello combinado con la potencia de la generación de lenguaje natural (NLG).

La narrativa de los grandes modelos lingüísticos se caracteriza por el continuo perfeccionamiento, la innovación y la integración en los entornos tecnológicos existentes.

Estudio exhaustivo de los Grandes Modelos del Lenguaje (LLM)

PorCobus Greyling

Puntos clave del estudio de LLM

Actividad de investigación

Capacidades emergentes de los LLM

Aprendizaje en contexto (ICL)

Seguimiento de instrucciones

Razonamiento paso a paso

Desarrollo LLM

Fuentes de datos de formación

Por último

Por Cobus Greyling

Entrada relacionada

Personalización a escala: chatbots de IA como asistentes de compras digitales

Abordar el no determinismo en la Agentic AI con causalidad e introspección

Nano Banana y el auge de las figuras 3D personalizadas

Deja una respuesta Cancelar la respuesta

You missed

Personalización a escala: chatbots de IA como asistentes de compras digitales

Abordar el no determinismo en la Agentic AI con causalidad e introspección

Nano Banana y el auge de las figuras 3D personalizadas

Diseño de un módulo de gestión de solicitudes y quejas con un sistema de chat dual