Tabla de contenidos

Observaciones generales sobre el ecosistema de construcción de LLM

He aquí algunas tendencias generales que he observado últimamente…

Teniendo en cuenta el desarrollo del ecosistema de aplicaciones de Large Language Model (LLM), LlamaIndex y LangChain están realmente a la vanguardia del establecimiento de marcos y estándares de aplicación de facto. E incluso si las organizaciones no quieren utilizar sus marcos, el estudio de sus métodos aporta mucha información sobre cómo se está desarrollando el ecosistema.

He aquí una breve lista de las últimas novedades y cambios del mercado:

  1. Tanto para los enfoques gradientes como para los no gradientes, cada vez es más importante un enfoque centrado en los datos. Especialmente con la importancia del aprendizaje en contexto y los datos contextuales de referencia.
  2. Los datos anotados por humanos, RLHF, los enfoques centrados en los datos, etc. están recibiendo más atención. Y diversas formas de optimizar la supervisión humana de los datos de entrada y salida con la introducción de eficiencias.
  3. Cada vez se presta más atención a los Prompt Pipelines, que crean procesos de recuperación de datos, síntesis de datos y otras tareas relacionadas con el texto.
  4. Los marcos RAG se están ampliando con la introducción de tuberías RAG, recuperación de múltiples documentos y RAG Agentic…
  5. Los agentes se consideraban impredecibles y exigían demasiada sobrecarga en términos de latencia y coste de inferencia. Últimamente, las implementaciones de RAG multicapa y multiagente han visto la luz, con un enfoque que LlamaIndex denomina Agentic RAG.

Introducción a MultiHop-RAG

  1. La generación aumentada por recuperación (RAG) mejora los grandes modelos lingüísticos (LLM) recuperando el conocimiento contextual relevante. De este modo se abordan las alucinaciones de los LLM y se mejora la calidad de las respuestas aprovechando el aprendizaje en contexto (ICL).
  2. Los sistemas RAG existentes se enfrentan a retos a la hora de responder a consultas con múltiples saltos, lo que requiere recuperar y razonar sobre múltiples pruebas. Se trata de un proceso de encadenamiento en el que la información pertinente se recupera a partir de varios documentos. Posteriormente, esta información se sintetiza en una respuesta coherente y sucinta.
  3. El artículo de investigación presenta un nuevo conjunto de datos de evaluación comparativa, MultiHop-RAG, centrado en consultas multisalto, que incluye una base de conocimientos, consultas, respuestas reales y pruebas de apoyo.
  4. Los experimentos revelan que los métodos RAG existentes no son satisfactorios a la hora de gestionar consultas multisalto.
  5. La investigación MultiHop-RAG servirá como valioso recurso de referencia para la comunidad en el desarrollo de sistemas RAG eficaces, promoviendo una mayor adopción de los LLM en la práctica.

El MultiHop-RAG y el sistema RAG implementado están a disposición del público.

Respuesta a preguntas complejas

En el caso de las dos preguntas siguientes, se trata de preguntas más complejas que, en primer lugar, abarcan varias empresas. Y en el ejemplo de la segunda pregunta, se indica un periodo de tiempo para el que los datos deben ser pertinentes.

  1. ¿Qué empresa de entre Google, Apple y Nvidia registró los mayores márgenes de beneficio en sus informes del tercer trimestre de 2023?
  2. Cómo es la tendencia de ventas de Apple en los últimos tres años?

De estos dos ejemplos de preguntas se desprende claramente que, para responderlas con precisión, se necesitan elementos como una base de conocimientos, respuestas basadas en la verdad, pruebas de apoyo y otros.

Para formular una respuesta a estas preguntas se necesitan pruebas procedentes de varios documentos. Una vez más, este enfoque recuerda mucho al enfoque RAG Agentic de LlamaIndex.

En la tabla siguiente se presenta un ejemplo de consulta multisalto. Se definen las fuentes, con la demanda, y un tema-puente junto con una entidad-puente.

Se muestra la consulta, con la respuesta final.

A menudo me he referido a la inspeccionabilidad y la observabilidad como una de las grandes ventajas de un enfoque no gradiente como el GAR. La tabla que figura a continuación es un buen ejemplo de ello, en el que la respuesta es «sí».

Nueva fuenteFortune MagazineThe Sydney Morning Herald
PruebasEn aquel entonces, al igual que hoy, los precios de la vivienda habían subido durante años antes de que los funcionarios de la Reserva Federal se vieran obligados a subir los tipos de interés de forma agresiva en un intento de luchar contra la inflación.Los aplazamientos de estos informes podrían complicar las cosas para la Reserva Federal, que ha insistido en los tipos basándose en lo que dicen los datos entrantes sobre la economía.
Claim
Puente-Tema
Puente-Entidad
Los funcionarios de la Reserva Federal se vieron obligados a subir agresivamente los tipos de interés para combatir la inflación tras años de auge de los precios de la vivienda.
Las subidas de los tipos de interés combaten la inflación
Reserva Federal
La Reserva Federal ha insistido en que basará sus próximas decisiones sobre los tipos de interés en los datos económicos que lleguen.
La Reserva Federal ha insistido en que basará sus próximas decisiones sobre los tipos de interés en los datos económicos que vayan llegando.
Reserva Federal
Consulta¿Sugiere el artículo de Fortune que las subidas de los tipos de interés de la Reserva Federal responden a condiciones pasadas, como el auge de los precios de la vivienda, mientras que el artículo del Sydney Morning Herald indica que las futuras decisiones de la Reserva Federal sobre los tipos de interés se basarán en datos económicos incomingentes?
Respuesta
Fuente

Proceso de construcción de MultiHop-RAG

El siguiente diagrama muestra el proceso MultiHop-RAG, desde la fase de recopilación de datos hasta la fase final de control de calidad.

Recogida de datos

El estudio utilizó la API de mediastack para descargar un variado conjunto de datos de noticias que abarca múltiples categorías en inglés, como entretenimiento, negocios, deportes, tecnología, salud y ciencia.

Para simular escenarios reales de generación aumentada por recuperación (RAG), los artículos de noticias seleccionados abarcan desde el 26 de septiembre de 2023 hasta el 26 de diciembre de 2023, lo que se extiende más allá del límite de conocimiento de LLM ampliamente utilizados como ChatGPT y LLaMA. Este marco temporal garantiza la divergencia potencial entre los datos de la base de conocimientos y los datos de entrenamiento de los LLM.

Extracción de pruebas

Se utilizó un modelo de lenguaje entrenado para extraer frases factuales o de opinión de cada artículo de noticias. Estas frases sirven como pruebas para responder a las consultas multisalto. El proceso de selección consiste en retener los artículos con evidencias que contienen palabras clave coincidentes con otros artículos, lo que facilita la creación de consultas multisalto con respuestas extraídas de múltiples fuentes.

Generación de cadenas

Se utilizó GPT-4 para parafrasear las pruebas, que se denominan afirmaciones, dadas las pruebas originales y su contexto.

Generación de consultas y anser

La entidad-puente o el tema-puente se utilizan para generar consultas multisalto.

Garantía de calidad

Para garantizar la calidad del conjunto de datos, el estudio empleó dos enfoques.

  1. Una muestra de subconjuntos de consultas multisalto generadas, sus conjuntos de pruebas asociados y las respuestas finales, que se someten a una revisión manual que revela un alto nivel de precisión y calidad de los datos.
  2. Se utiliza GPT-4 para evaluar cada ejemplo de conjunto de datos basándose en criterios específicos, incluido el requisito de que la consulta generada utilice todas las pruebas proporcionadas.

Limitaciones

El estudio reconoce varias limitaciones que podrían mejorarse en futuras investigaciones.

  1. Las respuestas de la verdad sobre el terreno se limitan a respuestas simples, lo que restringe la evaluación a métricas de precisión sencillas. En futuras investigaciones se podría explorar la inclusión de respuestas de texto libre y emplear métricas más sofisticadas para evaluar la calidad de la generación.
  2. El conjunto de datos actual restringe las pruebas de apoyo de una consulta a un máximo de cuatro elementos, lo que sugiere la posibilidad de ampliarlo para incluir consultas que requieran más pruebas.
  3. El estudio señala que los experimentos utilizan un marco RAG básico con LlamaIndex. Y que los trabajos futuros podrían incluir la evaluación de consultas multisalto utilizando marcos RAG más avanzados o marcos de agentes LLM.
  4. LlamaIndex ha lanzado recientemente una implementación avanzada del marco RAG; LlamaIndex la denomina Agentic Rag.

⭐️ Sígueme en LinkedIn para estar al día sobre la IA conversacional ⭐️

Actualmente soy el Evangelista Jefe @ HumanFirst. Exploro y escribo sobre todas las cosas en la intersección de la IA y el lenguaje; que van desde LLMs, Chatbots, Voicebots, marcos de desarrollo, espacios latentes centrados en datos y más.

Por Cobus Greyling

Rasa Hero. NLP / NLU, Chatbots, Voz, UI / UX conversacional, Diseñador CX, Desarrollador, Interfaces de usuario ubicuas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *