Tabla de contenidos

Introducción

A continuación encontrarás los tres elementos principales definidos para un sistema de IA conversacional. También hablaremos de cómo están constituidos todos los marcos de desarrollo de chatbot actuales. Y, por último, cómo van a desempeñar su papel los Large Language Models. No veo la introducción de los grandes modelos lingüísticos (LLM) como una revolución repentina. Sin embargo, sí veo cómo la funcionalidad del chatbot se descargará en los LLM, como se explica a continuación.

Haz clic aquí para recibir un correo electrónico cada vez que Cobus Greyling publique…🙂 .

Conceptos básicos de la IA conversacional

El siguiente diagrama define los tres elementos principales de la IA conversacional:

  1. Comprensión
  2. Razonamiento
  3. Generación

Comprensión

La comprensión se aborda actualmente con tecnologías como NLU y NLP. Estas tecnologías se utilizan para extraer el significado y la intención de las expresiones del usuario. La detección de intenciones es el proceso de asignar las expresiones del usuario a una intención predefinida.

Las intenciones pueden verse como verbos y las entidades como sustantivos. El siguiente paso es extraer las entidades. Lee aquí más sobre las entidades con nombre, que pueden ayudar a automatizar la detección de entidades.

Razonamiento

El razonamiento es la capacidad de predecir y también de aprender el siguiente paso de la conversación basándose en el conocimiento de la situación y el contexto.

En la actualidad, el razonamiento se lleva a cabo principalmente mediante un árbol de diálogo que es, en esencia, una máquina de estados. Cada estado (nodo de flujo o nodo conversacional) tiene una o más condiciones que determinan hacia qué nodo de flujo conectado debe progresar la conversación

Esto suena contra intuitivo para una solución de aprendizaje de máquina/inteligencia artificial que todavía hace uso de una compleja máquina de estados/condiciones. Así que podríamos llamarlo razonamiento, pero el razonamiento y la generación son muy estáticos y predefinidos en la gran mayoría de los casos.

Los Large Language Models (LLM) abordan el razonamiento y la generación, pero el ajuste fino aún no es tan granular como debe ser.

Otros impedimentos son la escalabilidad y la previsibilidad desde el punto de vista del cumplimiento y la experiencia del usuario.

Generación

La generación en este caso se refiere a la generación de lenguaje natural (NLG). Prácticamente todos los chatbots tienen un conjunto de mensajes predefinidos que se presentan al usuario en un momento determinado.

Existen diferentes enfoques para la gestión de este texto, algunos frameworks tienen una capa de abstracción de mensajes donde los mensajes pueden ser vistos y gestionados. Otros marcos permiten establecer condiciones a un mensaje. Por ejemplo, un mensaje de alta consecuencia puede marcarse para que siempre se solicite una confirmación.


Marcos de desarrollo de chatbot actuales

1️⃣ Intenciones

Consideremos los intentos de manera diferente, considere el motor de búsqueda de Google, puede ser visto como un chatbot de diálogo único. El objetivo principal de Google es determinar su intención, y luego devolver información relevante basada en la intención descubierta. La forma en que buscamos ha cambiado inadvertidamente, ya no buscamos con palabras clave, sino con lenguaje natural y frases.

Google es la mayor máquina de descubrir intenciones del mundo.

Cuando se desarrolla un chatbot, el uso de las conversaciones actuales de los clientes son una gran fuente de información para compilar una lista de posibles intenciones de los usuarios.

2️⃣ Entidades

Las entidades pueden verse como sustantivos.

Las entidades son la información (sustantivos) en la entrada del usuario y son relevantes para sus intenciones.

Reconocer las entidades en la entrada del usuario te ayuda a elaborar respuestas más útiles y específicas.

A continuación, un ejemplo de Rasa de cómo se introduce la estructura en las entidades, definiendo los tipos de entidad.

Large Language Models
Una Entidad de tipo Moneda puede tener asignados diferentes roles. En este caso, hay un rol «De Moneda» y un rol «A Moneda». El patrón está constituido por la secuencia «De moneda», «A moneda», «Marco temporal».

El proceso de desarrollo del flujo de diálogo puede ser una de las tareas más tediosas y laboriosas en la creación de un chatbot. Puede llegar a ser complejo y los cambios realizados en un área pueden afectar inadvertidamente a otra. La falta de coherencia también puede conducir a experiencias de usuario no planificadas. La ampliación de este entorno es complicada, sobre todo si se quiere escalar a una gran organización.

4️⃣ Script

La importancia del script es que informa al usuario sobre cuál es el siguiente paso.

O qué opciones están disponibles en un punto concreto de la conversación, o puede utilizarse para gestionar las expectativas del usuario. Un fallo en la conversación suele deberse a que el diálogo no es preciso e inteligible.


Large Language Models o grandes modelos lingüísticos (LLM)

A menudo, en los medios de comunicación se hace referencia a los LLM como ese monolito de conjuntos lingüísticos inmensamente grandes que resolverán mágicamente muchos problemas de tecnología lingüística.

Sin embargo, los LLM pueden dividirse en cinco categorías principales. Estas categorías pueden ser útiles para encontrar la aplicación específica de tecnología lingüística para el LLM.

A continuación verá la funcionalidad de los Modelos de Lenguaje de Gran Tamaño agrupados en 5 áreas…

1️⃣ Agrupación

La agrupación de expresiones y frases es análoga a la detección de intenciones, pero de forma no supervisada y automatizada. Las frases, las expresiones de los usuarios o las conversaciones pueden agruparse en clusters en los que cada uno de ellos contiene frases semánticamente similares. Un ejemplo de esto, es el trabajo POC de HumanFirst & Cohere.

2️⃣ Gestión de diálogos / Gestión de estados

GODEL y Blender Bot están explorando vías en la gestión de las conversaciones y la determinación del siguiente turno de diálogo más probable.

Tecnología: GODEL (Microsoft), DialoGPT (Microsoft), Blender Bot (Meta AI).

3️⃣ Generación (incluyendo la generación de lenguaje natural)

La generación no sólo genera mensajes y respuestas del bot, sino que mantiene el estado del bot, la conciencia contextual y el contexto de la sesión. Para ejemplos de esto, véase BLOOM, Goose AI, EleutherAI, OpenAI, Cohere, AI21Labs.

4️⃣ Preguntas y respuestas

Las preguntas y respuestas están siendo abordadas por KI-NLP (Knowledge Intensive NLP). Se puede responder a preguntas generales y de amplio dominio, sin consultar una API o aprovechar una base de conocimiento tradicional. Las tecnologías aquí son Sphere (Meta AI), motores de búsqueda comerciales, Wikipedia, etc.

5️⃣ Traducción de idiomas

La traducción de idiomas está disponible en varias plataformas, siendo Meta AI NLLB la más destacada.

Por Cobus Greyling

Rasa Hero. NLP / NLU, Chatbots, Voz, UI / UX conversacional, Diseñador CX, Desarrollador, Interfaces de usuario ubicuas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *