En este artículo, abordo tres áreas de rápido desarrollo y crecimiento de la IA conversacional en la actualidad. Estas áreas incluyen los robots de voz (como parte de la IA de los centros de contacto), las herramientas centradas en los datos y, por último, los grandes modelos lingüísticos (LLM). Hace poco publiqué una matriz actualizada del panorama de la IA conversacional, segmentada en cinco grandes categorías.
Aparte de los marcos tradicionales de desarrollo de chatbots y de las herramientas para chatbots, incluí dos categorías adicionales: los modelos lingüísticos de gran tamaño y las herramientas de IA conversacional centradas en los datos.
Tabla de contenidos
El resumen de la situación
- Hay una serie de tecnologías emergentes muy interesantes que están recibiendo una atención excesiva debido a las demandas del mercado, especialmente en el caso de los robots de voz que impulsan la IA y la automatización de los centros de contacto.
- Los ejecutivos de atención al cliente tienen una gran necesidad de automatizar las llamadas en el centro de contacto.
- Las herramientas centradas en los datos recibirán en un futuro próximo una atención masiva y serán un área de rápido crecimiento y enfoque. Digo esto por dos razones…
- En primer lugar, recientemente he acuñado el término Intent Driven Design & Development. En un reciente informe de Gartner, se hizo hincapié en comenzar con los intentos.
- En segundo lugar, en muchos casos las implementaciones de chatbot no están dando los resultados prometidos, y aprovechando las herramientas centradas en los datos se pueden obtener conocimientos vitales.
- A continuación, la matriz actualizada con las categorías 4 y 5.
Herramientas centradas en los datos
Todos los LLM comerciales disponen de campos de juego en los que se pueden seleccionar modelos y probar su funcionalidad. Existen opciones de ajuste, pero en la mayoría de los casos el ajuste es pro-código y técnico y el ajuste no es tan granular o preciso como debería ser.
- Ya he aludido a esto antes, existe un abismo que necesita ser llenado aquí. La mejor manera de describir este vacío tecnológico es de la siguiente manera:
- Un espacio latente en el que se puedan manipular los datos conversacionales centrándose en la detección de similitudes y la agrupación de datos semánticamente similares.
- Un espacio latente puede verse como una forma de compresión de datos, en la que afloran las ideas.
- Herramientas centradas en los datos sin código y orientadas al diseño y desarrollo orientado a la intención.
- Se habla mucho de diseñar y desarrollar para el long tail de NLU. Yo soy de la opinión de que la cola larga existe dentro de la conversación actual con el cliente, ya que los chatbots y los robots de voz de las empresas son muy específicos del dominio. Sólo se necesita una herramienta centrada en los datos suficientemente avanzada para el descubrimiento, la estructuración de los datos y el entrenamiento de un modelo.
- Este descubrimiento debe ser tanto supervisado como no supervisado. Cuando los datos de la conversación y las expresiones del usuario se asignan automáticamente a las intenciones existentes. O cuando los datos se agrupan sin intenciones preexistentes, sino simplemente por similitud semántica.
Robots de voz e IA para centros de contacto (CCAI)
La demanda de las empresas está impulsando la implantación de robots de voz. Debido a que tanto el habla a texto (STT) como el texto a voz (TTS) son tecnologías muy especializadas, los marcos de desarrollo de chatbots deben mirar hacia fuera para dar servicio a estos elementos de los robots de voz.
El STT también se conoce como reconocimiento automático del habla (ASR) y el TTS se conoce como síntesis del habla.
Sólo los grandes proveedores de la nube tienen sus propios STT y TTS, entre ellos Nuance, NVIDIA, IBM, Microsoft y AWS. Hay empresas especializadas en estos segmentos, entre las que se encuentran Resemble AI, Respeecher, Deepgram, etc.
Grandes modelos lingüísticos (LLM)
En un post anterior recopilé dos gráficos. El primero es un gráfico en el que se desglosan los diferentes componentes de los LLM y qué LLM existen actualmente en cada uno de ellos.
El gráfico termina con el actual ecosistema de herramientas, que es muy escaso en este momento, especialmente desde la perspectiva de una interfaz de usuario centrada en los datos sin código.
También he creado una matriz con una lista de los LLM existentes, tanto comerciales como de código abierto, y las funcionalidades clave de cada modelo. Soy consciente de que no es una ciencia exacta y de que hay solapamientos, etc. Siempre será así cuando se destile un entorno complejo en una matriz fácil de digerir.
Lo que encuentro convincente aquí es que incluso con los LLMs, hay enfoques específicos en ciertas áreas. Por ejemplo, hay LLM que se centran en la traducción de idiomas, en la generación de textos (alimentados por la ingeniería de la demanda), en las incrustaciones para las búsquedas semánticas y en la agrupación de similitudes semánticas, etc.
Y finalmente
Hace poco me pregunté si el panorama de la IA conversacional estaría más fragmentado.
Teniendo en cuenta las necesidades del mercado de la voz, las herramientas centradas en los datos y la potencia de los LLM, esto parece ciertamente el caso…