El reconocimiento automático de voz (ASR) también se conoce como conversión de voz a texto (STT). ASR es el proceso de transcripción de audio a texto, que puede ser de naturaleza síncrona o asíncrona.

La transcripción síncrona suele utilizarse en aplicaciones como los robots de voz y los escenarios de asistencia a agentes.

Las asíncronas se utilizan para transcribir a posteriori conversaciones entre clientes y agentes u otras interacciones de voz. La redacción de la PII entra en juego tanto para el audio como para el texto y, especialmente, la redacción automatizada de la PII.

La ASR es la primera línea de defensa cuando se trata de la implementación de un robot de voz o de voz, y también es uno de los aspectos más difíciles de conseguir para una implementación de voz sincrónica y de baja latencia.

Tabla de contenidos

ASR extractiva

La ASR extractiva es aquella en la que el audio se transcribe a texto para su posterior procesamiento, normalmente NLP o NLU.

Elementos clave de la ASR extractiva:

▪️ Detección de lenguaje a partir del habla

Esto es vital en el enrutamiento de clientes, la actualización de datos CRM y más. La detección del lenguaje depende y a menudo se ve obstaculizada por la falta de disponibilidad de un modelo para ese lenguaje humano concreto.

En la mayoría de los casos, los modelos disponibles para la detección del lenguaje son superiores a los de transcripción/extracción. Por lo tanto, ser capaz de detectar el idioma puede informar al proceso de CX si un usuario en particular debe ser dirigido a un agente específico del idioma.

Una solución como Deepgram tiene más de 32 idiomas disponibles para la detección de idiomas.
Los servicios cognitivos de Microsoft Azure ofrecen detección de idiomas para más de 46 idiomas y muchos más locales.

Un ejemplo de detección de idiomas en la zona de juegos de NeuralSpace.

▪️ Transcripción de idiomas a partir del habla

Una solución como la de Microsoft admite actualmente 139 idiomas para la transcripción de audio a texto.

Un elemento clave de la ASR es la capacidad de ajustarse a implementaciones regionales específicas para dar cabida a la representación de la edad, el sexo, la etnia, los acentos regionales, los nombres y la terminología específicos de productos e industrias.

No puedo dejar de mencionar Whisper, el modelo ASR de código abierto de OpenAI. Las consideraciones para utilizar Whisper son:

  • Coste de alojamiento, procesamiento, resistencia de la API… y la lista continúa.
  • Whisper sólo está pensado para un uso asíncrono.
  • El ajuste fino no está contemplado y la tasa de error de palabra (WER) fuera de los 5 idiomas principales no está lista para la producción.

▪️Transcripción asíncrona

La transcripción asíncrona tiene numerosos casos de uso, uno de ellos es la creación de datos de entrenamiento NLU a partir de conversaciones con clientes. La mayoría de las organizaciones disponen de grandes cantidades de grabaciones de clientes que pueden transcribirse sin conexión y utilizar el texto para el diseño y la optimización de NLU.

ASR generativo

La extracción generativa es una función disponible en la mayoría de los ASR, y crecerá con la llegada de los grandes modelos lingüísticos (LLM).

La ASR generativa es el proceso de utilizar la PNL para mejorar el texto de salida y hacerlo más consumible para procesos como la NLU, la PNL o simplemente la inteligibilidad humana al leer el texto.

Algunos ejemplos del paso generativo en ASR:

▪️Puntuación y numeración

Una de las funciones generativas más utilizadas en ASR es la adición de signos de puntuación y números, también denominada normalización inversa del texto (ITN). Esta función hace que el texto sea más legible y fácil de usar.

Especialmente en los casos en los que el discurso del usuario se transmite a la pantalla del agente y, posteriormente, se envía a un robot de asistencia al agente.

La adición de signos de puntuación puede ayudar a realizar un paso alto de NLP antes del procesamiento NLU, especialmente en el caso de la detección de los límites de las frases. La detección de los límites de las frases es útil para dividir los enunciados verbosos de los usuarios en segmentos más pequeños para el procesamiento NLU. También ayuda a detectar intenciones múltiples y a desambiguar eficazmente al usuario.

⬆️ Este ejemplo de añadir puntuación y NIT es de Deepgram.

▪️ Texto generativo basado en la fuente

Se trata del proceso de optimización del texto extraído basado en un modelo específico.
Por ejemplo, con Deepgram, hay varios modelos disponibles para optimizar el texto extraído en función de la fuente de audio. Por ejemplo, los modelos específicos del caso de uso o de la fuente de audio son:

  • General,
  • Reunión,
  • Llamada telefónica,
  • Buzón de voz,
  • Modelo de vocabulario financiero,
  • Optimización de audio y vídeo
  • Voicebots.

▪️Tareas relacionadas con LLM

Otras tareas generativas que pueden realizarse con el texto transcrito son el resumen, la extracción de entidades con nombre, la moderación de contenidos y la extracción de frases clave, entre otras.

Algunos proveedores de ASR permiten definir intenciones y entidades dentro de su solución ASR, por lo que estamos asistiendo a un estrecho acoplamiento de ASR y NLU.

Como ya he dicho antes, tener una buena WER ayuda a aliviar parte de la presión sobre el modelo NLU.

Los datos de entrenamiento NLU pueden utilizarse para crear y entrenar un modelo de ajuste fino basado en texto para el ASR. Esto va más allá de un modelo acústico basado en audio para el ASR.

Como se ha visto anteriormente, los LLM no suponen una amenaza para los proveedores de ASR como Deepgram… en su lugar, es una vía para aprovechar la potencia de ese LLM en particular.

Otro ejemplo es la integración de HumanFirst con el LLM Cohere, que permite a los usuarios aprovechar Cohere desde un espacio latente acelerado sin código para el diseño de NLU.

En conclusión

La voz y el audio serán cada vez más importantes desde el punto de vista de la CCAI y la CAI.
Especialmente debido al hecho de que ASR es una tecnología habilitadora para numerosos casos de uso de CCAI.

Debido a la especialización de la tecnología ASR, los marcos tradicionales de desarrollo de chatbots se ven obligados a buscar fuera socios y proveedores de soluciones de voz.

Las empresas de ASR también tienen una capacidad única para ampliar su huella y su propuesta de valor mediante el aprovechamiento de los LLM y la entrega de la propuesta de valor única de los LLM.

Y, por último, las empresas tradicionales de ASR pueden aumentar drásticamente el valor de sus datos de salida si se adentran en las funciones NLP y NLU a través de lo que podría denominarse ASR generativo.

Landscape de la tecnología de voz

Actualmente soy el Evangelista Jefe @HumanFirst. Exploro y escribo sobre todos los campos relacionados con la intersección de la IA y el lenguaje; que van desde LLMs, Chatbots, Voicebots, Marcos de Desarrollo, Data-Centric espacios latentes y más.

Por Cobus Greyling

Rasa Hero. NLP / NLU, Chatbots, Voz, UI / UX conversacional, Diseñador CX, Desarrollador, Interfaces de usuario ubicuas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *