Desde los sistemas IVR tradicionales, todavía muy comunes en la atención al cliente, hasta los asistentes de voz en Alexa o Google Assistant, la tecnología de voz es hoy en día parte de la vida cotidiana y seguirá ganando importancia en el futuro. La pila de componentes de un asistente de voz típico incluye reconocimiento de voz y síntesis de voz, además de los componentes conversacionales habituales como NLU (comprensión del lenguaje natural), gestión de diálogos y NLG (generación de lenguaje natural).

Para garantizar que tu asistente de voz funcione en todas las situaciones, las pruebas son un factor crucial. Las herramientas, como Botium Box, permiten a las empresas implementar una estrategia de prueba holística para los asistentes de voz en todos los niveles de la pila de componentes. Este artículo se centra en la parte del reconocimiento de voz, los archivos de transcripción y la verificación de la tasa de errores de palabras.

Pruebas continuas de reconocimiento de voz

Los grandes proveedores de servicios en la nube Google, Amazon, Microsoft e IBM brindan servicios de voz de alta calidad con las mejores tasas de reconocimiento del mercado. Pero incluso con esos proveedores de la nube, algunos permiten agregar sus propias optimizaciones al cargar datos de capacitación adicionales; esto se usa a menudo para mejorar las tasas de reconocimiento para dominios específicos de vocabulario (sectores de salud, educación, etc). Aparte de los grandes proveedores de servicios en la nube, también hay una serie de paquetes de software gratuitos disponibles como Kaldi (para reconocimiento de voz) o MaryTTS (para síntesis de voz), que las empresas instalan, capacitan y operan en su propia infraestructura.

Las pruebas continuas de reconocimiento de voz tienen la mayoría de los beneficios para los asistentes de voz que utilizan un servicio de voz en la nube optimizado o modelos de lenguaje completamente autodidactas. Como parte de una estrategia de prueba de asistente de voz, la calidad del reconocimiento de voz debe verificarse continuamente, como todos los demás componentes de la pila.

Pruebas para escenarios de la vida real

Los asistentes de voz también deberían funcionar a la perfección, incluso en el caso de un sonido no perfectamente grabado. La intención no es probar el comportamiento del sistema en situaciones separadas, sino simular un uso realista al que se enfrentará el asistente de voz. Una respuesta estable en diferentes circunstancias se convierte en una cuestión de calidad y consistencia.

No solo usamos estas tecnologías en un ambiente completamente silencioso, sino también cuando nuestros hijos están jugando (lo que suele ir acompañado de gritos) o simplemente pasando por un túnel. Siempre tienen que responder en consecuencia en todas las circunstancias, incluso si los hablantes tienen un tono de voz, acento o tono diferente. El rendimiento en tales escenarios de la vida real diferenciará a su asistente de voz de los chatbots promedio con poca comprensión.

Humanificación: Añadir Ruido

En Botium Box, el término Humanificación se utiliza para describir la aplicación de algoritmos para introducir ruido en los datos de prueba. Para las pruebas basadas en texto, esto significa considerar patrones de comportamiento humano típicos y fallas humanas típicas como errores tipográficos, falta de distinción entre mayúsculas y minúsculas, espacios en blanco (o falta de espacios en blanco), uso de emojis y otros. Para las pruebas basadas en la voz, el ruido puede ser realmente ruido, como agregar un poco de ruido de fondo específico del entorno.

Canalización de efectos de voz

En la lista de Efectos de voz en Botium Box, puedes configurar tu pipeline de capas de ruido adicionales para aplicar a un archivo de audio. Hay varios efectos de audio comunes disponibles para simular entornos de la vida real:

  • Agregar ruido de fondo
  • Hacer que suene como una llamada telefónica GSM de bajo ancho de banda
  • Simular una línea telefónica levemente interrumpida agregando descansos

Bonificación: Verifica la tasa de errores de palabras

En muchos casos, es posible que no estés realmente interesado en la transcripción exacta del archivo de audio, sino más bien si se cumplen ciertos criterios de calidad sobre la transcripción; aquí es donde entra en juego la tasa de error de palabras. Es una medida de cuántas palabras en una sola transcripción se han reconocido correctamente: para una transcripción perfecta que coincida completamente con la etiqueta, es 0 y el valor está entre 0 y 1. Dependiendo de tus requisitos, puedes considerar un error de palabra tasa de 0.1 (una transcripción incorrecta de 10 palabras)como correcta. Botium Box puede verificar la tasa de error de palabras en un solo nivel de expresión en lugar de la transcripción exacta.

Conclusión

Una vez que tu asistente esté implementado y expuesto al mundo real, lo más probable es que procese las entradas del usuario que no ha visto en los datos de entrenamiento. La prueba continua de reconocimiento de voz es el primer paso para determinar si tu asistente de voz entiende al usuario correctamente, ya que esa es la condición previa para dar una respuesta precisa y completar la tarea en cuestión.

Por Florian Treml

Trabajé como ingeniero de software en varios dominios, incluidos banca, telecomunicaciones, logística y bienestar. Primer contacto con la IA conversacional en 2015 cuando se desarrolló un chatbot para apoyar el aprendizaje a distancia. Dos años más tarde, el viaje de Botium comenzó con su amigo cercano, Christoph Börner.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *