Tabla de contenidos
Introducción
Riva lleva el deep learning a las masas. El aspecto multimodal de Riva se entiende mejor en el contexto de dónde NVIDIA quiere llevar a Riva en términos de funcionalidad.
Dentro de NVIDIA GPU Cloud, también conocida como NGC, existe un catálogo de varios escenarios de implementación. Cada uno de estos elementos del catálogo contiene instrucciones paso a paso y secuencias de comandos para crear modelos de deep learning, con métricas de rendimiento y precisión de muestra para comparar los resultados.
Estos cuadernos brindan orientación sobre la creación de modelos para la traducción de idiomas, texto a voz, clasificación de texto y mucho más.
Arriba están los elementos del catálogo de NVIDA Riva Transfer Learning Toolkit (TLT) a tu disposición. Cada elemento del catálogo tiene instrucciones paso a paso sobre cómo instalar y ejecutar los Jupyter Notebooks.
Lo emocionante de esta colección de funciones es que Riva está preparada para convertirse en un verdadero agente conversacional. Nos comunicamos como humanos no solo con la voz, sino también detectando la mirada del hablante, la actividad de los labios, etc.
Otro enfoque clave de Riva es el aprendizaje por transferencia. Hay un ahorro de costos significativo cuando se trata de tomar los modelos básicos avanzados de Riva y reutilizarlos para usos específicos.
La funcionalidad que está actualmente disponible en Riva incluye ASR, STT y NLU. La instalación perimetral es una gran ventaja.
Configuración del entorno
El acceso al software NVIDIA, Jupyter Notebooks y aplicaciones de demostración es fácil y los recursos son abundantes. El único impedimento es el acceso a una GPU NVIDIA basada en la arquitectura Turing o Volta.
En este artículo, analizo una de las formas más rentables de acceder a dicha infraestructura a través de una instancia de AWS EC2.
NVIDA Riva Notebooks
Para comenzar, NVIDIA Riva tiene bastantes ejemplos de Jupyter Notebook disponibles que puedes usar para avanzar. Estos comprenden diferentes implementaciones de voz, que incluyen voz a texto, texto a voz, entidades con nombre, detección de intención y ranura y más.
Al hacer clic en cada uno de los elementos del catálogo, verás una lista de comandos a ejecutar para iniciar el cuaderno. Estos comandos son bastante precisos y la ejecución no es un problema.
Cuando se utilizan los comandos NGC, la línea de comando solicita una clave API, que debe obtenerse de la página de configuración de NVIDIDA NGC.
En este artículo explico en detalle el proceso de instalación, SSH y tunelización. Se requiere un túnel SSH en el puerto 8888 para iniciar Jupyter Notebook en un navegador en tu máquina local.
El cuaderno lo lleva a través del proceso de definición de directorios, modelos de entrenamiento y exportación a un archivo .riva. Y flujo de trabajo de implementación posterior para consumir el archivo .riva e implementarlo en Riva.
Conclusión
Lo primero que pensé fue que superar el punto de una instalación propia y ejecutar las demostraciones sería muy desalentador… viendo que esto es un entorno de aprendizaje profundo y NVIDA.
Pero, por el contrario, familiarizarse con Riva en un nivel de aplicación de demostración fue sencillo al seguir la documentación. Después de ejecutar este robot de voz de demostración básico, ¿cuáles son los siguientes pasos?
El voicebot donde se realiza la integración de Rasa con Riva es un paso adelante en complejidad y el siguiente paso lógico. También leer detenidamente los Jupyter Notebooks proporciona buenos ejemplos sobre cómo interactuar con las API.
Puntos positivos y consideraciones
- Los aspectos positivos son abrumadores…
- Las implementaciones pueden ser en la nube o locales/perimetrales.
- Riva habla de los servicios cognitivos de fuerza industrial y de misión crítica y la IA conversacional.
- Un nuevo marco para ASR, STT y NLU de alto rendimiento.
- Los desarrolladores tienen acceso a transferir el aprendizaje y aprovechar la inversión realizada por NVIDIA.
- El entorno de la GPU de NVIDIA aborda los requisitos de misión crítica, en los que se puede negar la latencia.
- Hoja de ruta clara para Riva en términos de futuro cercano y características inminentes.
- Riva aborda los requisitos para las interfaces ubicuas ambientales.
Consideraciones…
- El acceso, el desarrollo y la implementación parecen abrumadores y el marco parece complicado. En este artículo quiero acabar con ese punto de vista negativo. Aunque, es evidente, que la implementación de producción seguramente será compleja.
- Lo más probable es que, para un entorno de producción, las consideraciones de hardware específicas sean primordiales; especialmente donde no se puede tolerar la latencia de la nube/conectividad.
Los servicios disponibles ahora a través de Riva son:
- Reconocimiento de voz entrenado en miles de horas de datos de voz con modo de transmisión o por lotes.
- Síntesis de voz disponible en modo por lotes y transmisión.
- API de NLU con una gran cantidad de servicios.
El advenimiento de Riva seguramente será una sacudida para el mercado actual, especialmente con las soluciones de IA conversacionales integradas. La libertad de instalación y la arquitectura abierta serán de gran utilidad para NVIDIA. Como se señaló, la arquitectura de producción y la implementación exigirán una cuidadosa consideración.