Si estás pensando en desarrollar un chatbot de voz y quieres saber cuánto cuesta desarrollarlo, estás en el sitio adecuado.
No cabe duda de que es un tema que cada vez está cogiendo más interés, y por eso hoy queríamos abordar qué es lo que hace falta para crear bots conversacionales (o chatbot) de voz, al que tu cliente le pueda dejar un mensaje de voz.
Tabla de contenidos
¿Qué hace falta para crear y desarrollar un chatbot de voz?
Ponte en situación, imagina el último chatbot que has probado y piensa con detenimiento cuál es su estructura básica, ¿cómo funcionaba el chatbot?
- En primer lugar, accedes al chatbot, imagina que sea un chatbot en WhatsApp o en Facebook.
- En segundo lugar, envías un texto o pulsas un botón.
- Esto dará pie a que el bot reciba dicha interacción y la interprete en base a lo que lo hayas entrenado.
- Una vez interpretado, será momento de que el bot sea quien te de una respuesta, una acción para la que en ocasiones ha tenido que hacer consultas a otros sistemas, tal y como vemos en el esquema lógico de un bot:
Pues bien, a la hora de construir un chatbot de voz, sólo tienes que pensar en seguir la misma estructura que un chatbot habitual, pero, entre el paso dos y el paso tres, tienes que integrar un servicio de conversión de voz a texto (speech or voice to text) para que cuando un usuario te envíe un mensaje de voz en el paso dos, el bot reciba un texto en vez de un audio para que pueda interpretarlo.
Entonces, ¿qué me va a costar un chatbot de voz?
Sencillo, al presupuesto del chatbot sin voz, le tienes que incluir el coste de integrar un servicio de transcripción de voz a texto y el coste por uso, de forma que:
- Por un lado, tendrás (i) el coste del desarrollo del chatbot sin la opción de que sea un chatbot de voz, cuyo precio dependerá de la funcionalidad que tenga y de las integraciones que sean necesarias (ejemplos: ¿permite pago? ¿con cuántas bases de datos es necesario que se conecte?) y (ii) el coste por uso del servicio de procesamiento del lenguaje natural externo que utilices, si es que no utilizas un pequeño motor desarrollado por ti.
- Por otro lado tendrás, (ii) el coste de integrar -sobre el bot sin voz desarrollado- un servicio de transcripción y (ii) el coste por su uso.
¿De dónde saco ese servicio de transcripción?
Las empresas tecnológicas cuentan con servicios cognitivos de voz que nos permiten recoger un audio y convertirlo a texto. Hablamos de Google, IBM, Microsoft, Amazon…
Lo cierto es que lo que cuento arriba es el caso de transcripción básico, pero si necesitas algo más complejo como:
- Reconocer la voz de quien habla.
- Convertir de voz a texto una conversación en la que participan dos interlocutores diferentes. Por ejemplo, en un call center.
- Ser capaz de gestionar el audio cuando hay ruído de fondo, o utilizar un vocabulario específico, también podrás entrenar a tu propio servicio de voz. Pero ojo, para decir “quiero un vuelo para Madrid-París urgente para mañana” no necesitas esta opción.
Estas empresas tecnológicas te ponen un conjunto de servicios más completos.
Es el caso de los servicios cognitivos de SPEECH de Microsoft.
Cognitive Services Directory | Microsoft Azure
Learn more about Cognitive Services and manage them in the Azure cloud, or test them with temporary access.
Como ves, tienes servicios vía API de transcripción de un idioma a otro (Translator Speech API), conversor de voz a texto (Bing Speech API), reconocimiento de la voz de una persona (Speaker Recognition API) o el servicio customizado de transcripción de voz a texto (Custom Speech Service) que puedes entrenar para situaciones más complejas (ruido, vocabulario específico..).
Además, como habrás podido comprobar, todos los servicios incluyen el apellido API, y el primero de ellos ya indica que el servicio se puede utilizar vía una llamada sencilla REST API.
Y por último, ¿qué cuestan los servicios de transcripción cada vez que los utilizas?
Servicio de Voice to Text de Google (Cloud Speech API):
- 0,006€ por cada interacción (de hasta 15 segundos)
- Siendo los primeros 60 minutos gratuitos
Speech API – Speech Recognition | Google Cloud Platform
Cloud Speech API provides fast and accurate speech recognition, converting audio, either from a microphone or from a…
Bing Speech API Microsoft:
- 0,0034€ por cada interacción (de hasta 15 segundos).
- Siendo las primeras 5.000 gratuitas
IBM Speech to TEXT:
Tenemos dos servicios: el básico y el customizado. Este segundo caso, tiene un “sobre coste” de 0,03$/minuto sobre los servicios del servicio básico que repasamos a continuación:
- El servicio básico empieza por 0,02USD por minuto para los primeros 250.000 minutos. O lo que es lo mismo 0,005USD por cada tramo de 15 segundos, con la ventaja que en IBM si tienes 3 audios de 5 segundos, es igual a 1 audio de 15 segundos y el coste equivalente de esos 15 segundos sería 0,005USD. Sin embargo en los anteriores, las interacciones son a un precio fijo independientes del tiempo (aunque están acotadas a interacciones máximas de 15 segundos)
- Y a partir de 250.000 minutos baja a 0,015 USD por minuto.
- Y 0,01USD por minuto para más de un millón de minutos.
¿Alexa Automatic Speech Recognition (ASR) de AMAZON o Amazon Lex?
Aún no están disponibles en castellano como los anteriores, aunque el precio es similar:
- 0,004$ por interacción.
- Siendo las 5.000 primeras interacciones gratuitas.
Esperamos que esta review sobre los costes de os haya gustado y comencéis a replantearos la introducción de estos sistemas de reconocimiento de voz para que vuestros clientes puedan enviar al bot las notas de audio que tanto utilizan.