En BeBot desarrollar chatbots es cosa de todos los días. Parte del proceso es investigar para entender cuál es el objetivo del usuario y las necesidades del cliente, encontrar la mejor forma de resolverlas, trabajar en la personalidad del bot y en el diseño conversacional e imaginar cómo esa voz única permitirá que las personas puedan resolver sus problemas.
Hace un tiempo también empezamos a diseñar una experiencia distinta: bots que usen la voz como forma de comunicación.
Y si bien imaginaba que el proceso de trabajo sería similar a la creación de un bot que usara texto para comunicarse, estaba confundido. El lenguaje escrito que usamos en WhatsApp es radicalmente diferente al que utilizamos para charlar. Una cosa es escribir. Otra, hablar.
De a poco fuimos dándonos cuenta de que los asistentes de voz, por más que estén desarrollados a la perfección, necesitan de la interconexión con otros dispositivos para poder solucionar inconvenientes. ¿A qué me refiero? A que la voz requiere del complemento de dispositivos externos con pantallas y teclados para poder interactuar con los usuarios y crear una experiencia fluida.
Pensemos en el contexto. Las computadoras, hasta ahora, prácticamente siempre tuvieron pantallas. Desde las desarrolladas por hackers en Silicon Valley hasta los teléfonos más avanzados de la actualidad. Y con las pantallas llegó la necesidad de tener formas de generar inputs que fuesen eficientes. Las más utilizadas son conocidas por todos: el teclado, el mouse y la tecnología táctil. “Comunicarse” con computadoras funciona bien porque creamos maneras de ingresar información que son rápidas y para las que prácticamente no se necesita entrenamiento.
La voz como input es increíble. Pasamos de tener que abrir una app, ir al buscador, escribir el nombre de una banda y darle play para que empezara a sonar. Hoy alcanza con decirle a un dispositivo escondido en una repisa «Alexa, poné Arctic Monkeys» para que empiece la música.
Pero si bien en algunos casos esta forma de input es increíble, en otras empieza a hacer agua. Es fácil responder por «Sí» o por «No» a una pregunta de un dispositivo de voz, pero se vuelve complicado ingresar el número del seguro social, un documento o incluso un apellido difícil de pronunciar. Siri llegó al mercado en 2011 de la mano de Apple y esos problemas siguen dándose. Quizás sea el momento de empezar a pensar posibles soluciones.
La “voz” es un canal muy rápido en algunos casos pero también extremadamente lento en otros. Para entender si el asistente nos está dando la respuesta esperada, la mayoría de las veces tenemos que escuchar todo lo que tenga para decirnos. Cuando eso pasa con un mensaje de texto que nos llega a WhatsApp, Telegram o a través de un sitio podemos recorrerlo rápidamente. El texto es escaneable, la voz no.
Así lo explican Christine W. Park y John Alderman en Designing Across Senses: «Los productos multimodales combinan diferentes interfaces de manera coherente. Nos permiten experimentar la tecnología de la misma manera que experimentamos nuestra vida: a través de nuestros sentidos. Un buen diseño multimodal nos ayuda a mantenernos enfocados en lo que estamos haciendo. Un mal diseño multimodal nos distrae con interacciones torpes, inconexas e información irrelevante. Nos saca de nuestra experiencia personal de maneras que, en el mejor de los casos, son irritantes y, en el peor, peligrosas».
Imaginemos a uno de estos asistentes de voz intentando listar diferentes camisetas con sus tamaños, colores y características para que nosotros elijamos cuál queremos comprar. Duele de solo pensarlo.
Cada época fue marcada por diferentes tecnologías. Durante el 2000 el reinado se lo llevó Microsoft con Windows y la interfaz desktop. Bill Gates y compañía fueron los que llevaron el escritorio que teníamos en nuestras oficinas, repletas de papeles y carpetas, a la pantalla de la PC. Siete años más tarde, en el 2007, nació el iPhone. Con él no solo llegó la revolución de los smartphones y las pantallas táctiles, sino la de millones de desarrolladores de todo el mundo creando aplicaciones que rompían los límites de lo que, incluso los creadores del teléfono, habían imaginado. No es extraño que, en 2010, Eric Schmidt, quien era CEO de Google en ese momento, dijera que en la compañía estaban empezando a trabajar con el mobile first en mente. Le tomó solo seis años al tráfico generado a través de dispositivos móviles superar al de desktop.
El párrafo anterior parece atravesar eras, pero solo se tratan de poco más de 15 años. Del reinado de la interfaz gráfica del escritorio de Windows en el 2000 al tráfico mobile superando al de escritorio en 2016.
Hoy, en 2022, hablarle a nuestros dispositivos es cada vez más normal. ¿Tiene sentido, entonces, seguir pensando solo en pantallas a la hora de diseñar?
El futuro de las interfaces conversacionales será multimodal. No solo no será raro que saltemos de una interfaz a otra, sino que se tratará de la convención. En algunos casos le contestaremos a nuestros dispositivos utilizando la voz mientras que en otros lo haremos escribiendo o tocando la pantalla. Porque, como es lógico y sucede en todos los ámbitos, hay fortalezas y debilidades en cada dispositivo. Nuestro trabajo como diseñadores es poder determinar cuáles son esas fortalezas para explotarlas y, a fin de cuentas, hacerle la vida más fácil a las personas.
Escrito por Axel Marazzi – Conversational Ux Writer en Bebot.