La conversación representa la actividad lingüística y social más elemental que realiza el ser humano. Hoy día, dado que los actuales avances en Inteligencia Artificial (IA) lo permiten, como humanos, resulta simplemente natural que deseemos transferir la conversación a nuestra comunicación diaria con las máquinas.

“Como humanos, resulta simplemente natural que deseemos transferir la conversación a nuestra comunicación diaria con las máquinas”

La conversación es inseparable de las dimensiones sociales y culturales que conlleva, ya que constituye la forma prototípica de la interacción oral que los seres humanos empleamos para relacionarnos en sociedad a través de la aplicación sistemática de las rutinas interactivas propias de la comunidad(es) lingüística(s) de las que formamos parte.

En este sentido, en el diseño UX de interfaces conversacionales muy frecuentemente los desarrolladores suelen obviar la necesidad de definir cuidadosamente los parámetros sociales y culturales en los que la interacción verbal humano-máquina va a transcurrir.

Non-verbal haptic human-machine interaction.

La integración de las dimensiones sociales y culturales en el diálogo humano-máquina

Una manera de tener en cuenta dichas dimensiones de la interacción es plantearse, antes de esbozar el diálogo, algunas preguntas como las siguientes:

Una manera de tener en cuenta dichas dimensiones de la interacción es plantearse, antes de esbozar el diálogo, algunas preguntas como las siguientes:

¿Estás creando el guión de un robot de género femenino o masculino?

Parámetros sociales y culturales de la interacción y análisis de sentimientos

El conjunto anterior de preguntas representa solo una mínima parte de los parámetros que los conceptualizadores de conversaciones deberían tener en cuenta antes de sentarse a escribir el guión que la interacción entre el humano y la máquina va a seguir.

Por ejemplo, el planteamiento de un parámetro tan simple como de qué manera un asistente virtual (AV) debería responder a una demanda del usuario para desarrollar una determinada acción da lugar a la siguiente lista de opciones.

Petición del usuario: Asistente, abre {elTiempoHoy}.

Si tenemos en cuenta un continuo de posibilidades en la relación social entre el usuario y la máquina -desde una relación estrictamente impersonal hasta otra muy cercana en la que el usuario y el asistente son casi “amigos” seremos capaces aplicar mejor el análisis de sentimientos(sentiment analysis), además de producir una mayor variedad de turnos de habla o que cuenten con un mayor nivel de adecuación contextual.

1. El AV toma el rol social de máquina y describe la acción que está ejecutando

{elTiempo} está activado

2. El AV mantiene una relación social impersonal con el usuario como mera proveedora de un servicio

{elTiempo} está disponible para su uso. Ya puede empezar a usar {elTiempo}.

Como puede verse, en estos intents tan simples, ya encontramos un tema lingüístico de relevancia: el uso de un aspecto a tener muy a en cuenta para los desarrolladores de voz en español de España, además de la definición específica del resto de las variedades pronominales que se emplearía en cada país de América Latina.

3. El AV mantiene una relación personal con el usuario (conoce detalladamente sus preferencias y tiene una relación informal con él)

Ya puedes consultar la predicción del tiempo para esta tarde con {elTiempo}. Parece que no va a llover y que podrás ir a tu cita de la cinco y media en bicicleta. ¡Ya tienes disponible la predicción del tiempo para hoy! ¡Bienvenido a {elTiempo}!

En el último intent, se plantea un caso interesante en castellano: la elisión verbal de la preposición a con el artículo determinado del nombre del skill (no es natural que la máquina diga A EL Tiempo, debe decir al Tiempo). No hay nada más que sentarse a escribir el guión para que empiecen a surgir problemas lingüísticos (y de programación…).

La conversación como matriz del resto de las interacciones verbales

La conversación representa, además, la forma de interacción matriz de la que se derivan el resto de las interacciones orales de carácter institucionalizado ( debate, mesa redonda, coloquios…) y transacciones (interacciones profesor-alumno, médico-paciente, compra-venta…).

“La conversación es la forma de interacción matriz de que se derivan el resto de las interacciones orales”

El objetivo social elemental de la conversación es la comunicación por la comunicación, lo que, en la interacción misma, se completa con la consecución de los actos de habla ilocutivos que guían los encuentros conversacionales (agradecer, saludar, pedir, quejarse, contar una historia, etc.). Este último concepto de la Filosofía del Lenguage es el que ha sido adaptado para definir la idea de action.

La disponibilidad conversacional en los humanos

La necesidad de comunicarse por comunicarse representa la razón por la que cualquier usuario que haya hablado alguna vez con un AV se ha sentido tentado de preguntarles (o, directamente, les ha preguntado) ¿cómo estás?, ¿cuántos años tienes? o, incluso, ¿me amas?, ya que la comunicación en sí en una necesidad básica que tenemos los humanos (¿la tendrán también las máquinas en el futuro?, ¿pasaremos delante de un frigorífico inteligente y nos saludará buscando charla? :D).

Casualmente (o no), esta chica está probando, ya en el año 2015, la disponibilidad conversacional de dos asistentes de voz en el siguiente video:

Siri o Cortana, ¿cuál de los dos asistentes está más disponible para charlar contigo?

Las secuencias de turnos/intents: la arquitectura de la conversación

Por último, por tratarse de un modo de comunicación social, el desarrollador de interfaces conversaciones debe contar con un conocimiento sólido de la sintaxis, la morfología, el léxico y el nivel prosódico de la lengua, pero, sobre todo, con un dominio sólido de las prácticas interactivas conversacionales que le son propias.

Esto último presupone conocer tanto la forma como el funcionamiento de los mecanismos, los fenómenos y los elementos conversacionales que emplean los miembros de una determinada comunidad lingüística para estructurary dotar de significado sus intercambios, lo que, de manera conjunta, en Lingüística conocemos con el nombre de competencia conversacional (es decir, la manera en la que los interlocutores emplean una determinada estructura secuencial para saludar, pedir favores, contar un chiste, expresar una queja, etc. en una determinada lengua).

En la conversación, hasta las pausas cuentan con significado lingüístico.

Un ejemplo de secuencia de turnos/intents en la conversación: la narración

Por ejemplo, en las secuencias narrativas en castellano, es bastante común que el hablante dé pie a la narración con un turno de habla ( intent) de tipo ¿A que no sabes lo que me ha pasado hoy?, lo que, en el caso de que el interlocutor contrario (es decir, el oyente) exprese interés por la historia, da lugar a una secuencia narrativa en la que la manera en la que se estructuran los intents se encuentra estandarizada culturalmente en cada lengua.

Hablante: ¿A que no sabes lo que me ha pasado hoy?   Intent generador de la narración. Inicio de secuencia. Oyente: ¿El qué?   Expresión de interés, aceptación de la historia Hablante: Pues mira, pasaba en bicicleta por Alexander Platz, yo iba todo despistado, sale la poli de ninguna parte, me paran y me ponen una multa de 80 euros por ir a toda pastilla por zona peatonal.  Cuerpo de la historia, los intents del oyente quedan suspendidos temporalmente hasta el final de la historia. Oyente: ¿De verdad? (risas). Es la segunda en este mes, estás loco, tío, no aprendes.  Evaluación de la historia Hablante: (Risas) No aprendo, no. Son ya 160 pavos tirados por la ventana.  Reacción a la evaluación de la historia. Oyente: Qué idiota (risas).  Intent evaluativo sin contenido semántico, inicio de cierre de secuencia Hablante: Sí, (risas).  Turno de apoyo del oyente sin contenido semántico. Cierre de secuencia.

El conocimiento lingüístico y estructural de estas arquitecturas locales estandarizadas de la conversación, además de las posibles variantes que su desarrollo interactivo implica, revierte en el diseño de algoritmos convesacionales mucho más optimizados.

En resumen

Muy a menudo, el rápido avance que está experimentando el aprendizaje automático ( machine learning) y su enorme importancia para la industria de las interfaces de voz dejan casi completamente en la sombra el valioso conocimiento sobre la conversación que cuentan las disciplinas lingüísticas especializadas en ella.

La transferencia del conocimiento que, principalmente, el Análisis de la Conversación, la Pragmática y la Sociolingüística cuentan sobre el funcionamiento las arquitecturas locales de la conversación y la influencia del contexto en su desarrollo contribuiría a mejorar, significativamente, la implementación de los paradigmas de interacción entre humanos y máquinas.

En un futuro cercano, la formación académica y profesional de los desarrolladores de sotfware y los diseñadores UX especializados en interfaces conversacionales dará la misma importancia tanto al conocimiento procedente de las Ciencias Computacionales como de la Lingüística.

Por Carmen Martínez

La Dra. Carmen Martinez es Analista de Conversación y Etnógrafa de Comunicación que trabaja en Inteligencia Artificial Conversacional en FlixBus. Como experta en conversaciones de persona a persona, contribuye a un equipo multidisciplinario automatizando las interacciones de servicio al cliente, modelando conversaciones de persona a máquina basadas en texto y voz, y desarrollando soluciones visuales para agentes conversacionales gráficos y multimodales. Carmen tiene un doctorado en Análisis de Conversaciones y es autora de “Conversar en español: un enfoque desde el Análisis de la Conversación” publicado por Peter Lang Berlin.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *