El carácter interactivo y situado de la conversación cotidiana

En el Análisis de la Conversación (AC), el término habla interactiva o habla-en-interacción hace referencia al estudio sistemático de la conversación cotidiana o espontánea no como mero resultado de la producción verbal de una serie de mensajes alternos por parte de un hablante y un oyente, sino como la consecución de una serie de prácticas sociales e interactivas entre miembros de una misma comunidad lingüística que colaboran con el objetivo de alcanzar una comunicación ordenada y situada.

Mientras que el calificativo “ordenado” describe el proceso que los hablantes llevan a cabo para transferir los razonamientos tácitos -que siguen un orden y garantizan el establecimiento de intersubjetividad entre los hablantes- a la producción del habla natural, el hecho de que un mensaje se encuentre “situado” significa que este es solo comprensible unido al marco contextual en el que ha sido producido.

El habla interactiva y situada de los asistentes virtuales

La idea de “situación” se utiliza también en Inteligencia Artificial cuando un robot o un agente se encuentran insertados en un determinado ambiente. Dado que los asistentes virtuales existen en contextos dinámicos -que pueden manipular o cambiar a través de sus acciones y que pueden sentir o percibir- su modo de comunicación conversacional es susceptible de ser analizado también desde una perspectiva lingüístico-contextual en vistas a su implementación.

Dado que los asistentes virtuales existen en contextos dinámicos, su modo de comunicación conversacional es susceptible de ser analizado desde una perspectiva lingüístico-contextual en vistas a su implementación.

¿Por qué resulta útil aplicar un análisis pragmático a las interacciones que los humanos mantenemos con el agente conversacional personificado/interfaz de usuario inteligente que representan las interfaces conversaciones? Principalmente, porque el mayor nivel de variación lingüística que existe entre las capacidades comunicativas de los humanos y las máquinas en la actualidad se localiza en el nivel pragmático-discursivode la lengua.

Con este concepto, adaptado de la Sociolingüística, nos referimos al hecho de que, dado que el grado de personificación (embodiment) actual de los asistentes virtuales viene representado, casi exclusivamente, por sus capacidades auditivas y de habla, resulta completamente inviable que estos puedan acceder satisfactoriamente al contexto interactivo que manejamos los humanos.

Esto revierte en el hecho de que, en la práctica, en el desarrollo de una conversación humano-máquina, los mensajes se producen y procesan en dos contextos diferentes, que cuentan con un bajo nivel de solapamiento entre ellos:

  • El contexto del humano, que abarca la totalidad de su conocimiento lingüístico, social y cultural sobre el lenguaje natural, además de poder procesar e insertar en su comportamiento la variedad y la complejidad del contexto interactivo, físico y temporal en el que se desarrolla el intercambio comunicativo.
  • El contexto de la máquina, cuyas capacidades lingüísticas van mejorando cada día, pero sin contar con acceso todavía a las prácticas sociales y culturales que rigen los intercambios conversaciones, manejando bastante limitadamente el contexto intra-textual (deíctico-indexal) y con una comprensión también muy reducida del contexto extra-textual.

Alexa es un agente con un bajo nivel de personificación, solo puede escucharte y hablarte un poco. Su acceso a tu contexto es limitado.

El espacio en el que se fusionan ambos contextos viene constituido, por tanto, por el espacio interactivo que posibilita que el humano y la máquina intercambien mensajes alternos entre ellos, cuyo nivel de cohesión textualy coherencia discursiva se encuentra tan sumamente limitado que cualquier intento interactivo que traspase las capacidades de la máquina conduce a la interrupción inmediata de la comunicación (error). Esta es la razón por la que, de manera inconsciente, cambiamos de manera adaptativa y estratégica nuestra forma de conversar cuando hablamos con un asistente virtual.

Aplicaciones del análisis pragmático al desarrollo de interfaces conversaciones

En nuestra opinión, existen dos aplicaciones básicas del análisis pragmático a la implementación de interfaces conversaciones.

  • Por una parte, las técnicas de observación y análisis tanto de la interacción situada que aplican la Pragmática y el Análisis de la Conversación (grabación y transcripción de interacciones, análisis de las estructuras conversaciones, inclusión de variables sociolingüísticas en los perfiles de los informantes, etc.) pueden avanzar muy significativamente la metodología de iteración de prototipos de interfaces conversaciones.
  • Por otra parte, otras metodologías de estudio del lenguaje más unidas a una corriente antropológica, como la que representa la Etnografía de la Comunicación -en la que el estudio de los actos de habla se lleva a cabo dentro del marco más amplio de las prácticas socioculturales y las creencias de la comunidad de habla en cuestión- pueden resultar bastante útiles para crear diálogos más afines a los que suceden en el mundo real (y virtual), además de crear contextos interactivos “prefabricados” que tanto el humano como la máquina puedan navegar con un menor grado de error.

Este último punto es el que deseo desarrollar en esta entrada.

¿De verdad vas a aplicar los métodos de la Etnografía de la Comunicación al análisis de las conversaciones humano-máquinas?

Etnografía de la Comunicación y habla situada

Para una mejor comprensión de la interacciones situadas, la Etnografía de la Comunicación ha llevado a cabo la conceptualización de las nociones de acto comunicativo, evento comunicativo, situación comunicativa, práctica comunicativa y comunidad de habla con el objetivo metodológico de estudiar las normas lingüísticas y los patrones de interacción socialcomo un todo inseparable. A continuación, presentamos la definición de cada uno de estos conceptos.

Actos comunicativos

Durante el transcurso de una conversación, la expresión de un enunciado como Hace mucho calor en el coche constituye un acto comunicativo, cuyo significado completo solo es accesible para el receptor del mensaje si se encuentra acompañado del contexto en el que se produce.

En este sentido, si el emisor del enunciado anterior se encuentra en el asiento posterior del vehículo, sin acceso a los controles de regulación del aire acondicionado, el conductor entiende que la emisión anterior representa una petición indirecta para que se baje la temperatura.

Eventos comunicativos

Por su parte, la sucesión secuencial de los actos comunicativos en el marco de la interacción incide en la articulación de un evento comunicativo, que constituye un segmento de la vida social de los participantes caracterizado por contar con un inicio y un final claramente delimitados y por seguir una serie de patrones y dinámicas de naturaleza específica.

Las conversaciones, los debates, las mesas redondas, las transacciones médico-paciente o profesor-alumno constituyen, entre muchos otros, diferentes tipos de eventos comunicativos en los que los interlocutores tienen que poner en práctica el conocimiento que cuentan sobre las reglas interactivas que los rigen para poder ser socialmente funcionales.

Situaciones comunicativas

A la vez, cada tipo de evento comunicativo guarda una fuerte dependencia con la situación comunicativa en la que se lleva a cabo (entendida como el contexto y la escena de la interacción), lo que también limita el tipo de evento que puede producirse en su marco contextual.

No te relajes demasiado, sigue siendo una entrevista.

Por ejemplo, durante el desarrollo de la vista oral de un juicio es bastante difícil que ninguno de los participantes se arriesgue a contar un chiste. De la misma manera, en una entrevista de trabajo, por mucho que esta se plantee de manera relajada, el intercambio entre los interlocutores no funciona siguiendo los mismos mecanismos comunicativos que los aplicados en una conversación cotidiana con un conocido o amigo, debido al desequilibrio de poder que existe entre el entrevistador y el entrevistado.

Prácticas comunicativas

Por último, de manera global, los actos, los eventos y las situaciones comunicativas habituales en una determinada comunidad de habla conforman un conjunto de prácticas comunicativas, cuyas normas de uso e interpretación representan el conocimiento más relevante con el que cuentan sus miembros integrantes.

Dicho conocimiento se relaciona con aspectos sociopragmáticos, que sonaltamente variables incluso dentro de distintas variedades de la misma lengua. Por ejemplo, aunque en el español de España es bastante común emplear peticiones directas incluso con extraños (como en la situación comunicativa en la terraza de un bar en la que el cliente puede llamar la atención del camarero diciendo Oye, tráenos más hielo), en las variedades de América Latina este tipo de práctica comunicativa resulta descortés.

Protocolos de interacción humano-máquina

Si trasladamos los conceptos expuestos anteriormente a la conversación humano-máquina, para que esta resulte funcional, es necesario que el diseñador sea capaz de plasmar en los diálogos no solo el sistema lingüístico que conforma cada turno ( intent/utterance), sino también las prácticas interactivas que lo generan.

En cierta forma, las prácticas interactivas representan una suerte de protocolos de interacción que la máquina puede emplear para especificar y llevar a cabo diferentes tipos de tareas comunicativas de manera lo más cercana posible a lo que sucedería en una conversación cotidiana entre humanos.

Dichos protocolos solo adquieren significado completo cuando se conectan con la dimensión sociocultural y el contexto inmediato en los que han sido producidos, dos variables lingüísticas que podemos incluir también en nuestros diálogos mediante la aplicación de metodologías etnográficas de observación y análisis de situaciones comunicativas.

Comandos de voz, el mejor protocolo de interacción para interrogar a fondo a tu asistente virtual.

Metodologías etnográficas para la creación de diálogos situados

Para poder implementar la integración de la dimensión sociocultural y las normas lingüísticas en el diálogo, podemos hacer uso de una serie de procedimientos etnográficos que aplican las perspectivas emic y etic, según como se entienden en la Etnografía de la Comunicación, la Sociología y la Antropología Social.

La primera estrategia emic que podemos emplear con el objetivo de implementar la calidad del diálogo viene representada por la aplicación del conocimiento y la capacidad investigadora sobre los diferentes tipos de eventos comunicativos con los que contamos como miembros de nuestras propias comunidades de habla.

Esto significa que si vamos a crear un diálogo en el que la máquina guíe al usuario en la compra de un determinado producto en la tienda virtual de una marca, antes de comenzar su redacción, resulta necesario investigar detalladamente los protocolos de interacción que los usuarios emplean, de manera estandarizada, en las transacciones que se producen:

(1) En general, en el género discursivo global en el que se engloba el diálogo (compra-venta) en las interacciones orales de la vida diaria;

(2) A través de la experiencia del cliente en los puntos físicos de contactocon la marca;

(3) En la experiencia del cliente en los puntos de contacto digital (página web, tienda online, aplicación móvil, comunidad virtual en redes sociales, etc.).

El conjunto de estos protocolos de interacción forma parte de las expectativas interactivas del usuario y, por tanto, necesitan quedar reflejados adecuadamente en el diálogo.

La segunda estrategia emic de predefinición de la conversación incluye el estudio y la delimitación exhaustiva de la persona tanto de la máquina como del conjunto de los posibles subtipos de usuarios ideales que van a emplear nuestra aplicación en voz.

En lo que respecta a la persona de la máquina, es importante prestar atención al impacto sobre la calidad de comunicación que representa el hecho de que, hoy día, los asistentes virtuales se encuentren configurados (todavía) comoagentes conversaciones con un bajo nivel de personificación.

Cortana es solo dos aros que vibran en su aplicación, pero los usuarios ya desean ver cómo es de cuerpo entero. El usuario de este video habla con ella teniendo a su avatar como fondo de pantalla.

Esto significa que, dado que el canal visual que sustenta la comunicación no verbal se encuentra ausente, debemos realizar un esfuerzo adicional en la definición de las características de la personalidad de la máquina para estas queden adecuadamente reflejadas (e, incluso, en cierta medida también, en ciertos momentos, enfatizadas) en los diálogos.

La complejidad de dicha tarea es tal que, en el futuro, desearía dedicar una entrada específica a la aplicabilidad de los enfoques etnográficos a la creación de personas, por otra parte, totalmente complementarios a los que se emplean en el diseño UX.

Fase etic de predefinición del contexto interactivo

La Etnografía de la Comunicación permite también la aplicación de una metodología etic a la hora de predefinir el contexto interactivo en el que se va a desarrollar la conversación.En este enfoque, el diseñador adquiere una posición externa a su comunidad de habla como agente observador, lo que le permite llevar a cabo el análisis del contexto comunicativo de una manera más objetiva.

En este ejercicio, una suerte de trabajo de campo antropológico, el principal instrumento de recogida de datos que podemos emplear es la plantilla creada por Hymes para analizar sistemáticamente los eventos comunicativos. En ella, los componentes del contexto quedan resumidos por el autor con el acrónimo mnemotécnico de SPEAKING:

Plantilla SPEAKING para el estudio de las situaciones comunicativas de Hymes

Aunque, como hemos señalado, la plantilla SPEAKING se emplea comúnmente en la Etnografía de la Comunicación como un instrumento de observación de interacciones en marcha (y, por lo tanto, también puede adaptarse para ser utilizada en la iteración de prototipos de interfaces conversaciones), en nuestra opinión, también puede servir como un instrumento de predefinición y “precaptación” del contexto interactivo en el que diálogo humano-máquina va a situarse.

Utilizada de esta última manera, la plantilla facilita la definición del conjunto de las variables comunicativas que inciden en la configuración del escenario, los participantes, las finalidades, los actos, la clave, los instrumentos, las normas y el género en los que se va a contextualizar la conversación humano-máquina que vamos a construir.

A continuación, presentamos un ejemplo práctico de aplicación de la plantilla SPEAKING, en el que se define el contexto interactivo para una aplicación en voz en la que el asistente virtual adquiere el rol de profesor de idiomas y el humano de aprendiz.

Como puede observarse, la plantilla puede utilizarse como un esquema conceptual para la predefinición del diálogo y el contexto, cuya extensión puede adaptarse a la complejidad interactiva requerida por la aplicación de voz en cuestión. Por último, otra de sus posibles implementaciones es que la sección de “instrumentos” constituye ya un primer espacio de conceptuación de las necesariamente por venir en el futuro implementaciones multimodales de la interfaz conversacional.

En resumen

Desde un punto de vista lingüístico, el diseñador de VUI se enfrenta con la doble tarea de crear diálogos que se adapten adecuadamente a las expectativas comunicativas de los usuarios dentro de un contexto interactivo que la máquina pueda navegar sin dificultades.

En general, la integración de los aspectos contextuales en el diálogo, a través de las metodologías etnográficas que hemos presentado, posibilita:

  1. Una mejor integración de los aspectos socioculturales de la lengua en la interacción oral humano-máquina;
  2. La creación progresiva de nuevos protocolos de interacción que reviertan en una conversación cohesionada, coherente y más cercana a las interacciones orales de la vida cotidiana;
  3. La individualización de la experiencia del usuario y una personificación más sólida de la imagen de la marca detrás de la interfaz conversacional en cuestión;
  4. El diseño preliminar de las futuras implementaciones multimodalesde la aplicación;
  5. El desarrollo de nuevas formas de iteración adaptadas a la naturaleza oral de los datos.

En el futuro, la personificación (embodiment) más avanzada de los asistentes permitirá que su acceso al contexto interactivo sea mucho más completo. Mientras que llegan estos avances, como diseñadores de interfaces conversacionales, resulta fundamental aplicar nuestras capacidades creativas e investigadoras a la implementación contextos funcionales para todos los participantes en la interacción. El conocimiento aportado por las disciplinas lingüísticas resulta fundamental al respecto.

Originally published at https://www.linkedin.com on June 24, 2018.

Por Carmen Martínez

La Dra. Carmen Martinez es Analista de Conversación y Etnógrafa de Comunicación que trabaja en Inteligencia Artificial Conversacional en FlixBus. Como experta en conversaciones de persona a persona, contribuye a un equipo multidisciplinario automatizando las interacciones de servicio al cliente, modelando conversaciones de persona a máquina basadas en texto y voz, y desarrollando soluciones visuales para agentes conversacionales gráficos y multimodales. Carmen tiene un doctorado en Análisis de Conversaciones y es autora de “Conversar en español: un enfoque desde el Análisis de la Conversación” publicado por Peter Lang Berlin.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *