La amplia adopción y popularidad de los asistentes de voz conversacionales ha configurado la forma en que interactuamos con esta tecnología y la vemos, al mismo tiempo que destacamos y reforzamos las normas culturales existentes. A medida que avanzamos cada vez más hacia los derechos LGBTQ en todo el mundo, muchos piden el uso de inteligencia artificial y sistemas de conversación para ayudar a cambiar las normas de género. Recientemente, Copenhagen Pride, Virtue, Equal AI, Koalition Interactive y Thirty Sounds Good se unieron para crear Q, una voz sin género con el objetivo de acabar con los prejuicios de género en los asistentes de IA. En palabras de Q: “Fui creado para un futuro en el que ya no nos define el género, sino cómo nos definimos a nosotros mismos”.

Sin embargo, investigaciones anteriores han demostrado que a los usuarios les disgustan las voces sin marcadores de género claros: “una voz ambigua se clasifica como extraña, desagradable, deshonesta y poco inteligente”. Se aplican penalizaciones similares a los sistemas en los que el usuario percibe una desalineación entre el género al que asigna una voz y el género al que asigna una personalidad [5].

Poner fin al sesgo de género en los asistentes de voz es un objetivo que vale la pena lograr, pero plantea una serie de cuestiones prácticas, culturales y éticas que debemos abordar primero.

  • Desde un punto de vista práctico, ¿cómo afecta una voz neutral al género a la adopción y cómo podemos diseñar una personalidad neutral al género para que coincida con esta voz?
  • Culturalmente, ¿cómo diseñamos para lenguajes que tienen un marcado carácter de género? Y éticamente, ¿puede un asistente de voz neutral en cuanto al género realmente cambiar las normas de género o, en última instancia, inquietará a los usuarios?

Estas son solo algunas de las preguntas que debemos hacernos al perseguir este objetivo.

Preferencia de usuario y género

La investigación ha encontrado que las personas tienen una preferencia general por las voces femeninas en todas las culturas y géneros. Clifford Nass, autor de Wired for Speech y The Media Equation , señala que las personas pueden discernir el género de la voz en segundos [5] y que las voces de las mujeres tienden a ser más agudas mientras que las de los hombres tienden a ser más profundas. En una entrevista con CNN, Nass dijo: “Es mucho más fácil encontrar una voz femenina que guste a todos que una voz masculina que guste a todos. Es un fenómeno bien establecido que el cerebro humano está desarrollado para que le gusten las voces femeninas”. Más recientemente, Mitchell y sus colegas realizaron estudios en 2008 con estudiantes universitarios de las zonas ubicadas en el Medio Oeste de los Estados Unidos, y encontraron que las voces femeninas se percibían como “más cálidas”. También encontraron que, aunque ambos sexos dicen que prefieren las voces de las mujeres, solo las mujeres realmente tienen una preferencia subconsciente por ellas [4].

Haciendo eco de los estereotipos de género, Nass también descubrió que las personas tienden a percibir las voces femeninas como serviciales y gentiles que nos ayudan a resolver nuestros problemas, mientras que las voces masculinas son vistas como figuras de autoridad que nos dan las respuestas a nuestros problemas. Además, también encontró que el habla de las mujeres incluye pronombres más personales (yo, tú, ella), mientras que los hombres usan más cuantificadores (uno, dos, algunos más).

La investigación con robots demostró que los usuarios atribuían el género masculino o femenino a un robot en función de la actividad que iba a realizar. Los robots programados para realizar trabajos de seguridad se consideraban hombres, mientras que el mismo robot programado para guiar (es decir, dar instrucciones a los transeúntes) se consideraba femenino [7]. En otro estudio, Trovato y sus colegas encontraron que la forma del robot también influye en la percepción. Un robot con un torso recto u hombros grandes fue visto como un hombre, mientras que aquellos con más curvas fueron vistos como una mujer [6]. Una respuesta que se repitió en todas las culturas.

Si bien parte de esta investigación destaca las diferencias biológicas comunes entre el sexo, gran parte de esta investigación refleja los estereotipos de género y las normas culturales que han ido cambiando durante las últimas dos décadas. El trabajo de Nass, aunque extenso y conocido, se llevó a cabo en la década de 1990 y principios de la de 2000. Mucho ha cambiado desde entonces para los derechos LGBTQ, pero incluso investigaciones más recientes no han mostrado un progreso significativo en lo que respecta a qué género atribuyen los usuarios a los asistentes.

Personalidad en asistentes de voz populares

Independientemente de si un diseñador diseña o no explícitamente una personalidad, la gente le atribuirá una, fuertemente guiada por las normas y expectativas de la sociedad, como las mencionadas anteriormente. Si bien el antropomorfismo varía según los individuos y las culturas, todos tenemos la inclinación a antropomorfizar objetos y criaturas no humanos. Esto es especialmente cierto para aquellas cosas con las que podemos hablar. Cuando antropomorfizamos, también tendemos a atribuir expectativas sociales asociadas. Lo que significa que vemos:

un sistema que te interrumpe por grosero

un sistema que pronuncia mal una palabra común como estúpida

un sistema que no recuerda lo que acabas de decir como olvidadizo

Por lo tanto, los usuarios de agentes conversacionales atribuirán una personalidad y características humanas a un agente, haya o no pensado y diseñado explícitamente esa personalidad. Además, la integración de cualidades antropomórficas en el diseño de un sistema conversacional alentará a los usuarios a recurrir a las normas y expectativas sociales existentes. Esto también puede explicar por qué escuchamos muchos casos de usuarios que insultan a los asistentes de voz, especialmente cuando malinterpretan o no hacen lo que el usuario les pidió.

Antes de que Siri, Cortana, Alexa o el Asistente de Google llegaran al mercado, cada uno de sus creadores diseñó una personalidad, parte de ella inspirada en la investigación sobre las preferencias del usuario. Cuando se lanzaron, todas y cada una de las cuatro grandes empresas de tecnología tenían asistentes personales que, por defecto, tenían una voz femenina en inglés estadounidense. Todos menos uno tienen nombre femenino.

Susan Hendrich, directora principal del programa responsable de la personalidad de Cortana, describe “Cortana [como] competente, solidaria, confiada y leal. Ella siempre está dispuesta a ayudar, pero no es mandona”. Para diseñar la personalidad de Cortana, Microsoft realizó entrevistas con asistentes personales de ejecutivos y celebridades. También encuestaron a los usuarios sobre su asistente personal ideal y determinaron que la gente en todo el mundo prefería una asistente femenina de entre 20 y 30 años que fuera “profesional, pero no rígida, solícita, pero no molesta, descarada, no mordaz”.

Siri fue creada para ser “amigable y humilde, pero también con una ventaja”. A menudo se la percibe como “ atrevida “ y tiene una buena cobertura para contar chistes y referirse a otras entidades virtuales, tanto reales como ficticias. Cuando se le pregunta, Siri se describe a sí misma como “sin género. Como cactus y ciertas especies de peces “. Las voces de Siri vienen como pares masculino / femenino, lo que permite a los usuarios elegir el género de voz que prefieran, aunque el idioma femenino sigue siendo el predeterminado en inglés de EE. UU. [1]. Desafortunadamente, sabemos que hasta el 95% de las personas no cambian sus valores predeterminados.

Los cuatro grandes: Cortana, Siri, Alexa y Google Assistant

Emma Coats, directora editorial, Personalidad, de Google Assistant, dice: “Nuestro punto de partida fue reconocer que, en realidad, no tener personalidad era una personalidad en sí misma”. Coats describe un proceso de construir conexiones con el usuario, mientras fundamentalmente trata de no fingir ser humano. Coats y Danielle Kemmick, directora y fundadora de Google Empathy Lab, dicen que el equipo de personalidad se basa en el concepto de “sí, y” de la improvisación, porque aunque muchas de las preguntas de la charla con las que la gente se involucra no se aplican a un asistente virtual (como un sabor favorito de helado), hay formas de responder que cierran la conversación y otras respuestas que se involucran con el deseo de conexión del usuario. Si bien el Asistente de Google utiliza de forma predeterminada una voz femenina, si se les pregunta sobre su género, responden con “Trato de mantenerme neutral”.

Amazon creó a Alexa para que sea “inteligente, accesible, humilde, entusiasta, servicial y amigable “, y una de las principales formas en que los usuarios experimentan la personalidad de Alexa es a través de lo que Amazon llama ‘delicias’, como contar chistes, cantar canciones y otros Easter eggs. Heather Zorn, directora de experiencia del cliente y compromiso del equipo de Alexa, dice: “Realmente hemos hecho más en el espacio de la personalidad basándonos en la demanda del cliente. Vimos algunos clientes inclinándose y queriendo más una experiencia de broma, o queriendo más easter eggs o queriendo una respuesta cuando dijiste ‘Alexa, te amo’. Cuando Alexa se lanzó respondía con esta frase cuando se le preguntaba por cuál era su género. “mi género es femenino”, ahora indica que no tiene género.

En nuestro propio trabajo en Radar Pace, un sistema de entrenamiento conversacional para correr y andar en bicicleta, llevamos a cabo una extensa investigación en los cinco países en los que lanzamos el producto (Estados Unidos, España, Italia, Francia y Alemania). Elegimos voces femeninas para dos de nuestras personalidades: inglés y español, y voces masculinas para las otras tres. La principal prioridad de nuestra personalidad era generar confianza en el usuario. Después de todo, estábamos desarrollando un producto con el objetivo de cambiar el comportamiento de los usuarios para convertirlos en mejores corredores y ciclistas. Entonces, al elegir una voz masculina o femenina, observamos la prevalencia de entrenadores masculinos y femeninos en cada país (los entrenadores masculinos dominan en todos los países), personalidades de entrenadores bien conocidas, preferencias de los usuarios y normas y expectativas sociales [2]. Por ejemplo, tuvimos que tener en cuenta la jerarquía social y las visiones colectivistas versus individualistas de una cultura, porque eso influiría en la adopción, la confianza y la compenetración con el coach virtual.

Q: La voz sin género

Todo este género en los asistentes de voz nos lleva a Q, la voz sin género desarrollada a través de una colaboración entre Copenhagen Pride, Virtue, Equal AI, Koalition Interactive y Thirty Sounds Good. El equipo desarrolló la voz para sentarse en la intersección de los rangos vocales masculinos y femeninos. Las voces masculinas suelen tener un tono entre 85 y 180 hercios (Hz), mientras que las femeninas están entre 140 y 255 Hz. En una entrevista con Reuters, Nis Norgaard, un diseñador de sonido del estudio Thirty Sounds Good, también menciona que “los hombres tienden a tener un estilo de habla ‘más plano’ que varía menos en el tono y también pronuncian las letras ‘s’ y ‘t’ de manera más abrupta”. Esta realidad coincide con la investigación de Anna Jørgensen para trabajo de fin de máster. En él descubrió que mientras que otras características vocales están involucradas en el género de una voz, el tono es la característica más importante utilizada para cambiar la percepción de género por parte de las personas trans [3].

La voz fue probada por más de 4.000 personas no binarias de Dinamarca, el Reino Unido y Venezuela, la mitad de las cuales dijeron que no podían distinguir el género, mientras que la otra mitad estaba dividida de manera bastante uniforme entre hombres y mujeres. Si bien este es un gran primer paso para avanzar hacia voces neutrales al género, la personalidad está dictada por algo más que el sonido de la voz.

Globalización, normas culturales y lenguajes de género

¿Entonces tienes una voz sin género? ¿Ahora que? El idioma inglés se ha adaptado para apoyar a aquellos que se identifican como no binarios y de género fluido al sobrecargar el uso de los pronombres plurales ellos / ellos / suyos. Este cambio ha proliferado relativamente bien. Pero, ¿qué haces con esa voz cuando estás creando una experiencia en un idioma de género, como el francés? En francés, cada objeto o persona es masculino o femenino. Y cuando se refiere a un grupo, un hombre en un grupo de mujeres automáticamente hace que ese grupo sea masculino. Todavía hay profesiones en francés que solo tienen forma masculina. En Francia, ha habido un impulso para hacer que el lenguaje sea más neutral en cuanto al género, pero ha generado una controversia significativa. Es necesario trabajar mucho más en estos idiomas para apoyar la neutralidad de género. Las comunidades LGBTQ en países con lenguajes de género están adoptando sus propios cambios para la autoexpresión, pero estos cambios aún no se reconocen ampliamente.

Si unimos todo, ¿qué obtenemos?

Al pensar en diseñar un asistente inclusivo, hay muchas cosas a tener en cuenta. Si se aleja demasiado de las normas de género o si a tu asistente no te agrada debido a discrepancias entre la voz y la personalidad, verás una adopción limitada de tu asistente. Tu personalidad debe coincidir con la neutralidad de género de tu voz. De lo contrario, existe la posibilidad de que tu voz de género neutro tenga un género según el contexto de uso, lo que dice o cómo lo dice. Construir una producción de género neutral en lenguajes de género puede ser difícil o imposible en lenguajes de género. Finalmente, las normas y expectativas sociales cambian constantemente. La última investigación que estudia la percepción de las voces de género se realizó por última vez hace casi una década, pero mucho ha cambiado en la última década para los derechos LGBTQ.

La adopción inicial de asistentes de voz fue un primer paso fundamental para pensar en cómo podríamos cambiar las normas sociales con esta tecnología. Como dice Londa Schiebinger, profesora John L. Hinds de Historia de la Ciencia en la Universidad de Stanford y directora del Proyecto de Innovaciones de Género en Ciencia, Salud y Medicina, Ingeniería y Medio Ambiente UE / EE. UU., “ No sabemos si el género un robot para cumplir con las expectativas humanas fomentará el cumplimiento por parte de los humanos. “ Sin embargo, también dice “¿Y si sorprendimos a la gente? ¿Y si hiciéramos robots que no cumplieran con las expectativas humanas? Eso aflojaría los roles de género en la sociedad humana … esto influirá en el usuario para pensar en los roles y normas de género. Esto eventualmente vuelve a cambiar los roles de género en la sociedad ”.

Q es un gran primer paso en la conversación, pero es solo el primer paso. El cambio social no es un proceso de la noche a la mañana. Requiere que los gobiernos, los consejos de idiomas (como la Académie Française en Francia), la academia y la industria se unan para impulsar una cultura más inclusiva. Significa obtener apoyo oficial para el lenguaje sin género en la televisión, los medios y los documentos oficiales del gobierno. Significa capacitar a los diseñadores de VUI para que piensen en el diseño inclusivo de una manera que no lo habían hecho antes. Significa evaluar cómo cambian las percepciones de las personas, tanto a lo largo del tiempo, y con pequeños cambios en el diseño y en el contexto de uso. Ya hemos comenzado con algunos de estos, pero tenemos mucho más por hacer.

References

1. Tim Capes, Paul Coles, Alistair Conkie, et al. 2017. Siri on-device deep learning-guided unit selection text-to-speech system. Interspeech, 4011–4015.

2. Andreea Danielescu and Gwen Christian. 2018. A Bot is Not a Polyglot: Designing Personalities for Multi-Lingual Conversational Agents. In Extended Abstracts of the 2018 CHI Conference on Human Factors in Computing Systems — CHI ’18.

3. Anna K. Jørgensen. 2016. Speaking (Of) Gender: A sociolingistic exploration of voice and transgender identity. University of Copenhagen.

4. Wade J. Mitchell, Chin Chang Ho, Himalaya Patel, and Karl F. MacDorman. 2011. Does social desirability bias favor humans? Explicit-implicit evaluations of synthesized speech support a new HCI model of impression management. Computers in Human Behavior 27, 1: 402–412.

5. Clifford Nass. 2005. Wired for Speech: How Voice Activates and Advances the Human-Computer Relationship. MIT Press

6. Gabriele Trovato, Cesar Lucho, and Renato Paredes. 2018. She’s Electric — The Influence of Body Proportions on Perceived Gender of Robots across Cultures. Robotics 7, 3: 50.

7. Gabriele Trovato, Alexander Lopez, Renato Paredes, and Francisco Cuellar. 2017. Security and guidance: Two roles for a humanoid robot in an interaction experiment. In RO-MAN 2017–26th IEEE International Symposium on Robot and Human Interactive Communication, 230–235.

Por Andreea Danielescu

Líder especializado en establecer y desarrollar nuevos focos de investigación. Impulsa las agendas de investigación aplicada basándose en antecedentes tanto en el desarrollo de productos como en la academia utilizando prácticas de investigación centradas en el ser humano. Fuerte enfoque en la ética para crear tecnologías inclusivas y justas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *