El Procesamiento del Lenguaje Natural o NLP como también se le conoce es la base sobre la que se asientan la gran mayoría de asistentes conversacionales. Gracias a los algoritmos de NLP el sistema es capaz de descifrar cuáles son las necesidades de los usuarios. Sin embargo, antes de llegar a los niveles que hoy nos permiten disfrutar de Siri, Google Assistant o Alexa, el Procesamiento de Lenguaje Natural ha experimentado una serie de cambios. Álvaro Barbero, doctor en Machine Learning por la Universidad Autónoma de Madrid y Chief Data Scientist del IIC, ha participado en los webinars de precisamente con el objetivo de explicar cómo hemos llegado aquí en este campo de la Inteligencia Artificial.
A lo largo de los últimos años hemos visto cómo el uso de herramientas digitales como las Redes sociales, el correo electrónico o las apps de mensajería han desencadenado el intercambio masivo de información basada en texto. A diferencia de otro tipo de contenidos, el texto es difícil de procesar, impidiéndonos saber de qué se habla en el texto si no lo analizamos. Con el objetivo de procesar dichos contenidos y no perder datos en el camino, el Machine Learning se convierte en una herramienta excepcional que nos permite transformar el dato en número o variable concreta. Tanto es así, que este tipo de sistemas nos permitirían identificar “tags” y grupos de palabras dentro de las frases. Por ejemplo:
Para conseguir llevar a cabo este proceso de clasificación y, sobre todo, de análisis y extracción de textos de texto, debemos agrupar los símbolos en función de varias variables:
- Caracteres.
- Fenómenos.
- Palabras de tokens.
- Grupo de palabras.
Gracias a esa categorización podremos llevar a cabo un procesado que seguirá en la mayoría de los casos una estructura similar a esta pipeline:
Pero, ahora que ya sabes cuáles son los pasos que deberías llevar a cabo para realizar ese procesamiento de reconocimiento de lenguajes estarás pensando:
¿Cómo ha conseguido categorizarlas?
Para realizar ese paso acudimos a lo que se conoce como “tokenización” o lo que es lo mismo el primer nivel de procesamiento y reconocimiento del lenguaje natural que nos permitirá identificar cada una de las palabras del texto, traducidas en tokens. La técnica más sencilla para convertir cada uno de los tokens (o palabras) en comandos es la que se conoce como “bag of words”.
Este tipo de técnicas, aunque efectivas, no nos dan la oportunidad de generar tokens que permitan ser visualmente más reconocibles y tampoco entienden las conexiones semánticas existentes entre diferentes palabras. Es en este punto donde otras técnicas como el word embedding entran en juego. Gracias al uso de este sistema podemos generar conexiones y cruces entre palabras a un nivel más profundo e incluso identificar otro tipo de palabras como las stop words (aquellas que se repiten con demasiada frecuencia y que no queremos que formen parte de la decisión que toma el sistema).
Pero eso no es todo, para perfeccionar el algoritmo también podemos hacer uso de los mixing models que nos permitirán identificar el significado real de las palabras. Pues no es lo mismo decir “me baño en el río” que “me río en el baño”.
Como puedes comprobar dentro del mundo del ML y NLP hay una gran cantidad de técnicas y conceptos que nos permiten llegar a los sistemas de reconocimiento del lenguaje natural actuales. Si quieres profundizar sobre los conceptos que hemos descrito en el post o si quieres ver cómo se pueden aplicar en directo, te compartimos el vídeo completo de la sesión para que puedas profundizar en todos ellos:
Si quieres saber más sobre IA y Spain AI puedes seguir todos sus webinars a través de .