maria

No cabe duda de que la lengua inglesa predomina en el mundo de la tecnología, y por consiguiente, en el de la Inteligencia Artificial. Los desarrollos tecnológicos que se producen en esa lengua suelen ser superiores a los que se plantean en otras, debido, en gran medida a esa superioridad. Sin embargo, con el objetivo de iniciar la andadura en otras lenguas, el Gobierno de España ha lanzado MarIA, el primer sistema masivo de Inteligencia Artificial de la lengua española. Este proyecto ha sido impulsado por la Secretaría de Estado de Digitalización e Inteligencia Artificial y desarrollado por el Centro Nacional de Supercomputación, a partir de los archivos web de la Biblioteca Nacional de España (BNE).

Pero, ¿qué es MarIA?

MarIA es el primer sistema de inteligencia artificial experto en comprender y escribir en lengua española. De este modo, es capaz de generar textos de forma autónoma y reescribir otros que ya existen. Aunque su aplicación práctica se resume a esto a día de hoy, el objetivo de la herramienta es contribuir al desarrollo de una economía digital en español.

Este sistema de IA está configurado a partir de redes neuronales profundas que han sido entrenadas para comprender cada uno de los entresijos del castellano, llegando a entender su léxico y los mecanismos para expresar el significado y escribir a nivel experto. Se ha desarrollado con tecnología GPT-2.

MarIA y a otras herramientas similares sirven de sustento para el desarrollo del procesamiento del lenguaje natural, la traducción automática o los sistemas conversacionales. De este modo, MarIA puede convertirse en el cimiento sobre la que otros desarrolladores pueden desarrollar otras aplicaciones basadas en el lenguaje y que sean capaces de clasificar documentos, realizar correcciones o elaborar herramientas de traducción. Todo ello, contribuirá al desarrollo de una economía digital y actualizada en español.

¿Cómo la han entrenado?

El entrenamiento de MarIA se ha basado en 135.733.450.668 palabras procedentes de millones de páginas web que recolecta la Biblioteca Nacional y que ocupan un total de 570 Gigabytes de información. Dada la cantidad ingente de información, los responsables del proyecto han hecho uso del sistema MareNostrum del Centro Nacional de Supercomputación de Barcelona que permite una potencia de cálculo de 9,7 trillones de operaciones.

Gracias a la combinación de las fuentes de datos de la Biblioteca nacional y la capacidad de computo de Marenostrum, este desarrollo se ha conseguido ubicar como el tercer sistema de inteligencia artificial experto en comprender y escribir con mayor número de modelos masivos de acceso abierto. Solo el modelo inglés y el mandarín estarían por delante del modelo de lenguaje español.

Próximos pasos

Dado que la base fundamental de todo lenguaje es su capacidad para controlar cualquier rama o sector, el objetivo a futuro de MarIA no es otro que especializarse en campos concretos. De hecho, se busca que la versión actual de lugar a otras más especializadas que puedan aplicarse a campos concretos como la medicina o el transporte.

Por ello, uno de los próximos retos del Plan de Tecnologías del Lenguaje (PlanTL) es crear grupos de trabajo que doten de trabajo donde desarrolladores y empresas combinen sus conocimientos. Ahora sí, es el turno de los desarrolladores, ¿te atreves?

Fuente: Gobierno de España – Ministerio de Asuntos Económicos y Transformación Digital.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *