La carrera por los modelos de lenguaje lleva unos meses siendo noticia. El último en mostrar su apuesta ha sido Meta. La compañía dirigida por Mark Zuckerberg ha anunciado el lanzamiento de LLaMA, su modelo de Large Language Model o LLM por sus siglas en inglés.

Tabla de contenidos

¿Qué es LLaMA?

LLaMA (por las siglas en inglés de Large Language Model) es el modelo de generación de lenguaje que Meta ha diseñado y ha puesto a disposición (previa solicitud) de la comunidad investigadora. Al igual que sus homólogos, funciona tomando como referencia un input qe manda un humano y respondiendo en base a este.

De acuerdo a lo datos aportados por Meta, este modelo cuenta con diferentes niveles de entrenamiento. Los tamaños oscilan entre los 7.000 millones de parámetros y los 65.000 millones de parámetros. De este modo, los que accedan al modelo tendrán la opción de utilizar un modelo «más pequeño» o «más amplio» en función de sus necesidades. Además, Meta ha entrenado este modelo utilizando datos y textos de los 20 idiomas con más hablantes, centrándose en aquellos basados en un alfabeto latino y cirílico.

Según la compañía liderada por Zuckerberg, el mundo de los modelos de lenguaje necesita también modelos más pequeños ya que estos requieren «mucha menos potencia informática y recursos para probar nuevos enfoques, validar el trabajo de otros y explorar nuevos casos de uso». Es por ello, que ofrecen estos modelos más pequeños, los cuales están entrenados en más tokens y que, en consecuencia, son más fáciles de volver a entrenar y ajustar para casos de uso de productos potenciales específicos. Sobre este punto, Meta indica que el modelo de LLaMA 65B y LLaMA 33B contiene 1,4 billones de tokens, mientras que el modelo más pequeño, LLaMA 7B, está entrenado con un billón de tokens.

¿Quienes pueden usar LLaMA?

Meta ha anunciado que este modelo del lenguaje estará disponible bajo licencia no comercial y, por lo tanto, no está en acceso abierto para todos los que deseen utilizarlo, alejándose del enfoque propuesto por OpenAI y Google. De acuerdo al comunicado que han lanzado en su página oficial, Meta ha tomado esta decisión con el objetivo de mantener la integridad y evitar el uso indebido de su creación.

«El acceso al modelo se otorgará caso por caso a investigadores académicos; aquellos afiliados a organizaciones en el gobierno, la sociedad civil y la academia; y laboratorios de investigación de la industria en todo el mundo» indican desde la compañía. Por ello, todos los que deseen hacer uso de este modelo, tendrán que enviar una solicitud utilizando el formulario que han habilitado para tal caso.

¿Cuáles son los desafíos de LLaMA?

Al igual que los modelos propuestos por OpenAI o DeepMind, el principal reto al que se enfrente LLaMA son los sesgos, los comentarios tóxicos o las respuestas un tanto salidas de tono (y de lo esperado) que estos sistemas ofrecen. Aún queda mucho camino por recorrer, pero Meta espera que éste se acorte gracias a poner a disposición de los investigadores el código completo del modelo. Al poder aplicarlo a casos de uso más concretos, es más sencillo limitar o eliminar estos problemas.

Además, «también proporcionamos en el documento un conjunto de evaluaciones sobre puntos de referencia que evalúan los sesgos y la toxicidad del modelo para mostrar las limitaciones del modelo y respaldar futuras investigaciones en esta área crucial» indican en el comunicado.

Fuente: Meta

2 comentarios en «Meta lanza LLaMA, su modelo de Large Language Model»

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *