En este post tienes los artículos, guías y noticias mensuales sobre IA y NLP elegidos para ti por NLPlanet.
Tabla de contenidos
😎Últimas noticias
1º semana
- Claude 3 Opus supera oficialmente a GPT-4 Turbo en las tablas de clasificación de LMSys Chatbot Arena. Claude 3 Opus supera a GPT-4 Turbo y Gemini Pro, mientras que Claude 3 Haiku supera a GPT-4 y Mistral Large en eficiencia y rentabilidad en las tablas de clasificación de LMSys Chatbot Arena.
- OpenAI y Microsoft planean un proyecto de centro de datos de 100.000 millones de dólares para un superordenador de IA. Microsoft y OpenAI han anunciado una alianza para construir «Stargate», un superordenador de IA avanzada en Estados Unidos que contará con millones de GPU. El proyecto, que puede superar los 115.000 millones de dólares, representa un importante compromiso para ampliar las capacidades de los centros de datos con el fin de avanzar en la investigación y el desarrollo de la IA.
- xAI anuncia Grok-1.5. xAI ha anunciado Grok-1.5, una actualización que amplía su capacidad de manejo de tokens a 128K, lo que le permite procesar documentos de texto hasta 16 veces más largos que su versión anterior. Esta mejora aumenta significativamente el rendimiento de Grok-1.5 en el análisis de textos extensos y le permite localizar con eficacia información precisa dentro de ellos, como demuestra su éxito en la prueba comparativa Needle In A Haystack.
- Amazon y Anthropic profundizan en su compromiso común de hacer avanzar la IA generativa. Amazon ha invertido 4.000 millones de dólares en la empresa de IA Anthropic para seguir desarrollando tecnologías de IA. Anthropic utiliza los chips Trainium e Inferentia de Amazon Web Services (AWS) para mejorar sus modelos de IA. En particular, AWS ha incorporado los modelos Claude 3 de Anthropic a Amazon Bedrock.
- Apple afirma que su último modelo de IA, ReALM, es incluso mejor que el GPT4 de OpenAI. Apple ha anunciado ReALM, un LLM que, según afirma, supera al GPT-4 de OpenAI en comprensión contextual, apto para responder con precisión a consultas independientemente de si está interactuando con contenido en pantalla u operando en segundo plano.
- El equipo de IA de Amazon se enfrenta a la presión de superar a los modelos Claude de Anthropic a mediados de año. Amazon ha acelerado su juego de IA al finalizar una inversión de 2.750 millones de dólares en la startup de IA Anthropic, alcanzando un hito de inversión total de 4.000 millones de dólares, con el objetivo de seguir siendo competitivo con el progreso de la IA de Microsoft en el sector de la nube.
- El modelo de IA de clonación de voz de OpenAI sólo necesita una muestra de 15 segundos para funcionar. OpenAI ha presentado un motor de voz capaz de generar voces sintéticas a partir de muestras de audio de 15 segundos, con funciones multilingües de conversión de texto a voz adecuadas para diversos sectores, haciendo hincapié en el cumplimiento de las directrices de consentimiento en su despliegue.
- Presentación de Jamba. AI21Labs ha desarrollado Jamba, un modelo híbrido de IA que fusiona el Espacio de Estados Estructurado (SSM) con la arquitectura Transformer, para mejorar la eficiencia y versatilidad en el procesamiento de secuencias de datos complejas. Jamba pretende superar las limitaciones de los modelos Transformer clásico y SSM autónomo integrando sus puntos fuertes.
- Presentación de DBRX: Un nuevo LLM abierto de última generación. Databricks ha presentado DBRX, un nuevo modelo de gran lenguaje (LLM) de código abierto que supera a GPT-3.5 en programación y tareas generales, y compite con Gemini 1.0 Pro. DBRX presenta una arquitectura de mezcla de expertos con 132.000 millones de parámetros, aunque sólo 36.000 millones están activos para una entrada determinada. Los modelos DBRX Base y DBRX Instruct están disponibles en Hugging Face.
2º semana
- Presentamos Stable Audio 2.0 de Stability AI. Stable Audio 2.0 introduce avances significativos en la IA de generación de música, ofreciendo conversión de audio a audio a través de indicaciones en lenguaje natural y ampliando las posibilidades creativas con efectos de sonido y transferencia de estilo mejorada. La última versión permite generar canciones estructuradas de alta calidad (44,1 kHz) de hasta tres minutos de duración a partir de instrucciones concisas.
- Empieza a usar ChatGPT al instante. Ahora los nuevos usuarios pueden acceder a ChatGPT al instante, ya que ofrece interacción con IA sin necesidad de crear una cuenta inicial.
- Sora, de OpenAI, acaba de hacer su primer vídeo musical y es como un viaje psicodélico. OpenAI ha mostrado las capacidades de su motor de conversión de texto a vídeo, Sora, creando un vídeo musical para la canción «Worldweight» de August Kamp totalmente a través de las capacidades del motor.
- OpenAI amplía su programa de formación de modelos personalizados. OpenAI está ampliando su iniciativa de modelos personalizados para apoyar a diversas empresas en el desarrollo de modelos de IA adaptados a las necesidades únicas de la industria, con un enfoque en el ajuste fino mejorado a través de la optimización avanzada de hiperparámetros y métodos escalables, como se anunció en DevDay.
- Lambda anuncia un fondo de 500 millones de dólares respaldado por GPU para ampliar su nube orientada a la IA. Lambda ha conseguido 500 millones de dólares de financiación para mejorar sus servicios en la nube orientados a la IA, impulsados por las GPU de NVIDIA, tras una ronda de inversión de serie C.
- Tesla aumenta la remuneración de su equipo de IA: Elon Musk. Tesla, bajo el mando de Elon Musk, está aumentando la remuneración del equipo de IA para retener y atraer a expertos en medio de la intensificación de la competencia en el sector, como pone de manifiesto la transición del ingeniero Ethan Knight al proyecto xAI de Musk tras los intentos de contratación de OpenAI. Esta estrategia pretende mantener el compromiso con las iniciativas críticas de Tesla en materia de conducción autónoma y robótica humanoide.
3º semana
- Llama 3, el competidor de código abierto de GPT-4 de Meta, está al caer. Meta está a punto de lanzar Llama 3, un asistente de inteligencia artificial que pretende superar a sus predecesores y competir con GPT-4 de OpenAI. Debutará con dos versiones preliminares antes de lanzar una iteración multimodal completa en verano.
- Gemini 1.5 Pro ya está disponible en más de 180 países; con comprensión de audio nativo, instrucciones del sistema, modo JSON y más. Gemini 1.5 Pro se ha lanzado en todo el mundo, ofreciendo una comprensión de audio nativa de vanguardia y funciones mejoradas como una API de archivos, instrucciones del sistema, modo JSON para desarrolladores, junto con modalidades avanzadas de audio/vídeo, incluidas funciones de concurso de vídeo. La actualización también introduce un modelo de incrustación de texto de alto rendimiento.
- GPT4 Turbo se ha actualizado y está fuera de la vista previa. El nuevo GPT-4 Turbo, ahora con capacidades de visión, admite solicitudes de visión a través del modo JSON y llamadas a funciones, con conocimientos actualizados hasta diciembre de 2023.
- x.AI presenta su primer modelo multimodal, Grok-1.5 Vision. x.AI, lanzada por Elon Musk, presenta Grok-1.5V, un avanzado modelo multimodal de IA con capacidades mejoradas para analizar datos visuales, incluidos texto, gráficos e imágenes.
- TikTok podría añadir avatares de IA que puedan hacer anuncios. TikTok está investigando la integración de avatares potenciados por IA para ofrecer experiencias publicitarias más personalizadas y atractivas alineando el contenido de los anuncios con los intereses de los usuarios.
4º semana
- Presentamos Meta Llama 3: el LLM de código abierto más capaz hasta la fecha. Meta ha introducido Meta Llama 3, un modelo de gran lenguaje (LLM) de código abierto de última generación con versiones de hasta 70.000 millones de parámetros, que proporciona un razonamiento mejorado y capacidades multilingües. Los mejores modelos actuales están preentrenados y ajustados según las instrucciones a escalas de 8B y 70B. Además, se están desarrollando modelos aún mayores, de más de 400.000 millones de parámetros, que prometen ampliar aún más los límites cuando se publiquen en los próximos meses.
- Mistral presentó Mixtral 8x22B. Mistral presentó Mixtral 8x22B, un eficiente modelo disperso de mezcla de expertos con 39.000 millones de parámetros activos de un total de 141.000 millones, especializado en comunicación multilingüe, codificación y matemáticas, y que destaca en tareas de razonamiento y conocimiento. El modelo cuenta con una ventana contextual de 64K tokens, es compatible con múltiples plataformas y está disponible bajo licencia Apache 2.0 de código abierto.
- OpenAI despide a investigadores por filtrar información. OpenAI ha despedido a dos miembros de sus equipos de seguridad y razonamiento de IA a raíz de unas filtraciones internas, lo que pone de manifiesto el reto constante de equilibrar la transparencia con la seguridad en las organizaciones innovadoras de IA. La empresa está evaluando activamente las repercusiones de la revelación.
- Los nuevos chips de Google quieren plantar cara a Nvidia, Microsoft y Amazon. Google ha presentado el Cloud TPU v5p, un chip de IA que ofrece casi el triple de velocidad de entrenamiento que su predecesor, el TPU v4, reforzando su posición en servicios y hardware de IA. En el evento Google Cloud Next, el CEO Pichai destacó los avances y colaboraciones de la compañía en IA, incluido el uso del superordenador A3 y los chips Blackwell en el hiperordenador de IA. Además, Google presentó la CPU Google Axion, un procesador basado en Arm que compite con ofertas similares de Microsoft y Amazon, con una mejora del rendimiento del 30% y una mayor eficiencia energética.
- OpenAI niega las acusaciones de Elon Musk y solicita su desestimación en los tribunales. OpenAI se opone a una demanda interpuesta por Elon Musk, que acusa a la organización de desviarse de su misión original al emprender iniciativas comerciales con Microsoft. OpenAI rebate las alegaciones, sugiriendo que los intereses contrapuestos de Musk en materia de IA podrían influir en su actuación y argumenta que no se adquirió ningún compromiso concreto para evitar la comercialización, impugnando la base de la demanda de Musk por falta de un acuerdo definitivo.
📚 Contenidos en páginas webs
1º semana
- Hacia modelos de Machine Learning de 1 bit. Estudios recientes como BitNet y 1,58 bit han puesto de relieve el potencial de la cuantización extrema de bits bajos en el machine learning, demostrando que permite realizar multiplicaciones matriciales con pesos cuantizados sin operaciones de multiplicación reales, lo que puede mejorar significativamente la eficiencia computacional de modelos de aprendizaje automático de tamaño considerable.
- Titanes de los semiconductores: dentro del mundo de la fabricación y el diseño de chips de IA. En el crítico panorama de los semiconductores para la electrónica y la IA, TSMC lidera la producción mundial, mientras que NVIDIA destaca por sus avanzados diseños de chips de IA. La cadena de suministro está notablemente concentrada, con actores clave como ASML, TSMC y Samsung, indispensables por su capacidad de fabricación especializada. TSMC fabrica componentes sofisticados como las GPU H100 de NVIDIA, pero se enfrenta a riesgos en la cadena de suministro debido a las tensiones geopolíticas, lo que impulsa la inversión en la diversificación de la producción, ejemplificada por la inversión de 40.000 millones de dólares de TSMC en instalaciones de fabricación en Estados Unidos.
- Ajuste Mixtral 8x7B con AutoTrain. La guía proporciona un recorrido sobre cómo ajustar el modelo de lenguaje Mixtral 8x7B utilizando AutoTrain, destacando una interfaz fácil de usar y requisitos mínimos de codificación tanto para entornos locales como en la nube. Describe los pasos para la configuración, el ajuste de parámetros y la ejecución para entrenar fácilmente el modelo en conjuntos de datos personalizados para una rápida personalización y despliegue.
- Uso de Claude 3 para transformar un tutorial de vídeo en una entrada de blog. Esta guía muestra cómo utilizar Claude 3 para transformar un tutorial de dos horas en capítulos de blog estructurados.
- Crear una aplicación NER multilingüe con HuggingFace, RoBERTa y Comet. Esta guía describe la creación de una aplicación NER multilingüe aprovechando HuggingFace, detallando el proceso desde la carga de datos y el entrenamiento con RoBERTa-base, hasta el desarrollo de la aplicación con Gradio y el seguimiento del rendimiento a través de la biblioteca Comet.
2º semana
- Curso Stanford CS 25 Transformers (abierto a todo el mundo). El popular curso seminario de la Universidad de Stanford, CS25, centrado en los modelos Transformer en inteligencia artificial, está ahora abierto al público a través de livestreaming profesional. El semestre de primavera de 2024 contará con mejoras como una sede más grande, eventos sociales y oportunidades para establecer contactos. Los asistentes podrán asistir a sesiones semanales con líderes del sector de organizaciones como OpenAI y Google, en las que se tratarán los avances del LLM aplicados a campos como el arte digital y la neurociencia.
- Uso de herramientas (llamada a funciones) con Claude. Ha comenzado la fase beta pública para el uso de herramientas de Claude 3, que ofrece una interacción mejorada con herramientas externas del lado del cliente y la posibilidad de personalización para ampliar sus capacidades de tareas.
- Introducción a los modelos de espacio de estados (SSM). Los Modelos de Espacio de Estado (SSM) son cada vez más influyentes en el aprendizaje profundo para sistemas dinámicos, ganando atención con el artículo «Efficiently Modeling Long Sequences with Structured State Spaces» de octubre de 2021. Aquí nos centraremos en el modelo S4, un marco teórico esencial que, si bien no se utiliza ampliamente en aplicaciones prácticas, subraya la evolución de las alternativas a las arquitecturas transformadoras en el campo de la inteligencia artificial.
- Explicación de la infraestructura de IA. El artículo destaca la importancia de la infraestructura de IA para el avance de la tecnología de IA, centrándose en las GPU para el cálculo paralelo eficiente, el ecosistema de software necesario y la variedad de proveedores de nube de GPU. Clasifica a los proveedores de nubes en hiperescaladores, proveedores de nubes especializados y puntos finales de inferencia como servicio/sin servidor para atender a diversas aplicaciones de IA.
3º semana
- Clasificación y comparación de proveedores de voz a texto. Artificial Analysis ha evaluado múltiples modelos de voz a texto y APIs de proveedores como OpenAI, Azure, Amazon Transcribe y Google, centrándose en métricas como la tasa de error de palabras, la velocidad de rendimiento y los precios.
- Explicación de los modelos de visión del lenguaje. Los modelos de lenguaje de visión (VLM) son sistemas de IA multimodales capaces de interpretar imágenes y texto, utilizados para tareas como subtitulado de imágenes y preguntas visuales. Son capaces de aprender a partir de cero y manejar varios formatos de imagen. Algunos ejemplos son LLaVA 1.6 y Yi-VL-34B.
- Cómo utilizar la IA para automatizar el procesamiento de documentos. Los avances en IA han evolucionado desde el tradicional reconocimiento óptico de caracteres y la PNL básica hasta los sofisticados IDP y Large Language Models, que mejoran la interpretación y el manejo de elaboradas configuraciones de documentos.
- Construir sistemas fiables a partir de agentes poco fiables. El artículo presenta métodos para desarrollar sistemas de IA fiables empleando agentes poco fiables. Se detallan los pasos que implican la ingeniería rápida, la optimización del rendimiento, los sistemas de evaluación, el ajuste fino basado en datos y la Generación Aumentada por Recuperación (RAG), con una estrategia notable de utilización de agentes complementarios para aumentar la fiabilidad del sistema.
- Medición de la capacidad de persuasión de los modelos lingüísticos. Una nueva investigación demuestra que la capacidad de persuasión de los modelos de IA antrópica aumenta con cada generación, y el último modelo, Claude 3 Opus, iguala la capacidad de convicción de los argumentos generados por humanos.
4º semana
- Bienvenido Llama 3 – el nuevo LLM abierto de Meta. Meta ha lanzado Llama 3, la última incorporación a su serie Llama, accesible en Hugging Face. Disponible en dos versiones, 8B y 70B, cada una con variantes base y ajustadas a las instrucciones, cuenta con tokenización multilingüe mejorada y está diseñada para facilitar su despliegue en plataformas como Google Cloud y Amazon SageMaker.
- Informe 2024 sobre el índice de IA de Stanford. El Informe sobre el Índice de Inteligencia Artificial 2024 de Stanford presenta las tendencias clave en IA, incluidos los avances técnicos, el aumento de los costes de los modelos avanzados y la productividad de la mano de obra mejorada por la IA. También señala el aumento de las normativas e inversiones centradas en la IA, especialmente en la IA generativa. Todo ello en un contexto de mayor concienciación pública y preocupación por las implicaciones sociales de la IA.
- CUDA sigue siendo un gigantesco foso para NVIDIA. NVIDIA mantiene su posición de liderazgo en IA gracias a la sinergia de su ecosistema de software CUDA y las interconexiones NVLink, que apuntalan el rendimiento de su hardware, lo que dificulta a competidores como AMD rivalizar con la competencia de NVIDIA en las cargas de trabajo de IA.
- ¿OpenAI o DIY? Desvelando el verdadero coste de los LLM autoalojados. El artículo examina las consideraciones financieras de aprovechar la API de OpenAI frente a los LLM autoalojados. Destaca el equilibrio entre el mayor control sobre los datos que se consigue con el autoalojamiento, que conlleva mayores costes de ajuste y mantenimiento, y el ahorro potencial del modelo de precios basado en el uso de OpenAI. La elección entre uno y otro depende de los requisitos y la demanda de cada empresa.
- No se puede construir un foso con IA. El éxito de las aplicaciones de IA depende cada vez más del aprovechamiento de datos únicos y específicos del cliente para el entrenamiento, en lugar de limitarse a innovaciones en modelos como los LLM. La ingeniería de datos es clave para crear soluciones de IA competitivas.
🔬 Papers y repositorios de interés
1º semana
- Factualidad de contenidos largos en grandes modelos lingüísticos. DeepMind ha desarrollado un sistema llamado Search-Augmented Factuality Evaluator (SAFE), que aprovecha los agentes LLM para evaluar la factualidad de los contenidos largos. SAFE descompone el contenido en hechos discretos y emplea un proceso de varios pasos que incluye la consulta a Google Search para verificar los hechos. En las evaluaciones, SAFE se alineó con las anotaciones humanas el 72% de las veces y superó a los humanos en el 76% de los casos en los que hubo desacuerdo inicial, al tiempo que proporcionó un factor de ahorro de costes de más de 20 veces en comparación con los anotadores humanos.
- Jamba: Un modelo lingüístico híbrido Transformer-Mamba. Jamba es un LLM que combina las arquitecturas Transformer y Mamba a través de un enfoque de mezcla de expertos, optimizado para el rendimiento en tareas lingüísticas a gran escala con longitudes de contexto ampliadas. Puede funcionar en GPU de 80 GB.
- Localización de la memorización de párrafos en modelos lingüísticos. Este estudio investiga la localización de la memoria dentro de los modelos lingüísticos, revelando que, aunque la memorización se distribuye a lo largo de varias capas, los gradientes correspondientes al contenido memorizado exhiben patrones espaciales únicos. Además, es posible desaprender selectivamente estos ejemplos memorizados mediante un ajuste preciso de los pesos con gradientes altos.
- Gecko: Incrustación versátil de textos a partir de grandes modelos lingüísticos. Gecko es un novedoso modelo de incrustación de texto que mejora las capacidades de recuperación destilando el conocimiento de los LLM. El método consiste en un proceso de destilación en dos fases que comienza con la creación de pares sintéticos consulta-pasaje utilizando un LLM y, a continuación, refina estos datos utilizando el LLM para identificar los pasajes más relevantes y los ejemplos negativos más difíciles.
- mshumer/gpt-investor. gpt-investor es un agente basado en LLM adaptado al sector de la inversión, que ofrece información analítica sobre valores de sectores específicos. Aprovecha el aprendizaje automático para analizar datos financieros, noticias y calificaciones de analistas, realizando análisis de opiniones y clasificaciones competitivas.
2º semana
- Deepmind Mezcla de Profundidades: Aceleración de los modelos en un 50%. Los investigadores han desarrollado un método que permite a los modelos lingüísticos basados en transformadores distribuir dinámicamente los recursos computacionales (FLOPs) entre las distintas posiciones de una secuencia. Al introducir un mecanismo de enrutamiento top-k que limita el número de tokens implicados en las operaciones de autoatención y MLP en cada capa, los modelos gestionan con eficacia un presupuesto computacional preestablecido. Este enfoque da como resultado modelos que no sólo igualan el rendimiento de los modelos tradicionales utilizando cantidades similares de tiempo de computación y entrenamiento, sino que también reducen significativamente los FLOPs por pasada hacia adelante, lo que lleva a un aumento de más del 50% en la velocidad durante el muestreo post-entrenamiento.
- Los LLM de contexto largo luchan con el aprendizaje en contexto largo. Un nuevo estudio presenta LongICLBench, una prueba de referencia diseñada para poner a prueba grandes modelos lingüísticos (LLM) en tareas de aprendizaje en contexto prolongado y clasificación de etiquetas extremas con rangos de 28 a 174 etiquetas. El estudio utiliza seis conjuntos de datos con longitudes de entrada de entre 2.000 y 50.000 tokens, lo que pone de relieve la necesidad de que el modelo comprenda entradas extensas y amplios espacios de etiquetas para obtener predicciones precisas. Las evaluaciones de 13 LLM indicaron un rendimiento pobre en tareas complejas, especialmente en una con 174 etiquetas, con una comprensión casi insignificante. Los modelos también mostraban un sesgo hacia las etiquetas que aparecían más adelante en la secuencia, lo que ponía de manifiesto deficiencias en el razonamiento sobre contextos largos y detallados y sugería un importante margen de mejora en las capacidades de los LLM.
- Entrenamiento de LLM sobre texto comprimido neuronalmente. Este artículo investiga el entrenamiento de grandes modelos lingüísticos (LLM) utilizando texto que ha sido altamente comprimido por compresores neurales de texto, con el objetivo de mejorar la eficiencia del entrenamiento y del servicio, así como de gestionar mejor las secuencias de texto largas. Aunque el método resulta en una mayor perplejidad en comparación con los tokenizadores de subpalabras tradicionales, se beneficia de longitudes de secuencia más cortas, lo que lleva a menos pasos de generación y latencia reducida.
- Falsificación múltiple. Un estudio desvela una técnica denominada «many-shot jailbreaking» que pone de relieve cómo la elaboración de múltiples diálogos engañosos puede engañar a grandes modelos lingüísticos para que proporcionen respuestas prohibidas, exponiendo un vínculo entre esta vulnerabilidad y las capacidades de aprendizaje en contexto de los modelos.
- Octopus v2: Modelo de lenguaje en el dispositivo para superagentes. Una nueva investigación presenta un modelo de lenguaje en el dispositivo con 2.000 millones de parámetros, que supera a GPT-4 en tareas de llamada de funciones en términos de precisión y latencia, y resuelve los problemas de privacidad y coste de los modelos basados en la nube.
3º semana
- karpathy/llm.c: Entrenamiento LLM en C/CUDA simple y crudo. El proyecto de Andrej Karpathy se centra en el desarrollo de un marco de entrenamiento GPT-2 minimalista utilizando C/CUDA para eliminar dependencias pesadas como PyTorch o cPython. El objetivo es recrear el modelo de PyTorch en aproximadamente 1.000 líneas de código, mejorando al mismo tiempo el rendimiento con la integración directa de CUDA y optimizaciones adaptadas a la CPU.
- Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs. Los investigadores de Apple han desarrollado Ferret-UI, un avanzado modelo de lenguaje multimodal de gran tamaño (MLLM) diseñado específicamente para mejorar la interpretación y la interacción con pantallas de interfaz de usuario (UI) para móviles.
- REGLA: ¿Cuál es el tamaño real del contexto de sus modelos lingüísticos de contexto largo?. La prueba de la aguja en el pajar (NIAH) se ha utilizado para evaluar los modelos lingüísticos de contexto largo midiendo su capacidad para encontrar información específica en textos extensos. Reconociendo las limitaciones de la evaluación de la comprensión profunda de NIAH, los investigadores han desarrollado el punto de referencia RULER. Este nuevo punto de referencia ofrece evaluaciones más complejas al permitir la personalización de la longitud de las secuencias y la complejidad de las tareas, introducir distintos tipos y cantidades de agujas y añadir categorías de tareas más exigentes, como el rastreo y la agregación de varios saltos.
- No deje ningún contexto atrás: Efficient Infinite Context Transformers with Infini-attention. Este trabajo presenta un método para escalar los LLM con el fin de manejar entradas infinitamente largas, manteniendo al mismo tiempo unos requisitos computacionales y de memoria limitados. Introduce Infini-attention, un mecanismo de atención que integra la memoria compresiva con la atención local enmascarada y la atención lineal a largo plazo dentro de un bloque Transformer.
- Rho-1: No todos los tokens son necesarios. Los autores analizan la importancia de los tokens en el entrenamiento de modelos lingüísticos y descubren patrones de pérdida variables entre ellos. Esta investigación conduce al desarrollo de RHO-1, un nuevo modelo lingüístico que emplea el Modelado Selectivo del Lenguaje (SLM) para centrarse en el entrenamiento con tokens que son más beneficiosos para el modelo, en lugar de tratar todos los tokens con la misma importancia.
4º semana
- VASA-1: caras parlantes realistas y sonoras generadas en tiempo real. Microsoft ha desarrollado VASA, un marco capaz de crear rostros parlantes realistas con expresivas habilidades visuales y afectivas a partir de una sola imagen y una entrada de audio, con sincronización labial y expresiones faciales dinámicas para una mayor autenticidad.
- Megalodón: Preentrenamiento e inferencia LLM eficientes con longitud de contexto ilimitada. Megalodon, una nueva arquitectura de modelos diseñada para el modelado eficiente de secuencias con una longitud de contexto ilimitada, se introduce para abordar las limitaciones de escalabilidad de los Transformers debido a su complejidad cuadrática y a su escaso rendimiento con secuencias largas. Sobre la base de la arquitectura Mega, incorpora avances como la media móvil exponencial compleja (CEMA), la normalización de los pasos temporales y un mecanismo de atención normalizada, con el objetivo de superar tanto a los Transformers clásicos como a las alternativas subcuadráticas, como la atención lineal y los modelos de espacio de estados, en eficiencia de preentrenamiento y precisión en las tareas posteriores.
- La compresión representa la inteligencia linealmente. Estudios recientes han hallado una correlación lineal entre el rendimiento de los modelos lingüísticos (LLM) en pruebas comparativas de inteligencia y sus capacidades de compresión de texto, lo que sugiere que la eficiencia de compresión podría servir como una métrica eficaz y no supervisada para evaluar las capacidades de los LLM.
- Conozca su modelo de referencia para una alineación realmente buena. Los investigadores abordan la inestabilidad de los métodos de alineación LLM como RLHF y DPO proponiendo Trust Region DPO (TR-DPO), que actualiza activamente la política de referencia durante el entrenamiento. Este método va más allá de las limitaciones implícitas de DPO, ofreciendo mejoras demostradas en los conjuntos de datos Anthropic HH y TLDR, con TR-DPO superando a DPO hasta en un 19%, según las evaluaciones automáticas GPT-4.
- Desafío BabyLM. El Desafío BabyLM 2024 se centra en mejorar el preentrenamiento de modelos lingüísticos con limitaciones de datos análogas a las del aprendizaje del lenguaje humano. Proporciona nuevos conjuntos de datos, como un corpus multimodal de 50 millones de palabras, y permite a los participantes utilizar conjuntos de datos personalizados con recuentos de palabras específicos.
Estimados
Gracias por la tremenda información y novedades que nos enviáis, estáis en la Cima!
Me interesa saber mucho mas, os dejo mis datos
Cordiales saludos