En este post tienes los artículos, guías y noticias mensuales sobre NLP e IA elegidos para ti por NLPlanet.

Tabla de contenidos

😎 Últimas noticias

1º semana

2º semana

  • Presentamos la nueva generación de Claude. Anthropic ha lanzado Claude 3, una nueva IA que supera la GPT-4, con tres modelos: Opus, Sonnet y Haiku. Cada uno de ellos admite una ventana de contexto de 200.000, capacidades de visión y varios idiomas. Opus se promociona como el de mayor rendimiento. Sonnet está integrado con Amazon Bedrock y Vertex AI de Google Cloud, mientras que Opus y Haiku están programados para un futuro lanzamiento junto con nuevas funciones como la llamada a funciones y REPL.
  • Inflection-2.5: conozca la mejor IA personal del mundo. Inflection ha lanzado su última versión de IA, Inflection-2.5, que mejora su modelo de IA, Pi, con capacidades cognitivas avanzadas que desafían a modelos lingüísticos líderes como GPT-4. En concreto, Inflection-2.5 logra un rendimiento competitivo en tareas de IA, especialmente en codificación y matemáticas, con un 40% menos de potencia de cálculo necesaria durante su fase de entrenamiento. Además de su eficiencia de procesamiento mejorada, Pi cuenta ahora con la capacidad de realizar búsquedas en la web en tiempo real para ofrecer noticias e información actualizadas.
  • Parece que ya sabemos qué ejecutivos de OpenAI expresaron su preocupación por Sam Altman antes de su destitución. Sam Altman, consejero delegado de OpenAI, se enfrentó a una breve destitución de su cargo después de que dos ejecutivos, uno de ellos la directora de tecnología Mira Murati, expresaran su preocupación. Las circunstancias que rodearon su salida temporal en noviembre siguen sin estar claras, a pesar de que reasumió el papel de CEO en una semana, según informó The New York Times.
  • Cloudflare anuncia un cortafuegos para la IA. Cloudflare está desarrollando «Firewall for AI», un cortafuegos de aplicaciones web diseñado para proteger los grandes modelos lingüísticos de los abusos mediante la detección de vulnerabilidades y la provisión de medidas de seguridad mejoradas para las aplicaciones basadas en IA.
  • Google lucha contra el spam y los contenidos de baja calidad en las búsquedas. Google está actualizando su algoritmo de búsqueda para degradar el contenido automatizado de baja calidad y elevar los sitios web más valiosos y fiables en las clasificaciones de búsqueda, centrándose en ofrecer una experiencia de contenido de alta calidad.

3º semana

  • Presentamos a Devin, el primer ingeniero de software con IA. Devin es un ingeniero de software autónomo diseñado por IA de Cognition, creado para aumentar los equipos de codificación. Tiene capacidades estratégicas para retos complejos y se integra con herramientas de desarrollo para un desarrollo iterativo. Devin obtuvo mejores resultados en SWE-bench, mostrando competencia en el aprendizaje y la depuración, resolviendo de forma autónoma el 13,86% de los problemas de GitHub en el mundo real, lo que supone un avance con respecto a modelos de IA anteriores.
  • Claude 3 Haiku: nuestro modelo más rápido. Anthropic ha lanzado Claude 3 Haiku, un modelo de IA diseñado para uso empresarial que ofrece una gran eficiencia, rentabilidad y un rendimiento superior en el procesamiento de grandes conjuntos de datos con capacidades de visión avanzadas, capaz de gestionar solicitudes a una velocidad de hasta 21.000 tokens por segundo para entradas inferiores a 32.000 tokens.
  • Agente de IA generalista SIMA para entornos virtuales 3D. DeepMind ha desarrollado SIMA, un agente de IA generalista diseñado para operar en entornos virtuales 3D, que se centra en la interpretación del lenguaje natural y la resolución de problemas complejos en lugar de en la maximización de la puntuación en los juegos tradicionales. SIMA se ha entrenado en nueve juegos de distintos géneros y cuenta con una combinación de modelos preentrenados de reconocimiento de imágenes y basados en la memoria para procesar y actuar en función de señales visuales e instrucciones lingüísticas.
  • Lanzamiento abierto de Grok. xAI ha lanzado Grok-1, un modelo lingüístico de mezcla de expertos con 314.000 millones de parámetros, tras su preentrenamiento en octubre de 2023. Este punto de control del modelo base está destinado a futuras investigaciones y al desarrollo de aplicaciones conversacionales, y es accesible bajo licencia Apache 2.0.
  • Los legisladores europeos aprueban la primera ley importante del mundo para regular la IA. El Parlamento Europeo ha aprobado una exhaustiva Ley de Inteligencia Artificial para regular la inteligencia artificial en función de los riesgos, imponiendo estrictas protecciones a los consumidores y manteniendo la supervisión humana. Se espera que esta ley, cuya entrada en vigor está prevista para 2025, influya en las empresas tecnológicas de todo el mundo y siente un posible precedente para futuras normativas internacionales sobre IA.
  • Midjourney estrena una función para generar caracteres coherentes en múltiples imágenes de IA genérica. Midjourney ha introducido una actualización que permite la coherencia de los caracteres generados por IA en las obras de arte mediante nuevas funciones de etiquetado. La etiqueta » – cref» permite a los usuarios hacer referencia a la URL de una imagen de personaje para mantener su aspecto en distintas escenas, mientras que la etiqueta » – cw» ajusta el nivel de coherencia de los personajes. Esto facilita la continuidad en la narración visual dentro de la comunidad artística de la IA, aunque la precisión de la réplica puede variar.
  • Midjourney acusa a Stability AI de robo de imágenes y expulsa a sus empleados. David Holz, director general de Midjourney, ha acusado a Stability AI de robo de conjuntos de datos de imágenes, lo que ha provocado un intercambio en línea en el que el director general de Stability AI, Emad Mostaque, ha negado cualquier directiva para tales acciones y ha expresado su disposición a apoyar las investigaciones sobre el asunto.

4º semana

  • El CEO de Stability AI dimite para «dedicarse a la IA descentralizada». Emad Mostaque ha dimitido como CEO de Stability AI para concentrarse en el desarrollo de la IA descentralizada. La empresa será codirigida temporalmente por el director de operaciones Shan Shan Wong y el director técnico Christian Laforte, manteniendo sus avances en IA generativa. Este cambio de liderazgo se produce en medio de una notable tendencia del sector al movimiento de talentos, destacada por la adquisición del equipo de Inflection AI por parte de Microsoft y del cofundador de Google DeepMind, Mustafa Suleyman.
  • Hemos creado un procesador para la era de la IA generativa», afirma el CEO de NVIDIA. Jensen Huang, CEO de NVIDIA, anunció en la conferencia GTC la plataforma de computación NVIDIA Blackwell, destinada a impulsar la IA generativa con capacidades superiores de entrenamiento e inferencia. La plataforma incluye interconexiones mejoradas para aumentar el rendimiento y la escalabilidad. NVIDIA también lanzó los microservicios NIM para la implantación de IA a medida y las API Omniverse Cloud para la simulación sofisticada, lo que supone un impacto transformador en sectores como la sanidad y la robótica.
  • Se espera que OpenAI lance una GPT-5 «materialmente mejor» para su chatbot a mediados de año, según fuentes. OpenAI se prepara para lanzar GPT-5 a mediados de año, que ofrecerá mejoras significativas con respecto a GPT-4, sobre todo en lo que se refiere a un mayor rendimiento para aplicaciones empresariales. Aunque la fecha de lanzamiento no está fijada debido a las continuas evaluaciones de formación y seguridad, las demostraciones preliminares a clientes empresariales sugieren nuevas funciones y capacidades, lo que aumenta la expectación por el impacto de GPT-5 en el panorama de la IA generativa.
  • Tras recaudar 1.300 millones de dólares, a Inflection se la come viva su mayor inversor, Microsoft. Inflection, que contaba con una financiación de 1.300 millones de dólares, ha abandonado su proyecto original de IA «Pi» debido al retraso de la competencia y ha integrado a su plana mayor en Microsoft. En concreto, Suleyman y Simonyan, junto con miembros del equipo principal, han asumido puestos de liderazgo en la división de IA de Microsoft, lo que indica una reorientación estratégica hacia soluciones de IA generativa personalizadas para clientes empresariales. Este movimiento ejemplifica el panorama competitivo de la IA conversacional, dominado por gigantes del sector como Microsoft, que se adaptan continuamente mediante importantes inversiones y adquisiciones.
  • Un vídeo de Neuralink muestra a un paciente que utiliza un implante cerebral para jugar al ajedrez en un ordenador portátil. Neuralink demostró un avance significativo en las interfaces cerebro-ordenador al presentar a un paciente humano paralítico que puede jugar al ajedrez y manejar el cursor de un ordenador con un implante cerebral. Este hito se produce tras la aprobación de la FDA para ensayos clínicos y subraya el potencial de la tecnología para revolucionar la asistencia a personas paralíticas y quizá ampliar las capacidades de los no discapacitados.
  • Presentación de Stable Video 3D: Síntesis de vistas y generación 3D de calidad novedosa a partir de imágenes individuales. Stability AI ha presentado Stable Video 3D (SV3D), un nuevo modelo generativo que mejora la tecnología 3D con mayor calidad y consistencia. SV3D ofrece dos versiones: SV3D_u para vídeos orbitales basados en una sola imagen sin trayectorias de cámara, y SV3D_p para la creación de vídeos 3D más avanzados utilizando trayectorias de cámara especificadas. Para su uso comercial se requiere una afiliación a Stability AI, mientras que los usuarios no comerciales pueden acceder a los pesos del modelo a través de Hugging Face y consultar el documento de investigación que lo acompaña.
  • Apple estaría en conversaciones con Google para licenciar la IA Gemini de Google para iPhones. Apple está discutiendo actualmente la integración de la IA Gemini de Google en las funcionalidades del iPhone, ampliando su colaboración más allá del acuerdo con el motor de búsqueda predeterminado de Google. Además, Apple planea incorporar sofisticadas funciones de IA, como la generación de imágenes y texto, en la próxima actualización de iOS 18 y está explorando alianzas con destacadas entidades de IA, como OpenAI y Gemini AI de Google, para mejorar su oferta.

📚 Guías web

1º semana

  • Hacia una RAG de contexto largo. Gemini 1.5 Pro de Google ha introducido una impresionante ventana de contexto de un millón de palabras, lo que ha avivado el debate en la comunidad de la IA sobre la relevancia futura de la Generación de Recuperación Aumentada (RAG). Los avances previstos en las arquitecturas RAG incluyen técnicas más eficientes de recuperación de documentos, un mejor enrutamiento para reducir la latencia y el coste, y un mejor almacenamiento en caché de clave-valor (KV), con el objetivo de maximizar los beneficios de los modelos de contexto largo.
  • Arena TTS: Evaluación comparativa de modelos de conversión de texto en voz real. TTS Arena, que refleja el concepto de LMSys Chatbot Arena, ofrece una plataforma para comparar y evaluar modelos de conversión de texto a voz, permitiendo a los usuarios probar, revisar y valorar varios sistemas para determinar las voces más realistas.
  • Ingeniería de prompts con Llama 2. Deeplearning.ai ha lanzado un nuevo curso titulado «Prompt Engineering with Llama 2», diseñado para mejorar las habilidades en la creación de prompts y la optimización de modelos. El curso cubre estrategias avanzadas, incluyendo técnicas de pocos disparos y cadena de pensamiento. También presenta Code Llama, una ayuda virtual para la programación en parejas.
  • Introducción a Gorilla LLM. El Berkeley Function-Calling Leaderboard (BFCL) ha establecido un nuevo punto de referencia para evaluar LLMs en su capacidad para ejecutar diversos tipos de llamadas a funciones. GPT-4 es actualmente el mejor en tareas de llamada a funciones.
  • Evaluación de grandes modelos lingüísticos cuantificados. Este documento/guía explora el impacto de la cuantización post-entrenamiento (PTQ) en la reducción de las demandas de memoria y computación de los modelos lingüísticos de gran tamaño. Ofrece una amplia evaluación del efecto de PTQ en varios componentes como el peso, la activación y la caché KV en 11 familias de LLM con tamaños de parámetros de 125 millones a 180.000 millones.

2º semana

  • Guía práctica para la evaluación de canalizaciones RAG (parte 1). Un análisis de los LLM como GPT-4 en el contexto de los sistemas de recuperación muestra que, aunque determinan decentemente la relevancia del contexto con una tasa de precisión del 79% para la relevancia binaria, se enfrentan a retos en términos de baja recuperación y de lidiar con múltiples contextos relevantes en consultas complicadas, lo que indica que hay margen de mejora en las métricas de precisión y recuperación.
  • Formación de grandes LLM totalmente desde cero en la naturaleza como una startup. En el ámbito de las nuevas empresas de IA, el proceso de formación de grandes modelos lingüísticos depende no sólo de la experiencia, sino también de una cuidadosa selección de la infraestructura de hardware. Un rendimiento deficiente o inconsistente de la GPU debido a diferencias de calidad en los clusters puede obstaculizar significativamente la eficacia del entrenamiento de modelos.
  • Gemma en Android y iPhone y más actualizaciones de LLM local de MLC. El modelo de lenguaje Gemma2B puede utilizarse en plataformas móviles, incluidos Android e iPhone, con funcionalidad offline. Aprovechando la compilación SLM de MLC para Python, el modelo de 2.000 millones de parámetros alcanza una velocidad de generación de 20 tokens por segundo en dispositivos tan eficientes como el Samsung S23 sin necesidad de conexión a Internet. La optimización mejorada se consigue mediante la cuantización del modelo.
  • Ya puedes entrenar un modelo lingüístico de 70b en casa. Answer.ai presenta un sistema de código abierto que aprovecha FSDP y QLoRA y permite entrenar un modelo lingüístico de 70.000 millones de parámetros en sólo dos GPU de 24 GB.
  • Bitácora del capitán: la irreducible rareza de las IAs de incitación. La aplicación de técnicas eficaces como la adición de contextos ricos, ejemplos personalizados y la adopción de una estrategia de «cadena de pensamiento» mejora significativamente el rendimiento de modelos de IA como Llama 2 o GPT-4 de Meta.

3º semana

  • Multiaguja en un pajar. La nueva prueba comparativa «Aguja múltiple + razonamiento» pone de manifiesto las limitaciones de los LLM con contextos largos. Demuestra que, si bien los LLM obtienen buenos resultados cuando recuperan hechos aislados a partir de datos extensos (el escenario «Aguja en un pajar»), su eficiencia disminuye cuando se les asigna la tarea de encontrar múltiples hechos y razonar sobre ellos. Las principales conclusiones indican que los LLM, incluido GPT-4, tienen dificultades para recuperar numerosos hechos, sobre todo a medida que aumenta el tamaño del contexto, y también se enfrentan a retos a la hora de razonar sobre los hechos que recuperan, lo que sugiere la necesidad de mejorar los modelos para tareas RAG complejas.
  • Mejora de la precisión de las aplicaciones basadas en RAG mediante la construcción y el aprovechamiento de grafos de conocimiento. La Generación Aumentada de Recuperación de Grafos (Graph RAG) está ganando importancia en la recuperación de datos, utilizando bases de datos de grafos para mejorar el contexto de la información. Herramientas como Neo4j y LangChain, que integran la organización detallada de los grafos de conocimiento con la fluidez de los modelos lingüísticos, están impulsando las aplicaciones RAG.
  • Claude 3 es la IA más humana hasta la fecha. La IA Claude 3 de Anthropic hace hincapié en la interacción de tipo humano, centrándose en añadir calidez a los típicos avances de IA impulsados por la eficiencia. Sirve como herramienta de colaboración para escritores, aprovechando su ventana contextual de 1 millón de tokens para gestionar proyectos extensos con eficacia.
  • ¿Cómo evaluar un sistema de RAG? La evaluación de los sistemas de RAG gira en torno a la medición de su capacidad para recuperar con precisión el contexto relevante y generar contenidos pertinentes, coherentes y fiables. Los indicadores clave de rendimiento de estos sistemas incluyen la relevancia del contexto, la relevancia de la respuesta, la fidelidad y la corrección, que son esenciales para optimizar el rendimiento de la GAR tanto en la identificación del contexto como en la generación de respuestas.

4º semana

  • La biblioteca de instrucciones de Anthropic. La biblioteca de estímulos antrópicos ofrece un conjunto de estímulos para tareas específicas destinados a mejorar el rendimiento en áreas como los negocios, el desarrollo personal y los contenidos generados por los usuarios. Es compatible con un conjunto diversificado de actividades que incluyen el desarrollo de juegos, el análisis corporativo, el diseño web, la codificación y la narración creativa.
  • Cómo utiliza realmente la gente la GenAI. La IA Generativa, en particular modelos como ChatGPT, ha ganado la atención de la mayoría con una amplia aplicabilidad evidenciada por más de 100 casos de uso en el mundo real encontrados a través de una extensa investigación. A pesar de su amplia base de usuarios y su potencial importancia económica, su adopción es limitada debido a las preocupaciones sobre la precisión, el posible uso indebido por parte de las empresas y los retos normativos. No obstante, la tecnología promete mejorar la productividad, la creatividad y la resolución de problemas en los ámbitos profesional y personal.
  • Cosmopedia: cómo crear datos sintéticos a gran escala para el preentrenamiento de grandes modelos lingüísticos. Cosmopedia es un importante conjunto de datos sintéticos de código abierto diseñado para facilitar el preentrenamiento de grandes modelos lingüísticos similares a Phi-1.5. Generado con Mixtral-8x7B-Instruct-v0.1, consta de más de 30 millones de archivos y 25.000 millones de tokens. El conjunto de datos hace hincapié en la diversidad y la calidad, conseguidas mediante una ingeniería de prontitud exhaustiva y aprovechando los datos de la web. Supone un cambio de paradigma al pasar del uso de anotadores humanos a modelos GPT para la creación de datos, al tiempo que aborda el reto de las alucinaciones de datos y el control de calidad.
  • Velocidad de inferencia LLM de la luz. El artículo presenta «calm», una solución CUDA racionalizada diseñada para la inferencia rápida en LLMs, haciendo hincapié en la «velocidad de la luz» máxima teórica para la inferencia en LLMs. Destaca la dependencia de los LLM de la generación secuencial de testigos, limitada por el ancho de banda de la memoria más que por la potencia de cálculo de las CPU y GPU actuales. El artículo subraya la necesidad de disponer de software y hardware de alta calidad optimizados para aprovechar al máximo el ancho de banda de la memoria a fin de alcanzar los límites teóricos de velocidad de inferencia.
  • Preentrenamiento de 16 modelos lingüísticos con distintos tokenizadores. Un estudio examinó el impacto de las opciones de vocabulario/tokenización en el rendimiento de los modelos lingüísticos mediante el preentrenamiento de 16 modelos con distintos tokenizadores. Entre las principales conclusiones se encuentran la identificación de 32.000 como el tamaño óptimo de vocabulario y la observación de que, aunque los vocabularios más sencillos convergen más rápidamente, no garantizan resultados superiores tras la convergencia.

🔬 Papers y repositorios de interés

    NLP

1º semana

  • La era de los LLM de 1 bit: Todos los grandes modelos lingüísticos son de 1,58 bits. Los últimos avances han introducido LLMs con pesos ternarios, en particular BitNet b1.58, que consigue una perplejidad y un rendimiento de tarea comparables a los LLMs de precisión completa con unos costes computacionales significativamente reducidos. Este enfoque no sólo reduce la latencia, los requisitos de memoria, el rendimiento y el consumo de energía, sino que también desafía el uso convencional de las GPU aprovechando el hardware optimizado para las adiciones.
  • StarCoder 2 y The Stack v2: La nueva generación. StarCoder2 es un nuevo modelo de lenguaje de código abierto especializado en la generación y comprensión de código en rangos de tamaño «pequeños», con variantes a 3B, 7B y 15B parámetros. Entre las mejoras más destacadas se incluye la ampliación del conjunto de datos con The Stack v2, que contiene un conjunto diverso de 619 lenguajes de programación. Los modelos se han entrenado en un extenso conjunto de datos de entre 3,3 y 4,3 billones de tokens y han mostrado un rendimiento impresionante en diversos parámetros de codificación.
  • Vuelta a lo básico: Revisando la optimización estilo REINFORCE para aprender de la retroalimentación humana en LLMs. Hallazgos recientes indican que la optimización REINFORCE, un método más simple y menos exigente desde el punto de vista computacional, puede superar a la popular pero compleja Optimización de Política Proximal (PPO) para alinear Grandes Modelos de Lenguaje (LLMs) con las preferencias humanas durante el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF).
  • ListT5: Listwise Reranking with Fusion-in-Decoder Improves Zero-shot Retrieval. Los autores han desarrollado ListT5, un nuevo método de reordenación que utiliza el Fusion-in-Decoder (FiD) y que aborda el procesamiento de múltiples pasajes candidatos durante las fases de entrenamiento e inferencia. Se introduce un eficaz sistema de clasificación por listas que utiliza la ordenación por torneos m-ary con almacenamiento en caché de los resultados para una rápida inferencia. ListT5 ha demostrado un rendimiento superior, superando al mejor modelo anterior, RankT5, con una mejora de +1,3 en la puntuación media NDCG@10.
  • MobileLLM: optimización de modelos de lenguaje con miles de millones de parámetros para casos de uso en dispositivos móviles. Este artículo presenta MobileLLM, un modelo lingüístico de parámetros inferiores a un billón optimizado para dispositivos móviles, que desafía el énfasis tradicional en el tamaño del modelo demostrando la importancia de la arquitectura. Utiliza estructuras ligeras con incrustaciones compartidas y atención a consultas agrupadas para superar a modelos anteriores de escala similar, ofreciendo notables mejoras de precisión tanto en pruebas de chat como en tareas de llamada a API, rivalizando con modelos más grandes de 7B en casos de uso específicos.

2º semana

  • Chatbot Arena: Una Plataforma Abierta para Evaluar LLMs por Preferencia Humana. Chatbot Arena es una plataforma abierta diseñada para mejorar la NLP alineando los LLM con las preferencias humanas mediante sencillas comparaciones de opiniones. Incorpora más de 240.000 votos de usuarios para refinar los criterios de evaluación, promover la variedad de preguntas y garantizar el acuerdo entre expertos, confirmando así la fiabilidad de sus resultados.
  • Resonance RoPE: mejora de la generalización de la longitud de contexto de grandes modelos lingüísticos. El estudio presenta Resonance RoPE, una solución para mejorar la capacidad de los Transformers con Rotary Position Embedding (RoPE) para manejar longitudes de secuencia más largas que las vistas durante el entrenamiento (escenarios entrenar-cortar-probar-largar). Esto se consigue mejorando RoPE para posiciones fuera de distribución con el fin de mejorar el rendimiento del modelo en secuencias más largas, con la ventaja de no incurrir en costes computacionales adicionales durante el funcionamiento.
  • La irracional eficacia de las instrucciones automáticas excéntricas. Este estudio investiga el impacto de las instrucciones de «pensamiento positivo» en el rendimiento de diferentes LLM en un conjunto de datos de preguntas de matemáticas (GSM8K). Llega a la conclusión de que la eficacia de los avisos ajustados a mano no es consistente en todos los modelos, y sugiere que la optimización sistemática y automática de los avisos es el enfoque superior para lograr resultados de alta calidad de los LLM.
  • ArtPrompt: Ataques de fuga basados en arte ASCII contra LLM alineados. Investigaciones recientes han identificado una vulnerabilidad en los LLMs, en los que el arte ASCII puede ser utilizado para realizar ataques de fuga explotando sus debilidades en la interpretación de prompts no semánticos. La prueba comparativa ViTC se ha desarrollado para poner a prueba las capacidades de los LLM frente a estos desafíos, revelando que incluso modelos avanzados como GPT-3.5, GPT-4, Gemini, Claude y Llama2 son susceptibles.
  • Yi: Modelos de base abierta de 01.AI. La serie de modelos Yi amplía los modelos lingüísticos preentrenados de 6B y 34B parámetros mejorándolos para el chat, manejando contextos de 200K tokens e incorporando capacidades de visión del lenguaje. Aprovechando una infraestructura informática de alto rendimiento y diseños de transformadores, los modelos Yi sobresalen gracias a los datos de entrenamiento de alta calidad elaborados mediante rigurosos procesos de deduplicación y filtrado. Los autores también perfeccionaron meticulosamente un pequeño conjunto de datos de forma iterativa con aportaciones directas de ingenieros de aprendizaje automático.

3º semana

  • MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training. El equipo de investigación de Apple ha presentado MM1, una serie de modelos de IA multimodal de última generación capaces de procesar información visual y lingüística. La familia MM1 incluye un modelo de 30.000 millones de parámetros que demuestra una capacidad superior de aprendizaje en pocos pasos y destaca en tareas multimodales como la respuesta a preguntas visuales (VQA) y el subtitulado de imágenes.
  • AnswerDotAI/rerankers. Una biblioteca con una API unificada y ligera para varios modelos de reordenación. Aborda el reto de utilizar varios modelos con un diseño ligero, fácil de usar y fácil de integrar, prometiendo simplificar la integración en los pipelines existentes.
  • Descifrando la conversión de capturas de pantalla web en código HTML con el conjunto de datos WebSight. El artículo presenta WebSight, un conjunto de datos sintéticos de 2 millones de pares de HTML y capturas de pantalla diseñado para mejorar los modelos de visión-idioma (VLM) en tareas de desarrollo web, como la traducción de capturas de pantalla de interfaz de usuario a código HTML. Los autores demuestran el rendimiento mejorado de los VLM en este conjunto de datos y contribuyen a la comunidad de la IA abriendo WebSight, lo que anima a seguir investigando en la aplicación de los VLM al desarrollo web.
  • Robo de parte de un modelo lingüístico de producción. Un estudio reciente ha demostrado un ataque de robo de modelos que extrae con éxito capas de modelos transformadores, incluida la capa de incrustación de modelos de alto perfil como Ada y Babbage de OpenAI, y PaLM-2 de Google. Mediante consultas a la API, el ataque puede descubrir de forma económica la matriz de proyección de estos modelos de lenguaje, con estimaciones del coste de exponer la matriz de gpt-3.5-turbo por debajo de los 2.000 dólares.
  • Uni-SMART: Universal Science Multimodal Analysis and Research Transformer. La rápida expansión de los artículos científicos supone un reto para el análisis exhaustivo de la literatura. Los LLM ofrecen una solución potencial con sus capacidades de resumen, pero tienen dificultades con los elementos multimodales que prevalecen en el contenido científico. Uni-SMART (Universal Science Multimodal Analysis and Research Transformer) ha sido desarrollado para comprender y analizar los complejos datos multimodales de la literatura científica.

4º semana

  • Optimización evolutiva de recetas de fusión de modelos. Este artículo presenta un algoritmo evolutivo diseñado para automatizar la combinación de modelos de código abierto en sofisticados modelos de base, eliminando la dependencia de la experiencia humana y los recursos a gran escala. El enfoque ajusta de forma óptima los parámetros y el flujo de datos, lo que resulta en la creación de un LLM de lengua japonesa de alto rendimiento con capacidades matemáticas y un modelo de lenguaje visual (VLM) sensible a la cultura, que establecen nuevos puntos de referencia en sus respectivas áreas, mostrando la promesa de las técnicas automatizadas en el desarrollo de modelos fundacionales.
  • RAFT: Adaptación del modelo lingüístico a la GAR específica del dominio. RAFT (Retrieval Augmented FineTuning) se presenta como un método de post-entrenamiento que mejora los LLM para tareas específicas de dominio entrenándolos para aprovechar selectivamente los documentos relevantes, mejorando la citación de información y el razonamiento en escenarios de «libro abierto». Su eficacia se valida en conjuntos de datos como PubMed, HotpotQA y Gorilla, mejorando el rendimiento en tareas de Generación Aumentada de Recuperación (RAG).
  • Mora: Generación de vídeo generalista mediante un marco multiagente. Mora es un nuevo marco de generación de vídeo multiagente de código abierto que se presenta como alternativa al modelo propietario Sora de OpenAI. Soporta varias tareas como conversión de texto a vídeo, conversión de imagen a vídeo, extensión de vídeo, edición y simulación de mundo digital con un rendimiento cercano a Sora en ciertas áreas, aunque todavía no iguala las capacidades generales de Sora.
  • VLOGGER: difusión multimodal para la síntesis de avatares personificados. VLOGGER es un método novedoso para generar vídeos humanos realistas en los que se habla a partir de una sola imagen utilizando pistas de texto y audio. Este método emplea un marco de modelos de difusión generativa que combina el movimiento humano a 3D y una arquitectura de difusión innovadora para controlar los elementos temporales y espaciales. Este enfoque permite crear vídeos de alta calidad y longitud variable que mantienen la identidad sin necesidad de formación específica sobre individuos ni tareas previas de detección y recorte de rostros.
  • MusicLang/musiclang_predict: AI Prediction api del paquete MusicLang. MusicLang Predict aprovecha la arquitectura LLAMA2 para la generación simbólica de música, ofreciendo funciones avanzadas como la manipulación de progresiones de acordes y la funcionalidad de exportación a MIDI para DAWs. Hace hincapié en el rendimiento en hardware sin necesidad de GPU y planea futuras funciones como el control de instrumentos por compases y la generación de aplicaciones móviles en tiempo real.

¡Gracias por leernos! Si quieres aprender más sobre NLP, recuerda seguir NLPlanet. Puedes encontrarnos en LinkedInTwitterMedium, y en nuestro Discord server.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *