Aquí tienes los artículos, guías y noticias semanales sobre IA y NLP elegidos para ti por NLPlanet.
Tabla de contenidos
😎 Noticias
1º semana
- Gemini 1.5 Pro 2M ventana de contexto, capacidades de ejecución de código, y Gemma 2 están disponibles hoy. Gemini 1.5 Pro se ha actualizado con una ventana de contexto de tokens 2M más grande y nuevas funciones de ejecución de código para mejorar el rendimiento en tareas complejas. Gemma 2 ya se puede probar en Google AI Studio, y se ha publicado el ajuste de Gemini 1.5 Flash.
- Colabora con Claude en proyectos. Claude.ai introduce la función Proyectos para usuarios Pro y Team, aprovechando la ventana contextual de 200K de Claude 3.5 Sonnet para mejorar el trabajo colaborativo a través de chats organizados, integración de documentos y asistencia personalizada. La adición de artefactos y un feed de actividad compartida fomenta la co-creación y la inspiración dentro de la plataforma.
- Apple es la primera empresa acusada de infringir la normativa de la UE sobre mercados digitales. La UE ha acusado a Apple de infringir la Ley de Mercados Digitales debido a las políticas restrictivas de App Store. Se ha iniciado una nueva investigación sobre la forma en que Apple gestiona las tiendas de aplicaciones alternativas y las tasas asociadas. Apple podría enfrentarse a multas de hasta el 10% de sus ingresos globales y ha declarado que cooperará con los reguladores de la UE.
- Las grandes discográficas demandan a las empresas de IA Suno y Udio por supuesta infracción de derechos de autor. Los principales sellos discográficos han demandado a las empresas de IA musical Suno y Udio por infracción de derechos de autor, alegando el uso sin licencia de canciones protegidas por derechos de autor para entrenar a sus IA, que pueden producir canciones parecidas a las de artistas populares. Suno y Udio alegan que su trabajo es transformador y puede considerarse uso legítimo.
- Apple no lanzará tecnología de IA en el mercado de la UE por motivos normativos. Apple Inc. ha pospuesto el lanzamiento de nuevas tecnologías de IA en la UE debido a los requisitos de cumplimiento de la Ley de Mercados Digitales, cuyo objetivo es evitar que se favorezcan productos propios y se haga un uso indebido de los datos de los consumidores, lo que afecta a la privacidad y la seguridad. Esto afecta a funciones como Apple Intelligence, iPhone Mirroring y SharePlay, ya que Apple se considera un «guardián» según la normativa de la UE.
- Stability.ai consigue un nuevo CEO y un dream team inversor para iniciar su misión de rescate. Prem Akkaraju ha sido nombrado nuevo consejero delegado de Stability.ai, creadora de Stable Diffusion, además de recibir inversiones de figuras notables. El papel de Akkaraju es fundamental para dirigir los esfuerzos de cambio de rumbo de la empresa, aprovechando su experiencia como antiguo CEO de Weta Digital.
- Al parecer, YouTube quiere pagar a las discográficas por utilizar sus canciones para entrenar la inteligencia artificial. YouTube busca acuerdos de licencia con los grandes sellos discográficos Sony, Universal y Warner para el entrenamiento de la IA con el fin de eludir los problemas de derechos de autor, pero se enfrenta a la oposición de los artistas. Mientras tanto, los sellos discográficos han demandado a las plataformas musicales de IA Suno y Udio por infracción de derechos de autor.
- Figma AI: herramientas inteligentes para los diseñadores. Figma ha lanzado Figma AI, una nueva plataforma de diseño mejorada con inteligencia artificial que incluye funciones de búsqueda, herramientas generativas de texto e imágenes y funciones avanzadas de creación de prototipos. Actualmente está en fase beta y es gratuita hasta 2024, aunque su uso puede tener un límite en función del coste de las herramientas.
- La IA de Snapchat convierte las sugerencias en nuevas lentes. Snapchat ha lanzado una función que permite a los usuarios crear lentes personalizadas basadas en la inteligencia artificial utilizando mensajes de texto, aprovechando los datos de interacción del usuario y la actividad en línea para adaptar las experiencias.
2º semana
- Phil Schiller, de Apple, podría formar parte del consejo de OpenAI. Phil Schiller, jefe de la App Store de Apple, podría ser nombrado observador del consejo sin ánimo de lucro de OpenAI para profundizar en su conocimiento de la IA a medida que Apple integra ChatGPT en sus sistemas operativos. Participará en las reuniones sin derecho a voto.
- Adept se une a Amazon. El equipo de Adept, incluidos sus cofundadores, se integra en la división AGI de Amazon, con el objetivo de avanzar en los esfuerzos de inteligencia general. Amazon ha adquirido la licencia de la avanzada tecnología de agentes multimodales de Adept y ha adquirido conjuntos de datos seleccionados.
- Elon Musk: Grok 2 AI llegará en agosto. Elon Musk ha desvelado sus planes para Grok 2, un nuevo modelo de IA que llegará en agosto de 2024 y que promete una mayor eficiencia. Su empresa prevé una actualización a Grok 3 a finales del mismo año, utilizando la tecnología punta de GPU de Nvidia.
- YouTube ya permite solicitar la eliminación de contenidos generados por IA que simulen tu cara o tu voz. La política de privacidad revisada de YouTube permite ahora a los usuarios solicitar la retirada de contenido deepfake que replique su imagen si plantea problemas de privacidad, con ciertas consideraciones sobre el contexto del contenido y el interés público.
3º semana
- Microsoft renuncia a su puesto de observador en el consejo de OpenAI. Microsoft ha renunciado a su puesto de observador en el consejo de OpenAI, lo que refleja su confianza en la trayectoria de OpenAI bajo la dirección de su consejero delegado, Sam Altman. Este movimiento agiliza la relación de Microsoft con OpenAI y posiblemente también aborda cuestiones antimonopolio. OpenAI no ofrecerá funciones de observador en el futuro, prefiriendo interacciones directas de asociación, como con Microsoft y Apple.
- Figma retira su herramienta de IA tras las críticas por copiar el diseño de Apple. Figma retiró su herramienta de IA, Make Designs, tras las acusaciones de replicar las interfaces de las aplicaciones meteorológicas para iOS de Apple. El CEO Dylan Field reconoció que el rápido lanzamiento había sido defectuoso, y el CDT Kris Rasmussen señaló el uso de modelos de IA de terceros, no desarrollados internamente por Figma, lo que indica posibles problemas de formación con modelos de IA potencialmente procedentes de entidades como OpenAI o Amazon.
- OpenAI desvela una escala de cinco niveles de IA, con el objetivo de alcanzar pronto el nivel 2. La escala de progresión de la IAG de cinco niveles de OpenAI indica una aproximación al nivel 2 «Razonador», que demuestra una resolución de problemas similar a la humana. Se prevé que el nivel 2, caracterizado por una lógica y un razonamiento avanzados, pueda alcanzarse en los próximos 1,5 años.
- Stability AI lanza las funciones del Asistente Estable. Stability AI ha mejorado su Asistente Estable con las nuevas funciones de Stable Diffusion 3, que incluyen «Buscar y reemplazar» para el intercambio de objetos en imágenes, junto con las funciones existentes para la edición de imágenes, el escalado y la generación de vídeo.
- Actualización de la licencia de Stability AI. Stability AI ha revisado sus licencias y ha adoptado la «Stegree AI Community License», que ofrece condiciones más generosas para particulares y pequeñas empresas, incluido el uso gratuito por debajo de determinados umbrales de ingresos y sin restricciones para uso no comercial y de pequeñas empresas, al tiempo que aborda los problemas de calidad con el modelo SD3 Medium.
4º semana
- GPT-4o mini: inteligencia rentable. OpenAI ha lanzado GPT-4o mini, un modelo de IA avanzado y rentable con un precio de 0,15 $/millón de tokens de entrada y 0,60 $/millón de tokens de salida, que ofrece un rendimiento superior a un coste inferior que GPT-3.5 Turbo.
- Mistral NeMo. Mistral, en colaboración con NVIDIA, ha lanzado el modelo Mistral NeMo de 12B parámetros, que incluye una ventana de contexto de tokens de 128.000, compatibilidad con FP8 y un tokenizador Tekken de última generación. Es de código abierto Apache 2.0, ofrece funciones multilingües mejoradas y supera a la versión anterior de 7B en tareas de seguimiento de instrucciones.
- Apple, Nvidia y Anthropic utilizaron miles de vídeos robados de YouTube para entrenar la IA. Una investigación ha revelado que grandes empresas de IA, como Apple, Nvidia y Anthropic, han entrenado sus modelos de IA utilizando subtítulos de más de 173.000 vídeos de YouTube, lo que podría infringir la política de YouTube contra la captación de datos y plantear cuestiones sobre los derechos y la compensación de los creadores.
- Codestral Mamba. Mistral ha presentado Codestral Mamba, un nuevo modelo de Mamba centrado en la codificación y conocido por gestionar eficazmente secuencias largas con inferencia en tiempo lineal y soporte teórico para longitudes de secuencia ilimitadas. Compite con los principales modelos SOTA y es de código abierto, accesible para la extensión a través del repositorio GitHub con opciones de integración como mistral-inference SDK, TensorRT-LLM, y una próxima llama.cpp.
- Meta lanzará Llama 3 400b la semana que viene – aquí tienes por qué debería importarte. Meta planea lanzar Llama 3 400B en julio de 2024, ampliando la serie de modelos Llama 3 AI. Este modelo de código abierto ofrecerá funciones mejoradas para chatbots y aplicaciones multilingües, con el objetivo de proporcionar un amplio acceso a los últimos avances en IA.
- Kevin Scott, CTO de Microsoft, cree que las «leyes de escalado» de LLM se mantendrán a pesar de las críticas. En un podcast de Sequoia Capital, Kevin Scott, director técnico de Microsoft, expresó su confianza en el potencial de crecimiento de los Large Language Models, cuestionando la idea de un pico de desarrollo de la IA y destacando las ventajas de ampliar el tamaño de los modelos y las capacidades de entrenamiento.
5º semana
- Meta lanza Llama 3.1. Meta ha presentado el modelo Llama 3.1 405B, una IA de código abierto de última generación para grandes idiomas con funciones avanzadas de multilingüismo, razonamiento y uso de herramientas, junto con mejoras en sus modelos 8B y 70B. La actualización ofrece mayores longitudes de contexto, mejor entrenamiento y evaluaciones exhaustivas, y está disponible para su descarga en varias plataformas.
- Mistral lanza Mistral Large 2. Mistral lanza su nuevo modelo, Mistral Large 2, con 123.000 millones de parámetros y una ventana de contexto de 128.000, que ofrece compatibilidad con varios idiomas y lenguajes de programación, optimizado para la inferencia de alto rendimiento en un solo nodo. Ofrece una precisión del 84,0% en la prueba de referencia MMLU, una generación de código mejorada y capacidades de razonamiento. El modelo está disponible con opciones de licencia comercial y de investigación.
- La IA alcanza el nivel de medalla de plata resolviendo problemas de la Olimpiada Matemática Internacional. AlphaProof y AlphaGeometry 2, dos sistemas de IA, demostraron su destreza resolviendo 4 de los 6 problemas de la Olimpiada Matemática Internacional, alcanzando el nivel de medalla de plata. AlphaProof aplicó el aprendizaje por refuerzo avanzado en matemáticas formales, y el enfoque híbrido neuro-simbólico de AlphaGeometry 2 dio lugar a avances sustanciales en la resolución de problemas de geometría compleja.
- El nuevo prototipo SearchGPT de OpenAI es una declaración de guerra contra Google. OpenAI ha lanzado «SearchGPT», un prototipo de herramienta de búsqueda conversacional con mejoras de la información web en tiempo real, que desafía la hegemonía de Google en el mercado de los motores de búsqueda prometiendo una experiencia de usuario más eficaz y precisa.
- OpenAI permite ajustar GPT-4o mini de forma gratuita. OpenAI permite ahora a los usuarios de nivel 4 y 5 ajustar GPT-4o mini para casos de uso específicos con los primeros 2 millones de tokens de entrenamiento diarios gratuitos hasta el 23 de septiembre, con planes de ampliar esta función a todos los niveles de usuarios con el tiempo.
- Condé Nast envía una orden de cese y desistimiento a Perplexity AI por el robo de datos. Condé Nast ha emprendido acciones legales contra el motor de búsqueda Perplexity AI por el uso no autorizado de su contenido, reflejando la respuesta anterior de Forbes y en medio de una investigación en curso de Amazon sobre el raspado de datos de Perplexity. La situación pone de manifiesto los crecientes problemas legales que plantea la IA en relación con el uso de contenidos y sus posibles implicaciones para el sector de los medios de comunicación.
- Un estudio revela un rápido aumento de los dominios web que bloquean los datos de entrenamiento de los modelos de IA. Un estudio indica un notable aumento de abril de 2023 a abril de 2024 en los dominios web que utilizan bloqueos para evitar que los modelos de IA obtengan datos de entrenamiento, lo que podría llevar a que las IA se basen en información sesgada u obsoleta.
📚 Guías
1º semana
- ¿Qué es un agente? Un agente, en el contexto de los sistemas LLM, se refiere a los diversos grados de capacidades autónomas que tienen dichos sistemas, desde el enrutamiento básico de tareas hasta las operaciones totalmente autónomas. El artículo examina el desarrollo, la orquestación y la supervisión necesarios que acompañan al aumento de la autonomía del sistema.
- Bienvenido a Gemma 2, el nuevo LLM abierto de Google. Se ha lanzado Gemma 2 de Google, que presenta modelos avanzados con un máximo de 27.000 millones de parámetros adaptados a casos de uso de instrucción básica y especializada. Incorpora técnicas novedosas de IA, como la atención por ventana deslizante, el logit soft-capping, la destilación de conocimientos y la fusión de modelos, con disponibilidad en la plataforma Hugging Face.
- Las mejores herramientas de IA para la investigación: Evaluación de ChatGPT, Gemini, Claude y Perplexity. El artículo proporciona un análisis comparativo de cuatro herramientas de investigación de IA – ChatGPT, Gemini, Claude y Perplexity – examinando su calidad de respuesta, acceso a datos en tiempo real, capacidades de referenciación, análisis de documentos y opciones de suscripción para mejorar la productividad en entornos de investigación académica y empresarial.
- Creación de un asistente de código personalizado con LLM de código abierto mediante el ajuste fino de RAG. La investigación demuestra que el ajuste fino de los LLM con la Generación Mejorada por Recuperación (RAG) puede mejorar el rendimiento de la generación de código reduciendo errores como las alucinaciones y la información obsoleta. Las pruebas realizadas en la plataforma Together AI revelan que los modelos ajustados con RAG, concretamente utilizando Mistral 7B Instruct v0.2, superan a competidores como Claude 3 Opus y GPT-4o en términos de precisión, eficiencia y coste.
- Puesta a punto de Florence-2: los modelos de lenguaje de visión más avanzados de Microsoft. Florence-2 de Microsoft es un modelo híbrido de visión y lenguaje que destaca en tareas de OCR y detección de objetos. Integra un codificador de visión DaViT con incrustaciones BERT y muestra un rendimiento mejorado tras el ajuste fino con el conjunto de datos DocVQA, alcanzando una puntuación de similitud de 57,0. Este avance se atribuye a su preentrenamiento en el conjunto de datos a gran escala FLD-5B.
2º semana
- ¿Por qué la mayoría de los LLM son sólo decodificadores? Los grandes modelos lingüísticos suelen utilizar una arquitectura de sólo descodificador porque es eficaz para el preentrenamiento generativo y rentable, y presenta una fuerte generalización de cero disparos. Aunque los modelos codificador-decodificador pueden sobresalir en el ajuste fino multitarea, el entrenamiento extensivo disminuye la diferencia de rendimiento, favoreciendo los modelos sólo decodificador para diversas aplicaciones.
- Mitos sobre el escalado de la IA. El artículo cuestiona la creencia de que la simple ampliación de los modelos lingüísticos dará lugar a una inteligencia artificial general, destacando problemas como la exageración de las leyes de ampliación, los conceptos erróneos sobre las capacidades emergentes y las limitaciones prácticas como la escasez de datos y el aumento de los costes.
- ¿Qué es una «arquitectura cognitiva»? El artículo discute el papel de la arquitectura cognitiva en el desarrollo de aplicaciones impulsadas por LLMs, delineando el espectro de autonomía desde scripts básicos hasta sofisticados agentes autónomos, y destaca su importancia en el despliegue de sistemas de toma de decisiones basados en LLMs.
- Chatbot RAG con llama3. El artículo describe el desarrollo de un chatbot de Generación Mejorada de Recuperación basado en el modelo de lenguaje llama3, detallando la incorporación de conocimiento externo, la configuración de las bibliotecas necesarias y la incrustación de conjuntos de datos, así como el uso de un índice faiss para la recuperación eficiente de información.
3º semana
- FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision. FlashAttention-3 mejora la eficiencia del modelo Transformer optimizando la utilización de la GPU, especialmente para los mecanismos de atención. Aprovechando los núcleos tensoriales y el acelerador de memoria tensorial de la GPU Hopper, consigue hasta un 75% de utilización y 1,2 PFLOPS en FP8, lo que aumenta la velocidad entre 1,6 y 2 veces y permite entrenar con mayor eficacia modelos de lenguaje de gran tamaño con requisitos de memoria reducidos.
- Los trabajos para los que he estado utilizando la IA en solitario. El autor examina la aplicación de modelos de IA para agilizar la codificación, el desarrollo de interfaces de usuario, la funcionalidad de búsqueda, la documentación y la comunicación empresarial, destacando herramientas como Cursor para tareas de codificación y Claude para optimizar las interacciones por correo electrónico.
- El verano de la IA. El artículo analiza la discrepancia entre las grandes expectativas que despierta la IA y la lentitud de su adopción real en los sectores empresarial y de consumo, haciendo hincapié en retos como los prolongados ciclos de ventas en las empresas, los planteamientos conservadores de los directores de sistemas de información y las ideas erróneas sobre la IA como solución «plug and play». También aborda los problemas relacionados con la sobreinversión alimentada por la exageración del mercado y la dinámica competitiva, a pesar del importante crecimiento de usuarios de soluciones como ChatGPT.
- Entrenar un modelo Llama desde cero. El artículo proporciona una guía paso a paso para entrenar un modelo de lenguaje Llama utilizando la biblioteca Transformers, incluyendo fragmentos de código para cada etapa, desde la instalación de la biblioteca y la configuración del tokenizador hasta el entrenamiento del modelo y la carga del modelo final en el Hugging Face Hub.
- Agent Dev & The Case for The Engineer’s Creative Process. El artículo analiza cómo el desarrollo de agentes inteligentes a través del aprendizaje automático ha evolucionado hacia una práctica más artística, instando a los ingenieros a adoptar la creatividad y una mentalidad relacional debido a los aspectos no lineales e impredecibles del proceso de desarrollo.
4º semana
- Consejos para entrenar eficazmente sus modelos de aprendizaje automático. El artículo ofrece un recorrido detallado para el entrenamiento de modelos de aprendizaje automático, incluido el preprocesamiento de datos, la ingeniería de características, el tratamiento de los desequilibrios de clase, el empleo de la validación cruzada y el ajuste de hiperparámetros para la selección de modelos, y la utilización de métodos de conjunto para mejorar la estabilidad del modelo y evitar el sobreajuste.
- Alucinaciones de la IA: Donde la inteligencia artificial se encuentra con la imaginación artificial. El artículo examina el problema de las «alucinaciones» en los LLM, donde se generan contenidos coherentes pero inexactos debido a la dependencia de la IA de la predicción de patrones en lugar de la recuperación de datos objetivos.
- Ajuste fino de Llama-3 para obtener el 90% del rendimiento de GPT-4 por una fracción del coste. El artículo detalla el proceso de mejora de las capacidades de Llama-3 hasta casi igualar el rendimiento de GPT-4 mediante el ajuste de datos patentado en la plataforma Together AI. Tras emplear el conjunto de datos Math Instruct, el modelo Llama-3 de 8.000 millones de parámetros alcanzó una notable precisión del 65%, superando la precisión de la versión mayor de 70.000 millones de parámetros y acercándose a la precisión del 71,4% de GPT-4o.
- Docmatix – Un enorme conjunto de datos para la respuesta a preguntas visuales sobre documentos. Docmatix, un amplio conjunto de datos para Document Visual Question Answering, ofrece 2,4 millones de imágenes y 9,5 millones de pares Q/A de 1,3 millones de PDF, mejorando el rendimiento de la tarea DocVQA en un 20% con el modelo Florence-2. Está disponible en Hugging Face Hub para mejorar la investigación y las aplicaciones del modelo de visión y lenguaje.
5º semana
- Llama 3.1-405B, 70B y 8B con multilingüismo y contexto largo. Meta ha lanzado Llama 3.1 con modelos multilingües en tamaños 8B, 70B y 405B, con manejo de contexto más largo, ajuste de instrucciones para la optimización de tareas, seguridad mejorada contra inyecciones puntuales y compatibilidad con servicios en la nube.
- Por qué las IA deben pararse a pensar antes de responder. El autor investiga el impacto de la «cadena de pensamiento» en la calidad de la respuesta de la IA, observando mejores resultados cuando la IA imita la planificación humana antes de responder.
- Tres arquetipos de nuevas aplicaciones de IA. El artículo describe tres tipos de empresas emergentes de aplicaciones de IA: AI Copilots, que refuerzan la productividad ayudando en las tareas primarias; AI Colleagues, que ejecutan tareas de forma independiente para mejorar la eficiencia operativa; y AI Native Services, que son empresas altamente automatizadas que automatizan servicios completos para competir con las empresas convencionales ofreciendo alternativas de alta calidad y menor coste.
- Uso de los LLM para la evaluación. Los LLM como el GPT-4 pueden utilizarse como evaluadores escalables y rentables de otros modelos utilizando la metodología del LLM como juez. Este enfoque aprovecha las indicaciones directas para aproximarse al juicio humano en la evaluación de los resultados del modelo y se ajusta bien a las preferencias humanas, aunque requiere una gestión cuidadosa de los sesgos introducidos. Las métricas de evaluación tradicionales son menos eficaces para tareas de IA complejas, que LLM-as-a-Judge puede abordar con mayor eficacia.
- La desigual distribución del impacto ambiental de la IA. El artículo analiza la creciente huella medioambiental de la IA, en particular su elevado consumo de energía y agua, y cómo esto agrava las disparidades regionales. Señala los avances en las prácticas sostenibles de la IA, pero subraya la necesidad de una distribución más justa de los costes ambientales de la IA, abogando por el equilibrio geográfico de la carga en las zonas de riesgo para hacer frente a las desigualdades.
🔬 Papers y repositorios de interés
1º semana
- Juzgando a los jueces: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges. l estudio investiga la eficacia de los LLM a la hora de evaluar el rendimiento de sus homólogos, utilizando el conjunto de datos TriviaQA y anotaciones humanas como puntos de referencia. Revela incoherencias en las evaluaciones de los modelos y pone de relieve que los índices de concordancia entre los LLM no siempre reflejan la verdadera alineación, como demuestra la variación en las puntuaciones.
- Adam-mini: utilice menos tasas de aprendizaje para obtener más. El optimizador Adam-mini ofrece un rendimiento igual o superior al de AdamW con un uso de memoria entre un 45% y un 50% menor, gracias a su asignación estructurada de tasas de aprendizaje para grupos de parámetros. También aumenta el rendimiento hasta un 49,6% y reduce la sobrecarga computacional.
- Evidencia de una ley de escala logarítmica para la persuasión política con grandes modelos lingüísticos. Un estudio sobre la influencia del tamaño de los modelos lingüísticos en la capacidad de persuasión política ha revelado que los modelos de mayor tamaño presentan rendimientos decrecientes en persuasión, y que los modelos pequeños son casi tan eficaces como los grandes. La pequeña superioridad de los modelos más grandes se atribuye a una mayor coherencia y enfoque temático, lo que implica beneficios insignificantes si se amplían aún más los modelos lingüísticos.
- Meta Large Language Model Compiler: Modelos básicos de optimización de compiladores. Meta lanzó el compilador LLM que utiliza modelos preentrenados, incluido Code Llama, para mejorar la optimización del código. Estos modelos se entrenan en amplios conjuntos de datos de código intermedio y ensamblador y se presentan en variaciones con 7.000 y 13.000 millones de parámetros. Sus instancias afinadas pueden mejorar notablemente la optimización del tamaño del código y las tareas de desmontaje para arquitecturas x86_64 y ARM.
- LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMsLongRAG es un nuevo marco de Generación Mejorada de Recuperación que amplía las unidades de recuperación para manejar hasta 4K tokens. Aprovecha un modelo lingüístico de contexto largo, lo que le permite extraer respuestas sin entrenamiento adicional y alcanzar altas puntuaciones de coincidencia exacta, comparables al rendimiento del estado del arte.
2º semana
- Meta 3D Gen. Meta 3D Gen (3DGen) es un proceso basado en IA que genera rápidamente modelos 3D detallados y texturas a partir de descripciones de texto, con capacidades para el renderizado basado en la física y el retexturizado de activos.
- GraphRAG: nueva herramienta para el descubrimiento de datos complejos, ahora en GitHub. Microsoft ha publicado en GitHub GraphRAG, una herramienta avanzada de generación aumentada de recuperación que supera a los sistemas RAG tradicionales. Emplea un amplio modelo lingüístico para construir grafos de conocimiento jerárquicos a partir de textos, mejorando la exhaustividad y diversidad de los datos al hacer hincapié en las relaciones entre entidades.
- Un año de GPT4All. Nomic ha presentado GPT4All 3.0, una importante actualización con una nueva interfaz de usuario centrada en la privacidad y la accesibilidad. Esta versión es compatible con una amplia gama de LLM en varios sistemas operativos y marca el hito de un año del proyecto con una notable participación de la comunidad.
- Sin agente: Desmitificación de los agentes de ingeniería de software basados en LLM. El artículo analiza un enfoque sin agentes para el desarrollo de software que puede superar a los sistemas tradicionales basados en agentes en cuanto a rentabilidad y rendimiento, como demuestra la prueba SWE-bench Lite, mediante un sencillo proceso de localización y reparación en dos fases.
- Resumen de un pajar: Un reto para los LLM de contexto largo y los sistemas RAG. La tarea «Summary of a Haystack» (SummHay) se establece para poner a prueba los modelos lingüísticos de contexto largo y los sistemas de generación aumentada de recuperación mediante la evaluación de su capacidad para resumir y citar a partir de documentos con ideas específicas repetidas.
- landing-ai/vision-agent: Agente de visión. Vision Agent es una herramienta que automatiza la generación de código para tareas de visión por ordenador a partir de descripciones en lenguaje natural.
3º semana
- Destilando el Sistema 2 en el Sistema 1. Este artículo examina la integración de los intrincados métodos de razonamiento del Sistema 2 (como la Cadena de Pensamiento) en los procesos más rápidos del Sistema 1 en los LLM. Mediante el aprendizaje autosupervisado, los autores han mejorado el rendimiento del Sistema 1 y reducido los costes de computación al integrar las capacidades de razonamiento del Sistema 2 en el Sistema 1, lo que sugiere un enfoque más eficiente para manejar el razonamiento complejo en la IA.
- Aprovechamiento de representaciones discretas para el aprendizaje por refuerzo continuo. El artículo presenta conclusiones según las cuales las representaciones categóricas discretas basadas en vectores en agentes de aprendizaje por refuerzo (RL) conducen a un modelado del mundo más eficiente y a un mejor aprendizaje de políticas. Las pruebas empíricas obtenidas en diversos escenarios de RL, incluidos contextos de aprendizaje continuo, indican que tales representaciones permiten una adaptación más rápida y un mejor rendimiento.
- MJ-Bench: ¿Es realmente su modelo de recompensa multimodal un buen juez para la generación de texto a imagen? MJ-Bench es un nuevo punto de referencia diseñado para evaluar los modelos de recompensa multimodal utilizados para proporcionar información sobre tecnologías de generación de texto a imagen, como DALLE-3 y Stable Diffusion. Pone a prueba los modelos en función de criterios como la alineación, la seguridad, la calidad de la imagen y el sesgo. En particular, la prueba ha revelado que los VLM de código cerrado, como GPT-4o, destacan por su eficacia a la hora de proporcionar retroalimentación. MJ-Bench se basa en un amplio conjunto de datos de preferencias para ajustar estos mecanismos de retroalimentación, y sus resultados están disponibles en Huggingface.
- AriGraph: Aprendizaje de modelos de grafos de conocimiento con memoria episódica para agentes LLM. AriGraph es un enfoque novedoso que mejora los agentes LLM mediante la incorporación de un grafo de memoria estructurado, mejorando su toma de decisiones y planificación en entornos como TextWorld. Permite una recuperación asociativa eficiente de la memoria episódica y semántica, demostrando ser superior en tareas complejas relevantes para la autonomía en dominios prácticos como la cocina, la limpieza y los rompecabezas.
- SylphAI-Inc/LightRAG: La librería Lightning para aplicaciones LLM.. LightRAG es una librería modular similar a PyTorch para la construcción de aplicaciones LLM como chatbots y generación de código, con un canal Retriever-Agent-Generator personalizable para varios casos de uso. Su código base transparente y modificable está diseñado para fomentar la confianza y la facilidad de adaptación.
4º semana
- Leyes a escala con vocabulario: Modelos más grandes merecen vocabularios más grandes. Un estudio reciente subraya el papel fundamental que desempeña el tamaño del vocabulario en el rendimiento de los modelos lingüísticos de gran tamaño, y concluye que los modelos con hasta 3.000 millones de parámetros funcionan mejor con vocabularios proporcionalmente mayores. La introducción del análisis IsoFLOPs recomienda vocabularios más grandes que los empleados habitualmente, con pruebas empíricas que indican mejoras significativas en los resultados, ejemplificadas por puntuaciones ARC-Challenge más altas cuando se utilizan vocabularios de tamaño óptimo.
- Spectra: estudio exhaustivo de modelos lingüísticos ternarios, cuantificados y FP16. El estudio Spectra presenta un amplio conjunto de 54 modelos de lenguaje de distintos tipos, incluidos modelos ternarios innovadores (TriLM), modelos cuantizados (QuantLM) y modelos tradicionales de coma flotante (FloatLM). Estos modelos abarcan un amplio espectro de complejidad de hasta 3.900 millones de parámetros y se han entrenado con un conjunto de datos de 300.000 millones de fichas. En particular, los TriLM demuestran un rendimiento superior al de sus homólogos ternarios y logran resultados equiparables a los de los modelos de coma flotante de media precisión (FP16), al tiempo que utilizan menos memoria.
- Informe técnico de Qwen2. El informe técnico Qwen2 presenta la serie Qwen2 de modelos lingüísticos con 0,5 a 72 mil millones de parámetros, que supera a la serie Qwen1.5 en puntos de referencia, multilingüismo y ajuste de instrucciones, con el modelo Qwen2-72B demostrando un rendimiento notable en diversas evaluaciones.
- Borrado de conceptos fiable y eficiente de modelos de difusión de texto a imagen. RECE es un nuevo método para eliminar rápidamente el contenido inapropiado de los modelos de difusión texto-imagen mediante una solución de forma cerrada que realinea de forma iterativa las incrustaciones de destino con conceptos inofensivos, manteniendo así el rendimiento generativo del modelo sin necesidad de más ajustes.
5º semana
- meta-llama/llama-agentic-system: Componentes agenticos de las APIs de Llama Stack. El repositorio «llama-agentic-system» da soporte al modelo Llama 3.1, diseñado para tareas que requieren un razonamiento complejo y el uso de herramientas, con especial atención a la seguridad mediante el filtrado de contenidos de Llama Guard. Las principales características son la cuantificación FP8 y las herramientas de interfaz de línea de comandos para la gestión del modelo.
- Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model. Diffree es un modelo guiado por texto que integra de forma autónoma nuevos objetos en imágenes basándose en descripciones textuales, eliminando la necesidad de colocación manual y garantizando la coherencia visual y contextual.
- CoD, Hacia un agente médico interpretable mediante la cadena de diagnóstico. El método Chain-of-Diagnosis (CoD) mejora la interpretabilidad de los diagnósticos médicos emulando el razonamiento de un médico mediante grandes modelos lingüísticos. Proporciona razonamientos transparentes y una distribución de la confianza en la enfermedad, mejorando así la localización de los síntomas y la precisión del diagnóstico, integrando los avances de la IA con la claridad médica.
- KAN o MLP: una comparación más justa. En un estudio comparativo de los modelos KAN y MLP, la investigación demuestra que, si bien los MLP obtienen mejores resultados en la mayoría de las tareas cuando se ajustan los parámetros y la complejidad computacional, los modelos KAN muestran un rendimiento superior en tareas que implican la representación de fórmulas simbólicas, lo que se atribuye a su uso de funciones de activación B-spline.
- Correspondencia local entre pares para el seguimiento de puntos. LocoTrack es un algoritmo avanzado de seguimiento de vídeo que consigue una gran precisión y eficacia mediante correlaciones locales 4D para la correspondencia de regiones, incluso en escenas repetitivas difíciles. Incorpora un diseño de transformador compacto para el análisis temporal a largo plazo y un codificador ligero que mejora la velocidad de procesamiento.