Aquí tienes los papers de investigación, las guías y noticias semanales sobre IA y NLP elegidos para ti por NLPlanet.
Tabla de contenidos
😎 Noticias
1º semana
- Apple y Nvidia podrían invertir en OpenAI. Apple y Nvidia están estudiando la posibilidad de invertir en OpenAI para mejorar sus capacidades de IA y mantener una ventaja competitiva, aunque los detalles de la inversión siguen sin desvelarse.
- Presentación de Cerebras Inference: IA a velocidad instantánea. Cerebras ha logrado una importante ventaja de velocidad en la inferencia de modelos lingüísticos de IA, ya que proporciona 1.800 tokens por segundo en los modelos Llama3.1 8B y 450 tokens por segundo en los modelos Llama3.1 70B, supera en 20 veces las soluciones basadas en GPU de NVIDIA y es 2,4 veces más rápido que Groq para el modelo 8B. Cabe destacar que Cerebras es el único que ofrece respuestas inmediatas a una velocidad de 450 tokens por segundo en el modelo 70B.
- La IA Strawberry de OpenAI es, al parecer, la salsa secreta del modelo lingüístico Orion de nueva generación. OpenAI está trabajando en «Strawberry», un modelo de IA centrado en la resolución de retos matemáticos y de programación, con el objetivo de apoyar a «Orion», el esperado sucesor de GPT-4. Está previsto que Strawberry salga a la venta en otoño y que aumente ChatGPT con capacidades mejoradas de generación y búsqueda de datos, habiendo mostrado ya un rendimiento prometedor en pruebas y ante las partes interesadas en la seguridad nacional.
- Anthropic ha publicado las instrucciones del sistema utilizadas por Claude. Anthropic ha añadido una nueva sección de notas de la versión a su documentación, que cubre las actualizaciones de las indicaciones del sistema en todos los modelos de Claude.ai, incluyendo Claude 3.5 Sonnet, Claude 3 Opus y Claude 3 Haiku.
- Claude Artifacts ya está disponible de forma general. Claude.ai presenta Artifacts, una nueva función para mejorar la creatividad y la colaboración en el desarrollo de proyectos en tiempo real, que ya está disponible en todos los planes de usuario, tanto para móviles como para ordenadores de sobremesa. La herramienta es compatible con diversas tareas, como la codificación, la creación de prototipos y la visualización de datos, y ha ganado popularidad con millones de creaciones desde su lanzamiento en junio.
- Google lanza Gems e Imagen 3 para Gemini Advanced. Gemini de Google ha lanzado Gems, una función para la creación de versiones personalizadas orientadas a tareas, e Imagen 3, una herramienta avanzada de generación de imágenes que incluye la generación de personas guiada por la ética, para que los suscriptores de Advanced aumenten la productividad y la creatividad.
- La experiencia de Andrej Karpathy con Cursor y Claude Sonnet. Andrej Karpathy destaca el aumento de la eficiencia en la codificación utilizando VS Code Cursor y Sonnet 3.5 junto con GitHub Copilot, lo que indica un avance hacia la «codificación a medias» con complementos de IA. Observa una reducción sustancial de la codificación manual y expresa su dificultad para volver a los métodos de codificación anteriores a la IA utilizados tres años antes.
2º semana
- SSI, la nueva empresa de IA centrada en la seguridad del cofundador de OpenAI, recauda 1.000 millones de dólares. Ilya Sutskever, cofundador de OpenAI, ha lanzado Safe Superintelligence (SSI), una empresa de IA centrada en el desarrollo de sistemas de IA superinteligentes y seguros. SSI acaba de recaudar 1.000 millones de dólares, lo que valora la empresa en 5.000 millones, con el respaldo de importantes empresas de capital riesgo como Andreessen Horowitz y Sequoia Capital. Los fondos se destinan a potencia de cálculo y adquisición de talentos, con especial atención a la investigación fundacional y la seguridad de la IA.
- OpenAI estudia precios de suscripción mensual de 2.000 dólares para los nuevos LLM. OpenAI está considerando una suscripción mensual de 2.000 dólares para los LLM avanzados como Strawberry y Orion, un aumento significativo respecto a la tarifa actual de 20 dólares de ChatGPT Plus. Además, OpenAI está tratando de racionalizar su estructura corporativa para atraer inversiones, con el objetivo de alcanzar una valoración superior a los 100.000 millones de dólares, al tiempo que recaba el interés de grandes inversores como Apple y Microsoft.
- AlphaProteo genera nuevas proteínas para la investigación biológica y sanitaria. AlphaProteo, una nueva herramienta de inteligencia artificial de DeepMind, diseña nuevas proteínas con gran afinidad de unión a dianas como el VEGF-A, lo que mejora el desarrollo de fármacos y la investigación biológica. Esta herramienta, que ha sido entrenada a partir de una gran cantidad de datos sobre proteínas, suele superar a los métodos existentes y a los ligantes optimizados. A pesar de algunas limitaciones, se está trabajando para abordar proteínas más complejas.
- El Consejero Delegado de Intel presentará a la Junta sus planes para deshacerse de activos y reducir costes, según una fuente. El consejero delegado de Intel, Pat Gelsinger, presentará una estrategia de reducción de costes que incluye la venta de activos y la reducción de los gastos de capital, lo que podría incluir la paralización de un proyecto de fábrica en Alemania por valor de 32.000 millones de dólares. Con la contratación de Morgan Stanley y Goldman Sachs, Intel pretende estabilizarse en medio de las dificultades financieras y la intensa competencia del sector de la IA.
- 100M Token Context Windows. Magic, una empresa de desarrollo de IA, ha presentado el LTM-2-mini, un modelo de contexto ultralargo que maneja hasta 100M de tokens, mejorando la síntesis de código y el desarrollo de software. En asociación con Google Cloud para construir superordenadores de IA avanzados, Magic también ha conseguido 465 millones de dólares en nueva financiación.
- Elon Musk está poniendo a trabajar sus chips de IA y está alcanzando a Mark Zuckerberg. xAI de Elon Musk ha lanzado Colossus, un importante clúster de entrenamiento que cuenta con 100.000 GPU Nvidia H100, lo que lo convierte en el sistema de IA más potente del mundo. Construido en 122 días en Memphis y a punto de duplicar su capacidad en breve, este desarrollo se produce en medio de una escasez mundial de GPU, con rivales como Meta y Microsoft compitiendo también por la supremacía de la IA.
- Alibaba lanza el nuevo modelo de IA Qwen2-VL, capaz de analizar vídeos de más de 20 minutos. El nuevo modelo de IA de Alibaba Cloud, Qwen2-VL, destaca en el análisis de vídeo y la comprensión multilingüe, superando en pruebas comparativas a Llama 3.1 de Meta y Gemini-1.5 de Google. Admite varios idiomas y análisis de contenido de vídeo ampliado, y está disponible en tres tamaños, dos de ellos de código abierto.
3º semana
- OpenAI lanza el modelo o1-preview. OpenAI presenta el modelo o1-preview, el primero de una nueva serie de modelos de razonamiento significativamente hábiles en tareas complejas de ciencia, codificación y matemáticas. Estos modelos superan a sus predecesores al emplear un razonamiento avanzado antes de responder, con resultados en las pruebas comparables a los de estudiantes de doctorado en campos rigurosos. A pesar de carecer de algunas características de GPT-4o, o1-preview sobresale en tareas de razonamiento especializadas, lo que promete avances sustanciales en IA.
- Mistral lanza Pixtral 12B, su primer modelo multimodal. Mistral ha presentado Pixtral 12B, un modelo de IA multimodal de 12.000 millones de parámetros que procesa tanto texto como imágenes. Basado en las características de su anterior modelo de texto, Nemo 12B, Pixtral 12B está disponible para su descarga gratuita en GitHub y Hugging Face bajo una licencia Apache 2.0.
- OpenAI está en conversaciones para recaudar 11.500 millones de dólares con una valoración de 150.000 millones. OpenAI está recaudando 11.500 millones de dólares con una valoración de 150.000 millones, frente a los 86.000 millones de dólares. Esto incluye 6.500 millones de dólares de inversores, liderados por Thrive Capital y Microsoft, y 5.000 millones de deuda bancaria. La financiación apoyará el desarrollo de la IA y la expansión operativa de OpenAI, al tiempo que mantendrá la empresa privada a pesar de las pérdidas financieras.
- Replit lanza el Replit Agent. El Replit Agent, ahora en acceso anticipado para los suscriptores de Core y Teams, es una herramienta basada en IA cuyo objetivo es ayudar a los usuarios en el desarrollo de software mediante la comprensión de las instrucciones del lenguaje natural, haciendo así más accesible la creación de aplicaciones a través de diversos niveles de habilidad.
- Reader-LM: Pequeños modelos lingüísticos para limpiar y convertir HTML a Markdown. Reader-LM de Jina AI es una API de modelos lingüísticos compactos para la conversión eficaz de HTML a Markdown, que supera a métodos tradicionales como la legibilidad y la regex. A pesar de su pequeño tamaño, se comporta excepcionalmente bien frente a modelos más grandes, soportando grandes contextos de tokens y optimizado para GPUs.
- Google utiliza la IA para crear podcasts falsos a partir de tus notas. La nueva función de Google NotebookLM, Audio Overview, utiliza «anfitriones» de IA para transformar las notas del usuario en atractivos podcasts generados por IA. Aunque es innovadora, tiene pequeños defectos de ejecución, se adapta a temas menos serios, tarda tiempo en crearse, sólo está disponible en inglés y puede que no siempre sea del todo precisa.
- AMD está dando la espalda a las GPU de juegos insignia para perseguir primero la IA. AMD está dando prioridad al desarrollo de la IA frente a las GPU de juegos insignia para conseguir una mayor cuota de mercado y atraer el apoyo de los desarrolladores. Según Jack Huynh, el objetivo es alcanzar una cuota de mercado del 40% para competir con Nvidia y optimizar las plataformas de AMD para los desarrolladores antes de volver a centrarse en las GPU para juegos.
4º semana
- Meta lanza Llama 3.2. Llama 3.2 incorpora modelos avanzados de IA, incluidos LLM de visión (11B y 90B) y modelos ligeros de sólo texto (1B y 3B), optimizados para dispositivos edge y móviles. Estos modelos destacan en tareas como el resumen y la comprensión de imágenes, y admiten longitudes de token extensas.
- OpenAI lanza ChatGPT Advanced Voice. OpenAI ha introducido Advanced Voice para todos los usuarios Plus y Team en la aplicación ChatGPT, con instrucciones personalizadas, memoria, cinco nuevas voces y acentos mejorados.
- Actualización de los modelos Gemini listos para producción, reducción de los precios de 1.5 Pro, aumento de los límites de tarifa y mucho más. Los modelos Gemini actualizados de Google, Gemini-1.5-Pro-002 y Gemini-1.5-Flash-002, ofrecen mejoras significativas, incluida una reducción de precio de más del 50% para el 1.5 Pro, límites de tarifa duplicados y un rendimiento mejorado con salidas el doble de rápidas y latencia tres veces reducida.
- Mira Murati, CTO de OpenAI, dice que deja la empresa. Mira Murati, CTO de OpenAI, deja la empresa después de más de seis años para dedicarse a intereses personales. Su marcha se produce mientras OpenAI se prepara para el DevDay y experimenta cambios significativos, incluida la creciente influencia del CEO Sam Altman y una posible ronda de financiación de 150.000 millones de dólares. Murati desempeñó un papel clave en el desarrollo de importantes proyectos de IA como ChatGPT, y su salida se produce en medio de presiones financieras debido a los altos costes operativos.
- OpenAI estudia otorgar a Altman una participación del 7% en el cambio de dirección. OpenAI está estudiando la posibilidad de conceder a su consejero delegado, Sam Altman, una participación del 7% en el capital social en su transición a un modelo con ánimo de lucro, posiblemente convirtiéndose en una corporación de beneficio público. El objetivo es equilibrar la rentabilidad con el impacto social. En medio de la inestabilidad del liderazgo y las salidas de alto nivel, la empresa, valorada en 150.000 millones de dólares, busca recaudar 6.500 millones, lo que aumentaría significativamente el patrimonio neto de Altman.
- Los bots de IA ya superan el 100% de los CAPTCHA de tráfico. Investigadores de la ETH de Zúrich han mejorado el modelo de reconocimiento de imágenes YOLO, logrando una tasa de éxito del 100% en la resolución de CAPTCHAs de imágenes de tráfico. Esto supera la tasa de éxito del 71% de los modelos anteriores, lo que pone de relieve los avances en las capacidades de la IA e impulsa un cambio hacia métodos de verificación de usuarios más sofisticados, como el reCAPTCHA v3 invisible de Google.
📚 Guías
1º semana
- El panorama de la inversión en IA: ¿Quién financia la próxima ola de innovación? El artículo analiza la expansión de la industria de la IA, centrándose en las aportaciones de inversión de las principales empresas tecnológicas, inversores de capital riesgo e inversores ángeles. Presenta las principales empresas emergentes y los nuevos modelos de inversión en áreas como los modelos fundacionales de IA, las herramientas de creación de contenidos y la robótica. El artículo también describe las estrategias proactivas de las principales empresas tecnológicas y medidas de capital riesgo que apoyan la evolución del panorama de la IA, incluidas las adquisiciones y la provisión de recursos para las nuevas empresas de IA.
- La verificación del trabajo encabeza las prioridades de los empleados en materia de IA: informe. Los directivos de las empresas utilizan la IA principalmente para tareas como la investigación de proyectos y el análisis de datos, pero los empleados suelen utilizarla para verificar su trabajo. Este desajuste podría deberse a una formación insuficiente, ya que sólo el 23% de los trabajadores se siente experto en IA. Empresas como PwC, JPMorgan y American Honda están intensificando sus programas de formación en IA para salvar esta brecha de competencias e impulsar el desarrollo organizativo.
- Lo que he aprendido construyendo sistemas MLOps durante cuatro años. El autor reflexiona sobre sus cuatro años de experiencia en la creación de sistemas de MLOps y habla de los retos que plantea la implantación del ML en aplicaciones del mundo real, como la energía y la sanidad, y de la fusión de la ingeniería de software con las operaciones de ML. El artículo también explora la evolución de los roles y las identidades en el campo de la tecnología, distinguiendo específicamente entre ingenieros de MLOps e ingenieros de ML en la industria.
- Las empresas de IA están pasando de crear dioses a construir productos. Las empresas de IA están pasando del desarrollo teórico a la oferta de productos de IA adaptados al mercado, abordando cuestiones como el coste, la fiabilidad y la privacidad para mejorar el potencial comercial. Queda un complejo camino por recorrer, con importantes inversiones y esfuerzos continuos para superar los retos técnicos y sociales que plantea la integración de la IA en los mercados de consumo.
2º semana
- Introducción a ggml. Ggml es una biblioteca minimalista de machine learning en C/C++ diseñada para la inferencia eficiente de Transformer, que ofrece ventajas como una compilación sencilla, un tamaño binario reducido y un uso optimizado de la memoria. Aunque soporta varias plataformas de hardware, requiere conocimientos de programación de bajo nivel y puede no soportar todas las operaciones tensoriales en todos los backends.
- En defensa del modelo de lenguaje pequeño, un estudio de caso. El artículo destaca que los modelos de lenguaje más pequeños (SLM), como Llama 3.1-8B, pueden sobresalir en tareas específicas como la redacción de PII utilizando ingeniería avanzada y un ajuste fino eficaz. Estos SLM ofrecen una alternativa rentable a los modelos de mayor tamaño, como GPT-4o, lo que los hace idóneos para las empresas que buscan un equilibrio entre rendimiento y presupuesto.
- La guía que faltaba para el mercado de GPU H100. El artículo analiza el mercado de GPU H100, destacando la estabilidad de los precios y la flexibilidad de los alquileres a corto plazo. Compara la GPU H100 con la A100 y destaca la caída de los precios y el aumento de la disponibilidad. Esboza los costes de la compra frente al alquiler y recomienda el alquiler para mejorar la escalabilidad y la eficiencia operativa en aplicaciones de IA.
3º semana
- «Guía «Difusores Relleno de imagen. La guía «Diffusers Image Fill» describe métodos para la eliminación de objetos y la alteración de imágenes utilizando modelos avanzados como ControlNetPlus Promax y RealVis 5.0 Lighting. En ella se describe la configuración de canalizaciones personalizadas, el enmascaramiento de objetos y los ajustes de iluminación para obtener resultados fotorrealistas. La guía también analiza la difusión diferencial, el escalado y proporciona herramientas prácticas y ejemplos para la manipulación eficaz de imágenes.
- Uso de GPT-4o para el web scraping. El artículo examina el uso de GPT-4 para el scraping web asistido por IA, destacando su capacidad para analizar datos estructurados a partir de HTML. A través de la API de OpenAI, el autor prueba su eficacia en tablas simples y complejas, abordando los retos que plantean la fusión de filas y la generación precisa de XPath. El estudio concluye que es más eficaz combinar la extracción de datos con la posterior generación de XPath.
- ¿Aportará algo a la ciencia el «científico de la IA»?. Un equipo internacional ha desarrollado un sistema de IA diseñado para imitar a un estudiante de doctorado novato en la generación de hipótesis y la realización de experimentos informáticos. Aunque prometedor para el avance de los descubrimientos científicos automatizados, a menudo producía resultados incoherentes y poco fiables, similares a las conjeturas científicas prematuras. Entre los problemas éticos cabe citar las «alucinaciones» de datos y el riesgo de simplificar en exceso las cuestiones de investigación, lo que subraya la brecha existente entre la generación de resultados y la creación de conocimientos significativos.
4º semana
- Una guía sobre Llama 3.2. Llama 3.2 introduce modelos avanzados multimodales y de sólo texto, incluidos modelos de visión 11B y 90B y modelos de texto más pequeños 1B y 3B para uso en el dispositivo. Las mejoras incluyen razonamiento visual y soporte multilingüe, aunque los usuarios de la UE se enfrentan a restricciones de licencia en los modelos multimodales.
- Conversión de una arquitectura GPT de cero a Llama 2. El artículo describe el proceso de conversión de un modelo GPT a un modelo Llama 2, destacando modificaciones clave como la sustitución de LayerNorm por RMSNorm, la activación GELU por SiLU y la incorporación de rotary position embeddings (RoPE). También se detallan las actualizaciones de los módulos MultiHeadAttention y TransformerBlock para adaptarse a estos cambios.
- Asesoramiento sobre los avisos del nuevo modelo OpenAI o1. Los modelos o1-preview y o1-mini destacan en el razonamiento científico y la programación, mostrando un gran rendimiento en pruebas de referencia académicas y de programación competitivas. Ideales para aplicaciones de razonamiento profundo, actualmente sólo admiten entradas de texto y tienen limitaciones en su fase beta, como la falta de soporte de entrada de imágenes y tiempos de respuesta más lentos.
🔬 Papers y repositorios de interés
1º semana
- Writing in the Margins: Mejor patrón de inferencia para la recuperación de contextos largos. En este artículo se presenta «Writing in the Margins» (WiM), una técnica que mejora el rendimiento de los modelos de lenguaje de gran tamaño en tareas de recuperación de secuencias largas mediante el prellenado de una caché de clave-valor en trozos, lo que permite mejorar la inferencia por segmentos. Este método mejora la precisión del razonamiento en un 7,5% y las puntuaciones F1 de las tareas de agregación en un 30%, sin necesidad de ajuste fino.
- Los modelos de difusión son motores de juego en tiempo real. GameNGen es un motor de juegos de investigación basado en un modelo neuronal que permite interacciones en tiempo real en entornos complejos con trayectorias extensas. Es capaz de simular el juego DOOM a más de 20 FPS en una TPU. El entrenamiento del motor implica un proceso en dos fases: en primer lugar, se entrena un agente RL para que juegue al juego con las sesiones grabadas y, en segundo lugar, se entrena un modelo de difusión para que genere fotogramas posteriores basándose en fotogramas y acciones anteriores.
- Programación eficiente de LLMs mediante aprendizaje por rango. Este artículo presenta un nuevo método de programación de LLM que utiliza un enfoque de aprendizaje por rango para predecir las longitudes de salida, lo que mejora la eficiencia de la programación. Este enfoque reduce la latencia en 2,8 veces en los chatbots y aumenta el rendimiento en 6,5 veces en las tareas de generación de datos sintéticos.
- Entrenamiento LLM eficiente en memoria con Online Subspace Descent. El artículo presenta el optimizador Online Subspace Descent, que mejora la eficiencia de memoria durante el entrenamiento LLM utilizando PCA en línea en lugar de SVD para actualizar las matrices de proyección. Se apoya en las primeras garantías de convergencia para este método, compatibles con los principales optimizadores. Los experimentos sobre modelos LLaMA con el conjunto de datos C4 muestran que supera a otros métodos de bajo rango en perplejidad y se aproxima al rendimiento de referencia de rango completo en tareas posteriores.
- xGen-VideoSyn-1: Síntesis de texto a vídeo de alta fidelidad con representaciones comprimidas. Salesforce ha desarrollado un novedoso método para generar vídeos de alta fidelidad a partir de descripciones de texto, utilizando representaciones comprimidas para mejorar el proceso de síntesis en términos de eficacia y calidad.
2º semana
- RecetaLarga: Receta para la generalización eficiente de contextos largos en modelos lingüísticos de gran tamaño. LongRecipe presenta un método de entrenamiento eficiente para ampliar las ventanas de contexto de los LLM de 8k a 128k utilizando técnicas innovadoras que reducen los recursos computacionales en un 85%, permitiendo esta ampliación en hardware modesto.
- LongLLaVA: Escalado eficiente de LLM multimodales a 1000 imágenes mediante una arquitectura híbrida. LongLLaVA es un modelo de lenguaje multimodal de gran tamaño (MLLM) diseñado para el procesamiento eficiente de grandes conjuntos de datos de imágenes. Integra los bloques Mamba y Transformer, se centra en las dependencias temporales y espaciales y utiliza el entrenamiento progresivo para manejar hasta mil imágenes con un alto rendimiento, un bajo consumo de memoria y un rendimiento competitivo.
- FLUX que toca música. FluxMusic es un modelo avanzado de generación de texto-música que combina transformadores de flujo rectificados basados en la difusión con un marco VAE latente para el análisis meloespectral. Aprovechando secuencias de atención y codificadores de texto preentrenados, mejora la captura semántica y la flexibilidad de entrada. El modelo supera a los métodos existentes basándose tanto en métricas automáticas como en evaluaciones humanas.
- Stochastic Layer-Wise Shuffle: Una buena práctica para mejorar el entrenamiento de Vision Mamba. Un nuevo método, stochastic layer-wise shuffle, mejora el entrenamiento de los modelos Vision Mamba, permitiendo un escalado eficiente de 80M a 300M parámetros. Esta técnica directa y no invasiva mejora el rendimiento en conjuntos de datos como ImageNet1k, la segmentación semántica ADE20K y la detección COCO sin necesidad de datos adicionales.
3º semana
- AuvaLab/itext2kg: Incremental Knowledge Graphs Constructor Using Large Language Models. iText2KG es una herramienta Python que construye grafos de conocimiento de forma incremental a partir de texto utilizando LLMs, integrando entidades y relaciones en una base de datos Neo4j para el análisis visual. Funciona a cero en múltiples dominios e incluye funciones como la destilación de documentos, la extracción de entidades/relaciones y la mitigación de alucinaciones LLM.
- La planificación en lenguaje natural mejora la búsqueda LLM para la generación de código. La investigación indica que el uso de la planificación en lenguaje natural aumenta la eficacia de los LLM en la generación de código. El algoritmo PLANSEARCH, que crea diversos planes en lenguaje natural, mejora significativamente la diversidad de soluciones y el rendimiento, logrando un pass@200 del 77,0% en LiveCodeBench. Este enfoque pone de manifiesto una correlación directa entre la diversidad de ideas generadas y el aumento del rendimiento, proponiendo un nuevo paradigma en la resolución de problemas computacionales.
- ictnlp/LLaMA-Omni. LLaMA-Omni, basado en Llama-3.1-8B-Instruct, es un modelo de interacción del habla de alta eficiencia que alcanza una latencia de 226 ms para tareas de voz a texto y de texto a voz. Integra Whisper-large-v3 y HiFi-GAN, entrenados con recursos mínimos durante tres días.
- Imitación del lenguaje mediante aprendizaje por refuerzo inverso escalable. El artículo explora el uso del aprendizaje por refuerzo inverso (IRL) en el ajuste fino de modelos lingüísticos, tradicionalmente basados en la estimación de máxima verosimilitud (MLE). El IRL mejora el rendimiento, la diversidad de resultados y la robustez. Al combinar IRL con MLE, se ofrece una alternativa prometedora para refinar grandes modelos lingüísticos.
- ¿Pueden los LLM generar nuevas ideas de investigación? Un estudio en humanos a gran escala con más de 100 investigadores en NLP. Un experimento controlado en el que participaron más de 100 investigadores en NLP reveló que los grandes modelos lingüísticos pueden generar ideas de investigación novedosas, superando en ocasiones a los expertos humanos en originalidad pero mostrando una viabilidad ligeramente inferior. El estudio pone de relieve los retos que plantean la autoevaluación y la diversidad de los LLM, y sugiere nuevas investigaciones para evaluar el impacto práctico de las ideas generadas por LLM en los resultados de la investigación en el mundo real.
4º semana
- HelloBench: Evaluación de las capacidades de generación de textos largos de los modelos lingüísticos de gran tamaño. HelloBench es una referencia diseñada para evaluar las capacidades de generación de textos largos de los modelos de lenguaje de gran tamaño, abordando sus dificultades para producir textos de más de 4.000 palabras con una calidad constante. Clasifica las tareas en cinco grupos e introduce HelloEval, un método de evaluación que se asemeja mucho al juicio humano.
- A Controlled Study on Long Context Extension and Generalization in LLMs. Este estudio controlado sobre la ampliación de modelos lingüísticos para contextos textuales largos establece un protocolo de evaluación estandarizado. Las principales conclusiones destacan la perplejidad como métrica de rendimiento fiable, el bajo rendimiento de los métodos de atención aproximada y la eficacia de los métodos de ajuste exacto dentro de su rango de extensión.
- Optimización iterativa del recuento de objetos para modelos de difusión texto-imagen. El artículo presenta un método de optimización iterativa para modelos de difusión texto-imagen destinado a mejorar la precisión del recuento de objetos. Introduce una pérdida de recuento, escalada por un modelo de detección y una penalización por coincidencia CLIP, para actualizar un testigo de recuento reutilizable. Este token aumenta la precisión de la generación y la adaptabilidad a diversos objetos y escenarios, minimizando la necesidad de optimizaciones repetidas.