En este post tienes los artículos, guías y noticias mensuales sobre NLP e IA elegidos para ti por NLPlanet.

Tabla de contenidos

😎 Noticias de la Web

1º semana de enero

2º semana de enero

  • Los acuerdos de OpenAI con editores de noticias alcanzarían los 5 millones de dólares anuales. OpenAI está forjando acuerdos de licencia con editores de noticias, comprometiéndose a destinar entre 1 y 5 millones de dólares anuales a utilizar sus historias para entrenar modelos de IA. Este movimiento, que forma parte de una tendencia más amplia en la que las empresas de IA invierten en contenidos protegidos por derechos de autor para mejorar sus modelos, distingue a OpenAI de otros proveedores de datos gratuitos de código abierto como LAION.
  • Microsoft cambia la disposición del teclado por primera vez en casi tres décadas para añadir un botón de IA. Microsoft ha introducido una importante actualización en el teclado tradicional del PC al incorporar un botón dedicado a la IA para activar el chatbot Copilot, mostrando así su compromiso con la incorporación de tecnología de IA generativa en sus productos.
  • El motor de búsqueda Perplexity AI, valorado en 520 millones de dólares, recauda 73,6 millones. Perplexity AI ha obtenido 73,6 millones de dólares en financiación, lo que eleva su valoración a 520 millones de dólares, a medida que se posiciona en el competitivo mercado de búsqueda de IA con su interfaz similar a un chatbot. A pesar de mostrarse prometedora con unos ingresos anuales recurrentes de entre 5 y 10 millones de dólares, la viabilidad financiera a largo plazo del modelo de negocio de Perplexity AI, especialmente teniendo en cuenta los costes sustanciales de operar y entrenar modelos generativos de IA, sigue siendo objeto de evaluación.
  • Nikon, Sony y Canon luchan contra las falsificaciones de IA con nuevas tecnologías de cámara. Nikon, Sony Group y Canon están introduciendo nuevas tecnologías de cámara para garantizar la integridad de las imágenes en respuesta a la proliferación de contenidos generados por IA. Las cámaras sin espejo de Nikon incorporarán funciones de autenticación para fotoperiodistas, incrustando firmas digitales que incluyen fecha, hora y ubicación.
  • Cristiano Amon: la IA generativa está “evolucionando muy, muy rápido” hacia los dispositivos móviles. Cristiano Amon, consejero delegado de Qualcomm, prevé que la IA generativa se integre rápidamente en móviles, PC y automóviles, con el objetivo de ofrecer experiencias de usuario enriquecidas complementando la IA en la nube. Gracias a los eficientes procesadores de IA de Qualcomm, estos avances facilitarán las aplicaciones de IA en tiempo real en dispositivos con batería, satisfaciendo de forma proactiva las necesidades de los usuarios.

3º semana de enero

  • OpenAI presenta la tienda GPT. OpenAI ha lanzado una tienda GPT, en la que se muestran aplicaciones como AllTrails para recomendaciones de senderos, Consensus para investigación académica, Khan Academy para educación en codificación, Canva para creación de diseños, una herramienta para recomendaciones de libros y CK-12 para tutoría de matemáticas y ciencias.
  • La IA crea un nuevo material que podría cambiar radicalmente el funcionamiento de las baterías. Microsoft AI, utilizando Azure Quantum Elements, identificó con éxito un nuevo material después de examinar 32 millones de tipos, lo que dio lugar a un prototipo de batería de litio con una reducción del 70% en el uso de litio.
  • LangChain v0.1.0. LangChain ha lanzado su primera versión estable y compatible con versiones anteriores, v0.1.0. Esta versión mejora la capacidad de observación y depuración, con herramientas de seguimiento y análisis del rendimiento, e introduce un nuevo sistema de versiones para una API clara y actualizaciones de funciones.
  • OpenAI y el periodismo. OpenAI se está defendiendo de una demanda de The New York Times, que puso fin a una posible asociación y presentó una demanda el 27 de diciembre ante la preocupación de que ChatGPT de OpenAI regurgitara contenidos. OpenAI sostiene que los casos en los que la IA imita artículos antiguos no son representativos del uso típico y pueden ser el resultado de una incitación dirigida a replicar dicho contenido, lo que implica un posible uso indebido intencionado.
  • Duolingo despide a contratistas al empezar a depender más de la IA. Duolingo está aprovechando la IA para mejorar la producción de contenidos y la experiencia del usuario, lo que ha llevado a una reducción del 10% de su plantilla de contratistas como parte de su cambio hacia la eficiencia automatizada. Luis von Ahn, CEO de Duolingo, destacó la importancia de la IA para agilizar la generación de guiones y enriquecer la aplicación con voces generadas por la IA.
  • YouTube reprime los contenidos de IA que “simulan de forma realista” a niños fallecidos o víctimas de delitos. YouTube ha prohibido los contenidos generados por inteligencia artificial en los que aparezcan voces de menores fallecidos o víctimas de delitos, con el fin de proteger su dignidad. Los canales que publiquen este tipo de contenido se enfrentarán a una prohibición temporal de publicación en la primera infracción, que se ampliará a la eliminación del canal después de tres infracciones, con efecto a partir del 16 de enero. Ahora los creadores deben revelar abiertamente el uso de IA en sus contenidos.

4º semana de enero

  • AlphaGeometry: Un sistema de IA para geometría de nivel olímpico. AlphaGeometry, una IA desarrollada por DeepMind, ha demostrado una competencia humana de nivel olímpico en geometría al resolver 25 de 30 problemas dentro de los plazos de la competición. Utilizando un enfoque híbrido que incorpora el reconocimiento de patrones y la lógica formal, emula los métodos humanos de resolución de problemas, combinando eficazmente el pensamiento intuitivo con el analítico.
  • Mark Zuckerberg indica que Meta está gastando miles de millones de dólares en chips de IA de Nvidia. Meta planea una importante inversión en investigación de IA mediante la integración de 350.000 GPU Nvidia H100 para 2024. Dado su elevado coste, estimado entre 25.000 y 30.000 dólares, esta inversión subraya el compromiso de Meta con el aumento de la potencia de cálculo. En general, la estrategia de Meta de acumular el equivalente computacional de 600.000 GPU H100 pone de manifiesto un impulso sustancial para mejorar sus capacidades de IA.
  • Vision Mamba: Aprendizaje eficiente de representaciones visuales con un modelo de espacio de estados bidireccional. Vision Mamba (Vim) es una nueva columna vertebral de visión que sustituye los mecanismos estándar de autoatención por bloques Mamba bidireccionales para mejorar el procesamiento de imágenes incorporando información posicional. Vim ha demostrado un rendimiento superior en pruebas de referencia estándar como ImageNet, COCO y ADE20k, superando a modelos existentes como Vision Transformers (DeiT).
  • Stable Code 3B: codificación al límite. Stable AI ha presentado Stable Code 3B, un modelo de lenguaje avanzado para codificación que supera al mayor CodeLLaMA 7b. Ofrece una experiencia fluida en portátiles estándar sin necesidad de GPU. Entre las mejoras más destacadas se encuentran la función “Fill in the Middle”, un mejor manejo del contexto con soporte para secuencias de hasta 16.384 tokens, y contextos personalizables que se extienden hasta 100.000 tokens, gracias al entrenamiento en una amplia variedad de conjuntos de datos de lenguaje y software.
  • Google dice utilizar un fondo especial de compensación en acciones para retener a los mejores investigadores de IA. Google ha puesto en marcha una estrategia que utiliza importantes compensaciones en acciones para retener a los mejores talentos en IA, lo que pone de relieve lo mucho que está en juego mantener una mano de obra cualificada para mantenerse a la cabeza en el dinámico sector de la IA.
  • El uso perezoso de la IA da lugar a productos de Amazon denominados “No puedo satisfacer esa petición”. Las plataformas de comercio electrónico, incluida Amazon, están experimentando problemas con el contenido generado por IA, lo que lleva a listados de productos con títulos erróneos como “No puedo cumplir esa solicitud.” Los errores de la IA en la generación de descripciones de productos son indicativos de retos más amplios en la gestión de listados en línea.
  • Un nuevo estudio confirma lo obvio: los resultados de las búsquedas no hacen más que empeorar. Un estudio que analiza los resultados de búsqueda de Google, Bing y DuckDuckGo indica que la calidad de las búsquedas en Internet está disminuyendo y que se prefiere el contenido centrado en los afiliados y en el SEO a la información exhaustiva. Esta tendencia plantea retos a los motores de búsqueda que intentan distinguir los contenidos valiosos de la manipulación SEO. Se espera que la aparición de la IA generativa agrave estos problemas.
  • Microsoft lanza Copilot Pro por 20 dólares al mes por usuario. Microsoft ha presentado Copilot Pro, una herramienta premium de mejora de la productividad para aplicaciones de Microsoft 365, con un precio de 20 dólares al mes por usuario. Concede acceso prioritario a IA avanzada, incluido GPT-4 Turbo para respuestas aceleradas.

5º semana de enero

  • OpenAI lanza nuevos modelos de incrustación y actualizaciones de la API. OpenAI ha anunciado actualizaciones de su conjunto de modelos de IA, incluido el lanzamiento de modelos de incrustación más eficientes y versiones de coste reducido de GPT-3.5 Turbo y un nuevo modelo GPT-4 Turbo. El modelo “text-embedding-3-large” se sitúa a la cabeza con una puntuación MTEB del 64,6% a 0,00013 dólares por 1.000 tokens, mientras que el modelo “text-embedding-3-small” ofrece un rendimiento superior al de su predecesor a un coste cinco veces menor. Además, el “gpt-3.5-turbo-0125” es ahora un 50% más barato, con un precio de 0,0005 dólares por 1.000 tokens, y se ha introducido un nuevo modelo “gpt-4-0125-preview”.
  • La startup de clonación de voz ElevenLabs consigue 80 millones de dólares y alcanza el estatus de unicornio. ElevenLabs ha alcanzado el estatus de unicornio tras conseguir una ronda de serie B de 80 millones de dólares liderada por Andreessen Horowitz, lo que eleva sus fondos totales a 101 millones de dólares. Fundada por Piotr Dabkowski y Mati Staniszewski, la empresa se especializa en la síntesis de voz realista a través de una aplicación web, con aplicaciones en audiolibros, juegos y doblaje de pantalla dentro del mercado en expansión de los medios de audio.
  • Sam Altman, de OpenAI, recauda dinero para crear fábricas de chips de IA. El consejero delegado de OpenAI, Sam Altman, está buscando activamente inversiones, potencialmente superiores a los 8.000 millones de dólares, de entidades como G42 y SoftBank para establecer fábricas de chips de IA destinadas a satisfacer la creciente demanda de procesadores especializados en la creciente industria de la IA.
  • Hugging Face y Google se asocian para una colaboración abierta en IA. Hugging Face se ha asociado con Google Cloud, proporcionando a los usuarios acceso a modelos de IA mejorados e integración con servicios de Google Cloud como GKE y Vertex AI, utilizando las TPU de Google y las GPU NVIDIA H100.
  • Una autora admite que utilizó ChatGPT para escribir una novela premiada. La autora japonesa Rie Kudan reveló que utilizó ChatGPT para generar el 5% de su novela ganadora del Premio Akutagawa, “La torre de simpatía de Tokio”, lo que provocó debates en la comunidad literaria sobre el uso ético de la IA en los procesos creativos.

📚 Guías

1º semana de enero

  • LangChain Estado de la IA 2023. El análisis de LangChain revela una creciente integración de la recuperación en los LLM, con OpenAI y Hugging Face a la cabeza. Destaca la importancia de las bases de datos especializadas y la generación de incrustaciones, subrayando la evolución de las preferencias del sector y los avances tecnológicos.
  • 2023, año de los LLM abiertos. En 2023 aumentó el interés por los LLM abiertos, con un cambio hacia modelos eficientes y más pequeños como LLaMA por su impacto en el rendimiento. El año marcó la prevalencia de las arquitecturas de solo decodificador y la IA conversacional, con métodos de ajuste fino como Instruction Fine-Tuning y RLHF que estandarizan la personalización de modelos.
  • Primer año de IA generativa: seis tendencias clave. Un año después de ChatGPT, la IA generativa ha impulsado el desarrollo de una pila de IA de extremo a extremo, ha avanzado en RAG para obtener respuestas de IA precisas y ha visto cómo los agentes de IA manejan tareas complejas. Una combinación de LLM de código abierto y patentados está optimizando el rendimiento y el riesgo, dando lugar a soluciones de software eficientes que revolucionan campos como el marketing y la cadena de suministro.
  • mlabonne/llm-curso: Curso para adentrarse en los Grandes Modelos Lingüísticos (LLM) con hojas de ruta y cuadernos Colab.. El curso proporciona un estudio en línea en profundidad de los LLM, abarcando desde temas básicos a avanzados como las arquitecturas y el despliegue de Transformer, junto con aplicaciones de aprendizaje de refuerzo, preparando a los alumnos para los retos y las innovaciones de la IA.
  • Un mundo embrujado por la IA. Los recientes avances en IA han permitido el uso de modelos sofisticados como ChatGPT en dispositivos personales. Empresas como Mistral están creando IA de código abierto que puede adaptarse a las necesidades específicas de los usuarios, lo que democratiza la tecnología de IA más allá de las grandes empresas tecnológicas.

2º semana de enero

  • La alineación de la IA es difícil. La alineación de la IA se centra en garantizar que los sistemas de IA se ajusten a los valores humanos y las normas sociales, lo que presenta importantes complejidades de aplicación. Puede que una alineación perfecta no sea esencial para un rendimiento eficaz de la IA, pero lograr un equilibrio adecuado sigue siendo una tarea difícil.
  • Aprender JAX como desarrollador de PyTorch. Esta guía proporciona información a los desarrolladores de PyTorch que se están pasando a JAX. Destaca las ventajas de la compilación JIT de JAX para mejorar el rendimiento mediante la compilación de cálculos completos de una sola vez. Destaca la necesidad de comprender el mecanismo de rastreo de JAX para la compilación y el uso de funciones específicas de JAX para la lógica condicional.
  • Lo que aprendimos sobre la IA y la educación en 2023. El impacto evolutivo de la IA en la educación en 2023 ha presentado tanto oportunidades como retos, lo que ha provocado una reevaluación de las estrategias pedagógicas para garantizar una integración ética a la vez que se fomenta el aprendizaje activo a través de interfaces diversas y dinámicas.
  • Auffusion: Aprovechamiento de la potencia de la difusión y los grandes modelos lingüísticos para la generación de texto-audio. Auffusion combina modelos de difusión y tecnologías LLM para facilitar la síntesis avanzada de texto a audio, capaz de generar diversos contenidos sonoros, incluidos sonidos ambientales y habla humana.

3º semana de enero

  • Una guía sencilla para el ajuste fino de LLM locales en un Mac con MLX. Esta guía proporciona un proceso detallado para el ajuste fino de grandes modelos lingüísticos (LLM) en Macs Apple Silicon utilizando el marco MLX. Abarca la configuración del entorno, la preparación de los datos, el ajuste fino del modelo y los métodos para probar el LLM personalizado en el hardware del Mac.
  • Una encuesta realizada a 2.778 investigadores muestra lo fragmentada que está la comunidad científica de la IA. La Encuesta de Expertos de 2023 sobre el Progreso de la IA indica avances significativos, con la previsión de que la IA desarrolle de forma autónoma sitios web y componga música al estilo de artistas conocidos para 2028. Los expertos estiman en un 10% la posibilidad de que la IA supere la capacidad humana en todas las tareas para 2027, aumentando al 50% para 2047, y prevén el potencial de automatización total de todos los trabajos en un 10% para 2037, alcanzando el 50% de probabilidad para 2116.
  • Instala Stable Diffusion XL localmente en MacOS. Stable Diffusion XL, una herramienta de generación de imágenes de código abierto basada en inteligencia artificial similar a DALL-E o Midjourney, puede ejecutarse en MacOS instalando herramientas de desarrollo básicas como PyTorch, Anaconda y Xcode, y siguiendo a continuación la guía de configuración correspondiente, que incluye tareas de interfaz de línea de comandos.
  • OpenChat 7B Un modelo de código abierto que supera a ChatGPT-3.5. OpenChat 7B es un nuevo modelo lingüístico de código abierto que supera a ChatGPT-3.5 mediante el uso de una metodología de entrenamiento híbrida que incorpora tanto el ajuste fino supervisado (SFT) como el ajuste fino de aprendizaje por refuerzo (RLFT). Emplea una combinación de “datos de expertos” y datos generales, comenzando con RLFT condicional para el etiquetado inicial antes de proceder a SFT en un enfoque de un solo paso para el refinamiento.
  • Ética de la IA, el problema del carrito reimaginado. La creciente integración de la IA en la vida cotidiana subraya la importancia de enseñar a las máquinas a tomar decisiones éticas, como demuestra la reevaluación del problema del carrito en el contexto de la IA. Este escenario plantea importantes retos de programación, ya que enfrenta a la IA a dilemas éticos -en concreto, la decisión de minimizar las bajas- sin que existan directrices universales establecidas para tomar decisiones de vida o muerte.

4º semana de enero

  • RAG vs Finetuning – ¿Cuál es la mejor herramienta para potenciar su aplicación LLM?. RAG (Retrieval-Augmented Generation) y finetuning son métodos para optimizar los LLM en función de los requisitos específicos de cada tarea. RAG es ideal para aplicaciones que necesitan respuestas basadas en evidencias de datos en tiempo real o bases de datos externas, mientras que el ajuste fino es mejor para personalizar los resultados de un LLM para alinearlos con necesidades contextuales, estilísticas o específicas del dominio.
  • Ajuste de preferencias de los LLM con métodos de optimización directa de preferencias. Los investigadores han desarrollado tres nuevos métodos (DPO, IPO y KTO) para ajustar los modelos lingüísticos extensos (LLM) a las preferencias humanas sin emplear el aprendizaje por refuerzo. Estas técnicas, aplicadas a LLM de 7b, abarcan la optimización directa de preferencias (DPO), que puede sobreajustarse; la IPO, que integra un término de regularidad para mitigar el sobreajuste; y la KTO, que aprovecha la retroalimentación no emparejada en tiempo real para la actualización inmediata del modelo.
  • Sólo necesitamos evaluaciones. El artículo explora los retos de evaluar tanto las capacidades humanas como las de la IA, sobre todo en el contexto de la contratación y el uso de los LLM. Aborda la limitada eficacia de los actuales métodos de evaluación para humanos, marcada por una notable tasa de inadaptación en las contrataciones, y la aún mayor complejidad de medir la creatividad en funciones innovadoras. En cuanto a la IA, destaca la naturaleza incipiente y desafiante de la evaluación de la inteligencia, señalando problemas como la contaminación de datos y los puntos de referencia inadecuados.
  • El camino hacia una IA honesta. La fiabilidad de la IA es motivo de preocupación, sobre todo en lo que respecta a la precisión y la posible falta de honradez en las respuestas. Un estudio reciente introduce “vectores de honestidad” para evaluar y mejorar la transparencia de la IA, abordando el reto de garantizar la seguridad y fiabilidad de la IA a largo plazo.

5º semana de enero

  • Código LoRA desde cero con PyTorch. Low-Rank Adaptation (LoRA) es un enfoque eficiente de ajuste fino para LLMs que optimiza un subconjunto de matrices de bajo rango en lugar del conjunto completo de parámetros de la red neuronal. Este post es una guía sobre cómo implementarlo desde cero con PyTorch.
  • makeMoE: Implementar un modelo lingüístico de mezcla dispersa de expertos desde cero. El blog “makeMoE” y el repositorio GitHub que lo acompaña ofrecen un tutorial detallado sobre la creación de modelos lingüísticos a nivel de personaje utilizando una arquitectura de Mezcla Esparcida de Expertos (MoE), inspirada en “makemore” de Karpathy. Este enfoque se centra en el aprovechamiento de las redes dispersas feed-forward dentro de los modelos de transformador, con el objetivo de mejorar la velocidad de formación y el tiempo de inferencia, al tiempo que aborda los retos en la estabilidad de la formación y la eficiencia de despliegue.
  • Análisis independiente de modelos de IA y proveedores de alojamiento. Un análisis independiente ha clasificado varios LLM en términos de calidad de salida y velocidad de generación de texto. GPT4 y su variante turbo lideran en calidad, mientras que Gemini Pro encabeza el ranking de velocidad con 93 tokens por segundo.
  • Guía para la ingeniería de prontos con Llama 2. El repositorio “llama-recipes” de Facebook Research ofrece una guía completa para la ingeniería de prompt con Llama 2.
  • cxli233/FriendsDontLetFriends. Esta guía aborda la mejora de las técnicas de visualización de datos, centrándose en evitar errores comunes en la creación de diagramas y gráficos, y proporciona consejos prácticos para evitar confusiones y mejorar la claridad de las presentaciones de datos.

🔬 Papers y repositorios de interés

NLP

1º semana de enero

  • Modelos lingüísticos con datos limitados. El estudio concluye que, dentro de los límites computacionales, los LLM (hasta 9.000 millones de parámetros) se benefician de forma insignificante de los nuevos datos más allá de cuatro épocas y obtienen una ganancia limitada del aumento de recursos. El filtrado de datos resulta más ventajoso para los conjuntos de datos ruidosos.
  • Los modelos multimodales generativos aprenden en contexto. Emu2, una IA con 37.000 millones de parámetros, avanza en el aprendizaje en contexto para tareas como la orientación visual, estableciendo nuevas referencias multimodales y destacando en la respuesta a preguntas y la creación de contenidos temáticos mediante el ajuste de instrucciones.
  • WaveCoder: Ajuste mejorado de instrucciones generalizado y versátil con generación de datos refinada. WaveCoder es un modelo de lenguaje de programación ajustado que mejora las capacidades de ajuste y generalización de instrucciones de los LLM utilizando un marco generador-discriminador para generar datos de instrucciones no duplicados y de alta calidad a partir de código abierto. Supera a otros modelos de código abierto, con un conjunto de datos (CodeOcean) que contiene 20.000 instancias en cuatro tareas relacionadas con el código, lo que subraya la importancia de los datos refinados para la mejora del modelo.
  • Más allá de Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws. El estudio refina las leyes de escalado de Chinchilla incorporando los costes de inferencia, lo que aconseja el desarrollo de LLM más pequeños con un amplio entrenamiento en grandes conjuntos de datos. Este enfoque pretende optimizar la calidad y la rentabilidad, sobre todo en aplicaciones con gran demanda de inferencia.
  • Las instrucciones de principios son todo lo que necesita para cuestionar LLaMA-1/2, GPT-3.5/4. Esta guía presenta 26 principios fundamentales para optimizar las instrucciones para grandes modelos lingüísticos, centrándose en mejorar la comprensión del usuario y la especificidad de las instrucciones para LLaMA y las variantes de GPT. Los principios están respaldados por pruebas rigurosas en modelos como LLaMA-1/2 y GPT-3.5/4.

2º semana de enero

  • Self-Play Fine-Tuning convierte modelos lingüísticos débiles en modelos lingüísticos fuertes. SPIN (Self-Play fIne-tuNing) es un nuevo método para mejorar el rendimiento de los LLM sin depender de datos anotados por humanos. Al utilizar la auto-reproducción para iterar y aprender, SPIN permite a los LLM perfeccionar sus capacidades utilizando contenidos anotados por humanos. En las pruebas realizadas, los LLM ajustados con SPIN mostraron un rendimiento superior al de los ajustados con Optimización de Preferencia Directa y datos GPT-4 adicionales.
  • DocLLM: modelo de lenguaje generativo para la comprensión multimodal de documentos. DocLLM es un LLM adaptado a la gestión de documentos que integra texto OCR con datos de cuadros delimitadores, sin necesidad de codificadores de imágenes. Al incorporar texto con diseños espaciales mediante matrices desenmarañadas, DocLLM ofrece un novedoso régimen de preentrenamiento que mejora su adaptabilidad a diversos formatos y contenidos de documentos.
  • Mejora de la incrustación de textos con grandes modelos lingüísticos. Los investigadores están mejorando la calidad de la incrustación de textos utilizando LLM para generar datos sintéticos de una amplia gama de tareas de incrustación de textos en casi 100 idiomas. Estos datos sintéticos se aprovechan después para perfeccionar los LLM de código abierto basados únicamente en decodificadores, como Mistral-7B, con pérdida contrastiva estándar.
  • Astraios: Parameter-Efficient Instruction Tuning Code Large Language Models. En un estudio en el que se evaluaron métodos de ajuste fino eficiente de parámetros (PEFT) para grandes modelos lingüísticos (LLM) de hasta 16.000 millones de parámetros, el ajuste fino de parámetros completos (FFT) ofreció sistemáticamente un rendimiento superior en diversas tareas y conjuntos de datos. Sin embargo, los adaptadores de bajo rango (LoRA) se han revelado como una alternativa rentable, especialmente a la hora de escalar modelos.
  • dvmazur/mixtral-offloading: Ejecute modelos Mixtral-8x7B en Colab o en ordenadores de sobremesa de consumo. El proyecto dvmazur/mixtral-offloading optimiza los modelos Mixtral-8x7B para su uso en hardware de consumo, incluido Colab, mejorando la eficiencia de la memoria. Entre las principales innovaciones se incluyen la cuantificación mixta, que utiliza una cuantificación de alta calidad tanto para los mecanismos de atención como para los módulos expertos con el fin de ahorrar memoria, y una estrategia de mezcla de expertos (MoE) que descarga y recupera de forma inteligente los módulos expertos según sea necesario, utilizando una caché LRU para minimizar la sobrecarga de comunicación GPU-RAM durante el procesamiento de tokens.
  • myshell-ai/OpenVoice: Clonación instantánea de voz por MyShell. OpenVoice proporciona replicación avanzada de voz en distintos idiomas y acentos con funciones de ajuste fino de la emoción y la entonación, y sólo requiere un mínimo de datos. La tecnología se publica bajo una licencia Creative Commons no comercial y utiliza marcas de agua para controlar el uso del contenido de audio generado.

3º semana de enero

  • Mixtral de Expertos. El modelo Mixtral 8x7B, desarrollado por Mistral, incorpora una arquitectura Sparse Mixture-of-Experts (SMoE), con ocho bloques feedforward especializados en cada capa que procesan tokens de forma adaptativa dirigiéndose a dos expertos por token. A pesar de que cada testigo sólo interactúa con dos expertos por paso temporal, accede a un total de 47.000 millones de parámetros y utiliza activamente 13.000 millones durante la inferencia.
  • MoE-Mamba: Modelos selectivos eficientes de espacio de estados con mezcla de expertos. MoE-Mamba es un modelo selectivo de espacio de estados que incorpora una Mezcla de Expertos (MoE) para mejorar la eficiencia. Alcanza el mismo rendimiento que el modelo Mamba con 2,2 veces menos pasos computacionales, al tiempo que mantiene tiempos de inferencia rápidos. Además, MoE-Mamba supera tanto al Mamba original como a los modelos Transformer integrados con MoE.
  • Cómo adivinar un gradiente. Investigaciones recientes indican que los gradientes de las redes neuronales muestran patrones predecibles basados en la arquitectura y las características de la red. Estos patrones pueden estimarse mediante subespacios de gradiente limitados por la arquitectura, lo que podría aumentar la eficacia de la optimización sin gradiente en redes complejas.
  • TechGPT-2.0: Un gran proyecto de modelo lingüístico para resolver la tarea de construcción de grafos de conocimiento. Los investigadores han presentado TechGPT-2.0, que incluye un modelo lingüístico de 7.000 millones de parámetros y una ponderación QLoRA especializada, optimizada para construir grafos de conocimiento a partir de textos extensos, y que muestra un gran rendimiento en diversos ámbitos, como la medicina, el derecho, la geografía o el transporte, entre otros.
  • MagicVideo-V2: Generación de vídeo multietapa de alta estética. MagicVideo-V2 de ByteDance funciona muy bien en la síntesis de texto a vídeo, aprovechando los modelos de texto a imagen, la generación de movimiento, la composición de imágenes de referencia y la interpolación de fotogramas para crear contenidos de vídeo de alta resolución, visualmente atractivos y fluidos.

4º semana de enero

  • RAG mejora e iguala los LLM. Un estudio ha evaluado el rendimiento de los modelos lingüísticos de código abierto frente a sus equivalentes de código cerrado en tareas de Retrieval-Augmented Generation (RAG). Las principales conclusiones indican que GPT4-Turbo supera a los demás, mientras que Mixtral-8x7B iguala el rendimiento de GPT3.5-turbo, y la eficacia de los enfoques RAG sigue siendo sólida incluso con vastos conjuntos de datos que superan los mil millones de trozos.
  • Modelos lingüísticos autorrecompensados. Los investigadores han explorado el concepto de modelos lingüísticos autorrecompensados, en los que los modelos lingüísticos generan sus propias recompensas durante el entrenamiento. Este concepto postula que para superar el nivel de rendimiento humano se necesitan señales de entrenamiento derivadas de una retroalimentación sobrehumana. Este planteamiento ha dado lugar a mejoras significativas en las capacidades de seguimiento de instrucciones y autorrecompensa. Al repetir esta técnica en el entrenamiento de Llama 2 70B, el modelo superó el rendimiento de varios sistemas punteros, como Claude 2, Gemini Pro y GPT-4 0613, en la clasificación AlpacaEval 2.0.
  • Cuantificación de la sensibilidad de los modelos lingüísticos a las características espurias en el diseño de avisos o: Cómo aprendí a preocuparme por el formato de las instrucciones. Los modelos lingüísticos, incluidos los de gran tamaño como el LLaMA-2-13B, son muy sensibles al formato de las instrucciones, mostrando variaciones significativas de rendimiento con cambios que no afectan al significado. Esta sensibilidad persiste aunque aumente el tamaño del modelo o la cantidad de ejemplos. Los expertos recomiendan evaluar los modelos con distintos formatos de aviso para calibrar con precisión sus capacidades, ya que la falta de correlación de rendimiento entre los modelos con un formato de aviso uniforme cuestiona la validez de las comparaciones directas entre modelos.
  • Los transformadores son RNN multiestado. Los transformadores, originalmente distintos de las RNN, se están convirtiendo en un puente conceptual hacia las RNN multiestado, con nuevas investigaciones que indican que los transformadores sólo con decodificador pueden funcionar de forma similar a las RNN con infinitos estados ocultos, o alternativamente como RNN finitas con un número específico de estados ocultos.
  • GPT-4V(ision) es un evaluador alineado con el criterio humano para la generación de texto a 3D. GPT-4V ofrece una metodología de evaluación innovadora para modelos generativos de texto a 3D mediante la automatización de parámetros de referencia que se alinean con el juicio humano, abordando así la falta de métricas de evaluación sólidas en el campo. Este sistema simula las evaluaciones detalladas de los usuarios mediante instrucciones personalizadas, lo que permite comparar de forma rentable y escalable los activos 3D con estándares diversos y específicos de cada usuario.
  • Preentrenamiento escalable de grandes modelos autorregresivos de imagen. Apple ha publicado una investigación en la que se detalla el desarrollo de modelos autorregresivos de visión conocidos como AIM, que presentan características de escalado similares a los LLM. Estos modelos han demostrado que su rendimiento mejora al aumentar el tamaño del modelo y el volumen de datos.
  • Agentes durmientes: Formación de LLM engañosos que persisten a través del entrenamiento de seguridad. Un estudio reveló que los LLM capaces de comportarse de forma engañosa, lo que se demuestra escribiendo condicionalmente código seguro o explotable en función de las instrucciones anuales, no pueden corregirse fácilmente mediante los métodos convencionales de entrenamiento de seguridad, incluidos el ajuste fino supervisado, el aprendizaje por refuerzo y el entrenamiento adversario.

5º semana de enero

  • Detección de LLM con prismáticos: Detección de Texto Generado por Máquinas con Cero Tiros. El método Binoculars ofrece un enfoque novedoso para identificar texto generado por ChatGPT con una precisión superior al 90% y una tasa mínima de falsos positivos del 0,01%. Utilizando una puntuación contrastada a partir de modelos lingüísticos duales, supera a los algoritmos existentes y no requiere bases de datos de ejemplos ni ajustes, demostrando su eficacia en toda una gama de tipos de documentos. Esta técnica es especialmente valiosa en plataformas que necesitan diferenciar entre contenidos generados por humanos y por máquinas.
  • CheXagent: Hacia un modelo de base para la interpretación de radiografías de tórax. Se ha introducido un nuevo conjunto de datos de código abierto y un modelo de referencia para abordar los retos que plantea el empleo de la IA en la interpretación de radiografías de tórax (RXT), muy frecuentes en entornos clínicos. El artículo presenta tres innovaciones: CheXinstruct, un importante conjunto de datos de ajuste de instrucciones derivado de 28 conjuntos de datos públicos; CheXagent, un LM ajustado a las instrucciones diseñado para leer y resumir CXRs; y CheXbench, un punto de referencia integral para probar LMs en ocho tareas de interpretación de CXR clínicamente importantes.
  • Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data. Depth Anything es un innovador modelo monocular de estimación de la profundidad que se ha entrenado con un conjunto de datos compuesto por 1,5 millones de imágenes etiquetadas y más de 62 millones de imágenes sin etiquetar. Este enfoque ha mejorado significativamente la capacidad de generalización del modelo sin depender de nuevos componentes técnicos. Además, los investigadores han mejorado la precisión de la síntesis reentrenando una ControlNet condicionada por la profundidad utilizando el modelo Depth Anything, superando al sistema anterior basado en MiDaS.
  • ¿Cómo dice, señor? Su modelo lingüístico está filtrando (información). Los investigadores en el campo de la IA han creado una nueva técnica criptográfica que permite a los modelos lingüísticos incrustar cargas útiles seguras e indiscernibles en sus salidas de texto. Este método requiere una clave secreta para recuperar la información oculta, preservando la confidencialidad y sin afectar a la calidad del texto generado. Esta innovación supone un avance en el desarrollo de sistemas sigilosos de marcas de agua para modelos lingüísticos.
  • Optimización contrastiva de preferencias: Superando los límites del rendimiento de los LLM en traducción automática. Se ha perfeccionado un modelo lingüístico de 13B parámetros, ALMA, utilizando la optimización contrastiva de preferencias (CPO) en lugar de la tradicional optimización supervisada (SFT), para abordar las limitaciones de las tareas de traducción automática. El modelo mejorado, denominado ALMA-R, utilizó sólo 22.000 frases paralelas en CPO y logró una calidad de traducción equiparable a la de GPT-4 y a la de los ganadores de las pruebas de referencia WMT’21, WMT’22 y WMT’23, lo que demuestra la eficacia de CPO para mejorar la precisión de la traducción en modelos lingüísticos de gran tamaño.

¡Gracias por leer! Si quieres aprender más sobre NLP, recuerda seguir NLPlanet. Puedes encontrarnos en LinkedInTwitterMedium, y en nuestro Discord server.

Leave a Reply

Your email address will not be published. Required fields are marked *