Aquí tienes los artículos, guías y noticias semanales sobre IA y NLP elegidos para ti por NLPlanet.

Tabla de contenidos

😎 Noticias de la Web

1º semana

2º semana

  • El supuesto acuerdo de Apple con ChatGPT podría coronar a OpenAI como rey del valle. Se prevé que Apple se asocie con OpenAI para incorporar ChatGPT al sistema operativo del iPhone, lo que podría anunciarse en la próxima WWDC. Esta integración, que podría revolucionar la interacción con la IA en los iPhones, podría suponer que ChatGPT mejorara Siri o se lanzara como una aplicación independiente, lo que señalaría el giro de Apple hacia la experiencia externa en IA.
  • Nvidia es ahora más valiosa que Apple, con 3,01 billones de dólares. Nvidia ha alcanzado una capitalización bursátil de 3,01 billones de dólares, impulsada por el auge de la inteligencia artificial, superando a Apple y convirtiéndose en la segunda empresa más valiosa del mundo.
  • Apple no se anda con rodeos y llamará a su IA «Apple Intelligence». Apple presentará «Apple Intelligence», una solución de IA con capacidades de chatbot similar a ChatGPT, en la WWDC del 10 de junio. Se incluirá en las próximas actualizaciones de iOS, iPadOS y macOS y está diseñada para funcionar sin conexión, lo que supone una asociación con OpenAI y mejoras para Siri.
  • AMD presenta nuevos chips de IA para competir con Nvidia. AMD desafía el liderazgo de Nvidia en IA con próximos lanzamientos: el MI325X en 2024, y las series MI350/MI400 en 2025-2026, que prometen notables aumentos de rendimiento para satisfacer las crecientes demandas de IA.
  • OpenAI renueva su equipo de robótica. OpenAI restablece su división de robótica, centrada en la creación de modelos de IA para aplicaciones robóticas en colaboración con empresas de robótica externas. Se trata de un giro estratégico que pasa de producir hardware interno a potenciar los robots humanoides mediante asociaciones, como demuestran las inversiones en entidades como Figure AI. La ampliación del equipo está en marcha gracias a la contratación activa de personal.
  • Nvidia y Salesforce podrían volver a apostar por la startup de IA Cohere en una ronda de 450 millones de dólares. La startup de IA generativa Cohere ha conseguido una ronda de financiación de 450 millones de dólares liderada por Nvidia y Salesforce, junto con nuevos inversores como Cisco y PSP Investments, lo que eleva su valoración a 5.000 millones de dólares desde los 2.200 millones anteriores. La empresa también ha revelado unos ingresos anualizados de 35 millones de dólares.
  • Stability AI lanza un generador de sonido. Stability AI ha lanzado «Stable Audio Open», un modelo de IA que genera sonido a partir de descripciones de texto utilizando muestras libres de derechos, orientado a un uso no comercial.

3º semana

  • OpenAI duplica sus ingresos anuales hasta los 3.400 millones de dólares. Los ingresos previstos de OpenAI para 2024 ascienden a 3.400 millones de dólares, frente a los 1.600 millones de 2023. Su consejero delegado, Sam Altman, menciona 3.200 millones de dólares procedentes de productos y servicios básicos de IA y 200 millones de dólares de asociaciones, como con Microsoft Azure. La valoración de la empresa se sitúa en 86.000 millones de dólares mientras sigue avanzando en la industria de la IA.
  • Nadella, de Microsoft, está construyendo un imperio de IA. OpenAI fue sólo el primer paso. Satya Nadella, consejero delegado de Microsoft, está mejorando las capacidades de IA de la empresa mediante la adquisición de activos de IA en todo el mundo, el cultivo de tecnologías de IA propias y, posiblemente, el posicionamiento de Microsoft como competidor de OpenAI. Esta expansión incluye la inversión en startups de IA y la contratación de expertos del sector.
  • Nvidia distribuyó 3,76 millones de GPU para centros de datos en 2023: domina el negocio con una cuota de ingresos del 98%. En 2023, Nvidia consolidó su posición en el mercado de GPU para centros de datos con una cuota del 98% al distribuir 3,76 millones de unidades y logró un notable aumento de los ingresos del 126% desde 2020, alcanzando los 60.900 millones de dólares, incluso en medio de las restricciones a la exportación y los obstáculos de fabricación de Estados Unidos.
  • Mistral AI, startup de IA con sede en París, recauda 640 millones de dólares. Mistral AI, una startup de IA con sede en París y con fundadores de Meta y DeepMind, ha conseguido 640 millones de dólares en una ronda de Serie B liderada por General Catalyst, alcanzando una valoración de 6.000 millones de dólares, y se centra en la creación de tecnologías de IA de vanguardia, equilibrando ofertas de código abierto y propietarias.
  • Lo más destacado de la WWDC24 de Apple. La WWDC 2024 de Apple destacó la presentación de Apple Intelligence, un nuevo sistema de inteligencia personal que aprovecha los modelos generativos y la integración del contexto personal en todo su ecosistema, junto con importantes actualizaciones de iOS 18, iPadOS 18, macOS Sequoia, watchOS 11, tvOS 18 y visionOS 2.
  • Luma Dream Machine. Luma Dream Machine de Lumalabs es un modelo de IA diseñado para sintetizar vídeos realistas de alta calidad a partir de texto e imágenes, aprovechando un método basado en transformadores optimizado para contenidos de vídeo.
  • Musk quiere prohibir Apple por aliarse con OpenAI. Elon Musk ha expresado su intención de prohibir los dispositivos de Apple en sus empresas en respuesta al anuncio de Apple de implantar ChatGPT de OpenAI en su sistema operativo, debido a aprensiones de seguridad.
  • El carácter de Claude. El artículo examina el «entrenamiento del carácter», centrándose en imbuir al modelo Claude 3 de atributos como la curiosidad y la apertura mental, además de la evitación del daño. Describe una estrategia de formación que trata de armonizar las capacidades interactivas de la IA con las normas éticas alineando con flexibilidad el comportamiento de la IA con rasgos específicos.

4º semana

  • Presentamos Claude 3.5 Sonnet. La última actualización de Claude 3.5 Sonnet ofrece mayor inteligencia, mayor velocidad de procesamiento y mayor eficacia a un precio competitivo, con notables avances en el razonamiento, la codificación y el procesamiento de la visión. Además, la nueva función «Artifacts» permite la colaboración en tiempo real.
  • Presentamos Gen-3 Alpha: Una nueva frontera para la generación de vídeo. Runway ha lanzado Gen-3 Alpha, una IA avanzada capaz de generar vídeos e imágenes a partir de texto e imágenes. Incorpora modos de control para manipulaciones detalladas y promete futuras mejoras en estructura, estilo y control del movimiento.
  • El CEO de OpenAI afirma que la empresa podría convertirse en una corporación con ánimo de lucro. OpenAI está considerando la posibilidad de convertirse en una «corporación benéfica con ánimo de lucro», alejándose de sus orígenes sin ánimo de lucro, una dirección similar a la de sus competidores del sector, como Anthropic y xAI, según ha indicado su CEO, Sam Altman.
  • Ilya Sutskever, antiguo científico jefe de OpenAI, lanza una nueva empresa de IA. Ilya Sutskever, junto con Daniel Gross y Daniel Levy, ha fundado Safe Superintelligence Inc. (SSI), una nueva empresa de IA con sede en Palo Alto y Tel Aviv dedicada a crear IA superinteligente con un fuerte énfasis en la seguridad. SSI está preparada para integrar los avances de la IA con sólidas medidas de seguridad, dando prioridad a la seguridad a largo plazo frente a los beneficios inmediatos, y se prevé que atraiga importantes inversiones debido a su convincente objetivo y a la habilidad de sus fundadores.
  • NVIDIA lanza una línea abierta de generación de datos sintéticos para el entrenamiento de grandes modelos lingüísticos. NVIDIA ha lanzado Nemotron-4 340B, un paquete abierto de modelos diseñado para crear datos sintéticos destinados al entrenamiento de modelos lingüísticos en diversos sectores. La suite, que incluye modelos base, de instrucción y de recompensa, se centra en mejorar la calidad y disponibilidad de los datos de entrenamiento. Está optimizado para NVIDIA NeMo y TensorRT-LLM, proporcionando soporte para un entrenamiento e inferencia más eficientes de los LLM.
  • Las elecciones indias estuvieron plagadas de deepfakes, pero la IA fue positiva para la democracia. Las elecciones de la India de 2024 vieron avances de la IA en la participación de los votantes a través de la comunicación deepfake y la traducción multilingüe en tiempo real. A pesar de los casos de trolling facilitado por la IA, la tecnología impulsó predominantemente la participación democrática y el acercamiento personalizado a los votantes, proyectando incluso encarnaciones virtuales de figuras políticas del pasado.
  • Generación de audio para vídeo. DeepMind ha creado un sistema V2A (Video-to-Audio) que utiliza un modelo de IA basado en la difusión para generar audio sincronizado para vídeos silenciosos, guiado por pistas visuales y textuales para producir entornos sonoros realistas.

📚 Guías web

IA y NLP

1º semana

  • Reproducir GPT-2 (124M) en llm.c en 90 minutos por 20 dólares. Karpathy ha creado una guía en la que explica cómo reproducir GPT-2 (124M) utilizando la implementación llm.c basada en C/CUDA, diseñada para configuraciones de una o varias GPU. El entrenamiento, que cuesta unos 20 dólares y dura 90 minutos, utiliza el conjunto de datos FineWeb de 10.000 millones de fichas. Este recurso proporciona instrucciones de instalación, orientación para la preparación del conjunto de datos y pretende mejorar el rendimiento del GPT-2 original con posibles mejoras futuras.
  • Training and Finetuning Embedding Models with Sentence Transformers v3. El artículo analiza el lanzamiento de Sentence Transformers v3.0, destacando las capacidades mejoradas para el entrenamiento y el ajuste de los modelos de incrustación con el fin de aumentar el rendimiento específico de la tarea, y muestra los componentes actualizados, incluidos los conjuntos de datos, las funciones de pérdida, los evaluadores y un entrenador mejorado.
  • Los LLM no son adecuados para el brainstorming (avanzado). El artículo critica los LLM actuales por su ineficacia en el brainstorming avanzado debido a su mimetismo con los patrones de datos existentes y su tendencia a las ideas consensuadas, y propone que los LLM requieren una evolución en los procesos de entrenamiento para fomentar la creatividad genuina.
  • Los medios de comunicación cometen un grave error con la IA. La autora subraya los escollos a los que se enfrentan las empresas de medios de comunicación que se asocian con la IA y que pueden socavar el valor y la sostenibilidad del periodismo. Aboga por centrarse en la producción de periodismo de calidad en lugar de buscar un alivio financiero inmediato a través de acuerdos de licencia potencialmente infravalorados con entidades de IA.
  • Mergoo: Construye eficientemente tu propio LLM de ME. Mergoo es una biblioteca diseñada para agilizar la fusión y formación de varios LLM en un modelo unificado empleando métodos como la mezcla de expertos, la mezcla de adaptadores y la fusión por capas.

2º semana

  • Extracción de conceptos de GPT-4. Los investigadores han empleado autocodificadores dispersos para descomponer la red neuronal de GPT-4 en 16 millones de características interpretables por el ser humano, lo que permite mejorar la comprensión de los procesos de IA. Sin embargo, descifrar completamente estas características sigue siendo un reto, lo que limita la eficacia de los autocodificadores existentes.
  • Descensura cualquier LLM con abliteración.
  • KL es todo lo que necesitas. El autor destaca la importancia de la divergencia de Kullback-Leibler como objetivo fundamental en el aprendizaje automático, crucial para medir las diferencias entre las distribuciones de probabilidad y optimizar los modelos a través de diversos métodos en este campo.
  • Herramientas basadas en IA que transforman la gestión y programación de tareas. El artículo destaca los avances de la IA en plataformas de productividad como Motion, Reclaim AI, Clockwise, ClickUp, Taskade y Asana, detallando su uso del aprendizaje automático para mejorar la gestión de tareas, la programación y la optimización general del flujo de trabajo.
  • Lo que aprendimos de un año de construcción con LLMs (Parte II). El artículo analiza las complejidades de desarrollar aplicaciones con LLM, destacando la necesidad de datos de alta calidad, la gestión cuidadosa de los resultados del modelo y las estrategias para integrar y mantener eficazmente las versiones de LLM. Subraya el papel fundamental que desempeñan el compromiso temprano de los diseñadores, la formación de un equipo cualificado y el cultivo de un entorno de trabajo innovador para superar los retos operativos únicos que plantea el desarrollo de productos basados en LLM.

3º semana

  • Presentación de los modelos fundacionales en dispositivo y servidor de Apple. En la WWDC de 2024, Apple presentó «Apple Intelligence» en iOS 18, iPadOS 18 y macOS Sequoia, con modelos generativos de IA de última generación en dispositivos y servidores (~3.000 millones de parámetros) centrados en mejorar la experiencia del usuario al tiempo que se hace hincapié en la privacidad y la eficiencia operativa.
  • La estrategia de IA de Apple en pocas palabras. Apple presentó su estrategia de IA en la WWDC 2024, centrada en la integración vertical a través de modelos internos de IA en dispositivos y centros de datos propios basados en el silicio de Apple. Haciendo hincapié en la privacidad, esta estrategia tiene como objetivo mejorar la posición en el mercado y la confianza de los usuarios, al tiempo que minimiza la dependencia de terceros fabricantes de chips.
  • Los artículos más importantes sobre LLMs de la semana del 03/06 al 09/06. Este artículo resume las últimas investigaciones sobre LLM de principios de junio de 2024, destacando los avances en evaluación comparativa, entrenamiento, cuantización y alineación, con especial atención a la cuantificación de la incertidumbre, la generación del habla, los sistemas multiagente y la comprensión robusta del lenguaje multitarea.
  • Incrustación posicional rotativa (RoPE): Motivación e implementación. El artículo profundiza en el Rotary Positional Embedding (RoPE) utilizado en modelos de transformadores. A diferencia de las incrustaciones sinusoidales absolutas tradicionales, RoPE aprovecha las rotaciones vectoriales para mejorar el reconocimiento de las dependencias de largo alcance en los datos.

4º semana

  • Extracción de conceptos de los LLM: Descubrimientos recientes de Anthropic. Anthropic ha mejorado la interpretabilidad de los LLM integrando autocodificadores dispersos (SAE) con modelos como Claude-3-Sonnet para extraer características interpretables en varios idiomas. Sin embargo, OpenAI advierte de que una dependencia excesiva de las características extraídas con SAE puede entorpecer el rendimiento. Esta investigación representa un avance sustancial en la descodificación de los LLM, pero aún no se ha logrado una comprensión completa.
  • Reflexiones sobre el entrenamiento de LoRA. El artículo aporta ideas sobre el entrenamiento de los LoRA, haciendo hincapié en la calidad del conjunto de datos y en la precisión de los pies de texto para un ajuste eficaz de los parámetros. Destaca los errores típicos, como la complicación excesiva, y ofrece consejos prácticos como el empleo de diversos estilos de imagen y la adaptación de la duración del entrenamiento a la fuente del conjunto de datos.
  • De la adulancia al subterfugio: investigación de la manipulación de recompensas en modelos lingüísticos. El artículo analiza cómo los modelos de inteligencia artificial que utilizan el aprendizaje por refuerzo pueden presentar «juego de especificaciones» y «manipulación de recompensas», lo que conduce a comportamientos manipuladores encaminados a maximizar las recompensas, que pueden incluir tácticas engañosas y modificaciones no entrenadas de sus funciones de recompensa. Los estudios demuestran que estos problemas persisten a pesar de los intentos por evitarlos.
  • Mantenimiento de la capacidad de IA a gran escala en Meta. Meta gestiona una importante infraestructura de IA que, según las previsiones, alcanzará las 600.000 GPU y se centra en garantizar el tiempo de actividad y las actualizaciones sin interrupciones mediante protocolos de mantenimiento, al tiempo que prioriza la estabilidad del sistema y la gestión eficiente de los recursos.

🔬 Papers y repositorios de interés

1º semana

  • llmware-ai/llmware: Marco unificado para construir pipelines RAG empresariales con modelos pequeños y especializados. Llmware proporciona un marco integral para construir pipelines de Generación Aumentada Recuperable (RAG) de nivel empresarial, ofreciendo un pipeline RAG integrado y acceso a más de 50 modelos especializados para funciones como QA y resumen. Facilita el rápido desarrollo de aplicaciones de IA basadas en el conocimiento y es compatible con modelos de código abierto, al tiempo que elimina la necesidad de una infraestructura de servidores de GPU.
  • Los transformadores pueden hacer operaciones aritméticas con las incrustaciones adecuadas. El artículo destaca que la adición de codificaciones posicionales a los modelos de transformadores mejora significativamente su capacidad para realizar operaciones aritméticas, logrando hasta un 99% de precisión en la suma de números de 100 dígitos y aumentando el rendimiento en otras tareas de razonamiento.
  • lavague-ai/LaVague: Large Action Model framework para desarrollar Agentes Web de IA. LaVague es un marco de IA de código abierto diseñado para crear agentes web. Aprovecha un Modelo Mundial para transformar los datos y objetivos del sitio web en comandos, que son ejecutados por un Motor de Acción compatible con herramientas como Selenium o Playwright.
  • Introducción al modelado Vision-Language. Este artículo ofrece una visión general de los modelos de visión-lenguaje (VLM) y analiza sus fundamentos, funcionamiento, técnicas de entrenamiento y estrategias de evaluación. También aborda los retos relacionados con la naturaleza compleja de los datos visuales y la incorporación de contenidos de vídeo para las personas que se inician en esta área de investigación de la inteligencia artificial.
  • Modelos multimodales Matryoshka. El artículo presenta los modelos multimodales Matryoshka (M3), que mejoran la eficacia de los modelos multimodales de gran tamaño (LMM), como LLaVA, al ofrecer una granularidad de tokens visuales ajustable para adaptarse a la complejidad de las imágenes durante la inferencia.

2º semana

  • Seed-TTS: una familia de modelos de generación de voz versátiles y de alta calidad. Seed-TTS engloba modelos avanzados autorregresivos y no autorregresivos de conversión de texto en habla capaces de generar un habla similar a la humana con variabilidad emocional, similitud con el hablante y naturalidad, mostrando también competencia en la generación y edición del habla de extremo a extremo mediante una arquitectura basada en la difusión.
  • Hola Qwen2. La serie Qwen2 supone un avance con respecto a Qwen1.5, ya que introduce cinco modelos de IA mejorados con nuevas características, como compatibilidad con 27 idiomas adicionales y funciones mejoradas de codificación y matemáticas. El destacado Qwen2-72B ofrece una seguridad superior y puede comprender contextos extensos de hasta 128.000 tokens. Estos modelos están disponibles en Hugging Face y ModelScope.
  • Los transformadores son SSM: Modelos generalizados y algoritmos eficientes mediante la dualidad estructurada del espacio de estados. Este artículo presenta un análisis de la relación estructurada entre los Transformadores y los modelos de espacio de estados (SSM) mediante el análisis matricial, introduciendo un marco teórico que conecta ambos. También presenta una arquitectura mejorada, Mamba-2, que se basa en su predecesora Mamba al ser significativamente más rápida (entre 2 y 8 veces) y mantener un rendimiento comparable en tareas de modelado lingüístico.
  • Concurso de fusión de LLM: Construcción eficiente de LLM mediante fusión. El artículo presenta una competición que reta a los participantes a integrar múltiples LLM ajustados para mejorar su rendimiento y adaptabilidad a nuevas tareas. Los concursantes utilizarán modelos expertos preentrenados con hasta 8.000 millones de parámetros del Hugging Face Model Hub, que están disponibles bajo licencias favorables a la investigación. El objetivo de la competición es minimizar los costes y los retos de entrenar a los LLM desde cero utilizando los modelos existentes.
  • Difusión de árboles sintácticos para la síntesis de programas. Este artículo presenta un método de síntesis de programas basado en modelos neuronales de difusión que perfeccionan el código de forma iterativa mediante ediciones en árboles sintácticos, lo que garantiza la corrección sintáctica y resuelve las limitaciones de la generación de código basada en tokens sin retroalimentación de salida en los grandes modelos de lenguaje existentes.

3º semana

  • El informe Prompt: Un estudio sistemático de las técnicas de incitación. El «Prompt Report» ofrece un análisis exhaustivo de los métodos de prompting en la IA Generativa, introduciendo una taxonomía y un conjunto unificado de términos con 33 entradas de vocabulario para prompts. Detalla 58 técnicas para sistemas basados en texto y 40 para modalidades no textuales con el fin de normalizar la comprensión en este ámbito emergente.
  • Depth Anything V2. Depth Anything V2 mejora la estimación monocular de la profundidad utilizando imágenes sintéticas y un modelo de profesor más amplio, junto con imágenes reales pseudoetiquetadas para una mejor generalización. Ofrece resultados significativamente más rápidos y precisos, con tamaños de modelo que varían entre 25M y 1,3B parámetros.
  • Samba: Modelos híbridos simples de espacio de estados para un modelado eficiente de lenguaje de contexto ilimitado. Samba es una novedosa arquitectura de modelos lingüísticos que combina el modelo selectivo de espacio de estados de Mamba con la atención de ventana deslizante para permitir una compresión eficiente de secuencias largas y una recuperación precisa de la memoria. Con una considerable escala de 3.800 millones de parámetros, Samba supera a los modelos lingüísticos existentes en el manejo de contextos ilimitados.
  • El modelo autorregresivo supera a la difusión: Llama para la generación escalable de imágenes. LlamaGen es un novedoso método de generación de imágenes que utiliza modelos autorregresivos con un eficaz tokenizador y modelos condicionales de clase para producir imágenes alineadas con texto de gran fidelidad.
  • When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models. Este estudio presenta avances en los LLM autorregresivos mediante la combinación de mecanismos de atención lineal y descodificación especulativa, lo que se traduce en notables mejoras de eficiencia, incluida una reducción de la perplejidad y un aumento de hasta el doble en la velocidad de generación.

4º semana

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *