Aquí tienes los papers de investigación, las guías y noticias semanales sobre IA y NLP elegidos para ti por NLPlanet.

Tabla de contenidos

😎 Noticias de la web

1º semana

2º semana

3º semana

  • Prompt de avisos con Claude. Anthropic ha actualizado su API con prompt caching para Claude 3.5 Sonnet y Claude 3 Haiku, prometiendo hasta un 90% de ahorro de costes y un 85% menos de latencia. Esta mejora, que pronto será también compatible con Claude 3 Opus, optimiza las llamadas repetitivas a la API, especialmente útil para tareas que necesitan un contexto persistente. El precio depende del modelo y difiere para escrituras y lecturas en caché.
  • Perplexity responde a 250 millones de preguntas al mes, lo que demuestra el creciente apetito por la búsqueda de IA. Perplexity, un motor de búsqueda de IA, experimentó un crecimiento sustancial, gestionando 250 millones de consultas al mes y alcanzando los 500 millones en 2023. Sin embargo, está por detrás del dominio de Google y sus 8.500 millones de consultas diarias. Esta tendencia indica un desplazamiento de los usuarios hacia opciones de búsqueda basadas en IA.
  • El nuevo generador de imágenes de IA de xAI hará cualquier cosa, desde Taylor Swift en lencería hasta Kamala Harris con una pistola. Grok, el nuevo chatbot de xAI lanzado en la plataforma X de Elon Musk, permite generar imágenes a partir de mensajes de texto con restricciones de contenido mínimas. Sin embargo, su producción de contenidos controvertidos ha puesto de relieve una marcada diferencia en la aplicación de políticas en comparación con otros servicios de IA, lo que ha suscitado preocupaciones sobre la regulación y la seguridad digital, que podrían afectar a la relación de la plataforma con los anunciantes y atraer la atención de los reguladores europeos.
  • Precio de Apple Intelligence: la IA y Siri del iPhone serán gratuitas hasta 2027. El nuevo servicio Apple Intelligence de Apple, que debutará con el iPhone 15 Pros, ofrecerá funcionalidades de IA en el dispositivo gratuitas y centradas en la privacidad hasta 2027. La compañía seguirá desarrollando la tecnología, incluida una IA de Siri mejorada, antes de pasar potencialmente a un modelo de suscripción, con la introducción de funciones avanzadas con el tiempo.
  • El científico de la IA: Hacia el descubrimiento científico abierto totalmente automatizado. Sakana AI ha lanzado The AI Scientist, un sistema automatizado diseñado para avanzar en el descubrimiento científico en áreas como los modelos de difusión y los transformadores. Trabajando con socios académicos líderes, puede producir y evaluar artículos científicos, ofreciendo un ahorro de costes pero con las limitaciones actuales, incluyendo la ausencia de capacidades visuales y posibles imprecisiones.

4º semana

  • Ya está disponible el ajuste fino para GPT-4o. OpenAI introduce el ajuste fino de GPT-4o para que los desarrolladores personalicen los modelos con el fin de mejorar el rendimiento y la rentabilidad en todos los dominios. Esta función está disponible para los niveles de pago con fichas de formación diarias gratuitas hasta el 23 de septiembre. Entre los logros más destacados se encuentran Genie de Cosine, que destaca en SWE-bench, y Distyl, que lidera el benchmark BIRD-SQL.
  • Microsoft lanza el nuevo lenguaje de código abierto Phi 3.5 y modelos de visión. La nueva serie Phi 3.5 de Microsoft introduce tres modelos de IA de código abierto -mini-instruct, MoE-instruct y vision-instruct- diseñados para mejorar el razonamiento en tareas comerciales y científicas multilingües, con capacidades de análisis de documentos largos. Microsoft recomienda combinar estos modelos con sistemas mejorados de recuperación, como RAG, para obtener mejores resultados en entornos con recursos limitados.
  • Amazon Q ahorró 4.500 años de trabajo a los desarrolladores. Amazon Q, un asistente de software GenAI, ha agilizado las actualizaciones de sistemas, como la transformación automática de sistemas Java. Ha permitido a Amazon actualizar más del 50% de sus sistemas Java en 6 meses, lo que ha supuesto un importante aumento de la eficiencia equivalente al ahorro de 4.500 años de trabajo de desarrollador y 260 millones de dólares de ahorro anual. La tecnología ha mejorado notablemente la velocidad de actualización, la seguridad y la rentabilidad del mantenimiento del software.
  • OpenAI se asocia de nuevo con los medios de comunicación, esta vez con Condé Nast. OpenAI se ha asociado con Condé Nast para integrar SearchGPT en sus publicaciones, con el objetivo de mejorar las capacidades de búsqueda y la credibilidad de los contenidos. La colaboración se considera una estrategia para mitigar el impacto de los avances tecnológicos en los ingresos de los medios de comunicación.
  • Nvidia presenta StormCast, un modelo de IA para la predicción meteorológica avanzada. Nvidia ha lanzado StormCast, un modelo basado en IA en su plataforma Earth-2, que avanza en la predicción meteorológica a mesoescala con simulaciones de la dinámica atmosférica. Consigue una mejora del 10% en la precisión con respecto a las previsiones tradicionales de seis horas, lo que contribuye a la planificación eficiente de catástrofes y posiciona a Nvidia junto a otros gigantes tecnológicos como Google, Microsoft e IBM en la tecnología climática de IA.
  • El Gen-3 Alpha Turbo de Runway ya está aquí y puede crear vídeos de IA más rápido de lo que tecleas. Runway ML presenta Gen-3 Alpha Turbo, un modelo de generación de vídeos de IA que ofrece mejoras de velocidad de 7x y una reducción de costes del 50%. Ampliamente disponible a través de planes de suscripción, el modelo aborda diversas necesidades al tiempo que promete avances en medio de un escrutinio ético, señalando la ambición de Runway por liderar el mercado.
  • AMD adquiere la empresa de infraestructuras ZT Systems por 4.900 millones de dólares para ampliar su ecosistema de IA. AMD ha adquirido la empresa de infraestructura centrada en IA ZT Systems por 4.900 millones de dólares, con el objetivo de mejorar sus ofertas de centros de datos con la experiencia de diseño de sistemas especializados de ZT en aplicaciones de IA.

📚 Guías

1º semana

  • Cómo utilizar SAM 2 para la segmentación de vídeo. El Segment Anything Model 2 (SAM 2) avanza en la segmentación de vídeo e imágenes mejorando la eficacia de la interacción y la velocidad de procesamiento, ofreciendo tamaños de modelo escalables para diversas demandas computacionales y presentando un novedoso sistema de memoria para la segmentación coherente de fotogramas de vídeo. Sin embargo, tiene dificultades con las complejidades de las escenas detalladas, pobladas y visualmente uniformes.
  • Crash Course in Deep Learning (para infografía). El artículo ofrece una introducción a las aplicaciones del aprendizaje profundo en gráficos por ordenador, abarcando conceptos clave como las funciones de activación ReLU y Sigmoid, la arquitectura del perceptrón multicapa y técnicas de entrenamiento como el descenso de gradiente estocástico.
  • Por qué las grandes tecnológicas quieren que la IA no cueste nada. Meta ha lanzado el gran modelo de lenguaje Llama 3.1 de forma gratuita, lo que podría aumentar la demanda de tecnología complementaria como servidores y afectar a las startups de IA más pequeñas al desplazar la competencia hacia proveedores de infraestructura como AWS y Google Cloud.
  • Cómo uso «IA». En el artículo, un experimentado programador e investigador de IA explica cómo ha utilizado eficazmente grandes modelos de lenguaje durante el último año para mejorar la productividad de la programación y automatizar tareas mundanas, contrarrestando el escepticismo mediante la ilustración de aplicaciones prácticas en el desarrollo web y la automatización de tareas cotidianas.
  • La programación orientada al chat (CHOP) en acción. El artículo examina la progresión de la programación hacia la programación orientada al chat (CHOP), destacando cómo las herramientas de IA mejoran la eficiencia de los programadores al perfeccionar las indicaciones de forma interactiva, agilizando así la comprensión de la base de código, la depuración y las tareas de codificación.

2º semana

  • Explicación de Transformer. El artículo «Transformer Explainer» ofrece una visión en profundidad de los modelos Transformer, analizando mecanismos básicos como la autoatención multicabezal, las capas MLP y técnicas como la normalización de capas, el abandono y las conexiones residuales. Explica cómo los Transformers procesan las entradas utilizando estos componentes, haciendo hincapié en el cálculo de las relaciones entre los tokens y las proyecciones dimensionales de los datos. El artículo incluye herramientas interactivas para demostrar el comportamiento del modelo y explorar las variaciones de salida mediante el control de la temperatura.
  • GPT-5: Todo lo que hay que saber. El artículo analiza el lanzamiento previsto y la influencia potencial de la GPT-5 de OpenAI en medio de la competencia de Gemini de Google y Claude de Anthropic, destacando la necesidad de un progreso sustancial para mantener su liderazgo en el mercado, con un calendario de lanzamiento poco claro debido a consideraciones estratégicas y competitivas.
  • ¿Cómo sobrevive OpenAI? El artículo examina la sostenibilidad de OpenAI, destacando su necesidad de financiación continua y avances tecnológicos frente a los elevados costes operativos. Analiza las complejidades del modelo financiero de OpenAI y el posible conflicto de intereses que plantea la participación de Microsoft como patrocinador y competidor.

3º semana

  • Revisión: El nuevo modo de voz avanzado de ChatGPT. El nuevo Modo de Voz Avanzado de ChatGPT mejora la comprensión y producción del habla, superando a predecesores y competidores como Siri y Alexa al ofrecer interacciones más naturales con menos malentendidos y latencia, elevando así la capacidad de respuesta general de las conversaciones impulsadas por IA.
  • Por qué apuesto por DSPy. DSPy es un marco de código abierto que facilita la coordinación de múltiples llamadas LLM para abordar problemas complejos, ofreciendo información verificable para mejorar el despliegue de soluciones prácticas. El marco está trabajando actualmente en mejorar la fiabilidad y la accesibilidad de los usuarios para reforzar su utilidad y su desarrollo continuado dentro de la comunidad de la IA.
  • Un experimento fallido: Infini-Attention, ¿y por qué deberíamos seguir intentándolo?. El artículo analiza las limitaciones de Infini-attention a la hora de ampliar la longitud de los contextos de los modelos lingüísticos controlando al mismo tiempo el uso de memoria. Aunque en teoría promete una sobrecarga de memoria fija, su rendimiento es inferior al de modelos existentes como Ring Attention y Rope Scaling. Los esfuerzos de los investigadores por perfeccionar Infini-attention a través de experimentos arrojaron resultados inconsistentes, lo que pone de relieve los retos que plantea la mejora de la aplicabilidad práctica de los modelos de contexto largo en la IA.
  • Cómo podar y destilar Llama-3.1 8B a un modelo NVIDIA Llama-3.1-Minitron 4B. El artículo presenta el refinamiento del modelo de lenguaje Llama-3.1 8B para convertirlo en una versión compacta 4B utilizando las técnicas de compresión estructurada de NVIDIA, que incluyen la poda de pesos y la destilación de conocimientos. Este enfoque da como resultado un modelo Llama-3.1-Minitron 4B de bajo consumo de recursos que proporciona un alto rendimiento en las pruebas de rendimiento y reduce los gastos computacionales.
  • ¿Por qué la sanidad será el sector que más se beneficie de la IA?. La IA tiene un potencial considerable para revolucionar el sector sanitario mejorando la eficiencia y el juicio clínico, gestionando datos complejos y ayudando en la toma de decisiones, especialmente ahora que el sector se enfrenta a una crisis de personal y a una creciente complejidad en la atención médica.

4º semana

  • La familia Phi-3 de Microsoft. La familia Phi-3 de Microsoft ofrece una gama de pequeños modelos de lenguaje (SLM) optimizados para diversas tareas, como el procesamiento de lenguaje, la codificación, el razonamiento lógico y las aplicaciones de visión, con cada modelo -mini, pequeño, mediano y de visión- diseñado para destacar en su área respectiva manteniendo una alta eficiencia y rendimiento.
  • Nuestro equipo procrastinaba la redacción de informes de errores. Así que creamos una IA para que lo hiciera por nosotros. Un equipo ha desarrollado una solución basada en IA para mitigar la dilación en la redacción de informes de errores. Crearon un sistema automatizado que utiliza Python para extraer mensajes de Discord, resumirlos con Google Gemini e integrar estos resúmenes como problemas en GitLab, mejorando así la eficiencia y la productividad de la documentación.
  • Lo que realmente se necesita para formar a toda una plantilla en IA generativa. Las empresas están dando prioridad a la formación en IA generativa para impulsar la innovación y la competitividad, con firmas como Synechron que aprovechan herramientas especializadas para la habilitación en IA y el aumento de la productividad. USAA está dispuesta a seguir su ejemplo, haciendo hincapié en la gobernanza, la gestión de riesgos y la formación en IA basada en roles para su plantilla.

🔬 Papers y repositorios de interés

IA

1º semana

  • Medical SAM 2: Segmente imágenes médicas como vídeo mediante Segment Anything Model 2. MedSAM-2 es un modelo avanzado de IA para segmentar imágenes médicas en 2D y 3D, que aprovecha el marco SAM 2 para ofrecer segmentación con una sola solicitud de objetos específicos en imágenes secuenciales. Presenta un mayor rendimiento y capacidad de generalización en diversas modalidades de imágenes médicas, superando a los modelos existentes tanto en aplicaciones tradicionales como interactivas.
  • Gemma 2: mejora de los modelos de lenguaje abierto a un tamaño práctico. Gemma 2 es un modelo avanzado de inteligencia artificial de la serie Gemma con entre 2.000 y 27.000 millones de parámetros, que incorpora mejoras como los mecanismos de atención local-global intercalada y de atención a consultas en grupo. Aplicando técnicas de destilación del conocimiento, logra una mayor eficiencia y supera a sus predecesores, compitiendo con modelos hasta tres veces mayores.
  • Monos de Lenguaje Grande: Aumento de los recursos informáticos para la inferencia mediante el muestreo repetido. Los investigadores han descubierto que el aumento de los recursos informáticos para la inferencia mediante la generación de más muestras puede mejorar significativamente el rendimiento de los modelos lingüísticos. Observaron que la fracción de problemas resueltos (cobertura) aumenta con el número de muestras generadas y que esta relación puede extenderse a lo largo de cuatro órdenes de magnitud. La relación entre cobertura y muestras tiende a seguir una tendencia log-lineal y puede describirse mediante una ley de potencia exponenciada, lo que indica posibles leyes de escalado en el momento de la inferencia.
  • Optimización de moléculas pequeñas con grandes modelos lingüísticos. El artículo presenta Chemlactica y Chemma, grandes modelos lingüísticos ajustados a 110 millones de estructuras moleculares, capaces de generar moléculas con propiedades específicas y predecir características moleculares, utilizando una novedosa técnica de optimización que combina algoritmos genéticos, muestreo de rechazo y optimización rápida.
  • La manada de modelos Llama 3. Llama 3 es un conjunto de modelos de fundamentos de IA con un transformador de parámetros 405B, que ofrece soporte multilingüe, capacidades de codificación, razonamiento e interacción con herramientas. Comparado con GPT-4, demuestra un rendimiento comparable en diversas tareas y se muestra competitivo en el procesamiento de imágenes, vídeos y voz mediante enfoques composicionales.

2º semana

  • GMAI-MMBench: Una evaluación multimodal completa para la IA médica general. GMAI-MMBench es una nueva herramienta de referencia para evaluar grandes modelos de visión y lenguaje (LVLM) en medicina, que abarca 285 conjuntos de datos de distintas modalidades y tareas. Las evaluaciones iniciales de 50 LVLM, como GPT-4o, revelaron una precisión máxima de sólo el 52%, lo que indica la necesidad de un mayor desarrollo en el sector.
  • Transformer Explainer: Aprendizaje interactivo de modelos generadores de texto. Transformer Explainer es una herramienta interactiva que visualiza el funcionamiento del modelo GPT-2 en un navegador, con el objetivo de desmitificar los Transformers para los no expertos mostrando respuestas de predicción de texto en tiempo real a las entradas del usuario.
  • RAG Foundry: Un marco para mejorar los LLM para la Generación Aumentada de Recuperación. RAG Foundry es una plataforma de código abierto destinada a mejorar los modelos de Recuperación-Generación Aumentada proporcionando un flujo de trabajo integrado para la creación, entrenamiento, inferencia y evaluación de datos. Permite el uso de diversas fuentes de conocimiento para crear conjuntos de datos especializados y entrenar modelos, mejorando significativamente el rendimiento en tareas que requieren amplios conocimientos, como demuestran los resultados mejorados en los modelos aumentados Llama-3 y Phi-3.
  • Incrustación de lenguaje autógeno para el seguimiento coherente de puntos. Este artículo presenta un nuevo método para mejorar el rastreo de puntos en secuencias de vídeo mediante la integración del lenguaje en las características visuales sin necesidad de anotaciones de texto. Esta técnica de incrustación autógena del lenguaje muestra mejoras considerables con respecto al seguimiento visual estándar, sobre todo en vídeos con apariencias diversas.

3º semana

  • Med42-v2: Un conjunto de LLM clínicos. Med42-v2 es un modelo clínico avanzado de gran lenguaje basado en la arquitectura Llama3, adaptado a la atención sanitaria con datos especializados y alineación de preferencias, que supera a su predecesor y a GPT-4 en rendimiento de consultas médicas.
  • hacksider/Deep-Live-Cam: intercambio de caras en tiempo real y deepfake de vídeo con un solo clic y con una sola imagen. Deep-Live-Cam es una herramienta de intercambio de rostros basada en IA que facilita la creación de deepfakes de vídeo en tiempo real a partir de una sola imagen. Diseñada para ayudar a los artistas, incorpora medidas éticas de seguridad para desalentar el uso indebido, obligando al cumplimiento de las leyes locales y a la obtención del consentimiento. La herramienta admite diversas configuraciones de hardware y proporciona instrucciones de instalación para varios sistemas. Fomenta la producción responsable de medios de IA mediante posibles funciones centradas en la legalidad, como la marca de agua de los contenidos generados.
  • Model Merging in LLMs, MLLMs, and Beyond: Métodos, teorías, aplicaciones y oportunidades. El artículo revisa las estrategias de fusión de modelos en el aprendizaje automático, subrayando su rentabilidad y el uso mínimo de recursos. Presenta un nuevo sistema de clasificación de estas técnicas y detalla su uso en modelos lingüísticos, aprendizaje continuo y aprendizaje multitarea. Señala los déficits existentes en la bibliografía, los obstáculos actuales y las posibles áreas de estudio en el futuro.
  • Agente causal basado en un gran modelo lingüístico. El artículo explora la dificultad de los grandes modelos lingüísticos para dominar el razonamiento causal y aborda la cuestión introduciendo un Agente Causal. Este agente, mejorado con técnicas de razonamiento causal y componentes de memoria, demuestra su destreza a la hora de abordar diversos problemas causales.
  • Atención arbórea: Descodificación topológica para la atención a contextos largos en clusters de GPU. Este artículo presenta un método de descodificación basado en la topología que mejora la atención a contextos largos en modelos de transformadores en clusters de GPU. Conecta la autoatención con modelos basados en la energía, lo que da lugar a computación paralela en la GPU, procesamiento significativamente más rápido, reducción de la comunicación entre GPU y menor consumo de memoria.

4º semana

  • Matryoshka-Adaptor: Ajuste supervisado y no supervisado para dimensiones de incrustación más pequeñas. El marco Matryoshka-Adaptor mejora la eficiencia de las incrustaciones LLM reduciendo sustancialmente su tamaño, preservando el rendimiento y reduciendo los gastos computacionales. Compatible con cualquier LLM, incluidas las arquitecturas API de caja negra, admite el aprendizaje supervisado y no supervisado, y ha mostrado resultados consistentes en diversos conjuntos de datos, logrando una reducción de hasta doce veces en las dimensiones de incrustación.
  • A Survey on Benchmarks of Multimodal Large Language Models. El artículo critica la eficacia de los métodos de evaluación existentes para los MLLM (Multimodal Large Language Models) examinando 180 puntos de referencia que abarcan tareas de procesamiento de imágenes y razonamiento complejo. Clasifica estas evaluaciones en función de varios criterios, señala las limitaciones actuales de la evaluación y sugiere áreas para mejorar el desarrollo y la investigación de MLLM.
  • ShortCircuit: Diseño de circuitos basado en AlphaZero. ShortCircuit, una arquitectura basada en transformadores que utiliza AlphaZero, avanza en el diseño de circuitos booleanos sintetizando grafos AND-inversores (AIG) más pequeños a partir de tablas de verdad. Combinando el aprendizaje supervisado y el aprendizaje por refuerzo, supera a la herramienta líder, ABC, con una mejora del 14,61% en la compacidad de AIG, probada en 500 tablas de verdad del mundo real.
  • xGen-MM (BLIP-3): Una familia de grandes modelos multimodales abiertos. xGen-MM (BLIP-3) es el marco de trabajo de Salesforce para el desarrollo de LMM, que ofrece amplios conjuntos de datos, enfoques de formación únicos, diversas arquitecturas de modelos y una gama de LMM que destacan en el aprendizaje en contexto y el ajuste de instrucciones. Los modelos del marco se evalúan exhaustivamente y Salesforce ha abierto todos los materiales relacionados para fomentar la investigación adicional en LMM.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *