Tabla de contenidos

😎 Noticias de la Web

1º semana

  • QwQ: Reflexiona profundamente sobre los límites de lo desconocido. QwQ-32B-Preview, desarrollado por el equipo Qwen, mejora el razonamiento de la IA con sólidas capacidades matemáticas y de programación. Destaca en pruebas como GPQA, AIME, MATH-500 y LiveCodeBench.
  • Parece que se ha filtrado el generador de vídeo Sora de OpenAI. Un grupo filtró el acceso al generador de vídeo Sora de OpenAI, en protesta por la supuesta presión ejercida sobre los probadores y la compensación inadecuada. Crearon un proyecto Hugging Face para generar vídeos cortos con marcas de agua. OpenAI suspendió temporalmente el acceso, declarando que Sora sigue en «vista previa de investigación» y haciendo hincapié en la participación voluntaria y la seguridad.
  • Presentación de Boltz-1: Democratización del modelado de interacciones biomoleculares. La Clínica Jameel del MIT ha lanzado Boltz-1, una herramienta de modelado biomolecular de código abierto que iguala la precisión de AlphaFold3 para la predicción de estructuras 3D. Boltz-1 supera a Chai-1 en CASP15, mostrando métricas superiores en el modelado proteína-ligando y proteína-proteína.
  • Ai2 OpenScholar: Síntesis de literatura científica con modelos lingüísticos mejorados mediante recuperación. Ai2 OpenScholar, desarrollado por la Universidad de Washington y el Instituto Allen de Inteligencia Artificial, utiliza modelos aumentados por recuperación para mejorar la síntesis bibliográfica. OpenScholar superó a los modelos de IA existentes en cuanto a veracidad y precisión de las citas, proporcionando respuestas eficientes y fiables a las consultas científicas.
  • La nueva función de ElevenLabs es un competidor de NotebookLM para crear podcasts GenAI. ElevenLabs ha introducido GenFM, una función que permite podcasts generados por IA con varios locutores, en la aplicación ElevenLabs Reader para iOS. GenFM, compatible con 32 idiomas, utiliza vídeos o textos de YouTube para crear podcasts con elementos humanos naturales.
  • Presentación del Protocolo de Contexto Modelo. Anthropic ha lanzado el Model Context Protocol (MCP), un estándar abierto para vincular asistentes de IA a diversos sistemas de datos, incluidas herramientas empresariales. Simplifica el acceso a los datos mediante un protocolo universal que permite a los desarrolladores crear fácilmente conexiones seguras.
  • Anthropic dice que Claude AI puede adaptarse a su estilo de escritura único. Anthropic introduce estilos personalizables en Claude AI, lo que permite a los usuarios entrenar al chatbot para que se adapte a su estilo de escritura o elegir entre tres preajustes: Formal, Conciso y Explicativo. Esta función, que mejora las respuestas personalizadas, compite con ofertas similares de OpenAI y Google, automatizando de forma eficaz la ingeniería de la respuesta para las distintas necesidades de comunicación.

2º semana

  • OpenAI presenta Reinforcement Fine-Tuning (RFT) para crear modelos de IA especializados para dominios complejos. OpenAI presenta Reinforcement Fine-Tuning (RFT) para entrenar modelos de IA especializados en ámbitos complejos como el derecho y la medicina. A diferencia de los métodos tradicionales, RFT mejora la resolución de problemas reforzando los patrones de razonamiento exitosos. El programa, actualmente en acceso temprano, permite a las organizaciones desarrollar modelos de IA utilizando datos de entrenamiento mínimos, y se espera una disponibilidad más amplia a principios de 2025.
  • Meta lanza Llama 3.3 70B. Meta lanza Llama 3.3 70B. Llama 3.3 70B ofrece el rendimiento del modelo Llama más grande de Meta, Llama 3.1 405B, a un coste menor. Está disponible en Hugging Face.
  • Amazon anuncia Nova, su nueva familia de modelos de IA multimodal. AWS presentó Amazon Nova, su nueva familia de modelos de IA multimodal, en la conferencia re:Invent. Nova incluye modelos de texto y contenido creativo disponibles en Amazon Bedrock. Amazon apunta a un rendimiento mejorado con precios competitivos, a la espera de Nova Premier para capacidades avanzadas a principios de 2025.
  • AI Music es más realista que nunca: Conoce el nuevo modelo de Suno. Suno ha lanzado V4, un modelo avanzado que genera música realista a partir de mensajes o grabaciones. A pesar de los desafíos legales de la industria discográfica, Suno prospera como una importante herramienta de IA utilizada en todo el mundo. La empresa colabora con artistas, lo que permite iteraciones de composición y una mejor generación de letras, con el objetivo de implicar a los no músicos en la creación musical.
  • DeepMind, de Google, aborda la predicción meteorológica con grandes resultados. El sistema de IA GenCast de DeepMind supera a los modelos meteorológicos tradicionales, sobre todo al conjunto del Centro Europeo, en precisión de previsión más allá de una semana. Mediante la fusión de modelos de difusión y predicciones de conjunto, GenCast mantiene una alta resolución al tiempo que reduce las demandas de computación. Destaca en la predicción de condiciones meteorológicas extremas y mejora la previsión de la producción de energía eólica, lo que sugiere un enfoque híbrido prometedor en la predicción meteorológica.
  • Pat Gelsinger, Consejero Delegado de Intel, se jubila. Pat Gelsinger, Consejero Delegado de Intel, se jubiló el 1 de diciembre y fue sucedido por David Zinsner y Michelle Johnston Holthaus. Bajo el mandato de Gelsinger, Intel se enfrentó a retos tales como una importante pérdida trimestral y el descenso de los ingresos. Su mandato incluyó esfuerzos para modernizar las operaciones de Intel, incluida la construcción de plantas de fabricación. El consejo de Intel nombró un comité de búsqueda para encontrar un sustituto permanente para el CEO.
  • El CEO de Inflection AI dice que ya no intenta crear modelos de IA de nueva generación. Inflection AI abandona los modelos de IA de nueva generación para centrarse en soluciones empresariales bajo la dirección de Sean White, tras la adquisición de su antigua dirección y tecnología por parte de Microsoft.

3º semana

  • OpenAI ha lanzado Sora. OpenAI ha lanzado Sora, su IA de texto a vídeo, como parte de su serie «ship-mas» de 12 días. Disponible a través de ChatGPT Pro, de 200 dólares al mes, permite a los usuarios crear vídeos 1080p de hasta 20 segundos de duración. Entre las funciones de Sora están la remezcla de vídeos y los guiones gráficos. Los vídeos llevan marcas de agua.
  • Google Gemini 2.0 Flash sale al mercado con conversación en tiempo real y análisis de imágenes. Google ha lanzado Gemini 2.0 Flash, un modelo de IA multilingüe y multimodal capaz de mantener conversaciones y analizar imágenes en tiempo real. Dirigido a desarrolladores, admite la ejecución y búsqueda de código, y puede probarse desde AI Studio y Vertex AI.
  • OpenAI incorpora vídeo al modo de voz avanzado de ChatGPT. El modo de voz avanzado de ChatGPT de OpenAI es ahora compatible con las funciones de vídeo y pantalla compartida, lo que permite a los usuarios interactuar visualmente a través de la cámara del teléfono. Esta actualización, que hasta ahora era sólo de audio, demuestra la capacidad de ChatGPT para identificar objetos y guiar tareas. Disponible para los usuarios de ChatGPT Plus y Pro.
  • Apple lanza Apple Intelligence y la integración de ChatGPT en Siri. La actualización iOS 18.2 de Apple mejora los iPhones, iPads y Macs con funciones de Inteligencia de Apple. Los usuarios pueden experimentar Genmoji para emojis generados por IA, Image Playground para la creación de imágenes a partir de texto y la integración de ChatGPT en Siri.
  • Microsoft lanza Phi-4 con 14.000 millones de parámetros. El modelo lingüístico Phi-4 de Microsoft supera a modelos más grandes con sólo 14.000 millones de parámetros, sobresaliendo en matemáticas y superando a GPT-4 en consultas de ciencia y tecnología. En el entrenamiento se utilizaron datos sintéticos de alta calidad y métodos refinados para diferenciar la calidad de las respuestas. Phi-4, que pronto estará disponible en HuggingFace, obtuvo un 91,8% en las pruebas AMC, lo que le sitúa a la cabeza de todos los modelos, pero muestra limitaciones prácticas a pesar de sus excelentes resultados.
  • Cohere lanza Rerank 3.5. Rerank 3.5 de Cohere mejora la precisión de la búsqueda de IA con un razonamiento mejorado y capacidades multilingües, soportando más de 100 idiomas. Este modelo supera a los sistemas tradicionales al comprender consultas complejas y renumerar los resultados. Las empresas de los sectores financiero, gubernamental y otros se benefician de una mayor precisión y eficiencia en las búsquedas.
  • OpenAI introduce la función Proyectos para organizar las interacciones de ChatGPT. OpenAI presenta la función Proyectos para organizar las interacciones de ChatGPT, disponible para suscriptores Plus, Pro y Teams. Los proyectos mejoran la experiencia del usuario agrupando chats relacionados, archivos e instrucciones personalizadas, ofreciendo una solución ordenada para tareas como la escritura de guiones o la creación de sitios web.
  • OpenAI amplía ChatGPT Canvas a todos los usuarios. OpenAI amplía el acceso a Canvas a todos los usuarios de ChatGPT, mejorando la usabilidad con funciones como la ejecución de código Python y la detección de errores. Canvas se integra en GPT-4o en la web y en la aplicación de Windows, ofreciendo una edición de contenidos sin fisuras. Los usuarios pueden añadir Canvas a GPT personalizados.

📚 Guías de la Web

1º semana

  • Avance de la IA en 2024: lo más destacado de 10 trabajos de investigación pioneros. Los principales investigadores han hecho avanzar la IA en 2024 con avances en el modelado de secuencias, los entornos interactivos, la síntesis de imágenes de alta resolución, las predicciones de interacciones biomoleculares y las capacidades multimodales.
  • Se podría haber diseñado la codificación posicional más avanzada. El autor analiza el desarrollo de la codificación posicional de última generación en modelos de transformadores, que ha dado lugar a la codificación posicional rotatoria (RoPE) utilizada en LLama 3.2. Esta innovación aborda retos clave en la codificación eficaz de la posición de los tokens dentro de las secuencias, mejorando los mecanismos de autoatención. RoPE lo consigue pasando de los métodos aditivos a los multiplicativos.
  • Algo raro está pasando con los LLM y el ajedrez. En pruebas recientes, sólo GPT-3.5-turbo-instruct destacó jugando al ajedrez, lo que sugiere que los grandes modelos lingüísticos tienen dificultades con el juego, probablemente debido al ajuste de las instrucciones o a la competencia con otros tipos de datos. Los intentos con otros modelos, como LLAMA y Qwen, arrojaron sistemáticamente malos resultados, lo que pone de manifiesto profundas variaciones en la formación y las capacidades de los modelos.
  • Coalescence: la inferencia LLM 5 veces más rápida. Coalescence acelera significativamente la inferencia de Large Language Model optimizando la generación de resultados estructurados. Al convertir los esquemas JSON en máquinas de estados finitos (FSM) y fusionar los tokens, coalescence recorta las transiciones innecesarias del modelo, aumentando la velocidad hasta cinco veces sin costes adicionales de inferencia.

2º semana

  • Hackeo de recompensas en el aprendizaje por refuerzo. El pirateo de recompensas en el aprendizaje por refuerzo se produce cuando los agentes aprovechan los defectos de la función de recompensa para obtener recompensas elevadas sin realizar las tareas previstas. Es un reto importante, sobre todo con modelos lingüísticos que utilizan el aprendizaje por refuerzo a partir de información humana.
  • Un sistema de agentes da vida al servicio como software. La IA transforma el software de una herramienta a un trabajador autónomo, lo que supone una oportunidad de 4,6 billones de dólares en cinco años. La evolución del CRM tradicional a los sistemas impulsados por la IA implica agentes que capturan, procesan y mejoran los datos no estructurados, permitiendo la toma de decisiones proactiva y la ejecución de tareas. Las industrias pueden aprovechar los agentes de IA para optimizar el uso de la mano de obra, cubrir lagunas de cualificación y fomentar ecosistemas de aprendizaje continuo.
  • Cuantización dinámica de 4 bits. La Cuantización Dinámica de 4 bits de Unsloth comprime los modelos de lenguaje como Llama 3.2 Vision hasta un 68% manteniendo la precisión. Al evitar selectivamente la cuantización de ciertos parámetros, la biblioteca ofrece mejores resultados que los algoritmos ingenuos.
  • Construir LLMs probablemente no va a ser un negocio brillante. Los grandes fabricantes de modelos lingüísticos como OpenAI se enfrentan a una estructura industrial desfavorable, con un fuerte poder de proveedor por parte de NVIDIA, un elevado poder de compra y una intensa competencia. A pesar de recaudar importantes fondos, estos negocios se parecen más a empresas fracasadas del pasado como Netscape que a otras de éxito como Coca-Cola, debido a retos como la intercambiabilidad con los competidores y la facilidad de entrada en el mercado para los recién llegados.

3º semana

  • Creación desde cero de un motor de búsqueda basado en IA. La entrada del blog describe un motor de búsqueda de código abierto que utiliza IA para la navegación web privada. Procesa entradas de texto e imágenes, realiza búsquedas web, extrae palabras clave y proporciona respuestas a través de una interfaz Gradio. Combina servicios de terceros como Postgres y Qdrant para generar búsquedas y respuestas eficientes.
  • LeMaterial: iniciativa de código abierto para acelerar el descubrimiento y la investigación de materiales. LeMaterial, puesto en marcha por Entalpic y Hugging Face, pretende estandarizar los conjuntos de datos de materiales, ayudando a la investigación y el descubrimiento en la ciencia de los materiales. La versión inicial del proyecto, LeMat-Bulk, integra los principales conjuntos de datos, como Materials Project y OQMD, y ofrece 6,7 millones de entradas.

🔬Papers y repositorios de interés

1º semana

  • andrewyng/aisuite: Interfaz simple y unificada para múltiples proveedores de IA Generativa. Aisuite ofrece a los desarrolladores una interfaz sencilla para interactuar con múltiples proveedores de IA Generativa como OpenAI y Anthropic utilizando un sistema estandarizado. Utilizando bibliotecas de cliente Python, aisuite permite intercambiar y probar sin problemas las respuestas de varios LLM sin modificar el código.
  • Simulaciones de agentes generativos de 1.000 personas. Los investigadores desarrollaron una arquitectura de agentes generativos que simulaba a 1.052 personas mediante entrevistas cualitativas y grandes modelos lingüísticos. Estos agentes reprodujeron con precisión actitudes y comportamientos, comparables a las respuestas de los participantes en la Encuesta Social General y medidas de personalidad. La investigación sienta las bases para estudiar el comportamiento individual y colectivo en las ciencias sociales.
  • ¿Eran las RNN todo lo que necesitábamos? Este artículo revisa las redes neuronales recurrentes y destaca las versiones mínimas de LSTM y GRU que simplifican estos modelos y permiten el entrenamiento en paralelo. Estas versiones simplificadas utilizan menos parámetros, logran un rendimiento competitivo y desafían la tendencia predominante hacia arquitecturas complejas, ofreciendo soluciones ligeras y adaptables para diversas tareas.
  • Atención a las estrellas: Inferencia LLM eficiente en secuencias largas. Star Attention ofrece una inferencia eficiente para los LLM basados en Transformer utilizando una aproximación de bloques dispersos para reducir la complejidad de la autoatención. Procesa el contexto en bloques distribuidos, permitiendo que las consultas accedan globalmente a los datos almacenados en caché. Compatible con muchos LLM, este enfoque consigue una inferencia hasta 11 veces más rápida manteniendo una precisión del 95-100%.
  • AnchorAttention: Mejora del entrenamiento de contexto largo en LLM con mecanismos de atención mejorados. El mecanismo AnchorAttention mejora la formación en contextos largos de los modelos de lenguaje extensos resolviendo problemas numéricos con la incrustación posicional rotatoria en precisión BFloat16. Mejora el rendimiento en tareas de contexto largo como RULER y LongBench, reduce el tiempo de formación en más de un 50% y se integra con FlashAttention2 y FlexAttention.

2º semana

  • PaliGemma 2: una familia de VLM versátiles para la transferencia. Google DeepMind ha publicado PaliGemma 2, un modelo mejorado de visión y lenguaje (VLM) basado en los modelos Gemma 2, que integra el codificador de visión SigLIP-So400m. Entrenados en múltiples resoluciones, estos modelos sobresalen en tareas de transferencia, incluidas tareas relacionadas con OCR y la generación de descripciones largas, logrando resultados de vanguardia en diversos dominios.
  • SNOOPI: Destilación por difusión en un solo paso sobrealimentada con orientación adecuada. SNOOPI introduce un marco robusto para los modelos de difusión en un solo paso, mejorando la estabilidad del entrenamiento con Proper Guidance-SwiftBrush y apoyando la orientación negativa mediante Negative-Away Steer Attention. Estos avances mejoran significativamente el rendimiento en todas las métricas y establecen una nueva puntuación HPSv2 de vanguardia de 31,08, abordando inestabilidades anteriores y ampliando las capacidades prácticas de generación de imágenes.
  • Evaluación de modelos lingüísticos como generadores de datos sintéticos. Los investigadores presentaron AgoraBench, una prueba de referencia para evaluar modelos lingüísticos como generadores de datos sintéticos. Al sintetizar 1,26 millones de instancias y entrenar 99 modelos, descubrieron que los modelos generaban datos de distinta calidad, sobre todo GPT-4o y Claude-3.5-Sonnet. La calidad de la generación de datos depende de la calidad de la respuesta, la perplejidad y la dificultad de la instrucción, y no sólo de la capacidad de resolución de problemas, lo que repercute en la eficacia y la estrategia del modelo.
  • Genie 2: Un modelo del mundo fundacional a gran escala. DeepMind presentó Genie 2, un modelo de mundo capaz de generar diversos entornos 3D para el entrenamiento de agentes de IA. Utilizando Imagen 3 para las instrucciones, Genie 2 simula mundos dinámicos y controlables mediante acciones, lo que permite crear prototipos rápidamente y albergar interacciones como affordances de objetos, animación de personajes y modelado de comportamiento de agentes.
  • VisionZip: Más largo es mejor, pero no es necesario en los modelos de lenguaje visual. VisionZip reduce la redundancia de tokens visuales en los modelos de lenguaje visual, mejorando la eficiencia sin comprometer el rendimiento. Este método, aplicable a tareas de imagen y vídeo, supera a los modelos anteriores en más de un 5% y acelera la inferencia en 8 veces. El artículo anima a centrarse en mejorar las características visuales en lugar de aumentar la longitud de los tokens.
  • NVILA: modelos de lenguaje visual de frontera eficientes. NVIDIA publica NVILA, que maneja eficientemente imágenes de alta resolución y vídeos largos a la vez que reduce los costes de entrenamiento en 4,5 veces y la memoria de ajuste en 3,4 veces. Compite con los principales VLM y pronto publicará código y modelos.

3º semana

  • Informe técnico de Phi-4. El phi-4, un modelo lingüístico de 14.000 millones de parámetros, destaca en las capacidades de aseguramiento de la calidad centradas en STEM mediante la integración estratégica de datos sintéticos durante el entrenamiento. A pesar de conservar la arquitectura de phi-3, supera a sus predecesores gracias a la mejora de la calidad de los datos, un plan de formación perfeccionado e innovaciones avanzadas posteriores a la formación, superando a GPT-4 especialmente en las pruebas de referencia centradas en el razonamiento.
  • Entrenamiento de grandes modelos lingüísticos para razonar en un espacio latente continuo. Los investigadores presentaron Coconut, un nuevo paradigma de razonamiento para LLM que opera en un espacio latente continuo. Coconut mejora el razonamiento utilizando el último estado oculto como un pensamiento continuo, lo que permite patrones de razonamiento avanzados como la búsqueda amplia primero. Supera a los enfoques tradicionales de cadena de pensamiento en tareas lógicas con retroceso sustancial, lo que demuestra la promesa del razonamiento latente.
  • MarkItDown: una herramienta para convertir archivos a Markdown. La biblioteca MarkItDown de Microsoft convierte eficazmente archivos como PDF, PowerPoint y Word, entre otros, a Markdown, lo que facilita la indexación y el análisis de textos. Los usuarios pueden instalarla mediante pip y utilizar su sencilla API. MarkItDown también admite Large Language Models para descripciones de imágenes mediante parámetros como mlm_client y mlm_model.
  • FlashAtención en una servilleta: A Diagrammatic Approach to Deep Learning IO-Awareness. Los autores proponen un enfoque diagramático para optimizar los algoritmos de aprendizaje profundo con IO-awareness, logrando mejoras de rendimiento de hasta seis veces como FlashAttention. Mediante la gestión eficiente de las transferencias de datos y el aprovechamiento de las características de la GPU, su método genera pseudocódigo para las arquitecturas Ampere y Hopper, mejorando la eficiencia energética y el rendimiento al reducir los costes energéticos de la GPU derivados del ancho de banda de transferencia, que actualmente consume un 46%.
  • GenEx: Generación de un mundo explorable. GenEx presenta un sistema de exploración de mundos en 3D que utiliza la imaginación generativa a partir de entradas mínimas como una sola imagen RGB. Genera entornos de 360 grados de alta calidad que permiten a los agentes de IA realizar tareas complejas con expectativas predictivas. Mediante la simulación de resultados y el perfeccionamiento de creencias, GenEx hace avanzar la IA incorporada en espacios imaginativos con aplicaciones en el mundo real.
  • Apolo: An Exploration of Video Understanding in Large Multimodal Models. El artículo presenta Apollo, una familia de grandes modelos multimodales (LMM) de última generación, diseñados para mejorar la comprensión de vídeo. Los investigadores identifican factores como el muestreo de fps y los codificadores de visión que mejoran la representación del vídeo. Los modelos Apollo manejan con eficacia vídeos de una hora de duración, y Apollo-3B supera a numerosos modelos existentes. Apollo-7B establece nuevos estándares, superando pruebas como MLVU y Video-MME.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *