Aquí tienes los papers de investigación, las guías y noticias semanales sobre IA y NLP elegidos para ti por NLPlanet.
Tabla de contenidos
😎Noticias de la Web
1º semana
- El DevDay de OpenAI trae la API Realtime y otros caprichos para los desarrolladores de aplicaciones de IA. En el DevDay 2024 de OpenAI, la empresa lanzó la API Realtime para respuestas de voz de IA de baja latencia, mejorando su oferta en medio de cambios ejecutivos y presiones competitivas. Esta API, que proporciona capacidades de voz a voz casi en tiempo real, forma parte de las actualizaciones que incluyen el ajuste de la visión, el almacenamiento en caché de indicaciones y la destilación de modelos, con el objetivo de mantener la ventaja competitiva de OpenAI en el desarrollo de IA.
- OpenAI ha recaudado 6.600 millones de dólares en nuevos fondos con una valoración posterior de 157.000 millones de dólares. OpenAI ha recaudado 6.600 millones de dólares, lo que eleva su valoración a 157.000 millones de dólares, para impulsar la investigación en IA, ampliar las capacidades informáticas y desarrollar herramientas avanzadas de resolución de problemas.
- Nvidia acaba de lanzar una bomba: Su nuevo modelo de IA es abierto, masivo y está listo para rivalizar con la GPT-4. Nvidia ha lanzado la nueva familia NVLM 1.0 de grandes modelos de lenguaje multimodal, encabezada por el NVLM-D-72B de 72.000 millones de parámetros.
- El modelo Movie Gen de Meta emite vídeos realistas con sonido. El modelo de IA de Meta, Movie Gen, genera vídeos realistas de 16 segundos con sonido a partir de indicaciones de texto, superando a sus competidores gracias a la edición avanzada y la comprensión del movimiento de la cámara. Sin embargo, carece de funciones de voz y no se ha hecho público para evitar usos indebidos.
- La interfaz «Canvas» de ChatGPT facilita la escritura y el código. OpenAI ha lanzado una nueva interfaz «Canvas» para ChatGPT, que mejora la interacción del usuario con funciones como ajustes de texto y código en paralelo, atajos de edición en línea, comprobaciones gramaticales y herramientas de traducción de código. Con el objetivo de reducir las indicaciones repetitivas, Canvas incluye un botón de retroceso para restaurar versiones anteriores. Actualmente en fase beta, está disponible para los usuarios de ChatGPT Plus y Teams, con planes para un acceso más amplio después de la fase beta.
- Microsoft da voz y visión a Copilot en su mayor rediseño hasta la fecha. Microsoft ha mejorado su asistente de IA, Copilot, integrando capacidades de voz y visión. La actualización introduce una interfaz basada en tarjetas, un presentador virtual de noticias y asistencia visual en determinados sitios web, con el objetivo de ofrecer una experiencia de usuario más personalizada y adaptable.
- Black Forest Labs lanza Flux 1.1 Pro y una API. Black Forest Labs (BFL) ha presentado Flux 1.1 Pro, un modelo avanzado de IA de texto a imagen, junto con una API de pago para desarrolladores a 0,04 dólares por imagen. El modelo, accesible a través de socios como together.ai y Freepik, mejora la velocidad y la calidad de las imágenes. Tras una financiación inicial de 31 millones de dólares, BFL también se está expandiendo a los medios de vídeo basados en IA.
- Apple no invertirá en OpenAI, según un nuevo informe. Apple ha optado por no invertir en OpenAI, a pesar de que OpenAI se acerca a una ronda de financiación de 6.500 millones de dólares. Sin embargo, Apple integrará ChatGPT en iOS 18 para mejorar Siri, manteniendo una asociación no financiera con OpenAI para obtener beneficios de exposición mutua.
2º semana
- Premio Nobel a los científicos que sentaron las bases de la inteligencia artificial. Geoffrey Hinton y John Hopfield han sido galardonados con el Premio Nobel de Física por sus trabajos fundacionales sobre redes neuronales artificiales, como la máquina de Boltzmann y la red de Hopfield, que han sido fundamentales para el avance de aplicaciones de aprendizaje automático como el reconocimiento de imágenes y la generación de patrones.
- Científicos de Google especializados en IA ganan el Nobel de Química. Demis Hassabis y John Jumper, de Google DeepMind, junto con David Baker, han recibido el Premio Nobel de Química por su trabajo pionero sobre las estructuras de las proteínas. Hassabis y Jumper desarrollaron AlphaFold2, un modelo de IA que predice las estructuras de las proteínas, mientras que Baker diseñó nuevas proteínas. Su trabajo acelera la investigación farmacéutica y medioambiental.
- Anthropic lanza la API Message Batches. Anthropic ha introducido una nueva API de lotes de mensajes en beta pública, que permite el procesamiento asíncrono de hasta 10.000 consultas por lote con una reducción de costes del 50%. Admite varios modelos Claude, se integra con Amazon Bedrock y pronto será compatible con Vertex AI de Google Cloud.
3º semana
- Nvidia acaba de lanzar un nuevo modelo de IA al nivel del GPT-4 de OpenAI. Nvidia ha presentado el modelo de IA Llama-3.1-Nemotron-70B-Instruct, que supera al GPT-4 en los puntos de referencia. Basado en Llama 3.1 de Meta, presenta un entrenamiento avanzado para mejorar las capacidades lingüísticas. Esto marca el giro estratégico de Nvidia de la fabricación de GPU al software de IA, lo que podría transformar la industria con soluciones de IA potentes y personalizables y desafiar a los líderes actuales de IA.
- Mistral lanza nuevos modelos de IA optimizados para portátiles y teléfonos. Mistral ha presentado «Les Ministraux», una serie de modelos de IA, Ministral 3B y Ministral 8B, optimizados para dispositivos de borde como portátiles y teléfonos. Estos modelos se centran en aplicaciones de baja latencia y privacidad como la traducción en el dispositivo y el análisis local. Disponibles para descargar o a través de la plataforma en la nube de Mistral, según se informa, superan a los competidores en los puntos de referencia de IA. Este lanzamiento sigue a la reciente ronda de financiación de 640 millones de dólares de Mistral, lo que indica una expansión continua en las ofertas de IA.
- INTELLECT-1: Lanzamiento del primer entrenamiento descentralizado de un modelo de 10 mil millones de parámetros. INTELLECT-1 presenta el primer entrenamiento descentralizado de un modelo de IA de 10 mil millones de parámetros utilizando el método OpenDiLoCo, con el objetivo de democratizar el desarrollo de la IA reduciendo el control centralizado y mejorando el acceso de código abierto. Con el apoyo de las principales entidades de IA, el proyecto se centra en optimizar la comunicación y la eficiencia computacional, invitando a las contribuciones públicas para avanzar en las capacidades de la IA de código abierto.
- Según se informa, OpenAI y Microsoft contratan bancos para renegociar los términos de la asociación. OpenAI y Microsoft están renegociando sus términos de asociación, con el asesoramiento de Goldman Sachs y Morgan Stanley, para redefinir la participación y la gobernanza de Microsoft en OpenAI después de su transición a una corporación de beneficios. Esto sigue a los esfuerzos de OpenAI por asegurar servicios en la nube más baratos y un acuerdo de $ 10 mil millones con Oracle. A pesar de una pérdida proyectada de $ 5 mil millones este año, OpenAI apunta a la rentabilidad para 2029 con ingresos esperados de $ 100 mil millones.
- Zyphra lanza Zamba2–7B. Zyphra ha presentado Zamba2–7B, un modelo de lenguaje de escala 7B que supera a competidores como Mistral, Gemma de Google y Llama3 de Meta. Incluye bloques Mamba2 innovadores y capas de atención compartida dual, lo que da como resultado una velocidad de inferencia mejorada y un uso reducido de la memoria.
4º semana
- Anthropic presenta el uso de la computadora, un nuevo Claude 3.5 Sonnet y Claude 3.5 Haiku. Anthropic ha lanzado una función de «uso de la computadora» en versión beta pública, que permite a Claude interactuar con las computadoras como si fueran humanos, lo que demuestra ser prometedor para automatizar tareas complejas. También presentaron Claude 3.5 Sonnet y un nuevo modelo, Claude 3.5 Haiku.
- Novedades en NotebookLM: personalización de las vistas generales de audio y presentación de NotebookLM Business. NotebookLM, ahora una función completa basada en Gemini 1.5, ha actualizado sus vistas generales de audio para permitir a los usuarios personalizar el enfoque y el nivel de experiencia del anfitrión de IA, al tiempo que garantiza la privacidad de los datos.
- Perplexity presenta la búsqueda de conocimiento interno y los espacios. Perplexity ha lanzado la búsqueda de conocimiento interno y los espacios en sus versiones Pro y Enterprise Pro, lo que permite a los usuarios integrar de manera eficiente las búsquedas web y de archivos internos para obtener capacidades de investigación mejoradas.
- Stability AI lanza Stable Diffusion 3.5. Stability ha lanzado Stable Diffusion 3.5, que presenta modelos personalizables como el modelo Large de 8 mil millones de parámetros y el modelo Large Turbo más rápido. Estos modelos, disponibles bajo la licencia comunitaria de Stability AI, son adecuados tanto para aplicaciones comerciales como no comerciales.
- Compartir nuevas investigaciones, modelos y conjuntos de datos de Meta FAIR. Meta FAIR ha presentado nuevos avances en la investigación de IA, incluidas actualizaciones del modelo Segment Anything (SAM 2.1), Meta Spirit LM para la integración de voz y texto, Layer Skip para modelos de lenguaje grandes y eficientes, Salsa para criptografía poscuántica y Meta Open Materials 2024 para un descubrimiento de materiales más rápido.
- Ideogram lanza Ideogram Canvas, Magic Fill y Extend. La nueva plataforma de Ideogram.ai, Ideogram Canvas, ofrece capacidades avanzadas de organización, generación, edición y fusión de imágenes. Con herramientas como Magic Fill (relleno) y Extend (relleno) disponibles en cualquier plan pago, admite la edición y expansión de imágenes sin problemas. La plataforma se destaca en la generación de detalles de alta resolución y la representación precisa de texto, y está dirigida tanto a diseñadores novatos como experimentados en proyectos de diseño gráfico.
- Se rumorea que OpenAI lanzará su próximo gran modelo de IA en diciembre. Se informa que OpenAI se está preparando para lanzar un nuevo modelo de IA, Orion, en diciembre, que podría superar a GPT-4 en capacidades. Inicialmente, Orion estará disponible para seleccionar empresas asociadas para la integración, y Microsoft podría alojarlo en Azure, a pesar de la negación del lanzamiento del CEO Sam Altman.
📚 Guías de la Web

1º semana
- Comparación de los LLM de código abierto y propietarios en la IA médica. El artículo examina los modelos lingüísticos de gran tamaño de código abierto frente a los de código abierto en la IA médica y señala que, si bien los modelos de código abierto están mejorando, los de código abierto son mejores que los de código abierto, como GPT-4o y Claude Sonnet. Destaca la importancia del tamaño del modelo, los conocimientos especializados y los métodos de evaluación, e introduce MEDIC, un marco para evaluar los LLM en aplicaciones médicas del mundo real, subrayando la importancia del despliegue responsable de la IA en la atención sanitaria.
- ¿Qué son los agentes de IA y quién se beneficia de ellos? Los agentes de IA son un avance transformador en este campo, ya que permiten flujos de trabajo complejos y autónomos con una intervención humana mínima. Son un foco estratégico para las empresas tecnológicas y las startups, que hacen hincapié en la optimización de las entradas de datos, los modelos, las herramientas, las interfaces y la integración. Sin embargo, su aplicación práctica y su rendimiento constante aún no han sido probados en su mayor parte, y se realizan importantes inversiones ante la expectativa de avances inminentes.
- La era de la inteligencia. En «La era de la inteligencia», Sam Altman explora el impacto transformador de los avances de la IA, especialmente a través del aprendizaje profundo, en la mejora de las capacidades humanas y la infraestructura social. Prevé que los asistentes personales y los tutores virtuales de IA se conviertan en omnipresentes, impulsen la prosperidad global y resuelvan retos complejos.
- Entrenamiento distribuido de modelos de aprendizaje profundo – Parte ~ 1. El artículo aborda la necesidad de un entrenamiento distribuido en el aprendizaje profundo debido al creciente tamaño y complejidad de los modelos, destacando técnicas como AllReduce y GPipe para una comunicación y un paralelismo eficientes. También presenta Alpa, una herramienta para automatizar y optimizar el paralelismo interoperador e intraoperador en el aprendizaje profundo distribuido.
2º semana
- Leyes de escalado del tiempo de inferencia. El contenido destaca la creciente importancia de las leyes de escalado del tiempo de inferencia en la IA, como demuestra el modelo o1 de OpenAI. Este enfoque desplaza los recursos informáticos del preentrenamiento a la inferencia, mejorando las capacidades de razonamiento y procesamiento a largo plazo de la IA. Este avance podría mejorar las capacidades de la IA en el razonamiento complejo y la planificación estratégica.
- Tres ejemplos sutiles de fuga de datos. El artículo examina la filtración de datos en proyectos de ciencia de datos a través de casos anónimos, destacando su potencial para distorsionar el rendimiento de los modelos. Subraya la importancia de vigilar la manipulación de los datos para evitar resultados sesgados y señala la variabilidad del impacto de la filtración de datos en distintos contextos, así como su frecuente descuido en la industria a pesar de las metodologías estándar.
- Actuación de la IA Generativa o1. El artículo examina la evolución de la IA Generativa hacia el pensamiento del «Sistema 2», haciendo hincapié en la transición de respuestas rápidas y preentrenadas a capacidades de razonamiento avanzadas. Destaca la consolidación de capas fundacionales de IA, la aparición de capas de razonamiento y nuevas arquitecturas cognitivas, con el modelo Strawberry de OpenAI como ejemplo de estos avances en el razonamiento en tiempo de inferencia.
- Presentamos la Open FinLLM Leaderboard. La Open FinLLM Leaderboard evalúa los modelos de lenguaje financiero en tareas como la extracción de información y el análisis de opiniones a partir de datos reales. Emplea métricas como F1 Score y ROUGE para identificar los modelos que destacan en contextos financieros, mejorando la toma de decisiones y las capacidades predictivas en aplicaciones financieras.
- Bienvenido, Gradio 5. Gradio 5 ha sido lanzado, con importantes mejoras para la construcción de aplicaciones web de aprendizaje automático listas para producción, incluyendo tiempos de carga más rápidos, componentes de interfaz de usuario modernizados, capacidades en tiempo real y un AI Playground experimental. Mantiene una API sencilla centrada en la seguridad y la escalabilidad, con futuras actualizaciones previstas para aplicaciones multipágina, compatibilidad móvil y componentes multimedia adicionales.
3º semana
- Cómo crear un generador de imágenes en tiempo real con Flux y Together AI. El artículo describe la creación de una aplicación generadora de imágenes en tiempo real utilizando el punto final Turbo de Together AI para el modelo FLUX.1 [schnell] con Next.js, React y React Query. Abarca técnicas como la eliminación de rebotes de solicitudes de API y el uso de semillas para obtener resultados consistentes, y alienta a los desarrolladores a explorar el proyecto de código abierto.
- Máquinas de gracia amorosa. Dario Amodei, director ejecutivo de Anthropic, enfatiza los beneficios transformadores de la IA en su ensayo, abogando por un discurso equilibrado que reconozca tanto los riesgos como los impactos positivos. Imagina que la IA mejora la salud, la economía y la gobernanza, y destaca la importancia de gestionar los riesgos para lograr avances sociales significativos.
- Cinco nuevos estilos de pensamiento para trabajar con máquinas pensantes. El artículo describe un cambio de paradigma en la integración de la IA, haciendo hincapié en cinco nuevos estilos de pensamiento: esencias frente a secuencias, reglas frente a patrones, proceso frente a intuición, escultura frente a jardinería y explicaciones frente a predicciones. Esta transición de metodologías científicas a metodologías de ingeniería transforma fundamentalmente la resolución de problemas y la creatividad en la IA.
- Corrección de la acumulación de gradientes. El artículo aborda un problema de acumulación de gradientes en la clase Trainer de transformadores, donde los cálculos de pérdida son inconsistentes al alternar la acumulación de gradientes. La solución propuesta implica modificar la función de pérdida predeterminada y habilitar funciones de pérdida personalizadas. Se están realizando correcciones inmediatas y se buscan contribuciones para expandir el soporte del modelo.
4º semana
- OpenAI o1: 10 implicaciones para el futuro. El artículo destaca un cambio transformador en la IA con la serie o1 de OpenAI, que marca un paso de los modelos generativos a los de razonamiento. Esta evolución señala el declive de los chatbots y el auge de la IA capaz de razonar en tiempo real y resolver problemas complejos, lo que potencialmente crea una división entre los usuarios ricos y pobres en IA y desafía los paradigmas de IA existentes.
- El futuro de Internet en la era de la IA. El director ejecutivo de Cloudflare, Matthew Prince, destaca el cambio hacia el procesamiento local de datos en la infraestructura de Internet para reducir la latencia, en particular para la inferencia de IA en dispositivos de borde.
- Transformers.js v3: compatibilidad con WebGPU, nuevos modelos y tareas, y más. Transformers.js v3 ofrece actualizaciones importantes con compatibilidad con WebGPU para un procesamiento hasta 100 veces más rápido, nuevos formatos de cuantificación y compatibilidad con Node.js, Deno y Bun. Admite 120 arquitecturas y más de 1200 modelos preconvertidos en Hugging Face Hub, lo que permite cálculos avanzados de aprendizaje automático directamente en los navegadores.
- Evaluaciones de sabotaje para modelos de frontera. El equipo de Anthropic Alignment Science ha creado nuevas evaluaciones para evaluar los riesgos de sabotaje de los modelos de IA avanzados, incluido el sabotaje de decisiones humanas y el sabotaje de código. Las pruebas iniciales con modelos como Claude 3 Opus y Claude 3.5 Sonnet muestran capacidades de sabotaje de bajo nivel, lo que indica riesgos actuales mínimos, pero enfatiza la necesidad de una vigilancia constante y evaluaciones mejoradas a medida que avanza la tecnología de IA.
- Simplificación, estabilización y escalado de modelos de consistencia en tiempo continuo. El artículo presenta sCM, un nuevo enfoque para modelos de consistencia en tiempo continuo que mejora el entrenamiento al simplificar, estabilizar y escalar el proceso. sCM logra muestras de alta calidad en solo dos pasos, lo que ofrece un aumento de velocidad de ~50x sobre los modelos de difusión líderes, lo que permite la generación en tiempo real en varias aplicaciones de IA con potencial para mayores mejoras de velocidad y calidad.
🔬 Papers y repositorios de interés

1º semana
- Ley del eslabón más débil: Capacidades cruzadas de los grandes modelos lingüísticos. El artículo trata de las «capacidades cruzadas» de los grandes modelos lingüísticos (LLM) y presenta la prueba de referencia CrossEval, que evalúa los LLM utilizando 1.400 instrucciones anotadas por humanos. Se constata que el rendimiento de los LLM en tareas de capacidades cruzadas se ve limitado por su capacidad individual más débil, lo que pone de relieve la necesidad de introducir mejoras específicas para aumentar su eficacia en escenarios complejos.
- Revisión de datos de captación de imágenes a gran escala para el preentrenamiento de modelos de fundamentos multimodales. Este artículo explora la mejora de modelos básicos multimodales como CLIP y LLM mediante la integración de subtítulos sintéticos con AltTexts originales durante el preentrenamiento. Presenta un proceso de subtitulado escalable que crea subtítulos diversos y específicos para cada modelo. El estudio concluye que un enfoque híbrido que combina subtítulos sintéticos con AltTexts mejora el rendimiento y la alineación del modelo de forma más eficaz que el uso de subtítulos sintéticos por sí solos, lo que ofrece información valiosa para optimizar las estrategias de subtitulación en el entrenamiento de modelos multimodales.
- rasbt/LLMs-desde-cero: Implementación de un LLM tipo ChatGPT en PyTorch desde cero, paso a paso. Este repositorio de GitHub complementa el libro de Sebastian Raschka «Build a Large Language Model (From Scratch)», ofreciendo una guía detallada para desarrollar un LLM tipo GPT usando PyTorch. Incluye instrucciones paso a paso, diagramas y ejemplos de código que cubren la codificación, el preentrenamiento y el ajuste, junto con capítulos sobre diversos aspectos del desarrollo de LLM y recursos adicionales para la configuración y las técnicas avanzadas.
- La suma es todo lo que necesita para modelos lingüísticos energéticamente eficientes. El algoritmo L-Mul aproxima la multiplicación en coma flotante utilizando la suma de enteros, lo que reduce significativamente los recursos computacionales y los costes energéticos en las redes neuronales. Consigue una mayor precisión y hasta un 95% de ahorro de energía, sustituyendo eficazmente las operaciones de coma flotante en los transformadores con una pérdida de precisión mínima, ofreciendo una solución más eficiente desde el punto de vista energético para modelos de lenguaje de gran tamaño.
- MM1.5: Métodos, análisis y perspectivas del perfeccionamiento del LLM multimodal. MM1.5 es una serie avanzada de modelos de lenguaje multimodal de gran tamaño que mejora la comprensión de texto-imagen y el razonamiento multi-imagen, basándose en la arquitectura MM1. Emplea diversos conjuntos de datos, incluidos OCR y pies de foto sintéticos, y presenta modelos de 1B a 30B parámetros. MM1.5 también ofrece variantes especializadas para la comprensión de vídeo e interfaz de usuario móvil, demostrando un gran rendimiento en diferentes tamaños de modelo.
2º semana
- Transformador diferencial. El transformador diferencial introduce la atención diferencial sustrayendo un mapa de atención softmax de otro, mejorando los patrones de atención dispersos y reduciendo el ruido. Este enfoque supera a los transformadores tradicionales en el modelado de contextos largos, la recuperación de información clave, la mitigación de alucinaciones, el aprendizaje en contexto y la robustez frente a la permutación de órdenes, lo que lo convierte en una arquitectura prometedora para el avance de grandes modelos lingüísticos.
- Los LLM saben más de lo que muestran: Sobre la representación intrínseca de las alucinaciones de los LLM. El estudio muestra que los LLM codifican información detallada sobre la veracidad, lo que puede mejorar la detección de errores, aunque esta codificación varía según los conjuntos de datos, lo que pone en tela de juicio una métrica universal de la veracidad. Los LLM también pueden predecir tipos de error, lo que ayuda a desarrollar contramedidas. Cabe destacar que, en ocasiones, los LLM reconocen internamente las respuestas correctas pero emiten respuestas incorrectas, lo que indica una brecha entre el conocimiento interno y la expresión externa.
- Repositorio Openai/swarm. El repositorio OpenAI Swarm es un marco experimental para explorar la orquestación multiagente, centrándose en el traspaso de agentes y los patrones de rutina. Está diseñado con fines educativos, no de producción, y facilita una coordinación de agentes ligera y escalable utilizando Python y la API Chat Completions, sin retener el estado entre llamadas. El repositorio incluye ejemplos y una guía de configuración.
- Cuando un modelo lingüístico está optimizado para el razonamiento, ¿sigue mostrando rescoldos de autoregresión? El estudio evalúa el nuevo modelo de lenguaje de OpenAI, o1, que está optimizado para el razonamiento. Aunque o1 demuestra notables mejoras de rendimiento, sobre todo en tareas poco comunes, conserva rasgos autorregresivos y sensibilidad a la probabilidad de los ejemplos, similares a los de sus predecesores, lo que indica la persistencia de limitaciones a pesar de las capacidades de razonamiento mejoradas.
- OmniGenBench: Automatización de la evaluación comparativa in silico a gran escala de modelos genómicos básicos. OmniGenBench es un marco diseñado para automatizar la evaluación comparativa de los modelos genómicos básicos (GFM). Aborda la escasez de herramientas en los estudios genómicos mediante la integración de millones de secuencias genómicas para diversas tareas, estandarizando y democratizando así las aplicaciones de los GFM. GFMBench incluye interfaces fáciles de usar, tutoriales y una tabla de clasificación pública para hacer avanzar el modelado genómico.
3º semana
- Agentes web con modelos mundiales: aprendizaje y aprovechamiento de la dinámica del entorno en la navegación web. El artículo presenta un agente web aumentado con modelos mundiales (WMA) diseñado para abordar las limitaciones de los grandes modelos de lenguaje actuales en las tareas de navegación web, en particular su falta de «modelos mundiales» predictivos. Al simular los resultados de las acciones, el agente WMA mejora la toma de decisiones. Se propone un nuevo método de entrenamiento que utiliza la abstracción de la observación centrada en la transición, y los experimentos muestran que estos modelos mundiales mejoran la selección de políticas y la eficiencia en comparación con los agentes existentes basados en búsquedas en árboles.
- Movie Gen: un elenco de modelos básicos de medios. Movie Gen de Meta presenta modelos básicos avanzados para generar videos HD de 1080p de alta calidad con audio sincronizado. Estos modelos admiten la edición basada en instrucciones, la creación de videos personalizados, la síntesis de texto a video y la generación de video a audio, y el modelo más grande presenta 30 mil millones de parámetros.
- VikParuchuri/tabled: Detecta y extrae tablas en formato Markdown y CSV. Tabled es una biblioteca que utiliza la herramienta surya para detectar y extraer tablas de documentos como archivos PDF, imágenes y Word de forma precisa y rápida, convirtiéndolos en formatos Markdown, CSV o HTML.
- Meta-DT: Meta-RL sin conexión como modelado de secuencias condicionales con desenredo de modelos del mundo. Meta Decision Transformer (Meta-DT) es un enfoque innovador en el aprendizaje de refuerzo meta sin conexión que integra la arquitectura del transformador con el desenredo de modelos del mundo para una mejor representación de tareas. Mejora la generalización mediante un modelo del mundo consciente del contexto y avisos basados en trayectorias. Probado en los puntos de referencia MuJoCo y Meta-World, Meta-DT supera los modelos existentes en escenarios de pocos disparos y cero disparos sin necesidad de demostraciones de expertos o conocimiento del dominio.
4º semana
- Guías de inicio rápido de Anthropic. El repositorio de guías de inicio rápido de Anthropic ofrece a los desarrolladores proyectos y guías para usar de manera eficiente la API de Anthropic, con aplicaciones como un agente de atención al cliente, un analista de datos financieros y una demostración de uso de computadoras, todo aprovechando las capacidades de IA de Claude.
- ¿La edición de conocimiento realmente puede corregir las alucinaciones? Los modelos de lenguaje grandes con frecuencia producen alucinaciones o contenido no factual. La edición de conocimiento tiene como objetivo corregir estos errores sin un reentrenamiento completo, pero su efectividad es incierta debido a los conjuntos de datos de evaluación inadecuados. El estudio presenta HalluEditBench, un punto de referencia con un conjunto de datos que abarca 9 dominios para evaluar los métodos de edición de conocimiento en cuanto a eficacia, generalización, portabilidad, localidad y solidez, y brinda información sobre sus capacidades y limitaciones.
- OmniParser para agentes de interfaz gráfica de usuario basados en visión pura. OmniParser es un método que mejora los agentes de interfaz gráfica de usuario basados en visión, como GPT-4V, al mejorar su capacidad para analizar pantallas. Se centra en identificar iconos interactivos y comprender la semántica de los elementos de la interfaz de usuario. Al utilizar conjuntos de datos seleccionados para entrenar modelos de detección y subtítulos, OmniParser mejora significativamente el rendimiento de GPT-4V en pruebas comparativas como ScreenSpot, Mind2Web y AITW, superando las líneas de base que necesitan información adicional más allá de las capturas de pantalla.
- Agent.exe: la forma más sencilla de dejar que las nuevas capacidades de uso de la computadora de Claude se apoderen de tu computadora. Agent.exe es una aplicación liviana que permite que Claude 3.5 Sonnet controle directamente la computadora de un usuario. Diseñado como una alternativa más simple al proyecto predeterminado de Claude, ofrece una configuración sencilla y un posible modo «semiautomático».
- Mini-Omni2: Hacia GPT-4o de código abierto con capacidades de visión, voz y dúplex. Mini-Omni2 es un modelo de código abierto diseñado para emular la capacidad de GPT-4o de procesar entradas visuales, auditivas y textuales. Se distingue por integrar codificadores previamente entrenados y emplear un novedoso proceso de entrenamiento de tres etapas para un manejo eficiente de datos multimodales.