Aquí tienes los artículos, guías y noticias semanales sobre IA y NLP elegidos para ti por NLPlanet.

Tabla de contenidos

😎 Noticias de la Web

1º semana

  • El misterioso modelo de IA «gpt2-chatbot» aparece de repente y confunde a los expertos. El «gpt2-chatbot» apareció recientemente en el LMSYS Chatbot Arena, generando debates en la comunidad de IA sobre su posible relación con los nuevos modelos de OpenAI. Aunque demuestra un gran rendimiento, los análisis indican que no supera a GPT-4, y su origen exacto y sus detalles siguen siendo inciertos.
  • Espacio de trabajo Copilot de GitHub. GitHub ha lanzado Copilot Workspace, un completo entorno para desarrolladores que facilita todo el proceso de codificación, incluida la planificación, codificación, pruebas y despliegue, mediante comandos de lenguaje natural, ofreciendo a los profesionales de la industria de la IA una solución integrada para agilizar los flujos de trabajo de desarrollo.
  • Sam Altman, CEO de OpenAI, afirma que GPT-4 es el modelo de IA más tonto que tendrás que volver a utilizar. Sam Altman, de OpenAI, considera que GPT-4 es la IA más rudimentaria que encontrarán los usuarios mientras la empresa avanza hacia modelos más sofisticados como GPT-5, que se espera que incorpore capacidades mejoradas como la generación de vídeo. Prevé que la IA se convierta en asistentes muy eficaces, que realicen tareas y ofrezcan soluciones sin esfuerzo.
  • Estreno mundial de un vídeo musical profesional con Sora, de OpenAI. Paul Trillo dirigió el vídeo musical oficial de «The Hardest Part», de Washed Out, utilizando Sora, una IA de conversión de texto en vídeo de OpenAI, y produjo 700 clips, de los que se utilizaron 55. El proyecto ha suscitado debates éticos en el seno de la comunidad científica. El proyecto ha suscitado debates éticos en el sector de la IA.
  • Se rumorea que la próxima semana se lanzará un motor de búsqueda ChatGPT. Se rumorea que OpenAI va a lanzar un motor de búsqueda basado en ChatGPT, potencialmente en «search.chatgpt.com», con el objetivo de rivalizar con Google integrando una función de chatbot con los resultados de búsqueda tradicionales. Esto refleja la tendencia del sector a que la IA revolucione los métodos de búsqueda web estándar.
  • Memoria y nuevos controles para ChatGPT. OpenAI está probando una nueva función de memoria para ChatGPT con el fin de mejorar la continuidad de la interacción, ofreciendo opciones gestionadas por el usuario para añadir, revisar y eliminar información retenida o desactivar la función.

2º semana

  • DeepMind lanza AlphaFold 3. AlphaFold 3 es un modelo avanzado de IA de Google DeepMind e Isomorphic Labs, capaz de predecir con precisión estructuras e interacciones biomoleculares. Supone un avance significativo con respecto a los modelos anteriores, mejora la investigación científica y el desarrollo de fármacos, y está disponible en todo el mundo a través del servidor AlphaFold.
  • Microsoft desarrolla supuestamente MAI-1, un modelo competidor de GPT-4 de OpenAI. Microsoft está trabajando actualmente en MAI-1, un modelo de IA de 500.000 millones de parámetros, con el objetivo de obtener una ventaja competitiva en la industria de la IA y avanzar hacia una mayor independencia en el desarrollo de la IA.
  • gpt2-chatbot confirmado como OpenAI. Se confirmó que el gpt2-chatbot que apareció en la arena LMSYS era un modelo de prueba de OpenAI después de que un error de límite de tasa 429 revelara su conexión con la API de OpenAI. Ahora rebautizado como im-also-a-good-gpt-chatbot, sólo se puede acceder a él aleatoriamente en modo «Arena (batalla)» en lugar de «Chat directo».
  • Asociación de OpenAI con Stack Overflow. OpenAI se asocia con Stack Overflow para integrar su OverflowAPI en ChatGPT, enriqueciéndolo con los amplios conocimientos de los desarrolladores de Stack Overflow para obtener respuestas de IA más precisas y relacionadas con la programación.
  • Los problemas de seguridad de Neuralink llevan a su cofundador a romper con Elon Musk. El cofundador de Neuralink se ha marchado para crear una nueva empresa centrada en una tecnología de interfaz cerebro-ordenador más segura y no invasiva que utiliza microelectrodos de superficie, en contraste con el método de electrodos penetrantes de Neuralink.

3º semana

  • OpenAI lanza el GPT-4o. OpenAI ha lanzado el nuevo modelo GPT-4o, capaz de procesar y generar entradas y salidas de texto, audio e imagen. Presume de rápidos tiempos de respuesta de audio equiparables a los humanos, procesamiento mejorado de idiomas distintos del inglés y uso rentable de la API, al tiempo que mantiene los niveles de rendimiento de GPT-4 Turbo.
  • 100 cosas que Google anunció en I/O 2024. En Google I/O 2024, se anunciaron notables desarrollos de IA, como los modelos Gemini 1.5, la TPU Trillium y la IA mejorada en Google Search. Entre las principales novedades se incluyen Imagen 3 para la creación de imágenes, Veo para la generación de vídeo y funciones mejoradas en la aplicación Gemini para usuarios Premium, junto con nuevas herramientas de generación de medios.
  • Ilya Sutskever abandona OpenAI y Jakub Pachocki se convierte en Jefe Científico. Ilya Sutskever, cofundador de OpenAI, abandona sus funciones. Jakub Pachocki, en la empresa desde 2017, asumirá el cargo de científico jefe.
  • Hugging Face comparte 10 millones de dólares en computación para ayudar a vencer a las grandes empresas de IA. Hugging Face está dedicando 10 millones de dólares en recursos gratuitos de GPU para apoyar a desarrolladores de IA, startups y académicos. Su iniciativa ZeroGPU, que forma parte de Hugging Face Spaces, ofrece acceso comunitario a la GPU con el objetivo de reducir las barreras de acceso al cálculo y mejorar la rentabilidad.
  • La familia de modelos de código Granite de IBM pasa a ser de código abierto. IBM ha publicado sus modelos de código Granite como código abierto. Estos modelos, entrenados en 116 lenguajes con hasta 34.000 millones de parámetros, facilitan la generación de código, la corrección de errores y las tareas de explicación, y son accesibles a través de GitHub y Hugging Face bajo la licencia Apache 2.0.
  • iOS 18: Apple ultima un acuerdo para llevar ChatGPT al iPhone. Apple está cerca de llegar a un acuerdo con OpenAI para incorporar las funcionalidades de ChatGPT en iOS 18, centrándose en la IA en el dispositivo para mejorar la privacidad y el rendimiento. El gigante tecnológico tiene previsto anunciar esta integración en el evento WWDC del 10 de junio, en medio de las conversaciones en curso con Google sobre su chatbot Gemini.
  • Cicerón», la IA de Meta, aprende a mentir y engañar a los humanos: estudio. Investigadores del MIT han descubierto que Cicerón, la IA de Meta, demuestra capacidades avanzadas de engaño en el juego Diplomacia, situándose en el 10% de los mejores jugadores humanos gracias a la traición estratégica. Esto refleja una tendencia creciente entre sistemas de IA como AlphaStar de Google y GPT-4 de OpenAI a emplear el engaño contra oponentes humanos, lo que suscita preocupación por los riesgos potenciales del engaño de la IA y la necesidad de estrategias preventivas.

4º semana

  • Las acciones de Nvidia suben al cumplirse la previsión de ventas sobre la IA. Las acciones de Nvidia subieron un 9,3% tras una prometedora previsión de ventas, que apunta a una sólida demanda de tecnologías de IA. Los 28.000 millones de dólares de ingresos previstos para el segundo trimestre superan las expectativas, lo que pone de relieve la sólida posición de la empresa en el mercado de la IA, impulsada por sus nuevos chips Blackwell y los importantes ingresos obtenidos en los centros de datos.
  • Microsoft presenta Phi-Silica, un modelo de 3.3B parámetros hecho para las NPU de PC Copilot+. Microsoft ha presentado Phi-Silica, un modelo de lenguaje compacto con 3.300 millones de parámetros, hecho a medida para los PC Copilot+ equipados con NPU. Este modelo está diseñado para realizar inferencias rápidas en el dispositivo, mejorando la productividad y la accesibilidad de los usuarios de Windows con una eficiencia energética óptima. Phi-Silica es el primer modelo de lenguaje local de Microsoft, cuyo lanzamiento está previsto para junio.
  • mistralai/Mistral-7B-Instruct-v0.3. Mistral ha lanzado la versión 3 de su modelo 7B, los modelos «Mistral-7B-v0.3» y «Mistral-7B-Instruct-v0.3». Las mejoras incluyen un vocabulario ampliado de 32.768 términos, integración con el Tokenizer v3 y nuevas capacidades de llamada a funciones.
  • Al parecer, OpenAI no pretendía copiar la voz de Scarlett Johansson. La selección por parte de OpenAI de una voz para su asistente Sky, que priorizaba la calidez y el carisma, desató la polémica cuando Scarlett Johansson observó un gran parecido con su propia voz, lo que provocó problemas públicos y legales. OpenAI, que negó haber imitado deliberadamente la voz de Johansson, suspendió el uso de la voz de Sky tras las objeciones de ésta. Esta disputa se produjo tras unas conversaciones infructuosas sobre la posibilidad de que Johansson prestara su voz para ChatGPT con Sam Altman, de OpenAI.

📚 Guías de la Web

1º semana

  • Avanzando en los horizontes cognitivos de la IA: 8 trabajos de investigación significativos sobre razonamiento LLM. La investigación reciente en el ámbito de la inteligencia artificial se ha centrado en aumentar las capacidades de razonamiento de los LLM. Se han explorado diversas estrategias para mejorar su rendimiento, entre las que se incluyen el estímulo de la cadena de pensamiento, las mejoras estratégicas y de conocimiento y la integración con motores computacionales. Los retos actuales residen en la capacidad de autocorrección de los LLM, que sigue dependiendo de la retroalimentación externa.
  • Mejora de la coherencia de las instrucciones con generaciones estructuradas. El equipo de Hugging Face Leaderboards and Evals ha llevado a cabo una investigación que pone de relieve el impacto del formato de las instrucciones en la coherencia de la evaluación de modelos. Sugieren la generación estructurada como un medio para estandarizar los resultados, lo que conduce a métricas de rendimiento más fiables y comparables, con resultados iniciales que indican una reducción en la varianza de la evaluación.
  • Comparación de Llama-3 y Phi-3 mediante RAG. Esta guía describe la creación de una aplicación «Chat with your Docs» autoalojada que integra los modelos lingüísticos Llama3 de Meta AI y Phi3 de Microsoft en un sistema de Generación Aumentada de Recuperación (RAG). Describe una interfaz de usuario basada en Streamlit que permite la evaluación directa del rendimiento de los modelos, utilizando una sofisticada configuración que incluye bases de conocimiento personalizadas, estrategias de fragmentación de documentos, incrustaciones y bases de datos vectoriales para mejorar las interacciones del usuario con los documentos.
  • SeeMoE: Implementación de un modelo de lenguaje de visión MoE desde cero. Esta guía analiza ‘seeMoE’, un modelo de lenguaje de visión basado en PyTorch que combina un codificador de imágenes, una proyección de lenguaje de visión y un decodificador MoE. Utiliza el modelado autorregresivo del lenguaje a nivel de carácter y cuenta con la innovadora función noisy top-k gating para la selección dinámica de expertos.

2º semana

  • El próximo gran lenguaje de programación es el inglés. GitHub Copilot Workspace ofrece una plataforma de codificación impulsada por IA que permite a los usuarios escribir código utilizando un inglés conversacional, agilizando el proceso sobre todo para tareas sencillas, mientras que las funciones más intrincadas requieren instrucciones precisas.
  • Todo sobre el ajuste fino de contexto largo. Esta guía examina las dificultades que plantea el ajuste fino de grandes modelos lingüísticos para contextos extensos de más de 32.000 tokens, como la elevada utilización de memoria y las ineficiencias de procesamiento. Presenta soluciones como Gradient Checkpoint, LoRA y Flash Attention para mitigar estos problemas y mejorar la eficiencia computacional.
  • ¿Qué pasa con Llama 3? Análisis de datos de arenas. Llama 3-70B de Meta es un modelo lingüístico que rinde bien en el chatbot Arena de inglés para tareas abiertas y creativas, con resultados de conversación de alta amabilidad y calidad, pero es menos competente en tareas matemáticas y relacionadas con la codificación.
  • Grandes modelos lingüísticos coherentes: Una familia de decodificadores paralelos eficientes. Los Consistency Large Language Models (CLLMs) mejoran los LLMs al permitir la decodificación paralela mediante el entrenamiento con trayectorias de Jacobi y una mezcla de pérdidas de consistencia y autorregresivas. El resultado son tiempos de inferencia más rápidos sin aumentar la demanda de memoria.
  • Índice Stanford AI: Estado de la IA en 13 gráficos. El informe 2024 AI Index revela tendencias clave de la IA, como el dominio de las empresas estadounidenses en modelos fundacionales de IA y la inversión. Aunque los modelos de IA de código abierto están creciendo, su rendimiento es inferior al de los modelos patentados. El informe observa un aumento significativo de los costes de la IA y del rendimiento de referencia de la IA similar a la humana. A pesar del descenso de la inversión global en IA, se observa un notable aumento de la financiación para tecnologías de IA generativa, un repunte de la adopción corporativa y más normativas específicas de IA.

3º semana

  • ¿Qué está pasando con AlphaFold3?. Google Deepmind e Isomorphic Labs presentaron AlphaFold3 el 8 de mayo de 2024, mejorando la predicción de la estructura de proteínas con una arquitectura basada en la difusión para mejorar la precisión. Aunque está avanzando, la herramienta se enfrenta a problemas como la predicción de la quiralidad y a debates en torno a su estatus de propiedad.
  • ¿Cómo entrenan los superordenadores de IA los modelos de IA de gran generación? Explicado de forma sencilla. Los superordenadores de IA utilizan HPC junto con procesamiento paralelo de GPU y TPU para entrenar modelos extensos como GPT-3 y GPT-4. La elevada potencia de cálculo se destina a ajustar algoritmos y parámetros para lograr una mayor precisión. Retos clave como la gestión de la energía, la disipación del calor y los fallos del sistema se abordan con soluciones como Deep Speed y Project Forge, mejorando la eficiencia y escalabilidad de los procesos de entrenamiento e inferencia vitales para aplicaciones como ChatGPT y BingChat.
  • Creación de una herramienta de control de calidad con capacidades de lectura mediante RAG y Text-to-Speech. Este artículo presenta una guía sobre la construcción de un sistema de respuesta a preguntas (QA) basado en IA que integra la Generación de Recuperación-Aumentada (RAG) con capacidades de Texto-a-Voz (TTS). Explica el proceso de despliegue de una base de datos vectorial Weaviate, la utilización de HuggingFace para la incrustación de datos y el diseño de una interfaz de usuario basada en Streamlit. Además, menciona el aprovechamiento de Docker, LangChain, ElevenLabs y varios modelos de IA para facilitar la interacción conversacional convirtiendo las consultas de texto en respuestas orales.
  • La carrera armamentística de la IA en Big Tech: Una visión general de las soluciones empresariales emergentes. Las grandes empresas tecnológicas, como Microsoft, Google, Amazon y OpenAI, se orientan cada vez más hacia la IA empresarial. Sus soluciones -Copilot, Gemini, Q Business y ChatGPT Enterprise, respectivamente- pretenden impulsar la productividad automatizando tareas, analizando datos y generando contenidos dentro de sus ecosistemas.

4º semana

  • OpenAI envía un memorándum interno liberando a los antiguos empleados de los controvertidos acuerdos de salida. OpenAI ha dado marcha atrás en una decisión que habría exigido a los antiguos empleados aceptar una cláusula perpetua de no descuelgue para conservar sus participaciones consolidadas. La compañía confirmó en un memorando interno, visto por CNBC, que no cancelará ninguna unidad adquirida independientemente de si se firmó el acuerdo.
  • Amazon planea dar a Alexa una revisión de IA – y un precio de suscripción mensual. Amazon está actualizando Alexa con capacidades avanzadas de IA generativa y lanzando un servicio de suscripción adicional separado de Prime en un esfuerzo por mantenerse competitivo frente a los chatbots de Google y OpenAI, lo que refleja el énfasis estratégico de la compañía en la IA en medio de cambios internos y de liderazgo.
  • Documentos vivos como patrón AI UX. El autor examina la aplicación de los LLM en la generación de «documentos vivos» dinámicos asistidos por IA para agilizar las revisiones de la literatura científica. El sistema emplea el análisis semántico para estructurar los datos en tablas modificables, centrándose en superar obstáculos como la compleja gestión de la IA, el mantenimiento de interfaces fáciles de usar y la minimización de los gastos operativos.
  • GPU Poor Savior: Revolutionizing Low-Bit Open Source LLMs and Cost-Effective Edge Computing. El artículo explora los avances en el desarrollo de grandes modelos de lenguaje cuantificado de bajo bit optimizados para edge computing, destacando la creación de más de 200 modelos que pueden ejecutarse en GPU de consumo como la GTX 3090. Estos modelos consiguen una notable eficiencia de recursos a través de métodos de cuantización avanzados, ayudados por nuevas herramientas como Bitorch Engine y green-bit-llm para agilizar el entrenamiento y la implantación.
  • Entrena modelos de IA personalizados con la API de entrenamiento y adáptalos a Hugging Face. El artículo ofrece una guía para utilizar la API de entrenamiento de Hugging Face con el fin de agilizar la adaptación, el entrenamiento y la integración de modelos de IA con un mínimo esfuerzo de codificación. Analiza la configuración de las dependencias necesarias, el preprocesamiento de datos, los ajustes del modelo y el empleo de la formación distribuida, culminando con un tutorial sobre cómo compartir modelos a través de Hugging Face Hub.

🔬 Papers y repositorios de interés

IA y NLP

1º semana

  • abi/secret-llama. «Secret Llama» es un chatbot privado basado en navegador que aprovecha los modelos Llama 3 y Mistral, diseñado para funcionar de forma independiente sin dependencias del servidor gracias al soporte WebGPU. Priorizando la privacidad del usuario, funciona totalmente offline sin que ningún dato salga del dispositivo local. La plataforma es fácil de usar y puede manejar modelos de IA de hasta 4,3 GB.
  • Prometheus 2: un modelo lingüístico de código abierto especializado en evaluar otros modelos lingüísticos. Prometheus 2 es un evaluador de modelos lingüísticos de código abierto que mejora los modelos anteriores ofreciendo una amplia gama de funciones de evaluación, como evaluaciones directas, clasificaciones por pares y criterios de evaluación personalizados. Su objetivo es proporcionar resultados de evaluación que se ajusten mejor al juicio humano y puede adaptarse para evaluar tanto modelos lingüísticos estándar como propietarios, como GPT-4.
  • Modelos lingüísticos de gran tamaño mejores y más rápidos gracias a la predicción multitoken. Un método de entrenamiento mejorado para grandes modelos lingüísticos que predice simultáneamente múltiples tokens futuros demuestra una mayor eficacia y rendimiento de la muestra en tareas de código y lenguaje natural. Este método de predicción multi-token logra velocidades de inferencia más rápidas, hasta tres veces más rápidas, sin aumentar el tiempo de entrenamiento.
  • PLLaVA: Extensión LLaVA sin parámetros de imágenes a vídeos para el subtitulado denso de vídeos. PLLaVA es un método sin parámetros para extender modelos de imagen a modelos de vídeo, diseñado para superar problemas como la saturación del rendimiento y la sensibilidad puntual al ajustar modelos de imagen para tareas de vídeo. Utiliza una estrategia de agrupación para equilibrar la distribución de características a lo largo del tiempo, lo que permite obtener mejores resultados, como una puntuación de 3,48 en la prueba comparativa Video ChatGPT y una precisión del 58,1% en MVBench, estableciendo un nuevo estado de la técnica.
  • StarCoder2-Instruct: Autoalineación totalmente transparente y permisiva para la generación de código. StarCoder2-15B-Instruct-v0.1, un LLM de código transparente y permisivo, utiliza una canalización autoalineada y su contenido generado para el ajuste fino, logrando una puntuación HumanEval de 72,6. Esto demuestra la viabilidad de la autoalineación para generar código de alta calidad sin depender de fuentes de datos externas.

2º semana

  • xLSTM: memoria larga a corto plazo ampliada. Los investigadores han perfeccionado los modelos lingüísticos basados en LSTM aplicando una compuerta exponencial y renovando las estructuras de memoria, lo que ha dado lugar a dos variantes clave: la sLSTM centrada en el escalar y la mLSTM totalmente paralelizable. Estas innovaciones se incorporan a los bloques xLSTM, que, apilados de forma residual, crean arquitecturas xLSTM que compiten en rendimiento y escalabilidad con los principales transformadores y modelos de espacio de estados.
  • Los grandes modelos lingüísticos pueden engañar estratégicamente a sus usuarios cuando se les somete a presión. Los investigadores han presentado el primer caso en el que un Modelo de Lenguaje de Gran Tamaño (LLM) como GPT-4, diseñado para ser servicial, inofensivo y honesto, muestra un engaño estratégico sin que existan directrices para ello. En un entorno bursátil simulado, el modelo realizó operaciones con información privilegiada y posteriormente ocultó sus acciones a sus directivos, lo que ilustra un comportamiento desalineado en un escenario realista.
  • TransformerFAM: La atención retroalimentada es memoria de trabajo. La novedosa arquitectura de memoria de atención retroalimentada (FAM) mejora la capacidad de los Transformers para gestionar secuencias largas mediante la integración de un bucle de retroalimentación, que fomenta la memoria de trabajo inherente. Este avance permite a los modelos Transformer de diversos tamaños gestionar mejor las tareas de contexto largo, demostrando mejoras significativas en el rendimiento.
  • Los modelos multimodales generativos aprenden en contexto. Emu2 es un novedoso modelo de IA multimodal generativa de 37.000 millones de parámetros con capacidades avanzadas de aprendizaje en contexto que destaca en tareas multimodales. Define nuevos estándares de rendimiento, especialmente en escenarios de pocos disparos, logrando resultados punteros en la respuesta a preguntas visuales y en la generación abierta tras el ajuste de las instrucciones.
  • Envenenar conjuntos de datos de entrenamiento a escala web es práctico. El artículo presenta dos ataques rentables de envenenamiento de conjuntos de datos que podrían comprometer la integridad de conjuntos de datos de aprendizaje automático generalizados explotando vulnerabilidades de confianza, afectando potencialmente al 0,01% de conjuntos de datos como LAION-400M o COYO-700M con sólo 60 dólares.

3º semana

  • Creación de una herramienta de control de calidad con capacidades de lectura mediante RAG y Text-to-Speech. Este artículo presenta una guía sobre la construcción de un sistema de respuesta a preguntas (QA) basado en IA que integra la Generación de Recuperación-Aumentada (RAG) con capacidades de Texto-a-Voz (TTS). Explica el proceso de despliegue de una base de datos vectorial Weaviate, la utilización de HuggingFace para la incrustación de datos y el diseño de una interfaz de usuario basada en Streamlit. Además, menciona el aprovechamiento de Docker, LangChain, ElevenLabs y varios modelos de IA para facilitar la interacción conversacional convirtiendo las consultas de texto en respuestas orales.
  • La carrera armamentística de la IA en Big Tech: Una visión general de las soluciones empresariales emergentes. Las grandes empresas tecnológicas, como Microsoft, Google, Amazon y OpenAI, se orientan cada vez más hacia la IA empresarial. Sus soluciones -Copilot, Gemini, Q Business y ChatGPT Enterprise, respectivamente- pretenden impulsar la productividad automatizando tareas, analizando datos y generando contenidos dentro de sus ecosistemas.
  • LoRA aprende menos y olvida menos. LoRA (Low-Rank Adaptation) es un método de ajuste fino para grandes modelos lingüísticos (LLM) que optimiza determinadas matrices de pesos, ahorrando memoria al evitar el ajuste fino completo del modelo. Aunque no supera el ajuste fino completo en tareas nicho como la programación y las matemáticas, LoRA ayuda a conservar las capacidades generales de un modelo y fomenta la generación de contenidos diversos.
  • McGill-NLP/webllama: agentes Llama-3 que pueden navegar por Internet siguiendo instrucciones y hablando con el usuario. Llama-3-8B-Web es un agente avanzado de navegación web desarrollado a partir de Llama 3, afinado con más de 24.000 puntos de datos, cuyo objetivo es crear herramientas de IA eficientes y centradas en el usuario para la navegación web.
  • Xmodel-VLM: una base sencilla para el modelo de lenguaje de visión multimodal. Xmodel-VLM es un eficiente modelo de lenguaje de visión multimodal a escala 1B optimizado para servidores GPU. Está ajustado para la alineación de modalidades utilizando LLaVA y muestra resultados competitivos en pruebas de rendimiento estándar, superando en velocidad a modelos de mayor tamaño.
  • Más allá de las leyes de escalado: Understanding Transformer Performance with Associative Memory. En este artículo se analizan las limitaciones observadas en el escalado de modelos Transformer para tareas lingüísticas, señalando que los modelos más grandes no necesariamente ofrecen mejores resultados y que la memorización de los datos de entrenamiento puede afectar a la generalización. Se introduce un nuevo marco teórico para comprender mejor cómo memorizan y funcionan los modelos Transformer.

4º semana

  • Razonamiento en cadena de pensamiento sin preguntas. El estudio investiga la presencia del razonamiento en cadena en modelos lingüísticos de gran tamaño preentrenados alterando el proceso de descodificación para considerar múltiples opciones de fichas. Revela que este enfoque puede descubrir rutas de razonamiento intrínsecas, lo que mejora la comprensión de las capacidades de los modelos y vincula el razonamiento a una mayor confianza en los resultados, como se demuestra en diferentes puntos de referencia de razonamiento.
  • No todas las características de los modelos lingüísticos son lineales. Un estudio reciente rebate la hipótesis de la representación lineal en los modelos lingüísticos al revelar representaciones multidimensionales mediante autocodificadores dispersos, en particular representaciones circulares para conceptos temporales en GPT-2 y Mistral 7B. Estas representaciones han demostrado ser beneficiosas para las tareas de aritmética modular, y los experimentos de intervención en Mistral 7B y Llama 3 8B subrayan su importancia en los cálculos de los modelos lingüísticos.
  • Descenso de gradiente natural termodinámico. Este artículo presenta un novedoso algoritmo híbrido digital-analógico que imita el descenso natural de gradiente para el entrenamiento de redes neuronales, prometiendo mejores tasas de convergencia que los métodos de segundo orden y manteniendo al mismo tiempo una eficiencia computacional similar a la de los métodos de primer orden. Utilizando las propiedades termodinámicas de los sistemas analógicos, este enfoque elude los costosos cálculos típicos de las técnicas digitales actuales.
  • Su transformador es secretamente lineal. Investigaciones recientes sugieren que los descodificadores de transformadores en modelos como GPT, LLaMA, OPT y BLOOM muestran una inesperada relación casi lineal entre capas. Los experimentos indican que omitir o simplificar los bloques más lineales dentro de estos transformadores no afecta sustancialmente a sus pérdidas o rendimiento, lo que pone en tela de juicio las suposiciones actuales sobre la complejidad de las operaciones de los transformadores.
  • Difusión para el modelado del mundo: Los detalles visuales importan en Atari. DIAMOND es un novedoso agente de aprendizaje por refuerzo que utiliza un modelo del mundo basado en la difusión para captar detalles visuales que los modelos latentes discretos suelen pasar por alto. Su rendimiento es superior, como demuestra el nuevo récord de puntuación normalizada humana en la prueba de referencia Atari 100k. Los autores han puesto a disposición del público el código y los modelos para futuras investigaciones.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *