En este post tienes los artículos, guías y noticias mensuales sobre NLP e IA elegidos para ti por NLPlanet.
Tabla de contenidos
😎 Noticias de la Web
1º semana de febrero
- Presentación de Code Llama, un gran modelo lingüístico de última generación para la codificación. Meta ha lanzado Code Llama 70B, un modelo de IA para codificación comparable a GPT4, en tres variantes: el modelo base, una versión específica para Python y una versión “Instruct” para interpretar órdenes en lenguaje natural. Todas las ediciones son gratuitas tanto para investigación como para aplicaciones comerciales.
- Gemini Pro de Google supera a GPT-4. Gemini Pro de Google se sitúa justo por debajo de GPT4 Turbo y por delante de GPT4 en la clasificación de ChatBot Arena, una plataforma que utiliza un sistema de clasificación Elo basado en más de 200.000 votos humanos para evaluar el rendimiento de los LLM. Las especulaciones sobre la próxima Llama 3 de Meta y un posible lanzamiento en el segundo trimestre de la GPT-5 de OpenAI están despertando expectación en el sector de la IA.
- Mistral confirma que el nuevo modelo de IA de código abierto se acerca al rendimiento GPT-4. Mistral ha confirmado recientemente que el Large Language Model “miqu-1-70b”, publicado en HuggingFace y con un rendimiento cercano al de GPT-4, es una versión cuantificada de su tecnología que se ha filtrado.
- Sam Altman dice que la GPT-5 será “aceptable”. El Consejero Delegado de OpenAI, Sam Altman, adopta un tono cauto cuando habla de IA, y recientemente calificó en Davos la esperada GPT-5 de simplemente “aceptable”. Este enfoque equilibrado sugiere un cambio estratégico hacia una comunicación moderada.
- Hugging Face lanza un asistente de IA de código abierto para competir con los GPT personalizados de OpenAI. Hugging Face ha introducido asistentes de chat personalizables y gratuitos en su plataforma Hugging Chat, presentando una alternativa de código abierto a los servicios GPT de OpenAI. Esta iniciativa ofrece a desarrolladores y entusiastas de la IA acceso gratuito a varios modelos lingüísticos de gran tamaño, como Mixtral de Mistral y Llama 2 de Meta.
2º semana de febrero
- Bard se convierte en Gemini: Prueba Ultra 1.0 y una nueva aplicación móvil hoy mismo. Google ha lanzado Gemini Advanced, una nueva función de asistente digital potenciado por IA dentro de Google One AI Premium, con un precio de 19,99€ al mes tras una prueba gratuita de dos meses. Gemini está diseñado para mejorar la productividad de los usuarios de Android e iOS mediante la integración con las tareas diarias, ofreciendo asistencia a través de una app, el Asistente de Google o comandos de voz.
- Sam Altman, CEO de OpenAI, persigue billones de dólares como inversiones para trastocar las industrias de IA y chips. Sam Altman, CEO de OpenAI, está buscando activamente asegurar entre 5 y 7 billones de dólares en financiación para expandir la industria de semiconductores para apoyar el desarrollo de la IA. El objetivo de esta inversión es hacer frente a la escasez de GPU y fomentar el crecimiento tanto de la IA como de la inteligencia artificial general. Altman está en contacto con diversas partes interesadas, como funcionarios de los EAU y EE.UU., inversores y fabricantes de chips, en su empeño por construir una sólida infraestructura mundial de fabricación de chips que satisfaga las crecientes demandas y requisitos energéticos de las instalaciones de IA.
- Un estudio revela que los ataques de “intercambio de caras” mediante deepfakes aumentaron un 704% el año pasado. Los avances de la tecnología deepfake han dado lugar a un aumento significativo de los ataques de “intercambio de caras”, con un incremento del 704 % en la segunda mitad del año, impulsado por herramientas GenAI accesibles como SwapFace y DeepFaceLive. Estas herramientas aumentan la capacidad de producir falsificaciones profundas indetectables, facilitando el anonimato y contribuyendo a un aumento de los delitos basados en falsificaciones profundas, incluida una notable estafa financiera en Hong Kong.
- Etiquetado de imágenes generadas por IA en Facebook, Instagram y Threads. Meta está implementando etiquetas “Imaginado con IA” para el contenido generado por IA en Facebook e Instagram para una mayor transparencia. Mientras que el etiquetado de imágenes de IA está disponible, Meta está desarrollando la detección para el contenido de audio/vídeo y requiere la divulgación del usuario hasta que se establezcan las normas. Además, se están tomando medidas para garantizar que estas etiquetas de transparencia no puedan eliminarse.
- OpenAI añade nuevas marcas de agua a DALL-E 3. DALL-E 3 de OpenAI incorpora ahora marcas de agua para distinguir las imágenes generadas por IA de las creadas por humanos, lo que mejora la transparencia sobre el terreno.
3º semana de febrero
- OpenAI anuncia Sora. OpenAI ha presentado Sora, un novedoso generador de vídeo por IA capaz de crear vídeos de hasta un minuto de duración a partir de instrucciones textuales. Las demostraciones muestran su capacidad para transformar mensajes creativos en contenidos de vídeo, destacando la sinergia entre la IA y la creatividad humana.
- Nuestro modelo de nueva generación: Gemini 1.5. Google ha presentado Gemini 1.5, que demuestra una capacidad mejorada para procesar información de contexto largo de hasta 1 millón de tokens. Iguala la calidad de Gemini 1.0 Ultra, pero requiere menos potencia de cálculo y supera a Gemini 1.0 Pro en el 87% de las pruebas comparativas.
- Stability AI anuncia Stable Cascade. Stability AI ha presentado Stable Cascade, un avance de investigación de un nuevo modelo texto-imagen basado en la arquitectura Würstchen. Este modelo se distribuye bajo licencia no comercial y es fácil de entrenar y ajustar en hardware de consumo gracias a su innovador enfoque en tres fases.
- Al parecer, OpenAI está desarrollando una búsqueda web con IA para competir con Google. Según los informes, OpenAI está desarrollando una capacidad de búsqueda web con IA, potencialmente para competir con Google, y podría incorporarla a un nuevo servicio o a un ChatGPT mejorado que utilice Bing para resumir información basada en la web.
- V-JEPA: El siguiente paso hacia la inteligencia artificial avanzada. Yann LeCun propone un paradigma de aprendizaje automático, V-JEPA, para que los sistemas construyan modelos internos del mundo y aprendan intuitivamente como un ser humano. A diferencia de los métodos convencionales, V-JEPA emplea una técnica no generativa para la comprensión de vídeo, priorizando la interpretación abstracta sobre la reproducción detallada.
- Together AI, una empresa de GPU en la nube, recauda 100 millones de dólares. Together AI, una compañía de nube de GPU especializada en herramientas de IA de código abierto y acceso a chips de servidor Nvidia, se acerca a una ronda de financiación de 100 millones de dólares liderada por Salesforce Ventures, lo que podría elevar su valoración a 1.000 millones de dólares.
4º semana de febrero
- Gemma: una familia de modelos abiertos ligeros y de última generación de Google. Google ha lanzado Gemma, un gran modelo lingüístico de código abierto basado en Gemini, en dos versiones con 2.000 millones (2B) y 7.000 millones (7B) de parámetros. Ambas versiones incluyen un modelo básico preentrenado y una variante ajustada a las instrucciones para mejorar el rendimiento.
- Las ventas de GPU de Nvidia para centros de datos crecen un asombroso 409% gracias a la enorme demanda de chips de IA. Nvidia ha experimentado un aumento significativo en las ventas de GPU, reportando un incremento del 409% debido en gran parte a la creciente demanda de tecnologías de IA. Con unos beneficios e ingresos del cuarto trimestre que superan con creces las previsiones de Wall Street, las finanzas de la compañía han prosperado gracias a las sólidas ventas de su serie de GPU Hopper, incluida la H100.
- Stable Diffusion 3. Stability AI ha presentado en primicia Stable Diffusion 3, que incluye mejoras en el manejo de mensajes con varios temas, la calidad de la imagen y la precisión de la ortografía visual del texto. Un número selecto de usuarios tiene la oportunidad de probar y perfeccionar el modelo antes de su disponibilidad general.
- Google pone en pausa la capacidad de Gemini de generar imágenes de personas mediante IA tras errores relacionados con la diversidad. Google ha suspendido la función de su IA Gemini que crea imágenes de figuras humanas debido a inexactitudes relacionadas con la diversidad. La IA estaba produciendo imágenes históricas que se desviaban de las normas raciales y de género conocidas, como la representación de los Padres Fundadores de Estados Unidos y los soldados de la época nazi con diversos orígenes étnicos.
- Phind-70B cierra la brecha de calidad del código con GPT-4 Turbo y funciona 4 veces más rápido. Phind-70B es un nuevo modelo de IA centrado en el código que mejora CodeLlama-70B al integrar 50.000 millones de tokens más. Cuenta con una ventana de 32.000 tokens, lo que le permite producir soluciones técnicas de alta calidad a una velocidad de 80 tokens por segundo. El modelo supera a GPT-4 Turbo con una puntuación HumanEval del 82,3%, aunque su rendimiento es ligeramente inferior al CRUXEval de Meta.
📚 Guías web
1º semana de febrero
- Cómo utilizan las empresas los LLM de código abierto. Empresas de diversos sectores están integrando grandes modelos lingüísticos (LLM) de código abierto para mejorar sus operaciones y la experiencia de los usuarios. Empresas como VMware, Brave y Gab Wireless aprovechan modelos como los de HuggingFace y Mistral AI para la generación de código y la asistencia conversacional.
- LLM de código abierto como agentes LangChain. Los LLM de código abierto como Mixtral han alcanzado niveles de rendimiento que les permiten servir como componentes centrales de razonamiento en agentes inteligentes, superando incluso los puntos de referencia GPT-3.5.
- Presentación de Enterprise Scenarios Leaderboard: una tabla de clasificación para casos de uso del mundo real. La tabla de clasificación de escenarios empresariales, desarrollada por el equipo de Patronus en colaboración con Hugging Face, es una nueva herramienta de evaluación comparativa diseñada para evaluar el rendimiento de los modelos lingüísticos en seis tareas orientadas a la empresa. Estas tareas incluyen finanzas, asuntos legales, escritura creativa, atención al cliente, detección de toxicidad y manejo de información personal identificable (PII), con un énfasis específico en los requisitos empresariales.
- La promesa y los retos de las aplicaciones cripto + IA. La intersección de la IA y blockchain tiene el potencial de revolucionar varios sistemas, con la IA preparada para mejorar la eficiencia y fiabilidad de blockchain a través de capacidades como la optimización del arbitraje y la predicción, así como la mejora de la accesibilidad mediante la simplificación de las transacciones y el aumento de las medidas de seguridad.
- Modelo de mundo interno de Chess-GPT. Chess-GPT, un modelo de machine learning con 50 millones de parámetros entrenados en millones de anotaciones de partidas de ajedrez, ha demostrado su capacidad para jugar al ajedrez con una clasificación Elo de 1300, lo que refleja una comprensión de las reglas y estrategias del juego. El modelo ejecuta jugadas legales con una precisión del 99,8% tras el entrenamiento, lo que indica que incluso los modelos compactos, con datos suficientes, pueden aproximarse a las habilidades de resolución de problemas a nivel humano.
2º semana de febrero
- Pensar en datos humanos de alta calidad. Las anotaciones humanas detalladas y de alta calidad son cruciales para crear modelos de deep learning eficaces, garantizando la precisión de la IA mediante tareas como la clasificación de contenidos y la alineación de modelos lingüísticos. Aprovechar la “sabiduría de la multitud” con los filtros adecuados puede producir resultados comparables a la calidad de los expertos, como demuestran las investigaciones en áreas como la traducción automática.
- Clasificación NPHardEval: Desvelar la capacidad de razonamiento de grandes modelos lingüísticos mediante clases de complejidad y actualizaciones dinámicas. La tabla de clasificación NPHardEval ofrece un punto de referencia para evaluar las capacidades de razonamiento de los LLM en un conjunto de 900 problemas algorítmicos, centrándose en tareas NP-Hard y menos complejas. Para mantener la integridad de la evaluación y evitar el sobreajuste del modelo, se actualiza mensualmente con nuevos retos, lo que ayuda a medir de forma fiable el progreso en el rendimiento de razonamiento de los LLM.
- SegMoE: Segmind Mezcla de Expertos en Difusión. SegMoE, integrado en el ecosistema Hugging Face, simplifica el desarrollo de modelos a medida de Difusión de Mezcla de Expertos influidos por la Difusión Estable, incorporando capas MoE dispersas para el procesamiento específico de tokens.
- Estética de la IA. La IA está transformando el panorama artístico al facilitar la creación de visuales, música y narrativas, haciéndolas accesibles a las personas independientemente de sus habilidades artísticas, de forma similar a como los smartphones popularizaron la fotografía. Ha permitido la aparición de nuevos géneros y de un arte interactivo que convierte a los consumidores en colaboradores, utilizando herramientas como los chatbots de IA para narrar historias e instalaciones dinámicas como “Dream Machine”.
- Por qué cambié Google Search por Perplexity. El autor habla de la transición de Google al motor de búsqueda Perplexity, impulsado por IA, destacando sus características clave como la entrega de respuestas resumidas y directas con citas de fuentes, y la capacidad única de proporcionar perspectivas reescritas.
3º semana de febrero
- 🤗 PEFT da la bienvenida a nuevos métodos de fusión. La fusión de modelos se ha convertido rápidamente en un estándar de facto para superar los límites de rendimiento de los grandes modelos lingüísticos. En la Open LLM Leaderboard, hay nuevos modelos fusionados encabezando las listas.
- Machine Learning en química. El machine learning y las redes neuronales, como las CNN y las RNN, están haciendo avanzar significativamente la investigación química al identificar patrones en datos complejos, ayudando en el desarrollo de fármacos, la predicción de toxicidad y la comprensión de las relaciones estructura-actividad.
- El entrenamiento de redes neuronales genera bellos fractales. El entrenamiento de redes neuronales puede generar sin querer fractales intrincados, que reflejan la interacción dinámica de los ajustes de los hiperparámetros, en particular la tasa de aprendizaje. A medida que se ajusta la tasa de aprendizaje para evitar divergencias y garantizar un entrenamiento eficaz, el límite entre el entrenamiento eficaz y el fracaso se manifiesta como un patrón fractal.
- Aprendizaje de la importancia de los datos de formación bajo deriva conceptual. Una investigación reciente propone un sistema de clasificación de los datos de entrenamiento basado en la relevancia, que utiliza un modelo de ayuda diseñado para abordar y adaptarse a la lenta deriva conceptual de la IA. Este enfoque tiene el potencial de mejorar el rendimiento del modelo a lo largo del tiempo, presentando una solución competitiva para mejorar la adaptabilidad en el aprendizaje continuo.
- Tutorial de GeoGPT+: Mapas visuales listos para la web a partir de datos SIG sobre incendios forestales. GeoGPT+ es una herramienta geoespacial GPT diseñada para la integración de datos en tiempo real y la generación de mapas visuales a partir de conjuntos de datos SIG. En particular, está especializada en la interpretación de datos de incendios forestales procedentes de fuentes como el conjunto de datos CSV de incendios forestales de la NASA, transformando los datos brutos en visuales significativos.
4º semana de febrero
- Los 11 mejores generadores de imágenes con IA en 2024. Los generadores de imágenes basados en IA como DALLE 3, Midjourney, Dream Studio (Stable Diffusion), Canva AI y NightCafe están transformando el panorama de la creación visual, ofreciendo herramientas innovadoras para el diseño profesional, las aplicaciones empresariales y los entusiastas del arte.
- Construir un Agente de Datos potenciado por LLM para el Análisis de Datos. Esta guía describe los tipos de agentes necesarios y sus roles colaborativos en la creación de una aplicación LLM competente para tareas de análisis de datos. Incluye un caso de uso práctico y los correspondientes fragmentos de código, junto con consejos de optimización para desarrolladores de IA implicados en el diseño y la implementación de aplicaciones de agentes LLM.
- Técnicas avanzadas de investigación con ChatGPT. Esta guía esboza estrategias para aprovechar ChatGPT en la investigación, haciendo hincapié en que, si bien ChatGPT puede agilizar las tareas de investigación, la calidad de la investigación sigue dependiendo de la experiencia y la comprensión del investigador humano.
- ¿Cuántos sitios web de noticias bloquean los rastreadores de IA? Los editores de noticias de Estados Unidos bloquean cada vez más los rastreadores de IA de empresas como OpenAI y Google, y el 80% de los principales sitios estadounidenses restringirán el acceso de OpenAI a finales de 2023. La tendencia muestra una variación significativa a nivel internacional, con sólo el 20% de los principales sitios de noticias en México y Polonia implementando bloqueos similares.
- Mi punto de referencia para grandes modelos lingüísticos. Esta prueba evalúa las capacidades de los grandes modelos lingüísticos en tareas de programación del mundo real, como la traducción de código entre Python y C, la comprensión de JavaScript minificado y la generación de SQL a partir del inglés.
🔬 Papers y repositorios de interés
1º semana de febrero
- El efecto mariposa de la alteración de las instrucciones: Cómo afectan los pequeños cambios y los “jailbreaks” al rendimiento de los grandes modelos lingüísticos. Investigaciones recientes revelan que incluso pequeñas modificaciones en las instrucciones, como la adición de espacios, pueden afectar significativamente al rendimiento de los LLM en tareas de clasificación de textos, lo que subraya la importancia crítica de una ingeniería precisa de las instrucciones.
- Reformulación de la Web: Una receta para un modelado lingüístico eficiente desde el punto de vista informático y de los datos. Los investigadores han desarrollado un método para mejorar el entrenamiento de los LLM utilizando un LLM más pequeño ajustado a las instrucciones para parafrasear raspados de la web, creando un conjunto de datos más limpio y estructurado. Este método ha demostrado que acelera el preentrenamiento, reduce los costes computacionales y mejora el rendimiento, logrando un aumento de la velocidad de 3 veces, una reducción de la perplejidad del 10% y una mejor capacidad de aprendizaje sin disparos en varias tareas.
- OLMo: Acelerando la ciencia de los modelos lingüísticos. OLMo es el primer LLM totalmente de código abierto cuya versión incluye no solo los pesos del modelo y el código de inferencia, sino también los datos de entrenamiento, el código de entrenamiento y el código de evaluación.
- MoE-LLaVA: Mezcla de expertos para grandes modelos de visión y lenguaje. El equipo LLaVA ha presentado MoE-LLaVA, un modelo de visión y lenguaje (LVLM) disperso y de código abierto que aprovecha una mezcla de expertos (MoE) para mantener constantes los costes computacionales a pesar de un aumento sustancial de los parámetros. Mediante la activación selectiva de los mejores-k expertos para cada tarea, MoE-LLaVA consigue un rendimiento eficiente y rentable.
- FinanceBench: Una nueva prueba para responder a preguntas financieras. FinanceBench es una nueva prueba de referencia diseñada para evaluar la capacidad de respuesta a preguntas financieras (QA) de los LLM, que proporciona un conjunto de datos con 10.231 preguntas relacionadas con las finanzas. Una evaluación de 16 modelos punteros, incluido GPT-4-Turbo, puso de manifiesto que muchos LLM tienen dificultades en este campo, y que GPT-4-Turbo tuvo problemas con el 81% de las preguntas incluso cuando se utilizó un sistema de recuperación.
2º semana de febrero
- Ajedrez de nivel de gran maestro sin búsqueda. DeepMind ha desarrollado un modelo transformador de 270 millones de parámetros que alcanza el nivel de gran maestro de ajedrez sin recurrir a técnicas de búsqueda tradicionales. Entrenado en un conjunto de datos de 10 millones de partidas con información sobre el valor de la acción de Stockfish 16, el modelo alcanzó un Elo de 2895 en la partida relámpago de Lichess y demostró su capacidad para resolver rompecabezas de ajedrez avanzados.
- Sólo se necesitan más agentes. Los métodos de ensamblaje mejoran significativamente el rendimiento de los modelos lingüísticos, como demuestran los aumentos de precisión de Llama2-13B, Llama2-70B y GPT-3.5-Turbo en la prueba GSM8K. Los conjuntos más grandes, sobre todo los de tamaño 15 o superior, permiten que modelos más pequeños como Llama2-13B alcancen niveles de precisión comparables a los de modelos más grandes como Llama2-70B. Además, la ampliación de los conjuntos a 15-20 miembros permite a Llama2-70B y GPT-3.5-Turbo igualar el rendimiento de modelos aún más avanzados.
- metavoiceio/metavoice-src: Modelo fundacional para un TTS expresivo y similar al humano. MetaVoice-1B es un modelo TTS de última generación entrenado en un extenso conjunto de datos de 100.000 horas, diseñado para generar habla inglesa emocionalmente expresiva con especial atención a los tonos americanos y británicos. Ofrece clonación de voz utilizando sólo 30 segundos de audio y admite síntesis de voz de larga duración, todo ello bajo la permisiva licencia Apache 2.0.
- apple/ml-mgie. Apple ha presentado MGIE, un innovador modelo de edición de imágenes basado en instrucciones que utiliza grandes modelos lingüísticos multimodales (LLM). MGIE destaca por aprender e interpretar eficazmente instrucciones descriptivas, que utiliza para guiar las alteraciones visuales. Su formación integral le permite ejecutar alteraciones detalladas similares a las de Photoshop, mejoras fotográficas integrales y ediciones específicas.
- MusicRL: Adaptación de la generación de música a las preferencias humanas. MusicRL, una iteración avanzada del modelo MusicLM, aprovecha el aprendizaje por refuerzo y los comentarios humanos para mejorar sus capacidades de generación musical, sobre todo en cuanto a alineación textual y calidad de sonido.
3º semana de febrero
- Las mezclas de expertos desbloquean el escalado de parámetros para el RL profundo. Los investigadores han explorado la integración de módulos de mezclas suaves de expertos (MoE, por sus siglas en inglés) en redes de aprendizaje profundo por refuerzo basadas en valores, ofreciendo un enfoque novedoso para escalar el tamaño del modelo a la vez que se mejora el rendimiento. Los resultados indican la posibilidad de desarrollar leyes de escalado coherentes en el aprendizaje por refuerzo, un campo que hasta ahora carecía de tales marcos.
- BASE TTS: lecciones de la creación de un modelo de conversión de texto en voz de mil millones de parámetros con 100.000 horas de datos. BASE TTS, un vanguardista sistema de conversión de texto en habla con 100.000 horas de entrenamiento, ha establecido un nuevo punto de referencia para la síntesis del habla con sonido natural. Utiliza un modelo Transformer de mil millones de parámetros para generar “códigos de voz” a partir del texto, que luego un descodificador convolucional convierte en formas de onda.
- Entrenamiento de modelos lingüísticos para generar texto con citas mediante recompensas de grano fino. Los investigadores han desarrollado un método para entrenar modelos lingüísticos (LM) más pequeños con el fin de generar respuestas con citas apropiadas, utilizando Llama 7B como caso de prueba. Inicialmente, entrenaron a Llama 7B con los resultados de ChatGPT para responder a preguntas con contextos citados. A continuación, mejoraron el modelo mediante muestreo de rechazo y aprendizaje por refuerzo. Sus resultados indican que, con este método de entrenamiento, Llama 7B supera a ChatGPT a la hora de proporcionar respuestas citadas. Además, una combinación de muestreo de rechazo y aprendizaje por refuerzo dio los resultados más eficaces.
- Modelos de mundo grande. Los investigadores crearon un conjunto de datos compuesto por vídeos y libros e introdujeron el mecanismo RingAttention para manejar con eficacia contextos de entre 4K y 1M de tokens. El equipo también ha publicado varios modelos con hasta 7B parámetros, capaces de procesar más de 1M de tokens, para promover la accesibilidad y el progreso colaborativo en este campo.
- Los transformadores pueden lograr la generalización de longitudes, pero no de forma robusta. Un estudio demuestra que los Transformers estándar pueden generalizar la suma entera a secuencias más largas mediante métodos eficaces de representación de datos y codificación posicional. Sin embargo, esta capacidad de generalización es sensible a factores como la inicialización de pesos y la secuencia de datos de entrenamiento, lo que provoca una variabilidad considerable en el rendimiento del modelo.
- reorproject/reor: aplicación de IA para tomar notas que ejecuta modelos. Reor es una aplicación de escritorio de código abierto diseñada para tomar notas mejoradas con IA, que incluye un editor Markdown al estilo Obsidian, conexión de ideas asistida por IA y funciones de búsqueda inteligente. Prioriza la privacidad del usuario mediante el almacenamiento local y utiliza tecnologías como Llama.cpp y Transformers.js para ejecutar grandes modelos de lenguaje e incrustar modelos en la máquina del usuario.
4º semana de febrero
- OpenCodeInterpreter: Integración de la generación de código con la ejecución y el refinamiento. El OpenCodeInterpreter es un proyecto de código abierto que mejora la generación de código integrando la ejecución y el refinamiento iterativo del mismo, de forma similar al intérprete de código GPT-4. Utiliza el conjunto de datos Code-Feedback con sesiones interactivas 68K para mejorar su rendimiento. Utiliza el conjunto de datos Code-Feedback con sesiones interactivas de 68K para mejorar su rendimiento. OpenCodeInterpreter-33B demuestra una paridad casi total con GPT-4 en las pruebas comparativas de codificación.
- Más allá de A: Mejor planificación con transformadores mediante Search Dynamics Bootstrapping. Searchformer es un modelo de IA basado en la arquitectura Transformer que ha sido entrenado para emular el algoritmo de búsqueda de rutas A, logrando una mayor eficiencia en tareas de planificación complejas. Supera a A* en los puzles Sokoban, resolviéndolos con un 93,7% de precisión y una reducción del 26,8% en los pasos dados.
- LongRoPE: ampliación de la ventana de contexto LLM más allá de 2 millones de tokens. LongRoPE es un avance en grandes modelos lingüísticos que amplía la ventana de contexto de 256k a 2048k tokens mediante interpolación posicional, al tiempo que incorpora una fase de ajuste fino a 8k tokens para preservar el rendimiento en contextos cortos, con el objetivo de lograr una mayor eficiencia y reducir los costes de ajuste fino.
- FinTral: Una familia de modelos de lenguaje financiero multimodal de nivel GPT-4. Los investigadores han perfeccionado con éxito el modelo Mistral-7b para diversas tareas financieras, con un rendimiento comparable al de GPT4 turbo. Estas tareas incluyen el análisis de sentimientos, el reconocimiento de entidades con nombre, la comprensión de números, el resumen de textos, la predicción de acciones y la calificación crediticia.
- vosen/ZLUDA: CUDA en GPUs AMD. ZLUDA es una capa de software en fase alfa que permite ejecutar aplicaciones CUDA no modificadas en GPU de AMD, lo que facilita una mayor compatibilidad dentro de la comunidad de IA. Demuestra un rendimiento prometedor, aunque con una preferencia actual por las GPU integradas y posibles limitaciones derivadas de la integración de ROCm/HIP.
¡Gracias por leernos! Si quieres aprender más sobre NLP, recuerda seguir NLPlanet. Puedes encontrarnos en LinkedIn, Twitter, Medium, y en nuestro Discord server.