En el marco de su compromiso con la difusión de conocimientos sobre inteligencia artificial, Spain AI organizó un webinar que reunió a entusiastas y expertos para explorar un tema de creciente relevancia: las capacidades de los conocidos grandes modelos del lenguaje (LLMs) en la programación. Una sesión realizada por Álvaro Barbero, doctor en ingeniería informática y experto en machine learning, el evento ofreció una mirada crítica y reflexiva sobre el impacto y las limitaciones de estas herramientas. Un experto que ya hemos tenido la oportunidad de escuchar en anteriores webinarios de esta asociación.
Álvaro inició su presentación contextualizando el rápido avance de las herramientas basadas en LLMs, como GitHub Copilot, GitLab Duo y Cursor. Estas tecnologías, explicó, prometen revolucionar la manera en que los programadores desarrollan software, aumentando la productividad y reduciendo el tiempo necesario para completar tareas. Sin embargo, subrayó que las cifras y afirmaciones publicadas por estas empresas suelen estar condicionadas por experimentos cuidadosamente diseñados, lo que hace imprescindible un análisis más riguroso.
A lo largo de la charla, destacó cómo los LLMs operan mediante patrones aprendidos de grandes volúmenes de datos. Este aprendizaje les permite generar soluciones útiles y prácticas para tareas comunes o repetitivas, pero desemboca en limitaciones a la hora de tratar de resolver problemas más avanzados que requieren razonamiento profundo o adaptaciones a contextos específicos. Para respaldar sus afirmaciones, Álvaro mostró a los asistentes diferentes estudios académicos en los que se evalúa el rendimiento de estas herramientas en diferentes niveles de complejidad, mostrando que su rendimiento disminuye drásticamente cuando las tareas son más desafiantes.
El núcleo del webinar fue un experimento personal llevado a cabo por este experto en la plataforma Codewars, conocida por sus desafíos de programación. Durante el experimento, se probaron las capacidades de GPT-4o-mini en más de 15.000 ejercicios de programación, distribuidos en ocho lenguajes, como Python, JavaScript, C, y otros menos comunes como Solidity y Cobol. La metodología implicó plantear los ejercicios al modelo y evaluar las soluciones generadas mediante tests unitarios, simulando un entorno realista de desarrollo.
Los resultados fueron reveladores. En lenguajes populares como Python y JavaScript, los modelos mostraron un buen desempeño, especialmente en ejercicios básicos e intermedios. Sin embargo, en lenguajes menos utilizados, como Cobol o Fortran, el rendimiento fue notablemente inferior debido a la falta de datos en los que entrenarse. Además, los modelos fallaron de manera sistemática en ejercicios avanzados, donde la solución requiere razonamiento complejo y optimización. Una realidad que también ha sido destacada por entidades como OpenAI y que ponen de manifiesto, la incapacidad de estos modelos a la hora de enfrentarse a grandes retos (categorizados normalmente en nivel 1 y 2).
Un hallazgo significativo fue que, en más de un tercio de los casos, el éxito de los LLMs podía atribuirse a la presencia de soluciones previas en los datos de entrenamiento. Esto plantea dudas sobre la capacidad de estos modelos para generar código original en contextos menos explorados. Por otro lado, Barbero destacó que, aunque los modelos pueden proponer soluciones correctas en términos funcionales, muchas de ellas no cumplen con los estándares de eficiencia necesarios para aplicaciones reales.
En la última parte del webinar, Alvaró reflexionó sobre las implicaciones prácticas de estas herramientas en la programación actual. Lejos de ser una amenaza para los desarrolladores, los LLMs tienen el potencial de convertirse en valiosos asistentes, especialmente cuando se utilizan en contextos de colaboración humano-máquina. A través de ejemplos personales, demostró cómo estas herramientas pueden ahorrar tiempo al abordar lenguajes o bibliotecas desconocidas, guiando al usuario hacia soluciones más rápidas. En este contexto, y tras finalizar la intervención, tanto ponente como Juan Luis Rosa, moderador del encuentro, indicaron la importancia de tener un espíritu crítico, abierto y resolutivo con el que poder enfrentarse a las novedades que van surgiendo.
Gracias a este nuevo webinar, Spain AI ofrece a los profesionales del sector, así como a los curiosos que están adentrándose en el mundo de la programación, una evaluación técnica y fundamentada de las capacidades de los modelos de lenguaje. Álvaro también invitó a los presentes a reflexionar sobre su impacto en el mundo del desarrollo de software. Aunque estas herramientas no están listas para sustituir la experiencia humana en tareas complejas, su capacidad para complementar el trabajo de los programadores las convierte en una herramienta emocionante para el futuro de la programación.
Si te ha interesado el tema y quieres seguir explorando todo lo que se trató en el webinar, puedes ver el webinar completo en su canal de Youtube: