1GTwLCyb5V9DcAu6d2bwlZg

Con toda la emoción que rodea a los agentes de IA, hay dos áreas que se están descuidando… la seguridad y la precisión. En este artículo quiero echar un vistazo al estado de la precisión de los agentes de IA.

Tabla de contenidos

Introducción

¿Hasta qué punto son precisos los agentes de IA? Bueno, depende… hay varias cosas a tener en cuenta…

Las tareas

  • ¿Las tareas son más generales o específicas?
  • ¿Cuánto tardaría un especialista humano en completarla?
  • ¿Cuál es la complejidad de la tarea? ¿Cuántos pasos hay que dar?
  • ¿Qué herramientas debe utilizar la IA? ¿Incluye un navegador web o la navegación por un sistema operativo?
  • Hay tareas generales y otras más específicas de cada dominio.
  • Como se verá más adelante en este artículo, hay una serie de puntos de referencia con los que los agentes y modelos de IA se están probando actualmente. Los investigadores sobreajustan sus pruebas para obtener puntuaciones altas en las pruebas comparativas. Me quedé realmente sorprendido cuando vi las puntuaciones del Agente de Uso del Ordenador de OpenAI en comparación con otros Agentes.

Compara el benchmarking de OpenAI…

image 4

A la evaluación comparativa de la investigación del Agente S2…

image 6

Definición AI Agent

  • La complejidad necesita residir en algún lugar, los Modelos de Lenguaje están creciendo en capacidad para acomodar funcionalidades como funciones, Visión por Computador y otras integraciones de herramientas. Piense en el SDK de Agente de IA de OpenAI y su marco de Agente de Visión por Ordenador.
  • Los modelos lingüísticos están creciendo en capacidades de descomposición de tareas, razonamiento, fundamentación, búsqueda web, recuperación de información y síntesis.
  • Pero a largo plazo las organizaciones harán uso de marcos en los que se descomponga la funcionalidad y se siga un enfoque más granular.
  • Buenos ejemplos de código abierto son LangChain y LlamaIndex.
  • Para un trabajo de conocimiento más empresarial o específico de un dominio, se necesitaría un marco más flexible y controlable granularmente.

Precisión y supervisión

  • La precisión y el éxito en la finalización de las tareas son importantes, pero creo que la supervisión humana es un aspecto olvidado.
  • Hay un elemento en el que los agentes de IA pueden operar bajo una supervisión humana débil, y una desviación menor puede ser corregida o ajustada por el humano.
  • Y luego está el coste, como se verá más adelante en este artículo… hay un equilibrio

Trayectoria del reconocimiento del habla

Echando un vistazo al pasado reciente de la tecnología…

Accuarte Speech Recognition del habla es algo que ahora damos por sentado; especialmente con aplicaciones habilitadas para voz como Grok, ChatGPT y otras. El reconocimiento de voz está integrado y no le damos importancia.

Teniendo en cuenta la imagen de abajo, puedo recordar en 2017 cuando se ilustró cómo la tasa de precisión de palabras del Reconocimiento de Voz ML de Google superaba la del nivel humano. Estando el umbral de precisión humana en el 95%, y Google ASR alcanzando el 95%+.

Tardó unos años, pero ASR llegó al nivel que necesita.

image 7

Investigación del Proyecto Agente S2

Si tenemos en cuenta la imagen que aparece a continuación, incluso el agente de mayor rendimiento, Similar Agent S2, sólo alcanza una tasa de éxito del 34,5% cuando se le dan 50 pasos, lo que significa que falla en más del 60% de las ocasiones.

También se aprecia una gran diferencia entre agentes especializados como Similar Agent S2 y asistentes de IA más generales como Claude. Está claro que a estos modelos generales les queda un largo camino por recorrer si quieren llegar a ser buenos en el manejo de tareas informáticas.

Fíjate también en cómo se disparan todas las líneas a medida que aumenta el número de pasos: más pasos ayudan sin duda a estos agentes a obtener mejores resultados, pero también demuestra que no son muy eficientes. A menudo necesitan un montón de intentos para hacer las cosas bien, y eso significa más tiempo y mayores costes, lo que no es lo ideal.

Sin embargo, cuando se les limita a sólo 15 pasos, todos tienen dificultades: las tasas de éxito descienden en torno al 15%. Esto pone de manifiesto lo difícil que les resulta realizar tareas complejas de varios pasos sin mucho espacio para trabajar.

E incluso con más pasos, sus porcentajes se sitúan en torno al 30%.

En comparación con los humanos, que probablemente acertarían estas tareas cerca del 95% de las veces, estos agentes de IA tienen mucho que mejorar antes de que puedan hacerse cargo de nuestro trabajo informático cotidiano. Es como una llamada de atención, ¿no crees?

image 8

Humanos contra agentes de IA

Se ha introducido una nueva forma de medir las capacidades de la IA comparándolas con el rendimiento humano.

La idea clave es el horizonte temporal de realización del 50% de las tareas, que es el tiempo que tardan los humanos en realizar tareas que una IA puede completar con un 50% de éxito.

Lo probaron con expertos que realizaban tareas de varios puntos de referencia, incluidas 66 nuevas tareas cortas.

Los mejores modelos de IA actuales, como Claude 3.7 Sonnet, igualan el rendimiento humano en tareas que llevan a los humanos unos 50 minutos.

Desde 2019, la IA ha estado mejorando rápidamente: duplicando su horizonte temporal cada siete meses, posiblemente incluso más rápido en 2024.

Esta mejora proviene de una mayor fiabilidad, corrección de errores, razonamiento y uso de herramientas.

Sin embargo, el estudio señala limitaciones, como si estos resultados se aplican a tareas del mundo real, y plantea preocupaciones sobre la autonomía de la IA que conduce a capacidades riesgosas.

image 9

En 2019, con GPT-2, la IA igualó el rendimiento humano en tareas que llevaban a los humanos unos 2 segundos.

En 2022, con GPT-4-0314, se pasó a tareas que llevaban a los humanos unos 8 minutos.

En 2024, con Claude 3.7 Sonnet, la IA alcanzó tareas que a los humanos les llevaban unos 30 minutos.

La tendencia muestra que la capacidad de la IA se duplica cada 7 meses (como indica la nota «Tiempo de duplicación»).

A continuación se muestra un gráfico con una precisión del 80%….

Agentes

Si esta tendencia continúa, en cinco años (2030), la IA podría automatizar tareas de software que a los humanos les llevan 3 meses.

El trabajo del conocimiento en el mundo real es desordenado

El trabajo del conocimiento en el mundo real suele implicar detalles complejos que las evaluaciones comparativas suelen excluir, como estar poco especificado o mal delimitado, tener bucles de retroalimentación o criterios de éxito poco claros, o requerir la coordinación entre múltiples flujos de trabajo en tiempo real.

En general, el estudio observó que los agentes tienen más dificultades con las tareas que contienen estos detalles «desordenados». Esto plantea la cuestión de si los agentes presentan tasas de mejora similares en las tareas «menos complicadas» que en las «más complicadas».

En cuanto a la generación autónoma de un gran valor económico, el estudio extrapola que en un plazo de 5 años a partir del contexto del estudio (marzo de 2024), por lo que en marzo de 2029 los sistemas de IA podrían automatizar tareas de software que actualmente llevan un mes a los humanos.

Coste humano y coste del agente de IA

Este gráfico de dispersión ilustra la relación entre la duración de la tarea y el ratio de coste de utilizar modelos de IA frente a mano de obra humana para 1.460 tareas.

El eje x representa la duración de las tareas (el tiempo que tardan los humanos en completarlas), que va de 1 segundo a 1 día en una escala logarítmica.

El eje y muestra la relación «Coste del modelo / Coste humano», también en escala logarítmica,

El gráfico sugiere que la IA es, en general, más rentable que los humanos para las tareas más cortas, pero a medida que aumenta la duración de la tarea, la ventaja de coste de la IA disminuye, siendo los costes más comparables para las tareas que llevan varias horas o un día entero.

Esto concuerda con el estudio, que se centra en la creciente capacidad de la IA para realizar tareas más largas, lo que puede repercutir en el valor económico a medida que la IA se hace viable para trabajos más complejos y que requieren más tiempo.

image 12

Coste y precisión

Este gráfico de dispersión compara el rendimiento de varios agentes de IA en una tarea, trazando la precisión frente al coste en USD en abril de 2024.

Los agentes se clasifican en agentes complejos (círculos rojos), agentes de referencia (cruces moradas) y modelos de disparo cero (cuadrados verdes), con etiquetas que indican los modelos subyacentes (por ejemplo, GPT-4, GPT-3.5) y las técnicas.

La frontera de Pareto (línea discontinua) muestra el equilibrio entre precisión y coste.

Compromiso entre precisión y coste

El gráfico muestra un claro compromiso a lo largo de la frontera de Pareto, donde una mayor precisión tiene un coste más elevado.

Rendimiento de los agentes complejos

Los agentes complejos, especialmente los basados en GPT-4, superan sistemáticamente en precisión a los modelos de referencia y de disparo cero, aunque son más caros.

image 13

Conclusión

Los Agentes de IA tienen el reto crítico de equilibrar la precisión con el despliegue práctico.

Los gráficos de los estudios demuestran que, aunque los Agentes de IA complejos construidos sobre modelos como el GPT-4 pueden lograr una gran precisión, conllevan costes significativamente más elevados, que a menudo alcanzan.

Además, el «horizonte temporal de realización de tareas del 50%» muestra que la IA duplica su capacidad cada 7 meses, proyectando que para 2029 la IA podría automatizar tareas humanas de un mes de duración, generando potencialmente un valor económico sustancial.

Sin embargo, este progreso también suscita preocupación por los riesgos catastróficos, ya que la IA se acerca a un horizonte de tareas de 4 horas en 2027, donde la autonomía en tareas complejas podría conducir a resultados perjudiciales si no se gestiona con cuidado.

En definitiva, aunque los agentes de IA están a punto de revolucionar las industrias, su precisión, coste y seguridad deben abordarse meticulosamente para garantizar que aporten valor sin consecuencias imprevistas.


Sígueme en LinkedIn 

Chief Evangelist @ Kore.ai | Me apasiona explorar la intersección de la IA y el lenguaje. Desde modelos lingüísticos y agentes de IA hasta aplicaciones agenéticas, marcos de desarrollo y herramientas de productividad centradas en los datos, comparto ideas sobre cómo estas tecnologías están dando forma al futuro.

Cobus Greyling

Por Cobus Greyling

Rasa Hero. NLP / NLU, Chatbots, Voz, UI / UX conversacional, Diseñador CX, Desarrollador, Interfaces de usuario ubicuas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *