Tabla de contenidos
Introducción
El debate en torno a ChatGPT (en general, IA generativa) ha evolucionado hacia la Agentic AI. Si bien ChatGPT es principalmente un chatbot capaz de generar respuestas de texto, los agentes de IA pueden ejecutar tareas complejas de forma autónoma, por ejemplo, realizar una venta, planificar un viaje, reservar un vuelo, contratar a un contratista para que haga un trabajo doméstico o pedir una pizza. La siguiente figura ilustra la evolución de los sistemas de Agentic AI.

Bill Gates imaginó recientemente un futuro en el que tendríamos un agente de IA capaz de procesar y responder al lenguaje natural y realizar diversas tareas. Gates utilizó como ejemplo la planificación de un viaje.
Normalmente, esto implicaría reservar hotel, vuelos, restaurantes, etc., por cuenta propia. Sin embargo, un agente de IA podría utilizar su conocimiento de las preferencias del usuario para reservar y comprar esas cosas en su nombre. Dada una tarea de usuario actual, solicitaríamos un modelo de lenguaje grande (LLM) para la descomposición de la tarea Agentic; esta es la coincidencia con la IA generativa.
Desafortunadamente, esto también significa que los sistemas de IA agéntica actuales están limitados por la capacidad de razonamiento de los LLM (ve los artículos 1 y 2, que se analizan en detalle en la sección 2.1).
Esto se debe principalmente al no determinismo inherente a los sistemas de Agentic AI. Por ejemplo, consideremos el escenario de compras en línea ilustrado en la Fig. 2.

Hay dos operadores no deterministas en el plan de ejecución: «Verificar Crédito» y «Modo de Entrega». La opción «Modo de Entrega» indica que el usuario puede recoger el pedido directamente en la tienda o recibirlo en su domicilio. Por lo tanto, el envío es una tarea no determinista y podría no activarse durante la ejecución. En resumen, dada esta falta de determinismo en la planificación de IA con agentes, necesitamos un modelo de razonamiento de múltiples pasos que comprenda la relación causal entre los agentes subyacentes (componentes).
Una discusión detallada de las capacidades de razonamiento de los LLM/LRM actuales queda fuera del alcance de este artículo. Sin embargo, basta con decir que se basa en el problema bien estudiado que se describe a continuación:
La correlación no implica causalidad.
Independientemente de la magnitud del LLM, estos solo capturan correlaciones estadísticas entre las características o parámetros de los datos de entrenamiento subyacentes y la predicción correspondiente. Si bien la causalidad implica correlación, su influencia puede ser tan leve que resulta irrelevante. Por lo tanto, la comprensión de la causalidad es fundamental en los LLM actuales.
En esta secuela, nos centramos en abordar este no determinismo inherente a los flujos de trabajo agénticos mediante la integración de la causalidad y la introspección en los procesos de entrenamiento e inferencia de LLM/LRM, respectivamente.
2. Razonamiento con causalidad
La causalidad es la ciencia del «por qué» de las cosas. En esencia, ayuda a comprender de forma prescriptiva por qué ciertas acciones son mejores que otras para determinar resultados futuros.
Si se prueba la causa, se prueba inmediatamente el efecto; y, a la inversa, nada puede existir sin su causa. —Aristóteles
Los humanos somos causales por naturaleza. Por ello, la causalidad nos ayuda a tomar decisiones, planificarlas y explicarlas, y adaptarnos al cambio, guiando básicamente las decisiones en función de las consecuencias.
Gartner, en su Hype Cycle™ para la Inteligencia Artificial 2024, también incluyó la IA causal en la etapa de «detonante de la innovación». Los analistas afirmaron:
La IA causal identifica y utiliza relaciones de causa y efecto para ir más allá de los modelos predictivos basados en la correlación y avanzar hacia sistemas de IA que puedan prescribir acciones con mayor eficacia y actuar de forma más autónoma.
La IA causal es crucial cuando necesitamos ser más sólidos en la previsión y más prescriptivos para determinar las mejores acciones para influir en resultados específicos. La IA causal tiene el potencial de incidir en múltiples aspectos del ciclo de vida de desarrollo e implementación de la IA agencial (Fig. 3), especialmente en los aspectos de razonamiento, observabilidad y explicabilidad, que se detallan en las secciones siguientes.

2.1 Incorporación del razonamiento LLM basado en causalidad
Estudios recientes de Apple (documento 1) han explorado las capacidades de razonamiento (o más bien, las limitaciones) de los LLM, y han descubierto que la mayoría de los LLM más avanzados experimentaron disminuciones significativas de precisión al ser promocionados con:
- diferentes versiones del mismo problema
- problemas complejos que involucran múltiples cláusulas
- información aparentemente relevante pero en última instancia irrelevante
Estas limitaciones resultaron en una disminución de hasta un 65% en la precisión debido a dificultades para discernir información pertinente y procesar problemas.
El documento 2 mostró además que los modelos de razonamiento de frontera (LRM) se enfrentan a un colapso total de precisión más allá de ciertas complejidades del problema. Además, exhibieron un límite de escalamiento contraintuitivo: su esfuerzo de razonamiento aumenta con la complejidad del problema hasta cierto punto, y luego disminuye a pesar de tener un presupuesto de tokens adecuado. Incluso proporcionar información humana explícita en términos de la descripción/algoritmo de la solución real no ayudó en esta etapa.
En general, los hallazgos ilustraron los riesgos de confiar en los LLM para la resolución de problemas, ya que parecen incapaces de razonamiento lógico, pero en su lugar intentaron replicar los pasos de razonamiento observados en sus datos de entrenamiento.
Para que la IA realmente razone y resuelva problemas, debe comprender algorítmicamente las relaciones de causa y efecto.
Es decir, comprender la dinámica de por qué suceden las cosas para que las personas puedan explorar diversos escenarios hipotéticos. Esto imita el neocórtex del cerebro humano, que impulsa el razonamiento de orden superior, como la toma de decisiones, la planificación y la percepción.
Para lograr esto, proponemos añadir la IA causal como un ingrediente clave, junto con los grafos de conocimiento, en el manual de entrenamiento/ajuste de los LLM/LRM, ilustrado en la Fig. 4.

Fig. 4: Manual de razonamiento LLM: proporciona los ingredientes QUÉ, CÓMO y POR QUÉ en la formación LLM/LRM (Imagen del autor)
Los ingredientes clave del razonamiento que puede proporcionar la IA causal incluyen:
- Causa raíz: detectar y clasificar los factores causales de un resultado
- Escenarios hipotéticos (y contrafácticos): determinar las consecuencias de acciones alternativas con respecto al estado actual (factual)
- Explicabilidad: justificar por qué ciertas acciones son mejores que otras
- Factores de confusión: identificar influencias irrelevantes, engañosas u ocultas
- Vías: comprender las acciones interrelacionadas y el curso de acción para lograr resultados
Esto se logra infiriendo vías causales dentro de las redes neuronales mediante la combinación de arquitecturas tradicionales de redes neuronales con técnicas de razonamiento causal. Esto implica modelar las relaciones de causa y efecto en el conjunto de datos de entrenamiento para comprender las relaciones entre las características, su grado de influencia mutua y la predicción.
Por ejemplo, la figura 5 muestra un modelo causal inferido para evaluar el nivel de riesgo crediticio en solicitudes de préstamo. Las flechas rojas indican la relación inversa entre una característica y la solvencia, mientras que las flechas verdes corresponden a factores causales positivos. Además, el grosor de las flechas indica la solidez de la relación causal.

Esto se logra mediante modelos de componentes causales que pueden integrarse progresivamente para lograr los objetivos de casos de uso específicos (ref., microservicios de modelos). Los modelos de componentes causales dividen un sistema en componentes distintos y manejables que representan relaciones causales específicas, que luego se interconectan para formar un modelo causal completo del sistema.
Con el tiempo, se crea un ciclo de autoaprendizaje (mejora continua) mediante la integración de métodos de aprendizaje por refuerzo (RL) y/o razonamiento autodidacta (p. ej., STaR) en el sistema de modelos y agentes interconectados. Aprenden colectivamente basándose en las acciones, el conocimiento, las recompensas y las políticas de los demás mediante un proceso de aprendizaje por transferencia gestionado.
De este modo, los modelos causales permiten el descubrimiento progresivo de relaciones causales complejas que se clasifican en términos de influencia, lo que mejora el proceso de razonamiento para los LLM (modelos basados en correlación en general).
Finalmente, mostramos cómo el razonamiento causal puede ayudar a limitar la alucinación.
Los modelos de lenguaje pequeño (SLM) específicos de dominio se consideran ampliamente como el futuro de la IA agencial. Pueden actuar como una «verdad fundamental» para los sistemas de IA agéntica, proporcionándoles datos precisos en los que confiar, a la vez que evitan acciones basadas en información fundamentada (y no errónea ni inventada). Consulta howso, por ejemplo, para saber cómo están creando nuevos modelos de razonamiento mediante la integración de IA causal, marcas de agua de datos e inferencia de atribución para reducir el riesgo y aumentar la precisión.
3. Razonamiento con introspección
En esta sección, pasamos del entrenamiento LLM a la inferencia y mostramos cómo añadir un paso de introspección mejora aún más el razonamiento agéntico.
3.1 Arquitectura de referencia de IA agéntica
En esta sección, describimos los módulos clave de una plataforma de IA agéntica de referencia, ilustrados en la Fig. 6:
(En este artículo, nos centramos principalmente en el módulo de razonamiento. Para una descripción detallada del otro módulo, consulta mi artículo anterior sobre el ciclo de vida de la IA agéntica para procesos empresariales).
- Módulo de razonamiento: para descomponer tareas complejas y adaptar su ejecución para lograr el objetivo establecido;
- Módulo de mercado agéntico: de agentes existentes y disponibles;
- Módulo de orquestación: para orquestar y supervisar (observar) la ejecución de sistemas multiagente;
- Módulo de integración: para integrarse con sistemas empresariales, por ejemplo, SCADA, repositorios de KB;
- Gestión de memoria compartida para compartir datos y contexto entre agentes;
- Capa de gobernanza, que incluye explicabilidad, privacidad, seguridad, medidas de seguridad, etc.

Dada una tarea de usuario, el objetivo de la plataforma de IA agéntica es identificar (componer) un agente (grupo de agentes) capaz de ejecutar dicha tarea. Por lo tanto, el primer componente que necesitamos es un módulo de razonamiento capaz de descomponer una tarea en subtareas, con la ejecución de los respectivos agentes orquestada por un motor de orquestación.
Un enfoque de alto nivel para resolver tareas tan complejas implica: (a) la descomposición de la tarea compleja dada en (una jerarquía o flujo de trabajo de) tareas simples, seguida de (b) la composición de agentes capaces de ejecutar las tareas (más simples). Esto puede lograrse de forma dinámica o estática. En el enfoque dinámico, dada una tarea de usuario compleja, el sistema crea un plan para satisfacer la solicitud en función de las capacidades de los agentes disponibles en tiempo de ejecución.
En el enfoque estático, dado un conjunto de agentes, los agentes compuestos se definen manualmente en tiempo de diseño, combinando sus capacidades.
Cadena de Pensamiento (CoT) es el marco de descomposición más utilizado actualmente para transformar tareas complejas en múltiples tareas manejables y arrojar luz sobre la interpretación del proceso de pensamiento del modelo.
Además, el marco ReAct (razonamiento y acción) permite a un agente evaluar críticamente sus propias acciones y resultados, aprender de ellos y, posteriormente, refinar su plan/proceso de razonamiento.
La composición del agente implica la existencia de un mercado/registro de agentes, con una descripción bien definida de sus capacidades y limitaciones. Por ejemplo, el protocolo Agente2Agente (A2A) especifica el concepto de una Tarjeta de Agente (un documento JSON) que funciona como una tarjeta de presentación digital para los agentes. Incluye la siguiente información clave:
Identity: name, description, provider information. Service Endpoint: The url where the A2A service can be reached. A2A Capabilities: Supported protocol features like streaming or pushNotifications. Authentication: Required authentication schemes (e.g., "Bearer", "OAuth2") to interact with the agent. Skills: A list of specific tasks or functions the agent can perform (AgentSkill objects), including their id, name, description, inputModes, outputModes, and examples. 3.2 Razonamiento de ReAct con Introspección (durante la Inferencia)
Si bien los agentes estándar basados en ReAct son eficaces para tareas de recuperación web, se ha demostrado que son insuficientes para entornos de IoT industrial, presentando a menudo:
- lagunas en el razonamiento específico del dominio, por ejemplo, al vincular el tonelaje de la unidad de refrigeración con la eficiencia energética, un vínculo vital en entornos de IoT industrial;
- razonamiento inconsistente, por ejemplo, en el razonamiento de desplazamiento de fecha («último día / semana / mes»);
- finalización prematura de tareas, llamadas redundantes a herramientas y fallos de composición de varios pasos.
Para superar estos desafíos, mejoramos el/los agente(s) con una estrategia iterativa de ReAct + introspección, que permite al sistema agéntico gestionar consultas complejas específicas del dominio industrial. La estrategia de introspección se desarrolla de la siguiente manera, como se ilustra en la Fig. 7.

El módulo de destilación actúa como preprocesador, descomponiendo consultas complejas en unidades semánticas estructuradas: variables, restricciones y objetivos. ReAct sigue siendo el marco de orquestación subyacente, generando un plan de ejecución en respuesta a la consulta del usuario.
Para mejorar la fidelidad del razonamiento, especialmente para la desambiguación de entidades, el orquestador emite una subconsulta interna (antes de iniciar la ejecución) para guiar el razonamiento posterior.
Esta consulta anticipatoria también es respondida por el LLM y mejora la coherencia del plan, la adherencia a las tareas y la precisión en la invocación de herramientas (ejemplo de mensaje del sistema a continuación).
You are an advanced reasoning agent that can improve based on introspection. You will be given a previous reasoning trial in which you were given access to multiple agents and tools and a query to answer. You were unsuccessful in resolving the query correctly either because you misunderstood the query, or you used up your set number of reasoning steps. In a few sentences, diagnose a possible reason for failure and devise a new high-level execution plan that aims to mitigate the same failure. Use complete sentences. Here are some examples: {examples} Previous trial: Query: {query} {plan} El módulo de revisión actúa como un verificador de LLM-as-a-Judge, clasificando el resultado del último paso de razonamiento como completado, parcialmente completado o fallido, según si el resultado generado atendió la consulta del usuario.
Esto activa el módulo de reflexión, que realiza una introspección del plan de ejecución, evaluando los pasos de razonamiento, las invocaciones de agentes/herramientas, etc.
Este módulo proporciona retroalimentación específica en forma de cambios en el plan de ejecución o plantillas de razonamiento que se añaden al indicador del sistema para guiar futuras ejecuciones.
Conclusión
En este trabajo, analizamos las limitaciones de razonamiento de los LLM actuales. Esto tiene un efecto dominó en la adopción empresarial de la IA agéntica, dada su dependencia actual de los LLM para la planificación, lo que se convierte en un obstáculo para la autonomía de los agentes de IA.
Para superar esto, estudiamos las capacidades de razonamiento de los LLM/modelos basados en correlación en general. Argumentamos que el aspecto de «causalidad» es actualmente deficiente y propusimos un manual de entrenamiento (ajuste fino) de LLM que integra eficazmente los grafos de conocimiento y los modelos de IA causal en el proceso de entrenamiento de los LLM/LRM.
Además, mostramos cómo el marco agéntico basado en ReAct (predeterminado) puede ampliarse con «introspección» durante la inferencia para abordar los desafíos de razonamiento relacionados con el dominio, por ejemplo, con la desambiguación de entidades.
Creemos que este trabajo será un factor clave para impulsar el valor empresarial mediante la agentificación de flujos de trabajo agénticos complejos con autonomía.

