Agente de IA para Data Engineering

Tabla de contenidos

1. Introducción

El debate en torno a ChatGPT (en general, IA generativa) ha evolucionado hacia los Agentes de IA. Si bien ChatGPT es principalmente un chatbot capaz de generar respuestas de texto, los agentes de IA pueden ejecutar tareas complejas de forma autónoma, por ejemplo, realizar una venta, planificar un viaje, reservar un vuelo, contratar a una empresa para que haga un trabajo doméstico o pedir una pizza. La figura 1 que te muestro a continuación ilustra la evolución de los sistemas de Agente de IA:

AD 4nXe5UNjrwiweVzDPFGmHTUOuBpI9p9nEE2v8KoJBhZNfRjg91pWuqlD8SbfmRD2l0fACkMrGBFbiZ1f Jq42zQvqE0ku v9SBS9Ezv1sQzu3CWWffUXMXWIlPM9Tl2E4pdFajzxHvRRw5V57gN7zPA?key=SUK8ROE1PIwz1Zc9KTc WB8P — *Fig. 1: Evolución de la inteligencia artificial (Imagen del autor*)

Bill Gates imaginó recientemente un futuro en el que tendríamos un agente de IA capaz de procesar y responder al lenguaje natural y realizar diversas tareas. Gates usó como ejemplo la planificación de un viaje.

Normalmente, esto implicaría reservar hotel, vuelos, restaurantes, etc. Sin embargo, un agente de IA podría utilizar el conocimiento que tiene sobre tus preferencias para reservar y comprar esos servicios por ti.

Las características clave de los sistemas de Agente de IA son su autonomía y capacidad de razonamiento, que les permiten descomponer tareas complejas en tareas ejecutables más pequeñas y luego orquestar su ejecución de forma que puedan supervisar, reflexionar y adaptar/autocorregir la ejecución según sea necesario. Por ello, la IA agéntica tiene el potencial de revolucionar casi todos los procesos de negocio predominantes en las empresas actuales.

En este artículo, tomamos el ejemplo de uno de estos procesos desde la perspectiva de la ingeniería de software. Si bien todos coincidimos en que los datos de buena calidad son esenciales para proporcionar una ventaja competitiva tanto a las soluciones de IA generativa como a las de Agente de IA.

Aquí mostramos cómo se puede rediseñar el propio proceso de gestión de datos aprovechando la IA agéntica. En particular, mostramos cómo el agente de IA se puede aplicar a dos procesos fundamentales de gestión de datos: la catalogación y la ingeniería de datos (almacenamiento), describiendo los agentes de IA específicos para cada tarea, relevantes para ambos escenarios.

A continuación, describimos la arquitectura de referencia de una plataforma de IA agéntica y mostramos cómo puedes orquestar dichos agentes (para la gestión de datos) de forma autosostenible ante la evolución de los entornos empresariales y de datos.

2. Introducción a la gestión de datos

En un mundo ideal (y simplificado), la arquitectura de referencia de una plataforma de gestión de datos se ilustra en la figura 2.

AD 4nXc0K FxAAJtJkuFdZl fgNoSm3s3PscNQLniDAFBhJ85gtSiznooke8kHEQ6uY65WDfw8NN8emtnEKpH PGobCA00UtCznr8zd7FzkhnWbNdAzLsSWvqoqG0r KCorltoxBzSIkExoCAr1CGWkkg4?key=SUK8ROE1PIwz1Zc9KTc WB8P — *Fig. 2: Canalización unificada de BI e IA/ML (Imagen del autor)*

Los datos fuente, tanto estructurados como no estructurados, se incorporan a la capa Bronce (bronze), donde se limpian y estandarizan en la capa Plateada (silver), y se modelan y transforman posteriormente en la capa Oro (gold). Los datos ya están listos para ser utilizados por las canalizaciones de inteligencia empresarial (BI) y machine learning (ML).

En realidad, sin embargo, vemos que estos datos seleccionados/procesados se trasladan a otra ubicación, por ejemplo, a depósitos de almacenamiento en la nube u otro lago de datos, donde se transforman aún más como parte del entrenamiento e implementación del ML.

Por lo tanto, la Fig. 2, en un entorno empresarial, se parece a la Fig. 3 (abajo):

AD 4nXfVL7rvrn13tTPt744CMxh769j4U DJRflfhcI0 JPDKvKEDP mW NQNoctCLGTTV7WpOH WDGZdp5S en81K5GNWzfY3olyjcJRW9Rlgfr05kMPMovyhrudqT2 UsjWaHgwH7AKypHSHicF j ZEs?key=SUK8ROE1PIwz1Zc9KTc WB8P — *Fig. 3: Procesamiento de datos en pipelines de DataOps y MLOps (imagen del autor)*

El (pre)procesamiento de datos de MLOps se centra en trasladar los datos de la fuente al modelo de machine learning (ML), sin incluir necesariamente cómo se ejecuta el modelo en los propios datos. Esto suele incluir una serie de transformaciones que respaldan un algoritmo de aprendizaje. Por ejemplo, un científico de datos puede optar por construir una canalización de regresión lineal o una canalización de análisis factorial exploratorio para respaldar los modelos de ML.

El entrenamiento y la validación de ML requieren funciones más complejas que las que ofrecen las herramientas tradicionales de extracción, transformación y carga (ETL).

Esto suele ocurrir en el procesamiento, la agregación y la regresión de datos complejos. El enfoque recomendado en este caso es complementar la estrategia de procesamiento de datos con flujos de grafos acíclicos dirigidos (DAG).

A diferencia del flujo de datos más lineal en el caso de la inteligencia empresarial (BI), los flujos DAG admiten grafos dirigidos escalables para el enrutamiento de datos, la transformación estadística y la lógica del sistema. Herramientas como Apache Airflow facilitan la creación, la gestión y el mantenimiento asociados con los flujos DAG, que posteriormente pueden crearse programáticamente para integrarse con las canalizaciones ETL. Huelga decir que esto genera redundancia y fragmentación de los pipelines de DataOps y MLOps. Cabe señalar que, actualmente, DataOps se relaciona más con la inteligencia empresarial (BI) y el análisis estructurado, mientras que MLOps aborda todo el pipeline de machine learning (ML) con el (pre)procesamiento de datos integrado.

Los proveedores de plataformas de datos han comenzado a trabajar en este sentido, y hemos visto algunas propuestas iniciales para resolverlo. Snowflake ofrece la API de Python de Snowpark, que permite entrenar e implementar modelos de ML dentro de Snowflake. Snowpark permite a los científicos de datos usar Python (en lugar de escribir código en SQL).

Google Cloud Platform (GCP) ofrece BigQuery ML, una herramienta de GCP que permite entrenar modelos de ML usando únicamente SQL dentro del entorno de almacenamiento de datos de GCP. De igual forma, la API de datos de AWS Redshift facilita la interacción con Redshift de cualquier aplicación escrita en Python. Esto permite que un notebook de SageMaker se conecte al clúster de Redshift y ejecute comandos de la API de datos en Python. El análisis in situ proporciona una forma eficaz de extraer datos directamente a un cuaderno desde un almacén de datos en AWS.

3. Agentes de IA para la gestión de datos

En esta sección, mostramos cómo las tareas de gestión de datos mencionadas anteriormente (en un entorno empresarial) pueden rediseñarse mediante agentes de IA autónomos, lo que genera valor empresarial al adaptarse a la evolución de los entornos de datos (ilustrado en la Fig. 4):

Automatizando los flujos de datos (ingestión, modelado, transformación),
Operacionalizando la gobernanza y el cumplimiento normativo con la aplicación de políticas impulsada por IA;
Habilitando información y predicciones para la toma de decisiones empresariales en tiempo real.

AD 4nXfvxtMW82Maa2AYAnPAy4 dRLyUl IyyCxptUwCIiNBJSqC265faKBCi1yEI1pJ57zHmqgbHq4rG9qWxQVlcFfRElPaw0Q7cmzw5UOFccmnEAm709nuLoivTURexJL DzaEFllZRbqht1asMzt3pzg?key=SUK8ROE1PIwz1Zc9KTc WB8P — *Fig. 4: Agente de IA para la gestión de datos (imagen del autor)*

En la siguiente sección, mostramos la orquestación de Agente de IA para dos procesos fundamentales: la catalogación y la ingeniería de datos (almacenamiento).

3.1 Agentes de IA para la Catalogación de Datos

Los agentes autónomos pueden revolucionar la catalogación de datos al automatizar el descubrimiento, la clasificación y el enriquecimiento de metadatos. Esto implica la orquestación de múltiples agentes de IA que proporcionan una catalogación de datos integral en sistemas dispares. Estos agentes aprenden continuamente de las interacciones de los usuarios, lo que garantiza actualizaciones de metadatos en tiempo real, reconocimiento inteligente de entidades y etiquetado contextual.

Los principales agentes de catalogación de datos incluyen (ilustrados en la Fig. 5):

AD 4nXcEpjN4jJUfJ5o2XNj2p RDiV1NEybpE4X8bUSm6FOxgHhrty0SPV6ZcQ6xqYg9jww9CkRd8CIr4t6EuXhpVqdJV1vYpU3nuDr068WUiBK63 zK5MYmu5 D0qKUJa21jXUJqQWD25Mym7pmz9vssw?key=SUK8ROE1PIwz1Zc9KTc WB8P — *Fig. 5: Agentes de catalogación de datos básicos (imagen del autor)*

Agente supervisor: escanea los sistemas fuente empresariales en busca de datos nuevos y relevantes, asignando y programando tareas a los agentes.
Agente de descubrimiento de datos: realiza la extracción autónoma de entidades para detectar relaciones y aplicar enriquecimiento de metadatos.
Agente de integración de datos: proporciona una integración fluida con sistemas empresariales ERP, CRM, etc., lo que permite actualizaciones del catálogo en tiempo real.
Agente de validación de metadatos: realiza comprobaciones de consistencia de metadatos, detectando duplicados y garantizando la precisión del mapeo de relaciones.
Agente de observabilidad de datos: rastrea continuamente el linaje de los datos, aplica políticas de seguridad y control de acceso, y garantiza el cumplimiento normativo.

3.2 Agentes de IA para la Ingeniería de Datos

Los agentes de IA puede revolucionar el almacenamiento de datos mediante la automatización de las canalizaciones de datos, la optimización de consultas y la evolución de esquemas. Esto implica la orquestación de múltiples agentes, cada uno especializado en las áreas clave del almacenamiento de datos: ingesta de datos, modelado, transformación y generación de insights.

Por ello, los principales agentes de ingeniería de datos se ilustran a continuación en la Fig. 6:

AD 4nXfmOkNpXmLfYaLr4MV8rIUqkf0vS09glEPEOPQ6fgFhew40bontwrON4AFtFVIfk7 SITYNAw8tf1EyfVfje4faX7QY4U8HEoZAmoYPsdBAEgGCqTjGHhW rjAnbWG9cA5ySvgdY1HDG0X4sksQ7cU?key=SUK8ROE1PIwz1Zc9KTc WB8P — *Fig. 6: Agentes de Ingeniería de Datos Principales (Imagen del Autor)*

Agente supervisor: programa trabajos por lotes y en tiempo real, automatizando la ingesta desde fuentes por lotes y de streaming.
Los agentes ETL proporcionan automatización integral de los flujos de datos, que abarca la ingesta, el modelado y la transformación de datos.
Agente de calidad de datos: realiza comprobaciones de calidad, integridad y consistencia de los datos, deduplica registros, etc.
Agente de modelado y ajuste de datos: ajusta dinámicamente los esquemas y la indexación en función de la detección de desviaciones del esquema y las tendencias de las consultas de los usuarios, adaptando automáticamente las estructuras de las tablas.
Agente de observabilidad de datos: supervisa continuamente el rendimiento del almacén de datos y ajusta automáticamente los flujos de datos para optimizar la velocidad y la rentabilidad.

3.3 Arquitectura de referencia de IA de agente para la gestión de datos

En esta sección, describimos los módulos clave de una plataforma de referencia de IA agentic para la gestión de datos (ilustrada en la Fig. 7):

Módulo de razonamiento: para descomponer tareas complejas y adaptar su ejecución para lograr el objetivo establecido.
Módulo de mercado agentic: de agentes existentes y disponibles.
Módulo de orquestación: para orquestar y supervisar (observar) la ejecución de sistemas multiagente.
Módulo de integración: para la integración con sistemas fuente empresariales.
Gestión de memoria compartida para compartir datos y contexto entre agentes.
Capa de gobernanza, que incluye explicabilidad, privacidad, seguridad, etc.

AD 4nXdEbkLWiZH5vymCbqbRPHjjT8G43rS3msrbqb7FE0PFSqlk9gMxEmKofs3fYVO4VNDiYVdcv8G49D2QwwjjDQZTjATPe3HXmDJK hKe3a hxKLyvZlYqY WETFJhVWnSrsGMktHOg4zqdtOjfwSSlE?key=SUK8ROE1PIwz1Zc9KTc WB8P — *Figura 7: Plataforma de Agente de IA para la gestión de datos (imagen del autor)*

Dada una tarea de usuario (gestión de datos), el objetivo de la plataforma de IA con agentes es identificar (componer) un agente (grupo de agentes) capaz de ejecutar dicha tarea. Por lo tanto, el primer componente necesario es un módulo de razonamiento capaz de descomponer una tarea en subtareas, con la ejecución de los respectivos agentes orquestada por un motor de orquestación.

Un enfoque de alto nivel para resolver estas tareas complejas implica: (a) la descomposición de la tarea compleja dada en (una jerarquía o flujo de trabajo de) tareas simples, seguida de (b) la composición de agentes capaces de ejecutar las tareas (más simples). Esto puede lograrse de forma dinámica o estática. En el enfoque dinámico, dada una tarea de usuario compleja, el sistema crea un plan para satisfacer la solicitud en función de las capacidades de los agentes disponibles en tiempo de ejecución.

En el enfoque estático, dado un conjunto de agentes, los agentes compuestos se definen manualmente en tiempo de diseño, combinando sus capacidades. La Cadena de Pensamiento (CoT) es el marco de descomposición más utilizado actualmente para transformar tareas complejas en múltiples tareas manejables y arrojar luz sobre la interpretación del proceso de pensamiento del modelo.

La composición de agentes implica la existencia de un mercado o registro de agentes, con una descripción clara de sus capacidades y limitaciones. Los agentes de gestión de datos relevantes en este caso incluyen:

Agente de descubrimiento de datos
Agente de procesamiento de datos
Agente de modelado de datos
Agente de generación de insights
Agente de calidad de datos (y metadatos)
Agente de observabilidad de datos

Dada la necesidad de orquestar múltiples agentes, se requiere un módulo de integración de datos que admita diferentes patrones de interacción entre agentes, por ejemplo, API de agente a agente, API de agente que proporcione resultados para el consumo humano, activación humana de un agente de IA, IA de agente a agente con un humano en el bucle. Los patrones de integración deben ser compatibles con la plataforma del sistema operativo del agente subyacente.

Andrew Ng habló recientemente sobre este aspecto desde una perspectiva de rendimiento:
Hoy en día, gran parte de la salida de LLM es para el consumo humano. Sin embargo, en un flujo de trabajo de agencia, un LLM podría recibir solicitudes repetidas para reflexionar y mejorar su salida, usar herramientas, planificar y ejecutar múltiples pasos o implementar múltiples agentes que colaboren. Por lo tanto, podríamos generar cientos de miles de tokens o más antes de mostrar cualquier resultado a un usuario. Esto hace que la generación rápida de tokens sea muy deseable y convierte la generación lenta en un obstáculo para aprovechar mejor los modelos existentes.

Esto incluye la integración con múltiples sistemas de origen empresarial (por ejemplo, ERP, CRM) que serán necesarios para la mayoría de los casos de uso. Por ejemplo, consulte el Protocolo de Contexto de Modelo (MCP) propuesto recientemente por Anthropic para conectar agentes de IA a sistemas externos donde residen datos empresariales.

Dada la naturaleza de larga duración de estas tareas complejas, la gestión de memoria es clave para los sistemas de IA con agentes.

Esto implica compartir el contexto entre tareas y mantener el contexto de ejecución durante largos periodos.

El enfoque estándar consiste en guardar la representación incrustada de la información del agente en una base de datos de almacenamiento vectorial que admita la búsqueda máxima interna de productos (MIPS). Para una recuperación rápida, se utiliza el algoritmo de vecinos más cercanos aproximados (RNA), que devuelve aproximadamente los k vecinos más cercanos principales con una compensación entre precisión y una gran ganancia de velocidad.

Finalmente, el módulo de gobernanza de datos. Necesitamos garantizar que los datos compartidos por el usuario específicos de una tarea, o los datos del perfil de usuario que abarcan varias tareas, solo se compartan con los agentes relevantes (autenticación de tablas/informes y control de acceso). Consulte mi artículo anterior sobre agentes de IA responsables para obtener un análisis de las dimensiones clave necesarias para permitir una plataforma de agentes de IA bien gobernada en términos de barandillas de alucinación, calidad de datos, privacidad, reproducibilidad, explicabilidad, etc.

Conclusión

El Agente de IA es un paradigma poderoso con el potencial de transformar muchos procesos de negocio predominantes en las empresas actuales. En este artículo, nos centramos en el proceso de gestión de datos. Si bien a menudo nos centramos en el aspecto de los datos, en términos de proporcionar datos de buena calidad para habilitar sistemas de Agente de IA, en este artículo mostramos cómo el proceso de gestión de datos puede rediseñarse aprovechando la Agente de IA.

En particular, aplicamos el Agente de IA a dos procesos fundamentales de gestión de datos: catalogación e ingeniería de datos (almacenamiento), describiendo los agentes de IA específicos para cada tarea, relevantes para ambos escenarios. Finalmente, describimos la arquitectura de referencia de una plataforma de IA agentica que puede componer y orquestar dichos agentes (para la gestión de datos) de forma autosostenible.

Dada la importancia de los datos para toda la IA, incluyendo la IA generativa y el Agente de IA, creemos que una gestión de datos eficiente (habilitada para IA agentica) tiene el potencial de generar significativamente valor empresarial al adaptarse de forma autónoma a los procesos empresariales en evolución.

Agente de IA para Data Engineering

PorDebmalya Biswas

1. Introducción

2. Introducción a la gestión de datos

3. Agentes de IA para la gestión de datos

3.1 Agentes de IA para la Catalogación de Datos

3.2 Agentes de IA para la Ingeniería de Datos

3.3 Arquitectura de referencia de IA de agente para la gestión de datos

Conclusión

Por Debmalya Biswas

Entrada relacionada

Personalización a escala: chatbots de IA como asistentes de compras digitales

Abordar el no determinismo en la Agentic AI con causalidad e introspección

Nano Banana y el auge de las figuras 3D personalizadas

Deja una respuesta Cancelar la respuesta

You missed

Personalización a escala: chatbots de IA como asistentes de compras digitales

Abordar el no determinismo en la Agentic AI con causalidad e introspección

Nano Banana y el auge de las figuras 3D personalizadas

Diseño de un módulo de gestión de solicitudes y quejas con un sistema de chat dual