Tabla de contenidos
Introducción
Los agentes de IA se enfrentan a retos importantes al intentar interactuar significativamente con la web, más allá de simples consultas de búsqueda.
Si bien los servidores web MCP (Protocolo de Contexto de Modelo) pueden facilitar las operaciones de búsqueda, el mayor desafío reside en navegar y comprender interfaces web complejas diseñadas para la interacción humana.
Tomar capturas de pantalla e intentar mapear páginas web representa una solución alternativa rudimentaria que carece de la comprensión semántica necesaria para una automatización eficaz.
El problema fundamental es que la mayor parte del contenido web está estructurado para el consumo visual en lugar del acceso programático, con elementos dinámicos, diseños complejos y componentes interactivos que dificultan el análisis simple.

MCP podría ser útil al proporcionar interfaces más estructuradas para la interacción web, estandarizando cómo los agentes de IA acceden y manipulan los recursos web mediante protocolos bien definidos, en lugar de depender de la interpretación visual.
Sin embargo, el ecosistema MCP actual aún está evolucionando, y aún está por verse si desarrollará soluciones robustas para la navegación web compleja.
La solución ideal implicaría estándares web que expongan la estructura semántica y la funcionalidad en formatos fáciles de usar para los agentes. Sin embargo, hasta que estos estándares se adopten ampliamente, los agentes de IA seguirán luchando con la brecha entre el diseño web orientado a las personas y las necesidades de acceso web programático.
De vuelta al estudio
Un estudio reciente destaca correctamente que los enfoques actuales (agentes de IA basados en navegador y mejorados con API) enfrentan desafíos significativos debido a su dependencia de interfaces web diseñadas por humanos.
El navegador web está diseñado para usuarios y desarrolladores humanos, no para sistemas de IA agénticos.
Si bien el estudio plantea puntos valiosos y que invitan a la reflexión, carece de los detalles concretos necesarios para materializar plenamente un nuevo paradigma de interacción, a diferencia de investigaciones más prácticas en artículos como arXiv:2505.10609 y arXiv:2505.22368.
Sin embargo, es pertinente explorar el estado actual de los agentes de IA web, sus limitaciones y una solución propuesta: las interfaces web agénticas (AWI).
Los agentes de IA web funcionan imitando las interacciones humanas con los sitios web.
Reciben tareas en lenguaje natural (por ejemplo, «encontrar zapatos blancos talla 46»), realizan acciones como hacer clic o escribir con herramientas como Playwright y evalúan el éxito con funciones de recompensa.
Existen dos tipos principales:
- Los agentes de IA basados en navegador interactúan únicamente con las interfaces de usuario (IU) de los sitios web, utilizando capturas de pantalla, árboles del Modelo de Objetos de Documento (DOM) o árboles de accesibilidad para comprender las páginas web.
- Los agentes híbridos mejorados con API combinan las interacciones de la IU con las llamadas a la API web para lograr mayor eficiencia, como la obtención directa de datos.
Ambos enfoques presentan dificultades porque las interfaces diseñadas por humanos (IU complejas o API limitadas) no están optimizadas para los agentes de IA, lo que genera ineficiencias y riesgos.
Sin embargo, existe la posibilidad de readaptar la web existente y que el agente de IA se comporte como un humano.
Los desafíos de los enfoques actuales
Los agentes de IA basados en navegador se basan en capturas de pantalla visuales o árboles DOM, pero cada uno presenta sus defectos.

Las capturas de pantalla no detectan elementos ocultos (por ejemplo, menús desplegables), mientras que los árboles DOM son computacionalmente costosos.
Los agentes de IA también sobrecargan los servidores web mediante renderizados repetidos, lo que activa defensas como CAPTCHAs que dificultan la accesibilidad humana.
Peor aún, su acceso a los datos del navegador (por ejemplo, las contraseñas) plantea riesgos para la privacidad, como compras no autorizadas.
Agentes de IA híbridos mejorados con API
Los agentes de IA híbridos utilizan API para sortear algunas limitaciones de la interfaz de usuario (IU), pero su funcionalidad es limitada y no pueden gestionar tareas como la clasificación de productos sin un esfuerzo significativo del desarrollador.
Las llamadas frecuentes a la API pueden generar límites de velocidad, lo que obliga a recurrir a interacciones de IU ineficientes.
La seguridad es una preocupación, ya que los agentes de IA que utilizan API internas pueden eludir medidas de seguridad como la autenticación de dos factores, lo que supone el riesgo de acceso no autorizado y altos costes derivados de un uso incontrolado.
El estudio argumenta que obligar a los agentes de IA a adaptarse a interfaces humanas es un error. En su lugar, propone interfaces de usuario (AWI), diseñadas específicamente para agentes de IA.
¿Un nuevo paradigma? Interfaces web agénticas (AWI)
Las AWI buscan abordar estos problemas mediante la creación de una capa de interacción
- estandarizada
- y optimizada para agentes de IA.
El estudio describe los principios rectores:
- Las AWI deben ser estandarizadas,
- centradas en el usuario,
- seguras, eficientes
- y fáciles de usar para los desarrolladores.
El estudio también ofrece sugerencias concretas.
Acciones unificadas de alto nivel
Las IAWI podrían usar acciones como «ir a» para combinar pasos (por ejemplo, escribir una URL y presionar Enter) y así mantener la coherencia entre sitios web.
Compatibilidad de la interfaz de usuario
Herramientas bidireccionales como Playwright podrían sincronizar los estados de las IAWI y la interfaz de usuario, garantizando la compatibilidad con los navegadores.
Control de acceso
Las listas de control de acceso y la biometría podrían limitar el acceso de los agentes de IA a datos confidenciales, mejorando así la seguridad.
Transferencia progresiva de información
Enviar solo los datos necesarios (por ejemplo, imágenes redimensionadas) podría reducir el ancho de banda y los costos.
Colas de tareas
Limitar la concurrencia de agentes y distribuir el uso podría evitar la sobrecarga del servidor, beneficiando a los usuarios.
Valor y deficiencias del estudio
El estudio aboga por las interfaces de usuario (AWI) de alto rendimiento (AWI) y destaca la discordancia entre las interfaces humanas y las capacidades de la IA.
Plantea problemas críticos, como la ineficiencia computacional y los riesgos de seguridad, a la vez que propone una solución innovadora.
Pero…
Sus sugerencias carecen de la profundidad necesaria para una implementación práctica.
Por ejemplo, no aborda cómo estandarizar las AWI en diversos sitios web ni cuantificar sus mejoras de eficiencia.
Por el contrario, estudios como arXiv:2505.10609 y arXiv:2505.22368 proporcionan marcos detallados para el diseño de agentes web, incluyendo algoritmos específicos y métricas de evaluación, lo que los hace más prácticos para los desarrolladores.
Mirando hacia el futuro
Los agentes de IA web (que usan el navegador) tienen un potencial inmenso, pero su dependencia de interfaces diseñadas por humanos genera ineficiencias y riesgos.
Las IA podrían revolucionar la forma en que los agentes de IA navegan por la web, pero las ideas generales del estudio requieren un desarrollo más concreto.
Sígueme en LinkedIn
Chief Evangelist @ Kore.ai | Me apasiona explorar la intersección de la IA y el lenguaje. Desde modelos lingüísticos y agentes de IA hasta aplicaciones agenéticas, marcos de desarrollo y herramientas de productividad centradas en los datos, comparto ideas sobre cómo estas tecnologías están dando forma al futuro.

