Un prompt bien construido encapsula toda la información necesaria, garantizando que el Agente de IA genere respuestas precisas y ejecute las tareas con eficacia.
Combinando sistemáticamente componentes específicos, el prompt proporciona un marco completo para que el LLM funcione de forma óptima.
Los 6 elementos esenciales de AI Agent Prompt Engineering son los siguientes:
Tabla de contenidos
1. Solicitud del usuario:
Se trata de la descripción original de la tarea proporcionada por el usuario, que describe el objetivo y el resultado deseado. Sirve como base para las acciones del agente, asegurando que el LLM entiende con precisión el contexto y el alcance de la tarea.
2. Instrucciones del agente:
Unas instrucciones claras y detalladas guían el funcionamiento del agente, especificando su papel, las reglas a seguir y los resultados esperados.
Este componente enmarca el proceso de inferencia, esbozando qué entradas manejará el agente y qué salidas debe producir el LLM.
3. Estados del entorno:
El prompt incluye capturas de pantalla de la GUI y datos de la UI que representan la percepción del entorno por parte del agente.
Múltiples versiones de las capturas de pantalla, como versiones limpias y anotadas, ayudan a mitigar posibles obstrucciones. Esta información multimodal es crucial para tomar decisiones y ejecutar tareas con precisión.
4. Documentos a utilizar:
Esta sección detalla las acciones disponibles para el Agente AI, incluyendo nombres de funciones, argumentos, valores de retorno y otros parámetros.
Proporcionar esta documentación dota al LLM del contexto necesario para seleccionar las acciones apropiadas de forma eficiente.
5. Ejemplos de demostración:
Incluir pares de entrada-salida de ejemplo activa las capacidades de aprendizaje en contexto del LLM.
Estos ejemplos ilustran los requisitos de la tarea, ayudando al modelo a generalizar y mejorar su rendimiento en la ejecución de tareas relacionadas con la interfaz gráfica de usuario.
6. Otra información complementaria:
El contexto adicional, como los datos históricos de la memoria del agente o el conocimiento de fuentes externas como la RAG (Retrieval-Augmented Generation), perfecciona el proceso de toma de decisiones del agente.
Esta información complementaria mejora la capacidad del agente para planificar e inferir con precisión.
Al integrar estos seis elementos en un prompt, los Agentes de IA garantizan que los LLM estén bien equipados con el contexto y la orientación necesarios para realizar tareas de forma eficaz y fiable.
Este enfoque sistemático de Prompt Engineering maximiza la eficacia de los agentes de interfaz gráfica de usuario basados en LLM, permitiéndoles gestionar sin problemas las complejas peticiones de los usuarios.

