El perfeccionamiento de los modelos de lenguaje se convertirá en algo tan rutinario como las actualizaciones diarias de software. Los modelos más pequeños, optimizados para tareas específicas, irán ganando terreno. El framework NeMo y la plataforma de microservicios de NVIDIA están a la vanguardia de este cambio, permitiendo a los desarrolladores perfeccionar modelos como Llama-3.2–1B-Instruct con precisión y escalabilidad.

Al utilizar un enfoque de rueda de inercia de datos, se crea un ciclo que se refuerza a sí mismo, donde las interacciones del usuario generan datos para mejorar los modelos.
He visto enfoques de rueda de inercia de datos en acción con sistemas de chatbots y bots de voz, incluyendo el entrenamiento semanal de modelos acústicos ASR y las actualizaciones diarias de los modelos NLU.
Tabla de contenidos
Ajuste preciso rutinario de modelos de lenguaje
El enfoque de NVIDIA amplía este principio mediante la integración de un sistema de datos:
- las interacciones del usuario generan datos de retroalimentación,
- que se seleccionan,
- se utilizan para ajustar los modelos,
- se evalúan y
- se implementan con medidas de seguridad para garantizar la precisión y la seguridad.

De nuevo, esto refleja mi experiencia con chatbots y bots de voz, donde los bucles de datos continuos mejoraron el rendimiento de NLU y ASR. Los microservicios NeMo de NVIDIA amplifican este proceso, haciéndolo modular y acelerado por GPU para aplicaciones empresariales.
Acceso
Utilicé la interfaz de usuario de NVIDIA Launchpad, como se muestra a continuación…

Permite acceder a un marco de desarrollo con dos GPU NVL PCIe H100. A continuación, se muestra el resultado de la interfaz de línea de comandos al ejecutar el comando:
docker run --rm --gpus all nvidia/cuda:12.4.1-base-ubuntu22.04 nvidia-smi
Output…

Cuaderno 1: Configuración y preparación de datos
El primer cuaderno, 00_setup.ipynb, sienta las bases para el flujo de trabajo de llamadas a herramientas.
Le guía en la configuración del entorno, la instalación de dependencias y la preparación del conjunto de datos de llamadas a funciones de xLAM.

Este conjunto de datos contiene ejemplos de llamadas a funciones, lo que permite que el modelo aprenda a identificar y ejecutar herramientas.
La configuración aprovecha NeMo Datastore de NVIDIA para una gestión eficiente de datos y NeMo Entity Store para la representación estructurada del conocimiento.
Este paso es fundamental para crear un conjunto de datos de alta calidad, similar a la selección de datos de entrenamiento para modelos ASR o NLU, lo que garantiza que el modelo aprenda de ejemplos relevantes y bien estructurados.
Cuaderno 2: Ajuste de Llama-3.2–1B-Instruct
El segundo cuaderno, 01_finetune.ipynb, se centra en el ajuste del modelo Llama-3.2–1B-Instruct utilizando el conjunto de datos xLAM.
El microservicio NeMo Customizer de NVIDIA optimiza este proceso, aplicando técnicas aceleradas por GPU para adaptar el modelo a las tareas de llamada de herramientas.
El ajuste ajusta los pesos del modelo para reconocer patrones en los datos de llamada de funciones.
En este paso es donde el ciclo de datos comienza a girar: los datos seleccionados de las interacciones del usuario (o equivalentes sintéticos) refinan el modelo, mejorando su capacidad para detectar e invocar herramientas con precisión. El resultado es un modelo ligero, específico para cada tarea y optimizado para el rendimiento.
Cuaderno 3: Inferencia con llamadas a herramientas
El tercer cuaderno, 02_inference.ipynb, muestra cómo el modelo optimizado realiza llamadas a herramientas durante la inferencia. Mediante los microservicios de inferencia NeMo (NIM) de NVIDIA, el modelo procesa consultas, identifica herramientas relevantes y ejecuta llamadas a la API o flujos de trabajo dinámicos.
Esto es similar a un chatbot que detecta la intención del usuario y consulta un servicio de backend.
El cuaderno integra NeMo Guardrails para aplicar restricciones de seguridad, garantizando así la precisión y el cumplimiento de los resultados del modelo.
Esta interacción en tiempo real genera nuevos datos, alimentando el ciclo de trabajo para futuras iteraciones, de forma similar a como las interacciones de los usuarios en mis proyectos de chatbot impulsaron la mejora continua.
Cuaderno 4: Evaluación y mejora continua
El cuaderno final, 03_evaluation.ipynb, utiliza NeMo Evaluator para evaluar el rendimiento del modelo optimizado.
Los resultados de la evaluación informan el siguiente ciclo de curación y optimización de datos, cerrando así el ciclo de ciclo de datos.
Al automatizar la evaluación, NVIDIA garantiza que los modelos se mantengan alineados con los cambios del negocio, al igual que el reentrenamiento frecuente de NLU mantuvo la capacidad de respuesta de nuestros bots de voz.
Por último
Finalmente, el ajuste fino será cada vez más común. El volante de inercia de datos de NVIDIA, que utiliza herramientas, ofrece una visión del futuro del desarrollo de IA.
Los cuatro cuadernos del repositorio GenerativeAIExamples muestran un flujo de trabajo completo (configuración, ajuste fino, inferencia y evaluación) que permite a los desarrolladores crear LLM eficientes y especializados.
Este enfoque, basado en los mismos principios basados en datos que he aplicado en sistemas de chatbots y bots de voz, está destinado a democratizar la personalización de la IA.
Al escalar el volante de inercia de datos, NVIDIA está allanando el camino hacia un mundo donde los modelos optimizados y más pequeños generan un gran impacto.
Sígueme en LinkedIn
Chief Evangelist @ Kore.ai | Me apasiona explorar la intersección de la IA y el lenguaje. Desde modelos lingüísticos y agentes de IA hasta aplicaciones agenéticas, marcos de desarrollo y herramientas de productividad centradas en los datos, comparto ideas sobre cómo estas tecnologías están dando forma al futuro.

