10v 6 ysYriPgTQ8pRbwOww

Llevo más de cinco años desarrollando con LLM en producción, desde la versión beta de gpt-3. El panorama ha evolucionado desde «solo usar OpenAI» hasta una amplia gama de proveedores, cada uno con sus propias ventajas y desventajas. Esto es lo que he aprendido sobre cómo elegir el más adecuado para cada caso de uso.

Tabla de contenidos

La simple verdad sobre los proveedores de LLM

Cada proveedor tiene ventajas y desventajas. No existe un «mejor» universal, solo diferentes herramientas optimizadas para diferentes tareas. Tras años desarrollando en este ámbito, he desarrollado algunas heurísticas que realmente funcionan.

Para elegir el proveedor adecuado, optimiza tus limitaciones. Pueden ser la latencia, el coste, la fiabilidad o la calidad del modelo. Elige uno, o quizás dos. No puedes tener los cuatro.

La buena noticia: la dependencia de un proveedor ha terminado. Ahora todos admiten API compatibles con OpenAI, por lo que cambiar de proveedor suele consistir simplemente en cambiar la URL base.

Un recorrido por los proveedores

OpenAI: El punto de partida obvio

OpenAI sigue siendo el único proveedor de sus modelos GPT y ha facilitado notablemente el inicio. Su plan gratuito es generoso: alrededor de $500 al mes si permites que usen tus datos para entrenamiento (algo con lo que muchos prototipos pueden funcionar).

La experiencia del desarrollador es inigualable. Buena documentación, API estables y cada tutorial asume que las estás usando. Pagas una prima, pero cambiar de plataforma más adelante es muy sencillo gracias a la compatibilidad con las API.

Anthropic: Donde viven los programadores

Claude se ha convertido en el modelo predilecto para tareas de programación. Hay algo en la forma en que se entrenaron estos modelos que los hace particularmente efectivos para comprender y generar código. Si no desarrollas funciones de programación, generalmente puedes encontrar algo más económico en otro lugar.

Su modelo Opus es realmente de vanguardia para tareas de razonamiento complejas. Cuando necesitas el máximo rendimiento en problemas sofisticados, Claude Opus y las últimas novedades de OpenAI son tus únicas opciones reales.

Estos son los resultados de las pruebas de rendimiento en vivo que muestran a los modelos Anthropic en la cima (si excluimos los modelos de razonamiento).

El predominio de los modelos Anthropic para la programación es innegable; los desarrolladores los prefieren no solo por su capacidad general de programación, sino también por su estilo y gusto por el frontend.

Inference.net: Barato como la seda con expertos en ajuste fino

image 12

Inference.net tiene una estrategia más ingeniosa: arbitran los precios de computación, comprando capacidad no utilizada cuando está barata. Las granjas de GPU y las nubes no siempre tienen capacidad de computación, y cuando está infrautilizada, Inference interviene y la utiliza para la inferencia LLM.

Esto les permite ofrecer precios de inferencia muy económicos. La verdadera ventaja de Inference reside en las solicitudes que no requieren una respuesta inmediata. Si una solicitud no requiere una respuesta inmediata, Inference puede esperar hasta que haya recursos computacionales económicos disponibles y luego devolver la respuesta mediante un webhook o la API por lotes más escalable disponible.

Para la clasificación masiva a escala de internet, son la clara opción. Te ayudarán a entrenar modelos más pequeños y específicos para cada tarea para reducir costos, o a ejecutar modelos pequeños predeterminados cuando sean suficientes.

También cuentan con un equipo interno para entrenar modelos personalizados, lo que los distingue. Si observas que los modelos abiertos son demasiado caros o lentos para tu caso de uso, contáctanos y te entrenarán un modelo mejor y lo alojarán por ti.

Groq, Cerebras y SambaNova: Demonios de la velocidad

Estos proveedores utilizan silicio personalizado (LPU de Groq, chips a escala de oblea de Cerebras) para lograr una latencia realmente increíble. Tiempos de procesamiento hasta el primer token consistentemente inferiores a 200 ms y tokens por segundo de primer nivel, y ningún otro se acerca.

Pero esta es la realidad: alojan muy pocos modelos grandes. Sí, se puede ejecutar DeepSeek o Kimi en ellos, pero tienen problemas de capacidad y su precio los hace completamente inadecuados si se optimiza el costo. Mi enfoque: usar sus niveles gratuitos para rutas críticas de latencia (interfaces de voz, funciones en tiempo real) y luego recurrir a proveedores convencionales. Son proveedores de ráfagas, no de gran volumen.

Sin embargo, los modelos de transcripción (susurro) de Groq son excelentes. Superrápidos y razonablemente económicos.

Google: Bastante, bastante, bastante bueno.

La posición de Google es fascinante. Son competitivos en modelos de razonamiento tanto pequeños como grandes, con una latencia excelente y precios competitivos. Gemini Flash y Flash‑Lite son realmente rápidos y económicos. Sus planes gratuitos son generosos, y si eres una startup o empresa, podrías negociar créditos. Son rápidos, económicos y escalan bien.

La desventaja: modelos de código cerrado. Muchas empresas prefieren ponderaciones abiertas que puedan auditar e implementar localmente. Los equipos que solo buscan una inferencia que funcione recurren cada vez más a Google.

Es realmente difícil pensar en algo negativo que decir sobre Google como proveedor de LLM, aparte del hecho de que, en ocasiones, los modelos de SO superan a los de Google en rendimiento. Aun así, los grandes laboratorios, Google y los SO están en constante lucha, y Google siempre es un actor importante.

Un aspecto de Google es que sus ofertas son extremadamente confusas, entre Vertex AI y Gemini.

Así es como yo usaría Google:

  1. Son muy sensibles al precio. Flash de Google también es el líder indiscutible del mercado actual en casos de uso de modelos pequeños, como la traducción y la clasificación.

Together y Fireworks: Los almacenes de GPU

Together ha creado un clúster de GPU gigantesco que puede ejecutar una amplia gama de modelos de código abierto. Son fiables y de nivel empresarial, y sus precios lo reflejan: han ido subiendo poco a poco en comparación con Inference, Novita y Deepinfra. Un privilegio que obtienen por ser uno de los primeros proveedores de inferencia de nivel empresarial. Fireworks comenzó como especialista en optimización de inferencia, pero también ha ascendido en el mercado. Sigue siendo conocido por su inferencia rápida y fiable. Se dice que Fireworks mantiene precios bajos utilizando GPU AMD de TensorWave a precios muy económicos.

Ambas son opciones sólidas cuando se necesita ejecutar modelos abiertos específicos a escala con acuerdos de nivel de servicio (SLA) reales. Elija la opción más rápida o económica para su modelo específico.

DeepInfra y Novita: Compitiendo a la baja

DeepInfra y Novita están dirigidas por ingenieros expertos que se encuentran entre los mejores del mundo en la optimización del servicio de modelos. Su objetivo es liderar las clasificaciones de precios de OpenRouter y harán todo lo posible para ofrecer los modelos al menor precio posible. Lo interesante es que Novita ha optado recientemente por un enfoque empresarial, al estilo de Together y Fireworks, manteniendo precios muy competitivos. DeepInfra va aún más allá y ofrece modelos a un precio similar al de la electricidad.

Mistral: La estrategia empresarial

Mistral ha dominado las ventas empresariales. Son franceses, utilizan modelos de código abierto y son excepcionalmente buenos para gestionar los departamentos de compras. Si su empresa necesita una implementación local o garantías de cumplimiento específicas, Mistral trabajará con usted. Si es una empresa europea y quiere asegurarse de cumplir con las normativas, son una excelente opción.

Los desarrolladores individuales rara vez eligen Mistral. Su API de análisis de documentos existe, pero no es competitiva; proveedores especializados como Reducto y Chunkr lo hacen mucho mejor. Esta es una empresa optimizada para vender a grandes organizaciones, no a hackers independientes.

Hoja de referencia para proveedores de LLM (Edición 2025)

Aquí tienes mi hoja de referencia sencilla si no quieres leer todo lo anterior.

¿Necesitas velocidad para crear prototipos? → ¿Codificación con OpenAI? → Anthropic Claude ¿Voz en tiempo real? → Groq (hasta agotar la cuota) ¿Trabajos por lotes/asincrónicos? → Inference.net, Google ¿PDF complejos? → Reducto, Chunkr (evitaría usar proveedores de LLM puros, que no son muy buenos para el análisis de documentos) ¿Empresas con un alto nivel de cumplimiento normativo? → Mistral, Azure ¿Variedad de modelos abiertos a escala? → DeepInfra, Fireworks Inferencia a bajo coste: Inference.net, DeepInfra Destilación/ajuste de modelos sin experiencia: Inference.net

Lo que realmente hago

Solo uso OpenRouter. Todos los proveedores tienen problemas de fiabilidad y OpenRouter se encarga de ello. Sin embargo, usar OpenRouter no es una buena opción si necesitas acuerdos de nivel de servicio (SLA) empresariales o quieres ahorrarte su comisión del 5,5 %. Muchos usuarios empiezan con OpenRouter y luego migran a un único proveedor que se adapta a sus necesidades. La dependencia de un proveedor ya no es un problema y normalmente elijo la opción más económica.

El «Mejor» Proveedor

El «mejor» proveedor cambia mensualmente. Se lanzan nuevos modelos, los precios cambian y los niveles gratuitos desaparecen. La única estrategia ganadora es mantener una conexión flexible y abaratar el cambio.

Con APIs compatibles con OpenAI en todas partes, la portabilidad es extremadamente sencilla. Desarrolla con esto en mente desde el primer día o simplemente usa OpenRouter y podrás buscar la mejor relación precio/rendimiento a medida que el mercado evoluciona.

Siempre me interesa saber cómo otros navegan por este panorama; contáctame en Twitter: @michael_chomsky.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *