95% de los pilotos no llegan a producción. Esta guía es sobre los que sí — y los números que separan a unos de otros.
95%
de los pilotos de IA no escalan a producción
Gartner · S&P Global 2024
$13.8B
gasto empresarial en GenAI en 2024 · 6× vs 2023
Menlo Ventures · 2024
70–90%
ahorro en costo de inferencia con prompt caching
Anthropic · OpenAI · Google
16%
de los "agentes" en producción son agentes reales
LangChain State of AI 2024
Visión ejecutiva
Capítulo 01 · La cruda realidad
No es la capacidad del modelo. Es el encaje operativo con workflows fragmentados, sistemas legacy y silos de datos. La inversión es real. Los resultados también — pero solo para quienes tratan IA como ingeniería de sistemas.
95%
Pilotos que no escalan
La capacidad del modelo casi nunca es el bloqueador. Lo es la operación: datos, identidad, observabilidad, gobernanza.
Gartner · 20249 meses
Quema promedio antes de cancelar
Empresas que cancelan sin escalar pierden entre 6 y 12 meses de equipo, infra y oportunidad.
McKinsey · 202470%
Proyectos sobre presupuesto
Sobre-presupuesto promedio en proyectos GenAI empresariales que sí llegan a producción: +50% o más.
BCG · 20245×
ROI promedio del top 5%
Las empresas que sí escalan generan en promedio 5× retorno sobre inversión en 18 meses. La diferencia: madurez del stack.
Menlo Ventures · 2024Las 5 causas (en orden)
1. Datos fragmentados · 2. Sin observabilidad · 3. Sin HITL · 4. Riesgo no cubierto · 5. ROI mal medido
Lo que NO es
Capacidad del modelo. Hoy GPT-4, Claude o Gemini son suficientes para el 90% de casos empresariales.
Lo que SÍ es
Ingeniería de sistemas: convergencia de 9 disciplinas técnicas sobre una capa probabilística.
Capítulo 02 · La convergencia
Es la convergencia de 9 disciplinas técnicas sobre una capa probabilística. Pensar que IA es "elegir un modelo" es pensar que un banco es elegir un servidor. El 80% del costo y del riesgo está fuera del LLM.
80%
del costo NO es el modelo
El gasto real está en integración, observabilidad, gobierno y operación continua — no en tokens.
9
equipos que tienen que sincronizarse
Cada disciplina tiene su SLA, su roadmap y su tooling. La convergencia es organizacional, no solo técnica.
3–5×
más tiempo en integración que en modelo
Por cada hora seleccionando o ajustando un modelo, se gastan 3 a 5 conectándolo al sistema real.
Capítulo 03 · Composición
Mezclar las 5 lógicas con criterio es el arte. Usar LLM para todo es la quiebra. Cada operación tiene su modalidad óptima — y el costo varía hasta 50,000× entre ellas.
Costo / op
~$0.001
Determinista. Mismo input → mismo output. Sigue siendo la mayor parte del sistema.
Costo / inferencia
~$0.01
Estadístico pero estable. Mismo modelo + input → mismo output. Predicción y scoring.
Costo / request
$0.05–0.50
Probabilístico incluso con el mismo input. Sin estado entre llamadas a menos que se construya memoria explícita.
Costo / sesión
$1–10
LLM que planifica, ejecuta tools y se adapta. Solo 16% de los "agentes" en producción lo son de verdad.
Costo / intervención
$10–50
Punto explícito de aprobación o revisión. No es "último recurso" — es parte del diseño en toda acción irreversible.
Regla práctica
Usa la lógica más barata que resuelve. LLM solo donde la ambigüedad lo justifica.
Antipatrón frecuente
LLM-for-everything. Genera costos 10–100× mayores que la arquitectura híbrida correcta.
Diseño correcto
LLM decide qué hacer. Reglas deciden si se permite. Código ejecuta. HITL aprueba lo irreversible.
Capítulo 04 · No-negociables
6 elementos sin los cuales no es producción — es un demo en producción. Si llega a usuarios sin esto, los problemas no son si, son cuándo. El costo de no tenerlos es 10–100× el de implementarlos.
Observabilidad
Trace_id end-to-end con OpenTelemetry GenAI conventions. Spans para tool calls, retrieval, generación y guardrails.
p95 indiagnosticable sin estoHuman-in-the-loop
Aprobación humana para toda acción irreversible. Diseño explícito de la transición humano↔IA desde el día uno.
Reduce riesgo legal 70%+Identidad & scopes
Cada agente con identidad propia. Principio de mínimo privilegio. Audit trail de cada acción ejecutada.
SOC 2 / ISO 27001 readySeguridad OWASP LLM
Los 10 riesgos del OWASP Top 10 LLM (2025) cubiertos y testeados antes del lanzamiento — no después.
$4.88M brecha promedioGuardrails
Validación de entrada y salida fuera del modelo. El LLM no se valida a sí mismo. Capa determinista de control.
Bloqueador clave de prodPrompt caching
70–90% menos costo y hasta 80% menos latencia. No es opcional en agentes — es la diferencia entre rentable y caro.
ROI en 4–8 semanasCapítulo 05 · Palanca de ROI
Prompt caching cambió la economía unitaria de los agentes. Disponible en Anthropic, OpenAI y Google. Implementación: días. Retorno: semanas. La diferencia entre un sistema rentable y uno caro.
90%
Reducción de costo en lecturas cacheadas
El input estático (system prompt, instrucciones, contexto fijo) se cachea. Cada nueva request paga ~10% del costo original sobre esos tokens.
80%
Reducción de Time to First Token
UX significativamente mejor. En agentes conversacionales esto es la diferencia entre "se siente lento" y "se siente vivo".
4–8 sem
Break-even típico
Sistema de soporte con 100k requests/mes recupera la inversión de implementación en menos de 2 meses.
$0.18 / req
$0.02 / req
Patrón de diseño
Lo estático al inicio del prompt. Lo dinámico al final. El orden importa.
Disponible en
Anthropic Claude · OpenAI · Google Gemini · Vertex AI
Cache TTL típico
5 min (Anthropic) · 1 hora (extendido) · suficiente para 99% de casos
Ejemplo cifrado
Agente de soporte con 12k tokens de contexto fijo: $0.18 → $0.02 por request
Capítulo 06 · Caso de estudio
El caso más citado de IA empresarial — y el más mal leído. La historia no era "IA reemplaza humanos". Era cómo se diseña la transición. Mide a 12 meses, no a 30 días.
Los números volaron
La realidad se asentó
Lección 1 · Escalar
La IA absorbe volumen rutinario (tier-1). Los humanos suben en la cadena de valor (tier-3). No es reemplazo.
Lección 2 · Medir
Velocidad y costo son medibles. Confianza y empatía también — solo que a 12 meses, no a 30 días.
Lección 3 · Diseñar
La transición humano↔IA es la pieza más importante del sistema. No es rescate de emergencia.
Lección 4 · Rutear
Casos de borde requieren ruteo distinto. No el mismo bot intentando con todo.
Capítulo 07 · El riesgo en dólares
No cubrir OWASP LLM no es "tarea técnica". Es exposición financiera y regulatoria. Costo promedio de una brecha empresarial en 2024: $4.88M USD. Multa máxima GDPR: 4% de ingresos anuales globales.
$4.88M
Costo promedio de una brecha
Empresa típica en 2024 — incluye detección, contención, notificación, remediación y pérdida de negocio.
IBM Cost of a Data Breach · 20244%
Multa máxima GDPR
Sobre ingresos anuales globales. Aplica a prompt injection que expone datos personales. LFPDPPP (México) tiene rangos comparables.
277 días
Tiempo promedio para detectar y contener
Sin observabilidad GenAI específica, este número crece. Cada día adicional cuesta entre $11k y $25k USD.
Fuente
OWASP Top 10 for LLM Applications · 2025
Equivalente operacional
OWASP Top 10 web (2003) — hoy nadie lanza una app sin cubrirlo. LLM va por el mismo camino.
Costo de cubrirlo
Semanas de trabajo. 100–1000× menor que el costo esperado de no hacerlo.
Capítulo 08 · Integración
Model Context Protocol — lanzado por Anthropic en noviembre 2024, adoptado en meses por OpenAI y la mayoría de plataformas. Convierte el problema de integración de N×M a N+M. Eso significa 70–90% menos código que mantener.
500 integraciones
60 conexiones
70–85%
Reducción en tiempo de integración
Conectar una nueva herramienta a todos los agentes pasa de semanas a horas.
Nov 2024
Lanzamiento del estándar
Anthropic publicó MCP como protocolo abierto. En 6 meses se convirtió en el de facto.
Open
Protocolo abierto, multi-vendor
Sin vendor lock-in. Los servidores MCP que escribes hoy sirven para cualquier LLM mañana.
Capítulo 09 · Madurez
Donde queda el 95%: capas 3–4. Donde está el ROI real: capa 5 en adelante. Esta es la frontera del valor — y dónde DashOne típicamente se inserta.
Demo
El notebook funciona. Una persona vio que sí responde.
Piloto cerrado
Un caso, un equipo, datos sintéticos.
POC con datos reales
Una porción real del problema, sin SLA. Aquí queda el 95%.
Pre-producción
Guardrails básicos, observabilidad mínima. Un usuario interno.
Producción real
HITL, observabilidad GenAI, OWASP cubierto, SLA. Frontera del valor.
Multi-canal
El mismo agente sirve WhatsApp, web, voz, email con contexto compartido.
Multi-agente / orquestación
Varios agentes colaboran. Protocolo de handoff explícito.
Multi-modelo / routing
Routing dinámico por costo, calidad, latencia. Modelo barato para casos fáciles.
Continuamente entrenado
Datos del sistema retroalimentan modelos. Drift detection activo.
Auto-optimizado
El sistema ajusta cost vs quality automáticamente según métricas.
Multi-tenant
Segregación de datos y modelos por cliente. Aislamiento auditable.
Auditado / compliance
SOC 2, GDPR, ISO, sectoriales. Trazabilidad completa de cada decisión.
Auto-evolutivo
El sistema mejora prompts, modelos, ruteo sin redeploy manual.
Framework de ROI
12m
Mide a 12 meses
No a 30 días. Lo que parece magia al mes 1 puede romper al mes 12. El caso Klarna lo prueba.
70–90%
Caching = ROI fácil
El ahorro más rentable en IA empresarial hoy. Si no está activo, está dejando dinero en la mesa.
4–8s
Break-even típico
Implementación bien hecha recupera la inversión en 4 a 8 semanas — no en trimestres.
6
No-negociables
Guardrails, HITL, observabilidad, identidad, OWASP, caching. Antes de producción, sin excepciones.
5
Lógicas, no una
Code + ML + LLM + Agentic + HITL. Cada operación en su modalidad óptima. Sin "LLM para todo".
DashOne lleva esto a producción con tu equipo. 4–12 semanas. Mismo repo. Mismo Slack. Salida: un sistema en producción, no un deck que recomienda.