✦ Guía Ejecutiva · ROI Edition · 2026

Implementar IA
en la empresa.
Sin perder dinero.

95% de los pilotos no llegan a producción. Esta guía es sobre los que sí — y los números que separan a unos de otros.

1Por qué fallan 2No es un modelo 35 lógicas 4Stack mínimo 5ROI · Caching 6Klarna 7Riesgo 8MCP 9Madurez

95%

de los pilotos de IA no escalan a producción

Gartner · S&P Global 2024

$13.8B

gasto empresarial en GenAI en 2024 · 6× vs 2023

Menlo Ventures · 2024

70–90%

ahorro en costo de inferencia con prompt caching

Anthropic · OpenAI · Google

16%

de los "agentes" en producción son agentes reales

LangChain State of AI 2024

Capítulo 01 · La cruda realidad

95% de los pilotos
no llegan a producción.

No es la capacidad del modelo. Es el encaje operativo con workflows fragmentados, sistemas legacy y silos de datos. La inversión es real. Los resultados también — pero solo para quienes tratan IA como ingeniería de sistemas.

95%

Pilotos que no escalan

La capacidad del modelo casi nunca es el bloqueador. Lo es la operación: datos, identidad, observabilidad, gobernanza.

Gartner · 2024

9 meses

Quema promedio antes de cancelar

Empresas que cancelan sin escalar pierden entre 6 y 12 meses de equipo, infra y oportunidad.

McKinsey · 2024

70%

Proyectos sobre presupuesto

Sobre-presupuesto promedio en proyectos GenAI empresariales que sí llegan a producción: +50% o más.

BCG · 2024

5×

ROI promedio del top 5%

Las empresas que sí escalan generan en promedio 5× retorno sobre inversión en 18 meses. La diferencia: madurez del stack.

Menlo Ventures · 2024

Las 5 causas (en orden)

1. Datos fragmentados · 2. Sin observabilidad · 3. Sin HITL · 4. Riesgo no cubierto · 5. ROI mal medido

Lo que NO es

Capacidad del modelo. Hoy GPT-4, Claude o Gemini son suficientes para el 90% de casos empresariales.

Lo que SÍ es

Ingeniería de sistemas: convergencia de 9 disciplinas técnicas sobre una capa probabilística.

Capítulo 02 · La convergencia

IA empresarial
no es un modelo.

Es la convergencia de 9 disciplinas técnicas sobre una capa probabilística. Pensar que IA es "elegir un modelo" es pensar que un banco es elegir un servidor. El 80% del costo y del riesgo está fuera del LLM.

🧠LLMOps

🔧MLOps

💾DataOps

🚀DevOps

🛡️Security

👁️Observability

🔐Identity / IAM

📋Governance

🎨UX / Diseño

80%

del costo NO es el modelo

El gasto real está en integración, observabilidad, gobierno y operación continua — no en tokens.

equipos que tienen que sincronizarse

Cada disciplina tiene su SLA, su roadmap y su tooling. La convergencia es organizacional, no solo técnica.

3–5×

más tiempo en integración que en modelo

Por cada hora seleccionando o ajustando un modelo, se gastan 3 a 5 conectándolo al sistema real.

Capítulo 03 · Composición

5 lógicas,
un sistema.

Mezclar las 5 lógicas con criterio es el arte. Usar LLM para todo es la quiebra. Cada operación tiene su modalidad óptima — y el costo varía hasta 50,000× entre ellas.

⚙️ Código

Costo / op

~$0.001

Determinista. Mismo input → mismo output. Sigue siendo la mayor parte del sistema.

📊 Machine Learning

Costo / inferencia

~$0.01

Estadístico pero estable. Mismo modelo + input → mismo output. Predicción y scoring.

🧠 LLM

Costo / request

$0.05–0.50

Probabilístico incluso con el mismo input. Sin estado entre llamadas a menos que se construya memoria explícita.

🤖 Agentic

Costo / sesión

$1–10

LLM que planifica, ejecuta tools y se adapta. Solo 16% de los "agentes" en producción lo son de verdad.

🧑‍💼 Humano (HITL)

Costo / intervención

$10–50

Punto explícito de aprobación o revisión. No es "último recurso" — es parte del diseño en toda acción irreversible.

Regla práctica

Usa la lógica más barata que resuelve. LLM solo donde la ambigüedad lo justifica.

Antipatrón frecuente

LLM-for-everything. Genera costos 10–100× mayores que la arquitectura híbrida correcta.

Diseño correcto

LLM decide qué hacer. Reglas deciden si se permite. Código ejecuta. HITL aprueba lo irreversible.

Capítulo 04 · No-negociables

El stack mínimo
viable de producción.

6 elementos sin los cuales no es producción — es un demo en producción. Si llega a usuarios sin esto, los problemas no son si, son cuándo. El costo de no tenerlos es 10–100× el de implementarlos.

👁

Observabilidad

Trace_id end-to-end con OpenTelemetry GenAI conventions. Spans para tool calls, retrieval, generación y guardrails.

p95 indiagnosticable sin esto

🧑‍💼

Human-in-the-loop

Aprobación humana para toda acción irreversible. Diseño explícito de la transición humano↔IA desde el día uno.

Reduce riesgo legal 70%+

🔐

Identidad & scopes

Cada agente con identidad propia. Principio de mínimo privilegio. Audit trail de cada acción ejecutada.

SOC 2 / ISO 27001 ready

🛡

Seguridad OWASP LLM

Los 10 riesgos del OWASP Top 10 LLM (2025) cubiertos y testeados antes del lanzamiento — no después.

$4.88M brecha promedio

🚧

Guardrails

Validación de entrada y salida fuera del modelo. El LLM no se valida a sí mismo. Capa determinista de control.

Bloqueador clave de prod

💾

Prompt caching

70–90% menos costo y hasta 80% menos latencia. No es opcional en agentes — es la diferencia entre rentable y caro.

ROI en 4–8 semanas

Capítulo 05 · Palanca de ROI

La optimización
más rentable que existe.

Prompt caching cambió la economía unitaria de los agentes. Disponible en Anthropic, OpenAI y Google. Implementación: días. Retorno: semanas. La diferencia entre un sistema rentable y uno caro.

90%

Reducción de costo en lecturas cacheadas

El input estático (system prompt, instrucciones, contexto fijo) se cachea. Cada nueva request paga ~10% del costo original sobre esos tokens.

80%

Reducción de Time to First Token

UX significativamente mejor. En agentes conversacionales esto es la diferencia entre "se siente lento" y "se siente vivo".

4–8 sem

Break-even típico

Sistema de soporte con 100k requests/mes recupera la inversión de implementación en menos de 2 meses.

Sin caching

$0.18 / req

12,000 tokens de contexto pagados completos
TTFT: 1.8s en p95
100k req/mes = $18,000/mes
$216,000/año en tokens

Con caching

$0.02 / req

Contexto estático pagado al 10%
TTFT: 0.4s en p95
100k req/mes = $2,000/mes
Ahorro: $192,000/año

Patrón de diseño

Lo estático al inicio del prompt. Lo dinámico al final. El orden importa.

Disponible en

Anthropic Claude · OpenAI · Google Gemini · Vertex AI

Cache TTL típico

5 min (Anthropic) · 1 hora (extendido) · suficiente para 99% de casos

Ejemplo cifrado

Agente de soporte con 12k tokens de contexto fijo: $0.18 → $0.02 por request

Capítulo 06 · Caso de estudio

El caso Klarna.
30 días vs 12 meses.

El caso más citado de IA empresarial — y el más mal leído. La historia no era "IA reemplaza humanos". Era cómo se diseña la transición. Mide a 12 meses, no a 30 días.

Febrero 2024 · día 30

Los números volaron

700 FTEs equivalentes en volumen procesado
2/3 de chats de servicio resueltos por IA
25% menos repeat inquiries
$40M USD profit improvement proyectado
CSAT comparable al humano (según Klarna)
Resolución promedio: 11 min → 2 min

Mayo 2025 · mes 15

La realidad se asentó

Calidad de respuesta cayó notablemente
CSAT bajó en segmentos clave
Recontrataron agentes humanos
Cambio de mensaje: "IA + humano", no "IA reemplaza"
Lección pública: piloto exitoso ≠ deployment sostenible

Lección 1 · Escalar

La IA absorbe volumen rutinario (tier-1). Los humanos suben en la cadena de valor (tier-3). No es reemplazo.

Lección 2 · Medir

Velocidad y costo son medibles. Confianza y empatía también — solo que a 12 meses, no a 30 días.

Lección 3 · Diseñar

La transición humano↔IA es la pieza más importante del sistema. No es rescate de emergencia.

Lección 4 · Rutear

Casos de borde requieren ruteo distinto. No el mismo bot intentando con todo.

Capítulo 07 · El riesgo en dólares

OWASP Top 10 LLM.
Costo: $4.88M por brecha.

No cubrir OWASP LLM no es "tarea técnica". Es exposición financiera y regulatoria. Costo promedio de una brecha empresarial en 2024: $4.88M USD. Multa máxima GDPR: 4% de ingresos anuales globales.

$4.88M

Costo promedio de una brecha

Empresa típica en 2024 — incluye detección, contención, notificación, remediación y pérdida de negocio.

IBM Cost of a Data Breach · 2024

Multa máxima GDPR

Sobre ingresos anuales globales. Aplica a prompt injection que expone datos personales. LFPDPPP (México) tiene rangos comparables.

277 días

Tiempo promedio para detectar y contener

Sin observabilidad GenAI específica, este número crece. Cada día adicional cuesta entre $11k y $25k USD.

LLM01 · Prompt Injection

LLM02 · Sensitive Info Disclosure

LLM03 · Supply Chain

LLM04 · Data & Model Poisoning

LLM05 · Improper Output Handling

LLM06 · Excessive Agency

LLM07 · System Prompt Leakage

LLM08 · Vector / Embedding Weaknesses

LLM09 · Misinformation

LLM10 · Unbounded Consumption

Fuente

OWASP Top 10 for LLM Applications · 2025

Equivalente operacional

OWASP Top 10 web (2003) — hoy nadie lanza una app sin cubrirlo. LLM va por el mismo camino.

Costo de cubrirlo

Semanas de trabajo. 100–1000× menor que el costo esperado de no hacerlo.

Capítulo 08 · Integración

MCP. El USB-C
de la IA.

Model Context Protocol — lanzado por Anthropic en noviembre 2024, adoptado en meses por OpenAI y la mayoría de plataformas. Convierte el problema de integración de N×M a N+M. Eso significa 70–90% menos código que mantener.

Antes de MCP · N×M

500 integraciones

10 agentes × 50 herramientas = 500 integraciones
Cada conector es código propietario
Mantenimiento crece cuadráticamente
Equipo dedicado solo a integraciones

Con MCP · N+M

60 conexiones

10 agentes + 50 servidores MCP = 60 conexiones
Protocolo estándar, abierto
Mantenimiento crece linealmente
Equipo libera para producto

70–85%

Reducción en tiempo de integración

Conectar una nueva herramienta a todos los agentes pasa de semanas a horas.

Nov 2024

Lanzamiento del estándar

Anthropic publicó MCP como protocolo abierto. En 6 meses se convirtió en el de facto.

Open

Protocolo abierto, multi-vendor

Sin vendor lock-in. Los servidores MCP que escribes hoy sirven para cualquier LLM mañana.

Capítulo 09 · Madurez

13 capas
de madurez.

Donde queda el 95%: capas 3–4. Donde está el ROI real: capa 5 en adelante. Esta es la frontera del valor — y dónde DashOne típicamente se inserta.

Demo

El notebook funciona. Una persona vio que sí responde.

Pre-piloto

Piloto cerrado

Un caso, un equipo, datos sintéticos.

Pre-piloto

POC con datos reales

Una porción real del problema, sin SLA. Aquí queda el 95%.

Bottleneck

Pre-producción

Guardrails básicos, observabilidad mínima. Un usuario interno.

Bottleneck

Producción real

HITL, observabilidad GenAI, OWASP cubierto, SLA. Frontera del valor.

ROI desbloqueado

Multi-canal

El mismo agente sirve WhatsApp, web, voz, email con contexto compartido.

Producción

Multi-agente / orquestación

Varios agentes colaboran. Protocolo de handoff explícito.

Producción

Multi-modelo / routing

Routing dinámico por costo, calidad, latencia. Modelo barato para casos fáciles.

Optimización

Continuamente entrenado

Datos del sistema retroalimentan modelos. Drift detection activo.

Optimización

Auto-optimizado

El sistema ajusta cost vs quality automáticamente según métricas.

Optimización

Multi-tenant

Segregación de datos y modelos por cliente. Aislamiento auditable.

Escala

Auditado / compliance

SOC 2, GDPR, ISO, sectoriales. Trazabilidad completa de cada decisión.

Escala

Auto-evolutivo

El sistema mejora prompts, modelos, ruteo sin redeploy manual.

Frontera

Framework de ROI

Cómo se mide
un proyecto de IA.

📊

12m

Mide a 12 meses

No a 30 días. Lo que parece magia al mes 1 puede romper al mes 12. El caso Klarna lo prueba.

💰

70–90%

Caching = ROI fácil

El ahorro más rentable en IA empresarial hoy. Si no está activo, está dejando dinero en la mesa.

⚡

4–8s

Break-even típico

Implementación bien hecha recupera la inversión en 4 a 8 semanas — no en trimestres.

🛡

No-negociables

Guardrails, HITL, observabilidad, identidad, OWASP, caching. Antes de producción, sin excepciones.

🎯

Lógicas, no una

Code + ML + LLM + Agentic + HITL. Cada operación en su modalidad óptima. Sin "LLM para todo".

Implementar IA
en la empresa.
Sin perder dinero.

9 decisiones,
un ROI.

95% de los pilotos
no llegan a producción.

IA empresarial
no es un modelo.

5 lógicas,
un sistema.

El stack mínimo
viable de producción.

La optimización
más rentable que existe.

El caso Klarna.
30 días vs 12 meses.

OWASP Top 10 LLM.
Costo: $4.88M por brecha.

MCP. El USB-C
de la IA.

13 capas
de madurez.

Cómo se mide
un proyecto de IA.

No quedes en
la capa 3.

Implementar IAen la empresa.Sin perder dinero.

9 decisiones,un ROI.

95% de los pilotosno llegan a producción.

IA empresarialno es un modelo.

5 lógicas,un sistema.

El stack mínimoviable de producción.

La optimizaciónmás rentable que existe.

El caso Klarna.30 días vs 12 meses.

OWASP Top 10 LLM.Costo: $4.88M por brecha.

MCP. El USB-Cde la IA.

13 capasde madurez.

Cómo se mideun proyecto de IA.

No quedes enla capa 3.

Implementar IA
en la empresa.
Sin perder dinero.

9 decisiones,
un ROI.

95% de los pilotos
no llegan a producción.

IA empresarial
no es un modelo.

5 lógicas,
un sistema.

El stack mínimo
viable de producción.

La optimización
más rentable que existe.

El caso Klarna.
30 días vs 12 meses.

OWASP Top 10 LLM.
Costo: $4.88M por brecha.

MCP. El USB-C
de la IA.

13 capas
de madurez.

Cómo se mide
un proyecto de IA.

No quedes en
la capa 3.