✦ Guía Ejecutiva · ROI Edition · 2026

Implementar IA
en la empresa.
Sin perder dinero.

95% de los pilotos no llegan a producción. Esta guía es sobre los que sí — y los números que separan a unos de otros.

95%

de los pilotos de IA no escalan a producción

Gartner · S&P Global 2024

$13.8B

gasto empresarial en GenAI en 2024 · 6× vs 2023

Menlo Ventures · 2024

70–90%

ahorro en costo de inferencia con prompt caching

Anthropic · OpenAI · Google

16%

de los "agentes" en producción son agentes reales

LangChain State of AI 2024

Visión ejecutiva

9 decisiones,
un ROI.

01
1

Capítulo 01 · La cruda realidad

95% de los pilotos
no llegan a producción.

No es la capacidad del modelo. Es el encaje operativo con workflows fragmentados, sistemas legacy y silos de datos. La inversión es real. Los resultados también — pero solo para quienes tratan IA como ingeniería de sistemas.

95%

Pilotos que no escalan

La capacidad del modelo casi nunca es el bloqueador. Lo es la operación: datos, identidad, observabilidad, gobernanza.

Gartner · 2024

9 meses

Quema promedio antes de cancelar

Empresas que cancelan sin escalar pierden entre 6 y 12 meses de equipo, infra y oportunidad.

McKinsey · 2024

70%

Proyectos sobre presupuesto

Sobre-presupuesto promedio en proyectos GenAI empresariales que sí llegan a producción: +50% o más.

BCG · 2024

ROI promedio del top 5%

Las empresas que sí escalan generan en promedio 5× retorno sobre inversión en 18 meses. La diferencia: madurez del stack.

Menlo Ventures · 2024

Las 5 causas (en orden)

1. Datos fragmentados · 2. Sin observabilidad · 3. Sin HITL · 4. Riesgo no cubierto · 5. ROI mal medido

Lo que NO es

Capacidad del modelo. Hoy GPT-4, Claude o Gemini son suficientes para el 90% de casos empresariales.

Lo que SÍ es

Ingeniería de sistemas: convergencia de 9 disciplinas técnicas sobre una capa probabilística.

02
2

Capítulo 02 · La convergencia

IA empresarial
no es un modelo.

Es la convergencia de 9 disciplinas técnicas sobre una capa probabilística. Pensar que IA es "elegir un modelo" es pensar que un banco es elegir un servidor. El 80% del costo y del riesgo está fuera del LLM.

🧠LLMOps
🔧MLOps
💾DataOps
🚀DevOps
🛡️Security
👁️Observability
🔐Identity / IAM
📋Governance
🎨UX / Diseño

80%

del costo NO es el modelo

El gasto real está en integración, observabilidad, gobierno y operación continua — no en tokens.

9

equipos que tienen que sincronizarse

Cada disciplina tiene su SLA, su roadmap y su tooling. La convergencia es organizacional, no solo técnica.

3–5×

más tiempo en integración que en modelo

Por cada hora seleccionando o ajustando un modelo, se gastan 3 a 5 conectándolo al sistema real.

03
3

Capítulo 03 · Composición

5 lógicas,
un sistema.

Mezclar las 5 lógicas con criterio es el arte. Usar LLM para todo es la quiebra. Cada operación tiene su modalidad óptima — y el costo varía hasta 50,000× entre ellas.

⚙️ Código60–70%

Costo / op

~$0.001

Determinista. Mismo input → mismo output. Sigue siendo la mayor parte del sistema.

📊 Machine Learning10–15%

Costo / inferencia

~$0.01

Estadístico pero estable. Mismo modelo + input → mismo output. Predicción y scoring.

🧠 LLM10–15%

Costo / request

$0.05–0.50

Probabilístico incluso con el mismo input. Sin estado entre llamadas a menos que se construya memoria explícita.

🤖 Agentic5–10%

Costo / sesión

$1–10

LLM que planifica, ejecuta tools y se adapta. Solo 16% de los "agentes" en producción lo son de verdad.

🧑‍💼 Humano (HITL)1–5%

Costo / intervención

$10–50

Punto explícito de aprobación o revisión. No es "último recurso" — es parte del diseño en toda acción irreversible.

Regla práctica

Usa la lógica más barata que resuelve. LLM solo donde la ambigüedad lo justifica.

Antipatrón frecuente

LLM-for-everything. Genera costos 10–100× mayores que la arquitectura híbrida correcta.

Diseño correcto

LLM decide qué hacer. Reglas deciden si se permite. Código ejecuta. HITL aprueba lo irreversible.

04
4

Capítulo 04 · No-negociables

El stack mínimo
viable de producción.

6 elementos sin los cuales no es producción — es un demo en producción. Si llega a usuarios sin esto, los problemas no son si, son cuándo. El costo de no tenerlos es 10–100× el de implementarlos.

👁

Observabilidad

Trace_id end-to-end con OpenTelemetry GenAI conventions. Spans para tool calls, retrieval, generación y guardrails.

p95 indiagnosticable sin esto
🧑‍💼

Human-in-the-loop

Aprobación humana para toda acción irreversible. Diseño explícito de la transición humano↔IA desde el día uno.

Reduce riesgo legal 70%+
🔐

Identidad & scopes

Cada agente con identidad propia. Principio de mínimo privilegio. Audit trail de cada acción ejecutada.

SOC 2 / ISO 27001 ready
🛡

Seguridad OWASP LLM

Los 10 riesgos del OWASP Top 10 LLM (2025) cubiertos y testeados antes del lanzamiento — no después.

$4.88M brecha promedio
🚧

Guardrails

Validación de entrada y salida fuera del modelo. El LLM no se valida a sí mismo. Capa determinista de control.

Bloqueador clave de prod
💾

Prompt caching

70–90% menos costo y hasta 80% menos latencia. No es opcional en agentes — es la diferencia entre rentable y caro.

ROI en 4–8 semanas
05
5

Capítulo 05 · Palanca de ROI

La optimización
más rentable que existe.

Prompt caching cambió la economía unitaria de los agentes. Disponible en Anthropic, OpenAI y Google. Implementación: días. Retorno: semanas. La diferencia entre un sistema rentable y uno caro.

90%

Reducción de costo en lecturas cacheadas

El input estático (system prompt, instrucciones, contexto fijo) se cachea. Cada nueva request paga ~10% del costo original sobre esos tokens.

80%

Reducción de Time to First Token

UX significativamente mejor. En agentes conversacionales esto es la diferencia entre "se siente lento" y "se siente vivo".

4–8 sem

Break-even típico

Sistema de soporte con 100k requests/mes recupera la inversión de implementación en menos de 2 meses.

Sin caching

$0.18 / req

  • 12,000 tokens de contexto pagados completos
  • TTFT: 1.8s en p95
  • 100k req/mes = $18,000/mes
  • $216,000/año en tokens
Con caching

$0.02 / req

  • Contexto estático pagado al 10%
  • TTFT: 0.4s en p95
  • 100k req/mes = $2,000/mes
  • Ahorro: $192,000/año

Patrón de diseño

Lo estático al inicio del prompt. Lo dinámico al final. El orden importa.

Disponible en

Anthropic Claude · OpenAI · Google Gemini · Vertex AI

Cache TTL típico

5 min (Anthropic) · 1 hora (extendido) · suficiente para 99% de casos

Ejemplo cifrado

Agente de soporte con 12k tokens de contexto fijo: $0.18 → $0.02 por request

06
6

Capítulo 06 · Caso de estudio

El caso Klarna.
30 días vs 12 meses.

El caso más citado de IA empresarial — y el más mal leído. La historia no era "IA reemplaza humanos". Era cómo se diseña la transición. Mide a 12 meses, no a 30 días.

Febrero 2024 · día 30

Los números volaron

  • 700 FTEs equivalentes en volumen procesado
  • 2/3 de chats de servicio resueltos por IA
  • 25% menos repeat inquiries
  • $40M USD profit improvement proyectado
  • CSAT comparable al humano (según Klarna)
  • Resolución promedio: 11 min → 2 min
Mayo 2025 · mes 15

La realidad se asentó

  • Calidad de respuesta cayó notablemente
  • CSAT bajó en segmentos clave
  • Recontrataron agentes humanos
  • Cambio de mensaje: "IA + humano", no "IA reemplaza"
  • Lección pública: piloto exitoso ≠ deployment sostenible

Lección 1 · Escalar

La IA absorbe volumen rutinario (tier-1). Los humanos suben en la cadena de valor (tier-3). No es reemplazo.

Lección 2 · Medir

Velocidad y costo son medibles. Confianza y empatía también — solo que a 12 meses, no a 30 días.

Lección 3 · Diseñar

La transición humano↔IA es la pieza más importante del sistema. No es rescate de emergencia.

Lección 4 · Rutear

Casos de borde requieren ruteo distinto. No el mismo bot intentando con todo.

07
7

Capítulo 07 · El riesgo en dólares

OWASP Top 10 LLM.
Costo: $4.88M por brecha.

No cubrir OWASP LLM no es "tarea técnica". Es exposición financiera y regulatoria. Costo promedio de una brecha empresarial en 2024: $4.88M USD. Multa máxima GDPR: 4% de ingresos anuales globales.

$4.88M

Costo promedio de una brecha

Empresa típica en 2024 — incluye detección, contención, notificación, remediación y pérdida de negocio.

IBM Cost of a Data Breach · 2024

4%

Multa máxima GDPR

Sobre ingresos anuales globales. Aplica a prompt injection que expone datos personales. LFPDPPP (México) tiene rangos comparables.

277 días

Tiempo promedio para detectar y contener

Sin observabilidad GenAI específica, este número crece. Cada día adicional cuesta entre $11k y $25k USD.

LLM01 · Prompt Injection
LLM02 · Sensitive Info Disclosure
LLM03 · Supply Chain
LLM04 · Data & Model Poisoning
LLM05 · Improper Output Handling
LLM06 · Excessive Agency
LLM07 · System Prompt Leakage
LLM08 · Vector / Embedding Weaknesses
LLM09 · Misinformation
LLM10 · Unbounded Consumption

Fuente

OWASP Top 10 for LLM Applications · 2025

Equivalente operacional

OWASP Top 10 web (2003) — hoy nadie lanza una app sin cubrirlo. LLM va por el mismo camino.

Costo de cubrirlo

Semanas de trabajo. 100–1000× menor que el costo esperado de no hacerlo.

08
8

Capítulo 08 · Integración

MCP. El USB-C
de la IA.

Model Context Protocol — lanzado por Anthropic en noviembre 2024, adoptado en meses por OpenAI y la mayoría de plataformas. Convierte el problema de integración de N×M a N+M. Eso significa 70–90% menos código que mantener.

Antes de MCP · N×M

500 integraciones

  • 10 agentes × 50 herramientas = 500 integraciones
  • Cada conector es código propietario
  • Mantenimiento crece cuadráticamente
  • Equipo dedicado solo a integraciones
Con MCP · N+M

60 conexiones

  • 10 agentes + 50 servidores MCP = 60 conexiones
  • Protocolo estándar, abierto
  • Mantenimiento crece linealmente
  • Equipo libera para producto

70–85%

Reducción en tiempo de integración

Conectar una nueva herramienta a todos los agentes pasa de semanas a horas.

Nov 2024

Lanzamiento del estándar

Anthropic publicó MCP como protocolo abierto. En 6 meses se convirtió en el de facto.

Open

Protocolo abierto, multi-vendor

Sin vendor lock-in. Los servidores MCP que escribes hoy sirven para cualquier LLM mañana.

09
9

Capítulo 09 · Madurez

13 capas
de madurez.

Donde queda el 95%: capas 3–4. Donde está el ROI real: capa 5 en adelante. Esta es la frontera del valor — y dónde DashOne típicamente se inserta.

01

Demo

El notebook funciona. Una persona vio que sí responde.

Pre-piloto
02

Piloto cerrado

Un caso, un equipo, datos sintéticos.

Pre-piloto
03

POC con datos reales

Una porción real del problema, sin SLA. Aquí queda el 95%.

Bottleneck
04

Pre-producción

Guardrails básicos, observabilidad mínima. Un usuario interno.

Bottleneck
05

Producción real

HITL, observabilidad GenAI, OWASP cubierto, SLA. Frontera del valor.

ROI desbloqueado
06

Multi-canal

El mismo agente sirve WhatsApp, web, voz, email con contexto compartido.

Producción
07

Multi-agente / orquestación

Varios agentes colaboran. Protocolo de handoff explícito.

Producción
08

Multi-modelo / routing

Routing dinámico por costo, calidad, latencia. Modelo barato para casos fáciles.

Optimización
09

Continuamente entrenado

Datos del sistema retroalimentan modelos. Drift detection activo.

Optimización
10

Auto-optimizado

El sistema ajusta cost vs quality automáticamente según métricas.

Optimización
11

Multi-tenant

Segregación de datos y modelos por cliente. Aislamiento auditable.

Escala
12

Auditado / compliance

SOC 2, GDPR, ISO, sectoriales. Trazabilidad completa de cada decisión.

Escala
13

Auto-evolutivo

El sistema mejora prompts, modelos, ruteo sin redeploy manual.

Frontera

Framework de ROI

Cómo se mide
un proyecto de IA.

📊

12m

Mide a 12 meses

No a 30 días. Lo que parece magia al mes 1 puede romper al mes 12. El caso Klarna lo prueba.

💰

70–90%

Caching = ROI fácil

El ahorro más rentable en IA empresarial hoy. Si no está activo, está dejando dinero en la mesa.

4–8s

Break-even típico

Implementación bien hecha recupera la inversión en 4 a 8 semanas — no en trimestres.

🛡

6

No-negociables

Guardrails, HITL, observabilidad, identidad, OWASP, caching. Antes de producción, sin excepciones.

🎯

5

Lógicas, no una

Code + ML + LLM + Agentic + HITL. Cada operación en su modalidad óptima. Sin "LLM para todo".

✦ DashOne · Forward Deployed Engineering

No quedes en
la capa 3.

DashOne lleva esto a producción con tu equipo. 4–12 semanas. Mismo repo. Mismo Slack. Salida: un sistema en producción, no un deck que recomienda.