
Llevamos meses contándote cómo está cambiando el rol del CFO.
Esta semana toca el lado más práctico: el error de presupuesto que casi todas las empresas están cometiendo con IA, y la fórmula para no caer en él.
Abril de 2026. Uber explota el presupuesto de IA en 4 meses.
El CTO de Uber, Praveen Neppalli Naga, lo dijo en público:
“Hemos agotado todo el presupuesto. Vuelvo a empezar de cero”
Su equipo de ingeniería había consumido el presupuesto anual de IA en cuatro meses.
La adopción funcionaba. El presupuesto, no.
Y no fue un error de Uber. Fue un error estructural de cómo todo el mundo está presupuestando IA hoy.
Por qué los presupuestos de IA se rompen
20 años de SaaS nos enseñaron a presupuestar por licencia.
Una silla, un asiento, un coste fijo. Cuanto más se usa, mejor el ROI.
Con IA, eso cambia.
Cada token consumido cuesta dinero. El bill escala con cómo se usa la herramienta, no con cuántas personas tienen acceso.
Uber dio acceso a Claude Code a 5.000 ingenieros en diciembre de 2025. En tres meses, el 84% estaba corriendo workflows agénticos — que encadenan decenas o cientos de llamadas al modelo por tarea.
La factura escaló con eso.
Y el incentivo lo empeoró: leaderboards internos rankeaban a los ingenieros por uso de IA. Así que usaban más. Y la factura subía con ellos.

Cuando apruebas el despliegue asumiendo que el equipo usará la herramienta como un chatbot, y el equipo termina corriendo agentes que encadenan cientos de llamadas por tarea, el modelo financiero que firmaste no tiene ninguna relación con la realidad que te llega en la factura.
Lo que casi nadie mete en el presupuesto
El bill visible de la API es solo una parte.
Embeddings: 3-8% sobre el bill visible
Vector DB: 5-12%
Observabilidad (LangSmith, Langfuse, Datadog LLM): 5-15%
Evals: 10-20%
Fine-tuning / retraining: episódico, hasta 30% en trimestres activos
Regla práctica: si presupuestas $100K en API, planifica $140-160K reales en steady state. Y hasta $180K durante ciclos de retraining.
Esto es lo que tu equipo de FP&A no te ha pasado. Pídelo.
La regla del 10/70
En cada despliegue de IA maduro que se ha estudiado, el patrón se repite.
El 10% de los usuarios genera el 60-75% de los tokens.
Siempre. Sin excepciones.
Son los ingenieros que dejan agentes corriendo de noche. Los analistas que encadenan deep-research queries. Los power users que han construido su flujo entero alrededor de la herramienta.
Si tu presupuesto asume uso uniforme, está construido sobre una distribución que nunca ha existido en producción.
La fórmula que el CFO necesita tener en la cabeza
Solo necesitas un cálculo antes de aprobar el despliegue.
Coste mensual ≈ T × P × F × D × U × H × C
Donde:
T = tokens por interacción del usuario mediano
P = precio por token (blended input/output del modelo elegido)
F = interacciones por día por usuario mediano
D = días laborables al mes (22)
U = usuarios activos
H = multiplicador oculto (1.5 base, 1.8 en ciclos de retraining)
C = factor de concentración para corregir mediana → media (1.3 base)
Siete variables. Ninguna requiere ser consultor de IA para entenderlas.
Esto no es un escenario hipotético. Es lo que le pasó a Uber.
Las 4 palancas para reducir 40-70% sin tocar headcount
1. Tier de modelo. Dentro de una misma familia, el precio varía hasta 10x (Haiku → Sonnet → Opus). Casi todo el mundo enruta todo al tier más caro porque era el default del prototipo. Audita cada workflow y mándalo al modelo más barato que pase la prueba de calidad. Clasificación, routing, summarization, extracción, y la mayoría de decisiones de tool-use no necesitan modelos frontier.
2. Prompt caching. Los proveedores modernos cachean contexto repetido (system prompts, knowledge base, tool definitions) y cobran 10-20% del precio normal en cache hits. Despliegues bien instrumentados ven 50-90% de reducción en workloads repetitivos.
3. Context engineering. Cada token de contexto lo pagas en cada llamada. Pasar a Claude un dump de 50K tokens cuesta 10x más que pasarle el subset de 5K que de verdad importa. Invertir en calidad de retrieval paga doble: mejor output y menor factura.
4. Workflow gating. No todos los usuarios necesitan acceso a todo. Restringir agentes paralelos a una lista nominal, o requerir aprobación cuando un run supera un umbral de tokens, corta la cola de la distribución sin frenar el uso normal.
Cada palanca mueve T o P en la fórmula. Ninguna requiere despedir, renegociar licencias ni cambiar de proveedor.

El test del 3x antes de desplegar
Una feature de IA tiene que devolver al menos 3x su coste de cómputo en valor medible para existir.
Denominadores honestos:
Para una herramienta de ingeniería: horas ahorradas × coste cargado del ingeniero
Para un agente de soporte: resoluciones sin escalado × coste de un escalado humano
Para una feature de contenido: writer-equivalent output × coste writer-equivalent
Si no puedes articular qué es 3x antes de desplegar, las economics no están claras suficientes para desplegar.
Los casos que no te van a contar
Cursor corre a $1B de revenue con márgenes brutos negativos. Paga $1.30 a Anthropic por cada $1 de suscripción. No es un modelo de negocio. Es una apuesta a que los costes de inference bajarán antes de que el capital se acabe.
Sora (OpenAI) costaba $15M al día en compute y generó $2.1M de revenue total antes de cerrarse — con 30 minutos de aviso a Disney, que acababa de firmar un contrato de licencia de $1B.
A nivel general: el 80% de pilotos enterprise no entrega valor medible. Coste medio del piloto fallido: $6.8M. Retorno medio: $1.9M.
La IA funciona. Las economics de la IA son más complicadas de lo que el proveedor te explica en el deck.
El cálculo que tienes que hacer este trimestre
Esto no es teoría.
Es el cálculo que cualquier CFO debería tener corriendo antes del cierre del trimestre.
Si tienes un piloto de IA en marcha en tu empresa y no has pasado la fórmula T × P × F × D × U × H × C sobre esos datos, tienes un riesgo de presupuesto que no está en tu modelo financiero.
Nos vemos la próxima semana.