Definición: Modelos de pricing y cost optimization para uso de LLMs, donde output tokens cuestan 3-10× más que input tokens, y requests grandes (>200K) tienen premium pricing automático.
— Fuente: NERVICO, Consultoría de Desarrollo de Producto
Economía de Tokens (Token Economics)
Definición
Economía de Tokens (Token Economics) se refiere a los modelos de pricing y estrategias de cost optimization para el uso de Large Language Models (LLMs). Los costes se calculan por tokens procesados, con distinciones críticas entre input tokens (texto que envías al modelo) y output tokens (texto que el modelo genera), siendo estos últimos 3-10× más costosos. Reglas fundamentales 2026:
- Output tokens cuestan 3-10× más que input
- Requests >200K tokens tienen premium pricing (2× input, 1.5× output)
- Prompt caching reduce costes 60-80% en inputs repetidos
- Batch processing ofrece 50% descuento vs realtime 1 token ≈ 0.75 palabras (inglés), ~1 palabra (español), ~0.5 caracteres (código)
Pricing Comparativo 2026
Claude (Anthropic)
| Modelo | Input (/M tokens) | Output (/M tokens) | Context Window |
|---|---|---|---|
| Haiku 4 | $0.25 | $1.25 | 200K |
| Sonnet 4.5 | $3 | $15 | 200K → 1M |
| Opus 4.6 | $15 | $75 | 1M |
Caching: 90% discount en cached inputs (read), 75% discount (write)
OpenAI
| Modelo | Input (/M tokens) | Output (/M tokens) | Context Window |
|---|---|---|---|
| GPT-4.1 | $2.50 | $10 | 128K |
| GPT-5.2 | $5 | $20 | 400K |
| GPT-5.2 Turbo | $10 | $40 | 400K (faster) |
Google Gemini
| Modelo | Input (/M tokens) | Output (/M tokens) | Context Window |
|---|---|---|---|
| Flash 2.5 | $0.075 | $0.30 | 1M |
| Pro 2.5 | $1.25 | $10 | 1M |
| Pro 2.5 Preview | $3.50 | $21 | 1M |
Key insight: Gemini Flash es el más económico para workloads high-volume.
Meta Llama 4 (Self-hosted)
Pricing: Variable según infrastructure
- Cloud (AWS p5 instances): ~$2-5/M tokens equivalente
- On-premise (datacenter propio): ~$0.10-0.50/M tokens (después de break-even) Trade-off: CapEx significativo, pero OpEx muy bajo en sustained workloads.
Cost Optimization Strategies
1. Prompt Caching
Cómo funciona: Reutiliza porciones de context window entre requests, pagando solo por diferencias. Ejemplo (Claude Sonnet 4.5):
Request 1:
- System prompt: 50K tokens @ $3/M = $0.15
- User query: 5K tokens @ $3/M = $0.015
- Output: 2K tokens @ $15/M = $0.03
Total: $0.195
Request 2 (con caching):
- System prompt (cached): 50K tokens @ $0.30/M = $0.015
- User query: 5K tokens @ $3/M = $0.015
- Output: 2K tokens @ $15/M = $0.03
Total: $0.06
Savings: 69%Best for:
- Chatbots con system prompts largos
- Code agents con codebase context repetido
- RAG systems con knowledge base estático
2. Model Selection Inteligente
Tiering por complejidad: Simple tasks (CRUD, formatting, summaries):
- Use: Haiku / Flash (10× cheaper)
- Savings: 90% vs Opus/GPT-5 Medium tasks (code generation, analysis):
- Use: Sonnet / GPT-4.1 (balanced)
- Sweet spot: quality/cost ratio Complex tasks (architecture, reasoning):
- Use: Opus / GPT-5 (máxima capacidad)
- Only when necessary Ejemplo práctico:
Instead of:
- 1000 requests/día × Opus @ $0.50/request = $500/día
Use tiering:
- 800 simple × Haiku @ $0.05 = $40
- 150 medium × Sonnet @ $0.15 = $22.50
- 50 complex × Opus @ $0.50 = $25
Total: $87.50/día → 82% savings3. Batch Processing
50% discount en requests procesados via batch API (non-realtime). Best for:
- Data processing nocturno
- Bulk content generation
- Analysis de logs historical Trade-off: Latency de 1-24 horas.
4. Context Window Optimization
Problema: Premium pricing (2×) automático en requests >200K tokens. Soluciones: A) Compression: Resúmenes de secciones no críticas vs texto completo. B) Smart retrieval (RAG): Solo carga chunks relevantes vs todo el documento. C) Incremental processing: Procesa documento en partes, sintetiza resultados. Ejemplo:
Instead of:
- 1 request × 500K tokens input @ $6/M = $3
- (premium pricing applied)
Use RAG:
- 5 requests × 50K tokens @ $3/M = $0.75 total
Savings: 75%5. Output Length Control
Output tokens cuestan 3-10× más, así que limita generation length. Estrategias:
max_tokensparameter ajustado (no defaults generosos)- Prompts específicos: “Responde en máximo 200 palabras”
- Stop sequences tempranos Ejemplo:
Bad prompt (genera 5K tokens):
"Explica arquitectura microservices"
Cost: 5K @ $15/M = $0.075
Good prompt (genera 500 tokens):
"Explica arquitectura microservices en 100 palabras"
Cost: 500 @ $15/M = $0.0075
Savings: 90%ROI Analysis: Self-hosted vs API
Escenario: 100M tokens/mes sustained workload
API (Claude Sonnet):
- Input: 80M × $3/M = $240
- Output: 20M × $15/M = $300
- Total: $540/mes = $6,480/año Self-hosted (Llama 4 on AWS):
- Infrastructure: p5.48xlarge @ $98/hora × 730 hrs = $71,540/mes
- CapEx hardware: $0 (cloud)
- Total: $71,540/mes Conclusion: API is 13× cheaper hasta ~1.3B tokens/mes.
Break-even point: Self-hosted
On-premise datacenter:
- CapEx: $500K (servers, GPUs, networking)
- OpEx: $5K/mes (power, cooling, maintenance)
- Break-even: ~8 months @ sustained 1B+ tokens/mes Use case: Solo enterprises con workloads masivos y predecibles.
Cost Monitoring y Alerting
Critical metrics: 1. Cost per request: Track por endpoint/feature para identificar expensive operations. 2. Token efficiency: Output tokens / Input tokens ratio. Target: <0.3 para most use cases. 3. Cache hit rate: Porcentaje de requests con cached content. Target: >60%. 4. Model distribution: % de requests por model tier. Objetivo: 80% en Haiku/Flash, 15% Sonnet, 5% Opus. Tools:
- LangSmith (observability)
- Custom dashboards (Datadog, Grafana)
- Provider dashboards (Claude Console, OpenAI Platform)
Términos Relacionados
- Ventana de Contexto - Límites de tokens por request
- ROI - Return on Investment en AI agents
- TCO - Total Cost of Ownership
- Análisis Break-Even - Punto de equilibrio self-hosted vs cloud
Recursos Adicionales
Última actualización: Febrero 2026 Categoría: Technical Terms Relacionado con: LLM Pricing, Cost Optimization, Tokens, Cloud Economics Keywords: token economics, llm pricing, ai costs, token optimization, cost per token, api pricing, claude pricing, gpt pricing