Definición: Benchmark de 89 tareas para evaluar capacidades de agentes LLM en entornos terminal, con tareas realistas desde entrenar ML models hasta compilar Linux desde source. Frontier models resuelven <65% de tareas.
— Fuente: NERVICO, Consultoría de Desarrollo de Producto
Terminal-Bench
Definición
Terminal-Bench es un benchmark cuidadosamente curado de 89 tareas en entornos terminal de computadora, diseñado para evaluar las capacidades de agentes LLM en escenarios realistas de system-level reasoning. Cada tarea cuenta con un entorno único, solución escrita por humanos, y tests comprehensivos para verificación. Desarrollado por Laude Institute, representa el gold standard para agent evaluation en tareas de terminal. Terminal-Bench 2.0 (lanzado enero 2026) mejora el benchmark original con validation exhaustiva (varias horas de validación manual y asistida por LLM por tarea), raising difficulty ceiling mientras mejora reliability y reproducibility. Rango de tareas:
- Training de machine learning models
- Building y running Linux desde source code
- Reverse engineering de archivos binarios
- System administration complejo
- DevOps automation
- Data processing pipelines
Por Qué Importa
Benchmark riguroso para production: A diferencia de benchmarks sintéticos (HumanEval, MBPP), Terminal-Bench usa tareas inspiradas en workflows reales, prediciendo mejor cómo agents se comportarán en production. Diferencia entre marketing y realidad: Frontier models (Claude Opus, GPT-5) resuelven <65% de tareas, smaller models ~15%. Esto expone el gap entre demos controlados y autonomous agent capability real. Reproducible execution harness: Incluye framework para ejecutar tasks en ambientes containerizados (Docker), garantizando reproducibility cross-platform y isolation. Standard de industria: Terminal-Bench se ha convertido en el benchmark estándar para evaluar agent capabilities en 2026, usado por Anthropic, OpenAI, Google para medir progress.
Performance Results (2026)
Leaderboard Top Models
| Model | Score | Success Rate |
|---|---|---|
| Claude Opus 4.6 | 57.3% | 51/89 tareas |
| GPT-5.2 Codex | 54.2% | 48/89 tareas |
| Claude Sonnet 4.5 | 48.3% | 43/89 tareas |
| Gemini 2.5 Pro | 42.7% | 38/89 tareas |
| GPT-4.1 | 38.2% | 34/89 tareas |
| DeepSeek R1 | 35.5% | 32/89 tareas |
| Llama 4 Maverick | 28.1% | 25/89 tareas |
| Smaller models (<70B) | 12-18% | 11-16 tareas |
Key insight: Incluso los best frontier models fallan en 35-45% de tareas realistas.
Performance por Categoría
System administration (15 tareas):
- Opus 4.6: 73% success
- GPT-5.2: 67% success
- Menor varianza entre models Machine Learning (12 tareas):
- Opus 4.6: 58% success
- GPT-5.2: 50% success
- Alta complejidad, requiere domain knowledge Reverse Engineering (8 tareas):
- Opus 4.6: 37% success
- GPT-5.2: 25% success
- Hardest category, incluso para frontier models DevOps Automation (18 tareas):
- Opus 4.6: 61% success
- GPT-5.2: 58% success
- Mixed: algunos triviales, otros require multi-step reasoning
Ejemplo de Tareas
Task #23: “Train ML Model on MNIST”
Descripción: Train un convolutional neural network en dataset MNIST, alcanzando 98%+ test accuracy. Environment:
- Ubuntu 22.04 container
- Python 3.10 + PyTorch
- MNIST dataset pre-downloaded Success criteria:
- Model trains sin errors
- Test accuracy ≥98%
- Training completa en <10 mins Difficulty: Medium Frontier model success rate: 78% (Claude Opus), 71% (GPT-5)
Task #67: “Compile Linux Kernel”
Descripción: Download Linux 6.9 source, configure build para x86_64, compile kernel que boots en QEMU. Environment:
- Ubuntu 22.04 container
- 16GB RAM, 8 CPUs
- Build tools pre-installed Success criteria:
- Compilation completa sin errors
- Kernel image generado
- Boots successfully en QEMU Difficulty: Hard Frontier model success rate: 34% (Claude Opus), 21% (GPT-5)
Task #82: “Reverse Engineer Binary”
Descripción: Binary ejecutable dado (stripped, no symbols). Identifica qué hace, extract hardcoded password. Environment:
- Kali Linux container
- Reverse engineering tools (ghidra, radare2, gdb)
- Target binary provided Success criteria:
- Correct identification de binary functionality
- Extracted password matches expected value Difficulty: Very Hard Frontier model success rate: 12% (Claude Opus), 8% (GPT-5)
Harbor: Complementary Framework
Junto con Terminal-Bench 2.0, se lanzó Harbor - un framework para scaling up containerized AI agent environments. Harbor features:
- Docker-based isolation por task
- Resource limiting (CPU, RAM, network)
- Reproducible environments
- Automated cleanup
- Security sandboxing Uso típico:
# Run Terminal-Bench task con Harbor
harbor run --task 23 --agent claude-opus-4.6 --timeout 600
# Output:
# Task #23: Train ML Model on MNIST
# Agent: claude-opus-4.6
# Status: SUCCESS
# Time: 287s
# Accuracy: 98.4%Implications para Agent Development
1. Gap Reality Check
Marketing: “Agents can code like humans” Reality: Frontier models solo resuelven 60% de tareas realistas Implicación: Agents necesitan human oversight, especialmente en tareas complejas.
2. Specialization Value
Models especializados en coding (Codex, Cursor-specialized) superan a generalist models en tareas específicas. Recommendation: Use specialized agents para domain-specific tasks vs generalist LLMs.
3. Multi-Step Reasoning Struggles
Tareas que requieren >5 pasos secuenciales (planning, debugging iterativo) tienen lowest success rates. Solution: Break complex tasks en subtasks más pequeñas que agents pueden handle independently.
4. Error Recovery Critical
Agents fallan frecuentemente en recovery después de errors. Harness engineering crítico para detect y retry.
Comparativa con Otros Benchmarks
| Benchmark | Tasks | Focus | Agent Success |
|---|---|---|---|
| Terminal-Bench | 89 | Realistic terminal tasks | 35-65% |
| SWE-bench | 2,294 | Real GitHub issues | 10-25% |
| HumanEval | 164 | Coding problems | 85-95% |
| MBPP | 974 | Python programming | 80-90% |
Key difference: Terminal-Bench tests system-level reasoning + tool use, no solo code generation.
Términos Relacionados
- Agentes IA - Sistemas autónomos que ejecutan tareas
- Codificación Agéntica - Development con agents autónomos
- Harness Engineering - Framework para mejorar agent reliability
Recursos Adicionales
- Terminal-Bench Official Site
- GitHub: terminal-bench
- Terminal-Bench 2.0: Raising the bar for AI agent evaluation
- Harbor Framework for Agent Testing
Última actualización: Febrero 2026 Categoría: Technical Terms Desarrollado por: Laude Institute Relacionado con: LLM Benchmarks, Agent Evaluation, Coding Benchmarks Keywords: terminal-bench, llm benchmark, agent evaluation, coding benchmark, ai testing, terminal tasks, system-level reasoning