Definición: Benchmark de 89 tareas para evaluar capacidades de agentes LLM en entornos terminal, con tareas realistas desde entrenar ML models hasta compilar Linux desde source. Frontier models resuelven <65% de tareas.

— Fuente: NERVICO, Consultoría de Desarrollo de Producto

Terminal-Bench

Definición

Terminal-Bench es un benchmark cuidadosamente curado de 89 tareas en entornos terminal de computadora, diseñado para evaluar las capacidades de agentes LLM en escenarios realistas de system-level reasoning. Cada tarea cuenta con un entorno único, solución escrita por humanos, y tests comprehensivos para verificación. Desarrollado por Laude Institute, representa el gold standard para agent evaluation en tareas de terminal. Terminal-Bench 2.0 (lanzado enero 2026) mejora el benchmark original con validation exhaustiva (varias horas de validación manual y asistida por LLM por tarea), raising difficulty ceiling mientras mejora reliability y reproducibility. Rango de tareas:

Training de machine learning models
Building y running Linux desde source code
Reverse engineering de archivos binarios
System administration complejo
DevOps automation
Data processing pipelines

Por Qué Importa

Benchmark riguroso para production: A diferencia de benchmarks sintéticos (HumanEval, MBPP), Terminal-Bench usa tareas inspiradas en workflows reales, prediciendo mejor cómo agents se comportarán en production. Diferencia entre marketing y realidad: Frontier models (Claude Opus, GPT-5) resuelven <65% de tareas, smaller models ~15%. Esto expone el gap entre demos controlados y autonomous agent capability real. Reproducible execution harness: Incluye framework para ejecutar tasks en ambientes containerizados (Docker), garantizando reproducibility cross-platform y isolation. Standard de industria: Terminal-Bench se ha convertido en el benchmark estándar para evaluar agent capabilities en 2026, usado por Anthropic, OpenAI, Google para medir progress.

Performance Results (2026)

Leaderboard Top Models

Model	Score	Success Rate
Claude Opus 4.6	57.3%	51/89 tareas
GPT-5.2 Codex	54.2%	48/89 tareas
Claude Sonnet 4.5	48.3%	43/89 tareas
Gemini 2.5 Pro	42.7%	38/89 tareas
GPT-4.1	38.2%	34/89 tareas
DeepSeek R1	35.5%	32/89 tareas
Llama 4 Maverick	28.1%	25/89 tareas
Smaller models (<70B)	12-18%	11-16 tareas

Key insight: Incluso los best frontier models fallan en 35-45% de tareas realistas.

Performance por Categoría

System administration (15 tareas):

Opus 4.6: 73% success
GPT-5.2: 67% success
Menor varianza entre models Machine Learning (12 tareas):
Opus 4.6: 58% success
GPT-5.2: 50% success
Alta complejidad, requiere domain knowledge Reverse Engineering (8 tareas):
Opus 4.6: 37% success
GPT-5.2: 25% success
Hardest category, incluso para frontier models DevOps Automation (18 tareas):
Opus 4.6: 61% success
GPT-5.2: 58% success
Mixed: algunos triviales, otros require multi-step reasoning

Ejemplo de Tareas

Task #23: “Train ML Model on MNIST”

Descripción: Train un convolutional neural network en dataset MNIST, alcanzando 98%+ test accuracy. Environment:

Ubuntu 22.04 container
Python 3.10 + PyTorch
MNIST dataset pre-downloaded Success criteria:
Model trains sin errors
Test accuracy ≥98%
Training completa en <10 mins Difficulty: Medium Frontier model success rate: 78% (Claude Opus), 71% (GPT-5)

Task #67: “Compile Linux Kernel”

Descripción: Download Linux 6.9 source, configure build para x86_64, compile kernel que boots en QEMU. Environment:

Ubuntu 22.04 container
16GB RAM, 8 CPUs
Build tools pre-installed Success criteria:
Compilation completa sin errors
Kernel image generado
Boots successfully en QEMU Difficulty: Hard Frontier model success rate: 34% (Claude Opus), 21% (GPT-5)

Task #82: “Reverse Engineer Binary”

Descripción: Binary ejecutable dado (stripped, no symbols). Identifica qué hace, extract hardcoded password. Environment:

Kali Linux container
Reverse engineering tools (ghidra, radare2, gdb)
Target binary provided Success criteria:
Correct identification de binary functionality
Extracted password matches expected value Difficulty: Very Hard Frontier model success rate: 12% (Claude Opus), 8% (GPT-5)

Harbor: Complementary Framework

Junto con Terminal-Bench 2.0, se lanzó Harbor - un framework para scaling up containerized AI agent environments. Harbor features:

Docker-based isolation por task
Resource limiting (CPU, RAM, network)
Reproducible environments
Automated cleanup
Security sandboxing Uso típico:

# Run Terminal-Bench task con Harbor
harbor run --task 23 --agent claude-opus-4.6 --timeout 600
# Output:
# Task #23: Train ML Model on MNIST
# Agent: claude-opus-4.6
# Status: SUCCESS
# Time: 287s
# Accuracy: 98.4%

Implications para Agent Development

1. Gap Reality Check

Marketing: “Agents can code like humans” Reality: Frontier models solo resuelven 60% de tareas realistas Implicación: Agents necesitan human oversight, especialmente en tareas complejas.

2. Specialization Value

Models especializados en coding (Codex, Cursor-specialized) superan a generalist models en tareas específicas. Recommendation: Use specialized agents para domain-specific tasks vs generalist LLMs.

3. Multi-Step Reasoning Struggles

Tareas que requieren >5 pasos secuenciales (planning, debugging iterativo) tienen lowest success rates. Solution: Break complex tasks en subtasks más pequeñas que agents pueden handle independently.

4. Error Recovery Critical

Agents fallan frecuentemente en recovery después de errors. Harness engineering crítico para detect y retry.

Comparativa con Otros Benchmarks

Benchmark	Tasks	Focus	Agent Success
Terminal-Bench	89	Realistic terminal tasks	35-65%
SWE-bench	2,294	Real GitHub issues	10-25%
HumanEval	164	Coding problems	85-95%
MBPP	974	Python programming	80-90%

Key difference: Terminal-Bench tests system-level reasoning + tool use, no solo code generation.

Términos Relacionados

Agentes IA - Sistemas autónomos que ejecutan tareas
Codificación Agéntica - Development con agents autónomos
Harness Engineering - Framework para mejorar agent reliability

Recursos Adicionales

Última actualización: Febrero 2026 Categoría: Technical Terms Desarrollado por: Laude Institute Relacionado con: LLM Benchmarks, Agent Evaluation, Coding Benchmarks Keywords: terminal-bench, llm benchmark, agent evaluation, coding benchmark, ai testing, terminal tasks, system-level reasoning

Terminal-Bench

Terminal-Bench

Definición

Por Qué Importa

Performance Results (2026)

Leaderboard Top Models

Performance por Categoría

Ejemplo de Tareas

Task #23: “Train ML Model on MNIST”

Task #67: “Compile Linux Kernel”

Task #82: “Reverse Engineer Binary”

Harbor: Complementary Framework

Implications para Agent Development

1. Gap Reality Check

2. Specialization Value

3. Multi-Step Reasoning Struggles

4. Error Recovery Critical

Comparativa con Otros Benchmarks

Términos Relacionados

Recursos Adicionales

¿Necesitas ayuda con desarrollo de producto?