Glosario Técnico

Terminal-Bench

Definición: Benchmark de 89 tareas para evaluar capacidades de agentes LLM en entornos terminal, con tareas realistas desde entrenar ML models hasta compilar Linux desde source. Frontier models resuelven <65% de tareas.

— Fuente: NERVICO, Consultoría de Desarrollo de Producto

Terminal-Bench

Definición

Terminal-Bench es un benchmark cuidadosamente curado de 89 tareas en entornos terminal de computadora, diseñado para evaluar las capacidades de agentes LLM en escenarios realistas de system-level reasoning. Cada tarea cuenta con un entorno único, solución escrita por humanos, y tests comprehensivos para verificación. Desarrollado por Laude Institute, representa el gold standard para agent evaluation en tareas de terminal. Terminal-Bench 2.0 (lanzado enero 2026) mejora el benchmark original con validation exhaustiva (varias horas de validación manual y asistida por LLM por tarea), raising difficulty ceiling mientras mejora reliability y reproducibility. Rango de tareas:

  • Training de machine learning models
  • Building y running Linux desde source code
  • Reverse engineering de archivos binarios
  • System administration complejo
  • DevOps automation
  • Data processing pipelines

Por Qué Importa

Benchmark riguroso para production: A diferencia de benchmarks sintéticos (HumanEval, MBPP), Terminal-Bench usa tareas inspiradas en workflows reales, prediciendo mejor cómo agents se comportarán en production. Diferencia entre marketing y realidad: Frontier models (Claude Opus, GPT-5) resuelven <65% de tareas, smaller models ~15%. Esto expone el gap entre demos controlados y autonomous agent capability real. Reproducible execution harness: Incluye framework para ejecutar tasks en ambientes containerizados (Docker), garantizando reproducibility cross-platform y isolation. Standard de industria: Terminal-Bench se ha convertido en el benchmark estándar para evaluar agent capabilities en 2026, usado por Anthropic, OpenAI, Google para medir progress.

Performance Results (2026)

Leaderboard Top Models

ModelScoreSuccess Rate
Claude Opus 4.657.3%51/89 tareas
GPT-5.2 Codex54.2%48/89 tareas
Claude Sonnet 4.548.3%43/89 tareas
Gemini 2.5 Pro42.7%38/89 tareas
GPT-4.138.2%34/89 tareas
DeepSeek R135.5%32/89 tareas
Llama 4 Maverick28.1%25/89 tareas
Smaller models (<70B)12-18%11-16 tareas

Key insight: Incluso los best frontier models fallan en 35-45% de tareas realistas.

Performance por Categoría

System administration (15 tareas):

  • Opus 4.6: 73% success
  • GPT-5.2: 67% success
  • Menor varianza entre models Machine Learning (12 tareas):
  • Opus 4.6: 58% success
  • GPT-5.2: 50% success
  • Alta complejidad, requiere domain knowledge Reverse Engineering (8 tareas):
  • Opus 4.6: 37% success
  • GPT-5.2: 25% success
  • Hardest category, incluso para frontier models DevOps Automation (18 tareas):
  • Opus 4.6: 61% success
  • GPT-5.2: 58% success
  • Mixed: algunos triviales, otros require multi-step reasoning

Ejemplo de Tareas

Task #23: “Train ML Model on MNIST”

Descripción: Train un convolutional neural network en dataset MNIST, alcanzando 98%+ test accuracy. Environment:

  • Ubuntu 22.04 container
  • Python 3.10 + PyTorch
  • MNIST dataset pre-downloaded Success criteria:
  • Model trains sin errors
  • Test accuracy ≥98%
  • Training completa en <10 mins Difficulty: Medium Frontier model success rate: 78% (Claude Opus), 71% (GPT-5)

Task #67: “Compile Linux Kernel”

Descripción: Download Linux 6.9 source, configure build para x86_64, compile kernel que boots en QEMU. Environment:

  • Ubuntu 22.04 container
  • 16GB RAM, 8 CPUs
  • Build tools pre-installed Success criteria:
  • Compilation completa sin errors
  • Kernel image generado
  • Boots successfully en QEMU Difficulty: Hard Frontier model success rate: 34% (Claude Opus), 21% (GPT-5)

Task #82: “Reverse Engineer Binary”

Descripción: Binary ejecutable dado (stripped, no symbols). Identifica qué hace, extract hardcoded password. Environment:

  • Kali Linux container
  • Reverse engineering tools (ghidra, radare2, gdb)
  • Target binary provided Success criteria:
  • Correct identification de binary functionality
  • Extracted password matches expected value Difficulty: Very Hard Frontier model success rate: 12% (Claude Opus), 8% (GPT-5)

Harbor: Complementary Framework

Junto con Terminal-Bench 2.0, se lanzó Harbor - un framework para scaling up containerized AI agent environments. Harbor features:

  • Docker-based isolation por task
  • Resource limiting (CPU, RAM, network)
  • Reproducible environments
  • Automated cleanup
  • Security sandboxing Uso típico:
# Run Terminal-Bench task con Harbor
harbor run --task 23 --agent claude-opus-4.6 --timeout 600
# Output:
# Task #23: Train ML Model on MNIST
# Agent: claude-opus-4.6
# Status: SUCCESS
# Time: 287s
# Accuracy: 98.4%

Implications para Agent Development

1. Gap Reality Check

Marketing: “Agents can code like humans” Reality: Frontier models solo resuelven 60% de tareas realistas Implicación: Agents necesitan human oversight, especialmente en tareas complejas.

2. Specialization Value

Models especializados en coding (Codex, Cursor-specialized) superan a generalist models en tareas específicas. Recommendation: Use specialized agents para domain-specific tasks vs generalist LLMs.

3. Multi-Step Reasoning Struggles

Tareas que requieren >5 pasos secuenciales (planning, debugging iterativo) tienen lowest success rates. Solution: Break complex tasks en subtasks más pequeñas que agents pueden handle independently.

4. Error Recovery Critical

Agents fallan frecuentemente en recovery después de errors. Harness engineering crítico para detect y retry.

Comparativa con Otros Benchmarks

BenchmarkTasksFocusAgent Success
Terminal-Bench89Realistic terminal tasks35-65%
SWE-bench2,294Real GitHub issues10-25%
HumanEval164Coding problems85-95%
MBPP974Python programming80-90%

Key difference: Terminal-Bench tests system-level reasoning + tool use, no solo code generation.

Términos Relacionados

Recursos Adicionales


Última actualización: Febrero 2026 Categoría: Technical Terms Desarrollado por: Laude Institute Relacionado con: LLM Benchmarks, Agent Evaluation, Coding Benchmarks Keywords: terminal-bench, llm benchmark, agent evaluation, coding benchmark, ai testing, terminal tasks, system-level reasoning

¿Necesitas ayuda con desarrollo de producto?

Te ayudamos a acelerar tu desarrollo con tecnología puntera y mejores prácticas.