Caso de éxito

Devin AI y Goldman Sachs: análisis independiente de agentes de IA en banca

Análisis independiente de NERVICO sobre la evaluación que Goldman Sachs realizó del agente de IA Devin. Qué descubrieron, qué significa para las empresas y qué lecciones se extraen para la adopción de agentes de codificación con IA.

Banca de inversión / IA Análisis de agentes de IA

~26%

Tasa de finalización

Tareas completadas correctamente por Devin según el informe de Goldman Sachs

$28-150

Coste por tarea

Rango de coste por tarea automatizada frente al coste de un desarrollador junior

20-30%

Potencial de ahorro

Reducción estimada de coste en tareas repetitivas de ingeniería

Nota importante: este caso de estudio es un análisis independiente realizado por NERVICO sobre información pública. NERVICO no ha trabajado directamente con Goldman Sachs ni con Cognition (la empresa detrás de Devin). El objetivo es ofrecer una perspectiva técnica y práctica sobre lo que significa la evaluación de Goldman para el sector.

A mediados de 2025, Goldman Sachs publicó una de las evaluaciones más rigurosas del mercado sobre Devin, el agente de IA para desarrollo de software creado por Cognition. El informe, dirigido a inversores institucionales, analizaba la capacidad real de Devin para ejecutar tareas de ingeniería de software de forma autónoma.

Cuando un banco de inversión de primer nivel dedica recursos a evaluar una herramienta de desarrollo con IA, la industria entera debería prestar atención. No porque Goldman tenga la verdad absoluta, sino porque su análisis aplica un nivel de rigor financiero y metodológico que rara vez se ve en las evaluaciones tecnológicas habituales.

En NERVICO analizamos el informe en profundidad para extraer lecciones aplicables a cualquier empresa que esté considerando incorporar agentes de IA en sus procesos de desarrollo.

El desafío

El mercado de agentes de IA para desarrollo de software vive un momento de expectativas desmesuradas. Las promesas van desde “reemplazar al 50% de los desarrolladores” hasta “multiplicar la productividad por 10x”. Entre tanto ruido, las empresas necesitan datos reales para tomar decisiones informadas.

Promesas frente a realidad

Cognition presentó Devin como “el primer ingeniero de software con IA del mundo”, capaz de planificar, ejecutar y depurar tareas complejas de forma autónoma. La demostración inicial generó una valoración de 2.000 millones de dólares. Pero las demostraciones controladas son una cosa. La ejecución en entornos reales, con código legacy, requisitos ambiguos y dependencias complejas, es otra muy distinta.

Falta de evaluaciones independientes

Hasta el informe de Goldman, la mayoría de las evaluaciones de Devin procedían de la propia Cognition o de evaluaciones anecdóticas en redes sociales. Faltaba un análisis sistemático que midiera el rendimiento en condiciones realistas, con métricas claras y una metodología reproducible.

Confusión en la toma de decisiones empresarial

CTOs y directores de ingeniería recibían preguntas constantes de sus juntas directivas: “Si la IA puede escribir código, por qué seguimos contratando desarrolladores tan caros?” La ausencia de datos fiables hacía imposible responder con fundamento.

La solución

NERVICO realizó un análisis independiente del informe de Goldman Sachs, complementándolo con nuestra experiencia directa implementando agentes de IA en equipos de desarrollo reales.

Lo que Goldman descubrió

El equipo de Goldman Sachs evaluó a Devin en un conjunto diverso de tareas de ingeniería de software, desde corrección de bugs simples hasta implementación de funcionalidades completas. Los hallazgos principales fueron reveladores.

La tasa de finalización exitosa rondó el 26%. Esto significa que, de cada cuatro tareas asignadas, Devin completó correctamente una. Para tareas simples y bien definidas (corrección de bugs con tests claros, generación de código boilerplate), la tasa era significativamente mayor. Para tareas que requerían comprensión del contexto del negocio o decisiones arquitectónicas, la tasa caía por debajo del 15%.

El coste por tarea oscilaba entre 28 y 150 dólares, dependiendo de la complejidad y del número de reintentos necesarios. Comparado con el coste hora de un desarrollador junior en Estados Unidos (entre 40 y 80 dólares), el cálculo económico solo resulta favorable en tareas repetitivas y de baja complejidad.

Análisis de NERVICO: contexto que falta en el informe

Goldman analizó Devin como producto aislado. En nuestra experiencia, los agentes de IA funcionan mejor como parte de un flujo de trabajo integrado, no como reemplazo de un desarrollador. Estas son las matizaciones que consideramos esenciales.

Los agentes de IA no sustituyen, amplifican. Un equipo de cinco desarrolladores con un flujo de trabajo bien diseñado que incorpora agentes de IA puede generar el output de un equipo de diez o doce. Pero necesita cinco desarrolladores. No cero.

El tipo de tarea lo cambia todo. Las métricas agregadas (26% de tasa de finalización) ocultan una distribución muy desigual. En tareas mecánicas (migración de sintaxis, generación de tests unitarios, actualización de dependencias), la tasa supera el 70%. En tareas que requieren juicio técnico, el agente necesita supervisión humana constante.

La calidad del prompt determina el resultado. Observamos que equipos con experiencia en prompting obtienen resultados consistentemente mejores con los mismos agentes. La inversión en formar al equipo en cómo interactuar con agentes de IA tiene un retorno inmediato.

Marco de evaluación para empresas

Desarrollamos un marco de cinco preguntas que cualquier empresa debería responder antes de invertir en agentes de IA para desarrollo:

  1. Inventario de tareas: Qué porcentaje de las tareas actuales de tu equipo son repetitivas y bien definidas.
  2. Coste base real: Cuál es el coste real por tarea completada con tu equipo actual (incluyendo overhead, reuniones y contexto switching).
  3. Tolerancia al error: Qué consecuencias tiene un bug en producción en tu contexto. No es lo mismo una app interna que un sistema de pagos.
  4. Capacidad de supervisión: Tienes desarrolladores senior disponibles para revisar el output de los agentes, o están saturados.
  5. Horizonte temporal: Buscas resultados en semanas o puedes invertir meses en optimizar el flujo de trabajo con agentes.

Resultados

Hallazgos clave del análisis combinado

Tras cruzar los datos de Goldman con nuestra experiencia directa, las conclusiones son las siguientes:

  • Los agentes de IA son rentables hoy para tareas específicas. Generación de tests, migración de código, documentación y refactoring mecánico. En estos casos, el ahorro puede alcanzar el 20-30% del coste de ingeniería.

  • No son rentables como “reemplazo de desarrolladores”. La tasa de finalización del 26% en tareas generales significa que necesitas un desarrollador revisando y corrigiendo el 74% restante. El coste neto puede ser mayor que hacer la tarea directamente.

  • El retorno de inversión depende de la implementación, no de la herramienta. Hemos visto equipos obtener un ROI de 3x con Claude Code y Cursor, y equipos obtener ROI negativo con las mismas herramientas. La diferencia está en cómo se diseña el flujo de trabajo.

  • Goldman subestima el factor de mejora continua. Los agentes de IA mejoran con cada iteración del modelo. Lo que hoy tiene una tasa del 26% probablemente alcanzará el 50% en 12-18 meses. Las empresas que inviertan ahora en integrar agentes tendrán ventaja cuando eso ocurra.

Implicaciones para CTOs

El informe de Goldman refuerza una posición que defendemos desde hace tiempo: la adopción de agentes de IA en desarrollo debe ser pragmática, incremental y medida. No es una decisión binaria de “adoptar o no adoptar”. Es una decisión de “dónde, cómo y con qué expectativas”.

Lecciones aprendidas

Los datos financieros aportan claridad que las demos no dan

La principal contribución de Goldman no es técnica, es económica. Al traducir el rendimiento de Devin a métricas financieras (coste por tarea, ROI por tipo de actividad), el informe permite a los directivos tomar decisiones basadas en números, no en promesas de marketing.

La tasa de finalización bruta es una métrica engañosa

Un 26% global dice poco si no se desglosa por tipo de tarea. Las empresas deberían medir la tasa de finalización para sus tareas específicas, no asumir que el número agregado aplica a su contexto.

La inversión en flujo de trabajo supera la inversión en herramientas

Hemos visto presupuestos de seis cifras en licencias de herramientas de IA con equipos que no cambian su forma de trabajar. El resultado es predecible: las herramientas se infrautilizan y el ROI no aparece. La inversión correcta es primero en proceso, después en herramientas.

El momento de empezar es ahora, pero con expectativas realistas

Las empresas que esperan a que los agentes de IA sean “perfectos” llegarán tarde. Las que los adoptan con expectativas desmesuradas se frustrarán. El camino correcto es adoptar con proyectos piloto acotados, medir resultados reales y escalar progresivamente.


Si estás evaluando cómo incorporar agentes de IA en tu equipo de desarrollo, podemos ayudarte a diseñar un plan realista basado en datos, no en promesas. Solicita una auditoría gratuita y analizaremos tu situación concreta.

¿Tu empresa necesita resultados similares?

Cuéntanos tu caso en una sesión gratuita de 30 minutos. Evaluamos tu situación y te proponemos un plan concreto.