Automatización QA con agentes de IA: de 12 bugs al mes en producción a cero

Una plataforma de e-commerce con 200.000 usuarios activos mensuales y un catálogo de más de 50.000 productos tenía un problema que amenazaba su crecimiento: los bugs en producción. No eran errores catastróficos que tumbaran el servicio. Eran defectos sutiles que erosionaban la confianza de los usuarios: un filtro de búsqueda que devolvía resultados incorrectos, un cálculo de descuento que fallaba en combinaciones específicas, un flujo de checkout que se rompía en ciertos dispositivos móviles.

Cada bug en producción generaba tickets de soporte, devoluciones y, en el peor de los casos, clientes que se marchaban sin avisar. El equipo de desarrollo sabía que el problema existía, pero estaba atrapado en un ciclo reactivo: dedicaban tanto tiempo a apagar incendios que no les quedaba capacidad para prevenir los siguientes.

El desafío

Testing manual insuficiente

El equipo de QA estaba formado por dos personas que realizaban pruebas manuales antes de cada release. Con un producto que incluía catálogo, búsqueda, carrito, checkout, pagos, gestión de pedidos, sistema de descuentos y panel de administración, era físicamente imposible probar todas las combinaciones relevantes en cada release.

La priorización era inevitable: se probaban los flujos principales y se dejaban sin verificar los escenarios edge. Pero los bugs que llegaban a producción casi siempre estaban en esos escenarios edge que nadie tenía tiempo de probar.

Cobertura de tests automatizados del 22%

El producto tenía tests automatizados, pero cubrian solo el 22% del código. La mayoría eran tests unitarios escritos durante el desarrollo inicial, muchos de los cuales estaban desactualizados o rotos. No existían tests de integración ni tests end-to-end automatizados. El equipo había intentado aumentar la cobertura varias veces, pero siempre lo abandonaban: escribir tests para código legacy sin documentación es un trabajo tedioso que compite por tiempo con las funcionalidades que piden los clientes.

Ciclos de release largos

El miedo a los bugs alargaba los ciclos de release. Cada despliegue requería dos días de testing manual, lo que limitaba las releases a una cada dos semanas. En e-commerce, donde las promociones, las campañas estacionales y las respuestas a la competencia exigen agilidad, lanzar cada quince días era una desventaja competitiva.

Impacto en el negocio

Los bugs no eran solo un problema técnico. Cada bug en el flujo de checkout representaba transacciones perdidas. El equipo de análisis estimaba que los errores en producción costaban entre 15.000 y 25.000 euros mensuales en ventas perdidas y costes de soporte. Ese número fue el que convenció a la dirección de invertir en una solución.

La solución

Diseñamos e implementamos un pipeline de testing con agentes de IA que se integraba en el flujo de desarrollo existente sin requerir que el equipo cambiara radicalmente su forma de trabajar.

Fase 1: generación masiva de tests con agentes de IA (semanas 1-4)

El primer objetivo fue aumentar la cobertura de tests del 22% al 70% en cuatro semanas. Con un equipo humano, eso habría llevado meses. Con agentes de IA, fue viable.

Utilizamos Claude Code para analizar cada módulo del código y generar tests automatizados de tres tipos:

Tests unitarios: para funciones y métodos individuales, cubriendo tanto los casos normales como los edge cases.
Tests de integración: para verificar que los módulos se comunican correctamente entre sí. El sistema de descuentos con el carrito, el carrito con el checkout, el checkout con el procesador de pagos.
Tests end-to-end: para los flujos críticos de usuario. Búsqueda de producto, añadir al carrito, aplicar descuento, completar compra, recibir confirmación.

El agente no generaba tests a ciegas. Analizaba el código, identificaba las ramas de ejecución, detectaba los puntos donde era más probable que aparecieran bugs (operaciones con decimales, manejo de estados nulos, combinaciones de parámetros) y priorizaba la generación de tests en esas áreas.

Cada test generado por el agente pasaba por revisión humana antes de integrarse en el suite. No todos eran perfectos: aproximadamente el 15% necesitaba ajustes. Pero el 85% restante era funcional y correcto desde la primera generación.

Fase 2: agente de revisión de pull requests (semanas 3-5)

Configuramos un agente automatizado que revisaba cada pull request antes de que llegara a un revisor humano. El agente realizaba cuatro verificaciones:

Análisis de impacto: identificaba qué partes del sistema se veían afectadas por los cambios y verificaba que existían tests para esas áreas.
Detección de patrones de error conocidos: buscaba patrones que históricamente habían causado bugs en el proyecto (operaciones con decimales sin redondeo, comparaciones de fechas sin zona horaria, manejo incorrecto de arrays vacíos).
Verificación de cobertura: comprobaba que los cambios nuevos venían acompañados de tests y que la cobertura no disminuía.
Validación de regresión: ejecutaba los tests existentes relacionados con el área modificada y reportaba cualquier fallo.

Fase 3: testing visual automatizado (semanas 5-7)

Para los bugs visuales, aquellos que no se detectan con tests de lógica sino que requieren ver la interfaz, implementamos un sistema de testing visual con capturas de pantalla automatizadas.

Antes de cada release, un agente navegaba los flujos principales de la plataforma en cinco configuraciones diferentes (desktop, tablet, móvil, y dos resoluciones intermedias), tomaba capturas de pantalla y las comparaba con las capturas de referencia. Cualquier diferencia visual por encima de un umbral configurable generaba una alerta para revisión humana.

Esto capturaba una categoría de bugs que antes era invisible para el testing automatizado: botones que se solapaban en determinadas resoluciones, textos que se cortaban, imágenes de producto que no cargaban en ciertos contextos.

Fase 4: integración en CI/CD (semanas 6-8)

Toda la infraestructura de testing se integró en el pipeline de CI/CD existente. El flujo final para cada pull request era:

El desarrollador crea el pull request.
El agente de revisión analiza los cambios automáticamente.
Los tests unitarios, de integración y end-to-end se ejecutan en paralelo.
Los tests visuales se ejecutan en las cinco configuraciones.
Si todo pasa, el pull request queda marcado como listo para revisión humana.
El revisor humano se centra en lógica de negocio y decisiones de diseño, sabiendo que la calidad técnica ya está verificada.

Resultados

Tras 8 semanas de implementación:

Bugs en producción: de 12 al mes a 0. El primer mes completo con el pipeline activo no registró ningún bug en producción. Los dos meses siguientes mantuvieron la tendencia.
Cobertura de tests: del 22% al 85%. El agente generó más de 2.400 tests automatizados en las primeras cuatro semanas. Tras la revisión humana, 2.040 se incorporaron al suite.
Ciclos de release: 60% más rápidos. De una release cada dos semanas a tres releases por semana. La confianza en el pipeline de testing eliminó la necesidad de testing manual extensivo.
Tiempo de QA manual: reducido un 80%. Los dos QA del equipo pasaron de dedicar el 100% de su tiempo a testing manual a dedicar el 20%. El 80% restante lo dedicaron a diseñar estrategias de testing más avanzadas y a supervisar los agentes.
Ventas recuperadas: estimación de 18.000 euros mensuales en transacciones que antes se perdían por bugs en el flujo de checkout.

Lecciones aprendidas

Los agentes de IA son mejores generando tests que escribiendo código de producción

La generación de tests es una de las aplicaciones donde los agentes de IA brillan con más consistencia. Los tests tienen un patrón claro (dado X, cuando Y, entonces Z), y el agente puede generar variaciones exhaustivas que un humano no tendría paciencia para escribir. Es un caso de uso donde la exhaustividad del agente complementa la creatividad del humano.

El 22% de cobertura no es un punto de partida, es una deuda

Muchos equipos se acostumbran a coberturas bajas y las normalizan. Pero un 22% significa que el 78% del código no tiene red de seguridad. Cuando se introduce un cambio, no hay forma automatizada de saber si algo se ha roto. Subir la cobertura al 85% no fue un lujo: fue la condición mínima para poder desplegar con confianza.

El testing visual captura una categoría de bugs invisible

Los tests de lógica no ven lo que el usuario ve. Un test puede confirmar que el precio del producto es correcto y aun así el precio puede mostrarse superpuesto con otro elemento en la pantalla del usuario. El testing visual automatizado cerró esa brecha.

La inversión en testing se recupera en semanas, no en meses

La dirección esperaba un ROI a 6 meses. Lo consiguieron en 6 semanas. Entre las ventas recuperadas, la reducción de tickets de soporte y el tiempo liberado del equipo de QA, la inversión se amortizó antes de que el pipeline estuviera completamente estabilizado.

Si tu equipo de desarrollo envía bugs a producción con más frecuencia de la aceptable, o si tu cobertura de tests es una fuente de estrés, podemos ayudarte. Solicita una auditoría gratuita y analizaremos cómo implementar un pipeline de testing con agentes de IA adaptado a tu producto.