Definición: Capacidad de ajustar automaticamente los recursos de computacion en funcion de la demanda real, escalando hacia arriba o hacia abajo segun las metricas definidas.
— Fuente: NERVICO, Consultoría de Desarrollo de Producto
Que es Auto Scaling
Auto Scaling es la capacidad de ajustar automaticamente la cantidad de recursos de computacion asignados a una aplicacion en funcion de la demanda real. Cuando el trafico aumenta, Auto Scaling agrega instancias o contenedores adicionales para absorber la carga. Cuando la demanda disminuye, reduce los recursos para evitar pagar por capacidad no utilizada. En AWS, Auto Scaling se aplica a instancias EC2, tareas ECS, tablas DynamoDB, clusters Aurora y otros servicios, siempre basandose en metricas como uso de CPU, memoria, peticiones por segundo o metricas personalizadas.
Como funciona
Auto Scaling opera mediante politicas que definen cuando y como escalar. Una politica de escalado por objetivo (target tracking) mantiene una metrica en un valor especifico: por ejemplo, mantener el uso de CPU al 60%. Cuando la metrica supera el objetivo, Auto Scaling lanza nuevas instancias. Cuando baja, las termina gradualmente. Las politicas de escalado por pasos permiten definir acciones diferentes segun la magnitud de la desviacion. Tambien es posible programar escalado en horarios predecibles. Auto Scaling utiliza un grupo de escalado que define limites minimos y maximos de instancias, la configuracion de lanzamiento (AMI, tipo de instancia, security groups) y las subnets donde desplegar.
Por que importa
Dimensionar la infraestructura manualmente obliga a elegir entre sobreprovisionar (pagando por recursos ociosos) o infraprovisionar (arriesgando caidas bajo carga). Auto Scaling elimina este dilema al ajustar la capacidad en tiempo real. Para aplicaciones con trafico variable, como plataformas de e-commerce con picos estacionales o APIs con uso concentrado en horario laboral, Auto Scaling puede reducir costes entre un 30% y un 60% comparado con infraestructura fija, mientras garantiza disponibilidad durante los picos de demanda.
Ejemplo practico
Una plataforma de reservas hoteleras experimenta un trafico 5x mayor los lunes por la manana cuando las empresas reservan viajes de negocios. El equipo configura Auto Scaling con un minimo de 3 instancias EC2, un maximo de 15 y un objetivo de CPU al 65%. Los lunes a las 8:00, el trafico aumenta y Auto Scaling lanza instancias adicionales en 2 minutos. A las 12:00, cuando el trafico se estabiliza, las instancias extra se terminan gradualmente. El coste semanal se reduce un 45% comparado con mantener 15 instancias activas permanentemente.