Definición: Tecnica que reduce la precision numerica de los pesos de un modelo de IA para disminuir su tamano y acelerar la inferencia, con una perdida minima de calidad.
— Fuente: NERVICO, Consultoría de Desarrollo de Producto
Que es la cuantizacion
La cuantizacion (quantization) es una tecnica de optimizacion que reduce la precision numerica de los pesos y activaciones de un modelo de IA. En lugar de usar numeros de punto flotante de 32 bits (FP32) o 16 bits (FP16), la cuantizacion convierte estos valores a formatos de menor precision como INT8 (8 bits) o INT4 (4 bits). Esto reduce el tamano del modelo en memoria, acelera la velocidad de inferencia y disminuye los requisitos de hardware, con una perdida de calidad tipicamente inferior al 1-2%.
Como funciona
Existen dos enfoques principales. La cuantizacion post-entrenamiento (PTQ) convierte los pesos de un modelo ya entrenado a menor precision sin necesidad de reentrenamiento. Es rapida y facil de aplicar pero puede perder algo de precision. La cuantizacion durante el entrenamiento (QAT) simula la menor precision durante el proceso de entrenamiento, permitiendo que el modelo se adapte y compense la perdida de informacion. Ambos metodos mapean rangos continuos de valores flotantes a un conjunto discreto de niveles de cuantizacion, usando tecnicas como calibracion y escalado por canal para minimizar el error.
Por que importa
La cuantizacion es esencial para hacer que los LLMs sean economicamente viables en produccion. Un modelo de 70B parametros en FP16 requiere aproximadamente 140 GB de VRAM. Cuantizado a INT4, el mismo modelo cabe en una sola GPU con 35 GB de VRAM. Para empresas, esto significa poder ejecutar modelos mas potentes con hardware mas accesible, reducir costes de infraestructura cloud y habilitar la inferencia en dispositivos edge.
Ejemplo practico
Una startup quiere ejecutar un modelo Llama de 70B parametros en su propia infraestructura. Con FP16, necesitaria dos GPUs A100 de 80 GB (coste mensual superior a 5,000 euros en cloud). Aplicando cuantizacion GPTQ a 4 bits, ejecutan el modelo en una sola A100 con una degradacion de calidad imperceptible, reduciendo su coste de infraestructura a la mitad.
Terminos relacionados
- Destilacion de modelos - Tecnica complementaria de compresion de modelos
- LoRA - Metodo eficiente de fine-tuning compatible con modelos cuantizados
- Optimizacion de inferencia - Campo que incluye la cuantizacion como tecnica clave
Ultima actualizacion: Febrero 2026 Categoria: Inteligencia Artificial Relacionado con: Model Compression, Inference Optimization, LoRA, QLoRA Keywords: cuantizacion, quantization, model compression, int8, int4, gptq, inference optimization, ptq, qat