Definición: Tecnica para transferir el conocimiento de un modelo grande (teacher) a uno mas pequeno (student), reduciendo costes de inferencia mientras se preserva la mayor parte del rendimiento.
— Fuente: NERVICO, Consultoría de Desarrollo de Producto
Que es la destilacion de modelos
La destilacion de modelos (model distillation) es una tecnica de compresion que transfiere el conocimiento de un modelo grande y potente (teacher) a un modelo mas pequeno y eficiente (student). El modelo student aprende a replicar el comportamiento del teacher, incluyendo no solo las respuestas correctas sino tambien la distribucion de probabilidades sobre todas las respuestas posibles. El resultado es un modelo mas ligero que retiene entre el 90-98% del rendimiento original con una fraccion del coste computacional.
Como funciona
Durante el proceso de destilacion, el modelo teacher genera respuestas para un gran conjunto de datos de entrenamiento. En lugar de entrenar al student solo con las etiquetas correctas (hard labels), se le entrena para que replique la distribucion completa de probabilidades del teacher (soft labels). Estas soft labels contienen informacion rica sobre las relaciones entre conceptos que el modelo ha aprendido. La funcion de perdida combina la divergencia KL entre las distribuciones del teacher y el student con la precision en las etiquetas correctas, permitiendo un equilibrio entre fidelidad al teacher y generalizacion.
Por que importa
Los modelos de lenguaje mas potentes suelen ser demasiado costosos para ejecutar en produccion a escala. La destilacion permite a las empresas aprovechar la calidad de modelos grandes reduciendo los costes de inferencia entre 5x y 20x. Esto hace viable desplegar IA en dispositivos edge, aplicaciones moviles y escenarios donde la latencia o el presupuesto de compute son limitantes.
Ejemplo practico
Una empresa necesita un modelo de clasificacion de intenciones para su chatbot que procesa 100,000 consultas diarias. Usar GPT-4 directamente costaria miles de euros al mes. Mediante destilacion, generan respuestas de GPT-4 para 50,000 ejemplos y entrenan un modelo de 7B parametros que logra el 95% de la precision de GPT-4 a una decima parte del coste por consulta.
Terminos relacionados
- LLM - Modelos grandes que sirven como teachers en destilacion
- Fine-tuning - Tecnica relacionada de ajuste de modelos
- Cuantizacion - Tecnica complementaria de compresion de modelos
Ultima actualizacion: Febrero 2026 Categoria: Inteligencia Artificial Relacionado con: LLM, Model Compression, Inference Optimization, Fine-Tuning Keywords: destilacion de modelos, model distillation, knowledge distillation, teacher student, model compression, inference optimization, soft labels