지식 증류란?

지식 증류는 크고 정확한 모델(teacher) 이 가진 지식을 작고 빠른 모델(student) 에 이식해 성능은 유지하면서 크기·비용을 줄이는 학습 기법입니다. Hinton et al.(2015) 이 제시한 고전 아이디어지만, LLM 시대에 들어 7B·3B·1B 규모의 소형 모델을 만들 때 핵심 축으로 자리잡았습니다.

쉽게 말해, teacher 가 "정답이 무엇인가" 뿐 아니라 "정답에 대한 확신 분포" 까지 student 에 학습시키는 방법입니다.

어떻게 작동하나요?

두 가지 신호를 동시에 활용합니다.

Hard label: 실제 정답 (예: "고양이")
Soft label (핵심): teacher 가 내놓는 전체 확률 분포 (예: 고양이 0.8, 호랑이 0.1, 개 0.05, 여우 0.03 ...)

student 는 teacher 의 soft label 분포를 모사하도록 학습됩니다. soft label 에는 "고양이와 호랑이가 비슷하다" 같은 암묵 지식이 담겨있어, 단순 정답만 학습하는 것보다 훨씬 풍부한 신호를 얻습니다.

LLM 에서는 주로 시퀀스 레벨 증류 (teacher 의 응답을 student 가 재현하도록 학습) 가 쓰이며, Llama·Gemma 등 소형 모델 학습에도 활용됩니다.

왜 중요한가요?

지식 증류는 AI 실전 배포의 경제성을 결정합니다. 프론티어 모델(수백 B 파라미터) 을 그대로 서빙하면 추론 비용이 감당 불가하지만, 7B13B 소형 모델로 증류하면 **성능 8095% 유지 + 비용 1/10~1/100**이 가능합니다. 엣지·모바일·저지연 용도는 사실상 증류 없이는 성립하지 않으며, 온디바이스 AI·에이전트 경량화·비용 최적화 측면에서 필수 기법으로 자리잡았습니다.

지식 증류 (Knowledge Distillation)

지식 증류란?

어떻게 작동하나요?

왜 중요한가요?

관련 용어