본문으로 건너뛰기
ml-foundations

스케일링 법칙 (Scaling Laws)

AI 모델의 성능이 파라미터·데이터·연산량 증가에 따라 예측 가능한 곡선을 그린다는 경험 법칙

#Scaling Laws#스케일링 법칙#LLM#Chinchilla#모델 크기

스케일링 법칙이란?

스케일링 법칙은 AI 모델의 성능 향상이 모델 파라미터 수·학습 데이터 양·연산량의 증가에 따라 멱법칙(power law) 곡선을 그린다는 경험적 관찰입니다. OpenAI(2020)의 Kaplan et al., DeepMind(2022)의 Chinchilla 논문 등에서 정량적으로 제시되었습니다.

즉, 더 큰 모델을 더 많은 데이터로 더 오래 학습시키면 loss 가 예측 가능한 비율로 감소합니다. 이는 AI 기업이 수조 단위 투자로 거대 모델을 만드는 근거가 되었습니다.

어떻게 작동하나요?

3가지 변수가 함께 움직여야 최적 성능에 도달합니다.

  • 파라미터 수 (N): 모델 크기. 예: GPT-3 175B, GPT-4 ~1.8T 추정
  • 학습 토큰 수 (D): 데이터 양. Chinchilla 는 N:D ≈ 1:20 비율을 최적으로 제시
  • 학습 연산량 (C): FLOPs 총량. C ≈ 6 · N · D 로 근사

Chinchilla 법칙 이전에는 파라미터만 키우는 경향이 강했으나, 같은 연산 예산에서 더 작은 모델 + 더 많은 데이터가 오히려 우수함이 밝혀지며 데이터 스케일링의 중요성이 부상했습니다.

왜 중요한가요?

스케일링 법칙은 AI 투자·제품 로드맵의 예측 근거가 됩니다. 손실 감소 곡선을 외삽하면 "이 정도 자원을 투입하면 이 정도 성능이 나온다" 는 추정이 가능하기 때문입니다. 다만 최근에는 단순 규모 확장의 한계(데이터 고갈, 연산 비용 폭증, 추론 능력 plateau)가 지적되며, 추론 시간 확장(test-time compute)·에이전트 아키텍처 등 스케일링 축 다변화 논의가 활발합니다. 여전히 LLM 생태계의 경제 모델·기술 결정을 좌우하는 핵심 개념입니다.

관련 용어