LoRA
대규모 AI 모델을 적은 비용으로 미세 조정하는 경량화 기법
#LoRA#파인튜닝#경량화
LoRA란?
LoRA(Low-Rank Adaptation)는 거대한 AI 모델을 적은 자원으로 효율적으로 미세 조정(파인튜닝)하는 기법입니다. 옷 수선에 비유하면 이해하기 쉽습니다. 기성복을 사서 전체를 다시 만들지 않고, 소매 길이나 허리 부분만 살짝 수선하면 나에게 딱 맞는 옷이 되죠. LoRA도 마찬가지로, 수십억 개의 전체 파라미터를 건드리지 않고 핵심적인 소수의 파라미터만 조정합니다.
어떻게 작동하나요?
일반적인 파인튜닝은 모델의 모든 가중치를 업데이트하므로 막대한 GPU 메모리와 시간이 필요합니다. LoRA는 원래 모델의 가중치를 **동결(고정)**한 상태에서, 작은 크기의 행렬 두 개를 추가로 학습합니다. 이 작은 행렬들이 원래 모델의 동작을 미세하게 조정하는 역할을 합니다. 전체 파라미터의 1% 미만만 학습하면서도 전체 파인튜닝에 근접한 성능을 달성할 수 있습니다.
왜 중요한가요?
LoRA 덕분에 고성능 GPU 클러스터 없이도 개인이나 중소기업이 자체 목적에 맞게 LLM을 맞춤 조정할 수 있게 되었습니다. 일반 소비자용 GPU에서도 학습이 가능하며, 학습된 LoRA 어댑터는 수십 MB 수준으로 가벼워 공유와 교체가 쉽습니다. 오픈소스 AI 생태계의 폭발적 성장을 이끈 핵심 기술입니다.
관련 용어
AI 인프라/모델 최적화
경사하강법 (Gradient Descent)
손실 함수를 최소화하기 위해 기울기 반대 방향으로 파라미터를 반복 업데이트하는 최적화 방법
AI 인프라/모델 최적화
딥러닝 (Deep Learning)
다층 신경망을 이용해 데이터의 복잡한 표현을 자동으로 학습하는 머신러닝 접근
AI 인프라/모델 최적화
레이트 리미팅 (Rate Limiting)
짧은 시간에 과도한 요청이 몰릴 때 API 호출량을 제한하는 제어 기법
AI 인프라/모델 최적화
로봇 파운데이션 모델 (Robot Foundation Model)
대규모 로봇 데이터와 멀티모달 입력으로 사전 학습되어 다양한 물리 작업에 전이 가능한 범용 로봇 AI 모델
AI 인프라/모델 최적화
로컬 AI (Local AI)
모델을 외부 API가 아닌 자체 PC·서버에서 직접 실행하는 방식
AI 인프라/모델 최적화
모델 증류 (Model Distillation)
대형 모델의 출력 신호를 활용해 더 작은 모델을 학습시키는 경량화 기법