RLAIF (AI 피드백 강화학습)
정의
사람 대신 AI 모델의 선호 평가를 활용해 정렬 품질을 높이는 강화학습 방식
#RLAIF#Reinforcement Learning from AI Feedback#AI 피드백 강화학습#선호 최적화
RLAIF란?
RLAIF는 Reinforcement Learning from AI Feedback의 약자로, 인간 평가자 대신 다른 AI가 선호 신호를 생성해 모델을 정렬하는 방식입니다.
RLHF와 무엇이 다른가요?
RLHF는 인간 비교 데이터를 핵심으로 사용하고, RLAIF는 AI가 만든 선호 라벨을 대규모로 활용합니다. 비용과 확장성에서 장점이 큽니다.
주의할 점
AI가 만든 피드백에도 편향이 누적될 수 있으므로, 헌법 규칙·감사 샘플·안전 평가를 함께 설계해야 합니다.
관련 용어
AI 검색에 내 사이트는 노출되고 있을까?
ChatGPT·Perplexity·Gemini가 내 브랜드를 어떻게 답하는지 무료로 확인해 보세요.
지금 진단 시작 →관련 용어
자연어 처리 (NLP)
어텐션 (Attention)
입력 데이터에서 중요한 부분에 집중하는 딥러닝 메커니즘
자연어 처리 (NLP)
에이전트 (AI Agent)
스스로 판단하고 도구를 활용해 작업을 수행하는 자율 AI
자연어 처리 (NLP)
에이전틱 AI (Agentic AI)
스스로 목표를 분해하고 도구를 사용해 다단계 작업을 자율 수행하는 AI 시스템 범주
자연어 처리 (NLP)
연쇄 추론 유도 (Chain-of-Thought Elicitation)
모델이 답변 전 사고 과정을 단계별로 드러내도록 유도하는 프롬프트 기법
자연어 처리 (NLP)
임베딩 (Embedding)
텍스트나 이미지를 숫자 벡터로 변환하는 표현 기술
자연어 처리 (NLP)
재랭킹 (Reranking)
초기 검색 결과를 다시 평가해 더 관련도 높은 순서로 재정렬하는 후처리 단계