RAG 품질이 흔들릴 때 바로 쓰는 평가 플레이북
정확도 저하, 근거 누락, 환각 증가가 발생했을 때 RAG 시스템을 빠르게 진단하고 개선하는 실무 체크리스트입니다.
AI 보조 작성 · 편집팀 검수이 블로그 콘텐츠는 AI 보조 도구를 활용해 초안/구조화를 수행할 수 있으며, Trensee 편집팀 검수 후 발행됩니다.
상황
RAG를 도입하면 처음엔 품질이 좋아지지만, 시간이 지나면 다음 문제가 자주 발생합니다.
- “근거가 있는 것처럼” 보이지만 출처가 약함
- 질문 유형이 바뀌면 정확도가 급락
- 운영 데이터가 늘수록 응답이 길고 느려짐
이때 필요한 것은 모델 교체가 아니라 평가 체계입니다.
1단계: 문제를 분리해서 측정
RAG 품질을 한 지표로 보지 말고 최소 3개로 분리합니다.
- 검색 품질
- 정답 문서가 검색 상위 K개 안에 들어오는가 (
Recall@K)
- 생성 품질
- 검색된 문서를 근거로 답을 구성하는가 (
Faithfulness)
- 사용성
- 답이 간결하고 실행 가능한가 (
Helpfulness)
2단계: 실패 유형 라벨링
최근 실패 사례 50건을 수집해 아래처럼 라벨링합니다.
- Retrieval miss: 정답 문서 검색 실패
- Context overload: 관련 없는 문서 과다 포함
- Grounding failure: 문서와 다른 주장 생성
- Prompt mismatch: 질문 의도와 프롬프트 정책 불일치
라벨 비율만 봐도 우선순위가 나옵니다.
3단계: 개선 순서
A. 검색 계층 먼저 개선
- 청크 크기/오버랩 재조정
- 임베딩 모델 교체 테스트
- 하이브리드 검색(BM25 + 벡터) 적용
B. 컨텍스트 구성 개선
- 상위 K를 무작정 늘리지 말고, 점수 임계값 기반 선택
- 중복 문서 제거 및 문서 다양성 제어
C. 생성 정책 개선
- “근거 없는 답변 금지” 정책 명시
- 답변에 출처 인용 포맷 강제
4단계: 배포 기준 설정
개선 실험을 프로덕션에 반영할 때는 다음 조건을 동시에 만족해야 합니다.
- Faithfulness +5%p 이상
- P95 응답시간 악화 10% 이내
- 토큰 비용 증가 15% 이내
빠른 운영 템플릿
매주 1회 아래 표를 업데이트하세요.
| 지표 | 이번 주 | 지난 주 | 변화 |
|---|---|---|---|
| Recall@5 | |||
| Faithfulness | |||
| P95 응답시간 | |||
| 평균 토큰 비용 |
RAG 운영의 핵심은 “한 번 잘 만드는 것”이 아니라 매주 같은 방식으로 진단하고 개선하는 루프를 만드는 것입니다.
참고 링크
- RAG 원 논문: https://arxiv.org/abs/2005.11401
- RAGAS 논문: https://arxiv.org/abs/2309.15217
- LangSmith Evaluation 문서: https://docs.smith.langchain.com/evaluation
- Pinecone RAG 가이드: https://www.pinecone.io/learn/retrieval-augmented-generation/
핵심 실행 요약
| 항목 | 실무 기준 |
|---|---|
| 핵심 주제 | RAG 품질이 흔들릴 때 바로 쓰는 평가 플레이북 |
| 적용 대상 | 자연어 처리 (NLP) 업무에 우선 적용 |
| 우선 조치 | 모델 선택 전 대표 데이터셋 3개 이상으로 목표 태스크를 벤치마크 |
| 리스크 체크 | 토크나이제이션 엣지 케이스, 언어 감지 정확도, 다국어 드리프트를 검증 |
| 다음 단계 | 모델·프롬프트 업데이트 후 성능 회귀를 지속 추적 |
자주 묻는 질문(FAQ)
"RAG 품질이 흔들릴 때 바로 쓰는 평가 플레이북"의 접근법을 실제 업무에 바로 적용하려면 어떻게 해야 하나요?▾
요청 입력을 표준화해 목적, 대상 독자, 참고 자료, 출력 형식을 필수로 받는 입력 계약부터 도입하세요.
practical-guide은 개인 실무자에게도 적합한가요, 아니면 팀 단위 도입이 필요한가요?▾
자연어 처리 (NLP)처럼 반복 업무와 품질 편차가 큰 팀에서 효과가 빠르게 나타납니다.
practical-guide를 처음 도입할 때 가장 흔히 발생하는 실수는 무엇인가요?▾
프롬프트 문구보다 맥락 레이어 분리와 출력 검증 루프가 실제로 작동하는지 먼저 점검하세요.
분석 근거
- 작성 기준: 공개 문서, 공식 발표, 기사 흐름 신호를 교차 확인해 정리
- 검증 원칙: 단일 출처 주장보다 2개 이상 출처의 공통 신호를 우선 반영
외부 인용 링크
이 글에 대해 궁금한 점이 있으신가요?
질문하기에서 로그인 후 익명으로 질문해 보세요.
관련 포스트
RAG 성능을 2배 높이는 프롬프트 엔지니어링과 데이터 전처리 기법
검색 증강 생성(RAG)의 답변 정확도를 결정하는 핵심 요소인 문서 분할(Chunking) 전략과 검색 컨텍스트 최적화 프롬프트를 실무 사례와 함께 다룹니다.
파인튜닝 vs 프롬프팅, 언제 무엇을 써야 할까?
파인튜닝과 프롬프팅의 차이를 목적, 비용, 운영 관점에서 쉽게 비교합니다.
RAG란? 검색 증강 생성 쉽게 이해하기
RAG의 핵심 개념과 작동 방식, 언제 효과적인지와 한계를 쉬운 예시로 정리합니다.
RAG(검색 증강 생성)란? AI 환각을 줄이는 핵심 기술
RAG의 개념과 작동 원리, 그리고 왜 기업들이 RAG를 도입하는지 알아봅니다.
LLM 컨텍스트와 메모리란 무엇이며, 왜 효율적 사용이 중요한가?
AI가 대화의 흐름을 놓치지 않게 만드는 컨텍스트 윈도우의 개념과 장기 메모리 활용 전략을 실무 관점에서 정리합니다.