GEO-bench (생성형 엔진 평가 벤치마크)
Aggarwal et al. (KDD 2024)이 제안한 GEO(생성형 엔진 최적화) 분야 표준 평가 벤치마크. 다양한 도메인의 사용자 질의와 답변 자료를 묶어 콘텐츠 최적화 전략의 인용 가시성 향상 효과를 측정한다.
GEO-bench 란?
GEO-bench는 Pranjal Aggarwal et al.이 KDD 2024 논문 에서 제안한 GEO(Generative Engine Optimization) 분야 최초의 대규모 평가 벤치마크다. 다양한 도메인의 사용자 질의와 답변에 활용되는 웹 출처를 묶어, 어떤 콘텐츠 최적화 전략이 생성형 AI 답변에서 인용 가시성을 얼마나 끌어올리는지 정량 측정할 수 있게 한다.
전통 SEO 평가 (검색 결과 순위·CTR) 와 달리 GEO-bench는 AI 응답 본문 안에서의 인용·언급 가시성 자체를 측정 대상으로 삼는다. 같은 논문에서 Position-Adjusted Word Count (PAWC) 같은 메트릭을 함께 정의해, 답변의 어느 위치에 얼마만큼 인용됐는지를 가중 평가한다.
측정 대상 — 9가지 콘텐츠 최적화 전략
원논문은 GEO-bench로 9가지 전략의 효과를 비교 검증했다. 상위 결과를 요약하면 다음과 같다.
| 전략 | PAWC 향상 | 분류 |
|---|---|---|
| Quotation Addition (인용구 추가) | +40.7% | 신뢰성 |
| Statistics Addition (수치·통계 추가) | +31.7% | 신뢰성 |
| Cite Sources (출처 인용) | +29.6% | 권위 |
| Fluency Optimization (가독성) | +28.1% | 표현 |
| Authoritative (권위적 톤) | +12.9% | 권위 |
| Keyword Stuffing (키워드 채워넣기) | 효과 없음 | (전통 SEO) |
핵심 발견은 두 가지다. (a) 인용·수치·출처가 표현 변경보다 더 강력하다. 상위 3개 전략이 모두 외부 검증 가능한 fact 카테고리다. (b) 전통 SEO의 Keyword Stuffing은 효과 없음으로 정량 입증됐다. AI 답변 생성이 키워드 매칭이 아닌 의미적 fact 추출로 작동하기 때문이다.
GEO-bench 의 의의
GEO-bench는 단순한 평가 도구가 아니라 GEO 분야가 학술적으로 정립되는 기준점 이 되었다. 후속 연구가 모두 GEO-bench 또는 그 변형을 기준으로 자기 결과를 보고하기 때문이다. 2025년 Chen et al. 의 How to Dominate AI Search 와 2026년 Citation Absorption framework 도 GEO-bench 의 측정 시각을 계승해 확장한다.
한계
벤치마크 특성상 (1) 통제된 질의·답변 세트 라는 한계가 있다. 실제 사용자가 ChatGPT·Claude·Gemini·Perplexity 에 던지는 다양한 변형 질의를 모두 포괄하지는 못한다. (2) 시점 고정 — 2024년 환경에서 측정된 결과로, 그 후 LLM 모델·검색 기능이 빠르게 변화했다. 따라서 GEO-bench 의 9전략 결론은 권위 있는 학술 기반 으로 보존하되, 산업 보고서 (Similarweb·Ahrefs 2026) 와 자체 실측을 함께 봐야 한다.