GEO-bench 란?

GEO-bench는 Pranjal Aggarwal et al.이 KDD 2024 논문 에서 제안한 GEO(Generative Engine Optimization) 분야 최초의 대규모 평가 벤치마크다. 다양한 도메인의 사용자 질의와 답변에 활용되는 웹 출처를 묶어, 어떤 콘텐츠 최적화 전략이 생성형 AI 답변에서 인용 가시성을 얼마나 끌어올리는지 정량 측정할 수 있게 한다.

전통 SEO 평가 (검색 결과 순위·CTR) 와 달리 GEO-bench는 AI 응답 본문 안에서의 인용·언급 가시성 자체를 측정 대상으로 삼는다. 같은 논문에서 Position-Adjusted Word Count (PAWC) 같은 메트릭을 함께 정의해, 답변의 어느 위치에 얼마만큼 인용됐는지를 가중 평가한다.

측정 대상 — 9가지 콘텐츠 최적화 전략

원논문은 GEO-bench로 9가지 전략의 효과를 비교 검증했다. 상위 결과를 요약하면 다음과 같다.

전략	PAWC 향상	분류
Quotation Addition (인용구 추가)	+40.7%	신뢰성
Statistics Addition (수치·통계 추가)	+31.7%	신뢰성
Cite Sources (출처 인용)	+29.6%	권위
Fluency Optimization (가독성)	+28.1%	표현
Authoritative (권위적 톤)	+12.9%	권위
Keyword Stuffing (키워드 채워넣기)	효과 없음	(전통 SEO)

핵심 발견은 두 가지다. (a) 인용·수치·출처가 표현 변경보다 더 강력하다. 상위 3개 전략이 모두 외부 검증 가능한 fact 카테고리다. (b) 전통 SEO의 Keyword Stuffing은 효과 없음으로 정량 입증됐다. AI 답변 생성이 키워드 매칭이 아닌 의미적 fact 추출로 작동하기 때문이다.

GEO-bench 의 의의

GEO-bench는 단순한 평가 도구가 아니라 GEO 분야가 학술적으로 정립되는 기준점 이 되었다. 후속 연구가 모두 GEO-bench 또는 그 변형을 기준으로 자기 결과를 보고하기 때문이다. 2025년 Chen et al. 의 How to Dominate AI Search 와 2026년 Citation Absorption framework 도 GEO-bench 의 측정 시각을 계승해 확장한다.

한계

벤치마크 특성상 (1) 통제된 질의·답변 세트 라는 한계가 있다. 실제 사용자가 ChatGPT·Claude·Gemini·Perplexity 에 던지는 다양한 변형 질의를 모두 포괄하지는 못한다. (2) 시점 고정 — 2024년 환경에서 측정된 결과로, 그 후 LLM 모델·검색 기능이 빠르게 변화했다. 따라서 GEO-bench 의 9전략 결론은 권위 있는 학술 기반 으로 보존하되, 산업 보고서 (Similarweb·Ahrefs 2026) 와 자체 실측을 함께 봐야 한다.

GEO-bench (생성형 엔진 평가 벤치마크)

GEO-bench 란?

측정 대상 — 9가지 콘텐츠 최적화 전략

GEO-bench 의 의의

한계

관련 용어

AI 검색에 내 사이트는 노출되고 있을까?

관련 용어