본문으로 건너뛰기
목록으로 돌아가기
AI 기업·투자·사업·작성: RanketAI Editorial·업데이트: 2026-05-07

RanketAI Guide #05: AI 크롤러 4대장 공식 정책 전수 — GPTBot · ClaudeBot · Google-Extended · PerplexityBot

IETF RFC 9309 표준 위에서 OpenAI · Anthropic · Google · Perplexity 4 플랫폼이 공개한 봇 정책을 학습 / 검색 인덱싱 / 사용자 fetch 의 3 계층 분리 관점으로 정리한다. robots.txt 가 GEO 측정의 첫 게이트 이며, RanketAI probe 의 4 측정 영역과 어떻게 연결되는지 single frame 으로 매핑한다.

AI 보조 작성 · 편집팀 검수

이 블로그 콘텐츠는 AI 보조 도구를 활용해 초안/구조화를 수행할 수 있으며, RanketAI 편집팀 검수 후 발행됩니다.

핵심 요약: GEO 측정의 첫 게이트는 콘텐츠 품질이 아니라 robots.txt 다. ChatGPT (OpenAI 3 봇), Claude (Anthropic 3 봇), Gemini (Google-Extended 토큰), Perplexity (2 봇) 4 플랫폼이 각각 학습 / 검색 인덱싱 / 사용자 요청 의 3 계층을 분리해 user-agent 를 발급했다. 본 글은 IETF RFC 9309 표준 위에서 4 플랫폼 공식 정책을 비교하고, RanketAI probe 가 측정하는 가시성 영역과 정책 결정 사이의 인과를 정리한다.

왜 robots.txt 가 GEO 의 첫 게이트인가

지난 #04 — GEO 학계 vs 산업 vs 실측 에서 다룬 학계·산업 합의의 핵심은 "earned media (제3자 출처) 가 자사 페이지보다 더 결정적" 이라는 발견이었다 (Chen et al. 2025 · Ahrefs 2026). 그러나 그보다 먼저 더 근본적인 게이트가 하나 있다 — AI 가 자사 페이지를 학습·인덱싱·실시간 fetch surface 에 포함시킬 수 있는가.

GEO 측정 frame 으로 보면 가시성 형성은 다음 3 단계가 순차적으로 일어난다.

  1. Crawl gate — robots.txt 가 봇 접근을 허용하는가
  2. Index/train gate — 봇이 콘텐츠를 학습 또는 검색 인덱스에 흡수하는가
  3. Citation gate — 사용자 질문 응답 시 그 콘텐츠가 인용되는가

Aggarwal et al. KDD 2024 의 9 전략과 Chen et al. 2025 의 earned media 발견은 모두 2-3 단계의 신호 최적화에 관한 것이다. 그러나 1 단계 (crawl gate) 가 막혀 있으면 2-3 단계 최적화가 모두 무의미해진다. robots.txt 정책 = GEO 의 영지표 surface 를 결정하는 binary switch. 따라서 4 LLM 플랫폼의 공식 정책을 정확히 이해하는 것은 GEO 작업의 출발점이다.

1축 — IETF RFC 9309 (사실상의 공식 표준)

robots.txt 의 공식 표준은 IETF RFC 9309 (Robots Exclusion Protocol) 이다. 2022 년 9월 IETF 가 RFC 로 승격하며 30 년간 사실상 표준이었던 robots.txt 가 정식 인터넷 표준이 됐다. 핵심 디렉티브는 다음 3 가지다.

User-agent: <봇 이름 또는 *>
Disallow: <차단할 경로>
Allow: <명시적 허용 경로>

매칭 우선순위는 가장 긴 경로 매칭 (longest match) 이며, 충돌 시 Allow 가 Disallow 를 이긴다. 이 표준은 4 플랫폼 공식 문서 모두에서 명시 준수된다 — 즉 "robots.txt 에 쓴 대로 동작한다" 는 RFC 9309 가 보장하는 자발적 합의다.

법적 강제력 없음. RFC 9309 §1.1 에 명시된 대로 본 표준은 "voluntarily compliance" 기반이다. 정책 위반 봇 (특히 학습용 데이터 수집기 일부) 가 존재할 가능성은 항상 있으나, OpenAI · Anthropic · Google · Perplexity 4 플랫폼은 모두 공식적으로 RFC 9309 준수를 선언했다.

2축 — OpenAI 3 봇 분리 (GPTBot · OAI-SearchBot · ChatGPT-User)

OpenAI 공식 봇 문서 는 3 개의 user-agent 를 분리해 운영한다.

User-agent 목적 동작 시점
GPTBot 파운데이션 모델 (GPT 시리즈) 학습 백그라운드 크롤링
OAI-SearchBot ChatGPT 검색 기능 인덱싱 백그라운드 크롤링
ChatGPT-User 사용자가 ChatGPT 에서 특정 URL fetch 요청 시 사용자 trigger 직후 실시간

차단 예제 — 학습은 차단, 검색·실시간 fetch 는 허용:

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

이 3 분리 구조의 의의는 학습 opt-out 과 가시성 유지를 분리 할 수 있다는 점이다. GPTBot 만 차단하면 자사 콘텐츠가 모델 학습 데이터에는 들어가지 않으면서도 OAI-SearchBot 으로 ChatGPT 검색 결과에는 노출된다 — 즉 GEO 가시성 surface 는 보존된다.

OpenAI 는 또한 공식 IP 범위 (JSON 엔드포인트) 를 게시해 WAF (Cloudflare 등) 차원에서 user-agent spoofing 차단도 가능하게 했다. 4 플랫폼 중 가장 표준화된 검증 인프라다.

3축 — Anthropic 3 봇 분리 (ClaudeBot · Claude-SearchBot · Claude-User)

Anthropic 공식 도움말 도 동일하게 3 봇 분리 구조를 채택했다.

User-agent 목적 동작 시점
ClaudeBot Claude 모델 학습 백그라운드 크롤링
Claude-SearchBot Claude 검색 기능 인덱싱 백그라운드 크롤링
Claude-User 사용자가 Claude 에서 URL fetch 요청 시 사용자 trigger 직후

차단 예제:

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

OpenAI 와 동일한 3 계층 분리 — 즉 학습 vs 검색 vs 사용자 fetch 분리는 업계 표준 패턴 이 됐다. Anthropic 의 차이점은 IP 범위 게시가 OpenAI 만큼 표준화되지 않았다는 점이며, 일부 운영자는 Cloudflare 의 AI 봇 차단 룰을 보조 수단으로 사용한다.

legacy user-agent 주의. 일부 오래된 robots.txt 가이드는 anthropic-ai 또는 claude-web 을 차단 user-agent 로 명시한다. 이는 2023-2024 년 Anthropic 이 user-agent 를 정비하기 전 표기로, 현재 공식은 ClaudeBot 이다. 가능하면 둘 다 명시해 호환성을 확보하는 것이 안전하다.

4축 — Google-Extended (특별한 토큰 구조)

Google 의 정책은 다른 3 플랫폼과 구조가 다르다. Google-Extended 는 user-agent 가 아닌 robots.txt 전용 토큰 이다 (Google 공식 발표 · Search Central 가이드).

# Gemini 학습 opt-out 만, 검색 인덱싱은 그대로
User-agent: Google-Extended
Disallow: /

# Googlebot (검색) 은 별도 — 차단하면 검색 결과 노출도 사라짐
User-agent: Googlebot
Allow: /

핵심은 두 가지다.

(a) Googlebot 자체는 변경 없음. Google 검색 인덱싱은 동일한 봇 (Googlebot) 으로 수행되고, AI 학습용 fetch 만 별도 토큰 (Google-Extended) 으로 opt-out 가능. 따라서 Google-Extended 를 차단해도 Google 검색 결과 노출은 유지된다.

(b) AI Overviews 노출은 별개 시스템. Google-Extended 는 학습 opt-out 일 뿐, AI Overviews 답변 생성 시 Googlebot 인덱스를 retrieve 하는 동작 자체는 별도 메커니즘이다. 학습 opt-out 과 AI Overviews 가시성은 분리된 결정이다.

이 비대칭 구조는 GEO 작업에 미묘한 결정 부담을 만든다. 학습 데이터에는 빠지면서 AI Overviews 에는 등장하고 싶은 경우 Google-Extended Disallow 만으로 충분하지만, AI Overviews 에서도 빠지고 싶은 경우 추가 메커니즘이 필요하다 — 단일 정책 결정으로 두 결과를 모두 통제할 수 없다.

5축 — Perplexity 2 봇 (PerplexityBot · Perplexity-User)

Perplexity 공식 문서 는 2 봇 구조다.

User-agent 목적 동작 시점
PerplexityBot Perplexity 검색 인덱싱 백그라운드 크롤링
Perplexity-User 사용자 질문 응답 시 실시간 fetch 사용자 trigger 직후

차단 예제:

User-agent: PerplexityBot
Disallow: /

User-agent: Perplexity-User
Disallow: /

중요한 차이: Perplexity 는 AI 학습용 별도 봇을 운영하지 않는다. Perplexity 는 자체 LLM 학습보다 외부 모델 + retrieve-and-generate 구조를 사용하므로, 학습 opt-out 결정 자체가 존재하지 않는다.

GEO 가시성 측면에서 PerplexityBot 차단은 즉시 검색 결과 0 화 를 의미한다. 4 플랫폼 중 가장 가시성 손실이 즉각적인 결정이며, earned media 인용 (Chen et al. 2025) 을 얻으려면 PerplexityBot 차단은 신중해야 한다.

참고 — Microsoft / BingBot (AI 전용 봇 부재)

본 4대장에 포함하지 않았지만 운영 영향은 결코 작지 않은 Microsoft 의 위치를 짧게 정리한다. Microsoft Bing 공식 웹마스터 가이드 에 따르면 Microsoft 는 다음 봇을 운영한다.

User-agent 목적
bingbot Bing 검색 인덱싱 (Copilot · Bing Chat 백엔드 공유)
MicrosoftPreview Copilot 등에서 사용자 trigger 시 link preview fetch

핵심은 두 가지다.

(a) AI 학습 vs 검색 분리 부재. OpenAI · Anthropic 처럼 학습용 별도 봇이 미공개다. Copilot · Bing Chat 응답 생성 시 bingbot 의 일반 검색 인덱스를 그대로 retrieve 한다 — 즉 학습 opt-out 결정이 별도로 존재하지 않는다.

(b) 가시성 영향 광범위. bingbot 차단 = Bing 검색 + Copilot 응답 + (Bing 백엔드를 사용하는 일부 ChatGPT 검색 케이스) 동시 손실. 4대장 외부지만 GEO 가시성 영향은 무시할 수 없다.

User-agent: bingbot
Disallow: /

User-agent: MicrosoftPreview
Disallow: /

본 글이 4대장 frame 을 유지하는 이유는 권위 엔티티 cross-LLM 매핑 결과 4 LLM (ChatGPT · Claude · Gemini · Perplexity) 답변 모두에서 OpenAI · Anthropic · Google · Perplexity 가 Tier 1 권위로 일관 인용됐기 때문이다. Microsoft 는 일부 LLM 답변에서만 핵심 권위로 등장 — Tier 2 권위 위치다. Bing · Copilot 관련 정책 결정 시 본 절을 참조 권장.

4 플랫폼 × 3 목적 매트릭스

각 플랫폼의 봇 구조를 한 표로 정리하면 패턴 차이가 명확해진다.

플랫폼 학습 (Training) 검색 인덱싱 (Search) 사용자 fetch (User)
OpenAI GPTBot OAI-SearchBot ChatGPT-User
Anthropic ClaudeBot Claude-SearchBot Claude-User
Google Google-Extended (토큰) Googlebot (변경 없음)
Perplexity (없음 — 학습 미사용) PerplexityBot Perplexity-User

3 가지 패턴 차이가 보인다.

  • OpenAI · Anthropic 은 대칭 — 학습·검색·사용자 fetch 의 3 봇 분리. 가장 정교한 opt-out 통제 가능.
  • Google 은 token 기반 — Googlebot 단일 봇 + Google-Extended robots.txt 토큰. 검색과 AI 학습의 결합 분리.
  • Perplexity 는 학습 부재 — 2 봇 구조. 학습 opt-out 자체 불가.

Schema.org OrganizationsubjectOf 또는 knowsAbout 필드에 본 4 정책 페이지 URL 을 인용하면 자사 사이트가 GEO 권위 클러스터의 일원으로 식별되는 데 유리하다 — 구조화 데이터 자체가 권위 신호로 작동한다.

실무 robots.txt 설계 — 3 패턴

운영 목적별로 권장 patten 을 정리한다.

패턴 A — 보호 (학습 차단 / 가시성 유지)

자사 콘텐츠가 모델 학습에 흡수되는 것은 막되, 검색·사용자 응답에는 노출되기를 원하는 경우.

# 학습 차단
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /

# 검색·사용자 fetch 는 허용
User-agent: OAI-SearchBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /

미디어·뉴스·법무 등 콘텐츠 권한이 민감한 영역에 적합하다. 다만 학습 차단이 장기적으로 brand 가시성에 미치는 영향은 아직 학술적 결론이 없다 — Aggarwal et al. KDD 2024 는 학습 데이터 surface 를 직접 측정하지 않는다.

패턴 B — 균형 (모두 허용 + IP 검증)

가시성 우선 + 적법한 봇만 허용. 4 플랫폼이 게시한 IP 범위를 WAF 에 등록해 user-agent spoofing 만 차단.

User-agent: *
Allow: /

# IP 검증은 robots.txt 가 아닌 WAF 레벨에서 처리

GEO 측정·SaaS·B2B SaaS 등 가시성이 매출 직결되는 영역에 적합. RanketAI 자체도 이 패턴을 채택한다 — earned media 인용 surface 형성이 우선이기 때문이다.

패턴 C — 개방 (전면 허용)

robots.txt 에 명시 차단 없이 모든 봇 허용. 정책 변경 추적 비용은 낮지만 콘텐츠 권한 risk 는 존재.

# robots.txt 미작성 또는 전면 허용
User-agent: *
Disallow:

콘텐츠 보호가 핵심 가치가 아닌 일반 정보 사이트·블로그·문서 영역에 적합.

RanketAI probe 측정과의 연결

지난 #04 에서 정리한 RanketAI probe 의 4 측정 영역 — 브랜드 인식 · 응답 상단 배치 · 인용 권위 · 답변 품질 — 은 모두 robots.txt 정책의 결과 surface 다. 약점이 발견되면 다음 인과로 점검 우선순위가 정해진다.

probe 측정 영역 약점 시 점검 대상
브랜드 인식 약함 (AI 답변에 자사 미등장) GPTBot · PerplexityBot · Googlebot 인덱싱 차단 가능성
응답 상단 배치 약함 (다른 출처에 밀림) earned media 격차 + 자사 학습 surface 부족
인용 권위 약함 (도메인이 출처로 미인용) OAI-SearchBot · PerplexityBot · Googlebot 인덱싱 미흡
답변 품질 낮음 (부정·중립 톤) 콘텐츠 자체 신호 부족 — robots.txt 와 무관

즉 RanketAI probe 등급이 어디서 약한지를 보면 robots.txt 점검 우선순위가 자동 도출된다. 4 플랫폼 정책 비교는 추상적 가이드라인이 아니라 측정 결과를 해석하는 진단 frame 이다.

결론 — 학술 + 표준 + 플랫폼의 3축 합의

GEO 정책 결정도 #04 와 같은 3축 합의 frame 으로 봐야 한다.

  1. 학술Aggarwal et al. KDD 2024 · Chen et al. 2025 — robots.txt 가 cite gate 의 출발점임을 정량 검증
  2. 표준IETF RFC 9309 · Schema.org Organization — 봇 정책 합의 형식의 사실상 공식 표준
  3. 플랫폼OpenAI Bots · Anthropic 도움말 · Google-Extended · Perplexity Crawlers — 4 플랫폼 자발적 정책 공개

3 축이 합의한 결론은 명확하다.

  • 학습 vs 검색 vs 사용자 fetch 의 3 계층 분리는 4 플랫폼 표준 (Perplexity 만 2 계층) — 학습 opt-out 과 가시성 유지를 분리해 결정 가능
  • Google 만 user-agent 가 아닌 token (Google-Extended) — Googlebot 인덱싱과 Gemini 학습 opt-out 의 분리
  • PerplexityBot 차단 = 즉시 가시성 0 — 4 플랫폼 중 가장 즉각적 가시성 손실
  • 법적 강제 ❌, 자발적 합의 ✅ — RFC 9309 의 voluntarily compliance 기반

robots.txt 정책 검토는 GEO 작업의 첫 출발점이며, 자사 측정 결과 (RanketAI probe 4 영역 등급) 에서 약점이 발견되면 가장 먼저 점검해야 할 layer 다. 권장 진행 순서: (1) 현재 robots.txt 상태 진단 → (2) 4 플랫폼 정책 매트릭스에 매핑 → (3) RanketAI probe 약점 영역과 정합 확인 → (4) 패턴 A/B/C 중 선택 적용.

정책은 자주 갱신된다. 본 글의 user-agent 명·URL·정책 디테일은 2026-05-07 시점 기준이다. 운영 적용 전에 위 4 references 의 공식 페이지를 직접 확인할 것을 권장한다.

더 읽을거리: #01 — AI 검색 시대, 왜 SEO만으론 부족한가 · #02 — LLM 인용 알고리즘 해부 · #03 — 한국 AI 가시성 격차 · #04 — GEO 학계 vs 산업 vs 실측 매핑

핵심 실행 요약

항목실무 기준
핵심 주제RanketAI Guide #05: AI 크롤러 4대장 공식 정책 전수 — GPTBot · ClaudeBot · Google-Extended · PerplexityBot
적용 대상AI 기업·투자·사업 업무에 우선 적용
우선 조치AI 이니셔티브 시작 전 측정 가능한 성공 KPI(비용·시간·품질)를 정의
리스크 체크전체 예산 확정 전 소규모 파일럿으로 ROI 가정을 검증
다음 단계분기별 KPI 변화를 추적하고 범위를 조정하는 검토 주기를 수립

자주 묻는 질문(FAQ)

"RanketAI Guide #05: AI 크롤러 4대장 공식 정책 전수 — GPTBot…"의 접근법을 실제 업무에 바로 적용하려면 어떻게 해야 하나요?

요청 입력을 표준화해 목적, 대상 독자, 참고 자료, 출력 형식을 필수로 받는 입력 계약부터 도입하세요.

RanketAI은 개인 실무자에게도 적합한가요, 아니면 팀 단위 도입이 필요한가요?

AI 기업·투자·사업처럼 반복 업무와 품질 편차가 큰 팀에서 효과가 빠르게 나타납니다.

RanketAI를 처음 도입할 때 가장 흔히 발생하는 실수는 무엇인가요?

프롬프트 문구보다 맥락 레이어 분리와 출력 검증 루프가 실제로 작동하는지 먼저 점검하세요.

분석 근거

  • IETF RFC 9309 — Robots Exclusion Protocol (2022-09 발행). 30년간 사실상 표준이었던 robots.txt 의 정식 인터넷 표준 승격본. User-agent · Disallow · Allow 디렉티브와 longest-match 우선순위, voluntarily compliance 모델을 정의. 4 AI 플랫폼 공식 문서 모두 본 RFC 명시 준수.
  • OpenAI Bots 공식 문서 (platform.openai.com/docs/bots) — GPTBot (모델 학습), OAI-SearchBot (ChatGPT 검색 인덱싱), ChatGPT-User (사용자 요청 실시간 fetch) 의 3 계층 분리 + 공식 IP 범위 JSON 게시.
  • Anthropic 크롤러 공식 도움말 (support.claude.com 8896518) — ClaudeBot (학습), Claude-SearchBot (검색 인덱싱), Claude-User (사용자 요청) 의 3 계층 분리. legacy user-agent (anthropic-ai · claude-web) 호환 유지.
  • Google-Extended 공식 발표 (blog.google/technology/ai/an-update-on-web-publisher-controls/) + Search Central 가이드 (developers.google.com/search/docs/crawling-indexing/google-extended) — 별도 user-agent 가 아닌 robots.txt 토큰. Gemini · 향후 AI 모델 학습 opt-out 전용으로 Googlebot 검색 인덱싱과 분리된 제어 신호.
  • PerplexityBot 공식 문서 (docs.perplexity.ai/guides/bots) — PerplexityBot (검색 인덱싱), Perplexity-User (사용자 요청) 의 2 계층 분리. AI 학습용 별도 봇 미운영 (자체 모델 학습 비활용).
  • Microsoft Bing 웹마스터 가이드 (bing.com/webmasters/help/which-crawlers-does-bing-use-8c184ec0) — bingbot (Bing 검색 + Copilot 백엔드 공유), MicrosoftPreview (link preview). AI 학습 전용 봇 미공개 — Copilot 은 일반 검색 인덱스 재사용. 4대장 외부지만 가시성 영향 광범위.
  • Aggarwal et al. "GEO: Generative Engine Optimization" (Princeton·IIT Delhi·Georgia Tech, KDD 2024, arXiv:2311.09735) — 9 가지 GEO 전략 정량 검증의 학술 출발점. robots.txt crawl gate 가 차단되면 본 9 전략 모두 효과 0.
  • Chen·Wang·Chen·Koudas. "How to Dominate AI Search" (2025-09, arXiv:2509.08919) — AI 검색이 earned media (제3자 출처) 에 체계적·압도적 편향을 보임을 정량 입증. 학습·검색 인덱싱 surface 결정의 GEO 영향을 학술 근거로 제공.

핵심 주장과 근거

이 섹션은 본문 핵심 주장과 근거 출처를 1:1로 대응해 빠르게 검증할 수 있도록 구성했습니다. 아래 항목에서 주장과 원문 링크를 함께 확인하세요.

외부 인용 링크

아래 링크는 본문 수치와 주장에 직접 사용한 원문 출처입니다. 항목별 원문 맥락을 확인하면 해석 차이를 줄이고 재검증 속도를 높일 수 있습니다.

관련 포스트

관련 포스트는 현재 글의 선택 기준을 다른 상황에서 비교 검증할 수 있도록 선별했습니다. 관점을 확장하려면 아래 글을 순서대로 확인해 보세요.

RanketAI Guide #04: GEO 학계 vs 산업 vs 실측 — 9가지 전략을 사용자 측정 영역에 매핑

Aggarwal et al. KDD 2024 원논문의 9가지 GEO 전략, Chen et al. 2025 후속 연구의 earned media 편향 발견, Ahrefs Brand Radar 2026과 Similarweb 2026 GenAI Brand Visibility Index의 authority-over-scale 결론을 사용자가 실제로 측정·진단할 수 있는 네 가지 영역으로 정리한다.

2026-05-04

GEO 활용 가이드 — AI 답변 노출 늘리는 5단계 + 실측 사례 (2026)

GEO(Generative Engine Optimization)는 AI 답변에 우리 도메인이 인용되도록 최적화하는 영역입니다. AthenaHQ +45% answer share 등 실측 사례, 5단계 핵심 방법, RanketAI 활용 워크플로우를 정리합니다.

2026-05-05

GEO 분석 도구 vs AEO 분석 도구: 무엇을 언제 써야 하나 (2026)

GEO 분석 도구와 AEO 분석 도구는 측정 범위가 다릅니다. 도구 카테고리 6종, 시나리오별 선택 가이드, Coverage × Depth × Locale 평가 프레임워크, RanketAI 위치까지 비교 정리합니다.

2026-05-05

AEO 분석 도구란? 6대 신호·핵심 KPI·자가 진단 체크리스트 (2026)

AEO 분석 도구는 ChatGPT·Gemini·Perplexity의 답변 본문에 내 콘텐츠가 포함될 가능성을 측정합니다. AEO 분석 도구의 정의, SEO·GEO와의 차이, 6대 측정 신호, 4가지 핵심 KPI, 7단계 자가 진단 체크리스트를 정리합니다.

2026-04-30

GEO 분석 도구란? 작동 원리·측정 신호·도입 가이드 (2026)

GEO 분석 도구는 ChatGPT·Gemini·Perplexity가 내 콘텐츠를 인용·요약할 가능성을 측정하는 도구입니다. GEO 분석 도구의 정의, SEO 도구와의 차이, 측정 5대 신호, 도입 4단계, 선택 체크리스트를 정리합니다.

2026-04-29