AI 기업·투자·사업2026-05-07·작성: RanketAI Editorial Team·업데이트: 2026-05-07

RanketAI Guide #05: AI 크롤러 4대장 공식 정책 전수 — GPTBot · ClaudeBot · Google-Extended · PerplexityBot

IETF RFC 9309 표준 위에서 OpenAI · Anthropic · Google · Perplexity 4 플랫폼이 공개한 봇 정책을 학습 / 검색 인덱싱 / 사용자 fetch 의 3 계층 분리 관점으로 정리한다. robots.txt 가 GEO 측정의 첫 게이트 이며, RanketAI probe 의 4 측정 영역과 어떻게 연결되는지 single frame 으로 매핑한다.

AI 보조 작성 · 편집팀 검수

이 블로그 콘텐츠는 AI 보조 도구를 활용해 초안/구조화를 수행할 수 있으며, RanketAI 편집팀 검수 후 발행됩니다.

핵심 요약: GEO 측정의 첫 게이트는 콘텐츠 품질이 아니라 robots.txt 다. ChatGPT (OpenAI 3 봇), Claude (Anthropic 3 봇), Gemini (Google-Extended 토큰), Perplexity (2 봇) 4 플랫폼이 각각 학습 / 검색 인덱싱 / 사용자 요청 의 3 계층을 분리해 user-agent 를 발급했다. 본 글은 IETF RFC 9309 표준 위에서 4 플랫폼 공식 정책을 비교하고, RanketAI probe 가 측정하는 가시성 영역과 정책 결정 사이의 인과를 정리한다.

왜 robots.txt 가 GEO 의 첫 게이트인가

지난 #04 — GEO 학계 vs 산업 vs 실측 에서 다룬 학계·산업 합의의 핵심은 "earned media (제3자 출처) 가 자사 페이지보다 더 결정적" 이라는 발견이었다 (Chen et al. 2025 · Ahrefs 2026). 그러나 그보다 먼저 더 근본적인 게이트가 하나 있다 — AI 가 자사 페이지를 학습·인덱싱·실시간 fetch surface 에 포함시킬 수 있는가.

GEO 측정 frame 으로 보면 가시성 형성은 다음 3 단계가 순차적으로 일어난다.

Crawl gate — robots.txt 가 봇 접근을 허용하는가
Index/train gate — 봇이 콘텐츠를 학습 또는 검색 인덱스에 흡수하는가
Citation gate — 사용자 질문 응답 시 그 콘텐츠가 인용되는가

Aggarwal et al. KDD 2024 의 9 전략과 Chen et al. 2025 의 earned media 발견은 모두 2-3 단계의 신호 최적화에 관한 것이다. 그러나 1 단계 (crawl gate) 가 막혀 있으면 2-3 단계 최적화가 모두 무의미해진다. robots.txt 정책 = GEO 의 영지표 surface 를 결정하는 binary switch. 따라서 4 LLM 플랫폼의 공식 정책을 정확히 이해하는 것은 GEO 작업의 출발점이다.

1축 — IETF RFC 9309 (사실상의 공식 표준)

robots.txt 의 공식 표준은 IETF RFC 9309 (Robots Exclusion Protocol) 이다. 2022 년 9월 IETF 가 RFC 로 승격하며 30 년간 사실상 표준이었던 robots.txt 가 정식 인터넷 표준이 됐다. 핵심 디렉티브는 다음 3 가지다.

User-agent: <봇 이름 또는 *>
Disallow: <차단할 경로>
Allow: <명시적 허용 경로>

매칭 우선순위는 가장 긴 경로 매칭 (longest match) 이며, 충돌 시 Allow 가 Disallow 를 이긴다. 이 표준은 4 플랫폼 공식 문서 모두에서 명시 준수된다 — 즉 "robots.txt 에 쓴 대로 동작한다" 는 RFC 9309 가 보장하는 자발적 합의다.

⚠ 법적 강제력 없음. RFC 9309 §1.1 에 명시된 대로 본 표준은 "voluntarily compliance" 기반이다. 정책 위반 봇 (특히 학습용 데이터 수집기 일부) 가 존재할 가능성은 항상 있으나, OpenAI · Anthropic · Google · Perplexity 4 플랫폼은 모두 공식적으로 RFC 9309 준수를 선언했다.

2축 — OpenAI 3 봇 분리 (GPTBot · OAI-SearchBot · ChatGPT-User)

OpenAI 공식 봇 문서 는 3 개의 user-agent 를 분리해 운영한다.

User-agent	목적	동작 시점
GPTBot	파운데이션 모델 (GPT 시리즈) 학습	백그라운드 크롤링
OAI-SearchBot	ChatGPT 검색 기능 인덱싱	백그라운드 크롤링
ChatGPT-User	사용자가 ChatGPT 에서 특정 URL fetch 요청 시	사용자 trigger 직후 실시간

차단 예제 — 학습은 차단, 검색·실시간 fetch 는 허용:

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

이 3 분리 구조의 의의는 학습 opt-out 과 가시성 유지를 분리 할 수 있다는 점이다. GPTBot 만 차단하면 자사 콘텐츠가 모델 학습 데이터에는 들어가지 않으면서도 OAI-SearchBot 으로 ChatGPT 검색 결과에는 노출된다 — 즉 GEO 가시성 surface 는 보존된다.

OpenAI 는 또한 공식 IP 범위 (JSON 엔드포인트) 를 게시해 WAF (Cloudflare 등) 차원에서 user-agent spoofing 차단도 가능하게 했다. 4 플랫폼 중 가장 표준화된 검증 인프라다.

3축 — Anthropic 3 봇 분리 (ClaudeBot · Claude-SearchBot · Claude-User)

Anthropic 공식 도움말 도 동일하게 3 봇 분리 구조를 채택했다.

User-agent	목적	동작 시점
ClaudeBot	Claude 모델 학습	백그라운드 크롤링
Claude-SearchBot	Claude 검색 기능 인덱싱	백그라운드 크롤링
Claude-User	사용자가 Claude 에서 URL fetch 요청 시	사용자 trigger 직후

차단 예제:

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

OpenAI 와 동일한 3 계층 분리 — 즉 학습 vs 검색 vs 사용자 fetch 분리는 업계 표준 패턴 이 됐다. Anthropic 의 차이점은 IP 범위 게시가 OpenAI 만큼 표준화되지 않았다는 점이며, 일부 운영자는 Cloudflare 의 AI 봇 차단 룰을 보조 수단으로 사용한다.

⚠ legacy user-agent 주의. 일부 오래된 robots.txt 가이드는 anthropic-ai 또는 claude-web 을 차단 user-agent 로 명시한다. 이는 2023-2024 년 Anthropic 이 user-agent 를 정비하기 전 표기로, 현재 공식은 ClaudeBot 이다. 가능하면 둘 다 명시해 호환성을 확보하는 것이 안전하다.

4축 — Google-Extended (특별한 토큰 구조)

Google 의 정책은 다른 3 플랫폼과 구조가 다르다. Google-Extended 는 user-agent 가 아닌 robots.txt 전용 토큰 이다 (Google 공식 발표 · Search Central 가이드).

# Gemini 학습 opt-out 만, 검색 인덱싱은 그대로
User-agent: Google-Extended
Disallow: /

# Googlebot (검색) 은 별도 — 차단하면 검색 결과 노출도 사라짐
User-agent: Googlebot
Allow: /

핵심은 두 가지다.

(a) Googlebot 자체는 변경 없음. Google 검색 인덱싱은 동일한 봇 (Googlebot) 으로 수행되고, AI 학습용 fetch 만 별도 토큰 (Google-Extended) 으로 opt-out 가능. 따라서 Google-Extended 를 차단해도 Google 검색 결과 노출은 유지된다.

(b) AI Overviews 노출은 별개 시스템. Google-Extended 는 학습 opt-out 일 뿐, AI Overviews 답변 생성 시 Googlebot 인덱스를 retrieve 하는 동작 자체는 별도 메커니즘이다. 학습 opt-out 과 AI Overviews 가시성은 분리된 결정이다.

이 비대칭 구조는 GEO 작업에 미묘한 결정 부담을 만든다. 학습 데이터에는 빠지면서 AI Overviews 에는 등장하고 싶은 경우 Google-Extended Disallow 만으로 충분하지만, AI Overviews 에서도 빠지고 싶은 경우 추가 메커니즘이 필요하다 — 단일 정책 결정으로 두 결과를 모두 통제할 수 없다.

5축 — Perplexity 2 봇 (PerplexityBot · Perplexity-User)

Perplexity 공식 문서 는 2 봇 구조다.

User-agent	목적	동작 시점
PerplexityBot	Perplexity 검색 인덱싱	백그라운드 크롤링
Perplexity-User	사용자 질문 응답 시 실시간 fetch	사용자 trigger 직후

차단 예제:

User-agent: PerplexityBot
Disallow: /

User-agent: Perplexity-User
Disallow: /

중요한 차이: Perplexity 는 AI 학습용 별도 봇을 운영하지 않는다. Perplexity 는 자체 LLM 학습보다 외부 모델 + retrieve-and-generate 구조를 사용하므로, 학습 opt-out 결정 자체가 존재하지 않는다.

GEO 가시성 측면에서 PerplexityBot 차단은 즉시 검색 결과 0 화 를 의미한다. 4 플랫폼 중 가장 가시성 손실이 즉각적인 결정이며, earned media 인용 (Chen et al. 2025) 을 얻으려면 PerplexityBot 차단은 신중해야 한다.

참고 — Microsoft / BingBot (AI 전용 봇 부재)

본 4대장에 포함하지 않았지만 운영 영향은 결코 작지 않은 Microsoft 의 위치를 짧게 정리한다. Microsoft Bing 공식 웹마스터 가이드 에 따르면 Microsoft 는 다음 봇을 운영한다.

User-agent	목적
bingbot	Bing 검색 인덱싱 (Copilot · Bing Chat 백엔드 공유)
MicrosoftPreview	Copilot 등에서 사용자 trigger 시 link preview fetch

핵심은 두 가지다.

(a) AI 학습 vs 검색 분리 부재. OpenAI · Anthropic 처럼 학습용 별도 봇이 미공개다. Copilot · Bing Chat 응답 생성 시 bingbot 의 일반 검색 인덱스를 그대로 retrieve 한다 — 즉 학습 opt-out 결정이 별도로 존재하지 않는다.

(b) 가시성 영향 광범위. bingbot 차단 = Bing 검색 + Copilot 응답 + (Bing 백엔드를 사용하는 일부 ChatGPT 검색 케이스) 동시 손실. 4대장 외부지만 GEO 가시성 영향은 무시할 수 없다.

User-agent: bingbot
Disallow: /

User-agent: MicrosoftPreview
Disallow: /

본 글이 4대장 frame 을 유지하는 이유는 권위 엔티티 cross-LLM 매핑 결과 4 LLM (ChatGPT · Claude · Gemini · Perplexity) 답변 모두에서 OpenAI · Anthropic · Google · Perplexity 가 Tier 1 권위로 일관 인용됐기 때문이다. Microsoft 는 일부 LLM 답변에서만 핵심 권위로 등장 — Tier 2 권위 위치다. Bing · Copilot 관련 정책 결정 시 본 절을 참조 권장.

4 플랫폼 × 3 목적 매트릭스

각 플랫폼의 봇 구조를 한 표로 정리하면 패턴 차이가 명확해진다.

플랫폼	학습 (Training)	검색 인덱싱 (Search)	사용자 fetch (User)
OpenAI	GPTBot	OAI-SearchBot	ChatGPT-User
Anthropic	ClaudeBot	Claude-SearchBot	Claude-User
Google	Google-Extended (토큰)	Googlebot (변경 없음)	—
Perplexity	(없음 — 학습 미사용)	PerplexityBot	Perplexity-User

3 가지 패턴 차이가 보인다.

OpenAI · Anthropic 은 대칭 — 학습·검색·사용자 fetch 의 3 봇 분리. 가장 정교한 opt-out 통제 가능.
Google 은 token 기반 — Googlebot 단일 봇 + Google-Extended robots.txt 토큰. 검색과 AI 학습의 결합 분리.
Perplexity 는 학습 부재 — 2 봇 구조. 학습 opt-out 자체 불가.

Schema.org Organization 의 subjectOf 또는 knowsAbout 필드에 본 4 정책 페이지 URL 을 인용하면 자사 사이트가 GEO 권위 클러스터의 일원으로 식별되는 데 유리하다 — 구조화 데이터 자체가 권위 신호로 작동한다.

실무 robots.txt 설계 — 3 패턴

운영 목적별로 권장 patten 을 정리한다.

패턴 A — 보호 (학습 차단 / 가시성 유지)

자사 콘텐츠가 모델 학습에 흡수되는 것은 막되, 검색·사용자 응답에는 노출되기를 원하는 경우.

# 학습 차단
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /

# 검색·사용자 fetch 는 허용
User-agent: OAI-SearchBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /

미디어·뉴스·법무 등 콘텐츠 권한이 민감한 영역에 적합하다. 다만 학습 차단이 장기적으로 brand 가시성에 미치는 영향은 아직 학술적 결론이 없다 — Aggarwal et al. KDD 2024 는 학습 데이터 surface 를 직접 측정하지 않는다.

패턴 B — 균형 (모두 허용 + IP 검증)

가시성 우선 + 적법한 봇만 허용. 4 플랫폼이 게시한 IP 범위를 WAF 에 등록해 user-agent spoofing 만 차단.

User-agent: *
Allow: /

# IP 검증은 robots.txt 가 아닌 WAF 레벨에서 처리

GEO 측정·SaaS·B2B SaaS 등 가시성이 매출 직결되는 영역에 적합. RanketAI 자체도 이 패턴을 채택한다 — earned media 인용 surface 형성이 우선이기 때문이다.

패턴 C — 개방 (전면 허용)

robots.txt 에 명시 차단 없이 모든 봇 허용. 정책 변경 추적 비용은 낮지만 콘텐츠 권한 risk 는 존재.

# robots.txt 미작성 또는 전면 허용
User-agent: *
Disallow:

콘텐츠 보호가 핵심 가치가 아닌 일반 정보 사이트·블로그·문서 영역에 적합.

RanketAI probe 측정과의 연결

지난 #04 에서 정리한 RanketAI probe 의 4 측정 영역 — 브랜드 인식 · 응답 상단 배치 · 인용 권위 · 답변 품질 — 은 모두 robots.txt 정책의 결과 surface 다. 약점이 발견되면 다음 인과로 점검 우선순위가 정해진다.

probe 측정 영역	약점 시 점검 대상
브랜드 인식 약함 (AI 답변에 자사 미등장)	GPTBot · PerplexityBot · Googlebot 인덱싱 차단 가능성
응답 상단 배치 약함 (다른 출처에 밀림)	earned media 격차 + 자사 학습 surface 부족
인용 권위 약함 (도메인이 출처로 미인용)	OAI-SearchBot · PerplexityBot · Googlebot 인덱싱 미흡
답변 품질 낮음 (부정·중립 톤)	콘텐츠 자체 신호 부족 — robots.txt 와 무관

즉 RanketAI probe 등급이 어디서 약한지를 보면 robots.txt 점검 우선순위가 자동 도출된다. 4 플랫폼 정책 비교는 추상적 가이드라인이 아니라 측정 결과를 해석하는 진단 frame 이다.

결론 — 학술 + 표준 + 플랫폼의 3축 합의

GEO 정책 결정도 #04 와 같은 3축 합의 frame 으로 봐야 한다.

학술 — Aggarwal et al. KDD 2024 · Chen et al. 2025 — robots.txt 가 cite gate 의 출발점임을 정량 검증
표준 — IETF RFC 9309 · Schema.org Organization — 봇 정책 합의 형식의 사실상 공식 표준
플랫폼 — OpenAI Bots · Anthropic 도움말 · Google-Extended · Perplexity Crawlers — 4 플랫폼 자발적 정책 공개

3 축이 합의한 결론은 명확하다.

학습 vs 검색 vs 사용자 fetch 의 3 계층 분리는 4 플랫폼 표준 (Perplexity 만 2 계층) — 학습 opt-out 과 가시성 유지를 분리해 결정 가능
Google 만 user-agent 가 아닌 token (Google-Extended) — Googlebot 인덱싱과 Gemini 학습 opt-out 의 분리
PerplexityBot 차단 = 즉시 가시성 0 — 4 플랫폼 중 가장 즉각적 가시성 손실
법적 강제 ❌, 자발적 합의 ✅ — RFC 9309 의 voluntarily compliance 기반

robots.txt 정책 검토는 GEO 작업의 첫 출발점이며, 자사 측정 결과 (RanketAI probe 4 영역 등급) 에서 약점이 발견되면 가장 먼저 점검해야 할 layer 다. 권장 진행 순서: (1) 현재 robots.txt 상태 진단 → (2) 4 플랫폼 정책 매트릭스에 매핑 → (3) RanketAI probe 약점 영역과 정합 확인 → (4) 패턴 A/B/C 중 선택 적용.

⚠ 정책은 자주 갱신된다. 본 글의 user-agent 명·URL·정책 디테일은 2026-05-07 시점 기준이다. 운영 적용 전에 위 4 references 의 공식 페이지를 직접 확인할 것을 권장한다.

더 읽을거리: #01 — AI 검색 시대, 왜 SEO만으론 부족한가 · #02 — LLM 인용 알고리즘 해부 · #03 — 한국 AI 가시성 격차 · #04 — GEO 학계 vs 산업 vs 실측 매핑

핵심 실행 요약

항목	실무 기준
핵심 주제	RanketAI Guide #05: AI 크롤러 4대장 공식 정책 전수 — GPTBot · ClaudeBot · Google-Extended · PerplexityBot
적용 대상	AI 기업·투자·사업 업무에 우선 적용
우선 조치	AI 이니셔티브 시작 전 측정 가능한 성공 KPI(비용·시간·품질)를 정의
리스크 체크	전체 예산 확정 전 소규모 파일럿으로 ROI 가정을 검증
다음 단계	분기별 KPI 변화를 추적하고 범위를 조정하는 검토 주기를 수립

자주 묻는 질문(FAQ)

"RanketAI Guide #05: AI 크롤러 4대장 공식 정책 전수 — GPTBot…"의 접근법을 실제 업무에 바로 적용하려면 어떻게 해야 하나요?▾

요청 입력을 표준화해 목적, 대상 독자, 참고 자료, 출력 형식을 필수로 받는 입력 계약부터 도입하세요.

RanketAI은 개인 실무자에게도 적합한가요, 아니면 팀 단위 도입이 필요한가요?▾

AI 기업·투자·사업처럼 반복 업무와 품질 편차가 큰 팀에서 효과가 빠르게 나타납니다.

RanketAI를 처음 도입할 때 가장 흔히 발생하는 실수는 무엇인가요?▾

프롬프트 문구보다 맥락 레이어 분리와 출력 검증 루프가 실제로 작동하는지 먼저 점검하세요.

분석 근거

IETF RFC 9309 — Robots Exclusion Protocol (2022-09 발행). 30년간 사실상 표준이었던 robots.txt 의 정식 인터넷 표준 승격본. User-agent · Disallow · Allow 디렉티브와 longest-match 우선순위, voluntarily compliance 모델을 정의. 4 AI 플랫폼 공식 문서 모두 본 RFC 명시 준수.
OpenAI Bots 공식 문서 (platform.openai.com/docs/bots) — GPTBot (모델 학습), OAI-SearchBot (ChatGPT 검색 인덱싱), ChatGPT-User (사용자 요청 실시간 fetch) 의 3 계층 분리 + 공식 IP 범위 JSON 게시.
Anthropic 크롤러 공식 도움말 (support.claude.com 8896518) — ClaudeBot (학습), Claude-SearchBot (검색 인덱싱), Claude-User (사용자 요청) 의 3 계층 분리. legacy user-agent (anthropic-ai · claude-web) 호환 유지.
Google-Extended 공식 발표 (blog.google/technology/ai/an-update-on-web-publisher-controls/) + Search Central 가이드 (developers.google.com/search/docs/crawling-indexing/google-extended) — 별도 user-agent 가 아닌 robots.txt 토큰. Gemini · 향후 AI 모델 학습 opt-out 전용으로 Googlebot 검색 인덱싱과 분리된 제어 신호.
PerplexityBot 공식 문서 (docs.perplexity.ai/guides/bots) — PerplexityBot (검색 인덱싱), Perplexity-User (사용자 요청) 의 2 계층 분리. AI 학습용 별도 봇 미운영 (자체 모델 학습 비활용).
Microsoft Bing 웹마스터 가이드 (bing.com/webmasters/help/which-crawlers-does-bing-use-8c184ec0) — bingbot (Bing 검색 + Copilot 백엔드 공유), MicrosoftPreview (link preview). AI 학습 전용 봇 미공개 — Copilot 은 일반 검색 인덱스 재사용. 4대장 외부지만 가시성 영향 광범위.
Aggarwal et al. "GEO: Generative Engine Optimization" (Princeton·IIT Delhi·Georgia Tech, KDD 2024, arXiv:2311.09735) — 9 가지 GEO 전략 정량 검증의 학술 출발점. robots.txt crawl gate 가 차단되면 본 9 전략 모두 효과 0.
Chen·Wang·Chen·Koudas. "How to Dominate AI Search" (2025-09, arXiv:2509.08919) — AI 검색이 earned media (제3자 출처) 에 체계적·압도적 편향을 보임을 정량 입증. 학습·검색 인덱싱 surface 결정의 GEO 영향을 학술 근거로 제공.

핵심 주장과 근거

이 섹션은 본문 핵심 주장과 근거 출처를 1:1로 대응해 빠르게 검증할 수 있도록 구성했습니다. 아래 항목에서 주장과 원문 링크를 함께 확인하세요.

주장:robots.txt 의 사실상 공식 표준은 IETF RFC 9309 (2022-09)
근거 출처:IETF RFC 9309
주장:OpenAI 는 학습·검색·사용자 fetch 를 GPTBot · OAI-SearchBot · ChatGPT-User 3 봇으로 분리
근거 출처:OpenAI Bots 공식 문서
주장:Anthropic 은 학습·검색·사용자 fetch 를 ClaudeBot · Claude-SearchBot · Claude-User 3 봇으로 분리
근거 출처:Anthropic 크롤러 도움말
주장:Google-Extended 는 별도 봇이 아닌 robots.txt 토큰으로 Gemini 학습 opt-out 만 제어
근거 출처:Google blog — web publisher controls
주장:Perplexity 는 PerplexityBot (인덱싱) · Perplexity-User (사용자 요청) 2 봇 구조이며 학습용 봇 미운영
근거 출처:Perplexity Crawlers 공식 문서
주장:Microsoft 는 bingbot 단일 운영 — Copilot · Bing Chat 모두 일반 검색 인덱스 재사용. AI 학습 전용 봇 미공개
근거 출처:Microsoft Bing 웹마스터 가이드
주장:GEO 측정의 첫 게이트는 robots.txt — 학습·인덱싱 차단 시 9 전략 (Aggarwal et al.) 효과 0
근거 출처:Aggarwal et al. KDD 2024 (arXiv:2311.09735)
주장:AI 검색은 earned media (제3자 출처) 에 체계적 편향 — robots.txt 가 그 surface 의 진입 게이트
근거 출처:Chen et al. 2025 (arXiv:2509.08919)

외부 인용 링크

아래 링크는 본문 수치와 주장에 직접 사용한 원문 출처입니다. 항목별 원문 맥락을 확인하면 해석 차이를 줄이고 재검증 속도를 높일 수 있습니다.

AI 검색에 내 사이트는 노출되고 있을까?

ChatGPT·Perplexity·Gemini가 내 브랜드를 어떻게 답하는지 무료로 확인해 보세요.

지금 진단 시작 →

X LinkedIn