AI 크롤러란?

AI 크롤러는 생성형 AI 플랫폼 (OpenAI · Anthropic · Google · Perplexity 등) 이 운영하는 웹 크롤러로, 모델 학습·검색 인덱싱·사용자 요청 fetch 의 3 가지 목적으로 분리되어 동작한다. 일반 검색 엔진 크롤러 (Googlebot, bingbot) 와 달리 robots.txt 의 user-agent 또는 토큰 단위로 목적별 opt-out 통제가 가능하다.

3 계층 분리 구조

OpenAI · Anthropic 은 각 목적마다 별도 user-agent 를 발급한다.

계층	목적	동작 시점
Training	모델 학습 데이터 수집	백그라운드 크롤링
Search Indexing	AI 답변 시 retrieve 할 검색 인덱스 구축	백그라운드 크롤링
User Fetch	사용자가 특정 URL 을 fetch 요청	사용자 trigger 직후 실시간

이 분리 구조의 핵심 의의는 학습 opt-out 과 가시성 유지를 분리해서 결정 가능 하다는 점이다. 학습 봇만 차단하면 모델 학습 데이터에는 들어가지 않으면서도 AI 검색 결과에는 노출된다.

4 플랫폼 정책 비교

플랫폼	학습 (Training)	검색 인덱싱 (Search)	사용자 fetch (User)
OpenAI	GPTBot	OAI-SearchBot	ChatGPT-User
Anthropic	ClaudeBot	Claude-SearchBot	Claude-User
Google	Google-Extended (토큰)	Googlebot (변경 없음)	—
Perplexity	(없음 — 학습 미사용)	PerplexityBot	Perplexity-User

3 가지 패턴 차이가 있다.

OpenAI · Anthropic — 3 계층 대칭 분리. 가장 정교한 opt-out 통제 가능
Google — token 기반. Google-Extended 는 user-agent 가 아닌 robots.txt 토큰으로 Gemini 학습만 opt-out
Perplexity — 자체 LLM 학습 미수행. 학습 봇 부재로 2 봇 구조

RanketAI 점수에서의 역할

RanketAI 는 AI Infra 필라에서 GPTBot · ClaudeBot · PerplexityBot · Google-Extended 의 robots.txt 허용 여부를 독립 평가한다. AI 크롤러 차단은 곧 GEO 측정 surface 자체의 차단을 의미하므로 첫 점검 layer 다.

자주 묻는 질문

Q. AI 크롤러를 모두 차단하면 어떻게 되나?

ChatGPT · Claude · Gemini · Perplexity 의 검색 결과에서 자사 콘텐츠가 사라진다. 학계 (Aggarwal et al. KDD 2024) 가 검증한 GEO 9 전략을 모두 적용해도 효과가 0 이 된다 — robots.txt 가 첫 게이트이기 때문이다.

Q. 학습 봇만 차단하고 검색·사용자 fetch 는 허용해도 되나?

가능하다. OpenAI 와 Anthropic 은 학습·검색·사용자 fetch 봇이 분리되어 있어 GPTBot · ClaudeBot 만 Disallow 하고 OAI-SearchBot · Claude-SearchBot 은 Allow 하면 학습 opt-out 과 가시성 유지를 동시에 달성한다.

Q. Google-Extended 는 왜 user-agent 가 아닌가?

Google 검색 인덱싱은 기존 Googlebot 이 그대로 수행하고, Gemini 학습용 fetch 만 별도 robots.txt 토큰 (Google-Extended) 으로 opt-out 가능하게 설계됐기 때문이다. 결과적으로 Google-Extended 차단 시 Google 검색 노출은 유지된다.

Q. AI 크롤러는 robots.txt 를 반드시 준수하나?

IETF RFC 9309 의 voluntarily compliance 모델 기반으로, 4 대 플랫폼 (OpenAI · Anthropic · Google · Perplexity) 은 모두 공식 준수를 선언했다. 다만 일부 데이터 수집 봇이 무시할 가능성은 항상 존재한다 — IP 검증을 WAF 레벨에서 보조 수행 권장.

AI 크롤러 (AI Crawler)