AI 크롤러 (AI Crawler)
ChatGPT·Claude·Gemini·Perplexity 등 생성형 AI 플랫폼이 운영하는 웹 크롤러. 학습 데이터 수집·검색 인덱싱·사용자 요청 fetch 의 3 계층으로 분리된다
AI 크롤러란?
AI 크롤러는 생성형 AI 플랫폼 (OpenAI · Anthropic · Google · Perplexity 등) 이 운영하는 웹 크롤러로, 모델 학습·검색 인덱싱·사용자 요청 fetch 의 3 가지 목적으로 분리되어 동작한다. 일반 검색 엔진 크롤러 (Googlebot, bingbot) 와 달리 robots.txt 의 user-agent 또는 토큰 단위로 목적별 opt-out 통제가 가능하다.
3 계층 분리 구조
OpenAI · Anthropic 은 각 목적마다 별도 user-agent 를 발급한다.
| 계층 | 목적 | 동작 시점 |
|---|---|---|
| Training | 모델 학습 데이터 수집 | 백그라운드 크롤링 |
| Search Indexing | AI 답변 시 retrieve 할 검색 인덱스 구축 | 백그라운드 크롤링 |
| User Fetch | 사용자가 특정 URL 을 fetch 요청 | 사용자 trigger 직후 실시간 |
이 분리 구조의 핵심 의의는 학습 opt-out 과 가시성 유지를 분리해서 결정 가능 하다는 점이다. 학습 봇만 차단하면 모델 학습 데이터에는 들어가지 않으면서도 AI 검색 결과에는 노출된다.
4 플랫폼 정책 비교
| 플랫폼 | 학습 (Training) | 검색 인덱싱 (Search) | 사용자 fetch (User) |
|---|---|---|---|
| OpenAI | GPTBot | OAI-SearchBot | ChatGPT-User |
| Anthropic | ClaudeBot | Claude-SearchBot | Claude-User |
| Google-Extended (토큰) | Googlebot (변경 없음) | — | |
| Perplexity | (없음 — 학습 미사용) | PerplexityBot | Perplexity-User |
3 가지 패턴 차이가 있다.
- OpenAI · Anthropic — 3 계층 대칭 분리. 가장 정교한 opt-out 통제 가능
- Google — token 기반. Google-Extended 는 user-agent 가 아닌 robots.txt 토큰으로 Gemini 학습만 opt-out
- Perplexity — 자체 LLM 학습 미수행. 학습 봇 부재로 2 봇 구조
RanketAI 점수에서의 역할
RanketAI 는 AI Infra 필라에서 GPTBot · ClaudeBot · PerplexityBot · Google-Extended 의 robots.txt 허용 여부를 독립 평가한다. AI 크롤러 차단은 곧 GEO 측정 surface 자체의 차단을 의미하므로 첫 점검 layer 다.
자주 묻는 질문
Q. AI 크롤러를 모두 차단하면 어떻게 되나?
ChatGPT · Claude · Gemini · Perplexity 의 검색 결과에서 자사 콘텐츠가 사라진다. 학계 (Aggarwal et al. KDD 2024) 가 검증한 GEO 9 전략을 모두 적용해도 효과가 0 이 된다 — robots.txt 가 첫 게이트이기 때문이다.
Q. 학습 봇만 차단하고 검색·사용자 fetch 는 허용해도 되나?
가능하다. OpenAI 와 Anthropic 은 학습·검색·사용자 fetch 봇이 분리되어 있어 GPTBot · ClaudeBot 만 Disallow 하고 OAI-SearchBot · Claude-SearchBot 은 Allow 하면 학습 opt-out 과 가시성 유지를 동시에 달성한다.
Q. Google-Extended 는 왜 user-agent 가 아닌가?
Google 검색 인덱싱은 기존 Googlebot 이 그대로 수행하고, Gemini 학습용 fetch 만 별도 robots.txt 토큰 (Google-Extended) 으로 opt-out 가능하게 설계됐기 때문이다. 결과적으로 Google-Extended 차단 시 Google 검색 노출은 유지된다.
Q. AI 크롤러는 robots.txt 를 반드시 준수하나?
IETF RFC 9309 의 voluntarily compliance 모델 기반으로, 4 대 플랫폼 (OpenAI · Anthropic · Google · Perplexity) 은 모두 공식 준수를 선언했다. 다만 일부 데이터 수집 봇이 무시할 가능성은 항상 존재한다 — IP 검증을 WAF 레벨에서 보조 수행 권장.