Проверить, видят ли вас GPTBot, ClaudeBot и YandexGPT
Самая частая проблема в AIO-аудитах в 2026 году — сервер или WAF блокируют ИИ-ботов, а владелец сайта об этом не знает. robots.txt с Allow: / ничего не исправит — блокировка происходит уровнем ниже. Разберёмся, как проверить ровно за одну команду.
Список UA, которые нужно проверять
По состоянию на апрель 2026 в российском и международном ИИ-поиске участвует около десятка ботов. Вот ключевые — с официальными UA, которые публикуют сами владельцы:
| Бот | Чей | User-Agent (сокращённо) | Зачем ходит |
|---|---|---|---|
| GPTBot | OpenAI | GPTBot/1.0 | Обучающая выборка для GPT-моделей |
| ChatGPT-User | OpenAI | ChatGPT-User/1.0 | Ходит по ссылкам в ответах ChatGPT в реальном времени |
| OAI-SearchBot | OpenAI | OAI-SearchBot/1.0 | Индексация для ChatGPT Search |
| ClaudeBot | Anthropic | ClaudeBot/1.0 | Обучающая выборка для Claude |
| Claude-Web | Anthropic | Claude-Web/1.0 | Чтение веб-ссылок в ответах Claude |
| PerplexityBot | Perplexity | PerplexityBot/1.0 | Индексация для perplexity.ai |
| Perplexity-User | Perplexity | Perplexity-User/1.0 | Переходы из ответов Perplexity |
| YandexBot | Яндекс | YandexBot/3.0 | Общий поиск + Нейро |
| Google-Extended | не UA, а токен в robots.txt | Gemini и AI Overviews | |
| CCBot | Common Crawl | CCBot/2.0 | Общедоступный дамп, используется многими LLM |
| Applebot-Extended | Apple | токен в robots.txt | Apple Intelligence |
| GigaChat / YandexGPT | Сбер / Яндекс | публично не объявлен | Пользуются поисковыми ботами своих поисковых систем |
GigaChat и YandexGPT — особый случай
У этих моделей нет отдельного объявленного краулера. GigaChat использует выдачу Яндекса + Sberbank внутренние индексы; YandexGPT — выдачу Яндекса. Практический вывод: если ваш сайт нормально индексируется YandexBot — вы «видны» и YandexGPT. Отдельного UA чтобы проверять — нет.
Команда за 30 секунд
Скопируйте в терминал, замените example.ru на ваш домен:
for ua in \
"Mozilla/5.0 (compatible; GPTBot/1.0; +https://openai.com/gptbot)" \
"Mozilla/5.0 (compatible; ClaudeBot/1.0; +claudebot@anthropic.com)" \
"Mozilla/5.0 (compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)" \
"Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" \
"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" \
"Mozilla/5.0 (compatible; CCBot/2.0; +https://commoncrawl.org/faq/)"
do
code=$(curl -A "$ua" -o /dev/null -s -w "%{http_code}" "https://example.ru/")
name=$(echo "$ua" | grep -oE "(GPTBot|ClaudeBot|PerplexityBot|YandexBot|Googlebot|CCBot)")
printf "%-14s %s\n" "$name" "$code"
done
На выходе получите таблицу вида:
GPTBot 000
ClaudeBot 000
PerplexityBot 200
YandexBot 200
Googlebot 200
CCBot 200
Это реальный вывод собственного лендинга SERPion утром 23 апреля 2026 — WAF REG.RU выборочно режет именно GPTBot и ClaudeBot.
Что значат коды
| Код | Что значит | Куда смотреть |
|---|---|---|
| 200 | Всё в порядке — бот получает контент | — |
| 301 / 302 | Редирект. Проверьте, куда и не бесконечный ли цикл | nginx / Apache конфиг, .htaccess |
| 403 Forbidden | Явный запрет. Обычно — mod_security или WAF-правило | Панель хостинга → Безопасность |
| 429 Too Many Requests | Rate limit. Часто — Cloudflare или REG.RU anti-ddos | Cloudflare → Security, REG.RU → анти-DDoS |
| 503 Service Unavailable | WAF challenge не пройден (JS-challenge на боте) | Cloudflare Bot Fight Mode, Qrator |
| 000 | Соединение сброшено до HTTP-ответа (connection reset / empty reply) | Самый злой вариант. Читайте ниже. |
Код 000 — самая частая и скрытая проблема
Если curl показывает 000, в verbose-режиме это выглядит так:
$ curl -v -A "Mozilla/5.0 (compatible; GPTBot/1.0; ...)" https://example.ru/
* Connected to example.ru (185.x.x.x) port 443
* ALPN: offers h2,http/1.1
* SSL connection using TLSv1.3
* ALPN: server accepted h2
> GET / HTTP/2
> Host: example.ru
> User-Agent: Mozilla/5.0 (compatible; GPTBot/1.0; ...)
> Accept: */*
<
* Empty reply from server
curl: (52) Empty reply from server
Сервер принимает соединение, получает запрос — и обрывает его до HTTP-ответа. Это не 403 «вежливо нет» — это прямой разрыв. Бот запомнит ваш сайт как недоступный.
Где обычно сидит блокировка
- Cloudflare → Security → Bots → «Block AI Scrapers». Включается одной галочкой. По состоянию на апрель 2026 — по умолчанию выключен в новых аккаунтах, но «Super Bot Fight Mode» может ловить GPTBot косвенно.
- REG.RU / Timeweb / Beget→ Anti-bot WAF. Российские shared-хостинги добавили «AI Scraper Protection» в 2025 году. Часто включён по умолчанию. Ищите в личном кабинете «Безопасность»/«Anti-bot».
- nginx.
if ($http_user_agent ~* "GPTBot|ClaudeBot") { return 444; }— проверяйте/etc/nginx/conf.d/*.confи.htaccess(если Apache). - Qrator, Variti, DDoS-Guard. Эти сервисы ставят JS-challenge, который бот не пройдёт — выглядит как 503 или 000 в зависимости от режима.
Почему это не чинится через robots.txt
robots.txt — это подсказка для вежливого бота, которую он прочтёт после того, как подключится к серверу. Если WAF обрывает соединение раньше, чем бот успевает сделать GET /robots.txt, — ваш robots.txt вообще никому не виден. Исправление блокировки всегда идёт через панель хостинга / CDN, не через файлы в корне сайта.
Что делать, если вы хотите явно запретить
Обратная задача — «не хочу, чтобы мой контент использовали как обучающую выборку». Корректный способ — записи в robots.txt:
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
Это — вежливый Disallow. Для поисковых ботов OpenAI/Anthropic (ChatGPT-User, OAI-SearchBot, Claude-Web, Perplexity-User) запрет обычно не ставят: они работают в реальном времени на переходе пользователя из чата и не попадают в обучение.
Частые вопросы
Что такое connection reset при запросе от GPTBot?
Это значит, что сервер (или WAF перед ним) умышленно разрывает TCP-соединение, не отдавая HTTP-ответ. Чаще всего это правило в панели хостинга «Anti-bot» или у Cloudflare «Block AI Scrapers». Запись в robots.txt тут ни при чём — блокировка происходит до того, как бот успевает увидеть robots.txt.
Почему Perplexity получает 200, а GPTBot — reset?
У многих хостинг-WAF есть разные правила для разных ИИ-ботов. Например, Cloudflare даёт включить блокировку «AI Scrapers» одной галочкой — это блокирует GPTBot и ClaudeBot, но не всегда Perplexity или CCBot. Нужно искать правило в панели и снимать выборочно.
Надо ли разрешать всех ИИ-ботов?
Зависит от вашей стратегии. Если вы хотите, чтобы ChatGPT, Claude, Нейро и Perplexity ссылались на ваш сайт в ответах — надо. Если вы публичный SaaS и не хотите, чтобы ваш контент попал в обучающую выборку LLM — можно явно запретить GPTBot и CCBot в robots.txt. Это не мешает цитированию в реальном времени (search-боты OpenAI и Anthropic используют другие UA).
Какой UA использовать для проверки?
Официальный UA каждого бота публикует его владелец. OpenAI, Anthropic, Perplexity, Яндекс — все отдают рекомендованные строки. Использование настоящего UA обязательно: WAF обычно анализирует именно строку, а не IP.