Гайд · Диагностика

Проверить, видят ли вас GPTBot, ClaudeBot и YandexGPT

23 апреля 2026 · SERPion · 5 мин чтения

Самая частая проблема в AIO-аудитах в 2026 году — сервер или WAF блокируют ИИ-ботов, а владелец сайта об этом не знает. robots.txt с Allow: / ничего не исправит — блокировка происходит уровнем ниже. Разберёмся, как проверить ровно за одну команду.

Список UA, которые нужно проверять

По состоянию на апрель 2026 в российском и международном ИИ-поиске участвует около десятка ботов. Вот ключевые — с официальными UA, которые публикуют сами владельцы:

Бот	Чей	User-Agent (сокращённо)	Зачем ходит
GPTBot	OpenAI	`GPTBot/1.0`	Обучающая выборка для GPT-моделей
ChatGPT-User	OpenAI	`ChatGPT-User/1.0`	Ходит по ссылкам в ответах ChatGPT в реальном времени
OAI-SearchBot	OpenAI	`OAI-SearchBot/1.0`	Индексация для ChatGPT Search
ClaudeBot	Anthropic	`ClaudeBot/1.0`	Обучающая выборка для Claude
Claude-Web	Anthropic	`Claude-Web/1.0`	Чтение веб-ссылок в ответах Claude
PerplexityBot	Perplexity	`PerplexityBot/1.0`	Индексация для perplexity.ai
Perplexity-User	Perplexity	`Perplexity-User/1.0`	Переходы из ответов Perplexity
YandexBot	Яндекс	`YandexBot/3.0`	Общий поиск + Нейро
Google-Extended	Google	не UA, а токен в robots.txt	Gemini и AI Overviews
CCBot	Common Crawl	`CCBot/2.0`	Общедоступный дамп, используется многими LLM
Applebot-Extended	Apple	токен в robots.txt	Apple Intelligence
GigaChat / YandexGPT	Сбер / Яндекс	публично не объявлен	Пользуются поисковыми ботами своих поисковых систем

GigaChat и YandexGPT — особый случай

У этих моделей нет отдельного объявленного краулера. GigaChat использует выдачу Яндекса + Sberbank внутренние индексы; YandexGPT — выдачу Яндекса. Практический вывод: если ваш сайт нормально индексируется YandexBot — вы «видны» и YandexGPT. Отдельного UA чтобы проверять — нет.

Команда за 30 секунд

Скопируйте в терминал, замените example.ru на ваш домен:

for ua in \
  "Mozilla/5.0 (compatible; GPTBot/1.0; +https://openai.com/gptbot)" \
  "Mozilla/5.0 (compatible; ClaudeBot/1.0; +claudebot@anthropic.com)" \
  "Mozilla/5.0 (compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)" \
  "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" \
  "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" \
  "Mozilla/5.0 (compatible; CCBot/2.0; +https://commoncrawl.org/faq/)"
do
  code=$(curl -A "$ua" -o /dev/null -s -w "%{http_code}" "https://example.ru/")
  name=$(echo "$ua" | grep -oE "(GPTBot|ClaudeBot|PerplexityBot|YandexBot|Googlebot|CCBot)")
  printf "%-14s %s\n" "$name" "$code"
done

На выходе получите таблицу вида:

GPTBot         000
ClaudeBot      000
PerplexityBot  200
YandexBot      200
Googlebot      200
CCBot          200

Это реальный вывод собственного лендинга SERPion утром 23 апреля 2026 — WAF REG.RU выборочно режет именно GPTBot и ClaudeBot.

Что значат коды

Код	Что значит	Куда смотреть
200	Всё в порядке — бот получает контент	—
301 / 302	Редирект. Проверьте, куда и не бесконечный ли цикл	nginx / Apache конфиг, `.htaccess`
403 Forbidden	Явный запрет. Обычно — `mod_security` или WAF-правило	Панель хостинга → Безопасность
429 Too Many Requests	Rate limit. Часто — Cloudflare или REG.RU anti-ddos	Cloudflare → Security, REG.RU → анти-DDoS
503 Service Unavailable	WAF challenge не пройден (JS-challenge на боте)	Cloudflare Bot Fight Mode, Qrator
000	Соединение сброшено до HTTP-ответа (connection reset / empty reply)	Самый злой вариант. Читайте ниже.

Код 000 — самая частая и скрытая проблема

Если curl показывает 000, в verbose-режиме это выглядит так:

$ curl -v -A "Mozilla/5.0 (compatible; GPTBot/1.0; ...)" https://example.ru/
* Connected to example.ru (185.x.x.x) port 443
* ALPN: offers h2,http/1.1
* SSL connection using TLSv1.3
* ALPN: server accepted h2
> GET / HTTP/2
> Host: example.ru
> User-Agent: Mozilla/5.0 (compatible; GPTBot/1.0; ...)
> Accept: */*
<
* Empty reply from server
curl: (52) Empty reply from server

Сервер принимает соединение, получает запрос — и обрывает его до HTTP-ответа. Это не 403 «вежливо нет» — это прямой разрыв. Бот запомнит ваш сайт как недоступный.

Где обычно сидит блокировка

Cloudflare → Security → Bots → «Block AI Scrapers». Включается одной галочкой. По состоянию на апрель 2026 — по умолчанию выключен в новых аккаунтах, но «Super Bot Fight Mode» может ловить GPTBot косвенно.
REG.RU / Timeweb / Beget→ Anti-bot WAF. Российские shared-хостинги добавили «AI Scraper Protection» в 2025 году. Часто включён по умолчанию. Ищите в личном кабинете «Безопасность»/«Anti-bot».
nginx. if ($http_user_agent ~* "GPTBot|ClaudeBot") { return 444; } — проверяйте /etc/nginx/conf.d/*.conf и .htaccess (если Apache).
Qrator, Variti, DDoS-Guard. Эти сервисы ставят JS-challenge, который бот не пройдёт — выглядит как 503 или 000 в зависимости от режима.

Почему это не чинится через robots.txt

robots.txt — это подсказка для вежливого бота, которую он прочтёт после того, как подключится к серверу. Если WAF обрывает соединение раньше, чем бот успевает сделать GET /robots.txt, — ваш robots.txt вообще никому не виден. Исправление блокировки всегда идёт через панель хостинга / CDN, не через файлы в корне сайта.

Что делать, если вы хотите явно запретить

Обратная задача — «не хочу, чтобы мой контент использовали как обучающую выборку». Корректный способ — записи в robots.txt:

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

Это — вежливый Disallow. Для поисковых ботов OpenAI/Anthropic (ChatGPT-User, OAI-SearchBot, Claude-Web, Perplexity-User) запрет обычно не ставят: они работают в реальном времени на переходе пользователя из чата и не попадают в обучение.

Частые вопросы

Что такое connection reset при запросе от GPTBot?

Это значит, что сервер (или WAF перед ним) умышленно разрывает TCP-соединение, не отдавая HTTP-ответ. Чаще всего это правило в панели хостинга «Anti-bot» или у Cloudflare «Block AI Scrapers». Запись в robots.txt тут ни при чём — блокировка происходит до того, как бот успевает увидеть robots.txt.

Почему Perplexity получает 200, а GPTBot — reset?

У многих хостинг-WAF есть разные правила для разных ИИ-ботов. Например, Cloudflare даёт включить блокировку «AI Scrapers» одной галочкой — это блокирует GPTBot и ClaudeBot, но не всегда Perplexity или CCBot. Нужно искать правило в панели и снимать выборочно.

Надо ли разрешать всех ИИ-ботов?

Зависит от вашей стратегии. Если вы хотите, чтобы ChatGPT, Claude, Нейро и Perplexity ссылались на ваш сайт в ответах — надо. Если вы публичный SaaS и не хотите, чтобы ваш контент попал в обучающую выборку LLM — можно явно запретить GPTBot и CCBot в robots.txt. Это не мешает цитированию в реальном времени (search-боты OpenAI и Anthropic используют другие UA).

Какой UA использовать для проверки?

Официальный UA каждого бота публикует его владелец. OpenAI, Anthropic, Perplexity, Яндекс — все отдают рекомендованные строки. Использование настоящего UA обязательно: WAF обычно анализирует именно строку, а не IP.

Проверить доступ 8 ключевых ИИ-ботов + 17 других AIO-метрик — за один рабочий день, бесплатно.

Получить первичную оценку →

предыдущий · 01 Что такое llms.txt и зачем он нужен в 2026 следующий · 03 Какие типы Schema.org реально нужны ИИ-поиску