robots.txt: полное руководство для владельца сайта — синтаксис, директивы, примеры

robots.txt — это обычный текстовый файл, расположенный в корне домена, который сообщает поисковым роботам, какие разделы сайта им разрешено посещать, а какие следует игнорировать. Стандарт был предложен Мартином Костером ещё в 1994 году и с тех пор фактически все крупные поисковые системы соблюдают эту конвенцию. Наличие файла не является обязательным условием для индексации сайта, однако грамотно составленный robots.txt позволяет управлять краулинговым бюджетом и удерживать ненужные страницы вне поля зрения поисковых машин.

Размещение файла и технические требования

Файл всегда должен находиться строго в корне домена и быть доступен по адресу example.uz/robots.txt, иначе поисковые роботы просто не найдут его и будут сканировать сайт без каких-либо ограничений. Кодировка должна быть UTF-8, а размер файла не должен превышать 500 килобайт — Googlebot прекращает чтение после этой границы, и все правила, попавшие в обрезанную часть, перестают действовать. Важно понимать, что каждый поддомен требует собственного файла robots.txt: правила, написанные для example.uz, никак не распространяются на shop.example.uz.

Основные директивы и правила синтаксиса

Директива User-agent определяет, к какому именно роботу относятся последующие правила. Звёздочка означает обращение ко всем ботам, а конкретное имя задаёт правила только для указанного агента. Disallow запрещает доступ к указанному пути, а Allow используется как исключение и нужна для разрешения подкаталога внутри запрещённой папки. Sitemap указывает полный URL карты сайта и может располагаться в любом месте файла. Crawl-delay задаёт минимальный интервал между запросами в секундах, однако Google перестал учитывать эту директиву ещё в 2019 году, в то время как Яндекс по-прежнему её соблюдает.

Шаблоны и специальные символы

Звёздочка внутри пути обозначает любую последовательность символов, а знак доллара указывает на конец URL. Например, правило Disallow: /*.pdf$ блокирует все файлы с расширением PDF, а Disallow: /search?* закрывает страницы результатов внутреннего поиска. Грамотное использование этих шаблонов позволяет заменить десятки отдельных правил одной короткой строкой, что особенно ценно для больших проектов с сотнями типов URL.

Разница между robots.txt, meta robots и X-Robots-Tag

Смешение этих инструментов — самая распространённая концептуальная ошибка среди владельцев сайтов. robots.txt запрещает роботу загружать страницу вообще, но она всё равно может попасть в индекс, если на неё ссылаются другие ресурсы. Meta robots и HTTP-заголовок X-Robots-Tag работают на уровне самой страницы и инструкция noindex гарантирует её исключение из индекса, поскольку робот сначала загружает страницу, видит указание и не добавляет её в базу. Поэтому если задача — спрятать страницу из выдачи, нужно использовать именно noindex, а не Disallow.

Типичные ошибки и их последствия

Самая опасная ошибка — оставить строку Disallow: / в продакшене после переноса с тестового сервера, что полностью закрывает сайт от поисковых систем и приводит к катастрофическому падению трафика. Не менее частая проблема — блокировка каталогов, содержащих CSS и JavaScript, что мешает Google корректно отрендерить страницу. Многие пытаются спрятать админ-панели через robots.txt, не понимая, что сам файл открыт для всех.

Конфигурация для WordPress и e-commerce

Для типового сайта на WordPress принято закрывать /wp-admin/, оставляя открытым admin-ajax.php. Каталоги /wp-includes/ и /wp-content/plugins/ обычно скрывают, но папку /wp-content/uploads/ оставляют открытой. В электронной коммерции главная боль — это огромное количество дублирующихся URL из-за фильтров и сортировок. Решение — закрыть параметрические URL правилами вида Disallow: /*?filter=, а также заблокировать корзину, оформление заказа и личный кабинет.

Проверка через Google Search Console

После любых изменений файл необходимо проверить в robots.txt Tester внутри Search Console. По состоянию на 2026 год Google ввёл новых пользовательских агентов, среди которых Google-Extended для обучения моделей AI. Если владелец сайта не хочет, чтобы его контент использовался для обучения AI, в robots.txt нужно явно добавить блок с User-agent: Google-Extended и Disallow: /.