Crawl budget — это объём ресурсов, который Googlebot выделяет на чтение (crawl) страниц вашего сайта. Google определяет лимит времени и запросов для каждого сайта в зависимости от авторитета, скорости сервера, качества контента. Для маленьких сайтов crawl budget не проблема — Google быстро всё прочитает. Но для крупных сайтов с 10,000+ страницами это превращается в важный стратегический вопрос.
Что такое crawl budget и как он определяется
Google автоматически рассчитывает crawl budget. Основные факторы: авторитет и качество сайта (выше авторитет — больше budget), скорость и надёжность сервера (быстрый ответ, мало ошибок — больше запросов), результаты прошлого crawl (высокое качество — Google больше доверяет), общие ресурсы Google.
Crawl budget состоит из двух частей: crawl rate limit (максимальная скорость запросов чтобы не нагружать сервер) и crawl demand (как часто Google хочет обновлять). Вместе они дают общий budget. Вы можете влиять на обе через тех SEO и качество контента.
Когда crawl budget становится проблемой
Для маленьких сайтов (до 1,000 страниц) обычно не проблема. Google прочитает всё за 1-2 недели. Проблема возникает: на e-commerce (10,000+ товаров, фильтры), больших блогах/новостях (новые страницы ежедневно), форумах/UGC (миллионы пользовательских страниц), крупных enterprise сайтах (каталог, разделы, multi-language).
В этих случаях Googlebot не успевает прочитать всё, и индексация новых или важных страниц замедляется. Новый товар может появиться в Google через 1-2 месяца, блог-пост ждать неделями.
Что тратит crawl budget впустую
Первая проблема — низкокачественные или ненужные страницы. Старые посты без обновления, тестовые, архивные — всё это съедает время Googlebot.
Вторая — дубли и URL-параметры. Site.com/products?color=red&sort=price — каждая комбинация отдельный URL и Googlebot читает все. Но контент почти одинаковый.
Третья — структура сайта. Важные страницы глубоко (5+ кликов от главной) — Googlebot долго до них доходит. Faceted navigation — частая проблема.
Первый шаг оптимизации
Начните с аудита. В GSC \"Pages\" посмотрите \"Excluded\". \"Discovered - currently not indexed\" или \"Crawled - currently not indexed\" — страницы, тратящие время Googlebot без результата. Нужно поднять их качество или убрать.
Анализ логов сервера. Screaming Frog Log Analyzer, Botify, JetOctopus покажут, когда и какие страницы Googlebot читает. Видно: куда уходит время.
Управление через robots.txt и noindex
Robots.txt — \"Disallow\" для страниц, которые Googlebot не должен читать вообще: профиль пользователя, корзина, результаты поиска, login. Google не тратит время.
Noindex meta — Googlebot читает, но не индексирует. Используйте для старых страниц. Внимание: noindex не экономит crawl budget, экономит robots.txt.
Стратегия XML sitemap
Sitemap — список важных страниц для Google. Только индексируемые, качественные, актуальные. Старые и слабые — убирайте.
Сегментирование: products-sitemap.xml, blog-sitemap.xml, categories-sitemap.xml. Google получает чёткую структуру, вы — аналитику по каждому сегменту.
Внутренние ссылки и структура
Внутренние ссылки — указатели Googlebot. Если важная страница в 1-2 кликах от главной с многими ссылками на неё — Google считает важной и часто посещает.
Стратегия: pillar/cluster, breadcrumb, related posts, ссылки из категорий на тематический контент. Это и UX, и эффективное использование crawl budget.
Опыт Сайт.uz
На Сайт.uz пока ~200 страниц, crawl budget не проблема. Но мы планируем 500+ блог-постов и 1000+ страниц предложений. Тогда стратегия будет важна.
Сейчас: в robots.txt закрыты /admin, /cabinet, /api, /tmp. XML sitemap динамический, только активные качественные страницы. Внутренние ссылки в pillar/cluster. Это фундамент — при 1000+ страницах проблема не возникнет.