Оптимизация crawl budget: как сделать так, чтобы Google находил ваши важные страницы

Crawl budget — это количество страниц, которые Googlebot обойдёт на вашем сайте за определённый период. Для крупных сайтов — с десятками тысяч страниц и более — crawl budget является реальным ограничением. Если ваш crawl budget расходуется на малоценные URL (параметры URL, тонкие страницы фильтров, дублирующийся контент), ваши важные новые страницы могут краулиться редко или вообще не краулиться, задерживая их ранжирование.

Для небольших сайтов (менее нескольких тысяч страниц с чистой архитектурой) crawl budget редко является значимым ограничением. Понимание того, когда он имеет значение — и как его оптимизировать, когда это так — является практическим техническим SEO-навыком.

Как Google распределяет crawl budget

Crawl budget Google для сайта определяется двумя факторами:

Лимит скорости краулинга — максимальная скорость, с которой Googlebot будет краулить, чтобы не перегружать ваш сервер. На это влияет скорость ответа сервера. Быстрые, надёжные серверы краулятся агрессивнее; медленные или нестабильные получают троттлинг.

Спрос на краулинг — насколько Google хочет краулить ваш сайт, исходя из популярности и свежести. Сайты, на которые часто ссылаются, часто ищут и часто обновляют, краулятся чаще.

Взаимодействие: вы можете улучшить спрос на краулинг, повысив авторитетность сайта и регулярно обновляя контент. Вы можете улучшить эффективный коэффициент краулинга (сколько ценных страниц краулится за единицу бюджета), устранив малоценные URL, расходующие бюджет.

Наиболее распространённые расточители crawl budget

Параметры URL. Платформы e-commerce и CMS часто генерируют несколько URL для одного контента: product.html?color=red, product.html?size=large, product.html?color=red&size=large. Без обработки параметров один товар может генерировать сотни уникальных URL. Решение: настройте обработку параметров URL в Google Search Console или используйте canonical-теги, указывающие все вариации на основной URL.

Фасетная навигация. Связана с URL с параметрами — комбинации фильтров категорий в e-commerce генерируют практически бесконечные наборы URL. Категория с 5 фильтрами по 10 опций каждый может генерировать тысячи URL-комбинаций. Решение: noindex на страницах комбинаций фильтров, rel=“canonical” на базовый URL категории, или краулинг-директивы для предотвращения обнаружения.

Идентификаторы сессий и параметры отслеживания. Некоторые платформы добавляют ID сессий или параметры отслеживания к URL: page.html?sessionid=abc123. Это создаёт уникальные URL для каждой пользовательской сессии. Решение: удаляйте ID сессий через обработку параметров.

Бесконечная прокрутка и пагинация. Бесконечная прокрутка без пагинации создаёт один краулируемый URL независимо от того, сколько контента загружается. Традиционная пагинация (/page/2, /page/3) краулируема.

Тонкие или некачественные страницы в масштабе. Если на сайте тысячи тонких страниц (автогенерированных, почти дублирующихся или очень коротких), Googlebot оценивает и повторно оценивает их, расходуя crawl budget, который мог бы идти на ваш важный контент. Решение: noindex для тонких страниц или их консолидация.

Сломанные внутренние ссылки (404-е). Ссылки, ведущие на 404-страницы, заставляют Googlebot краулить и получать ответ 404 — расходуя crawl budget без добавления индексируемого контента. Мониторинг и исправление внутренних 404-х улучшает эффективность краулинга.

Диагностика проблем с crawl budget

Признаки того, что crawl budget может ограничивать ваш сайт:

Новые страницы индексируются неделями. Если публикация новой статьи и ожидание 3+ недели до её появления в показах GSC — норма для вашего сайта, скорее всего, недостаточна частота краулинга.

Анализ лог-файлов показывает концентрацию краулинга на малоценных URL. Анализ серверных логов для user-agent Googlebot показывает, что именно краулится, с какой частотой и какие коды ответов получаются. Если значительная часть краулинговой активности тратится на URL с параметрами, страницы фильтров или другие малоценные URL — crawl budget расходуется впустую.

Отчёты об индексации показывают большой разрыв между отправленными и проиндексированными URL. Если в вашем sitemap 50 000 URL, а Google проиндексировал 30 000, разрыв частично обусловлен частотой краулинга.

Техники оптимизации

Директивы robots.txt. Используйте robots.txt, чтобы запретить Googlebot краулить разделы, которые никогда не должны индексироваться: админ-зоны, внутренние страницы поиска. Robots.txt предотвращает обнаружение; он не удаляет уже обнаруженные страницы из индекса.

Теги noindex. Используйте <meta name="robots" content="noindex"> на страницах, которые вы хотите краулируемыми, но не индексируемыми: тонкие страницы тегов, пагинированные архивные страницы, страницы комбинаций фильтров. Страницы с noindex могут получать краулинговые визиты; они просто не будут добавляться в индекс.

Canonical-теги. Canonical-тег сообщает Google, какая версия URL является «настоящей», когда несколько URL имеют похожий контент. Правильно реализованные canonical-теги уменьшают эффективное количество уникальных URL, которые нужно индексировать.

Гигиена XML sitemap. Ваш sitemap должен содержать только страницы, которые вы хотите проиндексировать: важные, канонические URL. Sitemap-ы, включающие noindexed-страницы, цепочки перенаправлений или неканонические URL, посылают противоречивые сигналы.

Приоритизация внутренних ссылок. Страницы, на которые ведут ссылки из многих мест, краулятся чаще — Googlebot следует ссылкам и назначает приоритет краулинга частично на основе количества внутренних ссылок. Важные новые страницы должны быть связаны внутренними ссылками с главной страницей, страницами категорий или другими авторитетными страницами сразу после публикации.

Мониторинг crawl budget

Для крупных сайтов мониторинг crawl budget должен быть частью регулярного технического SEO-цикла:

Анализ лог-файлов сервера — анализ логов доступа для user-agent Googlebot показывает, какие URL краулятся, с какой частотой и какие коды ответов они получают.

Google Search Console, отчёт Coverage — отображает количество обнаруженных, краулируемых и проиндексированных URL по статусам. Отслеживание этих данных в динамике показывает, успевает ли индексация за скоростью публикации.

Симуляция краулинга — регулярный запуск собственного инструмента краулинга (Screaming Frog, Sitebulb) выявляет общее число краулируемых URL, сломанные ссылки и тонкий контент до того, как Googlebot потратит бюджет на обнаружение этих проблем.

Скорость индексации новых страниц — отслеживайте, сколько времени требуется для появления новых страниц в GSC. Средний срок 7 дней от публикации до первого показа в GSC здоров для хорошо краулируемого сайта; 30+ дней указывает на проблему с crawl budget или XML sitemap.

Оптимизация crawl budget фундаментально касается чёткости сигналов: предоставление Googlebot чёткого пути к вашим лучшим страницам, устранение отвлекающих факторов и обеспечение эффективной коммуникации иерархии контента вашей архитектурой сайта.