Краулинговый бюджет не является проблемой для сайтов с менее чем 1000 страниц, где Google может обойти всё за один визит. Он становится критичным для e-commerce сайтов с миллионами страниц продуктов, новостных сайтов с большим объёмом публикаций или любого сайта, где фасетная навигация, параметры URL или динамическая генерация контента создают огромное пространство краулируемых URL.
Понимание краулингового бюджета
Краулинговый бюджет Google имеет два компонента:
Лимит скорости краулинга: Насколько быстро Googlebot краулит ваш сайт без перегрузки вашего сервера. Google автоматически регулирует это в зависимости от времени отклика сервера — медленные ответы заставляют Google замедляться. Вы можете снизить (но не увеличить) этот лимит в Google Search Console.
Спрос на краулинг: Желание Google краулить ваши URL в зависимости от их популярности и свежести. Страницы с высоким трафиком, часто обновляемые, краулируются чаще. Страницы с низким трафиком, редко обновляемые, краулируются нечасто.
Практический краулинговый бюджет — это произведение этих факторов: Google будет краулить определённое количество ваших страниц в день, приоритизированных по сигналам спроса.
Выявление проблем краулингового бюджета
Признаки проблем краулингового бюджета:
- Новый контент появляется в результатах поиска через недели
- Google Search Console показывает «Обнаружено, но не просканировано» для многих важных страниц
- Большое количество страниц со статусом 200 без органического трафика (никогда не индексированы, несмотря на краулируемость)
- Высокое соотношение низкокачественных страниц к высококачественным
Инструменты диагностики:
- Google Search Console → Страницы → «Обнаружено, в настоящее время не проиндексировано»
- Анализ серверных журналов (Screaming Frog Log File Analyser) — показывает фактическую частоту краулинга Googlebot по URL
- Краулинговый аудит Screaming Frog — составляет карту всех краулируемых URL
Распространённые расходы краулингового бюджета
Параметры фасетной навигации: E-commerce сайты с фильтрационной навигацией генерируют огромные пространства URL:
/products/shoes?color=red&size=10&brand=nike/products/shoes?size=10&brand=nike&color=red(та же страница, другой порядок параметров)/products/shoes?sort=price-asc
Эти комбинации параметров создают миллионы почти дублирующихся URL. Решения:
robots.txt— запрет для страниц на основе параметров, которые не должны краулитьсяrel="canonical"на всех URL параметров, указывающий на базовую страницу коллекции- Инструмент параметров URL Google Search Console
Session ID в URL: example.com/page?sessionid=abc123 — ID сессий создают уникальный URL для каждой пользовательской сессии. Следует обрабатывать на стороне сервера. Блокируйте через robots.txt или используйте canonical на URL без сессии.
Глубокая пагинация: Для e-commerce с 1000+ продуктов глубокие страницы пагинации (страница 50, страница 100) имеют минимальную ценность. Краулируйте и индексируйте первые 3-5 страниц пагинации; блокируйте более глубокую.
Бесконечная прокрутка без обновления URL: JavaScript-прокрутка, добавляющая контент без изменений URL, невидима для краулеров. Реализуйте обновление URL при прокрутке пользователей (History API) или предоставьте постраничный запасной вариант.
Robots.txt для управления краулинговым бюджетом
robots.txt запрещает краулинг — он не деиндексирует страницы. Страницы, заблокированные robots.txt, но индексированные, могут оставаться в индексе.
Эффективные паттерны robots.txt для краулингового бюджета:
User-agent: Googlebot
# Блокировка параметров фасетной навигации
Disallow: /*?*color=
Disallow: /*?*size=
Disallow: /*?*sort=
# Блокировка корзины, аккаунта, страниц поиска
Disallow: /cart
Disallow: /account/
Disallow: /search
# Блокировка путей staging, которые могут быть открыты
Disallow: /staging/
Disallow: /test/
Осторожность: Ошибки robots.txt могут запрещать критичные страницы. Тестируйте изменения в инструменте тестирования robots.txt Google перед развёртыванием.
XML-сайт-карта как руководство по краулингу
XML-сайт-карты не гарантируют краулинг, но сигнализируют Google о том, что вы считаете важным.
Лучшие практики сайт-карт для крупных сайтов:
- Сегментируйте по типу контента:
sitemap-products.xml,sitemap-blog.xml - Включайте только URL, которые должны быть проиндексированы: не включайте noindex-страницы и URL параметров
- Используйте
<lastmod>для регулярно обновляемых страниц — точный lastmod помогает Google приоритизировать краулинг свежего контента - Максимум 50 000 URL на файл сайт-карты; используйте индексные файлы для ссылок на несколько сайт-карт
Внутренние ссылки для эффективности краулинга
Google обнаруживает страницы преимущественно через внутренние ссылки. Архитектура внутренних ссылок напрямую управляет распределением краулингового бюджета:
Глубокие страницы: Важные страницы, погружённые на много кликов от главной, получают меньшую частоту краулинга. Поднимайте критичные страницы, ссылаясь на них с главной или высокотрафиковых страниц.
Страницы-сироты: Страницы без внутренних ссылок невидимы для краулинга. Убедитесь, что каждая важная страница имеет хотя бы одну внутреннюю ссылку с краулируемой страницы.
Эффективная архитектура сайта:
- Предпочтительна плоская структура: большинство страниц доступно за 3 клика
- Пагинация для больших коллекций: страница 2 ссылается на страницу 3 (обеспечение последовательного обнаружения)
- Цепочки ссылок категория → подкатегория → продукт: каждый уровень ссылается на следующий