Оптимизация краулингового бюджета: обеспечение краулинга важного контента

Краулинговый бюджет не является проблемой для сайтов с менее чем 1000 страниц, где Google может обойти всё за один визит. Он становится критичным для e-commerce сайтов с миллионами страниц продуктов, новостных сайтов с большим объёмом публикаций или любого сайта, где фасетная навигация, параметры URL или динамическая генерация контента создают огромное пространство краулируемых URL.

Понимание краулингового бюджета

Краулинговый бюджет Google имеет два компонента:

Лимит скорости краулинга: Насколько быстро Googlebot краулит ваш сайт без перегрузки вашего сервера. Google автоматически регулирует это в зависимости от времени отклика сервера — медленные ответы заставляют Google замедляться. Вы можете снизить (но не увеличить) этот лимит в Google Search Console.

Спрос на краулинг: Желание Google краулить ваши URL в зависимости от их популярности и свежести. Страницы с высоким трафиком, часто обновляемые, краулируются чаще. Страницы с низким трафиком, редко обновляемые, краулируются нечасто.

Практический краулинговый бюджет — это произведение этих факторов: Google будет краулить определённое количество ваших страниц в день, приоритизированных по сигналам спроса.

Выявление проблем краулингового бюджета

Признаки проблем краулингового бюджета:

Новый контент появляется в результатах поиска через недели
Google Search Console показывает «Обнаружено, но не просканировано» для многих важных страниц
Большое количество страниц со статусом 200 без органического трафика (никогда не индексированы, несмотря на краулируемость)
Высокое соотношение низкокачественных страниц к высококачественным

Инструменты диагностики:

Google Search Console → Страницы → «Обнаружено, в настоящее время не проиндексировано»
Анализ серверных журналов (Screaming Frog Log File Analyser) — показывает фактическую частоту краулинга Googlebot по URL
Краулинговый аудит Screaming Frog — составляет карту всех краулируемых URL

Распространённые расходы краулингового бюджета

Параметры фасетной навигации: E-commerce сайты с фильтрационной навигацией генерируют огромные пространства URL:

/products/shoes?color=red&size=10&brand=nike
/products/shoes?size=10&brand=nike&color=red (та же страница, другой порядок параметров)
/products/shoes?sort=price-asc

Эти комбинации параметров создают миллионы почти дублирующихся URL. Решения:

robots.txt — запрет для страниц на основе параметров, которые не должны краулиться
rel="canonical" на всех URL параметров, указывающий на базовую страницу коллекции
Инструмент параметров URL Google Search Console

Session ID в URL: example.com/page?sessionid=abc123 — ID сессий создают уникальный URL для каждой пользовательской сессии. Следует обрабатывать на стороне сервера. Блокируйте через robots.txt или используйте canonical на URL без сессии.

Глубокая пагинация: Для e-commerce с 1000+ продуктов глубокие страницы пагинации (страница 50, страница 100) имеют минимальную ценность. Краулируйте и индексируйте первые 3-5 страниц пагинации; блокируйте более глубокую.

Бесконечная прокрутка без обновления URL: JavaScript-прокрутка, добавляющая контент без изменений URL, невидима для краулеров. Реализуйте обновление URL при прокрутке пользователей (History API) или предоставьте постраничный запасной вариант.

Robots.txt для управления краулинговым бюджетом

robots.txt запрещает краулинг — он не деиндексирует страницы. Страницы, заблокированные robots.txt, но индексированные, могут оставаться в индексе.

Эффективные паттерны robots.txt для краулингового бюджета:

User-agent: Googlebot
# Блокировка параметров фасетной навигации
Disallow: /*?*color=
Disallow: /*?*size=
Disallow: /*?*sort=

# Блокировка корзины, аккаунта, страниц поиска
Disallow: /cart
Disallow: /account/
Disallow: /search

# Блокировка путей staging, которые могут быть открыты
Disallow: /staging/
Disallow: /test/

Осторожность: Ошибки robots.txt могут запрещать критичные страницы. Тестируйте изменения в инструменте тестирования robots.txt Google перед развёртыванием.

XML-сайт-карта как руководство по краулингу

XML-сайт-карты не гарантируют краулинг, но сигнализируют Google о том, что вы считаете важным.

Лучшие практики сайт-карт для крупных сайтов:

Сегментируйте по типу контента: sitemap-products.xml, sitemap-blog.xml
Включайте только URL, которые должны быть проиндексированы: не включайте noindex-страницы и URL параметров
Используйте <lastmod> для регулярно обновляемых страниц — точный lastmod помогает Google приоритизировать краулинг свежего контента
Максимум 50 000 URL на файл сайт-карты; используйте индексные файлы для ссылок на несколько сайт-карт

Внутренние ссылки для эффективности краулинга

Google обнаруживает страницы преимущественно через внутренние ссылки. Архитектура внутренних ссылок напрямую управляет распределением краулингового бюджета:

Глубокие страницы: Важные страницы, погружённые на много кликов от главной, получают меньшую частоту краулинга. Поднимайте критичные страницы, ссылаясь на них с главной или высокотрафиковых страниц.

Страницы-сироты: Страницы без внутренних ссылок невидимы для краулинга. Убедитесь, что каждая важная страница имеет хотя бы одну внутреннюю ссылку с краулируемой страницы.

Эффективная архитектура сайта:

Предпочтительна плоская структура: большинство страниц доступно за 3 клика
Пагинация для больших коллекций: страница 2 ссылается на страницу 3 (обеспечение последовательного обнаружения)
Цепочки ссылок категория → подкатегория → продукт: каждый уровень ссылается на следующий