
Гэри Илш (Gary Illyes) из Google поведал всем заинтересованным лицам, что такое краулинговый бюджет, что такое скорость сканирования сайта, почему возникла
потребность в краулинге и какие критические факторы оказывают влияние на сканирование сайта Watermillsky.
Что такое краулинговый бюджет
В последнее время в сети Интернет появилось несколько определений термина «краулинговый бюджет», однако нет ни одного определения, которое подробно описывает этот термин. В этой статье раскрывается, что такое краулинговый бюджет в 2017 году и чем он примечателен для поискового робота Googlebot. Гэри Илш специально подчеркнул, что владельцам и веб-мастерам большинства сайтов (не более нескольких тысяч страниц) не нужно беспокоиться о краулинговом бюджете сканирующего робота. Такие сайты всегда будут эффективно сканироваться. Краулинговый бюджет и его ограничения важны для крупных веб-ресурсов, которые по заданным параметрам могут автоматически создавать страницы с динамическими URL-адресами.
Ограничение скорости сканирования сайта
При сканировании веб-сайта Googlebot стремится не создавать препятствий посетителям и не ухудшать пользовательский опыт. Ограничение максимальной скорости сканирования и переобхода интернет страниц поможет избежать повышенной нагрузки на веб-сервер при обработке сканируемых страниц. При этом лимитируется число одновременных параллельных соединений сканирующего робота и время между повторными соединениями. Скорость сканирования – величина непостоянная. Она может увеличиваться и уменьшаться от следующих факторов:
- Автоматические лимиты – если сайт в установленное время отвечает очень быстро, лимиты увеличиваются; это означает, что для обхода страниц используется большее количество соединений. Если веб-сайт отвечает медленно или возникают ошибки сервера, лимиты снижаются и Googlebot сканирует с меньшей скоростью.
- Установленные лимиты в Search Console – владельцы подтвержденных веб-сайтов могут изменить скорость сканирования Googlebot для собственного сайта. Следует знать, что установка более высоких лимитов не означает автоматическое увеличение скорости обработки интернет-страниц.
Отчего зависит потребность в краулинге
Активность Googlebot зависит от спроса на индексацию страниц и ограничений в скорости сканирования. При определении потребности в переобходе контента сайта учитываются два главных фактора:
- Популярность страниц – чтобы постоянно обновлять поисковый индекс, более востребованные в Интернете URL-адреса сканируются чаще.
- Актуальность данных – поисковые алгоритмы Google стремятся исключать из индекса неактуальные URL-адреса.
Также в масштабах сайта могут произойти изменения, которые вызывают увеличение спроса на краулинг, дабы вовремя проиндексировать контент веб-сайта с новыми URL-адресами. Принимая фактическую скорость сканирования и возможный спрос на краулинг (Crawl Demand) Google определяет расчётный краулинговый бюджет исходя из возможностей Googlebot по обработке URL-адресов.
Какие факторы влияют на краулинговый бюджет
Веб-страницы низкого качества или URL-адреса с низкой добавочной ценностью оказывают негативное влияние на скорость сканирования интернет-сайта и частоту переобхода страниц, а также ухудшают индексацию веб-ресурса. Ниже приведены категории вышеупомянутых веб-страниц в порядке убывания ценности:
- Страницы с идентификаторами сессий.
- Страницы с фасетной классификацией и навигацией.
- Страницы с дублированным контентом.
- Страницы с ошибками 404.
- Взломанные веб-страницы.
- Сайты бесконечными пространствами.
- Прокси-сервера.
- Низкокачественные и заспамленные страницы
Подобные страницы отнимают много серверных ресурсов, что в конечном итоге уменьшает скорость или вызывает задержки сканирования оригинального контента более ценных страниц.
FAQ от Гэри Илш по краулинговому бюджету
Благодаря сканированию веб-ресурсы рано или поздно попадают в результаты поисковой выдачи Google. Эффективное сканирование интернет-сайта улучшает его индексацию в органическом поиске.
Вопрос: Влияет ли скорость сканирования сайта и ошибки сервера на величину краулингового бюджета?
Ответ: Быстрозагружаемые сайты улучшают пользовательский опыт (фактор User eXperience) и увеличивают скорость сканирования. Быстрый сайт свидетельствует о качественной работе серверов и Googlebot может сканировать больше страниц и контента при одинаковом количестве соединений. Однако проблемы в работе сервера (ошибки 5хх или «Connection Timeouts») уменьшают скорость сканирования. Gary Illyes рекомендует анализировать данные поисковой консоли, представленные в отчёте «Ошибки сканирования» и следить за количеством ошибок сервера.
Вопрос: Скорость сканирования сайта входит в число факторов ранжирования Google?
Ответ: Увеличение скорости сканирования не всегда приводит к лучшему ранжированию сайта. Поисковые алгоритмы Google используют сотни сигналов для распределения результатов поисковой выдачи. Несмотря на то, что сканирование необходимо для нахождения сайта в SERP, тем не менее, оно не входит в число факторов ранжирования.
Вопрос: Могут ли альтернативные URL-адреса и встраиваемый контент влиять на краулинговый бюджет?
Ответ: Как правило, любой URL, который сканируется Googlebot, учитывается при расчёте бюджета для сканирования контента сайта. Альтернативные URL-адреса (для AMP-страниц или Hreflang для языковых и региональных версий сайта), а также Embedded Content (внешний контент и объекты, встраиваемые в тело документа, например CSS и JavaScript) одназначно будут потреблять краулинговый бюджет. Аналогичным образом, длинные цепочки редиректов могут оказывать на него негативное влияние.
Вопрос: Как с помощью директивы «crawl-delay» управлять работой Googlebot?
Ответ: Googlebot не обрабатывает нестандартную директиву «crawl-delay» в файле Robots.txt
Вопрос: Какое влияние на краулинговый бюджет оказывает директива Nofollow?
Ответ: Это зависит от многих причин. Сканируемая страница с любым URL-адресом будет влиять на краулинговый бюджет. Поэтому, даже при наличии директивы Nofollow страница будет посещаться и сканироваться поисковым роботом, если на неё ведут ссылки с других страниц сайта или других веб-ресурсов, которые не помечены атрибутом rel="nofollow".
Другие новости от Google:
|