· 

Краулинговый бюджет: FAQ от Гэри Илш

Google. Краулинговый бюджет 2017

Гэри Илш (Gary Illyes) из Google поведал всем заинтересованным лицам, что такое краулинговый бюджет, что такое скорость сканирования сайта, почему возникла потребность в краулинге и какие критические факторы оказывают влияние на сканирование сайта Watermillsky.

 

Что такое краулинговый бюджет

 

В последнее время в сети Интернет появилось несколько определений термина «краулинговый бюджет», однако нет ни одного определения, которое подробно описывает этот термин. В этой статье раскрывается, что такое краулинговый бюджет в 2017 году и чем он примечателен для поискового робота Googlebot. Гэри Илш специально подчеркнул, что владельцам и веб-мастерам большинства сайтов (не более нескольких тысяч страниц) не нужно беспокоиться о краулинговом бюджете сканирующего робота. Такие сайты всегда будут эффективно сканироваться. Краулинговый бюджет и его ограничения важны для крупных веб-ресурсов, которые по заданным параметрам могут автоматически создавать страницы с динамическими URL-адресами.

 

 

Ограничение скорости сканирования сайта

 

При сканировании веб-сайта Googlebot стремится не создавать препятствий посетителям и не ухудшать пользовательский опыт. Ограничение максимальной скорости сканирования и переобхода интернет страниц поможет избежать повышенной нагрузки на веб-сервер при обработке сканируемых страниц. При этом лимитируется число одновременных параллельных соединений сканирующего робота и время между повторными соединениями. Скорость сканирования – величина непостоянная. Она может увеличиваться и уменьшаться от следующих факторов: 

  • Автоматические лимиты – если сайт в установленное время отвечает очень быстро, лимиты увеличиваются; это означает, что для обхода страниц используется большее количество соединений. Если веб-сайт отвечает медленно или возникают ошибки сервера, лимиты снижаются и Googlebot сканирует с меньшей скоростью.
  • Установленные лимиты в Search Console – владельцы подтвержденных веб-сайтов могут изменить скорость сканирования Googlebot для собственного сайта. Следует знать, что установка более высоких лимитов не означает автоматическое увеличение скорости обработки интернет-страниц.

 

 

Отчего зависит потребность в краулинге

 

Активность Googlebot зависит от спроса на индексацию страниц и ограничений в скорости сканирования. При определении потребности в переобходе контента сайта учитываются два главных фактора:

  • Популярность страниц – чтобы постоянно обновлять поисковый индекс, более востребованные в Интернете URL-адреса сканируются чаще.
  • Актуальность данных – поисковые алгоритмы Google стремятся исключать из индекса неактуальные URL-адреса.

 

Также в масштабах сайта могут произойти изменения, которые вызывают увеличение спроса на краулинг, дабы вовремя проиндексировать контент веб-сайта с новыми URL-адресами. Принимая фактическую скорость сканирования и возможный спрос на краулинг (Crawl Demand) Google определяет расчётный краулинговый бюджет исходя из возможностей Googlebot по обработке URL-адресов.

 

 

Какие факторы влияют на краулинговый бюджет

 

Веб-страницы низкого качества или URL-адреса с низкой добавочной ценностью оказывают негативное влияние на скорость сканирования интернет-сайта и частоту переобхода страниц, а также ухудшают индексацию веб-ресурса. Ниже приведены категории вышеупомянутых веб-страниц в порядке убывания ценности:

  • Страницы с идентификаторами сессий.
  • Страницы с фасетной классификацией и навигацией.
  • Страницы с дублированным контентом.
  • Страницы с ошибками 404.
  • Взломанные веб-страницы.
  • Сайты бесконечными пространствами.
  • Прокси-сервера.
  • Низкокачественные и заспамленные страницы

 

Подобные страницы отнимают много серверных ресурсов, что в конечном итоге уменьшает скорость или вызывает задержки сканирования оригинального контента более ценных страниц.

 

 

FAQ от Гэри Илш по краулинговому бюджету

 

Благодаря сканированию веб-ресурсы рано или поздно попадают в результаты поисковой выдачи Google. Эффективное сканирование интернет-сайта улучшает его индексацию в органическом поиске.

 

Вопрос: Влияет ли скорость сканирования сайта и ошибки сервера на величину краулингового бюджета?

Ответ: Быстрозагружаемые сайты улучшают пользовательский опыт (фактор User eXperience) и увеличивают скорость сканирования. Быстрый сайт свидетельствует о качественной работе серверов и Googlebot может сканировать больше страниц и контента при одинаковом количестве соединений. Однако проблемы в работе сервера (ошибки 5хх или «Connection Timeouts») уменьшают скорость сканирования. Gary Illyes рекомендует анализировать данные поисковой консоли, представленные в отчёте «Ошибки сканирования» и следить за количеством ошибок сервера.

 

Вопрос: Скорость сканирования сайта входит в число факторов ранжирования Google?

Ответ: Увеличение скорости сканирования не всегда приводит к лучшему ранжированию сайта. Поисковые алгоритмы Google используют сотни сигналов для распределения результатов поисковой выдачи. Несмотря на то, что сканирование необходимо для нахождения сайта в SERP, тем не менее, оно не входит в число факторов ранжирования.

 

Вопрос: Могут ли альтернативные URL-адреса и встраиваемый контент влиять на краулинговый бюджет?

Ответ: Как правило, любой URL, который сканируется Googlebot, учитывается при расчёте бюджета для сканирования контента сайта. Альтернативные URL-адреса (для AMP-страниц или Hreflang для языковых и региональных версий сайта), а также Embedded Content (внешний контент и объекты, встраиваемые в тело документа, например CSS и JavaScript) одназначно будут потреблять краулинговый бюджет. Аналогичным образом, длинные цепочки редиректов могут оказывать на него негативное влияние.

 

Вопрос: Как с помощью директивы «crawl-delay» управлять работой Googlebot?

Ответ: Googlebot не обрабатывает нестандартную директиву «crawl-delay» в файле Robots.txt

 

Вопрос: Какое влияние на краулинговый бюджет оказывает директива Nofollow?

Ответ: Это зависит от многих причин. Сканируемая страница с любым URL-адресом будет влиять на краулинговый бюджет. Поэтому, даже при наличии директивы Nofollow страница будет посещаться и сканироваться поисковым роботом, если на неё ведут ссылки с других страниц сайта или других веб-ресурсов, которые не помечены атрибутом rel="nofollow".

 

 

 


 

 

 

 

© WaterMillSky 2012-2017