Что такое веб-краулеры?

Чтобы ваш сайт появился в результатах поиска, Google (а также другие поисковые системы, такие как Bing, Yandex, Baidu, Naver, Yahoo или DuckDuckGo) используют веб-краулеры для навигации по сайту и обнаружения веб-страниц.

У разных поисковых систем разная доля рынка в каждой стране.

В этом руководстве мы рассматриваем Google, который является крупнейшей поисковой системой в большинстве стран. Тем не менее, вам может потребоваться изучить другие поисковые системы и их рекомендации, особенно если ваша целевая аудитория находится в Китае, России, Японии или Южной Корее.

Хотя существуют некоторые различия в ранжировании (Ranking) и рендеринге (Rendering), большинство поисковых систем работают очень похожим образом, когда дело доходит до сканирования (Crawling) и индексации (Indexing).

Веб-краулеры — это тип ботов, которые имитируют поведение пользователей и перемещаются по ссылкам, найденным на сайтах, для индексации страниц. Веб-краулеры идентифицируют себя с помощью специальных user-agent. У Google есть несколько веб-краулеров, но чаще всего используются Googlebot Desktop и Googlebot Smartphone.

Как работает Googlebot?

Схема работы Googlebot

Процесс, который проходит Googlebot для индексации веб-страниц

Общий обзор процесса может выглядеть следующим образом:

  • Поиск URL: Google получает URL из многих источников, включая Google Search Console, ссылки между сайтами или XML-карты сайта.
  • Добавление в очередь сканирования: Эти URL добавляются в очередь сканирования (Crawl Queue) для обработки Googlebot. URL в очереди сканирования обычно находятся там несколько секунд, но в некоторых случаях это может занять до нескольких дней, особенно если страницы нужно отрендерить, проиндексировать или — если URL уже проиндексирован — обновить. Затем страницы попадают в очередь рендеринга (Render Queue).
  • HTTP-запрос: Краулер отправляет HTTP-запрос для получения заголовков и действует в соответствии с возвращенным кодом состояния:
    • 200: Краулер сканирует и анализирует HTML.
    • 30X: Следует по редиректам.
    • 40X: Фиксирует ошибку и не загружает HTML.
    • 50X: Может вернуться позже, чтобы проверить, изменился ли код состояния.
  • Очередь рендеринга: Различные сервисы и компоненты поисковой системы обрабатывают HTML и анализируют содержимое. Если страница содержит контент, основанный на JavaScript на стороне клиента, URL могут быть добавлены в очередь рендеринга. Очередь рендеринга более затратна для Google, так как требует больше ресурсов для выполнения JavaScript, поэтому отрендеренные URL составляют меньший процент от общего количества страниц в интернете. Некоторые другие поисковые системы могут не обладать такой же мощностью рендеринга, как Google, и здесь Next.js может помочь с вашей стратегией рендеринга.
  • Готово к индексации: Если все критерии выполнены, страницы могут быть проиндексированы и показаны в результатах поиска.

В следующих разделах мы подробно рассмотрим каждый из основных компонентов процессов поисковой системы: сканирование и индексация, а также рендеринг и ранжирование.

Дополнительные материалы