Что такое веб-краулеры?
Чтобы ваш сайт появился в результатах поиска, Google (а также другие поисковые системы, такие как Bing, Yandex, Baidu, Naver, Yahoo или DuckDuckGo) используют веб-краулеры для навигации по сайту и обнаружения веб-страниц.
У разных поисковых систем разная доля рынка в каждой стране.
В этом руководстве мы рассматриваем Google, который является крупнейшей поисковой системой в большинстве стран. Тем не менее, вам может потребоваться изучить другие поисковые системы и их рекомендации, особенно если ваша целевая аудитория находится в Китае, России, Японии или Южной Корее.
Хотя существуют некоторые различия в ранжировании (Ranking) и рендеринге (Rendering), большинство поисковых систем работают очень похожим образом, когда дело доходит до сканирования (Crawling) и индексации (Indexing).
Веб-краулеры — это тип ботов, которые имитируют поведение пользователей и перемещаются по ссылкам, найденным на сайтах, для индексации страниц. Веб-краулеры идентифицируют себя с помощью специальных user-agent. У Google есть несколько веб-краулеров, но чаще всего используются Googlebot Desktop и Googlebot Smartphone.
Как работает Googlebot?
Процесс, который проходит Googlebot для индексации веб-страниц
Общий обзор процесса может выглядеть следующим образом:
- Поиск URL: Google получает URL из многих источников, включая Google Search Console, ссылки между сайтами или XML-карты сайта.
- Добавление в очередь сканирования: Эти URL добавляются в очередь сканирования (Crawl Queue) для обработки Googlebot. URL в очереди сканирования обычно находятся там несколько секунд, но в некоторых случаях это может занять до нескольких дней, особенно если страницы нужно отрендерить, проиндексировать или — если URL уже проиндексирован — обновить. Затем страницы попадают в очередь рендеринга (Render Queue).
- HTTP-запрос: Краулер отправляет HTTP-запрос для получения заголовков и действует в соответствии с возвращенным кодом состояния:
- 200: Краулер сканирует и анализирует HTML.
- 30X: Следует по редиректам.
- 40X: Фиксирует ошибку и не загружает HTML.
- 50X: Может вернуться позже, чтобы проверить, изменился ли код состояния.
- Очередь рендеринга: Различные сервисы и компоненты поисковой системы обрабатывают HTML и анализируют содержимое. Если страница содержит контент, основанный на JavaScript на стороне клиента, URL могут быть добавлены в очередь рендеринга. Очередь рендеринга более затратна для Google, так как требует больше ресурсов для выполнения JavaScript, поэтому отрендеренные URL составляют меньший процент от общего количества страниц в интернете. Некоторые другие поисковые системы могут не обладать такой же мощностью рендеринга, как Google, и здесь Next.js может помочь с вашей стратегией рендеринга.
- Готово к индексации: Если все критерии выполнены, страницы могут быть проиндексированы и показаны в результатах поиска.
В следующих разделах мы подробно рассмотрим каждый из основных компонентов процессов поисковой системы: сканирование и индексация, а также рендеринг и ранжирование.
Дополнительные материалы
- Google: SEO Starter Guide
- MDN: MDN: User-Agents