Оказывается, Google включает кофеин. | Журнал "Вольт"
Пн. Окт 26th, 2020


Google впервые рассказал о системе кофеина и ее роли в индексировании контента

От автора: Представитель Google впервые рассказал о Caffeine – поисковой системе, отвечающей за индексирование контента.

В другом выпуске подкастов Search Off the Record Гэри Ильш объяснил, на что похожа система индексирования содержания кофеина. Но это название носит только внешняя часть системы.

Кофеин обрабатывает все данные, которые собирает робот GoogleBot. Затем эти данные добавляются в поисковый индекс.

На первом этапе обработки информация поглощается буфером протокола (поисковым ботом). Затем данные преобразуются в другой формат, и агрегированный код HTML подвергается лексическому анализу.

Затем обрабатываются и нормализуются теги заголовков HTML, в ходе которых Google анализирует примененные к ним стили CSS. Это позволяет поисковой системе определять важность каждого из заголовков.

JavaScript. Быстрый старт

Изучите основы JavaScript на практическом примере создания веб-приложения.

Учить больше

Также Caffeine может обрабатывать не только код HTML и CSS, но и другие форматы. Например, PDF. Для преобразования этого формата Google использует инструмент от Adobe.

После нормализации HTML Caffeine начинает обрабатывать метатеги. Но некоторые из них (например, ключевые слова) игнорируются.

За обработку страниц с ошибками отвечает отдельная подсистема Caffeine, которая называется коллапсером. Она следит за тем, чтобы ошибки (404 и другие) не попадали в поисковый индекс.

При этом коллайдер сравнивает найденные страницы ошибок с большим набором похожих веб-страниц. Иногда этот анализ может привести к тому, что Google исключит страницы с полезным содержанием из индекса. Например, если GoogleBot просканировал статью о стандартных кодах ответа HTTP.

Источник: http://search-off-the-record.googledevelopers.libsynpro.com

Джанго. Полное руководство

Пройдите через весь процесс создания сайта Django

Подробнее



Source link

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *