Какие бывают роботы

Поисковый робот или паук (spider, crawler, bot) – это программа, которая «ходит» по урлам в интернете и затем их скачивает для последующей индексации. После скачивания документа робот его анализирует, определяет тип, кодировку, язык и добавляет ссылки со страницы в очередь для их дальнейшей обкачки. Периодически робот возвращается на уже посещенные ранее страницы для проверки их актуальности.

Кроме основного робота, который индексирует весь интернет в целом, есть и специализированные, которые отдельно скачивают картинки, видео, новости, rss и т.д. Таким образом они позволяют ускорить попадание документов определенного типа в поисковый индекс.

Обновлено 7 февраля 2021 г.
Была ли эта информация полезной?