Какие бывают роботы
Поисковый робот или паук (spider, crawler, bot) – это программа, которая «ходит» по урлам в интернете и затем их скачивает для последующей индексации. После скачивания документа робот его анализирует, определяет тип, кодировку, язык и добавляет ссылки со страницы в очередь для их дальнейшей обкачки. Периодически робот возвращается на уже посещенные ранее страницы для проверки их актуальности.
Кроме основного робота, который индексирует весь интернет в целом, есть и специализированные, которые отдельно скачивают картинки, видео, новости, rss и т.д. Таким образом они позволяют ускорить попадание документов определенного типа в поисковый индекс.
Обновлено 7 февраля 2021 г.
Was this information helpful?