Экскурс в историю поисковых роботов

Раньше не было поисковых систем, и все искалось через неудобные каталоги сайтов, но с прогрессом и увеличением производительности компьютеров появился Гугл

Всемирная Паутина была не всегда такой, как мы ее видим с экранов широкоформатных мониторов. Она развивалась постепенно, но уверенно, захватывая города и страны в единый информационный поток.

Экскурс в историю поисковых роботов

Сначала Сеть стала доступной для университетов, библиотек и крупных компаний. Она носила технический характер, сравнимый с мобильной связью в прошлом десятилетии, и зачастую не выходила за пределы этих учреждений.

Все, что можно было увидеть в интерфейсе «поисковой системы» — строка, требующая ввода числового значения ресурса, на который следует перейти. Иных вариантов не дано, как не дано места для ошибки — Вы должны были точно знать комбинацию из чисел, переводящую пользователя на простую страницу с текстом. Впрочем, первые ресурсы не только предоставляли возможность ознакомиться с информацией о компании, но и, например, даже заказать пиццу на дом.

По мере того, как Сеть расширялась, потребовалась объективная необходимость в составлении общедоступного списка ресурсов. В апреле 1994 года, с целью рекламы и распространения полезной информации, такой каталог был создан на сайте Yahoo. Веб-страницы делились на группы, согласно тематике. По мере расширения, Yahoo было принято решение сделать новый поиск, значительно увеличивающий шансы пользователя. Алгоритм позволял искать нужную информацию в описаниях ресурсов, которые присутствовали в каталогах Yahoo, исключая сайты не добавленные в его списки.

На сегодняшний день каталоги ссылок не пользуются интересом, потому что не могут обеспечить пользователя тем объемом ресурсов, которые выдают на запросы, например, Googleили Яндекс. Если сравнить один из самых больших каталогов сети DMOZ, то разница результата обернется миллиардами ссылок. Например, каталог OpenDirectoryProject содержит около 5 миллионов веб-страниц, тогда как Google насчитывает порядка 9 миллиардов.

Первая поисковая система, как мы ее привыкли видеть сегодня, был WebCrowler, начавшая свою работу в 1994 году. С 1995 года лидерство по предоставлению поисковых услуг берут на себя системы Lycosи AltaVista. А в 1997 года, в кабинетах Стенфордского университета, выдающиеся программисты Лари Пейдж и Сергей Брин создают Google. Этот исследовательский проект стал самой популярной на сегодняшний день поисковой системой во всем мире.

В России аналогом Google становится поисковая система отечественных программистов под названием Yandex. Ее анонсирование произошло 23 сентября 1997 года специально для русскоязычных обитателей Сети. Помимо Яндекса, в России также пользуются системами Aport, Mail, KM, Rambler и, конечно же, русскоязычной версией Google.

Поисковый робот

Лидерами по количеству запросов в масштабах международного интереса к поисковым система стали три конкурента – Yahoo, MSNSearchи Google. Каждая из компаний работает с собственными базами и имеет уникальные алгоритмы поиска. Множество других поисковых систем, таких как AOL, AllTheWeb или Mail, пользуются в разной степени базами лидеров и не скрывают этого.

Основные моменты работы поисковых систем

Разберем для начала компоненты, из которых состоит любая поисковая система:

Spider или «паук» — это программа подобная браузеру, занимающаяся копированием сайтов.

Crawler, «краулер» или «путешествующий» паук — программа, целью которой является автоматизированное чтение всех ссылок, найденных на веб-странице.

Indexer или «индексатор» — программа занимающаяся анализом скаченных пауками страниц.

Database, она же «база данных» — сохраняет скопированные и обработанные страницы.
Search engine results engine, что значит «система выдачи результатов» — выводит результаты поиска, найденные в базе данных.

Web server, или «веб-сервер» — он осуществляет процесс взаимодействия пользователя с другими службами поисковой системы.

Описанные выше черты поисковых систем присущи каждой из них. Компоновка может быть разнообразной и отличать один механизм поиска от другого, но в общем они сохраняются как в Google, так и в Яндексе. Например, комбинация Spider+Crawler+Indexer, объединенная в одну программу, скачивая конкретные ресурсы, производит их анализ и занимается поиском ссылок на новые ресурсы.

Работа программы Spider («паук») — загружает страницы таким же образом, как и любой современный браузер. Отличие состоит лишь в том, что «паук» работает с кодировкой страницы, а не отображается картинки и текстовую информацию, как это делает браузер. Вместо визуальных компонентов, «паук» предоставляет пользователю возможность просмотреть сухой html-код.

В задачи Crawler входит определение пути следования «паука» по ссылкам на ресурсе или предварительно составленного списка адресов. Иными словами, он делает актуальными все ссылки, имеющиеся на веб-странице. Так «краулер» ищет новые документы, даже те, что неизвестны в поисковой системе.

Техническую работу по анализу страницы выполняет Indexer. Программа отслеживает ее элементы и составные части. Анализу подвергаются текст, стиль и структурные особенности веб-страницы, ее специальные возможности и служебные теги, написанные на языке html и т.п.

База данных («Database») обеспечивает сохранность результатов, скаченных поисковой системой для анализа. В некоторых случая Базу данных называют индексом поисковой системы, что не влияет на алгоритм действий программы.

Поисковый робот девушка

Программа Search Engine Results Engine занимается, как и следует из названия, выдачей результатов и ранжированием веб-страниц. Ее алгоритм выводит соответствующие пользовательскому запросу страницы в том порядке, который предполагает ее сортировка. Алгоритм позволяет выводить наиболее ценную информацию, способную заинтересовать пользователя. С этим компонентом происходит взаимодействие оптимизатора, способствующего улучшению рейтинга сайта при выводе результатов. В будущем я еще коснусь вопроса факторов, имеющих значение при ранжировании результатов.

Система Web server («веб-сервер»), даже если Вы не знали как она называется, отображается на главной странице любого поискового сервера. Она выводится при помощи html-страницы и позволяет вводить поисковый запрос. Эта же программа занимается формированием отображения результатов по заданному запросу.