Поисковые системы и их эволюция

Когда в 1990 году канадский студент Алан Эмтейдж (Alan Emtage) создал «Арчи» (Archie) – первую поисковую машину он понятия не имел начало чему было положено. Принцип действия Арчи состоял в том, что она на регулярной основе просматривала списки архивов на FTP-серверах и создавала базу данных имён файлов, внутри которой было возможно проведение поиска. С написанием различных дополнительных программ эта система стала весьма популярной; впоследствии к ней был обеспечен доступ посредством «всемирной паутины». Всё же у «Арчи» имелся существенный недостаток. Дело в том, что поиск производился исключительно по имени файла, а само содержимое файла не учитывалось. Именно поэтому такая поисковая система не могла полностью удовлетворить пользователей интернета.

В 1993 году в Массачусетском технологическом институте Мэтью Грей (Matthew Gray) разработал так называемого сетевого робота – специальную программу, предназначенную для автоматизированного выполнения тех или иных задач в интернете, на которые человек обычно затрачивает гораздо больше времени. И хотя Грей использовал своего робота просто для подсчета общего числа интернет ресурсов, именно этот принцип позволил в дальнейшем придти к тому, что стало современными поисковыми системами.

Первой полноценной поисковой системой стала в декабре 1993 года «JumpStation» – она включала сетевого робота для осуществления поиска данных и сетевую форму в качестве интерфейса для создания запроса пользователя. Данная система уже содержала три основных элемента, неизменно присущих любому современному поисковику: краулер («веб-паук»), индексатор и систему выдачи результатов.

Паук, являясь сетевым роботом, также как и обычный браузер загружает, просматривает страницы и анализирует находящиеся в них ссылки. Результат анализа ссылок определяет дальнейшее направление движения паука.

Индексатор выделяет и анализирует различные составные части страниц, после чего анализируемые данные скачиваются поисковой системой и помещаются в специальную базу данных – хранилище. Именно в ней содержатся основные информационные ресурсы поисковой системы. Хранилище стало самой ресурсоёмкой частью поисковых систем.

Система выдачи результатов является именно тем интерфейсом, с которым в конечном итоге имеет дело пользователь. Фактически, её назначением можно назвать принятие решения о том, какие именно страницы соответствуют запросу, сделанному пользователем. Критериями, на основании которых производится отбор, обычно бывают присутствие ключевого слова в заголовке или в адресе страницы, частота употребления (плотность) ключевого слова, наличие внутренних и внешних ссылок на ключевое слово.

Окончательно облик современных поисковых систем определил «WebCrawler» (1994 год), который позволял пользователю искать любое ключевое слово на любой странице, что впоследствии и стало общепринятым стандартом.

В следующие годы появилось множество более или менее популярных поисковых систем, которые, в том числе и за счет взаимной конкуренции, привлекли весьма существенные инвестиции именно в данный сектор сетевых технологий. Более того, именно поисковые системы приносили одни из самых больших прибылей во время рыночного бума в сфере интернет ресурсов, пиком которого принято считать 1999 год. В это время оформились как общедоступные, так и платные системы поиска информации.

Один из основных конкурентов – поисковая система «Yahoo!», начиная с 2004 года, также стала использовать поисковую машину, основанную на технологиях и алгоритмах «Гугл», дополненных рядом собственных и приобретенных разработок.

Корпорация «Майкрософт» в 2009 году предложила технологию построения поисковых машин под названием «Bing». Уникальными являются возможности просмотра найденных результатов в виде единственной веб-страницы (а не нескольких страниц в случае других поисковых систем), составление списков связанных с произведенным запросом тем, возможность динамического управления полнотой отображаемой о веб-страницах информации (может отображаться только название страниц, либо их содержание с разной степенью полноты). В июле 2009 года было подписано соглашение о том, что поисковая система «Yahoo! Search» будет использовать машину «Bing».

Статистические данные показывают, что всемирным лидером среди поисковых систем по-прежнему является «Гугл», с помощью которого осуществляется 78% всех поисковых запросов, далее следуют системы «Baidu» (9%) и «Yahoo! Search» (7%). В Рунете традиционно лидирует Яндекс.

Перспективным направлением развития поисковых систем является создание новых алгоритмов поиска, которые позволят отслеживать не только краткосрочные интересы части общества, выражаемые в виде поисковых запросов, но и учитывать долговременное изменение интересов каждого конкретного пользователя. Такие системы могут стать основой для применения и распространения персонализированной рекламы, которая будет учитывать потребности обращающегося с запросом пользователя, не применяя при этом сведения и данные, полученные об этом пользователе с помощью, например, социальных сетей.

Related Posts

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *