Поисковые системы, как известно, предназначены для поиска информации в разнообразных массивах данных. Как правило, поисковики разделяют на несколько классов, причем каждый из них предназначен для решения различных задач.
Поисковые каталоги
Для того, чтобы как-то упростить задачу навигации по существующим ресурсам, были созданы системы, названные поисковыми каталогами или просто каталогами.
В таких каталогах сайты регистрируются их создателями, после чего проходят проверку модераторами, имеющими право изменять описание и рубрику регистрируемого ресурса по собственному усмотрению так, чтобы максимально приблизить его к тематике самого сайта. Кроме того, часто модераторами также оценивается и полезность ресурса, в результате чего каждый ресурс получает экспертную оценку, которая помогает пользователям находить наиболее авторитетные сайты по интересующим их темам.
Следует заметить, что некоторые поисковые каталоги, которые имеют также собственный рейтинг, используют в качестве подобных неявных экспертных оценок информацию о посещаемости сайтов и учитывают позиции, которые эти сайты занимают в рейтинге ресурсов определенной тематики. Данный подход позволяет повышать качество поиска в каталоге, предоставляя более авторитетную информацию, в результате чего значительно сэкономить время пользователей.
Если пользователь пытается найти что-то конкретное, например, книгу или музыкальный компакт-диск, поисковые каталоги, как правило, оказываются бессильны, и в лучшем случае могут лишь подсказать, на каких сайтах можно попробовать поискать требуемую информацию, не гарантируя, что она там есть. Задача усложняется тем, что лишь определенное количество страниц из всего множества содержит нужную информацию, остальные же совершенно бесполезны.
Полнотекстовые поисковые системы
Задачу поиска страниц, содержащих нужную информацию, решают полнотекстовые поисковые системы, которые имеют специальные программы, называемыми пауками или роботами. Поисковик занимаются поиском страниц, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют найденную информацию в базе данных.
Каждый поисковый механизм имеет собственный набор правил, определяющих, каким образом собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Другие игнорируют ссылки, которые ведут к графическим и звуковым файлам и т.д.
Важной задачей для робота, который собирает информацию о ресурсах для поисковой системы, является также обнаружение как можно большего количества разнообразных ресурсов.
Поэтому роботы зачастую используют в качестве оценки “полезности`’ ресурса глубину ссылок, т. е. количество промежуточных каталогов, упоминающихся в ссылке между именем Интернет-узла и именем самого ресурса. Чем больше глубина, тем ниже важность соответствующего ресурса. Такой подход позволяет быстро посетить стартовые и близкие к ним страницы на большом числе Интернет-узлов. Собранная таким образом информация заносится в базу данных и позволяет находить страницы с нужной информацией в том виде, когда ее в последний раз посещал робот.
Большинство поисковых роботов не могут посещать все доступные в Интернет ресурсы из-за ограниченности доступных роботу аппаратных и сетевых ресурсов, и то, какие именно ресурсы будут посещены, определяется применяемой стратегией обхода. Естественно, что робот старается использовать такую стратегию, которая максимизирует общую “полезность`’ всех посещенных ресурсов.
Метапоисковые системы
Как уже было замечено, современный Интернет в большинстве случаев не позволяет быстро и качественно отслеживать изменение страниц, поэтому пользователь может попасть на уже изменившуюся страницу или, что еще хуже, на уже удаленную из Сети.
Одним из возможных решений этой проблемы может быть метапоиск. Метапоисковые системы не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы множества поисковых систем. За счет этого полнота поиска в таких системах максимальна и вероятность нахождения нужной информации очень высока.
В системах метапоиска запрос, который вводит пользователь, ретранслируется полнотекстовым поисковым системам, которые он выбирает, после чего каждая из систем возвращает множество описаний и ссылок на документы, которые считает наиболее соответствующими данному запросу.
При этом, если в разных поисковых системах был найден один и тот же сайт, то ценность его для пользователя, естественно, существенно повышается.
Однако, у каждой системы различные множества проиндексированных документов, различная полнота баз, следовательно, запрошенная пользователем информация может быть найдена в одной системе и может быть не найдена в другой.
В этом случае пользователь может получить несколько действительно релевантных ссылок от одной системы, которые будут перемешаны с абсолютно нерелевантными из другой (например, в случае, когда фраза целиком не найдена, поиск идет по одному из ключевых слов запроса).
Несмотря на очевидные преимущества систем метапоиска, и они не лишены существенных недостатков, среди которых очень большое время поиска. Пользователям приходится долго ожидать, пока метапоисковая система опросит каждую полнотекстовую систему и на основании полученных результатов поиска сформирует собственные, наиболее удовлетворяющие, с ее точки зрения, потребностям пользователя.