Поисковые системы Интернет: генезис и перспективы
Стремительное расширение информационного потенциала глобальных сетей в середине 1990 годов реально привело к образованию электронной информационной инфраструктуры, параллельной традиционной. Объем информации, размещаемой в сетях и в 70 - 80 годы прогрессировал год от года, а с начала 90-х годов, с распространением WWW, информационный поток очень скоро перестал быть сколько-нибудь обозримым, окончательно вышел из под контроля и надо полагать никогда уже под него и не вернется. Степень обновления Web столь велика, что перечни серверов определенной тематики в большинстве случаев безнадежно устаревают уже в момент своего выхода в свет и поэтому перестают быть эффективными.
Сложившаяся ситуация стала благодатной почвой для возникновения совершенно нового вспомогательного сервиса Интернет, именуемого “поисковые средства”. Их развитие было положено еще в 80-х годах с созданием Archie, Veronica, а также WAIS-систем, предназначенных для разыскания данных соответственно в FTP и Gopher приложениях. Распространение WWW приложений привело к образованию доброй сотни поисковых средств нового уровня, среди которых, однако, реальную ценность представляют пожалуй лишь около десятка.
Исходным материалом настоящего доклада явился проведенный автором анализ возможностей наиболее популярных поисковых средств, сравнение их декларируемого и реального потенциалов. В результате выполненной работы автор пришел к определению основных направлений развития поисковых систем в ближайшем будущем, с учетом возрастающих требований со стороны пользователей и общих тенденций развития глобальных сетей.
В число подвергнутых анализу вошло 9 наиболее известных поисковых систем: Alta Vista (http://www. altavista.digital.com), HotBot (http://www. hotbot.com), Ultra InfoSeek (http://ultra.infoseek.com) OpenText (http://www.opentext.com), WebCrawler (http:// www.webcrawler.com), Lycos (http://www.lycos.com), Excite (http://library.ucr.edu), Magellan (http://www. mckinley.com), MetaCrawler (http://www.metacrawler.com).
Основной вывод и закономерен и почти тривиален: более “молодые” поисковые системы значительно превосходят предшествующие как в сфере увеличения глубины и широты поиска так и в области предоставления пользователям большего комфорта. Технологические усовершенствования зримо проявляются в увеличении числа булевых операторов, позволяющих более точно формулировать запрос, скорости поиска, росте количества обследуемых документов и степени глубины этого обследования. Так, если ветераны сетевого поиска в основном сканировали только заглавия, электронные адреса и первые несколько десятков строк web-страниц, то поисковые системы последнего поколения уже явно тяготеют к полнотекстовой индексации, а среднее количество индексируемых ими страниц колеблется в районе 50 миллионов.
Расширение пользовательских возможностей воплощается и в создании более простых и удобных интерфейсов, максимально облегчающих составление запроса, освобождающих пользователей от овладения специальными знаниями типа булевой логики. Все больше и больше систем обретают полиязычность, т.е. способность обрабатывать ресурсы на самых различных языках, включая русский.
Совершенствуются системы ранжирования результатов, которые становятся более интеллектуальными, основанными на более продуманных программах взвешивания лексических единиц. Результаты поиска снабжаются дополнительными сервисными функциями наподобие “похожих страниц” и “просмотр контекста”. Многие поисковые системы начинают предоставлять дополнительные услуги, связанные с разысканием сведений об отдельных лицах и деловых компаниях, размещают на своих страницах ссылки на признанные справочные ресурсы Интернет, как например электронные словари и справочники.
В результате вырисовываются следующие тенденции развития поисковых средств Интернет:
- расширяются возможности формирования запроса;
- увеличивается объем обследуемых источников;
- совершенствуется интерфейс;
- развивается многоязычность, включая русский язык;
- более интеллектуальной становится внутренняя система ранжирования результатов поиска.
- развиваются дополнительные сервисные функции, облегчающие работу пользователей.
Все большее значение будет приобретать противоречие между желанием достичь абсолютной исчерпываемости информации и отсечением малозначимых данных. Ныне этот вопрос решается непосредственным просмотром специальными экспертными комиссиями содержимого серверов, однако обвальный рост числа все новых узлов в разных странах серьезно затруднит этот процесс. Думается выход может быть найден в создании специальной “программы-эксперта”, определяющей достоинства конкретного сервера на основе встроенной системы искусственного интеллекта.
В условиях жестокой конкуренции между поисковыми системами, обусловленной желанием привлечь на свои страницы рекламодателей, все отмеченные позиции в перспективе безусловно сохранят свое значение. Клиента, не связанного с конкретной системой никакими обязательствами можно “соблазнить” только неуклонным повышением информативности системы и более высоким уровнем сервиса. Стабильность этой тенденции не вызывает сомнений и поэтому мы вправе ожидать дальнейшего совершенствования сетевых поисковых средств на наше общее благо.
Вернуться в список публикаций Вернуться на первую страницу
Last Updated: Saturday, January 04, 1997