Поиск в русской "паутине"

Поиск в русской "паутине"

С расширением объема русскоязычной части Интернет ориентироваться в нем становиться труднее с каждым днем. В ситуации когда чуть ли не ежедневно открываются новые серверы, а число возникающих каждый день страниц измеряется тысячами, возрастает жизненная необходимость в специальных инструментах, позволяющих быстро находить нужные сведения в этом стремительном информационном потоке. Поисковые средства в Интернет, в том числе позволяющие выявлять материалы на русском языке или даже специально сконструированные для этой цели, представлены в изрядном количестве, однако их внимательное изучение приводит к выводу, что лишь немногие из их числа в действительности гарантируют приемлемую полноту и точность поиска при удовлетворительной скорости работы.

С точки зрения русскоязычности всю совокупность поисковых средств условно можно разделить на две группы. К первой относятся поисковые средства всемирного масштаба, допускающие поиск русскоязычных материалов; ко второй - отечественные поисковые системы, естественным образом ориентированные на выявление документов на русском языке.

Из наиболее известных глобальных поисковых систем, простирающих свои интересы на все пределы Интернет указанной возможностью обладают Alta Vista, HotBot, Lycos, UltraSeek, WebCrawler, MetaCrawler. Однако эта гипотетическая возможность становится реальной, и то в малой степени, лишь применительно к Alta Vista и UltraSeek, которые, согласно проведенным автором тестам, на начало апреля отражали немногим более 20 тысяч российских страниц каждая. Другие перечисленные системы не дают точных сведения на этот счет, однако косвенные наблюдения позволяют утверждать, что число проиндексированных ими российских страниц еще меньше. Эти цифры конечно же ни в коей мере не отражают реального наполнения российского блока Интернет, а скорее свидетельствуют в пользу того, что поисковые инструменты глобального масштаба отражают лишь страницы, самостоятельно заявленные российскими web-мастерами с помощью функции Add URL. Кроме того зарубежные системы обрабатывают не все кириллические кодировки, и даже “обработанные” представляют зачастую в весьма причудливом виде, из-за чего названия страниц и резюме порой совершенно нечитаемы. Учитывая эти факторы становиться ясно, что осуществлять поиск русскоязычных документов с использованием зарубежных разработок дело столь же утомительное сколь и мало эффективное.

Отечественные поисковые системы естественно лишены недостатков, связанных с кириллическими кодировками. В большинстве своем, они не только обрабатывают web-станицы в любых кодах, включая Macintosh, но и представляют результаты поиска для удобства пользователя в одной кодировке, давая ссылку на оригинальную. Однако по другим показателям они очень отличаются друг от друга: в то время как некоторые из них по потенциалу и уровню сервиса приближаются по уровню к зарубежным разработкам, другие воплощают в себе практически все возможные недостатки инструментов подобного рода.

К лидирующей группе относятся системы Rambler, “Русская машина поиска”, “Апорт!” и “TELA-поиск”. Среди фаворитов особенно выделяется Rambler (http://www.rambler.ru), уже снискавший заслуженный авторитет и уважение в российской части Интернет. Эта система, созданная и поддерживаемая с осени 1996 ТОО “Стек”, создана специально для выявления материалов на серверах в пределах бывшего СССР. Rambler, поддерживающий все кодировки кириллицы, обеспечивает полнотекстовый (файлы до 100 Kb) поиск более чем на 500 тысячах страниц 4000 российских узлов и стран ближнего зарубежья, а количество проиндексированных страниц, ежедневно увеличивается в среднем на 10 тысяч. Помимо этого, обследуется также недельный архив телеконференций иерархии relcom.*.

Система имеет дружественный интерфейс, позволяющий легко составить поисковое предписание. Пользователям предлагается воспользоваться простой или углубленной формой запроса (Advanced query). Поиск при этом будет осуществляться в одном и том же информационном массиве, однако при простом запросе (основное меню) результат будет органичен максимум 30 ссылками, и, кроме того, при углубленном запросе появляется возможность большей детализации.

Механизм поиска предусматривает использование операторов AND и OR, а также позволяет усекать окончания с использованием традиционной “*” или “?”. При углубленном запросе, когда число возможных ссылок расширяется до 200, можно также уточнить поисковое предписание по дате последнего обновления документа и указать термины, появление которых в источнике должно быть исключено (по сути это дополнительный оператор NOT). Для удобства пользователя все манипуляции с терминами могут осуществляться и через меню формы запроса.

Одним из главных достоинств Rambler является близкий к образцовому вывод результатов поиска, превосходящий, на наш взгляд, многие зарубежные аналоги. Даже в нормальной форме (а есть еще детальная!) ссылка на найденный объект включает помимо названия, электронного адреса, кодировки, размера и времени обновления документа, еще и внушительных размеров резюме, из которого можно получить представление о том в каком контексте употреблены искомые термины (они выделены жирным шрифтом). Блок искусственного интеллекта Rambler производит ранжирование результатов в зависимости от частоты употребления и местоположения искомых терминов (термин, находящийся в title или head, “весит” больше чем находящийся в body). Поэтому в начале списка представлены ссылки на источники, в максимальной степени соответствующие запросу.

Данная система работает достаточно быстро и надежно. Опытное ее опробование показало, что она не столь оперативно обновляет свои индексы. При каждом “очередном” визите на сервер программа-робот отрабатывает только одну новую ссылку (индексирует один документ) и уходит на следующий узел. Другие же документы остаются ждать следующего появления робота. Тестирование выявило также, что Rambler не всегда своевременно убирает ссылки на web-страницы, снятые с серверов по каким-либо причинам. В ответ на некоторые запросы число ссылок, за которыми оказывается сообщение “File not found” составляет до 10%. Этим, впрочем, в различной степени страдают все поисковые механизмы.

В целом же Rambler пока является единственной действительно профессиональной поисковой системой и безусловным лидером среди отечественных поисковых средств, закономерно становясь одним из самых посещаемых узлов российской части Интернет.

“Русская машина поиска” (http://search. interrussia.com), несмотря на название, является зарубежной разработкой, ориентированной, тем не менее, исключительно на русскоязычные ресурсы по всему Интернет. Тесты показывают, что в последнее время она бороздит русскоязычное киберпространство весьма интенсивно: ныне в ее арсенале сведения о выборочных страницах более чем с 1500 русскоязычных узлов. Ее безусловным преимуществом является широкий арсенал средств формирования запроса. Разработчиками учтены многие достижения зарубежных систем, среди которых основные булевые операторы AND и OR, поиск по отдельной фразе и ограничение поиска определенными элементами web-страниц (название, ключевые слова, автор, и т.д.). Помимо этого, меню запроса “Машины” предлагает пользователю возможность самому устанавливать или отменять чувствительность к написанию заглавных и строчных букв, а также указывать количество возможных ошибок в искомом слове, если нет уверенности в его написании. Последнее качество, кстати весьма полезно и при многовариантности запроса типа “компьютер или компьютеры или компьютера”, поскольку усекать термины “Машина” принципиально не позволяет.

“Русская машина поиска” обладает довольно непривычной формой выдачи результатов, определяемой используемым инструментом - Harvest. Перед пользователем предстают нагромождения из английских и русских слов и символов. После некоторого разбирательства удается понять, что все не так сложно, просто один длинный URL разбит зачем-то на несколько составных частей, привычный title назван “Description”, а каждое вхождение искомого термина обозначено отдельной строкой. Единственной положительной стороной такой детализации является возможность сразу увидеть в какой части web-страницы содержится искомый термин, а иногда даже и в каком контексте он употреблен. Впрочем, такую пестроту результатов можно и отменить через меню, однако в этом случае информация в ссылке сократиться до электронного адреса найденного объекта. К сожалению система не ранжирует результаты поиска, поэтому зачастую приходится просматривать список до самого конца, ища наиболее ценные ссылки. Кроме того, по непонятным причинам, робот “Машины” осуществляет выборочное индексирование страниц опираясь на какие-то неясные критерии.

К числу новейших поисковых средств принадлежит “Апорт”, расположенный на сервере “Агама”. Главная отличительная черта этой системы - искренняя забота об удобстве потребителя. Ныне ею обследуется лишь около 150 российских серверов, однако уровень предлагаемого сервиса заставляет отнести это поисковое средство к числу чрезвычайно перспективных.

“Апорт”, понимающий все кириллические кодировки, предоставляет самые широкие возможности составления запроса. Помимо традиционных операторов “И” и “ИЛИ”, усечения окончаний (“*”) и поиска по целой фразе (двойные кавычки), система обладает способностью вычленять сочетания терминов только в случае, если они расположены в тексте рядом друг с другом. Насколько “рядом” каждый раз определяется пользователем. Так запрос “{3, телекоммуникационные технологии}” выявит все документы, в которых указанные слова встречаются в пределах трех соседствующих предложений, а запрос “[4, географические карты]” отыщет только те страницы, где между искомыми словами стоит не больше двух других слов. Падежи и числа употребляемых лексических единиц в данном случае не имеют значения, система их самостоятельно отсекает. За счет этой возможности “Апорт” потребитель застрахован от значительной доли информационного шума, возникающего при случайном сочетании ключевых слов, например, в начале и в конце документа.

Результаты поиска ранжированы в зависимости от частоты употребления на странице искомых терминов (документы с наибольшей частотой - впереди). При этом ключевое слово выводится в окружающем контексте, что позволяет сразу определить насколько найденная ссылка соответствует запросу. Кроме этого представлены сведения о времени обновления, размере и оригинальной кодировке файла, а также электронный адрес.

К сожалению при выводе результатов “Апорт” выдает ссылки на один и тот же документ во всех имеющихся кодировках, считая их разными и исходя из этого подсчитывает результат поиска. Это серьезный недостаток, поскольку пользователи изначально получают искаженные сведения о числе релевантных документов. К тому же “Апорт” работает не всегда стабильно. Временами система становится просто недоступной, что возможно объясняется ограниченным числом одновременно обрабатываемых запросов.

Замыкает группу лидеров “TELA-поиск”, поддерживаемый на сервере “Дукс”. Эта система, первоначально сосредоточившая внимание лишь на документах в KOI-8, ныне расширяет свой “кругозор” путем индексирования материалов и в Windows-кодах (1251). На сегодняшний день TELA отражает содержание более 100 тысяч страниц в полнотекстовом режиме с более чем 400 серверов России и ближнего зарубежья.

Меню системы предлагает осуществлять поиск с использованием условия “все слова” или “любое слово”. По первому варианту выдаются ссылки на документы обязательно содержащие все введенные термины, а во втором - документы, содержащие любое из искомых понятий (по сути это закамуфлированные операторы AND и OR). Термины можно усекать с помощью “*”. Помимо этого TELA, хорошо знакомая с русской морфологией, допускает поиск различных словоформ, в том числе и неправильных (ухо-уши-ушей, окно-окон-окна и т.д.).

Результаты выводятся в зависимости от степени соответствия запросу, впереди - ссылки на самые информативные источники. Сами ссылки включают, помимо традиционного названия страницы, ее адреса и резюме, данные о степени соответствия запросу (очки), размере документа и дате его создания или последнего обновления.

В группе менее продвинутых поисковых инструментов “Российские серверы WWW” (http://www.openweb.ru/ windows/cgi-bin), Russian Internet Search (http://www.search.ru), “Русский Интернет” (АУ!) (http:// russia. agama.com/au/) и “Созвездие Internet”: (http://www. stars.ru). Последние два относятся к разряду систем-справочников. Из них определенные надежды подает лишь “Русский Интернет”, представляющий собой попытку создания каталога ресурсов российских сетей. Этот справочник, находящийся пока в стадии отладки, имеет несколько иерархических уровней, с помощью которых можно ознакомиться с наполнением сетей по определенной тематике.

Остальные же перечисленные системы пока не обеспечивают ни широты, ни точности поиска, ни сколько-нибудь приемлемых удобств для пользователей, поэтому их разработчикам стоит или кардинально усовершенствовать свои продукты или заняться чем-нибудь другим, более соответствующим их уровню квалификации.

Некоторым особняком среди средств навигации стоит электронная версия “Желтых страниц Интернет (русские ресурсы)”, издательства “Питер”, по адресу (http://proxy.menatep.elcom.ru/yp/yp_about.htm). Этот источник не является поисковой системой, однако для ориентации в отечественном киберпространстве он может быть использован наряду со справочниками.

В заключении стоит отметить, что поисковый сервис, как почти все в Интернет, развивается стремительно. Наверняка в ближайшем будущем существующие системы будут усовершенствованы, к ним добавятся новые, которые, впитав опыт предшественников, смогут предоставлять пользователям гораздо больше возможностей. Правило “кто перестает подниматься - тот опускается” проявляется здесь как нельзя более наглядно. В этом залог дальнейшего развития поисковых систем, которое сделает работу в Интернет еще более комфортной и эффективной.
Вернуться в список публикаций Вернуться на первую страницу

Last Updated: Wednesday, August 13, 1997