Русскоязычные поисковые системы в Интернет
Это должно было произойти и это произошло. Прошедший 1996 год стал годом появления и быстрого распространения поисковых систем, специализирующихся на выявлении в первую очередь русскоязычных материалов. Закономерность этого понятна, поскольку к данному моменту российский блок Интернет уже накопил обширный по объему и ценный по содержанию информационный массив и стал полноправной составной частью всемирных киберресурсов. Образование поисковых систем явилось как бы еще одним доказательством реальной значимости накопленного информационного массива: как только сформировалось что искать, появились инструменты, позволяющие это делать.
Русскоязычные поисковые средства возникли не на пустом месте. У их разработчиков было время собраться с мыслями и проанализировать многочисленные зарубежные аналоги (забегая вперед, отметим, что этой возможностью воспользовались далеко не все). Тем более, что принципиально новые решения изобрести было довольно сложно. Российские поисковые системы сохранили традиционное деление на электронные справочники, позволяющие последовательно знакомится с материалами по определенным отраслям и темам и поисковые системы в чистом виде, с помощью которых осуществляется поиск источников по узкому профилю.
Среди справочников на роль российского Yahoo! претендуют два программных продукта: “Паук” (http://spider.raser.ru) и “Созвездие Internet” (http://www.stars.ru). “Паук”, плетущий свои сети с 1995 года (единственный, обогнавший время) и уже ставший ветераном отечественного сетевого поиска имеет интерфейс без особых изысков, но зато несколько иерархических уровней. Логичность отраслевой иерархии оставляет желать много лучшего, поэтому пользование им требует порой нестандартного мышления для определения того, в каком разделе могут находится требуемые данные. Такая запутанность справочника уже сейчас затрудняет работу, а с ростом объемов информации эта проблема будет усугубляться все более и более. Выборочная проверка оперативности обновления разделов “Паука” показала, что система поддерживается в актуальном состоянии довольно слабо. В ней отсутствуют некоторые очень информативные серверы, появившиеся более полугода назад.
В своей нынешней версии “Паук” поддерживает все русские кодировки, а также дает возможность непосредственного поиска, который, как это часто бывает у справочников, ограничен названиями, первым строками текста (комментариями) и электронными адресами web-страниц. Поисковый блок не позволяет употреблять в запросе даже простые операторы “и” и “или”, поэтому разыскание может вестись одновременно только по одному понятию, с возможностью усечения окончаний слов с помощью “*”.
“Созвездие Internet” нашедшее пристанище на известном сервере ИнфоАрт, относится к новейшим разработкам, что заметно по его интерфейсу, выполненному на высоком уровне с применением фреймов и качественной графики: функционально и привлекательно одновременно. К сожалению содержание “Созвездия” пока отстает от его внешнего вида. Справочник не имеет разветвленной иерархической структуры. Основной ряд включает разделы “Компьютеры и технологии”, “Экономика и бизнес”, “Медицина и здоровье”, “СМИ”, “Искусство и культура”, “Образование и наука”, “Техника и транспорт”, “Отдых и развлечения” и “Разное”. При раскрытии раздела идет непосредственное перечисление серверов данной тематики, число которых пока также невелико. В среднем оно составляет около 40, а помятуя о том, что в России число серверов давно превысило 3000 можно понять, что фрагмент, отражаемый “Созвездием” очень невелик. Одним из немногих положительных моментов является то, что помимо названия сервера включается также краткая характеристика его содержания. Прямой же поиск в “Созвездии Internet” не выходит за пределы названий и аннотаций уже учтенных серверов.
Для ориентации в отечественном киберпространстве также может помочь электронная версия “Желтых страниц Интернет (русские ресурсы)”, издательства “Питер”, хранящаяся по адресу (http://proxy.menatep.elcom.ru/yp/yp_about.htm).
Число русскоязычных поисковых средств в чистом виде (search engines) более обширно. К ним относятся Rambler (http://www.rambler.ru), “Новый русский поиск” (http://www.openweb.ru/koi8/cgi-bin), Апорт! (http:// russia.agama.com/aport/), “Русская машина поиска” (http://search.interrussia.com) и Russian Internet Search (http://www.search.ru).
Наиболее мощным является Rambler. Эта система, поддерживаемая ТОО “Стек”, создана специально для выявления материалов на серверах в пределах бывшего СССР. Она относится к числу самых молодых (время образования - осень 1996), поэтому ее разработчики имели возможность изучить опыт предшественников, что безусловно сказалось на ее качественном уровне.
Rambler, поддерживающий все кодировки кириллицы, обеспечивает полнотекстовый поиск более чем на 350 тысячах страниц 3900 отечественных узлов, а количество проиндексированных страниц, ежедневно увеличивается в среднем на 10 тысяч. Помимо этого, обследуется также недельный архив телеконференций РЕЛКОМ.
Система имеет простой дружественный интерфейс, позволяющий составить поисковое предписание без особого напряжения интеллектуальных способностей. Пользователям предлагается составить простой или углубленный запрос (Advanced query). Поиск при этом будет осуществляться в одном и том же информационном массиве, однако при простом запросе (основное меню) результат будет органичен максимум 30 ссылками, и, кроме того, при углубленном запросе появляется возможность большей детализации.
Механизм поиска предусматривает использование операторов AND и OR, а также позволяет усекать окончания с использованием традиционной “*” или “?”. При углубленном запросе, когда число возможных ссылок расширяется до 1000, можно также уточнить поисковое предписание по дате последнего обновления документа и указать термины, появление которых в источнике должно быть исключено (по сути это дополнительный оператор NOT). Для удобства пользователя все манипуляции с терминами могут осуществляться и через меню формы запроса.
Одним из главных достоинств Rambler является близкий к образцовому вывод результатов поиска, превосходящий, на наш взгляд, все зарубежные аналоги. Даже в нормальной форме (а есть еще детальная!) ссылка на найденный объект включает помимо названия, электронного адреса, кодировки, размера и времени обновления документа, еще и внушительных размеров резюме, из которого можно получить представление о том в каком контексте употреблены искомые термины (они выделены жирным шрифтом). Блок искусственного интеллекта Rambler производит ранжирование результатов в зависимости от частоты употребления и местоположения искомых терминов (термин, находящийся в title или head, “весит” больше чем находящийся в body). Поэтому в начале списка представлены ссылки на источники, соответствующие запросу в наибольшей степени.
Данная система работает чрезвычайно быстро. Однако опытное ее опробование показало, что она не столь же оперативно обновляет свои индексы. При каждом “очередном” визите на сервер программа-робот отрабатывает только одну новую ссылку (индексирует один документ) и уходит на следующий узел. Другие же документы остаются ждать следующего появления робота. Тестирование выявило также, что Rambler не всегда своевременно убирает ссылки на web-страницы, снятые с серверов по каким-либо причинам. В ответ на некоторые запросы число ссылок, за которыми оказывается сообщение “File not found” составляет до 10%.
В целом же Rambler пока является безусловным лидером среди отечественных поисковых средств и в перспективе вполне может претендовать на роль одного из самых посещаемых узлов, и, соответственно, быть привлекательным для размещения рекламы.
“Новый русский поиск” также является полнотекстовой системой, однако он ограничивает область просмотра 60 наиболее информативными российскими серверами. Им также обследуется содержание всех некоммерческих конференций РЕЛКОМ за последние две недели. При этом система может вести разыскание с использованием операторов AND, OR и NOT, допускает усечение окончаний и поиск подряд стоящих терминов, соединяемых знаком “+” (например “поисковые+средства” будет равно словосочетанию “поисковые средства”). Все инструктивные сведения, необходимые для работы с системой выведены на ее основной интерфейс.
К сожалению скорость работы “Нового русского” недостаточно высока, что объясняется его слабой аппаратной базой. Результаты поиска ранжированы в зависимости от степени соответствия запросу. Выявленные ссылки содержат название, электронный адрес, время последнего обновления документа и степень его соответствия запросу. Какое-либо подобие резюме отсутствует, что существенно снижает информативность представленных ссылок.
“Новый русский поиск” обладает также специальной функцией “Документы-образцы”, позволяющей конкретизировать полученные результаты. Ее смысл заключается в отборе документов, схожих содержанием с конкретной web-страницей. Так, например, при поиске сведений о А.И.Лебеде неминуемо обнаружатся ссылки на одноименного представителя семейства пернатых. Для того чтобы отсеять эти записи надо на одной из ссылок бесспорно относящихся к Лебедю-политику указать названную функцию, т.е. щелкнуть мышью на специальную отметку (поставить галочку), а затем нажать на кнопку “Документы-образцы”. Повторный поиск выдаст сведения только о нужных страницах.
К числу новейших поисковых средств принадлежит “Апорт”, расположенный на сервере “Агама”. Главная отличительная черта этой системы - искренняя забота об удобстве потребителя. Пока ею обследуется только 16 российских серверов, однако уровень сервиса и скорость работы заставляет отнести это поисковое средство к числу чрезвычайно перспективных.
“Апорт”, понимающий все кириллические кодировки, предоставляет самые широкие возможности составления запроса. Помимо традиционных операторов “и” и “или”, усечения окончаний (“*”) и поиска по целой фразе (двойные кавычки), система обладает способностью вычленять сочетания терминов только в случае, если они расположены в тексте рядом друг с другом. Насколько “рядом” каждый раз определяется пользователем. Так запрос “{3, телекоммуникационные технологии}” выявит все документы, в которых указанные слова встречаются в пределах трех соседствующих предложений, а запрос “[4, географические карты]” отыщет только те страницы, где между искомыми словами стоит не больше двух других слов. Падежи и числа употребляемых лексических единиц в данном случае не имеют значения, система их самостоятельно отсекает. За счет этой возможности “Апорт” потребитель застрахован от значительной доли информационного шума, возникающего при случайном сочетании ключевых слов, например, в начале и в конце документа.
Результаты поиска ранжированы в зависимости от частоты употребления на странице искомых терминов (документы с наибольшей частотой - впереди). При этом ключевое слово выводится в окружающем контексте, что позволяет сразу определить насколько найденная ссылка соответствует запросу. Кроме этого представлены сведения о времени обновления, размере и кодировке файла, а также электронный адрес. Все инструкции “Апорт” расположены непосредственно под основным меню и изложены очень кратко, четко, с необходимыми примерами.
“Русская машина поиска”, несмотря на название, является зарубежной разработкой, ориентированной, тем не менее, исключительно на русскоязычные ресурсы по всему Интернет. Как показывают тесты, она бороздит русскоязычное киберпространство весьма выборочно. Вероятно ориентиром выступает значимость того или иного узла, определяемая создателями “Машины”. Пока же в ее арсенале выборочные страницы более чем с 900 русскоязычных узлов. Ее безусловным преимуществом является широкий арсенал средств формирования запроса. Разработчиками учтены многие достижения зарубежных систем, среди которых основные булевые операторы AND и OR, поиск по отдельной фразе и ограничение поиска определенными элементами web-страниц (название, ключевые слова, автор, и т.д.). Помимо этого, меню запроса “Машины” предлагает пользователю возможность самому устанавливать или отменять чувствительность к написанию заглавных и строчных букв, а также указывать количество возможных ошибок в искомом слове, если нет уверенности в его написании. Последнее качество, кстати весьма полезно и при многовариантности запроса типа “библиотека или библиотеки или библиотек”, поскольку усекать термины “Машина” принципиально не позволяет.
“Русская машина поиска” обладает довольно непривычной формой выдачи результатов, определяемой используемым инструментом - Harvest. Перед пользователем предстают нагромождения из английских и русских слов и символов. После некоторого разбирательства удается понять, что все не так сложно, просто один длинный URL разбит зачем-то на несколько составных частей, привычный title назван “Description”, а каждое вхождение искомого термина обозначено отдельной строкой. Единственной положительной стороной такой детализации является возможность сразу увидеть в какой части web-страницы содержится искомый термин, а иногда даже и в каком контексте он употреблен. Впрочем, такую пестроту результатов можно и отменить через меню, однако в этом случае информация в ссылке сократиться до электронного адреса найденного объекта. К сожалению система не ранжирует результаты поиска, поэтому зачастую приходится просматривать список до самого конца, ища наиболее ценные ссылки.
Russian Internet Search пока по праву занимает последнее место в перечне отечественных поисковых средств. Его разработка похоже была повинностью для его создателей, не удосужившихся даже написать русскоязычный интерфейс. Поэтому с какой бы силой и продолжительностью пользователи не давили на иконки перекодировок, перед ними будет все то же англоязычное меню и англоязычная “помощь”. Из возможных инструментов формирования запроса в наличии установка чувствительности к написанию строчных и прописных букв и способность указывать количество допустимых ошибок. Если к этому добавить не очень высокую скорость работы и вывод результатов в виде аналогичном сокращенному варианту в “Русской машине поиска”, получится и вовсе тоскливое зрелище, отпугивающее случайно забредших на сервер пользователей.
Помимо перечисленных, на некоторых наиболее значительных отечественных серверах представлены системы, осуществляющие поиск в пределах данного узла. Таковы, например, “Поиск по серверу” АОЗТ “Дукс” (http://www.dux.ru), Яndex (http://www.cti.ru/arcadia/index.html) на сервере CompTek International (обследует также очень информативный сервер NNS) и некоторые другие.
Существует также пока единственная в своем роде региональная поисковая система Samara Info (http://www.ssau.samara.ru/cgi-bin/search/search), осуществляющая выявление материалов на 12 серверах, расположенных в Самарской области. Пока в ее активе сведения о более чем 3500 документах.
Говоря о русскоязычных поисковых средствах нельзя не упомянуть Яndex, являющийся по сути не поисковой системой, а скорее русскоязычной лингвистической оболочкой для поисковых целей. Разработчики Яndex изрядно потрудились над анализом морфологии русского языка, в результате чего создана система, снимающая проблему многовариантности русского языка типа слов “идет - шел”, “окно - окон ”, а также чисел, родов, спряжений и склонений. Эта оболочка, в частности, применена для поиска русскоязычных материалов в знаменитой Alta Vista, через интерфейс, находящийся по адресу http://www.cti.ru/alta.html.
При работе с поисковыми серверами не лишне иметь ввиду одну то, что некоторые из поисковых систем при запросе, содержащем несколько терминов порой руководствуются известным принципом “на безрыбье и рак рыба”, выдавая вначале сведения о документах, включающих все термины, а затем и ссылки на Web-страницы, содержащие два из трех или даже один из трех искомых терминов. Системы как бы “забывают” об условии сообщать данные только при условии сочетания всех слов, причем пользователи остаются в полном неведении относительно этой особенности. Таковы, например, “Новый русский поиск” и Russian Internet Search.
К общей черте, объединяющей многие русскоязычные поисковые средства относится непонятная страсть программистов искусственно ограничивать число показываемых ссылок. В меню Rambler, “Нового русского поиска”, “Русской машины поиска” и Russian Internet Search присутствует пункт, с помощью которого пользователь самостоятельно должен задать это число. По логике же поиска оно всегда должно быть максимальным, дабы не допустить потери данных.
В целом же потенциал российских поисковых средств пока еще уступает лучшим зарубежным аналогам, что объясняется даже не столько меньшей мощностью используемого аппаратного обеспечения, сколько тем, что их разработка и поддержка зиждется более на энтузиазме создателей, нежели на серьезной коммерческой основе. Западные, и прежде всего американские системы, существуют главным образом за счет вкрапливаемой в интерфейс рекламы. Чем большими возможностями обладает система, тем большее число пользователей к ней обращаются, и, соответственно, тем в большей степени она привлекает рекламодателей. С развитием в России предпринимательской деятельности посредством Интернет, значение поисковых систем как наиболее посещаемых серверов будет неминуемо возрастать и поэтому мы вправе ожидать дальнейшего повышения их качества. Тем более западный опыт показывает, что каждая вновь появившаяся система уже чем-то превосходит предыдущие, учитывая как позитивный так и негативных опыт предшественников. Поэтому нет сомнений, что в ближайшем будущем отечественные поисковые средства значительно нарастят как аппаратно-программную мощность, так и свои искусственно-интеллектуальные способности. На наше общее благо.
Степанов
Вадим КонстантиновичДоцент Московского Государственного Университета Культуры
Вернуться в список публикаций Вернуться на первую страницу
Last Updated: Monday, March 10, 1997