Смысловая обработка документов в условиях компьютеризации

Смысловая обработка документов в условиях компьютеризации

Одним из наиболее сложных и ответственных библиотечных процессов является смысловая обработка литературы. Для выражения содержания документа используются информационно-поисковые языки (ИПЯ) классификационного (ББК, УДК) и дескрипторного (предметные рубрики, ключевые слова, дескрипторы) типов. При ведении карточного систематического каталога, являющегося основным источником разыскания литературы по теме, ведущее значение принадлежало ИПЯ классификационного типа. Однако, с переводом каталогов библиотек в электронную форму все большее значение придается индексированию документов с использованием ключевых слов и нормированной лексики.

Главная причина этого заключается в необходимости максимально упростить для пользователей процесс поиска литературы. Этого можно достичь только в том случае, если для нахождения информации не требуется обладание специальными навыками, типа знания структуры ББК или УДК. Пользователю электронного каталога должно быть достаточно ввести понятие, выраженное на естественном языке, по которому поисковая система собственными программными средствами выделяет записи, содержащие поисковый термин.

На первом этапе массовой компьютеризации большинство библиотек приступило к индексированию литературы с помощью ключевых слов. Однако очень скоро практика показала, что этот метод не всегда эффективен, поскольку ненормированная лексика отражает субъективный взгляд индексатора, который далеко не всегда совпадает с логикой пользователей. По этой причине при поиске литературы происходят потери данных: из-за несовпадения ключевых слов релевантные документы оказываются вне его результатов.

В результате библиотеки, интенсивно форсирующие формирование электронных каталогов, пришли к необходимости введения контролируемой лексики в виде словарей предметных рубрик и тезаурусов, позволяющих устранить разночтения в логике индексатора и пользователей. При применении контролируемой лексики поисковая система, опираясь на свой лексический аппарат, самостоятельно конвертирует запрос пользователя в соответствующие предметные рубрики или дескрипторы и выделяет все записи, содержащие введенное понятие, дополнительно показывая взаимосвязь между данным понятием и связанными с ним терминами (выше- нижестоящими, перекрестными, ассоциативными и пр.).

Однако, за исключением редких и довольно специфических отраслей науки и техники, предметные рубрикаторы и тезаурусы разработаны в нашей стране еще крайне ограниченно. Поэтому для российских библиотек одной из актуальных задач становится создание и поддержка словарей контролируемой лексики, как по отдельным отраслям знания, так и универсального содержания. Во многом эту работу предстоит начинать с начала, поскольку в нашей стране предметизации и индексации документов не уделялось большого внимания. В этой связи полезным будет изучение опыта зарубежных коллег, в частности Предметных рубрик Библиотеки Конгресса США, являющихся на сегодня наиболее полным рубрикатором универсального содержания.

От того насколько верно будет решена задача создания надежного лингвистического обеспечения зависит то насколько эффективно будут работать электронные каталоги и базы данных библиотек и информационных центров. Исполнителями данного проекта безусловно должны стать такие центральные библиографические институты как РКП, РГБ, РНБ и крупнейшие отраслевые библиотеки. Естественно, что реализация проекта будет возможна лишь при целевом финансировании со стороны федерального бюджета.
Степанов Вадим Константинович
и.о. доцента Кафедры Общего библиографоведения МГУК
Пашнина Ирина Ивановна
и.о. доцента Кафедры Библиографии КГАК

Вернуться в список публикаций Вернуться на первую страницу
Last Updated: Sunday, October 20, 1996