скачать Ляпин С.Х., Куковякин А.В.1. Информационная система T-Libra 6.х для создания многофункциональных библиотек: новые проекты, новые задачи, новые возможности. Аннотация. Рассматривается развитие базовых сервисных возможностей информационной системы T Libra версии 6.x (разработка ООО «Константа», Архангельск, Россия) для создания многофункциональных электронных библиотек с гибким тематизируемым полнотекстовым поиском, связанное с новыми проектами и новыми задачами. Их общая направленность – увеличение гибкости и настраиваемости базовых сервисов ИС T-Libra, адаптация ее разделов к работе с большим количеством эффективно обрабатываемых многоязычных полнотекстовых ресурсов (десятки и сотни тысяч произведений), с мультимодальными ресурсами, а также необходимость функциональной интеграции электронной библиотеки с другими информационными системами (электронными каталогами, коллекциями, энциклопедиями и т.д.). ^ . T-Libra, электронная библиотека, полнотекстовый поиск, многофункциональность, многоплатформенность, мультимодальность, многоязычность, словарь словоформ, метаданные, данные, электронный архив, электронная коллекция. 1. Введение. Информационная система T-Libra (ИС «T-Libra 6.х»®)2 предназначена для создания в клиент-серверной Интернет/Интранет-архитектуре многофункциональных многоязычных многоплатформенных электронных библиотек, ориентированных на поддержку образовательной, научной, управленческой и других видов деятельности, для которых существенной является возможность различных видов гибкого тематизируемого полнотекстового поиска, осуществляемого с произвольной точностью: до произведения, до авторского абзаца или их совокупности, до предложения, до списка частотно-ранжированных терминов произведения или их совокупности и т.д. Эти возможности предоставляются пополняемым многоязычным словарем словоформ и специализированной индексированной полнотекстовой базой данных, входящей, наряду с другими функциональными разделами, в состав электронной библиотеки. Такого рода информационные системы мы относим к электронным библиотекам третьего поколения. Библиотеками первого поколения можно считать электронные каталоги, в результате поиска по которому пользователь отсылается к «бумажным» ресурсами (книгам, журналам и т.п.) обычной библиотеки, а второго поколения – электронные каталоги, обладающие возможностью присоединения к метаданным (библиографическим описаниям) соответствующих цифровых ресурсов в виде файлов различного формата с последующей их презентацией в составе результата пользовательского запроса. Возможности ИС T Libra в ее различных версиях и модификациях неоднократно демонстрировались на крупных международных конференциях, проходивших в России и на Украине в 2003-2007 годах и описаны в публикациях, в том числе доступных через Интернет (см. [1–12]). Ниже рассматриваются основные свойства ИС T Libra текущей версии 6.1. (на конец 2007 года). На ее технологической основе в настоящее время развивается электронная библиотека в составе многоцелевой информационной среды Архангельского областного центра повышения квалификации специалистов культуры (АОЦПК), создается музейная электронная библиотека Архангельского областного краеведческого музея (АОКМ), в режиме пробной эксплуатации работает электронная библиотека Национальной научной медицинской библиотеки Украины (ННМБУ), г. Киев. Функционал ИС T Libra v. 6.x используется (и развивается) также в ряде других ведущихся или планируемых партнерских проектов с библиотечными, музейными, культурными и образовательными организациями России и Украины, ориентированных на создание современных информационных сред, важной составной частью которых является электронная библиотека. ^ ИС T Libra 6.1. разработана в трехзвенной клиент-серверной Интернет/Интранет архитектуре (Web-browser / Web-server + Application Server / Relational DBMS, с протоколами HTTP, CGI, PIPE API, ODBC); ИС T Libra 6.1. функционирует в среде Windows (на сервере – Windows 2000/2003/XP, на клиентском месте – Windows 98/2000/2003/XP с браузером IE 6.0 и выше). Для работы с ИС T Libra 6.1. от клиента требуется лишь наличие стандартного Веб-браузера (MS Internet Explorer v. 6.0 и выше); ИС T Libra 6.1. является многоплатформенной в плане совместимости ее серверной части с различными реляционными СУБД, поддерживающими протокол ODBC (Open Database Connectivity); базовая поставка ИС T Libra 6.1. осуществляется с СУБД MySQL 4.1. Многоплатформенность в смысле работы с различными операционными системами (Windows и Linux) будет реализована в версиях T Libra 7.х. ^ - автоматизированная подготовка (с помощью соответствующих АРМов) электронных полнотекстовых ресурсов различного вида и формата для последующего ввода их в ИС T Libra 6.1; - автоматический импорт полнотекстовых ресурсов, подготовленных в соответствии с требованиями ИС T Libra 6.1, одновременно с их индексацией; - импорт/экспорт данных (библиографической информации) в формате ISO 2709 из существующих MARC-ориентированных АБИС («электронных каталогов») в ИС T Libra 6.1. и обратно; - автоматическое пополнение (при импорте полнотекстовых ресурсов) и «ручное» редактирование (с рабочего места оператора словаря) многоязычного электронного словаря словоформ; - поиск по интегрированному Каталогу с настраиваемыми полями и встроенной в них булевой алгеброй, а также встроенным в функционал одного из полей предметным мультирубрикатором, содержащим библиотечные классификаторы и рубрикаторы (УДК, ББК, ВАК, ГРНТИ и т.д.) в виде баз данных с собственными интерфейсами для их редактирования; - использование для целей хранения и презентации пополняемого файлового хранилища (Депозитария) с файлами произвольного вида и формата и собственным настраиваемым рубрикатором ресурсов; - гибкий тематизируемый многоязычный полнотекстовый поиск различного типа и вида с сортировкой, группировкой и различными формами презентации его результатов; - мультимодальное расширение (графика, аудио, видео), используемого как для расширения функциональных возможностей ИС T Libra 6.1., так и для взаимодействия и интеграции с другими информационными системами, модулями и оболочками (электронными коллекциями, электронными экспозициями, мультимедиа-энциклопедиями и т.д.). ^ . Администратор ИС «T-Libra 6.1»: создание/корректировка/удаление учетных записей зарегистрированных пользователей ИС; назначение прав пользователей на доступ к подсистемам и ресурсам ИС «T-Libra 6.x». Оператор ресурсов и оператор словаря ИС «T-Libra 6.1»: настройка полей интегрированного каталога; ввод/редактирование/удаление библиографических и иных описаний ресурсов; загрузка файловых ресурсов различных информационных модальностей и форматов в подсистему «Депозитарий»; загрузка полнотекстовых ресурсов с их автоматическим индексированием в подсистему «Полнотекстовый поиск»; определение прав доступа к загружаемым ресурсам с точностью до отдельного произведения (документа); автоматизированное пополнение и редактирование электронного словаря словоформ, используемого для полнотекстового поиска; редактирование мультирубрикатора, используемого для поиска по каталогу. Пользователь ИС «T-Libra 6.1»: поиск библиографических и иных описаний ресурсов по каталогу и их презентация; получение файловых ресурсов из «Депозитария»; поиск по полнотекстовым ресурсам с использованием многоязычного словаря словоформ и настраиваемой «корзины ресурсов»; представление результатов поиска с точностью до авторского абзаца и/или частотно-ранжированного списка терминов произведения или совокупности произведений. ^ 5.1. Каталог
5.2. Депозитарий
5.3. Полнотекстовый поиск 5.3.1. Типы и виды запросов 5.3.1.1. Абзацно-ориентированный: в произведениях, включенных пользователем в поисковую область («корзина ресурсов»), находит множество абзацев, удовлетворяющих условиям запроса. По результатам запроса позволяет произвести их отбор, сформировать итоговый файл с тематически релевантными абзацами, а также получить полные тексты документов (статей, книг и т.п.), в которых содержатся найденные абзацы. ^ (запросы 1 и 2 ведутся с учетом лексико-грамматической парадигмы слова и булевой алгебры, встроенной в поля экранной формы запроса). ^ Производится по одному или нескольким терминам, которые в произвольной грамматической форме вводятся в соответствующее поле запроса. Результат: совокупность релевантных абзацев (включая абзацы сносок и примечаний) из выбранной пользователем «корзины ресурсов», по которой организован поиск. Термины, входящие в поле запроса, выделены в найденном абзаце синим цветом (с дополнительной возможностью фоновой подсветки). 2. ^ Производится по терминам, которые вводятся в произвольной грамматической форме в поля формы запроса и при этом одновременно: а) принадлежат разным тематическим «слоям» терминов, определяемых пользователем, при этом количество слоев варьируется (от 2 до 7), б) находятся на определенном «расстоянии» (= количество «слов», включая знаки препинания) между собой в пределах авторского абзаца. Результатом запроса является совокупность релевантных абзацев из выбранного произведения, содержащих указанную многослойную терминологическую структуру. При этом термины, входящие в поля запроса, выделены в найденном абзаце синим цветом, а термины, удовлетворяющие дополнительным условиям а) и б), выделены в найденном абзаце красным цветом. Эти термины в составе найденного абзаца могут быть выделены также фоновой подсветкой. 3. ^ Производится по синтагматической структуре (произвольному устойчивому словосочетанию). Результатом запроса являются авторские абзацы, содержащие именно это словосочетание (выделенное красным цветом в составе предложения; само предложение при этом выделено синим цветом в составе абзаца). 5.3.1.2. Частотно-ориентированный: создает частотно-ранжированный список терминов (имен существительных – с учетом всех их парадигматических форм, приведенных к нормальной форме: именительный падеж, единственное число) из произведения / произведений на заданную пользователем глубину ранжирования (до 200 строк в итоговой таблице) с указанием абсолютной (выраженной числом) и относительной (выраженной в промилле) частоты встречаемости термина. Имеется два вида частотно-ориентированных запросов: абсолютный частотный поиск и относительный частотный поиск; в последнем частотно-ранжированная таблица строится относительно выбранного пользователем термина (реализована методология «относительной системы отсчета»): сначала выбираются только те абзацы, где находится указанный термин (с учетом всей его парадигматики), а затем по полученному подмножеству абзацев строится частотно-ранжированная таблица. Все термины, входящие в итоговые частотные таблицы, являются активными; возможен выход по любому из них в абзацно-ориентированный поиск. Запросы этого типа используются для построения различных «терминограмм» произведения (или их совокупности), что позволяет по-иному, чем в абзацно-ориентированных запросах, эксплицировать предметную область произведения (или их совокупности). Эти запросы используются также для задач компьютерной лингвистики текста и компьютерной текстологии (в качестве основы специализированных исследовательских модулей и оболочек, не входящих в базовый функционал ИС T-Libra). ^ В рамках различных проектов, ведущихся в настоящее время ООО «Константа» с российскими и украинскими партнерами, к базисной функциональности ИС T-Libra добавились новые возможности. 6.1. Подготовка и импорт ресурсов (данных и метаданных). - В функциональный раздел «Полнотекстовый поиск» ресурсы загружаются (с автоматической индексацией текста и созданием соответствующей базы данных) из rtf-файлов. Разумеется, всегда есть возможность «ручной» подготовки текста в одном из стандартных текстовых редакторов с последующим созданием rtf-файлов средствами этих редакторов (например, MS Word); кроме того, сейчас на рынке появляются программы-преобразователи из одних форматов в другие, в числе которых есть и формат *.rtf (в частности, разработки компании ABBYY). Но в версии 6.1. появилась и автоматизированная подготовка ресурсов для импорта в ИС T-Libra – это оправдано для однородных и достаточно больших массивов оцифрованной информации, подготовленных по определенным правилам в определенных форматах (например, формате *.html). С этой целью нами разрабатываются специализированные АРМы, некоторые из которых существуют как внутренние функциональные структуры T-Libra, а некоторые могут существовать и вполне самостоятельно в качестве вспомогательного прикладного ПО. В версии 6.1. это уже сделано для импорта авторефератов и диссертаций, а также для электронных медицинских журналов (в рамках партнерского проекта с ННМБУ и ООО «Специализированный центр «БАЛИ», Украина). Эта работа будет продолжена в рамках других проектов. - Средствами самой ИС T-Libra v.6.1 обеспечена совместимость с существующими «электронными каталогами», – то есть реализован импорт/экспорт метаданных (библиографической информации) в формате ISO 2709 из существующих MARC-ориентированных АБИС («электронных каталогов») в ИС T Libra и обратно; - Технологически обеспечен многопоточный импорт ресурса во все функциональные разделы ИС T-Libra v.6.1 по принципу «нажатия одной кнопки». Подготовленный ресурс нажатием этой кнопки импортируется одновременно: 1) в раздел «Каталог» (с индексированием метаданных); 2) в раздел «Депозитарий» (метаданные – в рубрикатор депозитария, данные – в файловое хранилище с представлением ресурса в различных видах и форматах; 3) в раздел «Полнотекстовый поиск» (создание прямого и инвертированного индексов полнотекстового ресурса и соответствующей полнотекстовой базы данных), 4) в раздел «Словарь словоформ» – осуществляется автоматическое пополнение словаря словоформ путем генерирования грамматической парадигмы новой словоформы; словоформы, по которым не удалось сгенерировать правильную парадигму, отправляются на ручное редактирование (и доступны через интерфейс рабочего места оператора словаря). - Модернизирована программная среда сервера приложений для обеспечения поддержки UNICODE как при импорте текстов, так и при отображении результатов полнотекстового поиска в динамически генерируемой html-странице, показываемой в окне браузера. 6.2. Новое в полнотекстовом поиске и его связи с другими разделами и подразделами ИС T Libra. - Для крупной электронной полнотекстовой библиотеки, имеющей в своем составе в виде индексированной базы данных десятки тысяч, а в перспективе – сотни тысяч и миллионы оцифрованных произведений, принадлежащих к тому же к самым разным предметным областям и существующих на разных языках, актуальным является вопрос о быстром и удобном способе формирования и реформирования того выбранного пользователем информационно-ресурсного подмножества («корзины ресурсов»), на котором будет выполняться пользовательский запрос. В версии 6.1. реализован новый, более эффективный и удобный способ формирования «корзины ресурсов», основанный на новой функциональной структуре пользовательского интерфейса (для чего пришлось модернизировать часть объектной среды сервера приложений). В логику действия пользователя, осуществляющего полнотекстовый поиск, и в соответствующую функциональную структуру интерфейса введен промежуточный этап – работа с электронным каталогом, фактически представляющем собой подмножество главного Каталога информационной системы со всем его инструментарием (см. выше п. 5.1.). В результате поиска по каталогу формируется промежуточная «корзина ресурсов», по которой и производится полнотекстовый поиск. Разумеется, остается возможность «ручного» формирования корзины (она была и раньше), а также поиск по всему множеству полнотекстовых ресурсов – в последнем случае с разумными ограничениями и предупреждениями, связанными с работой через Интернет/Интранет-браузер (ограниченное время открытой сессии браузера). - Реализована возможность поиска по относительно плохо распознанным и/или неотредактированным текстам (1-2 ошибки на каждую букву в слове). Сравнение с оригиналом (графическим имиджем текста) осуществляется путем связи каждого найденного абзаца с соответствующим произведением, находящемся в депозитарии в формате графического файла. Если графический имидж произведения в депозитарии представлен как совокупность постраничных графических имиджей, то возможен выход из результатов полнотекстового поиска (из конкретного абзаца) непосредственно на соответствующую графическую страницу, где находится этот абзац (а затем, конечно, и на более крупные части произведения или на все произведение в целом). Эта возможность (поиск по плохо распознанному тексту, связь авторского абзаца с соответствующей странице в графическом формате) важна для работы с архивными документами, а также с огромным массивом подлежащих оцифровке старинных книг и книжных памятников, находящихся в библиотеках, музеях, архивах. - В версии 6.1. начата реализация новой технологии создания многоязычных словарей словоформ, необходимых для обеспечения многоязычного поиска. В версии 6.1. реализован гибкий полнотекстовый поиск на русском и украинском языках с учетом грамматической парадигматики словоформ. ^ Архитектура и функционал ИС T-Libra (ядро объектно-ориентированной среды; основные модули административного раздела; поиск по интегрированному Каталогу; ресурсы и рубрикатор Депозитария; результаты Полнотекстового поиска) используются в других специализированных модулях и программных оболочках семейства информационных систем T System (развиваемого ООО «Константа» и апробируемого в информационной среде АОЦПК): учетно-фондовой системе (библиотечной, музейной, …); электронном архиве; электронной тематической коллекции; электронной интерактивной экспозиции; виртуальном музее; мультимедиа-энциклопедии; исследовательской лаборатории; образовательной системе. Некоторые из этих модулей и оболочек уже разработаны как самостоятельные информационные системы (ИС VT-Collection версия 3.0 для создания электронных тематических коллекций с двумя видами поиска и двумя отделяемыми пользовательскими модулями) и готовятся для функциональной интеграции с ИС T-Libra версии 6.x в рамках вышеназванной информационной среды. Некоторые находятся в разработке (программная оболочка T-Virtula для создания виртуальных исследовательских лабораторий, прежде всего гуманитарной направленности; программная оболочка T Expositor для создания интерактивных тематических экспозиций, взаимодействующая с учетно-фондовой системой, библиотекой и коллекцией). Наконец, ряд других (модуль для автоматизированного создания мультимедиа-энциклопедий, модуль для создания образовательной информационной среды, модуль для создания электронного архива) – планируются к разработке в рамках различных проектов, ведущихся ООО «Константа» с АОЦПК и другими партнерами. В докладе в режиме реальной работы в модернизированном пользовательском интерфейсе демонстрируются некоторые базисные и вышеописанные новые функциональные возможности ИС T-Libra версии 6.1. ЛИТЕРАТУРА 1. Ляпин С.Х., Куковякин А.В. Многофункциональная электронная библиотека T-Libra: WWS-архитектура, интегрированный каталог, настраиваемый мультирубрикатор, гибкий параметризируемый полнотекстовый поиск // Труды 5-ой Всеросс. науч. конф. RCDL’2003, Санкт-Петербург, Россия, 2003. - Изд-во СпбГУ, 2003, с. 292-299; http://rcdl2003.spbu.ru/proceedings/J4.pdf. 2. Ляпин С.Х., Куковякин А.В. Виртуальный музей: методология и технология создания интерактивных тематических экспозиций в мультимодальной информационной среде // Труды Всеросс. науч. конф. "Научный сервис в сети ИНТЕРНЕТ". – г. Новороссийск, 20-25 сентября 2004 г. – М.: МГУ, 2004. – С. 43-45. 3. Ляпин С.Х., Куковякин А.В. Виртуальная лаборатория для гуманитарных исследований на основе электронной библиотеки с гибким полнотекстовым поиском // Труды Всеросс. науч. конф. "Научный сервис в сети ИНТЕРНЕТ". – г. Новороссийск, 20-25 сентября 2004 г. – М.: МГУ, 2004. – С. 41-43. 4. Ляпин С.Х. Интеллектуализация многофункциональной электронной библиотеки: концепция, методология, технология // Международная научная конференция «Интеллектуальные информационные технологии в библиотечном деле», 11-12 октября 2005 г., Киев, Национальная библиотека Украины им. В.И.Вернадского (доклад на пленарном заседании), http://www.nbuv.gov.ua/new/05_kiev/plenar.html. 5. ^ . Методология и технология создания многоцелевой информационной среды T-System на базе электронной библиотеки с гибким полнотекстовым поиском // Труды Седьмой Всеросс. науч. конф. "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". - RCDL’2005. – Ярославль, Россия, 2005. – Изд-во ЯрГУ, 2005, с.45-55. 6. Ляпин С.Х., Куковякин А.В. Новая T-Libra: трехзвенная архитектура, внешняя логика, объектность, индексация, функциональное и мультимодальное расширение // Материалы III й Международной научно-практической конференции «Документоведение. Библиотековедение. Информационная деятельность: Проблемы науки, образования и практики», 16-18 мая 2006 г., г. Киев, Украина, Киев-2006, Изд-во Государственной академии руководящих кадров культуры и искусства, с. 154 (выступление на секции «Электронные библиотеки и мультимедийные коллекции в библиотечной, музейной и архивной деятельности»). 7. Ляпин С.Х., Куковякин А.В. Информационная система VT-Collection для создания электронных тематических коллекций с поиском, навигацией и отделяемым презентационным модулем // Материалы межд. конф. АДИТ-2006, Соловки, Соловецкий музей-заповедник, http://www.adit.ru/rus/conference/adit2006/doc/programADIT2006.doc. 8. Ляпин С.Х., Куковякин А.В. Инструментарий виртуального музея: библиотека, экспозиции, коллекции ... // Труды Всероссийской научной конференции "Научный сервис в сети ИНТЕРНЕТ: технологии распределенных вычислений", г. Новороссийск, 18-23 сентября 2006 года. – М.: Изд-во МГУ, 2006, с. 248-250. 9. Ляпин С.Х., Куковякин А.В. Расширение функциональности электронной библиотеки в составе многоцелевой информационной среды: тематические коллекции и интерактивные экспозиции // Материалы международной конференции "Роль бібліотек у формуванні єдиного науково-інформаційного простору України", 10-11 октября 2006 г., Киев, НБУВ им. В.И.Вернадского, http://www.nbuv.gov.ua/new/06_Kiev/plenar.html 10. Ляпин С.Х., Симакова Л.А., Куковякин А.В. Электронная музейная библиотека нового поколения в интегрированной информационной среде областного краеведческого музея // Материалы международной конференции «EVA-2006, Москва», «Культура и технологии информационного общества. Век XXI», 04 – 09 декабря 2006 г., г. Москва, Всероссийская государственная библиотека иностранной литературы им. М.И.Рудомино, http://conf.cpic.ru/eva2006/rus/reports/report_851.html 11. Ляпин С.Х., Куковякин А.В. Организация гибкого полнотекстового поиска в многоязычной электронной библиотеке с большим количеством разнообразных информационных ресурсов // Международная научная конференция “Iнтранет/Екстранет-ресурси в наукових бiблiотеках”, Киев, НБУВ им. В.И.Вернадского, 9-10 октября 2007 года, http://www.nbuv.gov.ua/new/07_Kiev/sek1.html. 12. Ляпин С.Х., Куковякин А.В. Продвинутый полнотекстовый поиск в объектно-ориентированной информационной системе T-Libra v. 6.x для создания многофункциональных электронных библиотек // Материалы VII международной научно-технической конференции «Электронные информационные ресурсы: проблемы формирования, хранения, обработки, распространения, защиты и использования - 2007», Киев, УкрИНТЭИ, 11-12 октября 2007 года. 1 ^ – генеральный директор ООО «Константа», директор Архангельского областного центра повышения квалификации специалистов культуры (АОЦПК), к.ф.н., доцент. E-mail: cpk@atnet.ru. Куковякин Алексей Валентинович – зам. генерального директора ООО «Константа», зам. директора АОЦПК по информационным технологиям. E-mail: magicmagus@yandex.ru 2 Специализированное программное обеспечение “Информационная система «T-Libra 6.x» для создания многофункциональных электронных библиотек” зарегистрировано в Реестре программ для ЭВМ Федеральной службой по интеллектуальной собственности, патентам и товарным знакам Российской Федерации (Свидетельство № 2007613971 от 17 сентября 2007 года).
|