План Тезаурус как способ систематизированного представления знаний и разновидность идеографического словаря. Информационно-поисковые тезаурусы: сущность и назначение icon

План Тезаурус как способ систематизированного представления знаний и разновидность идеографического словаря. Информационно-поисковые тезаурусы: сущность и назначение


Смотрите также:
Л. В. Андрианова, С. В. Андрианова фгуп «цнииатоминформ», Москва...
Рассматриваемые вопросы данной темы: Язык как способ представления информации...
Отчет Опроведении научно-исследовательской работы «исследование проблем в сфере малого...
Курс лекций "Экспертные системы" (Для студентов заочного обучения юридического факультета кгу)...
«четвертая власть»...
Учебная программа по специальности 351400 Прикладная информатика (в менеджменте) Составитель...
!
С. А. Сбитнев, Л. Д. Плешкова Кузбасское цбти краткая характеристика дескрипторного словаря...
Программа вступительного экзамена по информатике и икт...
Учебник «Информатика и икт»...
План рубрикаторы как классификационные ипя: отличительные особенности, назначение...
Асимметричная система моделирования как способ представления в пространственно-временном...



Загрузка...
скачать


Гендина Н.И.,

доктор пед. наук, профессор

кафедры ТАОИ КемГУКИ


Информационно-поисковые тезаурусы:

структура, назначение и порядок разработки


План

  1. Тезаурус как способ систематизированного представления знаний и

разновидность идеографического словаря.

  1. Информационно-поисковые тезаурусы: сущность и назначение

  2. Структура ИПТ

  3. Порядок разработки, экспертизы, регистрации и ведения ИПТ.


Список литературы

  1. ГОСТ 7.74 – 96. Информационно-поисковые языки. Термины и определения [Текст]. – Введ. 1997-07-01. – Минск: Межгосударственный совет по стандартизации, метрологии и сертификации, 1997. – 34 с. (Система стандартов по информации библиотечному и издательскому делу) ТК 191.

  2. ГОСТ 7.25-2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления [Текст]. – Взамен ГОСТ 7.25-80; Введ. 2002-07-01. – М.: ИПК Изд-во стандартов, 2001. – 16 с. МТК 191.

  3. ГОСТ 7.24-2007 Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. – Взамен ГОСТ 7.24-90; введ. 2008-07-01. / Межгосударственный совет по стандартизации, метрологии и сертификации. – М.: Стандартинформ, 2008. – 7 с. (Система стандартов по информации, библиотечному и издательскому делу)

  4. Баранов, О. С. Идеографический словарь русского языка [Текст] / О. С. Баранов. – М.:Издательство ЭТС, 1995. – 820 c

  5. Жмайло, С. В. К вопросу об определении тезауруса [Текст] / С. В. Жмайло // НТИ. Сер. 1 Организация и методика информационной работы. – 2003. – №12. – С.20 – 25.

  6. Жмайло, С. В. К разработке современных информационно-поисковых тезаурусов [Текст] / С. В. Жмайло // НТИ. Сер. 1 Организация и методика информационной работы. –2004. – №1. – С.23 – 31.

  7. Пробст, М. А. Тезаурус и информационный поиск [Текст] / М. А. Пробст // НТИ. Сер. 2. Информационные процессы и системы – 1979. – №9. – С. 14 – 20.






  1. Тезаурус как способ систематизированного представления знаний и разновидность идеографического словаря
^

Тезаурус (от греч. Thesauros – клад, сокровище, сокровищница) – многозначное слово, имеющее, как минимум, два значения:


1) тезаурус как идеальный объект – это «совокупность знаний, накопленных человеком или некоторым коллективом. Это упорядоченный и отраженный в сознании человека «лексикон», «мир» отдельной личности. В русском языке наиболее адекватный перевод слова «тезаурус» – это «мир знаний и интересов». Например, «мир знаний и интересов ребенка – тезаурус ребенка» и «мир знаний и интересов взрослого – тезаурус взрослого»; «мир знаний и интересов художника – тезаурус художника», «мир знаний и интересов бизнесмена – тезаурус бизнесмена» и т.п. В теории информации тезаурусом называют запас знаний (понятий, суждений), размещенных в памяти воспринимающего информацию субъекта. Это структурированное знание в виде понятий и смысловых отношений между ними,

2) тезаурус как материально существующий объект – словарь. Тезаурус – это словарь особого типа или идеографический словарь, в котором слова располагаются не по алфавиту, а по степени смысловой близости. Лексика языка представлена в них в виде систематизированных групп слов, в той или иной степени близких в смысловом отношении (синонимы, гиперонимы, гипонимы, антонимы, паронимы и др.). Тезаурус представляет собой упорядоченную совокупность лексических единиц, в которой в явном виде с помощью специальных помет отражены смысловые отношения (синонимические, родовидовые и ассоциативные) между лексическими единицами. Иными словами, упорядочение лексики в тезаурусе осуществляется не по алфавитному или другому формальному признаку, а по смысловому (семантическому).

В основе построения идеографических словарей лежит логическая классификация всего понятийного содержания лексики. Систематизация слов в таких словарях основана на психологических ассоциациях предметов и понятий, называемых какой-либо лексической единицей. Лексические единицы группируются в поля, в центре каждого из которых стоит слово, объединяющее другие слова, в той или иной степени близкие ему по значению или ассоциирующиеся с ним по смыслу (например: насекомое – муха, пчела, муравей, бабочка; ползать, летать, прыгать...). Как правило, слова и словосочетания внутри поля кратко толкуются таким образом, чтобы было видно, чем каждое из них отличается от всех других членов поля. Слова или словосочетания группируются на основании общности обозначаемых ими явлений действительности по определённым темам, например, «Животные», «Насекомые», «Дом», «Театр», «Улица», «Транспорт» и т. д.

Так, в идеографическом словаре русского языка О. С. Баранова (4) выделены 12 высших разделов идеографического словаря, среди которых: «порядок, природа, человек, деятельность, общество, культура» и др., каждый из которых делится на группы, подгруппы, отделы, разделы. Все слова в этом словаре собраны в гнезда по смыслу и группируются вокруг некоторого понятия, с которым они связаны чаще всего видовыми отношениями. Гнезда в свою очередь группируются в подразделы и т.д. На данный момент в словаре 5923 гнезд, 7 уровней деления (по данным www.rifmovnik.ru/thesaurus.htm на 16.02.2010 г.). Приведем пример словарной статьи из этого словаря:


178.4.7 аромат

запах

ароматный

аромат - приятный запах (например, запах цветов, травы, сена. нежный #. пьянящий #).

ароматизация

благоухание. благоухать.

благовоние.

амбре. фимиам.


Код слова «аромат» отражает принятую в данном словаре идеографическую классификацию, в частности, соотнесенность данного слова с категорией «178- Ощущения».

Таким образом, термины «тезаурус», «идеографический словарь», «словарь типа тезаурус», в первую очередь означают, что совокупность слов языка в них представлена таким образом, что в одну группу слов входят слова, близкие по смыслу. Основное назначение идеографических словарей — описать совокупности лексических единиц, объединённых общим понятием; это облегчает читателю выбор наиболее подходящих средств для адекватного выражения мысли и способствует активному владению языком.


Из истории тезаурусов

История появления и развития тезаурусов рассматривается в работах (5,7). В них отмечается, что история возникновения тезаурусов восходит к великим мыслителям древности и, прежде всего, к Аристотелю. Ему принадлежат слова, возраст которых 2,5 тыс. лет: «Из слов, высказываемых без какой-либо связи, каждое означает или сущность, или качество, или количество, или отношение, или обладание, или действие, или страдание» (Аристотель, Аналитики. – М.:Госполитиздат, 1952. - 438 с.).

Одной из наиболее древних попыток идеографических классификаций является труд Аристофана Византийского (директор Александрийской библиотеки, умер в 180 г. до н.э.). Во 11 в. н.э. появляется работа Юлия Поллукса «Ономастикон», составленная на материале греческого языка. Это словарь, состоящий из 10 книг. Каждая книга содержала слова, относящиеся к определенной теме. Например, в первой – слова, относящиеся к богам и царям; в седьмой – к теме «торговля», в десятой – к теме «утварь». Слова в этом словаре сопровождались краткими толкованиями.

Между II и III в н.э. появляется санскритский словарь «Амарокоша», который содержал около 10 тыс. слов и состоял из трех книг, каждая из которых делилась на главы, главы – на секции. Так, первая книга была посвящена небу, богам и всему тому, что с ними связано. В ней имелись секции «времена года», «небесный свод» и т.п. Вторая книга содержала слова, относящиеся к земле, растительному и животному миру и человеку. Для лучшего запоминания толкования давались в стихотворной форме.

Сам термин «тезаурус» был применен впервые в ХIII в. флорентийским ученым Брунето Латини, который использовал его в заголовке своего труда – систематизированной энциклопедии, назвав ее «Книга о сокровище». Это вполне соответствовало семантике употребленного слова «Thesauros», т.е. «сокровище», «богатство», «запас».

Современный этап истории идеографических словарей открывается работой П.М.Роже «Тезаурус английских слов и выражений» (1852 г.) Его тезаурус – это глубоко структурированная система, восходящая к самым общим категориям: абстрактные отношения, пространство, материя, дух. Всю понятийную область английского языка Роже разбивает на 4 класса: абстрактные отношения, пространство, материя и дух (разум, воля, чувства). Далее эти категории делятся на 24 класса, классы – на подклассы и т.д. Классы распадаются на категории, категории – на секции, секции – на группы. Всего у Роже 1000 понятийных групп, в каждую из которых он собирает слова, близкие по смыслу. Так, есть понятийные группы «рождение», «житель», «помещение», «удовлетворение».

Почти в то же время (1862 г.) появился «Аналогический словарь французского языка» Буасьера. Отобрав две тысячи слов французского языка, которые составляют активный словарь (слова повседневного употребления), и, взяв каждое такое слово за основу, Буасьер собирает все слова, семантически с ним связанные.

Следует подчеркнуть, что первые тезаурусы составлялись без всякой связи с особенностями информационной деятельности, они были органически связаны с фундаментальными проблемами познания, отображая представление о мире в целом и закономерностях его постижения средствами естественного языка. В дальнейшем, при проникновении идей тезауруса в автоматизированные ИПС, тезаурус стал рассматриваться как словарь для построения поисковых образов документов и запросов, качество которых существенно влияло на качество поиска информации.


^ 2. Информационно-поисковые тезаурусы: сущность и назначение

Среди тезаурусов, понимаемых как идеографические словари, в особую группу выделяются информационно-поисковые тезаурусы (ИПТ), появление и развитие которых связано с автоматизацией информационного поиска в середине ХХ в.

ГОСТ 7.74-96 «Информационно-поисковые языки. Термины и определения» определяет ИПТ следующим образом: «Информационно-поисковый тезаурус (ИПТ) – нормативный словарь дескрипторного ИПЯ с зафиксированными в нем парадигматическими отношениями».

ИПТ не следует путать с дескрипторным словарем. ГОСТ 7.74-96 «Информационно-поисковые языки. Термины и определения» дает следующее разграничение этих понятий: «Дескрипторный словарь – словарь дескрипторного ИПЯ, в котором приведены в общем алфавитном ряду дескрипторы и их синонимы без указания других отношений лексических единиц. Дескрипторный словарь является упрощенным вариантом ИПТ, в котором зафиксированы преимущественно или только синонимические связи».

Таким образом, термин «информационно-поисковый тезаурус» используется для обозначения словаря-справочника, в котором перечислены все лексические единицы дескрипторного ИПЯ с указанием их синонимов, а также явно выражены важнейшие смысловые отношения между дескрипторами».

Следует подчеркнуть, что на практике, в инструктивно-методической литературе существует большая путаница в понятийном аппарате. Тезаурусом подчас называют любую классификацию, любой рубрикатор или даже список. Тем не менее, следует отличать ИПТ от словарей синонимов, антонимов и ассоциативных; от компьютерных словарных списков взаиморасположения терминов в документах, которые часто в литературе называют автоматизированными тезаурусами; от списков предметных заголовков и ключевых слов, если в них не выражены семантические отношения между терминами.

ИПТ – это структурированный словарь для контроля лексики, в котором явно и системно определяются основные семантические отношения (эквивалентности, иерархические и ассоциативные) между терминами естественного языка. В соответствии с ГОСТ 7.25-2001 ИПТ ориентированы, прежде всего, на использование в рамках автоматизированных информацион­ных систем и сетей научно-технической информации.

^ Назначение ИПТ

Появление ИПТ неразрывно связано с развитием автоматизированных информационных систем (АИС). Первоначально целью создания ИПТ являлось повышение показателей качества поиска информации в АИС. В соответствии с этой целью назначение ИПТ заключалось в следующем:

  1. Обеспечивать индексирование документов и запросов средствами дескрипторного языка путем замены ключевых слов соответствующими дескрипторами, а также осуществлять избыточное индексирование документов и/или информационных запросов за счет использования вышестоящих, нижестоящих и ассоциативных понятий;

  2. Отражать парадигматические отношения, существующие между лексическими единицами какой-либо отрасли науки или техники.

  3. Служить средством контроля и нормализации лексики конкретной отрасли знания, обеспечивать единое и формализованное представление информации в ИПС.

Кроме того, ИПТ использовались и используются при традиционном (ручном) информационном поиске как средство терминологического контроля, позволяющее на основе эксплицитного представления парадигматических отношений между дескрипторами сужать или расширять область поиска, уточнять информационные запросы пользователей, осуществлять корректировку поисковых предписаний.


^ 3. Структура ИПТ

В соответствии с ГОСТ 7.25-2001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления» в состав ИПТ входят следующие элементы:

1) вводная часть;

2) основная часть (лексико-семантический указатель);

3)дополнительные части (систематический, пермутационный, иерархический и другие указатели и списки специальных категорий лексических единиц).

Обязательными составными частями являются вводная часть и лексико-семантический указатель.

Допускается в состав ИПТ вводить приложения, содержащие допол­нительные сведения о разработке и использовании ИПТ.

^ Вводная часть включает титульный лист и введение.

На титульном листе должны быть приведены:

- наименование ИПТ, включающее термин «информационно-поис­ковый тезаурус» и указывающее область его применения;

- наименование организации-разработчика и дополнительные сведения об авторстве ИПТ;

- сведения о переиздании;

- место и год создания или издания ИПТ.

Введение должно содержать:

- цель создания и область применения тезауруса, описанные кодами
и наименованиями рубрик Межгосударственного рубрикатора НТИ;

- ссылки на источники, использованные для сбора лексики ИПТ;

- ссылки на нормативные и методические документы, использован­ные при составлении ИПТ;

- описание порядка составления тезауруса, включая обоснование
представительности использованных источников лексики;

- описание состава и структуры;

- перечень отношений между лексическими единицами и методические основания для их установления;

- перечень всех символов и специальных сокращений, допущенных
для представления;

- порядок алфавитного расположения (расположение букв разных
алфавитов, небуквенных символов и др.);

- количественные характеристики тезауруса (общее число статей, число дескрипторов, аскрипторов и др.);

- описание состава и формы представления дополнительных данных в словарных статьях;

- абзац следующего содержания: «Тезаурус подготовлен в соответствии с ГОСТ 7.25».

Введение к последующим изданиям (версиям) ИПТ дополнительно должно содержать:

- обоснование необходимости составления новой версии тезауруса;

- указание на характер внесенных изменений.

^ Лексико-семантический указатель – это упорядоченная последовательностью словарных статей ИПТ, сформированная я путем расположения их в алфавитном порядке заглавных лексических единиц. Представляет собой алфавитный перечень всех дескрипторов и аскрипторов с их словарными статьями.

Приведем фрагмент лексико-семантического указателя из ИПТ по швейной промышленности:

КУРТКИ 2302

в Изделия костюмные

Изделия пальтовые

Изделия швейные

н Куртка двубортная

Куртка комбинированная

Куртка спортивная


^ КУСОК ТКАНИ 2203

с Отрез

в Меры упаковочные

а Выпада межлекальные

Лоскут

Метраж ткани

Остатки материала

Отходы материала

«Полотна красные»

Рулон

ЛАВСАН 2304

в Волокно полиэфирное

Волокна синтетические


^ ЛАСТИК ЖАККАРДОВЫЙ 2304

в Ткани подкладочные

Ткани


ЛЕКАЛА 2305

с Выкройки

Чертежи кроя

н — Лекала рабочие

— Лекала-эталоны

а Развертка поверхности

Трафареты

Шаблоны

Лекала вспомогательные

см Лекала производные


Дескрипторная статья состоит из заглавного дескриптора, списка дескрипторов и аскрипторов, семантически связанных с ним, с обозначением видов связи. В рамках дескрипторной статьи термины располагают в следующем порядке:

- заглавный дескриптор;

- дополнительные данные;

- лексическое примечание;

- аскрипторы или дескрипторы-синонимы;

- вышестоящие дескрипторы;

- нижестоящие дескрипторы;

- ассоциативные дескрипторы;

- дескрипторы, связанные другими видами отношений.

Внутри каждой группы ЛЕ, связанных с заглавным дескриптором одним видом парадигматических отношений, должен быть алфавитный порядок расположения. Например:

^ АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ

с языки алгоритмические

машиноориентированные языки

проблемноориентированные языки

в ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ

^ ФОРМАЛЬНЫЕ ЯЗЫКИ

н АВТОКОДЫ

АЛГОЛ

ИПЛ

КОБОЛ

КОМИТ

ПЛ/1

ФОРТРАН

а АЛГОРИТМЫ

ПРОГРАММИРОВАНИЕ ср искусственные языки


Аскрипторная статья состоит из аскриптора и заменяющих его при обработке и поиске информации дескрипторов или комбинации дескрипторов. Приведем примеры аскрипторных статей:


Алфавитно-цифровые знаки

исп к БУКВЫ

ЦИФРЫ

Языки

исп а ФОРМАЛЬНЫЕ ЯЗЫКИ

^ ЕСТЕСТВЕННЫЕ ЯЗЫКИ

Языки программирования

см АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ


Словарная статья может также включать:

- частоту использования дескриптора;

- кодовый номер дескриптора;

- код дескриптора по систематическому указателю;

- классификационные индексы;

- дополнительные семантические и лексикографические пометы;

- иноязычные эквиваленты.

Качество лексико-семантического указателя определяется полнотой включенных в него лексических единиц. Полнота понимается как вероятность вхождения в тезаурус любого информативно-значащего слова для данной тематической области. Полнота лексико-семантического указателя, а, следовательно, и всего тезауруса оказывает существенное воздействие на результаты индексирования документов и запросов.

^ Дополнительные части могут включать в свой состав систематический, пермутационный, иерархический и другие указатели и списки специальных категорий лексических единиц.

^ Систематический указатель – это указатель, в котором дескрипторы сгруппированы согласно принятой в ИПТ рубрикации. Систематический указатель определяет тематическое направление тезауруса, раскрывает его содержание и отражает те отрасли науки и техники, по которым можно с той или иной глубиной детализации проводить поиск. Необходимость его как составной части ИПТ обусловлена тем, что он дает наглядное представление об общем состоянии терминологии в той или иной области знаний, позволяет построить стройную терминологическую модель и учесть по возможности все термины и понятия, которые должны найти место в тезаурусе. Он предназначен для облегчения поиска терминов при составлении поисковых образов документов и запросов путем упорядочения множества дескрипторов и аскрипторов по предметному признаку.

Например, в ИПТ технологии машиностроения, в лексико-семантическом указателе имеется дескрипторная статья:

ГИСТЕРЕЗИС 1913

н Гистерезис диэлектрический

Гистерезис магнитный

Код заглавного дескриптора 1913 показывает связь лексико-семантического указателя с систематическим указателем ИПТ. Первые две цифры отражают первый уровень иерархии – дескрипторную область «19 Физика», к которой относится данный термин. Вторые две цифры отражают второй уровень иерархии в этой области - дескрипторную группу «1913 Электричество и магнетизм».

Пользуясь систематическим указателем, можно определить, термины каких областей знания используются в данном ИПТ. Так, ИПТ по технологии машиностроения включает термины из таких предметных областей, как «Строительство», «Физика», «Химия», «Электротехника и радиоэлектроника» и др.

Систематический указатель, по существу, представляет собой классификационную схему наполнения тезауруса терминологией, так как он строится путем упорядочения множества дескрипторов по предметно-тематическим областям.

Систематические указатели ИПТ подразделяют на три типа:

- тематические,

- категориальные,

- смешанные.

Такое деление отражает принцип построения классификационной схемы систематического указателя.

Основные функции, выполняемые систематическим указателем ИПТ:

- использование в качестве вспомогательного средства при индексировании, обеспечивающее, прежде всего, возможность поиска дескрипторов для индексирования понятий, не представленных в тезаурусе в явном виде (поисковая функция);

- использование в процессе ведения тезауруса (функция ведения ИПТ);

- использование в качестве структурной основы ИПТ, как средство управления его разработкой (конструктивная функция).

В соответствии с ГОСТ 7.25-2001 (2) при построении систематического указателя тематического и смешанного типов в его тематической части следует использовать рубрики Межгосударственного рубрикатора НТИ или рубрикатора конкретной АСНТИ, совместимого с Межгосударственным рубрикатором НТИ. При построении систематического указателя категориального и смешанного типов в его категориальной части следует использовать следующие общие категории:

- названия дисциплин и отраслей деятельности;

- предметы, материалы;

- методы, процессы, операции, явления;

- свойства, величины, параметры, характеристики;

- отношения, структуры, модели, законы, правила, абстрактные понятия.

^ Иерархический указатель. Иерархический указатель - указатель, в котором дан перечень списков дескрипторов, причем каждый список начинается с дескриптора, не имеющего вышестоящих. Он отражает полную структуру иерархических отношений в ИПТ. После каждого дескриптора приведе­ны непосредственно дескрипторы с указанием их уровня в иерар­хии путем применения нумерации либо графического обозначения уровня:

Консервирование

•Консервирование антисептиками

• Консервирование инертными газами

• Консервирование продовольствия

•• Вяление

••Квашение

••Копчение

•• Маринование

•• Посол (соление)

Консервирование

1 Консервирование антисептиками

1 Консервирование инертными газами

1 Консервирование продовольствия

2 Вяление

2 Квашение

2 Копчение

2 Маринование

2 Посол (соление)

Необходимость разработки иерархического указателя ИПТ бывает вызвана тем, что в словарных статьях ИПТ не закрепляется вся система подчиненности понятий, т.к. это повлекло бы за собой значительное увеличение лексико-семантического указателя. Отсюда возникает необходимость разработки самостоятельного раздела ИПТ – иерархического указателя, который бы отражал всю иерархическую цепочку подчиненности дескрипторов сверху донизу.

^ Пермутационный указатель – указатель, в котором в алфавитном порядке перечислены все отдельные слова, входящие в компоненты словосочетаний, обозначающих дескрипторы и для каждого из них указаны все дескрипторы, в состав которых входят эти слова. Следовательно, каждый термин встречается в пермутационном указателе столько раз, сколько значащих слов он содержит. Назначение пермутационного указателя – обеспечивать поиск дескрипторов-словосочетаний по любому слову, входящему в их состав, в том числе и по тем, которые не стоят в начале лексической единицы. Он позволяет группировать в одном месте однокоренные слова.

Как правило, пермутационный указатель составляется автоматизированным способом и имеет обычно вид указателя типа KWIC (Key Word – In Context – «Ключевые слова в контексте»), в котором все значащие слова – элементы терминов – располагаются в алфавитном порядке. Вход в пермутационный указатель находится в центре колонки, которую образуют микроконтексты элементов терминов, а неуместившаяся часть терминов переносится в левую часть той же строки:

оптические квантовые

возбуждения

электрические

с зависимым возбуждением

ГЕНЕРАТОРЫ помех

ГЕНЕРАТОРЫ последовательного

ГЕНЕРАТОРЫ постоянного тока

ГЕНЕРАТОРЫ постоянного тока


Включение в ИПТ пермутационного указателя позволяет устранить повторы, выявить и ликвидировать омонимию, получить высокий уровень накопления терминов, связанных родовидовыми и ассоциативными отношениями, выявить не представленные полностью группы однородных понятий и дополнить их, ввести пропущенные понятия.

Создание пермутационного указателя позволяет решить проблему инверсии прилагательного и существительного. Независимо от того, какое слово использовано для входа в указатель, термин будет найден с принятым для него порядком слов. Кроме того,

весьма важен тот факт, что в пермутационном указателе все термины, содержащие одинаковые слова, собраны вместе, что дает при поиске нить к тем терминам, которые потенциально могут оказаться необходимыми.


^ 4.Порядок разработки, экспертизы, регистрации и ведения ИПТ

В настоящее время порядок разработки, экспертизы и регистрации ИПТ определяется двумя стандартами: ГОСТ 7.25-2001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления» и ГОСТ 7.24-2007 «Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению». В соответствии с этими стандартами функции экспертизы и регистрации ИПТ выполняют национальный и международный депозитарные фонды.

Национальный депозитарный фонд ИПТ на русском языке (включая ИПТ, содержащие эквиваленты дескрипторов на русском языке) находится в Москве, в ВИНИТИ.

Существует также два международных депозитарных фонда ИПТ:

1) международный депозитарный фонд ИПТ на английском языке, включая ИПТ, содержащие эквиваленты дескрипторов на английском языке. Он находится в Канаде, в г. Торонто, в библиотеке факультета информационных наук Университета в Торонто (Thesaurus Clearinghouse – «расчетная палата», The Library, Faculty of Information Studies, University of Toronto, TORONTO, Canada);

2) международный депозитарный фонд ИПТ на всех других языках, кроме английского. Он находится в Польше, в Варшаве, в институте научной и технико-экономической информации (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, WARSZAW A, Poland.).

Полные адреса этих организаций приводятся в ГОСТ 7.25-2001.

ГОСТ 7.25-2001 и ГОСТ 7.24-2007 определяют последовательность действий разработчиков ИПТ следующим образом:

1. До начала работ по созданию ИПТ разработчик должен обратиться в соответствующий национальный или международный депозитарный фонд с целью определения наличия зарегистрированных тезаурусов по заданной тематике. При наличии таких тезаурусов проводят оценку возможности внедре­ния их в данной системе. Если такие тезаурусы не обнаружены, разработчик может приступать к созданию ИПТ. При этом вся технология работы по созданию ИПТ должна строго соответствовать ГОСТ 7.25-2001 и ГОСТ 7.24-2007

2. Готовые (разработанные) ИПТ должны пройти экспертизу на соответствие ГОСТ 7.25-2001. Если они соответствуют стандарту, то Национальный депозитарий выдает разработчику сертификат соответствия. После этого ИПТ депонируется (сдается на хранение) в соответствующем национальном или в одном из международных депозитарных фондах (в Торонто или Варшаве).

Национальные депозитарии распространяют информацию о составе фонда депонированных ИПТ и предоставляют их разработчикам новых ИПТ с целью заимствования элементов и обеспечения совместимости лингвистического обеспечения различных информационных систем. Таким образом, они выполняют функции экспертизы, регистрации, хранения ИПТ и информирования об имеющихся ИПТ.

^ Ведение ИПТ. Следует помнить, что тезаурус никогда не может считаться вполне законченным, так как его содержание, объем и форма постоянно изменяются в связи с развитием науки, техники и производства. Среди причин, требующих периодически корректировать ИПТ, можно назвать:

- количественные и качественные изменения документального потока, поступающего в систему (например, появление нового тематического направления или поступление новых типов документов или, наоборот, прекращение их поступлений);

- изменение режимов поиска в системе; изменение средств реализации АИС (например, внедрение более мощных компьютеров нового поколения, позволяющих автоматизировать многие операции по ведению ИПТ);

- переход АИС от независимого функционирования к работе в режиме сети (при использовании ИПТ в рамках единой информационной сети принципы их ведения должны быть согласованы).

Процедура поддержания ИПТ в рабочем состоянии называется ведением или корректировкой тезауруса. Обычно она включает следующие операции:

- изменение лексического состава ИПТ: внесение новых лексических единиц, их удаление, изменение статуса лексических единиц (перевод ключевого слова в дескрипторы и наоборот);

- изменение парадигматических отношений в ИПТ (усиление, дифференциация, ослабление);

- переиздание ИПТ, которое рекомендуется производить следующим образом: второе и третье издание – через год, а последующие – через два-три года.

Процедура ведения ИПТ предполагает обязательное использование средств автоматизации, позволяющих оперативно производить такие трудоемкие операции, как алфавитная сортировка словника, частотный анализ лексики, проверка взаимности и непротиворечивости ссылок, с помощью которых в ИПТ фиксируются парадигматические отношения и др.





Скачать 206,94 Kb.
оставить комментарий
Дата22.09.2011
Размер206,94 Kb.
ТипДокументы, Образовательные материалы
Добавить документ в свой блог или на сайт

Ваша оценка этого документа будет первой.
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Загрузка...
Документы

Рейтинг@Mail.ru
наверх