План: Результат поиска по yandex результаты поиска по yandex по каталогу icon

План: Результат поиска по yandex результаты поиска по yandex по каталогу



Смотрите также:
Результаты поиска по запросу на Yandex: аудит регион: Санкт-Петербург Рис...
Пресс-служба ОАО «Таттелеком» Дайджест сми...
Планирование процесса поиска 56 Основные методы поиска в сети и их использование 59 4 Построение...
Применение портфолио при оценивании индивидуальных достижений учащихся...
Программа дисциплины методология и методы социологического исследования для направления 040200...
Заключение по результатам общественной экспертизы проекта Закона Самарской области «О...
3. Лекция: Методы поиска решений...
Икусственный интеллект и нечеткие системы...
Домашнее задание по предмету: математика...
Программа модуля 2-3 часа цель обучения знакомство с особенностями...
Алфавитно-предметный указатель к систематическому каталогу (апу)...
Информационная система для поиска плагиата в программных кодах письменных работ студентов...



скачать
Московский Государственный Университет Культуры и Искусств


Факультет: Менеджмента и социально-информационных технологий


Курсовая работа

Информационно-поисковые языки


Студент IV курса

Вечернего обучения

Группа И-40

Иванькина Н.А.

Проверил

Белоозеров В.Н.


Москва, 2005г.


План:


1. Результат поиска по YANDEX

2. Результаты поиска по YANDEX по каталогу

3. Результат поиска по RAMBLER

4. Анализ поиска и сравнение поисковых систем

5. Полезные сайты

6. Информационно-поисковый язык

7. Типы ИПЯ

8. Традиционные ИНЯ и их модификации

9. Языки типа «Like this»

10. ИПЯ Internet

11. О методах создания правового ИПЯ дескрипторного типа


Результаты поиска по YANDEX «везде»


1 страница



ссылки

Полезная

Бесполезная

1.

+




2.




+

3.

+




4.




+

5.

+




6.




+

7.




+

8.

+




9.

+




10.

+




Итого на 1 странице 60% полезной информации.



2 страница



ссылки

Полезная

Бесполезная

1.

+




2.




+

3.




+

4.




+

5.




+

6.

+




7.




+

8.

+




9.




+

10.

+




^ Итого на 2 странице 40% полезной информации.



3 страница



ссылки

Полезная

Бесполезная

1.




+

2.

+




3.




+

4.

+




5.

+




6.




+

7.

+




8.

+




9.




+

10.

+




^ Итого на 3 странице 60% полезной информации.



4 страница



ссылки

Полезная

Бесполезная

1.




+

2.

+




3.




+

4.




+

5.

+




6.

+




7.




+

8.




+

9.




+

10.




+

Итого на 4 странице 30% полезной информации.


Вывод: в среднем полезной информации, по всему поиску, составляет 47,5%.


Поиск в поисковой системе YANDEX по каталогу в рубрике «Науки» не нашел ни одного сайта на эту тему.


Результаты поиска по RAMBLER


1 страница



ссылки

Полезная

Бесполезная

1.

+




2.




+

3.

+




4.

+




5.




+

6.

+




7.




+

8.




+

9.




+

10.




+

Итого на 1 странице 40% полезной информации.

2 страница



ссылки

Полезная

Бесполезная

1.




+

2.




+

3.




+

4.

+




5.




+

6.




+

7.

+




8.

+




9.




+

10.




+

Итого на 2 странице 30% полезной информации.



3 страница



ссылки

Полезная

Бесполезная

1.

+




2.

+




3.




+

4.




+

5.




+

6.




+

7.

+




8.




+

9.




+

10.




+

Итого на 3 странице 30% полезной информации.



4 страница



ссылки

Полезная

Бесполезная

1.

+




2.




+

3.

+




4.

+




5.




+

6.




+

7.




+

8.

+




9.

+




10.

+




Итого на 4 странице 60% полезной информации.


Вывод: в среднем полезной информации, по всему поиску, составляет 32%.

Анализ поиска и сравнение поисковых систем.

В результате поиска по двум поисковым система Yandex и Rambler было выявлено, что в среднем полезной информации:

- по поисковой системе Yandex-везде выходит 47,5%.

- по поисковой системе Yandex-каталог не было найдено не одного сайта

- по поисковой системе Rambler выходит 32%


Следовательно: наиболее эффективный метод поиска информации, поисковая система Yandex-везде.


Полезные ссылки найденные в YANDEX.RU


  1. ссылка: http://glossary.ru/cgi-bin/gl_sch2.cgi?R1dIt(uwsg.outtul!tgvurtltol

  1. ссылка: http://www.gsnti-norms.ru/norms/common/doc.asp?2&/norms/stands/7_74.htm

  1. ссылка: http://cnti.tomsk.su/index.html?goto=http%3A//cnti.tomsk.su/stn/02.html

  1. ссылка:http://law.edu.ru/magazine/pravoved/article.asp?magNum=4&magYear=1975&articleID=1170522

  2. ссылка: http://www.booksite.ru/fulltext/1/001/008/056/154.htm

  3. ссылка:http://www.ipi.ac.ru/sysen/previews/download.php?id=%D1%EB%EE%E2%E0%F0%ED%E0%FF_%F1%F2%E0%F2%FC%FF_%CB%E0%F0%E8%EE%ED%EE%E2.doc

11. ссылка: http://www.oim.ru/reader.asp?nomer=163

16. ссылка: http://www.oval.ru/enc/29898.html

18. ссылка: http://www.gpntb.ru/win/inter-events/crimea98/doc2/doc42.html

20. ссылка: http://www.nikopol.net/mirrors/osp/cw/1996/20/31.htm

32. ссылка: http://libconfs.narod.ru/2000/4s/4s_p14.htm

34. ссылка: http://www.ergeal.ru/archive/cs/ppo/1-4.htm

35. ссылка: http://devlel.chat.ru/Contents.htm

37. ссылка: http://lib.krasu.ru/conferences/view_article.php3?conf=UA-conf-1&article=smagina&back=2001

38. ссылка: http://www.rags.ru/sysen/previews/preview_ed.php?page=15&id=

40. ссылка: http://www.universtal.ru/www/universtal.nsf/862a120076787c29c3256d03003d7bf5/89aed5e76e8aef64c3256e690025dd34/$FILE/Kulkova1.pdf

42. ссылка: http://nii.art.kemerovonet.ru/index.php?trg=skipor_sem.html

45. ссылка: http://www.tarazinfo.kz/cgi-bin/book/book.cgi?mode=22&idbook=15559

46. ссылка: http://www.nsc.ru/win/inter/wais_kiae.html


Полезные ссылки найденные в RAMBLER


1.ссылка: http://www.citforum.ru/internet/services/services0312.shtml

3. ссылка: http://cnti.tomsk.su/index.html?goto=http%3A//cnti.tomsk.su/stn/02.html

4. ссылка: http://www.biblus.ru/Default.aspx?class=025.49

6. ссылка: http://devlel.chat.ru/9.htm

14. ссылка: http://www.gpntb.ru/win/ntb/ntb2002/5/f5_12.htm

17. ссылка: http://www.ergeal.ru/txt/archive/cs/ppo/1-4.htm

18. ссылка: http://www.n-t.org/ri/ch/pi06.htm

21. ссылка: http://www.ufacom.ru/pr_TCP/internet/services/services0312.shtml.htm

22. ссылка: http://www.referat.su/refs_new/6335/ref_part_2.shtml

31. ссылка: http://www.lib.uniyar.ac.ru/ru/doc/gost759.doc

27. ссылка: http://britney-spears.pop3.ru/diplom.htm

33. ссылка: http://www.i-u.ru/biblio/archive/chursin_exitavt/default.aspx

34. ссылка: http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2002/part2/antopolskii

38. ссылка: http://www.booksite.ru/fulltext/1/001/008/056/154.htm

39. ссылка: http://rain.ifmo.ru/cat/data/theory/unsorted/isl-2003/article.pdf

40. ссылка: http://www.krugosvet.ru/articles/92/1009220/1009220a2.htm


Информационно-поисковый язык

Информационно-поисковый язык, знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска. Любой абстрактный ИПЯ состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения.

  ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного ИПЯ учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно-поисковая система.

  В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких ИПЯ выполняют функцию синтаксиса. В некоторых ИПЯ. основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ а из этих слов — выражения (фразы) и какие из них будут правильно построенными. ИПЯ отличается от информационного языка и от машинного языка. В середине 20 в. в качестве ИПЯ широко применяются классификации библиотечно-библиографические и языки


Невозможность использования естественного языка (ЕЯ) в качестве основного средства представления информации в документальных информационно-поисковых системах (ДИПС) приводит к необходимости применения искусственных языковых средств.

^ Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности последующего их поиска.

ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.

ИПЯ принято разбивать на два основных типа:

классификационные языки, дескрипторные языки.

Принципиальная разница между данными типами языков заключена в процедуре построения предложений (фраз) языка. В ряде языков в их лексический состав наряду со словами, выражающими простые понятия, заранее включены также словосочетания и фразы, выражающие сложные понятия. Для записи смыслового содержания сообщений в таких ИПЯ используются только отдельные элементы из этого набора, в том числе и готовые сложные понятия. Фактически построение сложных синтаксических конструкций заменяется выбором соответствующего сложного понятия (в виде словосочетания или фразы) из готового набора. Например:

Политика.Внутренняя.Федеральная Политика.Внутренняя.Региональная



Политика.Внешняя...

Таким образом, с помощью таких языков производится классификация сообщений, т.е. отнесение их к классам, обозначенным лексическими единицами (ЛЕ) ИПЯ. Поэтому такие языки получили название классификационных.

Частным случаем классификационного ИПЯ является рубрикатор, лексическими единицами которого являются названия тематических рубрик. В целом под рубрикатором некоторой предметной области понимается ориентированный граф, состоящий из независимых деревьев. Листья деревьев называются рубриками – объекты, инкапсулирующие знания о конкретных фрагментах данной предметной области. Все нелистовые вершины являются классификационными родово-видовыми обобщениями листовых вершин и используются лишь при ведении информационного поиска.

Обычно рубрикатор формируется группой экспертов, на основании их знаний о предметной области с учетом информационных потребностей пользователей. На рис. 1 приведен пример рубрикатора некоторой предметной области.

Следует подчеркнуть одну особенность классификационных языков. Поскольку сложные понятия задаются заранее, до начала процедуры записи сообщений с помощью ИПЯ, образующие их слова также заранее связаны (скоординированы) определенными связями. Поэтому такие языки носят название предкоординируемых.

Другой тип языков составляют дескрипторные ИПЯ, в которых ЛЕ заранее не связаны никакими текстуальными отношениями. Сложные синтаксические конструкции – предложения или фразы – создаются в этих языках путем объединения (координации) ЛЕ во время процедуры представления смыслового содержания документов системы. Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения на составление сложных понятий. Фактически из небольшого числа ЛЕ данные языки позволяют строить предложения, выражающие практически любой смысл. Такие ИПЯ носят также название посткоординируемых, поскольку координация между словами предложения возникает во время его записи.

Различают дескрипторные ИПЯ с грамматикой и без грамматики. Первые характеризуются наличием ряда жестких правил формирования синтаксических конструкций. Например, при использовании дескрипторного ИПЯ с позиционной грамматикой, в котором при описании действий принято на первом месте записывать наименование действия, далее субъекта, а затем объекта этого действия, фраза: "Иванов владеет автомобилем" может выглядеть так: "владеть Иванов автомобиль". В дескрипторных ИПЯ без грамматики такие правила отсутствуют, и порядок следования ЛЕ в поисковом образе документа или поисковом предписании не играет роли. Т.е. приведенный выше пример может быть одинаково представлен последовательностями "владеть Иванов автомобиль", "Иванов владеть автомобиль" и т.п.

Кроме того, различают дескрипторные ИПЯ с контролируемой и со свободной лексикой. Лексический состав первых строго ограничен и зафиксирован в словаре ИПЯ, в то время как на лексический состав вторых не налагается никаких ограничений, и он может постоянно пополняться за счет включения новых ЛЕ

^ Типы информационно-поисковых языков

1 информационно-поисковый язык, ИПЯ: Формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска

2 документальный информационно-поисковый язык: Информационно-поисковый язык, предназначенный для индексирования документов (частей документов) с целью последующего хранения и поиска

3 классификационный информационно-поисковый язык: Информационно-поисковый язык, предназначенный для индексирования документов (частей документов) и информационных запросов посредством понятий и кодов какой-либо классификационной системы

4 язык предметных рубрик, предметизационный информационно-поисковый язык: Информационно-поисковый язык, предназначенный для индексирования документов (частей документов) и информационных запросов посредством предметных рубрик

5 дескрипторный информационно-поисковый язык, дескрипторный язык: Информационно-поисковый язык, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов и/или ключевых слов

6 язык ключевых слов: Информационно-поисковый язык, предназначенный для индексирования документов и информационных запросов посредством ключевых слов

7 фактографический информационно-поисковый язык: Информационно-поисковый язык, предназначенный для индексирования описаний фактов и информационного поиска в фактографических информационных массивах


8 объектно-признаковый информационно-поисковый язык: Фактографический информационно-поисковый язык, предназначенный для индексирования описаний фактов в виде перечня объектов (предметов) с указанием относящихся к ним признаков (свойств) и соответствующих значений признаков


9 вербальный информационно-поисковый язык: Информационно-поисковый язык, использующий для представления своих лексических единиц слова и выражения естественного языка в их орфографической форме


10 грамматика информационно-поискового языка: Правила формирования поисковых образов и поисковых предписаний из лексических единиц информационно-поискового языка



^ Традиционные ИПЯ и их модификации

Наиболее распространенным является язык, позволяющий составить логические выражения из набора терминов. При этом используются булевые операторы AND, OR, NOT. Тогда запрос может выглядеть следующим образом:

((информационная and система) or ИПС) not СУБД

Эта фраза означает: <Найди все документы, которые содержат одновременно слова "информационная" и "система", либо слово "ИПС", но не содержат слова "СУБД">. Фактически, здесь имеется два запроса:

"информационная and система not СУБД" и "ИПС not СУБД",

каждый из которых подразумевает как бы два действия: сначала найти все документы, содержащие необходимые пользователю термины, а потом отсеять все из них, которые содержат термин "СУБД". Такая схема достаточно проста и поэтому наиболее широко применяется в современных ИПС, однако еще 20 лет назад уже были хорошо известны ее недостатки.

Булев поиск плохо масштабирует выдачу. Оператор AND может очень сильно сократить число документов, выдаваемых на запрос. При этом все будет зависеть от того, насколько типичными для базы данных являются поисковые термины. Оператор OR, напротив, может привести к неоправданно широкому запросу, в котором полезная информация затеряется за информационным шумом. Для успешного применения этого ИПЯ следует хорошо знать лексику системы и ее тематическую направленность. Как правило, для системы с таким поисковым языком создаются специальные документально - лексические базы данных со сложными словарями или тезаурусами, содержащими информацию о связи терминов словаря друг с другом.

Модификацией булева поиска является взвешенный поиск. Идея достаточно проста. Считается, что термин описывает содержание документа с какой-то точностью, и эту точность выражают в виде веса термина. Причем взвешивать можно как термины документа, так и термины запроса. Запрос может формулироваться на ИПЯ, использующем булевы конструкции, но выдача документов при этом будет ранжироваться в зависимости от степени близости запроса и документа. Измерение близости строится таким образом, чтобы обычный булевый поиск был бы частным случаем взвешенного булевого поиска.

Главная задача информационно-поисковой системы - поиск информации, релевантной информационным потребностям пользователя. Под релевантностью понимают соответствие между желаемой и получаемой информацией.

Релевантность можно представить также, как меру близости между реально полученными документами и тем, что следовало бы получить из системы. Возникают две взаимосвязанные задачи: представление информации в системе и формулирование информационных потребностей пользователя. Руководства по ИПС обычно утверждают, что в системе реализуется запрос типа "найди похожее". Но что означает эта фраза в действительности? Как вычислить эту похожесть?

Наиболее распространенными моделями представления документов в информационно-поисковой системе являются различные вариации на тему векторной модели, в которой документ выдается в виде набора терминов, то есть имеется не весь текст документа, а только небольшой набор терминов, отражающий его содержание. Отталкиваясь от такого представления о документе, рассмотрим различные информационно-поисковые языки и определим степень развития информационно-поисковых средств, используемых в Internet.

^ Языки типа "Like this"

При внимательном рассмотрении взвешенного поиска закрадывается естественное желание вообще обойтись без логических коннекторов и измерять близость документа и запроса какими-либо другими критериями. Наиболее простой моделью этого типа является линейная модель индексирования и поиска, при которой близость документа и запроса рассматривается как угол между ними. В этом случае высчитывается синус угла, получаемого как скалярное произведение двух векторов. В соответствии со значением меры близости происходит ранжирование документов при выдаче на них ссылок. Вообще скалярное произведение не очень хорошо подходит для ИПС Internet, так как длина запроса обычно невелика. Это только в традиционных системах существовали специальные службы, отлаживающие длинные запросы, а в Internet такие службы пока еще только нарождаются. Поэтому реально применяются другие меры близости, но принцип остается тот же: сначала вычисляется мера, а потом происходит ранжирование.

^ Поиск в нечетких множествах

При данном типе поиска весь массив документов описывается как набор нечетких множеств терминов. Каждый термин определяет некую монотонную функцию принадлежности к документам данного массива. Когда запрашивается AND, то это понимается как минимум из двух функций, соответствующих терминам запросов: OR - как максимум, NOT - как 1-<значение функции>. В соответствии с полученными значениями результат поиска также ранжируется, как и в случае с поиском по мерам близости. Этот метод поиска используется только в исследовательских системах, его распространение крайне ограничено.

^ Пороговые модели

Как уже было сказано, на конечном этапе поиска выборка найденных документов ранжируется, однако совершенно очевидно, что меры близости или поиск в нечетких множествах приводит к ранжированию всего массива документов в базе данных. Современные ИПС Internet имеют базы данных, состоящие только из индексов и занимающие терабайты. Ранжировать такие массивы целиком - безумная затея. Поэтому применяются пороговые модели, задающие пороговые значения для документов, выдаваемых пользователю.

^ Кластерная и вероятностная модели

В кластерной модели может использоваться два подхода. Первый заключается в том, что массив заранее разбивается на подмножества документов и при поиске вычисляется близость к некоторому подмножеству. В другом подходе кластер "накручивается" вокруг запроса и ближайших к нему терминов. Наиболее часто эта модель применяется в системах, уточняющих запрос по релевантности найденных документов.

При вероятностной модели вычисляется вероятность принадлежности документа классу релевантных запросу документов. При этом используется вероятность принадлежности терминов запроса каждому из документов базы данных.

^ Коррекция запроса по релевантности

Многие ИПС применяют механизм коррекции запроса по релевантности, означающий, что процедура поиска носит интерактивный и итеративный характер. После проведения первичного поиска пользователь отмечает релевантные запросу документы из всего списка найденных. На следующей итерации система расширяет или уточняет запрос пользователя терминами из отмеченных документов и снова выполняет поиск. Так продолжается до тех пор, пока пользователь не сочтет, что лучшего результата, чем есть, добиться уже не удастся. Коррекция запроса по релевантности - это довольно широко применяемый способ уточнения запросов. В некоторых системах, например в OpenText, пользователь может и не знать об этой процедуре. В этом случае несколько итераций выполняется автоматически.


^ Информационно-поисковые языки Internet

Классификацию ИПС проведем на примере наиболее популярных и типичных систем, использующихся в Сети.

Lycos. Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной. По состоянию на апрель 1996 года, в Lycos не был реализован булевый поиск, но такие планы анонсированы. Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа "Like this", но намечается его расширение и на другие способы организации поисковых предписаний.

AltaVista. Наиболее интересная возможность AltaVista - это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

Yahoo. Данная система появилась в сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. На мой взгляд, это самая незатейливая информационная служба, которая сосредоточилась на информации о Web, как таковой. ИПЯ Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR. При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

OpenText. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

Infoseek. Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, и "-" - термин должен отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.

WAIS. WAIS является одной из наиболее изощренных поисковых систем Internet. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин ИПЯ, системы позволяют строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet.


^ О методике создания правового информационно-поискового языка дескрипторного типа

Необходимость создания информационно-поисковой системы (ИПС) нормативно-правового материала не вызывает сомнений. Актуальность машинного поиска правовой информации особенно возросла в связи с развертыванием в нашей стране работ по созданию автоматизирован­ных систем управления (АСУ), причем значительную часть информаци­онного обеспечения составляет законодательный материал. Создание ИПС законодательства, помимо прочих преимуществ, о которых уже говорилось в советской юридической литературе,позволит сократить расходы на проектирование производственных, отраслевых и территори­альных АСУ, а также создаст предпосылки, по крайней мере в области кодирования и машинной обработки правовой информации, для их по­следующей стыковки в единую общегосударственную систему.

Процесс поиска информации условно можно разбить на два этапа. Первый начинается с поступления запроса и заканчивается выдачей адреса документа, например номера статьи и названия акта, в котором она находится. Здесь решаются задачи Юридической семантики. Второй этап начинается с поступления адреса требуемого документа и закан­чивается его выдачей. Решаемые при этом задачи к семантике отноше­ния не имеют и целиком относятся к сфере техники.

Как в специальной, так и в юридической литературе системы, обес­печивающие каждый этап раздельно, и системы, обеспечивающие оба этапа вместе, зачастую называются одинаково — информационно-поис­ковыми. Между тем один и тот же термин употребляется для обозначе­ния разных систем.

Первый этап определяется методом, положенным в основу органи­зации информационного поиска, или, иными словами, языком, в терми­нах которого осуществляется индексация документов; критерием соот­ветствия найденного документа искомому и алгоритмом поиска адреса — программой реализации критерия соответствия. Это информационно-поисковая система в абстрактном виде, под которой понимается сово­купность информационно-поискового языка (ИПЯ) с правилами пере­вода с естественного языка на ИПЯ и наоборот, а также критерия смыслового соответствия между поисковыми образами правовых актов и по­исковыми предписаниями.

В настоящее время для целей информационного поиска использу­ются четыре основных типа информационно-поискового языка: библиотечно-библиографических классификаций, алфавитно-предметной клас­сификации, дескрипторные языки и смешанные языки, объединяющие положительные стороны классификационных и дескрипторных ИПЯ. Не­обходимость многоаспектного поиска правовых актов, т. е. поиска по любому, заранее не заданному сочетанию признаков, требует использо­вания метода координатного индексирования и основанного на нем деск­рипторного ИПЯ.

Но для того чтобы метод координатного индексирования был эф­фективен, нужно обеспечить единообразное индексирование одинаковых по содержанию документов и информационных запросов, т. е. необходи­мо устранить такие явления естественного языка, как синонимия, омо­нимия и полисемия. Осуществить это можно лишь путем установления контроля за употреблением слов и словосочетаний естественного языка, выступающих в качестве ключевых. Такой контроль обеспечивается со­ставлением специального юридического словаря-справочника. Специфика его в том, что ключевые слова в нем сгруппированы в классы экви­валентности, т. е. группы, обозначающие близкие сто смыслу понятия. Из каждой такой группы выбирается одно слово или словосочетание (нор­мативное слово), которым я обозначается вся группа. Такое норматив­ное слово принято называть дескриптором, а словарь дескрипторов по­лучил название тезауруса (от греческого thesaurus — сокровищница, кладовая, клад).

Структура тезауруса сочетает признаки классификационных схем и перечней предметных рубрик. Термины его должны располагаться в алфавитном порядке, отражая в то же время иерархические отношения между терминами посредством указания более широких — родовых и более узких — видовых, синонимичных или связанных по значению тер­минов.

Необходимость в таком словаре возникает вследствие наличия множе­ства слов с неточно определенным объемом значения, что отрицательно сказывается на результатах индексирования и поиска. Правовой те­заурус должен быть единым в масштабах страны или по крайней мере союзной республики с тем, чтобы была возможность последующей сты­ковки разрабатываемых в настоящее время отраслевых ИПС в области права. Перед нормированным перечнем терминов не стоит задача стан­дартизации терминологии, он должен лишь устранить встречающиеся в практике терминологические расхождения применительно к разработке и функционированию информационно-поисковой системы.

Точность и определенность юридического языка, отсутствие (за достаточно редким исключением) расплывчатых, двусмысленных и мно­гозначных терминов значительно облегчают задачу создания правового тезауруса. Последнее, однако, не означает, что в юридический инфор­мационно-поисковый язык нет необходимости вводить искусственные средства для отражения связей между понятиями.

Перед составителями тезауруса стоит сложная задача — произве­сти отбор терминов, сгруппировать их в классы и увязать между собой сложные иерархические деревья с тем, чтобы тезаурус обеспечивал удовлетворительную полноту и точность поиска.

Сбор терминов осуществляется путем детального свободного индек­сирования поискового массива (в машем случае нормативно-правовых актов, составляющих тот или иной институт права).

При индексировании актов, когда создаются их поисковые образы, выписываются существительные, отчасти прилагательные, преобразован­ные по мере возможности в существительные; глаголы, преобразован­ные в отглагольные существительные, причем все слова выписываются в единственном числе. Возьмем, например, текст п. 9 Положения о по­рядке назначения и выплаты государственных пенсий, утвержденного постановлением Совета Министров СССР от 3 августа 1972 г. № 590: «Граждане, имеющие право на государственную пенсию, могут обра­щаться за назначением пенсии в любое время после возникновения пра­ва на пенсию, без ограничения каким-либо сроком» и проанализируем его. Из этого текста выписываются термины и наиболее устойчивые сло­восочетания, принятые в индексируемом институте права: гражданин, право, пенсия, обращение, назначение, время, возникновение права, огра­ничение, срок. Далее выберем ключевые слова с помощью которых под­черкивается основной смысл документа, а также отражающие место на­хождения и характер документа (пункт, параграф, статья, раздел, на­звание акта, его номер, число, месяц и год издания). Столь значительная глубина индексирования вызывается многоаспектностью запросов и необходимостью наиболее полного отражения смыслового содержания текста.

В каждом документе неупорядоченное множество ключевых слов со­единяется с помощью указателей связи и указателей роли. Указателями связи соединяются все ключевые слова.

На каждое ключевое слово может быть заведена унитерм-карта М. Таубе, имеющая формат библиографической карточки, на которой записывается унитерм, т. е. слово, термин, характеризующий или обо­значающий какое-то понятие и все номера документов (по поисковому массиву), в поисковый образ которых входит этот унитерм. Карточка разбивается на 10 колонок, в первую записываются последовательно номера документов, оканчивающихся на нуль, во вторую — на единицу и т. д. Такие унитерм-карты составляют поисковый массив документов. Предположим, что в данном фонде необходимо найти все документы по предоставлению жилых помещений. В алфавитной картотеке унитермов находим три карточки с терминами «предоставление», «помеще­ние», «жилое», сравниваем их и находим одинаковые номера.

Унитерм-карты необходимы как для обработки ключевых слов, объединения их в классы условной эквивалентности и выявления деск­рипторов, так и для последующего проведения экспериментального по­иска.

На основе заиндексированных документов мы получаем набор тер­минов, из которых составлен алфавитный список ключевых слов. Допол­нительные ключевые слова выбираются из словарей, монографий, учеб­ников и других видов юридической литературы. При выборе терминов из этих источников учитываются значимость слов, их полезность при поиске, частота употребления,   а также необходимая глубина   поиска и неопределенность некоторых терминов.

Однако подобная глубина индексирования текстов вовсе не означает, что правовой тезаурус должен включать в себя чуть ли не весь словарный запас естественного языка. Создание такого тезауруса неце­лесообразно, ибо даже при фактографическом поиске получаемая рас­печатка текста документа, составленная в отобранных нами ключевых словах, не будет официальным текстом и пользоваться ею в правопри­менительной практике нельзя. Создаваемые же сейчас (и, по-видимому, в будущем) ИПС законодательства рассчитаны на адресный поиск, т. е. поиск исходных данных документа. В данном же случае тезаурус требу­ется для создания поискового образа того или иного законодательного акта.

Для облегчения выделения дескрипторов массив в виде списка клю­чевых слов разбивается на тематические поля. В массиве по льготному пенсионному обеспечению выделены, например, следующие группы или семантические классы: 1) отрасль промышленности, 2) производство, 3) предприятие. 4) цех, 5) участок, 6) профессия, 7) выходные данные документов.

Дескрипторный язык состоит из нормативных ключевых слов, у ко­торых искусственно, при помощи соответствующих ссылок и знаков устранены синонимия, омонимия, полисемия. Необходимость подобных искусственных преобразований вызвана тем, что вышеперечисленные особенности естественного языка, хотя и сокращенные, но не устранен­ные полностью в юридическом языке, не позволяют решить задачу одно­значного описания смыслового содержания документов, особенно в по­исковых предписаниях.

Устранение синонимии может проходить следующим образом. Пос­ле группировки слов, условно считаемых синонимами, выбирается сло­во (семантическая доминанта), которым обозначается вся группа слов. Выбранный на основе частотности употребления и значимости в иссле­дуемой группе ключевых слов данный термин становится дескрипто­ром. Каждый синоним на улитерм-карте, а впоследствии и в алфавит­ном списке ключевых слов, связывается с соответствующим дескрипто­ром с помощью знака «син». Подчас ключевое слово может фигуриро­вать в качестве частичного синонима, тогда оно должно быть связано с несколькими дескрипторами. Каждый дескриптор при помощи обрат­ных отсылок (помета «см.»), соединяется на унитерм-картах или в лексико-семантическом указателе со всеми его синонимами. В словар­ной статье лексико-семантического указателя эта система отсылок мо­жет иметь следующий вид:

Хищение — см. кража (син.)

                    см. грабеж (син.)

                      см. разбой (син.)

                      см. присвоение (син.)

                      см. растрата (син.)

                      см. злоупотребление служебным положением (син.)

                      см. мошенничество (син.)

В алфавитном списке ключевых слов синоним не подчеркивается (в отличие от дескриптора) и справа от него всегда находится деск­риптор (без знаков), к которому он относится.

Устранение омонимии производится с помощью специальных лек­сикографических средств. Все омонимы должны сопровождаться спе­цифическими словарными знаками, предотвращающими совпадение пер­вых. Например:

акт — документ

акт — действие

следствие — юридическое действие

следствие — результат

лицо — часть тела

лицо — субъект права

спекуляция — правонарушение

спекуляция — метод познания

В дескрипторном словаре при кодировании омонимы должны полу­чать разные коды.

Омонимия — явление достаточно редкое в юридическом языке, и ее устранение не представляет трудности, по крайней мере с точки зре­ния затрат времени.

Полисемия — это перенос названия одного явления на другие, имею­щие с ним какие-либо общие признаки или свойства. Ликвидация ее в поисковом языке происходит так же, как и устранение омонимов. На­пример:

государство — аппарат

государство — страна

государство — субъект права.

Все три значения слова должны быть закодированы различными кодами.

После устранения синонимии, омонимии и полисемии между деск­рипторами устанавливаются парадигматические отношения, при выявле­нии которых может быть использовано сочетание лексикографического и аналитического приемов. В тезаурусе должны быть зафиксированы по меньшей мере следующие связи:

род — вид

отрицание

функциональная связь

подчиненность

ассоциативная связь

Ввиду того, что первоначально с тезаурусом имеет дело индекса­тор, для наглядности родовидовые отношения могут быть выражены с помощью помет: «р. д.» — родовой дескриптор, «в. д.» — видовой де­скриптор.

В то же время, поскольку ИПС реализуется на вычислительной ма­шине, список дескрипторов должен быть представлен одновременно и в виде кодовой книги с аналитическим выражением парадигматических отношений между дескрипторами, которые предназначены для преобра­зования поисковых документов и поисковых предписаний в форму, удоб­ную для ввода в машину.

Родовидовые отношения устанавливаются внутри каждой группы дескрипторов с помощью черновых классификационных деревьев. Чис­ло иерархических уровней в родовидовых деревьях дескрипторов мо­жет быть жестко установленным, однако в подобном случае задача получения дополнительной информации из соответствующего массива бу­дет затруднена. Поэтому в зависимости от ситуации в иерархическое дерево следует включить все дескрипторы, которые соединяются базис­ными отношениями.

В некоторых случаях может встретиться ситуация, когда часть дескриптеров иерархического дерева входит в состав двух и более деревь­ев. В таком случае от общего дескриптора пунктиром строится восходя­щая от него иерархия ко второму, заглавному для него дескриптору. Это делается для того, чтобы документы, содержание которых выраже­но данным общим дескриптором, выпадали при поиске по запросам, со­держащим любой из заглавных для него дескрипторов.

Помимо родо-видовых в тезаурусе указываются также связи под­чинения, отрицания, функциональные, а иногда и ассоциативные, цель этих связей — увеличить полноту выдачи информации благодаря перекрестным связям.

По структуре тезаурус состоит из трех частей: алфавитного списка ключевых слов (словника), лексико-семантического указателя дескрип­торов и набора схем с иерархическими деревьями.

Словник представляет собой словарь всех ключевых слов (вклю­чая и дескрипторы), которые приводятся в общем алфавитном списке в левой части страницы. Все ключевые слова даны в единственном числе. Дескрипторы в списке подчеркнуты, остальные ключевые слова — Нет. На том же уровне, справа от ключевых слов, приводятся дескрипторы, к которым относятся синонимы или соответствующие им видовые де­скрипторы, расположенные слева.

Лексико-семантический указатель — это список словарных слов (кодов). Все заглавные дескрипторы нумеруются в определенной систе­ме счисления, и эти собственные номера выделяются красным. Под эти­ми номерами перечисляются коды всех вышестоящих дескрипторов со ссылкой «см.». Если дескриптор имеет иные связи с каким-либо дру­гим дескриптором, то код последнего приводится с пометой «см. так­же». На одном уровне с дескриптором, справа от него, располагают си­нонимы (без помет), видовые, родовые, функциональные, отрицающие, подчиняющие и ассоциативные дескрипторы с соответствующими поме­тами.

Создание правового информационно-поискового языка дескрипторного типа вышеприведенным способом, с грамматикой и указателями связи — задача трудоемкая.[12] Облегчить ее можно, только отказавшись от грамматики, однако в этом случае, судя по тезаурусам, созданным в других областях знания, значительно снижается точность (до 30%) и повышается в 3—4 раза уровень шума при поиске. Шум вызывается главным образом появлением ложных комбинаций дескрипторов, что неизбежно при поиске без грамматики, и ошибками при обработке за­просов, вызванными преимущественно тем же фактором.

Поскольку достоверность правовой информации в АСУ может су­щественно повлиять на качество и оптимальность принимаемых реше­ний, более целесообразно разрабатывать ИПЯ, обеспечивающие макси­мально возможную полноту и точность поиска, нежели корректировать решения, принятые в условиях недостоверной юридической информа­ции




Скачать 300,74 Kb.
оставить комментарий
Дата27.10.2011
Размер300,74 Kb.
ТипКурсовая, Образовательные материалы
Добавить документ в свой блог или на сайт

Ваша оценка этого документа будет первой.
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Документы

наверх