Я. А. Ваграменко Редакционный совет icon

Я. А. Ваграменко Редакционный совет


Смотрите также:
Я. А. Ваграменко Редакционный совет...
Я. А. Ваграменко Редакционный совет...
Я. А. Ваграменко Редакционный совет...
Я. А. Ваграменко Редакционный совет...
Я. А. Ваграменко Редакционный совет...
Я. А. Ваграменко Редакционный совет...
Я. А. Ваграменко Редакционный совет...
Я. А. Ваграменко Редакционный совет...
Я. А. Ваграменко Редакционный совет...
Я. А. Ваграменко Редакционный совет...
Я. А. Ваграменко Редакционный совет...
Я. А. Ваграменко Редакционный совет...



Загрузка...
страницы: 1   2   3   4   5   6   7
вернуться в начало
скачать
^

Розина И.Н., Соколова О.И.

Ростовский государственный педагогический университет

ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТ

НА ОСНОВЕ АВТОМАТИЗИРОВАННЫХ

^ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ


Современное общество характеризуется возрастающей ролью знаний и информации, как самостоятельного вида общественных ресурсов, наряду с материальными, интеллектуальными, трудовыми и прочими ресурсами. Резкое повышение роли информационных ресурсов требует соответствующего им становления информационной компетентности большинства членов общества.

Информационные системы (в широком смысле слова) включают в себя следующие компоненты: программно-техническое обеспечение, базы данных, процедуры и пользователей. Одним из видов информационных систем, используемых в сетях различных масштабов, являются автоматизированные информационно-поисковые системы (АИПС). Под АИПС интерфейса глобальных сетей будем понимать информационные системы, предназначенные для ввода, обработки, хранения и поиска электронной информации в информационных массивах Интернет. Процесс функционирования АИПС включает следующие этапы:

  • формирование информационной базы данных (индексированные или неиндексированные тексты) или поискового массива,

  • поиск информации по запросу пользователя (поисковому предписанию), т.е. выделение из поискового массива тех документов, содержание которых соответствует поисковому предписанию,

  • выдача (представление) результата поиска - процесс выражаемый фразой «все или ничего», т.к. частичное соответствие запросу в АИПС не поддерживается,

  • корректировка, уточнение поискового предписания запроса, выполняемые в случае неудовлетворенности пользователя полученными результатами поиска.

Каждая АИПС характеризуется используемым поисковым механизмом, который включает математический аппарат формализованного представления и поиска информации, методы и средства структурирования информационных запросов, критерии выдачи (смыслового соответствия) информации, стратегии поиска и организации массивов. Эффективное функционирование поискового механизма АИПС в Интернет (формирование информационных массивов, поиск и получение релевантной информации, т.е. соответствующей поисковому запросу) связан со многими специфичными для Интернет проблемами (см., например, [Талантов, 1999]). Рассмотрим некоторые из них.

  • ^ Объем электронной информации. Миллионы людей во всем мире используют глобальную общедоступную компьютерную сеть и ее электронные информационные ресурсы (около 100 млн. по данным на 1998 г.). Согласно некоторым предположениям, Интернет вскоре будет доступен для более 200 млн. пользователей, которые как используют, так и создают свои информационные ресурсы. Для сравнения, телевидению для удвоения своей аудитории потребовалось около 15 лет.

  • ^ Наполнение и пользовательский интерфейс Интернет. Влияние Интернет распространяется на большинство сфер человеческой деятельности, включая общение (коммуникацию), получение и распространение информации, обучение, поддержание уровня профессиональных знаний, бизнес, коммерцию и пр. Интерактивность Интернет делает его перспективным средством осуществления многих видов деятельности. Так, по предсказаниям специалистов Интернет имеет потенциальные возможности для объединения с другими, более ранними средствами массовой информации и коммуникаци. Исходя из этого, большинство современных информационных систем интегрируются с Интернет-технологиями. Результатом интеграции является соответствующее информационное наполнение, например, обилие рекламы, и развитие интуитивно понятного пользовательского интерфейса Интернет для широкого круга пользователей.

  • ^ Оформление информационных ресурсов. Как известно, в Интернет не существует единого органа управления, множество организаций ответственны за различные аспекты работы сети. Например, World Wide Web Consortium (W3C) выпускает стандарты, относящиеся ко всем аспектам Web. Эта и подобные организации, выпускающие стандарты и рекомендации (Request for Comments – RFC), не принуждают следовать им, тем не менее их придерживаются при разработке сетевых программных и аппаратных средств, чего не скажешь об оформлении сетевых информационных ресурсов. В Интернет не существует общих правил или стандартов, определяющих использование общих форматов и средств навигации для оформления электронных публикаций как, например, в печатных научных или учебных изданиях. Несмотря на это в США и других зарубежных странах разрешена ссылка на электронную публикацию в печатных изданиях и разработаны правила оформления библиографических ссылок на электронные источники информации. Наиболее распространенными являются: руководство APA (American Psychological Association) - в социальных науках и руководство MLA (Modern Language Association) - в гуманитарных науках.

Для понимания возможностей и различий АИПС, функционирующих в Интернет, рассмотрим существующие типы, классифицированные по критериям формирования информационной базы данных (организация сбора и обработки информации), в дальнейшем обновляемой и поддерживаемой для использования в Интернет. На сегодняшний день различают три типа АИПС – тематические каталоги, автоматические индексы и специализированные поисковые инструменты (см., например [Байков, 2000].

  • Тематические (предметные) каталоги или рубрикаторы (Subject Guides, Web directory) предварительно исследуют, описывают, каталогизируют и группируют содержимое WWW-серверов и других сетевых ресурсов Интернет. Результатом является постоянно обновляемый иерархический (древовидный) каталог, на верхнем уровне которого собраны самые общие категории, например, «бизнес», «образование», «наука», «искусство», «путешествия» и т.д. Элементы самого нижнего уровня представляют собой ссылки на отдельные Web-страницы и сервера с кратким описанием их содержимого. Особенностью этого типа АИПС является осмысленный отбор и каталогизация наиболее точно отражающей данную категорию информации, которые осуществляется человеком (специалистом). Это позволяет надеяться на репрезентативность (правильно отобранная и каталогизированная), точность, релевантность, полноту информации каждой или большинства категорий. Создание и поддержка этого типа АИПС требует огромных затрат. Предоставляемый предметными каталогами поиск по ключевым словам, осуществляется в кратких описаниях, хранящихся в каталоге. Таким образом, тематические каталоги являются АИПС интерфейса глобальных сетей, база данных которых описана, каталогизирована и сгруппирована по тематическим признакам человеком, включает краткие описания ресурса и его адрес в сети. Примерами тематических каталогов могут служить Yahoo!, Infomine, Virtual Library, Argus Clearinghouse, Galaxy, Look Smart, Net Guide, Snap!, Magellan, некоторые русскоязычные каталоги – Russia on the net, Rambler, Яndex, List, АУ, Stars, Search, Data, Ulitka и др.

  • ^ Автоматические индексы (чаще поисковые инструменты или системы, search engines) состоят из трех компонентов – программы-робота, базы данных и пользовательского поискового интерфейса. Программы-роботы осуществляют сбор статистической информации и построение словоуказателей, или индексов, по текстам документов. Собираемая роботами база данных (индекс) хранит в себе сведения об электронных документах, содержащих те или иные слова. Так, индекс системы Alta Vista содержит 11 миллиардов слов, извлеченных из 30 миллионов Web-страниц. Для использования поискового инструмента необходимо ввести одно или несколько слов, описывающих предмет поиска, но лучше в поисковом предписании использовать 4-5 слов. Причиной неудовлетворительных результатов поиска может являться неоднозначность большинства слов - синонимия и омонимия. Примерами индексов могут служить Google, Hot Bot, GoTo.com, Excite, InfoSeek, Lycos, Northernlight, Topping, из русскоязычных – Апорт, Tela. Но и Alta Vista позволяет провести поиск среди русскоязычной серверов с различной кодировкой (результаты зависят от используемых для ввода кодировок). Некоторые системы претендуют на индексирование по крайней мере 1/3 всех существующих в мире страниц (например, Alta Vista – 28%, Hot Bot – 34%).

  • ^ Специализированные поисковые инструменты (specialized search engines) осуществляют поиск по тематически специализированным объемным базам данных на WWW, поиск по которым обычно не поддерживается автоматическими индексами, например, по базам имен и адресов, цитатам, газетным статьям, по информации для трудоустройства и подбора кадров и пр. Созданы специализированные сайты для поиска географических карт, информации в области культуры, прогноза погоды, текстов песен, видео продукции, здоровья, бизнес-партнеров и пр. Так, Infomine является базой данных по различным видам искусства, InformationPlease содержит полнотекстовую энциклопедическую информацию. Таким образом, специализированные поисковые инструменты (specialized search engines) представляют собой АИПС интерфейса глобальных сетей, неиндексированные базы данных которых объединены единой тематикой.

  • ^ Интеграция АИПС. Следует отметить, что АИПС интерфейса глобальных сетей быстро развиваются и совершенствуются. В последнее время заметна тенденция к объединению, интеграции разных типов АИПС. Так, Excite, InfoSeek, HotBot включают два типа АИПС, тематические каталоги Yahoo!, LookSmart поддерживают поиск в E-mail directories адреса человека по его имени. Так называемые порталы (Yahoo!, Snap! Атрус, Rambler) размещают на стартовых Web-страницах разнообразные ссылки общего информационно-развлекательного характера - новости, прогноз погоды, фондовые сводки и спортивные результаты, интегрируют другие ресурсы и сервисы (бесплатные почтовые ящики, Web-страницы, подписка на форумы и пр.) дополнительно к структурированным тематическим каталогам.

Хотя на сегодняшний день поисковые механизмы АИПС интерфейса глобальных сетей далеки от совершенства, знание пользователями особенностей программной реализации их математического аппарата (алгоритмы, методы и средства структурирования информационных запросов, критерии выдачи информации, стратегия поиска и организации массивов) позволяет повысить эффективность поиска релевантной информации в Интернет. Сложность освоения стратегии поиска электронной информации связана с тем, что АИПС используют различные поисковые алгоритмы, методы и средства и поддерживают различные наборы поисковых операторов, символов или слов. Однако наметившееся в последнее время стремление к стандартизации интерфейса АИПС различных типов как, например, поддержка All-in-One, LocalFind.com, Search, Dogpile, Baldey, BigHub и др. метапоиска (переадресации заданного условия поиска в другие АИПС), внушает надежду на решение этой проблемы в ближайшем будущем.

  • ^ Поисковые операторы, символы и правила АИПС. Используя некоторые стандартные и нестандартные приемы (методы, технологии, правила) для составления поисковых запросов на информацию, можно повысить точность поиска в АИПС. Поиск релевантной информации предполагает сравнение смыслового содержания запроса со смысловым содержанием хранящихся в базах данных АИПС документов. Cложность составления запроса, как было отмечено, связана с многозначностью смыслового содержания документов и запросов, а также с тем, что большинство АИПС используют свой собственный уникальный набор поисковых операторов, символов и слов, правил запроса. Наблюдающаяся тенденция к стандартизации означает, что некоторые или большинство из АИПС будут поддерживать уже существующие приемы, как, например, имеющийся язык запросов в поисковых системах Rambler и Яndex (логические связки, группы, словоформы, усечение слов и пр.). Так, Alta Vista поддерживает два приема запросов – простой (Simple Search) и усложненный (Advanced Search) на основе бланков, а также дополнительную возможность исследования статистики употребления и/или написания тех или иных слов (word count). Yahoo! включает доступ к двум методам работы с каталогом – поиск по ключевым словам и иерархическому дереву категорий. Кроме того, в конце каждой страницы с результатами поиска содержатся ссылки на другие АИПС, для которых вписываются использованные ключевые слова (матапоиск).

Рассмотрим некоторые из наиболее распространенных операторов и символов, поддерживаемых АИПС для запроса информации на WWW. Кроме рассматриваемых здесь, АИПС может поддерживать и другие операторы, например, ADJ, NAND, XOR и пр. Обычно на стартовой странице АИПС есть ссылка на документ, описывающий возможности расширенного (интеллектуального) поиска на основе всех поддерживаемых системой операторов, например, «Апорт изнутри», «Расширенный поиск», «Помощь» в Rambler, ссылка на поисковые системы для тематического каталога Яndex. Поиск информации на других системах, например, в Usenet, FTP, Archie, имеет свои особенности, которые здесь не рассматриваются.

^ Операторы включения и исключения. Большинство АИПС поддерживают оба оператора. Оператор включения (знак “+”) обозначает, что в результаты поиска необходимо включить Web-страницы, содержащие все перечисленные слова, что позволит сузить поиск до страниц, имеющих общий набор искомых слов-компонентов. Подобный эффект достигается при использовании оператора исключения, который чаще всего обозначается знаком “-“.

Следует отметить, что запись слов и всех их вхождений в запросе без знака «+» действует точно также, ка и она же со знаком в ^ Yahoo!, в Alta Vista идет поиск вхождения только целых слов.

Многие АИПС поддерживают использование специального символа усечения (wildcard character) – чаще всего символ звездочки «*», который традиционно обозначает неопределенность, усечение термина для поиска всех терминов или фраз, которые начинаются с одного определенного набора букв, например, с другим окончанием. Чаще всего этот символ подразумевает любое количество букв и может стоять только в конце слова (правостороннее усечение).

Надо иметь ввиду, что, могут быть модификации этого приема, например, ^ Alta Vista требует, чтобы слово, оканчивающееся на символ *, состояло не менее чем из трех букв, а символ * обозначал не более пяти символов. Имея в виду большую изменчивость русских слов, при оформлении запроса имеет смысл заменить последние несколько букв практически каждого слова на символ *. Так, поисковые механизмы некоторых АИПС уже включают эту возможность при формировании поискового предписания. Например, в Rambler поиск ведется с учетом морфологии, в Яndex - словосочетаний, синтаксических связей русского языка на основе сверки с собственным словарным сервером, в Magellan – с учетом идеи, близко связанной со словами запроса.

Поиск по фразе. Повышения результативности поиска можно достичь за счет включения поиска по фразе, которая заключается в кавычки. Введение кавычек в поисковую строку означает команду выведения списка документов, содержащих только данную фразу, а не отдельные слова или все слова фразы.

  • ^ Булевы логические операторы. Некоторые АИПС в усложненном запросе поддерживают использование булевых (логических) операторов – AND, OR и NOT, которые являются эквивалентом операторов включения, пересечения и исключения. Некоторые АИПС поддерживают оператор близости NEAR (или символ ~), который определяет нахождение в тексте двух слов близко друг от друга (от смежных до разделенных некоторым количеством слов, чаще в пределах 10 слов). Обычно поиск по оператору близости используется для координирования поиска при уточнении поискового предписания запроса.

Следует отметить, что операторы обладают разным приоритетом. В любом выражении сначала выполняются оператор NEAR, затем NOT, затем AND и, наконец, OR. Чтобы изменить порядок операторов, используются выражения с круглыми скобками.

  • ^ Булевы выражения (логические группы). Многие АИПС, которые поддерживают булевы операторы, позволяют использовать скобки для задания булева выражения подобно выполнению арифметических операций со скобками.

Следует отметить, что если несмотря на использованные приемы поиска результатом является большой список ссылок, то уменьшение их количества возможно при повторном уточненном, скорректированном поиске среди найденных страниц, если АИПС поддерживает выполнение данной процедуры.

После того, как информация найдена, она представляется в виде списка ссылок на документы, которые некоторыми АИПС сортируются по определенному критерию. Так, в Alta Vista степень важности определяется по нижеследующим формальным факторам:

  • входят ли ключевые слова в заголовок документа;

  • содержатся ли эти слова в первых нескольких строках документа;

  • насколько близко друг к другу в тексте обнаружены ключевые слова.

Предъявляемая пользователю страница с результатами демонстрирует эффективность поиска, количественно характеризуя результат обработанного запроса и поисковый механизм, заложенный в АИПС. Тем не менее, формальный подход сортировки, реализованный на программном уровне в большинстве АИПС, зачастую не приводит к искомому результату получения качественной электронной информации. Это обстоятельство вынуждает пользователей знать и применять другие, неформальные критерии для оценки важности и качества найденной электронной информации, например, авторство, стиль изложения, аккуратность, актуальность и пр.

Используемые в данной статье ссылки на различные типы АИПС интерфейса глобальных сетей размещены на Web-странице [Поиск в Интернет, 2001]» Web-сайта РГПУ, которая используется в качестве учебного пособия по данному курсу.




Скачать 1,29 Mb.
оставить комментарий
страница5/7
Дата30.09.2011
Размер1,29 Mb.
ТипНаучно-методический журнал, Образовательные материалы
Добавить документ в свой блог или на сайт

страницы: 1   2   3   4   5   6   7
Ваша оценка этого документа будет первой.
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Загрузка...
Документы

наверх