В. В. Лидовский Информация о курсе icon

В. В. Лидовский Информация о курсе


3 чел. помогло.
Смотрите также:
А. Общая информация о курсе...
1. негативная, критическая или проблемная информация о деятельности мчс РФ...
План: Общая информация о курсе Цели и задачи курса...
Курс «Теория эволюции» в блоке предметной подготовки занимает центральное место и является...
Курс дизайн проектирование интерьера и экстерьера. Общее количество акад часов : 450-700...
Курс дизайн проектирование интерьера и экстерьера. Общее количество акад часов : 450-700...
Указания по выполнению контрольных работ...
Программа лекций...
Положение о курсовых и выпускных квалификационных работах на программе бакалавров экономического...
Учебно-методический комплекс учебной дисциплины «преступления в сфере экономической...
Учебно-методический комплекс учебной дисциплины «преступления в сфере экономической...
Руководство по подбору персонала на постоянную работу...



Загрузка...
страницы: 1   2   3   4   5   6   7   8   9   ...   13
вернуться в начало
скачать
^

Семантическая информация


В 50-х годах XX века появились первые попытки определения абсолютного информационного содержания предложений естественного языка. Стоит отметить, что сам Шеннон однажды заметил, что смысл сообщений не имеет никакого отношения к его теории информации, целиком построенной на положениях теории вероятностей. Но его способ точного измерения информации наводил на мысль о возможности существования способов точного измерения информации более общего вида, например, информации из предложений естественного языка. Примером одной из таких мер является функция , где - это предложение, смысловое содержание которого измеряется, - вероятность истинности . Вот некоторые свойства этой функции-меры:

  1. если (из следует ) - истинно, то ;

  2. ;

  3. если - истинно, то ;

  4. , т.е. независимости и .

Значение этой функция-меры больше для предложений, исключающих большее количество возможностей. Пример: из - "" и - "" следует, что или ; ясно, что исключает больше возможностей, чем .

Для измерения семантической информации также используется функция-мера . Ясно, что или .

Упражнение 17 Вычислить и предложения , про которое известно, что оно достоверно на 50%, и предложения , достоверность которого 25%.

4. Лекция: Сжатие информации

Сжатие информации – важнейший аспект передачи данных, что дает возможность более оперативно передавать данные. Доказывается основная теорема о кодировании при отсутствии помех. Также в лекции рассматривается метод блокирования, который используется на практике для повышения степени сжатия. Дается также математическое обоснование метода Шеннона-Фэно. Некоторое количество примеров для проверки полученных знаний

Цель сжатия - уменьшение количества бит, необходимых для хранения или передачи заданной информации, что дает возможность передавать сообщения более быстро и хранить более экономно и оперативно (последнее означает, что операция извлечения данной информации с устройства ее хранения будет проходить быстрее, что возможно, если скорость распаковки данных выше скорости считывания данных с носителя информации). Сжатие позволяет, например, записать больше информации на дискету, "увеличить" размер жесткого диска, ускорить работу с модемом и т.д. При работе с компьютерами широко используются программы-архиваторы данных формата ZIP, GZ, ARJ и других. Методы сжатия информации были разработаны как математическая теория, которая долгое время (до первой половины 80-х годов), мало использовалась в компьютерах на практике.

Сжатие данных не может быть большим некоторого теоретические предела. Для формального определения этого предела рассматриваем любое информационное сообщение длины как последовательность независимых, одинаково распределенных д.с.в. или как выборки длины значений одной д.с.в. .

Доказано1) , что среднее количество бит, приходящихся на одно кодируемое значение д.с.в., не может быть меньшим, чем энтропия этой д.с.в., т.е. для любой д.с.в. и любого ее кода.

Кроме того, Доказано2) утверждение о том, что существует такое кодирование (Шеннона-Фэно, Fano), что .

Рассмотрим д.с.в. и , независимые и одинаково распределенные. и , следовательно,



Вместо и можно говорить о двумерной д.с.в. . Аналогичным образом для -мерной д.с.в. можно получить, что .

Пусть , где , т.е. - это количество бит кода на единицу сообщения . Тогда - это среднее количество бит кода на единицу сообщения при передаче бесконечного множества сообщений . Из для кода Шеннона-Фэно для следует для этого же кода.

Таким образом, доказана основная теорема о кодировании при отсутствии помех, а именно то, что с ростом длины сообщения, при кодировании методом Шеннона-Фэно всего сообщения целиком среднее количество бит на единицу сообщения будет сколь угодно мало отличаться от энтропии единицы сообщения. Подобное кодирование практически не реализуемо из-за того, что с ростом длины сообщения трудоемкость построения этого кода становится недопустимо большой. Кроме того, такое кодирование делает невозможным отправку сообщения по частям, что необходимо для непрерывных процессов передачи данных. Дополнительным недостатком этого способа кодирования является необходимость отправки или хранения собственно полученного кода вместе с его исходной длиной, что снижает эффект от сжатия. На практике для повышения степени сжатия используют метод блокирования.

По выбранному значению можно выбрать такое , что если разбить все сообщение на блоки длиной (всего будет блоков), то кодированием Шеннона-Фэно таких блоков, рассматриваемых как единицы сообщения, можно сделать среднее количество бит на единицу сообщения большим энтропии менее, чем на . Действительно, пусть , , и т.д., т.е. . Тогда и , следовательно,



т.е. достаточно брать . Минимум по заданному может быть гораздо меньшим .

Пример. Пусть д.с.в. независимы, одинаково распределены и могут принимать только два значения и при от 1 до . Тогда



Минимальное кодирование здесь - это коды 0 и 1 с длиной 1 бит каждый. При таком кодировании количество бит в среднем на единицу сообщения равно 1. Разобьем сообщение на блоки длины 2. Закон распределения вероятностей и кодирование для 2-мерной д.с.в. -



Тогда при таком минимальном кодировании количество бит в среднем на единицу сообщения будет уже



т.е. меньше, чем для неблочного кодирования. Для блоков длины 3 количество бит в среднем на единицу сообщения можно сделать , для блоков длины 4 - и т.д.

Все изложенное ранее подразумевало, что рассматриваемые д.с.в. кодируются только двумя значениями (обычно 0 и 1). Пусть д.с.в. кодируются значениями. Тогда для д.с.в. и любого ее кодирования верно, что и . Кроме того, существует кодирование такое, что и , где .

Формулы теоретических приделов уровня сжатия, рассмотренные ранее, задают предел для средней длины кода на единицу сообщений, передаваемых много раз, т.е. они ничего не говорят о нижней границе уровня сжатия, которая может достигаться на некоторых сообщениях и быть меньшей энтропии д.с.в., реализующей сообщение.




оставить комментарий
страница4/13
В.В. Лидовский
Дата02.10.2011
Размер1.17 Mb.
ТипУчебное пособие, Образовательные материалы
Добавить документ в свой блог или на сайт

страницы: 1   2   3   4   5   6   7   8   9   ...   13
хорошо
  1
отлично
  3
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Загрузка...
Документы

Рейтинг@Mail.ru
наверх