Дипломная работа студента 544 группы icon

Дипломная работа студента 544 группы


1 чел. помогло.
Смотрите также:
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 545 группы...



Загрузка...
страницы: 1   2   3   4   5   6   7
вернуться в начало
скачать
^

Описание программы


Модель была реализована в среде Matlab 7.0.1. Она является зависимой от диктора самообучающейся системой распознавания отдельных слов речи и оперирует со словарем, состоящим всего из четырех слов. Такое ограничение было вызвано желанием упростить модель и наглядно продемонстрировать возможности алгоритма, свойства которого позволяют распознавать гораздо большее количество слов.

Выбор распознаваемых слов вообще говоря важен. Чем они сильнее фонетически отличаются друг от друга, тем проще их распознавать. Для выбранной штрафной функции выполнение условия (2) означает, что расстояние между различными классами должно быть больше, чем максимальный среди всех классов радиус. Таким образом, желательно, чтобы центры классов находились на максимальном расстоянии друг от друга. По умолчанию система может распознавать слова «до», «ре», «ми» и «фа», являющиеся четырьмя допустимыми классами системы.

В качестве первоначальных центров классов можно выбрать любые четыре точки пространства . Но для обеспечения быстрой сходимости лучше взять точки более-менее близко расположенные к предполагаемым центрам классов. В качестве таких были взяты вектора свойств первых четырех разных слов из обучающей последовательности. Тогда возрастает вероятность того, что последовательность оценок центров классов будет удовлетворять условию (3) теоремы.

Для каждого класса было записано более ста семплов, которые формировали обучающую последовательность. Такое относительно большое количество необходимо для обеспечения лучшей сходимости алгоритма. Запись происходила с частотой дискретизации 8000 Гц и квантованием 16 бит (это соответствует битрейту в 128 kbps). В ходе обработки этих сигналов были применены оптимизации, связанные с особенностью записи микрофона. Эти оптимизации осуществлялись автоматически в процессе обучения системы.

Скорость сходимости алгоритма и сходимость его в целом на практике во многом определяется выбором последовательностей и , участвующих в работе алгоритма. Важную роль играет также пробное одновременное возмущение, в качестве которого (см. замечание (4) к теореме) не обязательно брать бернуллиевсие случайные величины. Главное, они должны быть конечны и симметрично распределены. Из эмпирических соображений в качестве последовательности {} была взята последовательность 3/n, а в качестве {} 1/. Значения координат векторов свойств в ходе моделирования находятся большей частью в диапазоне [-1,1]. По причине относительно небольшой скорости сходимости выбранных последовательностей {} и {}, бернуллиевские величины вносят очень большой вклад в формирование оценочной последовательности на начальных итерациях алгоритма, существенно отдаляя оценки от координат настоящих центров. Поэтому в качестве пробного одновременного возмущения были выбраны случайные величины.

Следует напомнить, что система восприимчива к внешним шумам, а также зависит от громкости и четкости произношения.

Изначально все поступающие сигналы обучающей системы, обработанные АЦП, сохраняются в многомерный массив. Запись производится с частотой дискретизации 8000 Гц. Поскольку каждое слово (так было выбрано изначально), состоит из одного слога, для его записи достаточно временного интервала в одну секунду. Таким образом первоначально имеем на каждый сигнал вектор размерности 8000. Многомерный массив формируется так, что количество строк соответственно равно частоте дискретизации, а количество столбцов равно количеству поступивших сигналов обучающей последовательности. Далее массив обрабатывается: все столбцы пропускаются через фильтр предварительного обрезания сигнала и используется технология получения кепстральных коэффициентов MFCC, но без использования мел-скейл фильтра.

Использование фильтра предварительного обрезания сигнала обусловлено особенностью работы записывающего устройства. Для записи каждого нового семпла его приходилось включать заново, что приводило к постороннему шуму в начале записи. На Рис.7. изображены два сигнала – до обработки и после. Как можно заметить, после обработки длина сигнала сократилась за счет удаления неинформативной части в начале.




a) Сигнал до обработки b) Сигнал после обработки

Рис.7: Работа фильтра предварительного обрезания сигнала.

В итоге размерность массива значительно уменьшается. На вход SPSA алгоритма поступает массив, размерность столбцов которого составляет 4000. Далее формируются координаты центров четырех классов. Эти центры являются шаблонами распознаваемых слов.

Интерфейс программы распознавания речи позволяет генерировать одно из заданных четырех слов, которое распознается системой в реальном времени. См. Рис.8. При этом подсвечивается тот класс, к которому было отнесено слово (WORD ONE, WORD TWO, WORD THREE, WORD FOUR).



Рис.8: Интерфейс программы распознавания отдельных слов речи.

Реализована возможность переопределения распознаваемых слов. Для этого необходимо задать новую обучающую последовательность, нажав кнопку “START TRAINING”. Включается пятисекундный таймер, высвечивается время в поле соответствующего класса. По истечении пяти секунд необходимо произнести слово. Эта процедура повторяется последовательно для каждого из четырех классов, пока не будет нажата кнопка “STOP TRAINING”. Таким образом формируется новая обучающая последовательность. Для того, чтобы прослушать слова, которые теперь может распознавать система, следует нажать “Play Samples”. Чтобы распознать какое-либо слово, вводимое с микрофона, необходимо нажать ”Recognize” и по истечении пятисекундного интервала времени произнести его. Соответствующий класс, к которому будет отнесено произнесенное слово, будет подсвечен красным цветом. Для распознавания слова, находящегося в банке уже записанных слов, нужно нажать одну из соответствующих клавиш нижнего ряда.

На Рис.9. показана статистика точности распознавания смоделированной системы. В качестве исследования система запускалась без предварительного обрезания той части сигнала, которая содержит посторонние шумы и не несет полезной информации. При этом также не производилось разбиение сигнала на сегменты. Применялась функция окна Хемминга, состоящая из 8000 точек. Размерности оперируемых векторов были равны 8000. Несмотря на то, что данные на вход алгоритма поступали практически «сырыми» (т.е. не осуществлялось выделения вектора свойств из сигнала), точность распознавания отдельных слов достигала 50-80%.




Без разбиения на сегменты и удаления неиформативной части, %

С разбиением на сегменты и удалением неинформативной части, %

С переопределением обучающей последовательности пользователем, %

Слово «ДО»

56

90

60

Слово «РЕ»

40

94

65

Слово «МИ»

80

98

80

Слово «ФА»

45

96

75


Рис.9: Статистика точности распознавания отдельных слов.

Статистику удалось заметно улучшить после того, как ,была произведена сегментация и была удалена неинформативная часть сигнала. Длина N каждого сегмента составляла 200 отсчетов, что соответствует временному интервалу в 25 мс. В целях сокращения размерности оперируемых величин и по причине того, что потери информации на границе сегментов не вносят больших изменений в моделируемую помехоустойчивую систему, перекрытия сегментов не использовались.

Точность распознавания всех четырех слов оказалась в рамках 90-98%. Но эта статистика собиралась из готовых, заранее записанных семплов, для которых искусственно был выровнен уровень громкости сигналов и обрезана неинформативная часть записи. Для обучающей последовательности, самостоятельно определенной пользователем, статистика несколько хуже. Это объясняется тем, что слова обучающей последовательности записаны с разной громкостью, сдвинуты друг относительно друга во времени и содержат в себе посторонние шумы из окружающей среды.




оставить комментарий
страница6/7
Дата22.09.2011
Размер0,5 Mb.
ТипДиплом, Образовательные материалы
Добавить документ в свой блог или на сайт

страницы: 1   2   3   4   5   6   7
хорошо
  1
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Загрузка...
Документы

наверх