Дипломная работа студента 544 группы icon

Дипломная работа студента 544 группы


1 чел. помогло.
Смотрите также:
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 544 группы...
Дипломная работа студента 545 группы...



Загрузка...
страницы: 1   2   3   4   5   6   7
вернуться в начало
скачать
^

Основные подходы к решению задачи распознавания речи


Первый подход, который используется для улучшения показателей распознавания речи, основывается на выделении векторов свойств из сигнала с учетом особенностей восприятия звука человеческим ухом. Он включает в себя анализ несущих частот и выравнивание сигнала по громкости. Наиболее распространенными технологиями, использующими такой подход, являются метод кепстральных коэффициентов тоновой частоты (Mel Frequency Cepstral Coefficients, MFCC, Davis & Mermelstein, 1980) и метод коэффициентов линейного предсказания (Perceptual Linear Prediction, PLP, Hermansky, 1990). Одновременное и опережающее сопоставление с шаблоном (маскирование) (Paliwal & Lilly, 1997), характерное для человеческого восприятия, может быть смоделировано и использовано для выделения свойств, обеспечивающих большую устойчивость от шумов. С этой целью был создан метод варьирования размерностей кадров (Variable Frame Rate analysis, VFR, Zhu & Alwan, 2000). Учитывая специфику работы нервных клеток, отвечающих за слуховые рецепторы, был предложен метод диапазонной автокорреляции (Subband-Autocorrelation, SBCOR, Kajita & Itakura, 1994).

Другой подход основан на анализе звуковых сигналов. Различие поступающих в систему зашумленных сигналов от шаблонов, полученных в ходе обучения «чистыми» сигналами, является основной причиной неустойчивости работы систем распознавания. Целью подхода является уменьшение этого различия. Предполагается, что шум в звуковых сигналах аддитивный и стационарный. Оценки среднего значения усредненного шума вычитаются из кепстра (Cepstral Mean Subtraction, CMS, Furui, 1981) или спектра (Spectral Subtraction, SS, Virag, 1999), вычисленного по зашумленным данным. Некоторые модификации таких методов включают в себя нелинейное спектральное вычитание (Non-linear Spectral Subtraction, NSS, Lockwood & Boudy, 1992), которые используют спектральные огибающие. Такие техники требуют хорошей оценки шума, которую на практике бывает сложно получить, особенно в случае нестационарного фонового шума.

Еще одним способом борьбы с разницей между полученными свойствами из зашумленных и чистых сигналов является использование высокочастотного фильтра. Предполагается, что шум в сигнале не стационарный, а медленно изменяющийся во времени. Метод RASTA (Relative Spectral Analysis, Hermansky & Morgan, 1994) представлен таким образом, что относительные спектральные изменения фиксируются. И те медленные изменения, которые были вызваны шумом, удаляются. В этом случае отпадает необходимость в явном оценивании шума.

Третий подход основан на использовании многомерных пространств (Ephraim & Trees, 1994). Основной идеей этого подхода является нахождение линейного отображения, которое минимизирует функцию стоимости. Часто в качестве такого отображения берется умножение вектора свойств на матрицу преобразования. Примерами данного подхода могут служить основной компонентный анализ (Principal Component Analysis, PCA) и независимый компонентный анализ (Independent Component Analysis, ICA, Koscor, 2000), а также проектирование на многомерные подпространства (Gales, 2002).
^

Современные системы распознавания речи


Все многообразие современных систем распознавания речи можно условно разделить на несколько групп. Рассмотрим каждую из них подробнее.
^

Технологии для аппаратных реализаций


В основе любой речевой технологии лежит так называемый «engine» или ядро программы – набор данных и правил, по которым осуществляется обработка данных. В зависимости от назначения этого ядра различают TTS (Text-to-Speech) и ASR (Automatic Speech Recognition) engine. TTS engine предоставляет возможность синтеза речи по тексту, а ASR engine – для распознавания речи.

Существует несколько крупных производителей, занимающихся созданием ASR ядер. Среди них такие компании, как SPIRIT, Advanced Recognition Technologies, IBM.

Корпорация IBM уже более 30 лет занимается вопросами автоматического распознавания речи и достигла в этой области больших успехов. Так компания ProVox Technologies на основе программного ядра ViaVoice® от IBM [20] создала систему VoxReports [30] для диктовки отчетов врачей-радиологов. По результатам тестирований данная система с точностью 95-98% распознает слитную речь нормального темпа (до 180 слов в минуту) в независимости от диктора. Однако словарь системы ограничен набором специфических медицинских терминов.
^

Наборы библиотек для разработки приложений


С развитием речевых технологий и все большим внедрением мобильных устройств, возникла идея применения речевого управления при построении сетевых приложений. Для этого было необходимо разработать унифицированный стандарт для интеграции речевых технологий.

Один из открытых стандартов на основе XML-языка – VoiceXML (Voice eXtensible Markup Language), первая версия опубликована в мае 2000 г. международным консорциумом World Wide Web (W3 Consortium) – предназначен для разработки интерактивных голосовых приложений (Interactive Voice Response, IVR) управления медиаресурсами. Цель создания стандарта - привнесение всех преимуществ web-программирования в разработку IVR-приложений.

Однако интерес к многомодальным приложениям, сочетающим распознавание речи с другими формами ввода информации (при помощи клавиатуры, пера или набора цифровых кнопок) побудил ряд компаний, в том числе Microsoft, поддержать проект SALT Forum (Speech Application Language Tags - теги языка речевых приложений). И теперь вокруг SALT и VoiceXML консорциума W3С формируются два разных лагеря [12]. До сих пор компании не могут прийти к единому мнению о выборе главного стандарта, и сейчас оба направления развиваются в равной степени.

Некоторые компании занимаются разработкой пакетов для создания речевых приложений, так называемых Software Development Kit (SDK), поддерживающих тот или иной стандарт. Так компания Philips создала пакет Speech SDK, который поддерживает спецификацию Voice XML и выполнен для связи с C/C++ API [29].
^

Независимые пользовательские приложения


В настоящее время рынок программных распознавателей речи представлен множеством приложений. Хотелось бы отметить Dragon Naturally Speaking Preferred фирмы Dragon Systems [17] – это единственная программа, приблизившаяся к тому, чтобы соответствовать заявленным характеристикам. В целом она очень близко подходит к достижению заявленной безошибочности распознавания - 95%. Хотя пакет Dragon и уступает некоторым из конкурентов в том, что касается перемещения по экрану, правки и форматирования, он превосходит всех в главном - способности с первого раза правильно распознавать произнесенные слова. К сожалению, данный пакет не поддерживает русский язык.

Российский рынок программных средств распознавания речи представлен единичными разработками. Из всех программ, изначально разрабатываемых для русского языка, только ПО от белорусской компании «Сакрамент» может конкурировать по качеству распознавания с зарубежными аналогами.
^

Специализированные приложения


Распознавание речи может применяться не только для ввода текста или подачи команд, но и для более специфичных целей. Так компания «Центр Речевых Технологий» разрабатывает и производит программные продукты, технологии и образцы техники для подразделений МВД, ФСБ, МЧС, служб экстренной помощи, центров обработки вызовов и для других пользователей, в деятельности которых особое значение придается регистрации и обработке речевой информации [10].

Компанией созданы следующие приложения: «ИКАР Лаб» – инструментальный комплекс криминалистического исследования фонограмм речи, «Трал» – автоматизированный комплекс распознавания дикторов в фонограммах телефонных переговоров, «Территория» – автоматизированная система диагностики диалектов и акцентов русской устной речи.
^

Устройства, выполняющие распознавание на аппаратном уровне


Для использования функций речевого распознавания в различных устройствах, роботах, игрушках, разрабатываются аппаратные методы. Так американская компания Sensory Inc. разработала интегральную схему Voice Direct™ 364, осуществляющую дикторозависимое распознавание небольшого числа команд (около 60) после предварительного обучения [33]. Перед началом эксплуатации модуль необходимо обучить всем командам, используемым в работе. Команды сохраняются во внешнюю память в виде образов размером 128 байт. Во время работы, образ очередной команды сравнивается с эталонными из памяти в нейросетевом модуле и принимается решение о совпадении
^

Теоретические исследования и разработки


Разработкой теоретической базы в области речевых технологий занимается множество исследовательских групп по всему миру. В первую очередь это такие крупные корпорации как IBM, Intel, Microsoft, AT&T. Эти компании занимаются теорией распознавания уже не один десяток лет и являются законодателями в этой области.

В России также ведутся исследования в области речевого распознавания. Например, в лаборатории автоматизированных систем массового обслуживания Института проблем управления РАН занимаются этой проблемой уже более 30 лет. Главным научным и практическим направлением деятельности лаборатории в настоящее время является применение компьютерного распознавания слитной речи в системах обслуживания населения с возможностью использования русского и других языков [6]. На филологическом факультете СПбГУ ведутся работы по автоматическому переводу устной речи [8].






оставить комментарий
страница2/7
Дата22.09.2011
Размер0,5 Mb.
ТипДиплом, Образовательные материалы
Добавить документ в свой блог или на сайт

страницы: 1   2   3   4   5   6   7
хорошо
  1
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Загрузка...
Документы

наверх