Математическое и программное обеспечение пофонемного распознавания казахской речи на основе сегментации речевого сигнала 05. 13. 11 Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей icon

Математическое и программное обеспечение пофонемного распознавания казахской речи на основе сегментации речевого сигнала 05. 13. 11 Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей


Смотрите также:
Разработка методов звукового распознавания слов на основе их морфологического анализа и синтеза...
Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с...
Принципы и решения по совершенствованию эффективности функционирования операционных систем и...
01. 02. 06 – Динамика, прочность машин, приборов и аппаратуры...
Автореферат диссертации на соискание ученой степени...
Алгоритмы и программные средства помехоустойчивого кодирования мультимедиа потоков в...
Алгоритмы и программные средства помехоустойчивого кодирования мультимедиа потоков в...
3. Языки и системы программирования. Технологий разработки программного обеспечения...
Правила приема в аспирантуру на 2009 год в белорусском государственном университете...
Поиск сценариев событий на гриде источников данных об окружающей среде...
Поиск сценариев событий на гриде источников данных об окружающей среде...
Алгоритмические и программные средства интеграции данных при создании электронных медицинских...



Загрузка...
скачать
УДК 004.934.2 На правах рукописи


Карабалаева Муслима Хизятовна


Математическое и программное обеспечение пофонемного распознавания казахской речи на основе сегментации речевого сигнала


05.13.11 – Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей


Автореферат

диссертации на соискание ученой степени

кандидата технических наук


Астана 2010


Работа выполнена в Евразийском национальном университете им. Л.Н. Гумилева


Научные руководители: доктор технических наук

А.А. Шарипбаев


доктор физико-математических наук

В.Ю. Шелепов


Официальные оппоненты: доктор технических наук

М.Ф. Баймухамедов


кандидат технических наук

М. Жуат


Ведущая организация: ДГП «Институт математики»

РГП «Институт математки, информатики и механики» МОН РК


Защита состоится 24 ноября 2010 г. в 17:00 часов на заседании диссертацион-ного совета Д14.61.01 при Евразийском национальном университете им. Л.Н. Гумилева, по адресу: 010008 г. Астана, ул. Мунайтпасова, 5, главный корпус, аудитория 302.


С диссертацией можно ознакомиться в библиотеке Евразийского национального университета им. Л.Н. Гумилева.


Автореферат разослан ____ октября 2010 г.


Ученый секретарь

диссертационного совета Д14.61.01,

д.т.н. Р.К. Ниязбекова


^ ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ


Диссертационная работа посвящена разработке математического и программного обеспечения пофонемного распознавания казахской речи на основе сегментации речевого сигнала.

^ Актуальность и новизна проблемы. Автоматическое распознавание устной речи является одним из актуальных направлений развития искусственного интеллекта и информатики в целом. Обучить компьютер понимать человеческую речь и озвучивать различные синтезируемые «на лету» сообщения – задача чрезвычайно заманчивая. Решить ее означало бы существенно продвинуться на пути к реализации естественного интерфейса пользователя. Кроме того, миниатюризация современных средств управления и связи требует принципиально новых подходов к осуществлению взаимодействия пользователя с такого типа устройствами. Следует также отметить, что для определенного круга пользователей речевой интерфейс является оптимальным или даже единственно возможным в силу ограниченности их физических возможностей (нарушения зрения или моторных функций) либо специфики профессии.

На ниве речевых технологий уже более полувека трудятся специалисты нескольких научных областей, что связано со сложностью и междисциплинарным характером проблематики. С прогрессом современной науки и техники появилась принципиальная возможность перехода от формальных языков-посредников между человеком и машиной к естественному языку в устной форме как универсальному средству выражения целей и желаний человека. Речевой ввод обладает рядом преимуществ, таких как естественность, оперативность, смысловая точность ввода, освобождение рук и зрения пользователя, возможность управления и обработки в экстремальных условиях.

Лингвистический анализ текста – обязательная стадия процесса автоматического ввода текста под диктовку. Без этой стадии современное качество распознавания не могло бы быть достигнуто, и многие эксперты связывают перспективы речевых систем именно с дальнейшим развитием содержащихся в них лингвистических механизмов. Как следствие, речевые технологии делаются все более зависимыми от языка, с которым работают. В сфере распознавания слитной речи зависимость стала абсолютной, и во всех других областях работы с речью, включая даже механизмы редактирования и сжатия, специфика языка все более дает себя знать. А значит, распознавание, синтез и обработка казахской речи являются той нишей, занять которую должны именно казахстанские разработчики.

^ Степень разработанности проблемы. Теоретические и практические разработки в области цифровой обработки сигналов, кодирования и передачи речевого сигнала ведутся многие годы учеными всего мира. Большой вклад в теоретическом и практическом планах внесли L.R. Rabiner, R.W. Shafer, J. Makhoul, B. Gold, C. M. Rader, A.V. Oppenheim, В.А. Котельников и др.

Исследования по машинному распознаванию речи ведутся сравнительно недавно, однако за это время написано множество теоретических работ и предложен ряд практических реализаций систем распознавания речи. При этом достаточно большое количество идей взято из теории цифровой обработки сигналов. Существенный вклад в развитие систем распознавания речи внесли J.D. Markel, A.H. Gray, B. Gold, G. Fant, В.Н. Трунин-Донской, Т.К. Винцюк, А.А. Ланнэ, Н.Г. Загоруйко, Ю.А. Косарев, Л.Л. Мясников и др.

В разработках по дикторонезависимому распознаванию речи наиболее широко применяются статистические методы, основанные на теории скрытых Марковских моделей. Ее возникновение связано с именами таких ученых, как L.E. Baum, L.R. Welch, T. Petrie, G. Soules, N. Weiss. Скрытое Марковское моделирование применительно к распознаванию речи разрабатывали J.K. Baker, F. Jelinek, L. Bahl, X.D. Huang и др.

Наилучших практических результатов в области речевых технологий на сегодняшний день добились передовые технологические гиганты, такие как IBM, Lernout&Hauspie, Philips, Microsoft. Существует несколько доступных и эффективных конкурирующих голосовых движков, и с каждым годом растет их качество и количество, а также охват ими языковых диалектов.

Среди российских научных коллективов, которые занимаются проблемами синтеза и распознавания русской речи, можно назвать ИППИ РАН, ВЦ РАН, ИСА РАН, ИПУ РАН, СПИИРАН, речевые группы филологического и механико-математического факультетов МГУ, Центр речевых технологий (Санкт-Петербург) и др. Разработки ведутся также в Белоруссии и Украине. В данной диссертационной работе используются оригинальные алгоритмы распознавания речи, разработанные в Государственном университете информатики и искусственного интеллекта (г. Донецк, Украина) под руководством В.Ю. Шелепова.

Вместе с тем в настоящее время не существует систем распознавания казахской речи. Однако имеют место отдельные пионерские работы в направлении формализации казахского языка, подобные этой, которые исследуют фонетический строй казахского языка, модели и алгоритмы словоизменения и словообразования, а также синтаксического анализа естественных текстов на казахском языке.

^ Объектом исследования являются методы классификации и распознавания элементов фонетического строя казахского языка.

Предметом исследования являются алгоритмы пофонемного распознавания речи на основе предварительной сегментации речевого сигнала применительно к звукам казахской речи.

Целью диссертационной работы является разработка математического и программного обеспечения пофонемного распознавания казахской речи. Для достижения поставленной цели необходимо в ходе выполнения теоретических и экспериментальных исследований решить следующие задачи:

  • исследовать естественные классы звуков казахской речи и их акустические признаки,

  • описать фонетический строй казахского языка с точки зрения возможностей распознавания его элементов,

  • разработать прикладную модель автоматического транскриптора,

  • разработать алгоритмы классификации и распознавания звуков казахской речи,

  • разработать программное обеспечение для проведения исследований и тестирования разработанных алгоритмов пофонемного распознавания,

  • решить задачу организации и поиска данных в большом словаре транскрипций,

  • осуществить проверку предложенных алгоритмов распознавания путем проведения тестовых экспериментов с использованием большого словаря.

^ Методы исследований. Решение перечисленных задач осуществлено на основе анализа аудиосигнала в частотном и временнóм пространствах, применения цифровой обработки сигналов, теории и методов программирования.

^ Основные научные положения диссертационного исследования, выносимые на защиту:

1. Использование конфигурируемого транскриптора на основе правил замены позволяет в автоматическом режиме перейти от буквенной структуры слова к звуковой транскрипции. Это необходимый шаг при переходе к пофонемному распознаванию.

2. Комбинированный подход, сочетающий анализ речевого сигнала в частотном и временнóм пространствах, позволяет разбивать звуки речи на классы и распознавать полученные классы между собой.

3. Использование смешанных транскрипций разного уровня позволяет повысить гибкость и надежность системы распознавания.

4. Задача организации и поиска данных в большом словаре транскрипций может быть эффективно решена с использованием древовидной структуры данных.

Главная практическая ценность результатов диссертационной работы заключается в построении комплекса алгоритмов, позволяющих разбивать звуки казахской речи на классы и распознавать полученные классы между собой.

Важным практическим результатом также является реализация прикладного программного обеспечения, демонстрирующего работу предложенных алгоритмов пофонемного распознавания казахской речи. В дальнейшем эти алгоритмы могут быть оформлены в виде самостоятельного голосового движка и/или библиотек классов, пригодных для разработки голосового интерфейса для казахскоязычных пользователей.

Кроме того, предложенная прикладная модель автоматического транскриптора формализует правила транскрибирования казахских слов и годится для использования в любой лингвистической системе, требующей перехода от буквы к звуку.


^ Апробация работы.

Результаты работы докладывались на следующих конференциях:

  • Международная научно-техническая конференция «Вторые Ержановские чтения» (г. Актобе, 2007),

  • Международная научно-практическая конференция «Информационно-коммуникационные технологии как основной фактор развития инновационного общества» (г. Усть-Каменогорск, 2007),

  • Международная научно-практическая конференция «Информационно-инновационные технологии: интеграция науки, образования и бизнеса» КазНТУ им. К.И. Сатпаева (г. Алматы, 2008),

  • Всероссийская конференция с межународным участием «Знания – Онтологии – Теории» (г. Новосибирск, 2009),

  • Третий Конгресс математиков тюркского мира (г. Алматы, 2009).

Публикации. Результаты диссертационной работы изложены в 8 научных статьях, 3 опубликованы в изданиях, перечень которых утвержден ККСОН. Из совместных публикаций в диссертации приведены результаты, полученные автором.

^ Структура работы. Диссертация состоит из введения, четырех разделов, заключения, списка использованных источников и приложения. Основное содержание диссертационной работе изложено на 115 страницах машинописного текста, иллюстрированного таблицами и рисунками.


^ КРАТКОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ

Во введении обоснована актуальность темы диссертации, ее научная новизна и практическая значимость, сформулированы цель и задачи исследования, приведено краткое содержание диссертации по главам.

^ В первой главе приведен обзор современного состояния речевых технологий и перспектив их развития.

Речевые технологии – одно из направлений развития современной науки и техники. Под этим термином подразумевается работа с речью при помощи технических средств (компьютеры, контроллеры, специальные устройства).

Основными областями исследований в этом направлении являются:

  • распознавание речи (speech-to-text);

  • синтез речи (text-to-speech);

  • обработка речи для последующего анализа.

На ниве речевых технологий уже более полувека трудятся специалисты нескольких научных областей, что связано со сложностью и междисциплинарным характером проблематики. Обучить компьютер понимать человеческую речь и озвучивать различные синтезируемые «на лету» сообщения – задача не новая, но чрезвычайно заманчивая. Решить ее означало бы существенно продвинуться на пути к реализации естественного интерфейса пользователя. В числе остро актуальных на сегодняшний день сфер применения речевых технологий можно назвать:

  • удаленный голосовой доступ к базам данных,

  • диктовку текста компьютеру,

  • управление процессом с помощью голоса,

  • интерактивное обучение,

  • разработку программ коррекции произношения и исправления дефектов речи,

  • разработку голосовых переводчиков,

  • разработку систем безопасности, контролирующих телефонные линии,

  • чтение книг с помощью специальных программ,

  • разработку интерфейсов для пользователей с нарушениями зрения или моторных функций,

  • идентификацию диктора по образцу речи,

  • сжатие речи без потери ясности.

Этот краткий список возможно сколь угодно расширить, уточнить и дополнить, принимая во внимание огромный информационный и коммуникативный потенциал, аккумулированный в человеческой речи – нашей второй сигнальной системе, этой качественно особой форме высшей нервной деятельности.

Автоматическое распознавание устной речи – традиционная задача искусственного интеллекта. Ею начали с энтузиазмом заниматься еще на заре возникновения информатики как науки. Тем не менее, продвинуться в этом направлении пока удалось относительно недалеко.

Существующие системы распознавания речи работают в двух принципиально различающихся режимах: с настройкой на голос определенного человека (дикторозависимые) и без (дикторонезависимые). Режим работы без настройки на голос наиболее сложен для реализации, но и наиболее перспективен.

На сегодняшний день существует несколько доступных и эффективных конкурирующих голосовых движков, и с каждым годом растет их качество и количество, а также охват ими языковых диалектов. Мировые лидеры в области распознавания речи (IBM, Philips, Nuance Communications, Microsoft) уже обладают средствами распознавания слитной английской речи произвольного диктора с неограниченным словарным запасом. В передовых системах распознавания речи для английского языка используются словари свыше 100 тыс. слов. Для русского языка за счет наличия приставок, суффиксов и окончаний этот словарь возрастает более чем на порядок. Это значительно уменьшает точность и скорость распознавания. Попытки же западных компаний, таких как Intel и L&H, адаптировать существующие иноязычные разработки для русского языка нельзя назвать успешными. Подобные системы имеют неудовлетворительное качество распознавания, поскольку не учитывают особенности русской фонетики и лингвистики. Этот момент является принципиально важным для систем распознавания речи. Если еще лет двадцать назад речь рассматривалась как сигнал в диапазоне примерно от 300 до 3500 Гц, обладающий рядом характерных свойств (например, наличием пауз между словами), то с точки зрения современных технологий речь – это, прежде всего, сигнал, исполненный смысла. Лингвистический анализ текста – обязательная стадия процесса автоматического ввода текста под диктовку. Без этой стадии современное качество распознавания не могло бы быть достигнуто, и многие эксперты связывают перспективы речевых систем именно с дальнейшим развитием содержащихся в них лингвистических механизмов. Как следствие, речевые технологии делаются все более зависимыми от языка, с которым работают. В сфере распознавания слитной речи зависимость стала абсолютной. Однако и в других областях работы с речью, включая синтез речи и даже механизмы редактирования и сжатия, специфика языка все более дает себя знать. А значит, распознавание, синтез и обработка казахской речи являются той нишей, занять которую должны именно казахстанские разработчики.

Во второй главе освещены ключевые моменты задачи распознавания речи, приведены сведения о физике и психофизике звука, о формах его представления, изложены теоретические основы автоматического распознавания речи, приведены наиболее популярные методы и подходы.

Чисто формально процесс распознавания речи можно описать буквально в нескольких фразах. Аналоговый сигнал, генерируемый микрофоном, оцифровывается, и далее в речи выделяются так называемые фонемы, т.е. элементарные фрагменты, из которых состоят все произносимые слова. Затем определяется, какому сочетанию фонем соответствует каждое слово, и строится словарь транскрипций. Распознать слово означает найти его в этом словаре по произнесенному сочетанию фонем.

Это простая линейная схема. Но проблемы всплывают, стоит задуматься о том, как эту схему можно было бы реализовать на практике. Во-первых, человек обычно не делает пауз между словами, а при слитном произнесении к задаче распознавания прибавляется еще и заведомо более сложная задача выделения слов из потока речи. Можно потребовать, чтобы диктор произносил слова по одному, делая достаточно продолжительные паузы (а ещё лучше – чтобы каждое следующее слово произносилось после звукового сигнала). Не очень удобно, но для подачи простых команд сгодится.

Следующая проблема связана с главной особенностью речевого сигнала, которая состоит в том, что он очень сильно варьируется по многим параметрам: длительность, темп, высота голоса, тембр, искажения, вносимые большой изменчивостью голосового тракта человека, различными эмоциональными состояниями диктора. Два временных представления одного и того же фрагмента речи даже для одного и того же человека, записанные в разное время, не будут совпадать. Необходимо искать такие параметры речевого сигнала, которые полностью описывали бы его (т.е. позволяли бы отличить один звук речи от другого), но были бы в какой-то мере инвариантны относительно указанных выше вариаций речи. Полученные таким образом параметры должны затем сравниваться с образцами, причем это должно быть не простое сравнение на совпадение, а поиск наибольшего соответствия. Это вынуждает искать нужную форму расстояния в найденном параметрическом пространстве.

Кроме того, существует значительная зависимость цифрового представления речевого сигнала от аппаратных средств – микрофона и звуковой карты, а также от акустических условий окружающей среды. Далее, объем информации, которую может хранить система, не безграничен. Каким образом запомнить практически бесконечное число вариаций речевых сигналов? Очевидно, здесь не обойтись без какой-либо формы статистического усреднения.

Еще следует учесть трудность совершенно другого плана – огромный размер словаря словоформ. Если мы поставим своей задачей распознавание произвольной речи, то орфографическому словарю в 100 тыс. слов (записанных в виде лемм, т.е. в канонической форме) будет соответствовать словарь словоформ, содержащий миллионы слов. Задача организации данных и поиска в таком словаре требует отдельного рассмотрения.

Из-за этих и многих других проблем до полного решения задачи распознавания речи по-прежнему весьма далеко.

Звуковая волна – это передающиеся в пространстве механические колебания молекул вещества (например, воздуха). Звуковые колебания, как и вообще все колебания, характеризуются амплитудой, частотой и фазой. В отношении звуковых колебаний можно также упомянуть такие характеристики, как основной тон, высота звука, длительность звучания, тембр и громкость. В звуковой аппаратуре звук представляется либо непрерывным электрическим сигналом (аналоговый сигнал), либо последовательностью чисел (цифровой сигнал). Преобразование аналогового сигнала в цифровой называется оцифровкой и заключается в осуществлении замеров величины амплитуды аналогового сигнала с некоторым временным шагом (дискретизация) с последующей записью полученных значений амплитуды в численном виде (квантование). Ответ на вопрос, при каких условиях на исходный сигнал и на частоту дискретизации можно с необходимой степенью точности восстановить исходный сигнал по его цифровым значениям, дает теорема Котельникова.

Используя дискретное преобразование Фурье, цифровой звуковой сигнал, подобно математической функции, можно представить в виде спектра входящих в него частот. Частотные составляющие спектра – это синусоидальные колебания (так называемые чистые тона), каждое из которых имеет свою собственную амплитуду, частоту и фазу. Чтобы получить представление об изменении спектра во времени, аудио сигнал следует анализировать не целиком, а по частям («блоками» или «окнами»).

Одним из главных инструментов при обработке и распознавании речи являются фильтры – устройства для выделения желательных компонентов спектра сигнала и/или подавления нежелательных. Применительно к речевым сигналам, фильтры позволяют, во-первых, очистить сигнал от шумов и искажений; во-вторых, выделить компактные речевые признаки в сигнале. В нашей системе используются нерекурсивные цифровые фильтры цифрового сигнала.

Важный вопрос, с которым в первую очередь сталкивается разработчик речевых технологий, – это разработка оптимального метода параметрического представления сигнала, который позволил бы достаточно хорошо различать звуки и слова речи и в то же время обеспечить инвариантность к особенностям произношения конкретного диктора, к изменениям акустической обстановки. На протяжении истории развития систем распознавания речи было предложено несколько методов, в разной мере удовлетворяющих указанным требованиям: разновидности спектрального анализа; методы на основе автокорреляционного анализа; аппаратная полосовая фильтрация; метод коэффициентов линейного предсказания (КЛП) и др. Сейчас наиболее распространены два класса методов, использующих разновидности спектрального анализа и КЛП. Популярность этих методов объясняется тем, что они хорошо согласуются соответственно с моделями слухового восприятия и речеобразования человека. В результате применения какого-либо из этих методов мы получаем речевой сигнал, описанный последовательностью некоторых векторов признаков, и далее переходим на более высокий уровень описания речи – фонемы и слова.

^ В третьей главе приведены сведения из теории речеобразования, исследованы звуки казахской речи, предложена модель звукового строя казахского языка, подробно описан автоматический транскриптор, генерирующий транскрипцию казахских слов.

В области обработки естественного языка принято выделять несколько уровней описания речевой коммуникации: от самого низкого, акустического, до самых высоких, семантического и прагматического. Данная работа затрагивает речевой сигнал на трех нижних уровнях: акустическом (речь как звуковые колебания), фонетическом (речь как звуки, порожденные артикуляционной системой) и фонологическом (речь как последовательность звуков казахского языка).

Основной единицей звукового строя языка является фонема. Звуковой состав различных языков имеет свои особенности. Точное число фонем английского языка зависит от диалекта и критериев выделения фонем, но большинство оценок сходятся на числе от 40 до 45. Это чуть выше среднего по языкам мира. В русском языке насчитывают 43 (Петербургская фонологическая школа) либо 39 (Московская фонологическая школа) фонем. Сколько фонем в казахском языке, сказать сложно. Государственный стандарт по фонетике казахского языка отсутствует, а авторы современных учебников и учебных пособий по казахскому языку не выработали единого мнения по этому вопросу. Поэтому в наших построениях мы будем опираться на систему звуков, предложенную основоположником казахского языкознания Ахметом Байтурсыновым в начале XX века. В данной работе предлагается модель фонетического строя казахского языка, состоящая из 43 фонем: [а], [ә], [е], [о], [ө], [ұ], [ү], [ы], [і], [б], [б'], [г], [г'], [ғ], [д], [д'], [ж], [ж'], [з], [з'], [j], [к], [к'], [қ], [л], [л'], [м], [м'], [н], [н'], [ң], [ң'], [п], [п'], [р], [р'], [с], [с'], [т], [т'], [у], [ш], [ш']. Это деление довольно условно и может подвергаться сомнениям, как любое деление сложного процесса на части. Один из возможных вариантов классификации фонем приведен на рисунке 1.





Рисунок 1 – Звуки казахского языка


Это система звуков казахского языка, элементы которой нам требуется научиться распознавать в устной речи.

Нашей следующей задачей является разработка программы автоматического транскрибирования для этой фонетической подсистемы. Это необходимый шаг при переходе к пофонемному распознаванию. Очевидно, что пофонемное распознавание слов, список которых задан в текстовом виде, требует предварительного создания транскрипции каждого из этих слов. Эта процедура, разумеется, должна осуществляться автоматически. Мы используем простой транскриптор, который позволяет по мере накопления опыта модифицировать систему транскрипции путем простейших изменений в управляющем файле с целью учета ранее не учтенных транскрипционных ситуаций. В качестве транскрипционных знаков использованы, в основном, соответствующие казахские буквы. Исключение составляют символы d, k, l, t, обозначающие соответственно мягкие согласные звуки [д'], [к'], [л'], [т']. Знак «#» означает начало слова, если стоит перед какой-либо буквой, и конец слова, если стоит после какой-либо буквы.

Транскриптор реализован как программа, заменяющая одни символы другими в соответствии с правилами, содержащимися в упомянутом управляющем файле. Вот его содержание на сегодняшний день:

1) - = *

2) де = dе, ке = kе, те = tе

3) лә = lә, ле = lе, лө = lө, лү = lү, лі = lі, әл = әl, ел = еl, өл = өl, үл = үl, іл = іl

4) бк = пк, бk = пk, бқ = пқ, бп = пп, бс = пс, бт = пт, бt = пt, бш = пш, гт = кт, гш = кш, дк = тк, дk = тk, дқ = тқ, дп = тп, дс = тс, дт = тт, дt = tt, дш = тш, жк = шк, жk = шk, жқ = шқ, жп = шп, жс = шс, жт = шт, жt = шt, жш = шш, зк = ск, зk = сk, зқ = сқ, зп = сп, зс = сс, зт = ст, зt = сt, зш = шш

5) кб = кп = гб, кг = гг = кк, кғ = ққ, кд = гд, кж = гж, кз = гз, қб = ғб = қп, қг = қк, қғ = ққ = ғғ, қд = ғд, қж = ғж, қз = ғз, пб = бб = пп, пд = бд, пж = бж, пз = бз, сб = сб = зб, сг = зг = ск, сғ = зғ = сқ, сд = сд = зд, сж = зж = шш, сз = сз = зз, тб = тб = дб, тг = тк = дг, тғ = тқ, тд = дд = тт, тж = дж, тз = дз, шб = шб = жб, шг = шг = жг, шғ = шғ = жғ, шд = шд = жд, шж = жж = шш, шз = шз = жз

6) км = км = гм, кн = кн = гн, қм = қм = ғм, қн = қн = ғн, пм = пм = бм, пн = пн = бн, тм = тм = дм, тн = тн = дн, нқ = нқ = ңғ, нк = нк = ңг

7) б# = п, д# = т, ж# = ж = ш, з# = з = с

8) й = j

9) ае = аjе, аю = аjұ, ая = аjа, әе = әjе, әю = әjү, әя = әjә, ее = еjе, ею = еjү, ея = еjә, ое = оjе, ою = оjұ, оя = оjа, өе = өjе, өю = өjү, өя = өjә, ұе = ұjе, ұю = ұjұ, ұя = ұjа, үе = үjе, үю = үjү, үя = үjә, ые = ыjе, ыю = ыjұ, ыя = ыjа, іе = іjе, ію = іjү, ія = іjә

10) #е = jе, #ю = jү, #я = jә

11) #к = к = *, #п = п = *, #т = т = *, к# = к = *, п# = п = *, т# = т = *

Каждое правило записано в виде двух частей, соединенных знаком равенства. Слева стоят исходные символы буквенной записи слова (графемы), справа – символы, которыми они заменяются в транскрипции (фонемы). Если имеет место двойное равенство, это означает, что исходные символы могут транскрибироваться не единственным способом, а двумя различными способами. Исходными данными для автоматического транскриптора является слово, вводимое пользователем с клавиатуры, либо текстовый файл, содержащий список слов, которые надлежит транскрибировать. Итогом работы транскриптора является новый текстовый файл, в котором для каждого слова из списка представлена его транскрипция.

^ В четвертой главе изложены алгоритмы пофонемного распознавания казахской речи на основе предварительной сегментации, описаны системы распознавания различных классов казахских звуков, а также результаты по выделению и распознаванию в устной речи специфических звуков казахского языка. Описана модель организации поиска в большом словаре транскрипций, предложена концепция распознавания синтаксически связанных фраз.

Речевой сигнал, оцифрованный звукозаписывающим устройством, представляет собой массив отсчетов (сэмплов) xi – замеренных с некоторым временным шагом значений напряжения на выходе микрофона. Если пренебречь погрешностью квантования и зависимостью получаемого цифрового сигнала от характеристик микрофона и звуковой карты, то можно рассматривать речевой фрагмент как дискретную функцию амплитуды сигнала от времени. Звуковой сигнал можно визуализировать, выведя график этой функции на монитор. В нашей системе за основу принимаются частота дискретизации 22050 Гц и разрядность квантования 8 бит, так что значения цифрового сигнала могут иметь 28 = 256 градаций: от 0 до 255. Предполагается использование системы в лабораторных условиях, при отсутствии существенного внешнего шума.

При построении описываемых алгоритмов пофонемного распознавания применяется комбинированный подход, сочетающий анализ речевого сигнала в частотном и временнóм пространствах. При этом используются следующие основные величины и процедуры:

Вариация – численный аналог полной вариации функции для дискретного случая.

Вариация V(n) с переменным верхним пределом

, .

^ Число точек постоянства C – число таких отсчетов на участке сигнала, для которых в следующий момент времени величина сигнала остается неизменной.

Сглаживание сигнала x1, x2, … – обработка его трехточечным скользящим фильтром .

«В-Н»-обработка числового массива – построение последовательности из символов «В» («выше порога») и «Н» («ниже порога») на основе сравнения элементов массива с их средним арифметическим значением.

^ Полосовой фильтр – цифровой нерекурсивный фильтр, где ak – коэффициенты фильтра, 2N – порядок фильтра, f – частота дискретизации сигнала, f0 – граничная частота фильтра, wk – коэффициенты сглаживающего окна.

Вариация V выделенного участка – среднее арифметическое величин вариаций, вычисленных на выделенном участке для последовательных окон по 256 отсчетов.

^ Вариационная мера M выделенного участка – величина, характеризующая скорость роста вариации на выделенном участке. При ее вычислении рассматривается вспомогательная функция W(n), возрастающая вместе с вариацией с переменным верхним пределом V(n), но «сбрасываемая» на 0 по достижении некоторого фиксированного значения A в точках Ni. Среднее арифметическое значение расстояний между соседними точками Ni на выделенном участке называется вариационной мерой.

^ Двухпороговый скалярный распознаватель – объект, который для различения пары звуков (или пары классов) между собой использует один скалярный признак X с двумя числовыми порогами a, b. Признак вычисляется на основе рассмотрения величин Zi = Vi /Mi, где Vi – вариация, ­ Mi – вариационная мера, вычисленные для сигнала, отфильтрованного набором из i полосовых фильтров с полосой пропускания 200 Гц. При X < a считается, что объект распознавания принадлежит первому классу, при X > b второму. При a < X < b фиксируется отказ от распознавания.

Комплекс алгоритмов пофонемного распознавания казахской речи, описанных в четвертой главе, можно разбить на несколько групп: 1) алгоритм определения границ речи; 2) алгоритмы сегментации речевого сигнала; 3) алгоритмы распознавания пары звуков между собой; 4) алгоритмы выделения в речевом сигнале отдельных звуков речи. Каждый из этих алгоритмов позволяет отнести какой-либо выделенный фрагмент речевого сигнала к одному из двух классов, на основе сравнения какого-либо признака (или набора признаков) с пороговыми значениями. При этом основной задачей исследования является поиск подходящего признака и подбор оптимального порога. С учетом этого, можно представить главные аспекты предложенных алгоритмов в сводной таблице (см. таблицу 1).


Таблица 1 – Алгоритмы пофонемного распознавания речи

Назначение алгоритма

Классы, на которые алгоритм разбивает фрагменты речевого сигнала

Описание алгоритма либо указание признака, на основе которого производится разбиение

Класс 1

Класс 2

^ Определение границ речи

Определение границ речи

речь

пауза

V / C, где V – вариация, – число точек постоянства

^ Сегментация речевого сигнала

Выделение глухих согласных

глухие звуки (без участия голоса)

голосовые звуки (с участием голоса)

– число точек постоянства (с предварительной фильтрацией)

Классификация взрывных и фрикативных глухих согласных

взрывные глухие согласные ([п], [к], [к'], [қ], [т], [т'])

фрикативные глухие согласные ([с], [ш])

V – вариация с переменным верхним пределом

Классификация гласных и голосовых согласных

гласные ([а], [ә], [е], [о], [ө], [ұ], [ү], [ы], [і])

голосовые согласные ([б], [г], [ғ], [д], [д'], [ж], [з], [j], [л], [л'], [м], [н], [ң], [р], [у])

V – вариация (с последующей «В-Н»-обработкой)

Распознавание пары звуков

Распознавание гласных

все возможные сочетания пар из набора {[а], [ә], [е], [о], [ө], [ұ], [ү], [ы], [і]}

применение двухпоро-гового скалярного распознавателя

Распознавание голосовых согласных

все возможные сочетания пар из набора {D, N, [ғ], [ж], [з], [j], [л], [л']}, где D – класс, объединяющий звуки [б], [г], [д]; N – класс, объе-диняющий звуки [м], [н], [ң]

применение двухпоро-гового скалярного распознавателя

Распознавание фрикативных глухих согласных

все возможные сочетания пар из набора {T, [қ], [с], [ш]}, где T – класс, объединяющий звуки [к'], [т']

применение двухпоро-гового скалярного распознавателя

^ Выделение отдельных звуков речи

Распознавание звуков [қ], [к'], [т']

звуки [қ], [к'], [т']

все остальные звуки

выделение глухих со-гласных, классифика-ция взрывных и фрика-тивных глухих соглас-ных с последующим применением двухпо-рогового скалярного распознавателя

Распознавание звуков [ж], [з]

звуки [ж], [з]

все остальные звуки

поточечная разность исходного сигнала и сглаженного сигнала

Распознавание звука [р]

звук [р]

все остальные звуки

рассмотрение абсо-лютных и относитель-ных значений величи-ны вариации V, в срав-нении с соседними участками сигнала

Распознавание звука [ғ]

звук [ғ]

все остальные звуки

рассмотрение значе-ний величины ампли-туды A и вариации V, с последующим приме-нением двухпоро-гового скалярного распознавателя


В идеале результатом распознавания фонем, образующих слово, служит его транскрипция, по которой слово в большинстве случаев однозначно восстанавливается. Однако любые признаки, используемые при распознавании речи, имеют характер случайных величин. Поэтому на любом этапе возможен отказ от распознавания и в результате вместо цепочки транскрипционных знаков на выходе получится последовательность символов, обозначающих те или иные достаточно широкие классы фонем. Так, в нашей системе есть справочный файл, содержащий обозначения и расшифровку для классов, объединяющих те или иные группы звуков.

Некоторые из этих классов связаны с широкой фонетической классификацией, используемой на этапе сегментации речевого сигнала. Другие являются дополнительными классами, введенными для повышения надежности системы распознавания гласных. Третьи связаны с нашей неспособностью на текущий момент распознавать некоторые звуки между собой.

Таким образом, результатом распознавания будет являться цепочка транскрипционных символов, среди которых, помимо обозначений отдельных звуков (фонетическая транскрипция), могут также встречаться имена приведенных классов (обобщенная транскрипция). Эту цепочку можно рассматривать как результат смешения транскрипций разного уровня детализации. Например, результатом распознавания слова «әділет» может стать строка вида «әDYlеP». Возникает проблема, как по такому разнородному результату в большом словаре отыскать слова, которые ему удовлетворяют.

Для решения этой проблемы использован эффективный и быстродействующий алгоритм, основанный на представлении словаря в памяти компьютера в виде дерева (в отличие от традиционного списка). Этот алгоритм позволяет получить информацию о наличии или отсутствии слова в словаре за максимум n*p операций сравнения символов (где n – длина транскрипции искомого слова, p – количество используемых в системе транскрипционных символов), если дерево неупорядочено, или за n*log2p операций сравнения символов, если дерево упорядочено. Таким образом, время поиска оказывается пропорциональным длине искомого слова, а не размеру словаря. Это дает тем больший выигрыш в быстродействии системы, чем бóльшие по размеру словари в ней используются.

Описанные алгоритмы распознавания, в совокупности с использованием смешанных транскрипций разного уровня, позволяют при пофонемном распознавании слов из словаря, содержащего около 41000 слов, выделить список кандидатов, содержащий от 1 до 200 слов, что не превышает 0,5%. Для большинства же слов это значение гораздо ниже – как правило, меньше, чем 0,1%.

Заключительный раздел данной работы посвящен изложению концепции системы «речь – текст», позволяющей распознавать фразу как последовательность синтаксически связанных словоформ.

Казахский язык является агглютинативным языком. Это означает, что словоизменение происходит последовательным присоединением к неизменной основе аффиксов, имеющих грамматические и словообразовательные значения. Аффиксы однозначны, то есть каждый из них выражает только одно грамматическое значение, и для данного значения всегда служит один и тот же аффикс. Аффиксы следуют друг за другом, как бы «склеиваются», при этом они не сливаются ни с корнями, ни с другими аффиксами, и их границы отчетливы. Агглютинация и сопутствующий ей сингармонизм в значительной мере способствуют строгости и стройности фонетической, морфологической и синтаксической систем казахского языка. Вследствие этого, с точки зрения распознавания синтаксически связанной фразы казахский язык обладает принципиальными преимуществами по сравнению с русским, хотя и проигрывает английскому.

Опишем одну из возможных архитектур системы, которая наряду с распознаванием речи использует элементы выбора из небольших словарей.

Распознаватель работает с первоначальным списком, содержащим все словоформы слов большого орфографического словаря. Получается достаточно полный словарь всего казахского языка. Запись сказанного слова происходит при нажатии клавиши, отвечающей его первой букве, так что первая фонема при распознавании фактически заранее задается. В результате процедуры пофонемного распознавания мы получаем список слов-кандидатов на распознавание. Это некоторый набор словоформ. Компьютер применяет к словам полученного списка лемматизатор – подсистему, восстанавливающую начальную форму слова по косвенной, используя механизмы морфологического анализа. В результате получается соответствующий набор начальных форм, который гораздо короче первого списка словоформ.

По указанию пользователя для исходного звукового сигнала формируется эталон, т.е. его некое параметрическое представление. Эталону сопоставляется соответствующая лемма. Если при построении эталона отбрасывать конец сигнала, в котором с большой вероятностью содержатся аффиксы, то для любой словоформы ближайшим эталоном окажется эталон, построенный для ее леммы. Далее компьютер отбирает из первоначального списка распознанных словоформ только те, которые отвечают распознанному слову. Этот итоговый список собственно и является результатом распознавания слова.

При произнесении в дальнейшем других словоформ слова, для которого создан эталон, компьютер будет распознавать эти словоформы, используя уже имеющийся эталон. Отметим, что, хотя дело заканчивается распознаванием по эталонам, применение пофонемного распознавания позволяет использовать эталоны только в пределах списка распознанных словоформ, который на порядки меньше исходного полного словаря словоформ.

Далее, после того, как пользователь, закончив диктовать предложение, поставит точку, вступает в действие модуль синтаксической коррекции. Он просмотрит полученные наборы списков для каждого произнесенного слова, проверит содержащиеся в них аффиксы и выберет из каждого списка только те словоформы, которые синтаксически согласуются друг с другом и с установленным в казахском языке порядком слов в предложении. В идеале, из каждого списка останется только одно слово, и совокупная фраза будет являться результатом распознавания предложения.

^ В заключении изложены выводы по результатам диссертационного исследования, дана оценка полноты решения поставленных задач, представлены рекомендации по использованию результатов.

^ В приложении приведены исходные тексты ключевых модулей программы.

ЗАКЛЮЧЕНИЕ



Представленная диссертационная работа является целостным научным трудом, исследующим речевой интерфейс на его низших уровнях (акустическом, фонетическом, фонологическом) применительно к казахскому языку. В ходе исследования получены следующие результаты:

  • построена модель фонетического строя казахского языка, предполагающая разделение звуков на естественные классы, подходящие для автоматической обработки речи;

  • исследованы существующие алгоритмы классификации и распознавания звуков на основе предварительной сегментации применительно к казахскому языку;

  • разработаны новые алгоритмы классификации и распознавания звуков, в том числе для некоторых специфических звуков казахской речи;

  • разработана прикладная модель автоматического транскриптора, адаптированная к предложенным алгоритмам пофонемного распознавания;

  • реализовано прикладное программное обеспечение, демонстрирующее работу предложенных алгоритмов пофонемного распознавания;

  • решена задача организации и поиска данных в большом словаре транскрипций;

  • сформирована концепция распознавания синтаксически связанной фразы.

Перечисленные научные результаты являются обоснованными и достоверными.

Теоретические результаты, полученные в диссертационной работе, будучи дополнены алгоритмами морфологического и синтаксического анализа текста, могут быть использованы в качестве основы (нижнего уровня) для построения многоуровневой системы распознавания казахской речи.

Прикладные программные модули, созданные в процессе диссертационной работы для проведения исследований и тестирования разработанных алгоритмов пофонемного распознавания, в дальнейшем могут быть оформлены в виде самостоятельного голосового движка и/или библиотек классов, пригодных для разработки голосового интерфейса для казахскоязычных пользователей.

Диссертационная работа написана единолично, содержит совокупность новых научных результатов, выдвигаемых для публичной защиты, имеет внутреннее единство и свидетельствует о личном вкладе соискателя в научную отрасль.

^ СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Карабалаева М.Х. Модель системы автоматического распознавания казахской речи // Вторые Ержановские чтения: материалы международной научно-технической конференции. – Актобе, 2007. – С. 433-437.

2. Карабалаева М.Х. Реализация системы автоматического распознавания казахской речи // Информационно-коммуникационные технологии как основной фактор развития инновационного общества: материалы международной научно-практической конференции. – Усть-Каменогорск, 2007. – С. 271-277.

3. Шарипбаев А.А., Карабалаева М.Х. Дикторозависимая система распознавания казахской речи: модель, реализация, тестирование // Қазақстан Республикасы Ұлттық ғылым академиясының баяндамалары. – Алматы, 2007. – №5. – С. 10-17.

4. Карабалаева М.Х. Выбор фонетических категорий для классификации нейронной сетью при решении задачи распознавания речи // Труды международной научно-практической конференции «Информационно-инновационные технологии: интеграция науки, образования и бизнеса». – КазНТУ им. К.И. Сатпаева, Алматы, 2008. – С. 180-182.

5. Карабалаева М.Х. Шарипбаев А.А. Алгоритмы пофонемного распознавания казахской речи в амплитудно-временном пространстве // Материалы Всероссийской конференции с международным участием «Знания – Онтологии – Теории». – Новосибирск, 2009. – Т.2. – С. 168-172.

6. Karabalayeva M.Kh. Some algorithms of phoneme recognition in the amplitude-time space // Abstracts of the Third Congress of the World Mathematical Society of Turkic Countries. – Almaty, 2009. – Vol.2. – P. 152.

7. Карабалаева М.Х. Система распознавания целых слов с использованием динамического выравнивания времени // Қазақстан Республикасы Ұлттық ғылым академиясының хабаршысы. – Алматы, 2009. – №6. – С. 7-11.

8. Карабалаева М.Х. Распознавание звука [қ] на основе предварительной сегментации речевого сигнала с применением двухпорогового скалярного распознавателя // Вестник Евразийского национального университета им. Л.Н. Гумилева. – Астана, 2010. – №6.

^

ТҮЙІН СӨЗ



Қарабалаева Мүслимә Хизятқызы


Сөйлеу сигналдарының сегментациясы негізінде қазақ сөздерін

фонемдік танудың математикалық және бағдарламалық қамтамасы


05.13.11 – Есептеу машиналары мен кешендерін және компьютерлік желілерді математикалық және бағдарламалық қамтамасыз ету


Ұсынылып отырған диссертациялық жұмыс қазақ тіліне қолданылатын сөйлеу интерфейсін оның төменгі (акустикалық, фонетикалық, фонологиялық) деңгейлерінде зерттейтін толық ғылыми жұмыс болып табылады. Зерттеу барысында төмендегідей нәтижелер алынды:

  • сөйлеуді автоматты түрде өңдеуге дыбыстарды ыңғайлы табиғи кластарға бөлуге бағытталған қазақ тілінің фонетикалық құрылымының моделі құрылған;

  • қазақ тіліне қолданылатын алдын-ала сегментация негізінде дыбыстарды жіктеу және танудың алгоритмдері зерттелген;

  • дыбыстарды, соның ішінде қазақ сөздерінің кейбір ерекше дыбыстары үшін жіктеудің және танудың жаңа алгоритмдері жасалған;

  • ұсынылған фонемдік тану алгоритмдеріне бейімделген автоматты транскриптордың қолданбалы моделі жасалған;

  • ұсынылған фонемдік тану алгоритмдерінің жұмысын көрсететін қолданбалы бағдарламалық қамтама жасалған;

  • үлкен транскрипция сөздігінде деректерді ұйымдастыру және іздеу есебі шешілген;

  • синтаксистік байланысқан сөйлемді тану концепцпиясы құрылған.

Диссертациялық жұмыста мәтінді морфологиялық және синтаксистік талдау алгоритмдерімен толықтырылып алынған теориялық нәтижелер қазақ сөздерін танудың көпдеңгейлі жүйесін құруда негіз (төменгі деңгей) ретінде қолданылуы мүмкін.

Диссертациялық жұмыс үдерісінде жасалған фонемдік тану алгоритмдерді зерттеу және тестілеуге арналған қолданбалы бағдарламалық модулдер кейінірек өзіндік дыбыстық қозғаушы және/немесе қазақтілді қолданушыларға арналған дыбыстық интерфейсті жасау үшін қажетті кластар кітапханасы түрінде безендірілуі мүмкін.

SUMMARY


Karabalayeva Muslima Khizyatovna


Mathematical support and software for phoneme recognition of Kazakh speech

based upon segmentation of the speech signal


05.13.11 – Mathematical Support and Software for Computers, Computing Complexes and Computer Networks


The present dissertation is a consistent research work studying the speech interface at its lowest (acoustic, phonetic, phonological) levels with respect to the Kazakh language. In the course of research the following results were obtained:

— a model of the Kazakh phonetic system aimed to divide sounds into natural classes suitable for automatic speech processing was built;

— existing algorithms of classification and recognition of sounds based upon preliminary segmentation were examined with regard to Kazakh;

— new algorithms of classification and recognition of sounds were designed, including some for a few specific Kazakh sounds;

— an application-oriented model of the automatic transcriptor adapted to the introduced phoneme recognition algorithms was designed;

— application software demonstrating the work of the introduced phoneme recognition algorithms was designed;

— the problem of data organization and search in a big dictionary of transcriptions was solved;

— a concept of recognition of a syntactically bound phrase was formed.

The scientific results are substantiated and reliable.

The theoretical results obtained in the dissertation if being supplemented with algorithms of morphological and syntactic analysis of text can be used as a (low-level) basis for building a multilevel system of Kazakh speech recognition.

Application units designed in the course of research to study and test the phoneme recognition algorithms can be put into the shape of an independent voice engine and/or class libraries in the sequel. It will be possible to use them to develop a speech interface for Kazakh speaking users.


Подписано в печать 19.10.10 г. Формат 60×84/16.

Объем 1 п.л. Тираж 100 экз. Заказ № 172.


Редакционно-издательский отдел ЕНУ им. Л.Н. Гумилева

г. Астана, ул. Мунайтпасова, 13.







Скачать 333,05 Kb.
оставить комментарий
Дата15.10.2011
Размер333,05 Kb.
ТипАвтореферат, Образовательные материалы
Добавить документ в свой блог или на сайт

Ваша оценка этого документа будет первой.
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Загрузка...
Документы

наверх