Верификация и идентификация icon

Верификация и идентификация


Смотрите также:
Верификация автоматных программ...
Особенности реализации систем идентификации диктора...
Избранные научные работы д м. н. И. О. Перепечиной Перепечина И. О...
Идентификация, измерение характеристик и имитация случайных сигналов...
Активная идентификация сборник научных трудов нгту. 2006...
План лекции: Сущность криминалистической идентификации и диагностики...
«Схемы без памяти»...
Реферат Отчёта по нир на тему: Разработка и внедрение автоматизированной информационной системы...
Литература Методы классической и современной теории автоматического управления: Учебник в 5-и тт...
Модель вероятностных многоагентных систем и их верификация...
Верификация физической нереализуемости гравитационных сингулярностей...
Акчурин И. А. Типология и идентификация личности // Вопросы философии. 1994. №5...



Загрузка...
ВЕРИФИКАЦИЯ И ИДЕНТИФИКАЦИЯ

ГОВОРЯЩЕГО.


Галунов Валерий Иванович,

Профессор С-Петербургского Государственного Университета

Председатель Секции автоматического распознавания и синтеза речи

Совета по распознаванию образов РАН


Введение.



Системы определения индивидуальности говорящего по речевым характеристикам развиваются в последнее время очень активно. Интерес к решению прикладных задач в этом направлении вполне понятен. Прежде всего этот интерес определяется наличием широкого круга практических приложений, которые могут быть разделены на два обширных класса:

1. Проверка прав доступа к различным системам (информационным и физическим):

- каналы связи;

- вычислительные системы;

- базы данных;

- банковские счета;

- служебные и индивидуальные помещения ограниченного пользования (секретность, материальные ценности и т.п.);

- различные устройства и механизмы (транспортные средства, оружие и т.п.);

- и т.д.

Преимущества установления индивидуальности по голосу при решении подобных прикладных задач очевидны:

- голос не отчуждаем от человека (в отличии от ключа, магнитной карты и даже пальца с его отпечатками);

- он не требует непосредственного контакта с пропускной системой (как это необходимо для отпечатка пальца, ладони, подписи), возможно использование телефонного канала.

2. Криминалистическая экспертиза:

- анализ записей переговоров при различных аварийных ситуациях (например, авиационных катастрофах);

- анализ записей телефонных переговоров при санкционированном их прослушивании;

- доказательство в суде

- и т.п.

В последнее время интерес к идентификации говорящего по голосу усилился в связи с нарастающем использованием автоматических речевых технологий:

- запросы о состоянии банковских счетов и банковские расчеты по телефону;

- запрос информации из баз данных по телефону;

- автоматическая оплата междугородних телефонных переговоров;

- и т.п.

Многие варианты использования речевых технологий (автоматическое распознавание и синтез речи) предполагают автоматическую идентификацию пользователя. Прежде всего, это касается использования речевых технологий в телефонных сетях, где приходится решать все задачи обработки в их единстве: распознавание и синтез речи, распознавание личности говорящего и компрессия речи.

^

I. Классификация систем определения индивидуальности говорящего по речи.




1.1. Идентификация и верификация.


Классическим считается разделение задач определения личности говорящего на верификацию и идентификацию. При этом под верификацией подразумевается следующая ситуация. Говорящий объявляет, кто он такой (называет фамилию, PIN - код или любым другим способом заявляет о своей индивидуальности). Система автоматического распознавания индивидуальных характеристик голоса и речи (или эксперт) должна подтвердить или отвергнуть индивидуальность говорящего. В принципе заявление об индивидуальности (а следственно, и правами доступа к тем или иным системам, средствам, информации и т.п.) может сделать как истинный носитель данной индивидуальности, так и злоумышленник. Задаваясь стоимостью возможных потерь в случае возможного несанкционированного доступа злоумышленника можно (для данной системы) рассчитать вероятность, с которой система не должна пропускать "чужого".


Типичная (простейшая) схема верификации представлена на рис.1.




Речевой сигнал Параметризация Вычисление Принятие Результат

расстояния решения верификации


(принятие/отказ)







Обучение Эталонная модель Порог

(диктор N m)


В целом система верификации может быть охарактеризована 2-мя вероятностями: ошибки 1-го рода (захват ложной цели или, в нашей интерпретации, это принятие злоумышленника за зарегистрированного пользователя) и ошибки 2-го рода (пропуск цели или отказ признать зарегистрированного пользователя). Каждая данная система может перестраиваться таким образом, что ошибки одного рода могут быть уменьшены за счет увеличения ошибок другого рода (даже при сохранении всех других факторов, влияющих на вероятность ошибки: длительность и характер речевого сообщения, помехи и т.п.). Изменение соотношения ошибок 1-го и 2-го рода достигается за счет изменения порога принятия решения.

Чистая идентификация подразумевает следующую ситуацию. Имеется ограниченная и строго контролируемая группа пользователей системы. При поступлении речевого сигнала на вход системы определения индивидуальных речевых характеристик эта система должна определить, кто из пользователей в настоящий момент вступает в речевой контакт с системой ограниченного доступа. В определенном смысле так формулируемая задача идентификации говорящего проще задачи верификации, сформулированной выше. В этом случае исключена ситуация возможного злоумышленника. Разделение же допущенных пользователей (особенно при их небольшом количестве) может оказаться более простой задачей , чем задача верификации.


Типичная схема идентификации представлена на рис.2.

Результат

идентификации

Пароль

Вычисление

расстояния

Выбор

минимума

Обучение
Результат

идентификации




Эталонная модель

(диктор N1)


Эталонная модель

(диктор N2)




Эталонная модель

(диктор N n)


^ ФОРМИРОВАНИЕ ЭТАЛОНОВ

Система может быть охарактеризована средней вероятностью правильной идентификации.

К сожалению, среди возможных применений ситуация чистой идентификации возникает достаточно редко. Примерами могут быть анализ и протоколирование переговоров экипажей, выявление каналов утечки информации при контроле телефонных разговоров и т.п.

В большинстве приложений (особенно коммерческих) возникает ситуация, так называемой открытой идентификации ("open set identification"). В этом случае ситуация аналогична описанной выше верификации, но отличается тем, что пользователь не объявляет свою индивидуальность (фамилию, PIN-код или другой индекс индивидуальности) и система должна сверить поступивший речевой сигнал со всеми речевыми эталонами зарегистрированных пользователей. Таким образом, задача открытой идентификации совпадает с задачей многократной верификации.

Следует отметить еще один специфический вариант задачи верификации. Возможно возникновение такой ситуации, когда злоумышленник не пытается получить доступ к системе ограниченного пользования. Он предоставляет сделать это санкционированному (зарегистрированному) пользователю системы. Например, (и это наиболее вероятная ситуация), это закрытый канал связи. После того как доступ к системе открыт злоумышленник может заменить санкционированного пользователя и попытаться получить доступ к интересующей его информации или передать в систему связи какие-либо команды. Задачей системы идентификации в описанной ситуации является обнаружение смены индивидуальности говорящего. Очевидно, что смена говорящего (т.е. смена зарегистрированного пользователя злоумышленником) будет происходить скорее всего во время паузы. Таким образом, после каждой паузы необходимо подтверждать идентичность говорящего. Основной целью в данном случае для системы является вскрытие самого факта проникновения в канал связи злоумышленника.


^

1.2. Групповая идентификация.



До этого мы рассматривали задачи непосредственной идентификации личности говорящего. Наряду с этим следует указать еще на ряд задач, связанных с групповой идентификацией. В этом случае определяется по речи не индивидуальность говорящего , а некоторый групповой признак: возраст, наличие того или иного акцента или регионального типа произнесения, наличие патологии голоса и т.п. Этот тип задач возникает в основном при криминалистической экспертизе или контроле каналов связи. Чаще всего решение таких задач опирается на экспертную оценку анализируемого речевого сообщения и использует автоматические способы анализа только на предварительном этапе или как вспомогательные.

^

1.3. Текстозависимые и текстонезависимые системы идентификации.



Все перечисленные выше виды задач верификации и идентификации могут быть разбиты на два больших класса в зависимости от используемого речевого материала: тексто-зависимые и тексто-независимые. Разница между этими двумя классами заключается в том, является ли идентифицируемый речевой отрезок лингвистически идентичным эталонному или нет. Очевидно, что совпадение лингвистической формы 2-х сравниваемых речевых сообщений облегчает процесс идентификации (верификации). Однако в практических задачах такое противопоставление не является абсолютным. Во-первых, сами анализируемые сообщения могут быть достаточно продолжительными, для того, чтобы в них можно было выбрать лингвистически идентичные отрезки. Во-вторых, сама процедура идентификации говорящего может оказаться принципиально тексто-независимой, хотя и опираться на идентичные по своей структуре речевые отрезки. Последняя ситуация характерна для комерческих систем, использующих так называемые процедуры "с подсказкой". В этом случае пользователь использует для вхождения в систему парольные слова, подсказываемые ему системой , но сама система из соображений экономии вычислительных мощностей (а следовательно и времени реакции) использует "упрощенные" тексто-независимые процедуры.

^

1.4. Автоматические и экспертные системы.



По способу решения задачи идентификации могут быть разделены на автоматические системы и субъективные (экспертные). Экспертные методы исходно появились в связи с присущей человеку способностью различать индивидуальные голоса. При этом субъективная экспертиза может опираться как на слуховой анализ речевых сообщений, так и на анализ видеограмм, т.е. на то или иное визуально анализируемое изображение речевого сигнала

Преимуществом слухового анализа является то, что способность к определению индивидуальности на слух является имманентно присущей речеслуховой системе человека. К сожалению, психоакустических работ, связанных с анализом этой особенности человека очень мало. Скорее всего анализ знакомых и незнакомых голосов использует разные процедуры. Более того, соответствующие центры в мозгу находятся в разных полушариях. Кроме того дискриминационные возможности слуховой системы (вопреки имеющемуся мнению) относительно индивидуальных характеристик весьма ограничены.

Однако в настоящий момент следует учитывать два фактора, которые дают преимущества слуховым методам анализа индивидуальности говорящего:

1. Слуховая система использует различительные признаки., отличающиеся от тех, которые используются большинством автоматических систем. Голоса, очень похожие субъективно, хорошо различаются автоматическими системами, и наоборот. В практических задачах может быть использована двухступенчатая процедура идентификации говорящего. На первом этапе автоматическая система производит отсев кандидатов, не допуская при этом ошибок второго рода (пропуска цели). Тем самым сокращается объем работы эксперта по слуховому анализу для окончательного решения. При этом сохраняется возможность сравнивать по субъективным различительным признакам голоса плохо различимые системой автоматической идентификации говорящего.

2. Речеслуховая система для идентификации говорящего использует как правило яркие отличительные черты, характерные именно для данного индивидуума. Для систем автоматической идентификации характерен статистический подход, который не адекватен невероятностным различительным признакам: наличие какой-либо патологии голоса или речи, яркие акцентные или диалектные черты, заикание и т.п. При этом следует отметить, что речеслуховая система использует параллельно и индивидуальные признаки речевого сигнала, имеющие вероятностный характер: высота голоса, тембр, (т.е. определенное спектральное наполнение) и др. Таким образом, слуховая система использует не только другие признаки, чем ныне существующие системы идентификации говорящего, но и принципиально другой подход к решению задачи идентификации. Слуховые методы идентификации слабо освещены в литературе.

Помимо слуховых методов при субъективной оценки индивидуальности говорящего возможно использование зрительного анализа тех или иных видов визуализированной речи. Явным преимуществом такого подхода является возможность длительного во времени анализа картинок "видимой речи" ( в отличии от мгновенного слухового впечатления). Однако сама возможность идентификации говорящего с помощью того или иного визуального анализа в научном плане слабо обоснована. В 60-х годах в США была популярна методика анализа визуалограмм Керста. Она была даже принята как официальная для доказательства в суде. Однако после одного из громких судебных процессов ряд ведущих речевиков показал, что реально экспертиза по методике Керста не достоверна. В настоящее время наблюдается явный ренесанс в использовании визуальных методов, который определяется как ростом технической вооруженности, так и накоплением знаний о речи, отображаемой в видеограммах.


^

2. Научная сторона проблемы.



Как видно из рисунков 1,2 система верификации (идентификации) говорящего по речи разбивается на три сравнительно независимые части:

- выделение различительных признаков, или способа параметризации речевого сообщения;

- процедуры построения эталона для данного диктора (дикторов)

- принятие решения об индивидуальности говорящего.


Рассмотрим их порознь.

^

2.1. Различительные признаки.



К проблеме выбора различительных признаков (или выбора модели и способа описания или параметризации речевого сигнала) с позиций определения индивидуальности говорящего возможно три подхода. Следует учесть, что основной функцией речевой коммуникации является передача смыслового содержания. Индивидуальные особенности речи наложены на структуры, определяющие это смысловое содержание и существуют постольку, поскольку они не мешают коммуникативному акту. Отсюда следует прежде всего вывод о том, что индивидуальные черты речи не выделяются в виде отдельных параметров, а существуют во взаимодействии с параметрами определяющими лингвистическую структуру и смысловое содержание речевого сообщения. Индивидуальные особенности существуют только вследствие значительной помехоустойчивости речевой системы, позволяющей реализовать коммуникативный акт при наличии значительной вариативности одинаковых сообщений (индивидуальной, эмоциональной, ситуационной и др.).


^

2.1.1. Существенно индивидуальные особенности речи и голоса.



Речь каждого индивидуума обладает только ему присущими отличительными чертами. Связано это с тем, что в речевой системе отсутствует понятие абсолютной нормы, как на сегментном (фонетическом) уровне, так и на уровне просодических характеристик (интонация, ритмика). Индивидуальная форма образуется под влиянием целого ряда факторов в процессе обучения (овладения) речи. Это могут быть региональные или диалектные особенности произношения отдельных звуков. Это могут быть дефекты речи (по некоторым данным до 30% популяции). Это могут быть социальные варианты произношения звуков и интонирования. Набор таких особенностей формирует речевой "паспорт" говорящего индивидуума. Однако такое определение говорящего по определенным причинам не используется при автоматической идентификации. Связано это прежде всего с недостаточностью знаний о построении речевых кодов, т.е. прежде всего с отсутствием понимания (модели) того, как кодируется в речевом сигнале лингвистическая, смысловая информация и где в этом коде допускаются "сбои", связанные с существенно индивидуальными особенностями.

^

2.1.2. Индивидуальные характеристики, связанные со строением и функционированием речеобразующего аппарата.



Исходя из общепринятой акустической модели речеобразования (Т.-Л.Гельмгольц, Г.Фант) можно заранее прогнозировать, где можно ожидать появления индивидуальных особенностей речи, указанного вида. Прежде всего это характеристики голосового источника и характеристики акустического фильтра, т.е. артикуляторного тракта. Лингвистическая структура речевых звуков формируется акустическим фильтром. Вследствие этого его характеристические параметры должны в меньшей степени зависит от индивидуальных особенностей артикуляторного тракта. Такие особенности должны компенсироваться за счет положения активных артикуляторных органов. Функцией же голосового источника считается только возбуждение звука в речеобразующем тракте. Вследствие этого можно ожидать большей вариативности именно в работе голосового источника.

В связи с голосовым источником можно указать следующие параметры, связанные с индивидуальными особенностями:

- средняя частота и дисперсия основного тона,

- распределение периодов основного тона,

- амплитудная модуляция периодов основного тона,

- частотная модуляция периодов основного тона,

- соотношение длительностей звонких и шумовых сегментов речевого сообщения,

- контур основного тона на фразе,

- форма возбуждающей волны голосового источника.

Все перечисленные параметры обследовались в той или иной степени относительно определения индивидуальности говорящего. Все они показали в лабораторных условиях сравнительно высокую информативность. Однако в реальных системах практического назначения они своего применения не нашли. Связано это с тем, что помехоустойчивых методов попериодного выделения основного тона практически нет. Сглаживающие (усредняющие по нескольким периодам) методы практически позволяют определить только среднюю частоту основного тона. и при этом в случае зашумленного канала (например, телефонного) так же не дают устойчивых результатов.

При определении индивидуальных особенностей акустического фильтра возможны два подхода:

1. Определения собственно формы артикуляторного тракта, путем решения обратной задачи. Такой подход обладает двумя очевидными недостатками:

- сами методы достаточно громоздки и обладают малой точностью (в частности, предполагают осевую симметрию артикуляторного тракта, что совершенно не соответствует действительности, особенно относительно индивидуальных различий).

- не очень ясно, дадут ли получаемые аппроксимации артикуляторного тракта отчетливые индивидуальные различия; возможно они будут сглажены за счет работы активных артикуляторных органов.

2. Определение тех или иных характеристических параметров, тем или иным способом связанных с акустическим фильтром. Этот подход является основным при построении систем идентификации говорящего. В самом деле привязка в этом случае к форме артикуляторного тракта весьма условная, т.к. реально анализируется форма речевой волны, как таковая. Этот подход практически и рассматривается в следующем разделе.
^

2.1.3. Параметризация речевого сигнала.



В настоящее время для параметризации речевого сигнала с целью автоматической идентификации говорящего широко используется две группы представлений - на базе преобразования Фурье и на базе линейного предсказания. Следует сразу отметить, что и тот, и другой подходы основаны на формальном анализе речевого сигнала. Априори они не дают возможности определить, какой из видов анализа может дать лучшие результаты. Вследствие этого, весь поток работ по автоматической идентификации говорящего сводится к перебору возможных способов параметризации и экспериментальной проверке их эффективности.

Среди опубликованных работ есть данные практически по всем способам параметризации речи. К сожалению, экспериментальная проверка проводится обычно на различном речевом материале. Различия чаще всего состоят в характере шумов и помех. Это не дает возможности окончательно выбрать способ первичной параметризации речевого сигнала.

Наиболее часто используются следующие способы:

- коэффициенты линейного предсказания,

- основные спектральные компоненты,

- кепстральные параметры.

По имеющимся данным среди параметров, связанных с линейным предсказанием, наилучшие результаты дают перцептивные коэффициенты линейного прогноза. Но в целом следует отметить, что универсального метода параметризации скорее всего нет, т.к. все методы по разному реагируют на специфических характер помех.

^

2.2. Способы описания речевого сообщения в целом.



Указанные выше способы параметризации речевого сигнала относятся к первичному описанию речевого сигнала на сегментном уровне. Следующей задачей является описание речевого сообщения, подлежащего идентификации, в целом. Простейшим способом является описание этого сообщения интегрально: средний основной тон, средний спектр, гистограмма распределения кластеров при векторном квантовании (см. далее) и т.п. Этот способ прост и, как показывает опыт, достаточно эффективен.

Среди способов описания временной структуры речевого сообщения наиболее популярны традиционные для речи модели:

- динамическое программирование (Dinamic Time Warping).

- скрытые марковские модели (Hidden Marcov Models).

Наиболее часто в последнее время используются марковские модели, хотя они и обладают повышенной чувствительностью к помехам и искажениям.

^

2.3. Использование векторного квантования.



Наиболее эффективным приемом увеличения надежности идентификации зарекомендовало себя векторное квантование. Суть этого приема заключается в следующем. Параметрическое пространство при формировании эталона для данного диктора разбивается на конечное количество ячеек (кластеров), наиболее подробно описывающее попадание векторов параметризации в это пространство при заданном количестве кластеров. Очевидно, что такое разбиение параметрического пространства является диктороспецифическим. При идентификации говорящего по поступающему речевому сообщению распределение кластеров (либо интегральное по всему сообщению, либо по оси времени) оказывается похожим на эталонное для зарегистрированного пользователя, или отличающееся для злоумышленника.

^

2.4. Проблема эталона и его обновление.



При регистрации эталона для санкционированного пользователя могут возникнуть ряд проблем, затрудняющих дальнейший процесс идентификации. Прежде всего это некачественная запись эталонного речевого сообщения. Часть сообщения может вообще не быть зарегистрирована. Для избежания этого используется слуховой контроль, либо (при полностью автоматизированной процедуре) повторное произнесение эталонного речевого материала и сравнение новой записи со старой. В случае больших различий, запись эталонного материала повторяется и далее "правильными" записями считаются близкие между собой.

Если запись эталонного речевого материала производится при неоднократном его произнесении, то возникает проблема формирования базы эталонных записей. Эффективного способа формирования "среднего" эталона при более или менее сложных способах описания речевого сообщения в настоящий момент не предложено. Чаще всего процедура формирования эталонной базы предусматривает отбрасывание резко отклоняющихся записей.

Аналогичным образом обстоит дело с проблемой обновления эталона. Разумным бы представлялось модифицировать эталонную базу записей при успешной идентификации говорящего путем учета "нового" произношения. Однако эффективной процедуры усреднения (как и в случае формирования исходного эталона) не найдены. Единственным разумным предложением здесь является исключение из эталонной базы тех эталонных парольных слов или фраз, которые при эксплуатации системы не приводят к успешной идентификации. Последнее может возникнуть как за счет неудачного формирования эталонной записи, так и по содержательным причинам (например, неудачный звуковой состав).

^

2.5. Решающее правила.



В задаче верификации чаще всего используется два решающих правила. Обычной процедурой при верификации говорящего считается оценка максимального правдоподобия. При этом на тренированной последовательности (при регистрации пользователя) производится оценка распределения характеристических параметров х для данного диктора, P(x 

В процессе верификации решение принимается по порогу , соответствующему заданной вероятности ошибок 1-го или 2-го рода :


P(x  < , гипотеза принимается

P(x , гипотеза отвергается


. Уровень ошибок задается условиями конкретно решаемой задачи, если тренировочная последовательность невелика, то, естественно, всех параметров распределения (обычно предполагается, что оно близко к нормальному) определить невозможно.

В этом случае для данного диктора делается только оценка среднего, дисперсия же считается некоторой средней величиной для группы дикторов. Чаще всего последнее делается на основе анализа речи дикторов, записанных на исследовательской базе данных. Если же оценку дисперсии можно сделать индивидуально для данного диктора, то порог верификации определяется индивидуально. В этом случае удается получить заметное уменьшение ошибок верификации .

С 1992 г. стал с успехом использоваться так называемый "когортный" метод принятия решения . В этом случае при принятие решения используется оценка распределения параметров не только верифицируемого диктора , но и других дикторов . Решение принимается на основании величины отношения правдоподобия:

lg P(x lg P(x  < , гипотеза принимается

lg P(x lg P(x  > , гипотеза отвергается

Дополнительные дикторы выбираются из вспомогательной базы, записанной в условиях, близких к условиям работы реальной системы верификации. В настоящий момент экспериментально исследованы различные способы формирования "когорты", т.е. набора дикторов имитирующих злоумышленников.

Исследованы такие факторы, как:

- размер "когорты",

- выбор членов "когорты" (случайный или наиболее близкие к верифицируемому дикторы),

- формирование искусственных членов когорты, путем "склеивания"

их эталонов из частей произнесения различных дикторов, близких к верифицируемому диктору,

- и т.п.

Основной прогресс в улучшении работы систем верификации в последнее время связан именно с "когортированием".

Для систем идентификации говорящего (вариант закрытой системы) обычно используется упрощенный вариант решающего правила, при котором не делается оценка распределения вероятностей параметров для данного диктора. На тренировочной последовательности реализуется построением разделяющих поверхностей. При этом используется критерий минимизации ошибок на тренировочной последовательности.

При решении задач закрытой идентификации может быть использован прием варьирования метрики пространства параметризации речевого сигнала. Вместо традиционной евклидовой метрики может быть использована метрика Хемминга, Чебышева, корреляционная функция. И ряд других. За счет изменения метрики может быть получено заметное улучшение результатов.

В принципе этот прием применим и в задаче верификации. Большинством исследователей он не применяется ввиду его теоретической "сомнительности". Используемый обычно при верификации вероятностный подход (его проще всего теоретически обосновать) заставляет предполагать гауссово распределение, т.к. с другими мы не умеем работать и статистика обычно невелика, чтобы делать обоснованный вывод о каком-либо другом виде распределения. Это сразу навязывает евклидову метрику.

В качестве еще одного приема, позволяющего получить хорошие результаты, но не имеющего теоретического обоснования можно указать на следующий. В задаче верификации при поступлении парольного слова или фразы решение может приниматься не сразу, а система в случае "сомнения" запрашивает дополнительный пароль. Окончательное решение принимается по частичным решениям (как по паролям, так и по отдельным признакам) методом голосования. Известно, что метод голосования не имеет универсального решения, но путем комбинации параметров (весов частичных решений и порога принятия решения) можно добиться улучшения результатов, хотя бы на тренировочной последовательности.


^

2.6. Шумы, помехи, искажения.



Наиболее существенным препятствием на пути создания систем идентификации говорящего является изменчивость речевого сигнала.. Прежде всего это изменчивость связанная с вариативностью произношения самого диктора. Для большинства прикладных задач эта вариативность не является основным препятствием. Основные трудности связаны с такими факторами, как различия в условиях записи при регистрации пользователя и при верификации, шумы и искажения в канале связи.

При работе в телефонном канале достаточно эффективным приемом оказывается полосовая фильтрация 400-3500 Гц. При этом эталонные и тестируемые записи оказываются в некоторой степени выравнены относительно различий телефонных трактов.

Другим приемом является так называемый RASTA-фильтрация в этом случае используется то явление, что изменения канала имеют стационарный или медленно-меняющийся характер. Фильтрация соответствующих составляющих дала достаточно хорошие результаты.

Существует еще ряд приемов, связанных с вычитанием среднего спектра. Предполагается , что канал передачи речи линейный и не изменяется во времени. Однако такой способ нормализации не пригоден, если парольные фразы непродолжительны и фонетически не уравновешены. В таком случае идентификация говорящего ухудшается.

Естественным способом компенсации канальных искажений является использование признаков, инвариантных относительно частотных искажений , таких как V кепстр. Однако подобные признаки оказываются малоинформативными относительно индивидуальных особенностей говорящего и , кроме того, они не помехоустойчивы.

В заключении следует отметить что, довольно трудно представить процедуру параметризации и принятия решения, устойчивую к любым видам помех и искажений. Вероятно в каждом случае необходимо искать свое решение.

^

3. Организация систем идентификации говорящего.



На настоящий момент нельзя говорить о том, что сама по себе система автоматической идентификации говорящего может обеспечить абсолютную защиту от проникновения злоумышленника или случайного ее вскрытия. Меры, позволяющие снизить такую возможность можно разделить на организационные и специальные.
^

3.1. Организационные меры.



Типичный сценарий речевой защиты каналов связи (компьютеров, электронных сетей) обычно организуется по принципу "с подсказкой" :

Система: "Наберите Ваш личный код" .

Пользователь - набирает.

Система: "Назовите фамилию".

Пользователь: "Иванов".

Система: "Скажите 321-76-13".

Пользователь - " 327-76-13".

Система :"Скажите: Мама мыла Маню".

и т.д.

Такую процедуру можно использовать для увеличения защищенности системы от проникновения злоумышленника. Здесь важно то, что система ответов пользователя это система паролей, которые известны только ему и они не обязательно являются непосредственным ответом на вопрос системы.


Система запрашивает :

^ "НАЗОВИТЕ ВАШЕ ИМЯ"

Ответ пользователя:

"ЖИРИНОВСКИЙ" (в принципе может быть любое слово , которое служит парольным именем данного пользователя)

Система:

^ "НАЗОВИТЕ ВАШ ЛЮБИМЫЙ ФРУКТ"

Пользователь:

"АВТОМОБИЛЬ"

Система:

"СКОЛЬКО БУДЕТ ДВАЖДЫ ДВА?"

Пользователь:

" ДВАДЦАТЬ ДВА"

и т.д.

Таким образом система прежде всего распознает правильность ответа, знание пароля, а во вторую очередь уже анализирует индивидуальные особенности произнесения. Если пароли неизвестны злоумышленнику, то такая 2-ступенчатая схема дает практически абсолютную гарантию защиты.

Другим примером дополнительных гарантий защиты системы от несанкционированного проникновения может быть хранение речевых эталонов на индивидуальной карте (типа smart-card). В этом случае доступ к системе реализуется только в случае вставления карты. Утеря или похищение последней, будучи обнаружена пользователем , приведет к смене паролей. Это гарантирует пользователя от попыток получить каким-либо образом эталонные записи из системы или вскрыть систему путем кратных попыток.

Неудачные попытки войти в систему, конечно, должны протоколироваться и при необходимости речь злоумышленника должна фиксироваться и сохраняться для дальнейшего расследования.

^

3.2. Специальные меры.



У злоумышленника могут быть три способа преодолеть защиту речевой системы.

Первый из них - это использование магнитофонных записей зарегистрированного диктора, полученных тем или иным способом. Простейший способ защиты системы в этом случае - ограниченное время реакции пользователя на подсказку (вопрос), предъявляемую в случайном порядке. Даже при использовании безкинематического записывающего устройства быстрая реакции злоумышленника практически невозможна. Второй способ защиты - требование повторного произнесения пароля: "живым голосом" точное воспроизведение одного и того же речевого сообщения не возможно. Существуют и другие, более изощренные способы защиты от магнитофонных записей.

Второй прием, который может использовать злоумышленник, - имитация голоса зарегистрированного пользователя. Гарантией от такого способа проникновения является использование в системе плохо имитируемых признаков. Выше уже говорилось, что большинство автоматических систем идентификации говорящего используют системы признаков, отличные от тех, которые использует речеслуховая система. Это практически является гарантией от имитации голоса. Связано это с тем, что имитироваться могут либо медленно меняющиеся параметры, либо отдельные акустические события. Обычные же параметры, используемые автоматической системой , это достаточно быстро меняющиеся и не связанные с произнесением в целом.

Третий возможный путь злоумышленника - применение насилия. Под угрозой санкционированный пользователь произносит необходимые для доступа к системе пароли. Для этого варианта "вскрытия" системы существует по крайней мере 2 варианта защиты. Первый - использование параллельно с системой идентификации говорящего голосового "детектора лжи" , т.е. системы, обнаруживающей возбуждение и напряженность говорящего. Второй - использование параллельного набора паролей, при распознавании которых система реагирует внешне нормально, но в самом деле оповещает службу безопасности.

^

3.3. Некоторые замечания



а). Каждая задача по верификации (идентификации) требует четкой формулировки (и осознания) технических требований которым она должна удовлетворять. Например, снятие денег с банковских счетов по телефону должна обеспечиваться высокой надежностью защиты от злоумышленника (даже за счет некоторых затруднений для пользователя). Голосовая же защиты личного автомобиля не должна затруднять пользователя (с учетом, что действуют и другие противоугонные системы).

Если система должна действовать в очень разных акустических условиях, то необходимо организовать регистрацию речевых эталонов пользователя в максимально различных вариантах таковых.

И т.д.

б). Любая защита может быть вскрыта , если известно, как она устроена. Поэтому конечный продукт должен быть закрыт , как в своей научно-технической, так

и в организационной части.

^

4. Заключение.




4.1. Зарубежные программы, организации, достижения.



Среди речевых исследований за рубежом автоматическая идентификация говорящего занимает в последнее время одно из основных мест. Связано это с указанными выше причинами: необходимость обеспечения безопасности и расширением сферы коммерческого применения речевых технологий. Распознаванием говорящего занимаются десятки организаций , от крупных корпораций до небольших групп. Приведем несколько примеров.

В Европе с 1995 года действует специализированная программа COST 250 "Автоматическое распознавание говорящего в телефонных сетях", головной исполнитель IDIAP- один из наиболее продвинутых коллективов по распознаванию речи в мире. В рамках программы уже создана речевая база данных : более 100 дикторов, телефонный канал, цифры и слитная речь. Программа предусматривает отбор помехоустойчивых признаков для идентификации/верификации говорящего , изучение эргономических вопросов человеко-машинного взаимодействия, изучение возможных приложений систем идентификации/верификации и определение их коммерческой и социальной приемлемости.

Имеются и другие европейские программы ( CAVE, M2VTS и др.). Данные имеются только по коммерческим исследованиям.

Следует обратить внимание на большую европейскую программу формирования речевых баз данных для телефонных приложений SPEECHDAT , головная организация SIEMENS. Она предполагает сбор баз данных на тысячи дикторов для всех европейских языков. В настоящий момент три фирмы сформировали уже подбазы для идентификации говорящего: IDIAP, VOCALIS, MATRA.

В Соединенных Штатах и Канаде имеется также несколько программ. В области опознавания говорящего работают такие гиганты как ITT, ATT, TI, Nortel и др. Среди сильнейших исследовательских групп такие, как Bel Lab., BBN MIT. В США

в 1989 году была создана специализированная база данных для работы с системами идентификации/верификации - YOHO.

В качестве примера предлагаемой реально работающей системы можно привести SpeakerKey (ITT). Надежность по 4 парольным фразам (~20 сек) - 1,7%, равной ошибки 1-го и 2-го рода, обучение системы ~4,5 мин, объем эталона 24Кбайта. Система прошла испытания в реальных условиях на наивных пользователях. (Известно, что любая речевая система дает сильно отличающиеся результаты в лабораторных условиях и при работе с наивными пользователями).

Среди исследовательских систем одно из лучших достижений : Bell Lab, 1% равной ошибки по произнесению 14 цифр, телефонный канал.

Имеется ряд отрывочных данных по использованию систем определения говорящего в военных и специальных применениях.

^

4.2. Состояние дел в России.



Направление определения говорящего по голосу в СССР были начаты вскоре после войны (НИИ-2 МГБ, см. Солженицин А.И. "В круге первом"). Планомерные исследования начались в 1963 году (НИИ Далней связи, Ленинград). Исследования велись по всем направлениям: автоматическая и субъективная идентификация, групповая идентификация (акцент, региональный вариант, возраст, личностный тип и т.п.). С 1981 по 1989 год действовала Государственная программа по автоматическому распознаванию и синтезу речи , где идентификация/верификация говорящего была одним из основных направлений. Головная организация - тот же НИИ Дальней связи. К сожалению в начале 90-х годов речевое отделение в НИИ Дальней связи было полностью ликвидировано. Речевые базы данных (в неоцифрованном виде) частично сохранились на филологическом факультете С-Петербургского Государственного Университета. Государственное финансирование на данный момент полностью отсутствует. Работы по идентификации/верификации практически ведутся только в прикладных направлениях в спецведомствах.

В Секции автоматического распознавания и синтеза речи Совета по распознаванию образов РАН имеются сведения только о следующих группах в России, ведущих исследовании в области идентификации/верификации говорящего:

1. Московский лингвистический университет - субъективный анализ видеограмм.

2. Акустический институт РАН - автоматическая верификация говорящего в телефонном канале ( по заказу Nortel, Канада).

3. Центр речевых технологий (С-Петербург) - субъективный анализ видеограмм, разработка аппаратно-программных комплексов для такого анализа.

4. "Одитек -РД" (Москва, С-Петербург) - автоматическая идентификация и верификация (в том числе в телефонном канале) , разработка программного обеспечения для компьютерных систем и автономные системы идентификации/верификации, имеет речевые базы данных для работ по идентификации говорящего (русский, английский, итальянские языки).

^

4.3. Какие перспективы? Что делать?



Бисмарк говорил: "Кадры решают все!" Россия имела сильнейшую (после американской) школу речевиков. К сожалению, в настоящий момент она почти полностью разрушена. В исследовании речи очень много вещей, не поддающихся формальному описанию и результаты во многом зависят от опыта и интуиции специалиста. Неформализуемые знания плохо поддаются переложению на бумагу и , соответственно, не могут быть получены из литературных источников. В настоящий момент полноценные исследования в любой области речевых исследований в России еще могут быть восстановлены, т.к. специалисты старой российской школы еще работают.

Какие направления исследований представляются перспективными для решения задач идентификации/верификации говорящего:

1. Поиск новых признаков описания речевого сигнала, связанных прежде всего с нелинейными моделями и определением характеристик голосового источника и формы артикуляционного тракта.

2. Новые решающие правила. Перспективным представляется подход, когда данному диктору сопоставляется не ячейка в признаковом пространстве, а проекция речевого сигнала на некоторое подпространство.

3. В любом случае успех может быть достигнут только при наличии полноценной речевой базы данных, на которой можно проводить исследования и проверять эффективность предлагаемых решений.

4. Ввиду того, что уровень возможности построения практических систем идентификации/верификации говорящего достигнут, необходим внимательный анализ эргономических проблем, связанных с решением конкретных задач.

^

Избранная библиография.




Обзорные работы.


[1]. Г.С. Рамишвили "Речевой сигнал и индивидуальность голоса". Изд-во "МЕЦНИЕРЕБА", Тбилиси, 1976, стр. 1-183.

[2]. Г.С. Рамишвили "Автоматическое опознование говорящего по голосу". Москва, Изд-во "Радио и связь", стр.1-224.

[3]. A.A.Rosenberg, F.K.Soong "Recent Research in Automatic Speaker Recognition", in "Advances in Speech Signal Processing, Ed: S.Furui, M.M.Sadhi., N-Y., Hong-Kong.

[4]. S.Furui "Am overvier of Speaker Recognition Technology", in Automatic Speech and Speaker Recognition.

[5]. Yu-Hung Kao, L.Hetsch, P.K. Rajaserarau "Speaker Recognition over Telephone Channels", in "Modern Methods of Speech Processing". Ed: R.P.Romachandron, R.Mamoone.

[6]. Proc. Workshop Automatic Speaker Recognition, Identification, Verification. 1994 (Switzerland).
^

Когортный метод.


[1]. A.E.Rosenberg, S.Parthasrathy. "Speaker Bechground Models for Connected Digit Password Speaker Verification". ICASSP-96, 81-84.

[2]. Ch.W.Che, Q.Lin, D-s. Yuk "Am HMM Approach to Text-prompted Speaker Verification". ICASSP-96, 673-676.
^

Векторное квантование.


[ ]. A.E.Rosenberg, F.K.Soong. "Evalution of a Vector Quntization Talker Recognition System in Text Independent and Text Dependet Modes". Computer Speech and Language, v.2, pp. 143-157, 1987.

[ ]. D.K.Burten "Text Independent Speaker Verification Using Vector Quautization Source Coding". IEEE Trans. ASSP-35.

[ ]. J.He .... "A New Codebook Traning Algorithm for NQ-based Speaker Recognition", ICASSP- 97, 1091-1094.
^

Новые решающие правила и признаки.


[1]. Y.Ariki, S.Tagashira, M.Nishijima. "Speaker Recognition and Speaker Normalization by Projection to Speaker Subspace". ICASSP-96.

[ ]. T.Kohonen "The Self Organization Map". Proc. IEEE, v.78, N9, pp. 1464-1480.

[ ]. M. Schmidt, H.Gish "Speaker Identification via Support Vector Classifiers". ICASSP-96, 105-109.

[ ]. S. Wenndt, S.Shamsunder "Bispectrum Features for Robust Speaker Identifieation. ICASSP-97, 1095-1098.
^

Определение формы артикуляторного тракта по речевому сигналу.


[1]. J.Shroeter, M.M.Soudhi "Techniques for Estiruation Vocal-Tract Shape from Speech Signal" IEEE Trans. SAP-2 , N1, pp. 133-150 (1994).

[2]. Zhenli Yu, P.c.Ching "Determination of Vocal-tract Shapes from Farmaut Frequencies Based on Perturbation Theory and Interpolation Method". ICASSP-96, pp. 369-372.

[3]. B.Doval, Ch. d'Allesandro. "Spectral Correlates of Glottal Waveform Models: an Analytical Study". ICASSP-97, pp. 1295-1299.

[4]. G. Fant .... "Voice Source Parameters in Continious Speech". ICSLP-94, pp. 1451-1454.

Базы данных.


[ ]. A. Higgins, J. Porter, L.Bahler. "YOHO Speaker Authentication", Final Report, ITT Defense Communication Division, 1989.

[ ]. H.Hoge at all "European Speech Databases for Telephone Applications. ICASSP-97, 1771-1775.







Скачать 291.48 Kb.
оставить комментарий
Дата29.09.2011
Размер291.48 Kb.
ТипДокументы, Образовательные материалы
Добавить документ в свой блог или на сайт

отлично
  2
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Загрузка...
Документы

Рейтинг@Mail.ru
наверх