Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Структура и функции предпроцессора




 

Как уже отмечалось выше, предпроцессор, являясь специализированным вычислительным устройством аналого-цифрового типа, выполняет первичную обработку и преобразование речевого сигнала.

В основу алгоритма работы предпроцессора могут быть положены различные методы образования признаковых параметров, характеризующих аналоговый речевой сигнал. В зависимости от выбранного метода изменяется не только структура предпроцессора, но и в той или иной мере и структура всего УРВ. В приведённой на рис. 5 структурной схеме предпроцессора используется метод разложения речевого сигнала на его спектральные составляющие с последующим преобразованием составляющих спектра в цифровую форму.

 

В структуре предпроцессора можно выделить несколько основных блоков (второстепенные блоки опущены, так как они играют вспомогательную роль). На структуре предпроцессора приняты следующие обозначения:

М – микрофон диктора;

У – усилитель, осуществляющий усиление сигнала, поступающего с микрофона и нормирующего амплитуду (размах) речевого сигнала до необходимого уровня, принятого в данном устройстве (ПП);

БПФ – блок полосовых фильтров «вырезающих» из широкополосного речевого сигнала ряд гармонических сигналов с частотами f1, f2, f3, …,fn.

 

 

В блоке полосовых фильтров (БПФ) количество элементов выбирается в зависимости от заданного диапазона частот речевого сигнала и составляет для разных вариантов УРВ величину n =5 или 12 или 16, а иногда значительно больше. Частота f1 является (как правило) частотой основного тона речевого сигнала.

На выходах БПФ образуется n напряжений синусоидальной формы Uf,i, которые по частоте равномерно распределены в диапазоне f1 – fn. Этот набор «гармоник» представляет собой спектр речевого сигнала, зафиксированного в ряде точек частотного диапазона речевого сигнала. Гармонические колебания Uf,i подаются на соответствующие входы блока детектирования для дальнейшей обработки спектральных составляющих речевого сигнала.

БД – блок детектирования; осуществляет образование и запоминание максимальных амплитуд сигналов Uf,i в каждом из частотных каналов (или амплитуд этих сигналов, превышающих заданный уровень).

КОМ – высокочастотный коммутатор, осуществляющий (под управлением МП) подачу компонентов X1,к – Xn,к на АЦП.

АЦП – аналого-цифровой преобразователь; преобразует двоичный код в к- ом столбце в вектор-столбец – набор цифровых данных а1к – аnк.

Временная диаграмма, иллюстрирующая работу предпроцессора, приведена на рис. 6. Временная диаграмма построена в сокращённом виде – всего для 3-х частотных каналов (1-го – 3-го из 16), что не влияет на общность рассмотрения.

 

С выхода усилителя У (рис. 5), нормированный по амплитуде речевой сигнал X(t) поступает на блок полосовых фильтров (БПФ), на котором он преобразуется в гармонические составляющие Uf1 – Uf3. Синусоидальные сигналы поступают на блок детектирования БД, который преобразует

(детектирует) гармонические сигналы, то есть фиксирует максимальную амплитуду сигнала на отрезках времени, на которых гармонический сигнал положителен (Ufi >0). На выходах блока детектирования, таким образом, возникают прямоугольные сигналы X1(t) – Xn(t), где n – номер частотного канала. Длительность этих сигналов уменьшается в соответствии с возрастанием номера частотного канала.

Параллельно с образованием указанных выше сигналов производится формирование двоичной матрицы (рис. 6), которая представляет собой «цифровой портрет» речевого сигнала, состоящий из двоичных единиц и нулей. Каждый элемент матрицы образуется в момент появления синхроимпульса (СИ), который фиксирует номер отсчёта по времени.

Элемент матрицы принимает значение «1», если сигнал Xi (t) имеет высокий уровень и равен «0 в противном случае. Сформированный на очередном отсчёте столбец матрицы (а1, а2, а3,…,аn) записывается в ОЗУ-ЭТ (рис. 4).

 

В результате обработки речевого фрагмента в ОЗУ эталонов формируется матрица эталонов. В режиме распознавания формирование матрицы речевого сигнала (матрицы реализации) осуществляется аналогично.

 

 

На рис. 7 приведена матрица признаков распознаваемого слова.

 

Строки матрицы (16 строк) соответствуют номеру частотного канала, а столбцы – номеру отсчёта по времени.

В режиме распознавания, выполняется последовательное сравнение всех эталонов словаря с набором аналогичных признаков, полученных при произнесении слова (команды) в микрофон УРВ. В результате формируются меры сходства (или несходства) со всеми эталонами.

 

По результатам анализа полученных мер сходства микропроцессор принимает решение и передаёт его на дисплей (Д) и в интерфейсный блок.

Сравнение эталонов и вычисление мер сходства сопряжены с трудностями. Например, возникает задача их нормализации по длительности, так как при речевом вводе одного и того же сообщения могут быть значительные отличия формы и величины исходного сигнала с микрофона из-за нелинейного изменения темпа речи или силы голоса.

Амплитудные изменения учитываются при обработке речевого сигнала в предпроцессоре (ПП). Изменения в темпе произнесения учитываются более сложным путём, например, нормализацией сигнала по времени, разбиением его на определённое число интервалов.

Используются, так же алгоритмы динамического программирования ( ДП), обеспечивающие наилучшее возможное выравнивание между неизвестным высказыванием и эталоном.

Для реализации процедуры ДП составляется матрица различия двух образов: реализации (распознаваемого слова) и очередного эталона, с которым производится сравнение. Для выполнения процедуры ДПпервый столбец матрицы признаков слова сравнивается со всеми столбцами признаков эталона. Оцениваются меры близости этих отдельных отсчётов – частичные меры. Они заносятся в первую строку формируемой таким образом матрицы различия образцов.

 

Для определения частичной меры схожести можно воспользоваться, например, простейшим правилом: при полном совпадении кодов в каждом из разрядов столбцов результат равен сумме разрядов столбцов (16 в нашем случае, рис. 7), при совпадении в половине разрядов – 8 и так далее. В случае определения меры отличия (несходства) – картина обратная – результат равен нулю при полном совпадении кодов и нарастает в зависимости от степени отличия.

Затем, берутся остальные столбцы матрицы признаков слова, и каждый из них последовательно сравнивается со столбцом матрицы признаков эталона. В ходе такой процедуры последовательно заполняется вторая и остальные строки матрицы различия образов.

Чтобы определить меру различия двух образов, необходимо просуммировать частичные меры различия по любому пути, соответствующему возможным деформациям оси времени. При этом оптимальная деформация даёт минимальную меру различия образов.

Для нахождения оптимального пути используют аппарат ДП. Один из возможных вариантов процедуры ДП выглядит так:

 

 

М (i, j) = min{M(i-1,j) + m(i, j);

M(i-1, j-1) +2m(i, j); (3)

M(i, j-1) +m(i, j), где:

 

I - Координата по оси ординат – номер отсчёта признаков распознаваемого слова;

J -Координатапо осиабсцисс – номер отсчётов признаков эталона;

M -Полная мера различия в точках матрицы;

m- Частичная мера различия.

На основе выражения (3) строится матрица оптимального пути и подсчитывается мера M(I,J) в его конце.

Как видно из изложенного выше процесс распознавания, состоящий из вычисления мер сходства (различия) реализации и эталона очень трудоёмкий процесс. Поэтому для реализации алгоритмов ДП используется специализированный процессор, так как решение этой задачи программными средствами приводит к большим затратам времени.

Учитывая относительно большой словарь УРВ, а также тот факт, что каждое слово произносится некоторое время (разное для разных слов), ДП - процессор, кроме того, должен нормировать время произнесения и слова и в приемлемое время дать ответ о сходстве (несходстве) произнесённого слова и эталона. Поэтому ДП - процессор реализуется аппаратно.

 




Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 284; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.016 сек.