Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Спектральное описание речевого сигнала




КЛП - анализ речи.

Выделение формантных параметров речи.

Клиппирование речевого сигнала.

Спектральное описание речевого сигнала.

ПРИЗНАКОВОЕ ОПИСАНИЕ РЕЧЕВЫХ СИГНАЛОВ

 

Поскольку во всех устройствах распознавания речи и речевых синтезаторах носителями информации являются электрические сигналы (аналоговые и цифровые), предварительно дадим некоторые определения и рассмотрим численные характеристики некоторых из них.

Речевой аппарат говорящего подобен резонатору – устройству, при возбуждении которого рождается акустический сигнал, преобразуемый с помощью микрофона и усилителя в электрический сигнал. При неизменных параметрах резонатора (положение языка, губ, нёба) генерируется акустический сигнал с постоянной частотой – сигнал основного тона.

 

При этом частота основного тона мужских голосов лежит в пределах 130 – 146 Гц, женских – 188 – 295 Гц. В тех случаях, когда речь содержит сильные ударения, эмоционально окрашена (крик) частота основного тона поднимается до 400 Гц.

При произнесении связной речи речевой аппарат человека находится в постоянном движении – непрерывно перестраивается. Это рождает в речевом сигнале так называемые обертоны – сигналы с частотой кратной основному тону, что делает речевой сигнал насыщенным и воспринимается ухом человека лучше.

Частотный диапазон речи равен 20 – 20000 Гц (как правило, меньше). В телефонном канале этот диапазон существенно меньше – 1000 – 6000 Гц без заметной потери информации при разговоре.

Так как речевой сигнал трудно обрабатывать, его заменяют рядом признаков, которые должны представлять речевой сигнал в процессе его обработки в ЭВМ.

Признаками речевого сигнала принято называть совокупность параметров, которая непосредственно используется при распознавании и синтезе речи.

Известно несколько методов анализа речевого сигнала с целью выделения его признаков:

 

Далее кратко рассмотрим их суть.

 

Речевой сигнал, полученный с микрофона и усиленный до заданного уровня, может быть разложен на гармонические составляющие или представлен как интеграл бесконечного числа гармонических составляющих:

F (t) = Σ Cn Сos (n ω t) (1)

n=0

где: n- номер гармоники;

Cn-амплитуда гармоники;

ω -угловая частота

(напомним, что ω = 360f, где f – обычная

частота).

Спектром сигнала F(t) называют совокупность простых гармонических колебаний, на которые может быть разложено сложное колебательное движение. По сути, выражение (1) является аналитическим спектром функции F(t). При этом гармонические колебания имеют дискретный спектр (рис. 1).

Рис. 1.

 

Рис. 2. б)

 

Основным способом разложения сигнала в спектр является преобразование Фурье с последующей полосовой фильтрацией.

 

 

Речевой сигнал обычно анализируется в полосе частот от 50 Гц до 12 кГц или меньше (300 – 3400 Гц в телефонном канале). Число спектральных полос не поддаётся точному расчёту и подбирается экспериментально (от 5 до 16, а иногда значительно больше). Для определения амплитуд спектральных составляющих используется детектирование.

В результате спектрального разложения речевого сигнала (фонем) получают «спектральный портрет» звукового образа речи:

 

А0, А1, А2,…… Аn

ω1, ω2,….. ωn

где: Ai – амплитуды гармоник;

ωi – частоты гармоник.




Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 980; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.