Спектральное описание речевого сигнала

12 Следующая ⇒

КЛП - анализ речи.

Выделение формантных параметров речи.

Клиппирование речевого сигнала.

Спектральное описание речевого сигнала.

ПРИЗНАКОВОЕ ОПИСАНИЕ РЕЧЕВЫХ СИГНАЛОВ

Поскольку во всех устройствах распознавания речи и речевых синтезаторах носителями информации являются электрические сигналы (аналоговые и цифровые), предварительно дадим некоторые определения и рассмотрим численные характеристики некоторых из них.

Речевой аппарат говорящего подобен резонатору – устройству, при возбуждении которого рождается акустический сигнал, преобразуемый с помощью микрофона и усилителя в электрический сигнал. При неизменных параметрах резонатора (положение языка, губ, нёба) генерируется акустический сигнал с постоянной частотой – сигнал основного тона.

При этом частота основного тона мужских голосов лежит в пределах 130 – 146 Гц, женских – 188 – 295 Гц. В тех случаях, когда речь содержит сильные ударения, эмоционально окрашена (крик) частота основного тона поднимается до 400 Гц.

При произнесении связной речи речевой аппарат человека находится в постоянном движении – непрерывно перестраивается. Это рождает в речевом сигнале так называемые обертоны – сигналы с частотой кратной основному тону, что делает речевой сигнал насыщенным и воспринимается ухом человека лучше.

Частотный диапазон речи равен 20 – 20000 Гц (как правило, меньше). В телефонном канале этот диапазон существенно меньше – 1000 – 6000 Гц без заметной потери информации при разговоре.

Так как речевой сигнал трудно обрабатывать, его заменяют рядом признаков, которые должны представлять речевой сигнал в процессе его обработки в ЭВМ.

Признаками речевого сигнала принято называть совокупность параметров, которая непосредственно используется при распознавании и синтезе речи.

Известно несколько методов анализа речевого сигнала с целью выделения его признаков:

Далее кратко рассмотрим их суть.

Речевой сигнал, полученный с микрофона и усиленный до заданного уровня, может быть разложен на гармонические составляющие или представлен как интеграл бесконечного числа гармонических составляющих:

∞

F (t) = Σ Cn Сos (n ω t) (1)

n=0

где: n- номер гармоники;

Cn-амплитуда гармоники;

ω -угловая частота

(напомним, что ω = 360f, где f – обычная

частота).

Спектром сигнала F(t) называют совокупность простых гармонических колебаний, на которые может быть разложено сложное колебательное движение. По сути, выражение (1) является аналитическим спектром функции F(t). При этом гармонические колебания имеют дискретный спектр (рис. 1).

Рис. 1.

Рис. 2. б)

Основным способом разложения сигнала в спектр является преобразование Фурье с последующей полосовой фильтрацией.

Речевой сигнал обычно анализируется в полосе частот от 50 Гц до 12 кГц или меньше (300 – 3400 Гц в телефонном канале). Число спектральных полос не поддаётся точному расчёту и подбирается экспериментально (от 5 до 16, а иногда значительно больше). Для определения амплитуд спектральных составляющих используется детектирование.

В результате спектрального разложения речевого сигнала (фонем) получают «спектральный портрет» звукового образа речи:

А0, А1, А2,…… Аn

ω1, ω2,….. ωn

где: Ai – амплитуды гармоник;

ωi – частоты гармоник.

12 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2014-01-07; Просмотров: 980; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.008 сек.