Аналоговый синтез формантных частот

В отличие от метода «непосредственного кодирования / восстановления речи», описанного ранее, метод синтеза формантных частот не использует человеческую речь в качестве исходного материала. В этом методе используется известное приближение к человеческой речи с использованием формантных частот.

Существует много вариантов реализации формантного синтеза. Но основные функциональные операции для генерации речи при разных способах формантного синтеза в принципе одинаковы. Все они основываются на детальном знании фонем и фонетическом расчленении речи. По этой причине эта группа методов в литературе получила название «формирование речи по правилам».

При синтезе речи по правилам используется электронная модель голосового тракта человека, то есть синтезатор организован, как некоторое приближение к голосовому тракту. При этом настройка синтезатора в этом случае производится отдельно для каждого фонетического элемента алфавита.

Фонетическое описание представляет собой последовательность элементов фонетического алфавита (включая паузы) с указанием длительности звучания каждого из них. Таким образом, каждому элементу фонетического алфавита ставят в соответствие набор параметров настройки синтезатора.

Наборы параметров настройки синтезатора для каждого элемента фонетического алфавита (ФА) в виде управляющих слов (УС) хранятся в памяти (как правило, в ПЗУ). Код элемента ФА используется, таким образом, в качестве адреса и позволяет найти УС или их последовательность. Каждое УС содержит помимо набора параметров настройки синтезатора { pi } параметр длительности звучания фонологического элемента, флаг цепи УС и ряд других флагов.

Для того, чтобы связать фонему с конкретными формантными частотами, которые характерны для некоторых фонем фонетического алфавита английского языка, рассмотрим таблицу 3.1 соответствия фонем формантным частотам:

Фонема	Как в слове	F1 (Гц)	F2 (Гц)	F3 (Гц)
ee	feet
i	hid
eh	head
ае	had
aw	talk

Для каждого звука в таблице даны три основные (старшие) формантные частоты.

Они наблюдаются в спектрограммах соответствующих фонем, произносимых «средним» мужским голосом. Эти частоты, F1, F2, F3, можно различать визуально на спектрограммах каждой произносимой гласной. Поскольку каждая из этих гласных является «статической», частоты остаются стабильными на протяжении всего времени их произнесения. Нетрудно представить электронную схему, состоящую из трёх параллельных полосовых фильтров, частоты которых настроены на F1 F2 и F3 и возбуждаются задающим генератором с выходным сигналом, аналогичным импульсу, формируемому голосовым аппаратом. Как ни проста эта схема, она может служить основой для создания фонемного синтезатора гласных при условии, что формантные частоты регулируются в пределах, указанных в таблице 3.1.

Таким образом, необходимо задавать параметры, регулирующие характеристики полосовых фильтров, амплитуды генератора шума для воспроизведения шумных согласных, фрикативных согласных, амплитуды носовых (нозальных) гласных, и т.п.

В формантных синтезаторах используется набор от 8 до 15 параметров. Количество параметров влияет на качество синтезируемой речи.

Наиболее часто используется набор, состоящий из следующих параметров:

· F0 – частота сигналов голосового аппарата (частота основного тона);

· A0 – амплитуда сигналов основного тона;

· F1 - F3 – частота фильтров первой, второй и третьей формант произносимой фонемы;

· FN – частота резонатора носовых гласных;

· AFR – амплитуда фрикативных согласных;

· FR – частота резонатора фрикативных согласных;

· AN – амплитуда носовых гласных;

· AГЛ – амплитуда гласных.

Справка ( примеры согласных звуков ):

Носовые гласные – м, н;

Шумные: взрывные – б, г, д; щелевые – в, з, ж;

Фрикативные: ц, ч;

Глайды: р, л;

Взрывные: п, т, к и т.д.

Один из вариантов (практически полный) модели синтезатора приведён на рис. 11.

На рисунке с помощью потенциометров, подключённым к отдельным блокам модели, задаются параметры, управляющие синтезом речи. В указанной схеме используются 10 таких параметров. Такую модель несложно реализовать, но практически она будет неработоспособна, так как задание параметров с помощью потенциометров приводит к чрезвычайно большому времени синтеза.

Выходом из сложившейся ситуации является включение в модель вместо потенциометров резистивных матриц, управляемых с помощью цифрового кода, которые имеют приемлемое время установки параметра.

Структура одной из таких резистивных матриц приведена на рис. 12.

Матрица содержит резисторы Ri, которыеподключаются (отключаются) с помощью быстродействующих ключевых схем (ключей) Ki. В свою очередь состояние ключа (открытое или закрытое) определяется наличием двоичной единицы или нуля в разряде регистра управления Ry. Таким образом, двоичный код, задаваемый с регистра (параметр), быстро преобразуется в величину проводимости матрицы от точки «ВХОД» до точки «ВЫХОД» схемы матрицы, а всё остальное не вызывает затруднений, так как быстрое переключение параллельного выходного порта управляющего компьютера к регистрам управления резистивной матрицей реализуется с приемлемой скоростью.

Выходные напряжения резонаторов фрикативных согласных, н носовых гласных, а также трёх фильтров подаются в смеситель (СМ), на выходе которого образуется формантная речь.

Все 10 регулируемых элементов модели, определяющих величину параметров, составляют так называемые управляющие слова, которые хранятся в памяти компьютера и последовательно подаются в синтезатор. Перенастройка управления синтезатора происходит с частотой 100 Гц. Учитывая, что каждое управляющее слово состоит из 8-битового байта, синтезатором можно управлять при параллельной передаче управляющих слов со скоростью 900 байт/c. Но это ещё не скорость выдачи фонем на выход синтезатора, а всего лишь скорость передачи данных в самом синтезаторе, необходимая для текущих регулировок фильтров, высоты голосового тона и амплитуд при воспроизведении каждой отдельной фонемы. Данная информация хранится, как правило, в специальной управляющей таблице в памяти компьютера отдельно для каждой фонемы и её вариаций – аллофонов. Она вызывается в виде последовательности, которая определяется входной последовательностью фонем в речевом выходе управляющей программы. Например, по каждой фонеме, которая вводится в компьютер, компьютерное управление синтезатором может потребовать до 30 полных перенастроек системы фильтров. Это означает следующее: чтобы компьютер выдавал схеме управления формантного синтезатора по 900 байт в секунду, в программу опроса справочной таблицы, которая управляет синтезатором, требуется вводить всего по 30 байт в секунду. Это соответствует тому, что выдача данных конечному пользователю производится со скоростью около 240 бит в секунду.

В то время как указанные выше скорости перенастройки фильтров могут меняться от системы к системе, зависимость между числом воспроизводимых фонем и размерами управляющей таблицы остаётся практически неизменной. Естественно, чем больше число обращений к справочной таблице по каждой фонеме, тем большей плавностью будет отличаться синтетическая речь и тем ближе будет она по звучанию к естественной артикуляции.

На рис. 13 приведена структурная схема синтезатора формантного типа, реализованного на практике одной из западных фирм. В данной структуре используются всего 8 параметров настройки: частота и амплитуда основного тона (F0, A0), три формантные частоты (F1, F2, F3), амплитуда и частота сигнала шума, задающие свистящие и шипящие звуки (Аш, Fш), а также параметр «придыхания». Приведённая структура синтезатора соответствует модели, рассмотренной выше.

На структуре синтезатора, состоящего из двух трактов, использованы следующие обозначения блоков устройства.

Первый тракт:

ГВОТ – управляемый генератор (F0, A0) высоты основного тона;

У1 – усилитель;

Ф1, Ф2, Ф3, Ф4 – фильтры (сглаживающий – Ф1 и фильтры формантных частот – Ф2,Ф3 Ф4)

Эти компоненты структуры участвуют в формировании гласных звуков. Формирование большинства согласных звуков производится с помощью тех же фильтров при подаче на них сигналов с управляемого аттенюатора (делителя напряжения)(AT) и сигнала шума с генератора шума (ГШ).

Второй тракт:

ГШ – генератор шума;

У2 – управляемый усилитель (ГШ);

Ф5 – управляемый фильтр (ГШ);

СМ – смеситель сигналов первого и второго трактов.

Сигналы от этих трактов подаются на смеситель (СМ) далее на усилитель, к выходу которого подключён громкоговоритель (Гр). Эта схема довольно точно воспроизводит голосовой тракт человека.

На рис. 14, а приведён пример изменения параметров в процессе синтеза речевого сигнала «SIKS», соответствующего произношению английского слова «SIX».

Конструирование речевого сообщения (РС) при формантном синтезе и (вообще по правилам) включает в себя два этапа:

<== предыдущая лекция	\|	следующая лекция ==>
Синтезаторы с непосредственным	\|

Поделиться с друзьями:

Дата добавления: 2014-01-07; Просмотров: 817; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.011 сек.