Синтезаторы с непосредственным

Синтезаторы третьего типа используют метод цифрового моделирования голосового тракта человека.

Аналоговые методы синтеза формантных частот.

Выше было дано определение формантной частоты речевого сигнала. Для удовлетворительного распознавания и синтеза речи достаточно использовать 3 из 6-и старших формант. Тем не менее, использование формантных частот даёт

неестественное звучание речи, что объясняется особенностью источника речи. В устройствах этого типа естественная речь человека не используется, так как синтез речи основан на электронном моделировании голосового тракта человека, поэтому синтезатор «говорит» голосом робота. Кратко процесс синтеза заключается в следующем.

Орфографический текст разбивается на фонемы, которые преобразуются в фонетическое описание текста, затем формируются последовательности управляющих слов, которые используются для управления собственно синтезатором.

Отличительной особенностью этого метода является принципиальная возможность создания синтезатора с неограниченным словарём, так как в основу его положена элементарная частица речи – фонема. Возможность неограниченного словаря никакому другому типу синтезаторов недоступна. Это в значительной степени искупает основной недостаток синтезатора – неестественное звучание речи.

Наиболее распространённая реализация этого метода известна под названием Линейного Предиктивного Кодирования (ЛПК), а синтезаторы называют ЛПК - синтезаторами (термин «предиктивный» означает предсказательный).

ЛПК синтезаторы обладают по сравнению с другими типами синтезаторов преимуществами, связанными с относительной простотой их реализации в виде цифровых микросхем, меньшей стоимостью их производства и меньшей эквивалентной скоростью передачи информации. Словарь в ЛПК - синтезаторе создаётся (как и в синтезаторах первой группы) с участием говорящего человека. Закодированная таким образом человеческая речь на этапе синтеза не подвергается прямому восстановлению. Она обрабатывается специальным цифровым анализатором, и в результате такого анализа образуются так называемые предикторные коэффициенты – параметры, которые используются непосредственно для управления собственно синтезатором. Предикторные коэффициенты представляют собой частотные и голосовые коэффициенты речи. Такой подход позволяет значительно снизить объём необходимой памяти.

кодированием/восстановлением человеческой речи.

Синтезаторы этого типа используют компилятивный метод синтеза. Это означает, что в основу построения синтезатора положен принцип работы по образцам. В качестве образца берётся живая человеческая речь, которая предварительно кодируется, то есть преобразуется в цифровую форму и сохраняется в памяти компьютера.

Принцип кодирования речевого сигнала иллюстрирует рис. 9, а.

На верхнем рисунке приведён фрагмент речевого сигнала А(t). Этот сигнал с помощью устройства, называемого схемой выборки, квантуется с частотой синхроимпульсов (СИ), и на выходе схемы выборки образуются отдельные значения речевого сигнала А*(t). Амплитуда этих сигналов соответствует величине сигнала А(t) в момент выборки, то есть в момент поступления СИ на схему выборки.

Затем, отдельные выборки произнесённого в микрофон слова или фразы преобразуются в код и записываются в память. Массиву байтов, соответствующих слову (фразе), присваивается идентификатор (имя), по которому на этапе синтеза речи можно обратиться к области памяти, где хранится это слово, (фраза). Как видно на рис. 9, а, десяти выборкам речевого сигнала соответствуют 10 байтов, записанных в память компьютера.

На рисунке 9, б приведена простейшая схема выборки, реализованная на базе операционного усилителя (ОУ) с емкостью в цепи отрицательной обратной связи (С). Когда электронный ключ (К) закрыт ёмкость хранит напряжение, равное величине напряжения А(t) в момент закрытия ключа К. На выходе операционного усилителя (ОУ) при этом образуется напряжение -А*(t) равное А(t) (при равенстве резисторов R). С приходом очередного импульса СИ ключ открывается и ёмкость разряжается до напряжения А(t), действующего на входе. С прекращением импульса СИ ключ К закрывается и ёмкость хранит напряжение, поступившее на вход в момент закрытия ключа (с обратным знаком). Работу схемы выборки описывает временная диаграмма, приведённая на рис. 9, а.

Структура синтезатора приведена на рис. 10.

В приведённой структуре можно выделить 3 основных узла:

1. Входной узел синтезатора, состоящий из микрофона (М), фильтра нижних частот (ФНЧ), усилителя (У), схемы выборки и 8-битового АЦП.

2. Компьютер.

3. Выходной узел синтезатора, включающий в себя 8-битный ЦАП, фильтр нижних частот (ФНЧ), усилитель мощности и динамик (Д).

Работа входного узла синтезатора описана выше и не требует особых комментариев. Следует лишь отметить, что фильтр нижних частот, используемый в этом узле, и настроенный на частоту фильтрации сигнала с микрофона (ниже 3 кГц), выполняет задачу подавления высокочастотных помех, приводящих к искажению речевого сигнала А(t). Усилитель (У) доводит амплитуду речевого сигнала до уровня, принятого в синтезаторе.

Схема выборки с частотой 6 кГц производит выборки речевого сигнала A*(t), а аналого-цифровой преобразователь (АЦП) преобразует выборки в цифровые коды (байты). При частоте выборки сигнала 6 кГц среднее количество выборок для слова длительностью 0,3 секунды составляет около 2000 байтов (включая короткие паузы в начале и в конце слова).

Компьютер имеет параллельный 8-битный порт ввода данных с АЦП и параллельный 8-битный порт вывода, откуда данные поступают на вход 8-битного цифро-аналогового преобразователя (ЦАП).

В процессе сбора данных компьютером его резидентная программа переносит информацию из 8-битного АЦП и последовательно записывает её в память.

После произнесения слова процесс выборки заканчивается, а в памяти оказывается записанным цифровое представление слова.

Выходной узел синтезатора представляет воспроизводящую часть синтезатора. Он содержит 8-битный цифро-аналоговый преобразователь, фильтр нижних частот (ФНЧ), который отфильтровывает нежелательные высокочастотные сигналы c выхода ЦАП – A(t)вос, возникающие в восстановленном сигнале. Отфильтрованный сигнал поступает на усилитель мощности, а затем в виде сигнала A*(t)вос на динамик-Д.

Программа воспроизведения речи, хранимая в памяти, – это простая индексирующая программа, которая последовательными шагами просматривает записанную ранее информацию и выводит её побайтно на 8-битный ЦАП.

Речь, которую услышит пользователь по своему звучанию, соответствует голосу говорящего и имеет модуляцию и тональность, как и входной речевой сигнал.

<== предыдущая лекция	\|	следующая лекция ==>
Разновидности синтезаторов речи	\|	Аналоговый синтез формантных частот

Поделиться с друзьями:

Дата добавления: 2014-01-07; Просмотров: 283; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2025) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.01 сек.