Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Другие виды вокодеров

 

Как отмечалось выше, мгновенный энергетический спектр речи редко занимает всю полосу частот КТЧ. Энергия речи имеет тенденцию концентрироваться в трех или четырех областях максимума - формантах.

Формантный вокодер (ФВК) определяет положение и амплитуду этих спектральных максимумов и передает эту информацию вместе с огибающей всего спектра. Вследствие этого ФВК формирует цифровой сигнал с пониженной скоростью передачи за счет кодирования только наиболее значительных мгновенных составляющих в спектре речи. ФВК отличается от ПВК построением анализатора и синтезатора, при этом блоки выделения команд ОТ и ТШ практически аналогичны, но для своей реализации требуют меньшего числа полосовых фильтров (обычно не более трех). Самым важным требованием для получения приемлемого качества синтезированной на приеме речи ФВК является точное прослеживание динамики изменения формант. Если это выполнить, то ФВК может дать весьма разборчивую речь при скорости передачи не более 1000 бит/с.

 

Гармонический вокодер.

Идея гармонического вокодера основана на методе гармонического кодирования речевого сигнала, разработанного советским ученым А.А.Пироговым. Сущность метода сводится к передаче огибающей текущего энергетического спектра речевого сигнала, усредненного за некоторый (весьма небольшой) промежуток времени, в виде коэффициентов разложения огибающей в ряд Фурье. В зависимости от требуемой точности воспроизведения огибающей число членов ряда будет различным. Соответственно этому изменяется и число передаваемых параметров. Поскольку каждый член ряда в общем случае определяется двумя параметрами, то число последних должно быть вдвое больше числа членов ряда. Как известно, для определения коэффициентов разложения достаточно иметь ординаты огибающей спектра речевого сигнала. Число этих ординат берется равным 2 n - 1, где n - число членов ряда.

Следовательно, при гармоническом кодировании необходимо измерять уровень спектра речевого сигнала на (2 n - 1) частотах, выделяемых соответствующими полосовыми фильтрами - ПФ. Величины этих уровней и будут ординатами огибающей. Оптимальная ширина полосы пропускания ПФ при представлении огибающей в натуральном масштабе частот примерно равна, где DF – полоса частот речевого сигнала (как правило, равная эффективно-передаваемой полосе частот КТЧ, q – число формант).

Возможен и бесфильтровой метод спектрального анализа путем применения линий задержки, который свободен от недостатков фильтровых методов, но имеет свои трудности: сложность реализации временных задержек на низких частотах.

Коэффициенты разложения огибающей, определенные по ее ординатам, изменяются во времени примерно с той же скоростью, что и спектральные уровни в полосном вокодере, т. е. с частотой не выше 25…50 Гц.

Для сохранения качества звучания и натуральности речи необходимо передавать не менее 3-4 формант. Следовательно, число ординат спектральной огибающей должно быть не менее 6…8. Это соответствует трем-пяти членам разложения ряда Фурье, что требует полосы частот гармонического вокодера, равной 75…250 Гц.

Структурная схема гармонического цифрового вокодера аналогична схеме полосного вокодера, однако на выходе каждого полосового фильтра появляются коэффициенты разложения Фурье. Результирующий сигнал на выходе этих фильтров представляют в виде ряда гармонических функций, которые затем подвергаются преобразованию по алгоритмам ИКМ, АДИКМ и др.

Вокодеры с линейным предсказанием. Анализатор вокодера с линейным предсказанием (ВКЛП) формирует существенные характеристики речи непосредственно из временной функции сигнала С (t), а не из частотного спектра, как в полосовом, формантном вокодерах или гармоническом вокодерах. По существу, ВКЛП анализирует речевой сигнал для получения меняющейся во времени модели возбуждения (ГОТ и ГШ) синтезатора тракта приема и функции передачи. Синтезатор тракта приема формирует речевой сигнал путем пропускания полученных сигналов ГОТ и ГШ через устройство, соответствующее математической модели речеобразующего тракта. Синтезатор приспосабливается к изменениям параметров модели и элементов возбуждения путем периодического уточнения этих параметров. Однако предполагается, что в течение любого одного интервала уточнения речеобразующий тракт представляет собой линейное устройство с постоянными во времени параметрами. Структурная схема типовой модели для генерации речи представлена на рис.4.

ГОТ
ГШ
УС
Коммутатор выбора возбуждения
Усилитель с регулируемым усилением
S
Линейная обратная связь
Рис. 4. Модель генерации речевого сигнала в ВКЛП
Коэффициенты предсказания

 


Выражение, описывающее работу модели речеобразующего тракта, имеет вид

y(n) =,

где y(n) – n-й отсчет на выходе; Аk – k-й коэффициент предсказания; К – коэффициент усиления регулируемого усилителя – УС; х(n) – входной сигнал в момент дискретизации n; р – порядок модели, под которым понимается число последних отсчетов, определяющих алгоритм линейного предсказания.

Отметим, что выходной речевой сигнал в формуле для y(n) представлен в виде суммы входного сигнала в настоящий момент и линейной комбинации р предыдущих выходных сигналов речеобразующего тракта. Эта модель является адаптивной в том смысле, что в кодере периодически определяется новое семейство коэффициентов предсказания, соответствующих последовательным фрагментам речи. В этом кодирование в ВЛКП аналогично адаптивной ДИКМ или кодированию с адаптивным предсказанием. Отличие состоит в определении коэффициентов предсказания и в том, что в ВКЛП не измеряются и не кодируются разностные сигналы или сигналы ошибки. Вместо этого при определении коэффициентов предсказания минимизируется средние квадратические значения ошибок. Возможность избежать кодирования ошибок предсказания вытекает из того факта, что в ВЛКП используются параметры предсказания, полученные из отрезков реального речевого сигнала, к которым эти параметры и применяются (прямая оценка).

В вокодере с линейным предсказанием в кодере (анализаторе) определяется и передается в сторону декодера (синтезатора) следующая информация:

1) о характере возбуждения (гласные или звонкие согласные звуки в сопоставлении с глухими звуками);

2) о периоде основного тона (для воспроизводства гласных или звонких согласных);

3) о коэффициенте усиления К;

4) о коэффициентах предсказания (параметрах модели речеобразующего тракта). Частота основного тона определяется измерением периодичности, если она существует. Помимо того, что кодер (анализатор) с линейным предсказанием измеряет основной тон способами, аналогичными используемыми другими типами вокодеров, он обладает еще и специфическими свойствами, которые содействуют определению параметров основного тона.

Определение коэффициентов предсказания осуществляется следующим образом: в качестве желаемого выходного сигнала синтезатора используются отсчеты реального сигнала, затем образуется система из р линейных уравнений с р неизвестными коэффициентами. В результате эти коэффициенты определяются путем интегрирования матрицы размером р х р. Поскольку порядок р может варьироваться в зависимости от желаемого качества синтезированной речи, прямая инверсия матрицы требует огромного объема вычислений. Однако, если принять для модели специальные ограничения, матрицы приобретают особые свойства, которые существенно упрощают решения уравнений. При использовании микропроцессорной техники решение даже сложных матриц не вызывает особых затруднений.

Хотя ВКЛП обрабатывают сигнал во временной области, они обеспечивают хорошие оценки пиков в спектре речи. Кроме того, ВКЛП способен эффективно отслеживать медленные изменения огибающей спектра. Итоговый результат состоит в том, что ВКЛП на скорости передачи 1,2 … 2.4 кбит/с дает более естественное звучание речи, чем полосные вокодеры и их модификации.

 

 

Тонкая временная структура голосового возбуждения (она считается важной для натуральности) при сглаживании не теряется. Ценой некоторой потери полосы частот качество синтезированной речи может быть приближенно к качеству речи телефонного канала с эффективно-передаваемой полосой частот 0,3…3,4 кГц. Таким образом, получаем относительно высокое качество синтезированной речи и некоторую часть в экономии пропускной способности как канала тональной частоты, так и основного цифрового канала. В одном из первых вариантов полувокодера непреобразованная полоса частот (нулевой субканал) взята равной 250…940 Гц. Диапазон частот от 940 до 3650 Гц разделен на 17 субканалов. Из них первые 14 имеют полосы пропускания по 150 Гц, а самые верхние - несколько шире. Общая полоса частот полувокодера получилась равной 1000…1200 Гц, что соответствует примерно трехкратной компрессии.

Экспериментальные исследования последних лет показывают, что, выбирая полосу частот нулевого субканала равной 800…1000 Гц и применяя полосный вокодер с числом субканалов 6…10 для полосы частот 1000…3400 Гц, можно обеспечить такое качество речи, что 82% слушателей не замечают различий в сравнении с каналом тональной частоты.

При использовании эффективных кодеков можно получить результирующую скорость передачи сигнала цифрового полувокодера, равной 9,5 кбит/с. Успехи в области микросхемотехники и алгоритмов «быстрой» цифровой обработки сигналов позволяют создавать миниатюрные кодеки цифровых вокодеров на скорости передачи 16, 9,6, 8 и 4,8 кбит/с, что позволяет весьма эффективно использовать пропускную способность основного цифрового канала.

Эффективность цифровых систем передачи можно значительно повысить, если найти оптимальные способы ввода вокодерных цифровых каналов в каналы и тракты цифровых систем передачи. Эта проблема также важна и для организации различного вида каналов передачи данных по типовым каналам и трактам цифровых систем передачи.

Разработал: доцент И.Герасимов

 

 

<== предыдущая лекция | следующая лекция ==>
Полосный вокодер | Применение сумматоров
Поделиться с друзьями:


Дата добавления: 2014-01-15; Просмотров: 1195; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.016 сек.