КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Вокодеры с линейным предсказанием
Суть кодирования речи на основе метода линейного предсказания (Linear Predictive Coding - LPC) заключается в том, что по линии связи передаются не параметры речевого сигнала, как такового, а параметры некоторого фильтра, в известном смысле эквивалентного голосовому тракту, и параметры сигнала возбуждения этого фильтра. В качестве такого фильтра используется фильтр линейного предсказания.
Рисунок 7.9 – Обобщенная схема кодера с линейным предсказанием, где G - коэффициент усиления f0 - частота основного тона
Вокодеры с линейным предсказанием (Linear Prediction Coding, LPC) или липредеры основаны на оригинальном математическом аппарате. Метод линейного предсказания заключается в том, что очередная выборка речевого сигнала Sn с некоторой степенью точности предсказывается линейной комбинацией М предшествующих выборок: где аi - коэффициенты линейного предсказания, М - порядок предсказания. Разность между истинным и предсказанным значениями выборки определяет ошибку предсказания (остаток предсказания): В результате z-преобразования этого разностного уравнения получаем: где функция A(z):
Функция A(z) интерпретируется как передаточная характеристика некоторого фильтра, частотная характеристика которого обратна по отношению к частотной характеристике голосового тракта. Голосовой тракт можно представить как фильтр с регулярно обновляемыми коэффициентами, возбуждаемый каждые 15-30 мс периодическим или шумоподобнымсигналом. Речевой кодер производит синтез фильтра, моделирующего голосовой тракт речевого сигнала — устанавливает тип возбуждения (шум или последовательность импульсов) и его период. При подаче речевого сигнала на вход инверсного фильтра на выходе фильтра получается сигнал возбуждения, подобный сигналу возбуждения на входе фильтра голосового тракта. Рисунок 7.10 – Схема инверсного фильтра Порядок предсказания выбирается из условия компромисса между качеством передачи речи и пропускной способностью линии связи; практически М берется порядка 10. Значения коэффициентов предсказания, постоянные на интервале кодируемого сегмента речи (на практике длительность сегмента составляет 20 мс), находятся из условия минимизации среднеквадратического значения остатка предсказания на интервале сегмента. Процедура кодирования речи в методе линейного предсказания сводится к следующему: 1) оцифрованный сигнал речи нарезается на сегменты длительностью 20 мс (160 выборок по 8 бит в каждом сегменте); 2) для каждого сегмента оцениваются параметры фильтра линейного предсказания и параметры сигнала возбуждения; 3) в качестве сигнала возбуждения в простейшем случае может выступать остаток предсказания, получаемый при пропускании сегмента речи через фильтр линейного предсказания с параметрами, полученными из оценки для данного сегмента; 4) параметры фильтра и параметры сигнала возбуждения кодируются по определенному закону и передаются в канал связи.
Рисунок 7.11 Кодирование речи на основе метода линейного предсказания Процедура декодирования речи заключается в пропускании принятого сигнала возбуждения через синтезирующий фильтр известной структуры, параметры которого переданы одновременно с сигналом возбуждения. Сигнал на вход анализирующего фильтра поступает непосредственно с выхода АЦП, а выходной сигнал синтезирующего фильтра попадает на вход ЦАП. Приведенное описание процессов кодирования и декодирования речи не является исчерпывающим, оно объясняет лишь принцип действия кодека. Практические схемы заметно сложнее, и это связано в основном со следующими двумя моментами. Во-первых, речевой сигнал обладает двумя видами внутренних корреляционных связей, кратковременной и долговременной избыточностью, поэтому в подавляющем большинстве современных речевых кодеков используется два предсказателя: кратковременный (SHORT-TERM) и долговременный (LONG-TERM). Первый предсказатель (STP), учитывающий кратковременную избыточность РС, связан с корреляциями между близко расположенными отсчетами сигнала и определяет огибающую спектра. Его порядок обычно бывает 6÷10. Второй, долговременный, предсказатель (LTP) определяет тонкую структуру РС и связан с корреляцией двух отрезков сигнала между собой, реально - двух соседних периодов основного тона (ОТ). Период основного тона речиизменяется в широких пределах. На практике обеспечивается формирование частоты ОТ в пределах 57 ё 500 Гц, что соответствует изменению периода от 2 до 17,5 мс. Сочетание двух предсказателей с разными характеристиками позволяет в значительной мере устранить остаточную избыточность и приблизить остаток предсказания по своим статистическим характеристикам к белому шуму. При этом на приемную сторону передаются остаток предсказания и коэффициенты обоих (STP и LTP) предсказаний. Во-вторых, использование остатка предсказания в качестве сигнала возбуждения оказывается недостаточно эффективным, так как требует для кодирования слишком большого числа бит. Поэтому практическое применение находят более экономичные (по загрузке канала связи, но отнюдь не по вычислительным затратам) методы формирования сигнала возбуждения. Рассмотрим структурную схему вокодера с линейным предсказанием более подробно. На подготовительном этапе выполняют аналого-цифровое преобразование РС и сегментацию цифрового потока: для последующей обработки выбирают отсчеты сигнала на интервале длительностью 20 мс, что при Fд = 8 кГц обеспечивает число обрабатываемых отсчетов равное 160. После сегментации отсчетов РС в кодере последовательно выполняются следующие три процедуры: 1. кратковременный (формантный) анализ с использованием процедуры линейного предсказания, в результате чего получают первый остаточный сигнал r 1(k); 2. долговременный анализ с использованием линейного предсказания для определения параметров ОТ, в результате чего получают второй остаточный сигнал r 2(k), близкий по своим характеристикам к шумовому, поскольку между отсчетами этого сигнала корреляция мала; 3. аппроксимация второго остаточного сигнала с целью формирования сигнала возбуждения. В первой процедуре оценку текущего отсчета Ś(k) определяют как сумму P предшествующих отсчетов. При формантном анализе порядок предсказания P выбирают равным 8 – 12. Определение коэффициентов предсказания api фильтра-анализатора производят в блоке формантного анализа из условия минимизации среднеквадратичного значения ошибки предсказания (т.е. первого остаточного сигнала) на интервале сегмента. Вычисленные значения коэффициентов предсказания используют в фильтре удаления формант кодера, на выходе которого получают сигнал, свободный от квазипериодических составляющих – формант; его называют первым остаточным сигнал ом. Информацию о формантах несут переданные на приемный конец параметры фильтра api, либо связанные с ними коэффициенты частичной корреляции (коэффициенты отражения). Иногда используют функции от коэффициентов отражения - так называемые логарифмические отношения площадей. Во второй процедуре с учетом того, что основной тон характеризуется всего двумя параметрами, - амплитудой и периодом, передаточная функция фильтра удаления ОТ A2(z) описывается более простым выражением , где G - единственный коэффициент предсказания, характеризующий амплитуду основного тона. Задержка a определяет период основного тона, ее значение обычно заключается в пределах от 20 до 160 интервалов дискретизации сигнала, что соответствует диапазону частот основного тона 50 - 400 Гц. Известно, что значение основного тона для разных голосов может изменяться почти в 10 раз - от 2 до 18 мс. Это обстоятельство создает немало трудностей при оценке ОТ, так как слух очень чувствителен к его искажениям. Методов измерения ОТ известно очень много и, вместе с тем, метод, не требующий чрезмерной задержки, пока не появился. Несмотря на относительную простоту выражения, анализ и удаление ОТ является более сложной процедурой по сравнению с формантным анализом. Это обусловлено существенно большим периодом ОТ и сложностью выявления корреляции между отсчетами на большом временном интервале. Кроме того, период и амплитуда ОТ очень важны для точного восстановления речи. Именно поэтому на этапе долговременного анализа сегмент речи разделяют на 4 подсегмента. Каждый подсегмент имеет длительность 5 мс и содержит 40 отсчетов. Значения G и a определяют для каждого подсегмента по отдельности. Найденные параметры G и a используют в фильтре удаления основного тона. Их также передают на приемный конец в декодер, где используют при синтезе речевого сигнала. Рисунок 7.12 Структурная схема липредора
Решаемая задача третьей процедуры - при минимальном объеме информации о сигнале возбуждения обеспечить приемлемое качество восстановленного сигнала. Для достижения этого обработку второго остаточного сигнала производят отдельно для каждого подсегмента из 40 отсчетов. Суть аппроксимации состоит в том, что второй остаточный сигнал моделируют в виде определенного числа импульсов на интервале подсегмента. Переданные по каналу связи параметры аппроксимации второго остаточного сигнала, параметры основного тона G и a, коэффициенты формантного фильтра api поступают на соответствующие блоки декодера (рисунок 7.12). В любом случае по каналу связи вместо самой речи передают так или иначе выделенные и квантованные параметры кратковременного и долговременного предсказания, интервал и усиление ОТ, параметры возбуждения. В декодере ЛП по принятым параметрам восстанавливают сигнал возбуждения, пропускают его через синтезирующий фильтр и восстанавливают речь. Синтез сигнала начинают с восстановления второго остаточного сигнала, выполняемого генератором возбуждения. Восстановленный сигнал r 2вос(k) несколько отличается от второго остаточного сигнала в кодере из-за погрешности аппроксимации. Восстановленный второй остаточный сигнал пропускают через фильтр восстановления основного тона, передаточную характеристику которого H2(z) устанавливают обратной характеристике фильтра удаления основного тона кодера: . На выходе этого фильтра получают восстановленный первый остаточный сигнал r 1вос(k), который включает основной тон. Наконец, фильтр восстановления формант с передаточной функцией H(z) восстанавливает формантные составляющие сигнала. Восстановленный сигнал S вос(n) достаточно близок к исходному сигналу на входе кодера S (n). Выполнив цифро-аналоговое преобразование и пропустив сигнал через ФНЧ, получают восстановленный аналоговый сигнал.
Все процедуры обработки сигнала в кодере и декодере выполняются цифровыми методами. Кодер и декодер реализуют на высокопроизводительном сигнальном процессоре. Показанные на рисунке 7.12 модули липредора фактически являются блоками программного обеспечения.
Дата добавления: 2013-12-13; Просмотров: 2864; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |