Гибридные методы кодирования речи

⇐ Предыдущая 1 2 34

Гибридные, или комбинированные, методы кодирования речи заполняют разрыв между кодерами формы сигнала, совершенно не учитывающими его природы, и кодерами источника, кодирующими, по сути, не сигнал, а параметры модели порождающего его источника. Как отмечалось ранее, кодеры формы сигнала обеспечивают очень хорошее качество речи при скоростях кодирования выше 16 кбит/с, но вообще не работают при более низких скоростях, тогда как вокодеры обеспечивают разборчивую речь при скоростях кодирования 2,4 кбит/с и ниже, но не могут дать хорошего качества при любой скорости кода.

Наиболее распространенными в настоящее время являются гибридные методы кодирования, работающие во временной области (то есть с сигналом, а не его спектром или другими линейными преобразованиями), основанные на анализе сигнала через его синтез (так называемые ABS -кодеки). Эти кодеры так же, как и вокодеры, используют модель голосового тракта, но несколько иным образом – для подбора сигнала возбуждения, обеспечивающего наилучшее совпадение синтезированного на ее основе речевого сигнала с исходным.

ABS -кодеры были впервые предложены сравнительно недавно – в 1982 году - и в своем первоначальном виде получили название MPE -кодеров (Multi-Pulse Excited - кодеры с многоимпульсным возбуждением). Позднее были предложены более совершенные RPE -кодеры (Regular-Pulse Excited – кодеры с регулярным импульсным возбуждением) и CELP -кодеры (Codebook-Excited Linear Predictive – c возбуждением на основе кодовых книг). Сегодня существуют и другие их разновидности, но все они используют общую идею.

Чтобы понять, на чем основаны эффективность и качество ABS -кодера, сначала рассмотрим работу так называемого RELP -кодера (Residual Excited Linear Prediction - RELP).

Если речевой сигнал (имеющий спектр рис. 2.30, а) пропустить через линейный предсказатель (с частотной характеристикой вида рис. 2.30, б), то корреляция между отсчетами выходного сигнала (ошибки предсказания) значительно уменьшится. Если предсказание выполнялось достаточно хорошо, то выходом предсказателя будет практически белый шум с равномерным спектром (рис. 2.26, в).

Рис. 2.30

Вместе с тем этот белый шум (ошибка предсказания) несет всю информацию о кодируемом речевом сигнале, и если его пропустить снова через LPC-фильтр (с частотной характеристикой - рис. 2.30,г), то мы абсолютно точно восстановим исходный речевой сигнал. Поскольку эта информация распределена по спектру ошибки предсказания более или менее равномерно, то возникла идея кодировать и передавать только небольшую часть спектра ошибки предсказания E(ω), а остальное восстанавливать в декодере.

В RELP -кодере сигнал ошибки предсказания пропускается через низкочастотный фильтр с частотой среза около 1 кГц. Сигнал с выхода фильтра кодируется по форме, например ДИКМ-кодером. В декодере ошибка предсказания восстанавливается путем ее переноса в область удаленных низкочастотным фильтром кодера частот.

RELP -кодер работал бы идеально, если бы в процессе линейного предсказания мы получали белый шум. Однако из за наличия в речевом сигнале квазипериодических формантных составляющих линейный предсказатель не может устранить долговременной корреляции с периодом основного тона формант и они будут явно присутствовать в спектре ошибки предсказания. Если теперь пропустить E(ω) через ФНЧ, то высокочастотные формантные составляющие будут утеряны и в дальнейшем не смогут быть восстановлены.

RELP -кодеры позволяют получить неплохое качество сигнала при скорости кода порядка 9.6 кбит/с, однако им в некоторой степени присущ недостаток вокодеров – синтетический характер восстановленной речи. В связи с этим на смену им практически повсеместно пришли похожие по принципу работы ABS -кодеры в их разновидностях.

ABS -кодер работает следующим образом. Кодируемый входной сигнал (уже в цифровой форме, в виде потока отсчетов) разбивается на фрагменты длиной порядка 20 мс, в пределах которых свойства сигнала изменяются незначительно. Для каждого из этих фрагментов определяются текущие параметры синтезирующего фильтра (аналога голосового тракта) и далее подбирается сигнал возбуждения, который, будучи пропущенным через синтезирующий фильтр, минимизирует ошибку между входным и синтезированным сигналами.

Таким образом, название метода Analysis-by-Synthesis состоит в том, что кодер анализирует входную речь посредством синтеза множества приближений к ней. В конечном итоге кодер передает декодеру информацию, представляющую собой комбинацию текущих параметров синтезирующего фильтра и сигнала возбуждения. Желательно, чтобы этих данных было поменьше. Декодер по этим параметрам восстанавливает закодированную речь, причем делает это так же, как это делал кодер в процессе анализа через синтез. Различие между ABS -кодерами разного типа состоит в том, как в каждом из них подбирается сигнал возбуждения синтезирующего фильтра u(n). Теоретически на вход синтезирующего фильтра нужно подать бесконечно большое число различных сигналов возбуждения, чтобы посмотреть, какой сигнал получится на его выходе, и сравнить его с кодируемым. Сигнал возбуждения, который даст минимум взвешенной ошибки между оригиналом и синтезированной речью, выбирается в качестве результата кодирования. Именно эта замкнутая схема определения сигнала возбуждения (рис. 2.31) и обеспечивает ABS -кодерам высокое качество кодируемой речи при низких скоростях кода.

Рис. 2.31

Проблема состоит в большом количестве вычислительных операций, необходимых для подбора наилучшего сигнала возбуждения. Но для сегодняшних возможностей вычислительной и микропроцессорной техники это вполне разрешимая задача.

Многоимпульсные кодеры (MPE-кодеры)

Как уже говорилось, при прохождении речевого сигнала через предсказывающий фильтр корреляция между его соседними отсчетами значительно уменьшается. Однако для гласных звуков наличие формантных составляющих приводит к появлению в речевом сигнале квазипериодичности и высокой долговременной корреляции. Эта периодичность не устраняется линейным предсказанием и приводит к появлению в сигнале ошибки предсказания высокоамплитудных спайков.

Чтобы устранить долговременную корреляцию, можно пропустить сигнал ошибки предсказания через второй линейный предсказатель. Этот линейный предсказатель должен устранить корреляцию уже не между соседними отсчетами речевого сигнала, а между соседними периодами ошибки предсказания. Это достигается введением в предсказатель временной задержки на величину периода основного тона речевого сигнала:

, (2.25)

где М – период основного тона.

На приведенном ниже рис. 2.32 изображены: а - исходный речевой сигнал; б - сигнал ошибки кратковременного линейного предсказания (увеличенный в 3 раза); в - сигнал на выходе двухкаскадного (кратковременного + долговременного) предсказателя (увеличенный в 10 раз).

Рис. 2.32

Если теперь подать результирующий сигнал ошибки предсказания в качестве возбуждения на последовательно соединенные кратковременный и долговременный фильтры-предсказатели, то на выходе получим исходный неискаженный речевой сигнал. Можно было бы кодировать и передавать по каналу связи полученный сигнал ошибки предсказания, и уже это обеспечивало бы определенную экономию из-за существенно меньшей его амплитуды по сравнению с исходным речевым сигналом. Однако форма сигнала (рис. 32,в) все же остается довольно сложной, что требует для его кодирования достаточно много бит.

В многоимпульсных кодерах (MPE) в качестве сигнала возбуждения u(n) берут не ошибку предсказания (рис. 2.32,в), а просто последовательность из четырех - шести коротких импульсов. Временное положение каждого из этих импульсов и их амплитуды определяются в процессе процедуры анализа через синтез ( ABS) до достижения минимальных различий между исходным и синтезированным речевыми сигналами. Параметры импульсов возбуждения, минимизирующие ошибку, подбирают последовательно, сначала для первого импульса, затем для второго и т.д.

На практике достаточно задавать положение импульсов с шагом около 1 мс и точностью амплитуд до 5 %, и это обеспечивает хорошее качество синтезируемого звука при скорости кода около 10 кбит/с. (Для фрагмента речевого сигнала длительностью в 20 мс используется 6 импульсов возбуждения, положение каждого задают с точностью 1мс = 1/20 от длительности фрагмента = 5 бит на импульс, амплитуду импульса - с точностью 5 % = =5 бит на импульс, в результате получим минимальную скорость кода сигнала возбуждения 6 ´ 10 = 60 бит/20 мс. Кроме этого, нужно будет добавить в код параметры фильтров долговременного и кратковременного предсказания для данного фрагмента, что составит примерно 80 – 100 бит/ 20мс, в результате получим скорость кода 160 бит/20 мс = 8 кбит/с.

Кодеры с регулярным импульсным возбуждением (RPE-кодеры)

Так же как и MPE -кодек, Regular Pulse Excited, или RPE -кодек, использует в качестве сигнала возбуждения u(n) фиксированный набор коротких импульсов. Однако в этом кодеке импульсы расположены регулярно на одинаковых расстояниях друг от друга, и кодеру необходимо определить лишь положение первого импульса и амплитуды всех импульсов. Таким образом, декодеру нужно передавать меньше информации о положении импульсов, следовательно, в сигнал возбуждения можно включить их большее количество и тем самым улучшить приближение синтезированного сигнала к оригиналу. К примеру, если при скорости кода 10 кбит/с в MPE- кодеке используется четырехимпульсный сигнал возбуждения, то в RPE -кодеке можно использовать уже десятиимпульсный сигнал. При этом существенно повышается качество речи.

Метод регулярного импульсного возбуждения RPE сегодня широко применяется, в том числе в системе сотовой связи GSM.

Кодеры с возбуждением на основе кодовых книг (CELP–кодеры)

Методы кодирования МPE и RPE обеспечивают хорошее качество кодируемой речи при скоростях кода порядка 10 кбит/с и выше, но начинают сильно искажать сигнал при более низких скоростях. Дело в том, что для описания необходимых параметров сигнала возбуждения – временного положения и амплитуд импульсов - с требуемой точностью просто не хватает бит.

В связи с этим был предложен метод, использующий в качестве сигнала возбуждения не импульсные последовательности, задаваемые набором своих параметров, а библиотеки (кодовые книги) специальным образом подготовленных и записанных в запоминающее устройство сигналов возбуждения различной формы - Codebook Excited Linear Prediction (CELP).

Схема формирования сигнала возбуждения CELP -кодера приведена на рис. 2.33.

Рис. 2.33

Результатом кодирования при этом являются не параметры импульсов сигнала возбуждения, а индекс кодовой книги (номер хранимого в ней образца сигнала возбуждения), а также его амплитуда. Если кодовая книга содержит, к примеру, 1024 сигнала, а амплитуда сигнала кодируется с точностью 2 – 3 %, то необходимое число бит составит 10 (для индекса) + 5 (для амплитуды) = 15 бит на фрагмент сигнала длительностью в 20 мс (в сравнении с 47 битами, используемыми в GSM RPE- кодеке). Правда, процедура кодирования требует очень больших вычислительных затрат, поэтому реализация CELP -кодеров стала возможной только в последнее время с использованием специализированных сигнальных процессоров с производительностью порядка 300 млн. операций в секунду и более.

Кодирование на основе алгоритма CELP с успехом используется в современных системах связи при скоростях кода от 16 до 4,8 кбит/с. При этом для скорости кода 16 кбит/с CELP обеспечивается такое же качество речи, как и для 64 кбит/с ИКМ, а при скорости кода 4,8 кбит/с - как для 13 кбит/с GSM RPE.

⇐ Предыдущая 1 2 34

Поделиться с друзьями:

Дата добавления: 2014-01-07; Просмотров: 965; Нарушение авторских прав?; Мы поможем в написании вашей работы!
Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2025) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.007 сек.