Речевой кодек GSM

Обработка речи осуществляется в рамках принятой системы прерывистой передачи речи. Система прерывистой передачи речи (DTX) обеспечивает включение передатчика только тогда, когда пользователь начинает разговор, и отключает его в паузах и в конце разговора. DTX управляется детектором активности речи (VAD), который обеспечивает обнаружение и выделение интервалов передачи речи с шумом и шума без речи даже в тех случаях, когда уровень шума соизмерим с уровнем речи. В состав системы прерывистой передачи речи входит также устройство формирования комфортного шума, который включается и прослушивается в паузах речи, когда передатчик отключен. Экспериментально показано, что отключение фонового шума на выходе приемника в паузах при отключении передатчика раздражает абонента и снижает разборчивость речи, поэтому применение комфортного шума в паузах считается необходимым. DTX процесс в приемнике включает также интерполяцию фрагментов речи, потерянных из-за ошибок в канале.

Структурная схема процессов обработки речи в стандарте GSM показана на рисунке, главным устройством в этой схеме является речевой кодек.

Работа речевого кодера основана в извлечении основных характеристик речи в форме коэффициентов фильтра, по которым речь может быть восстановлена. Структурная схема кодека представлена на рисунке.

Кодек речевого сигнала, используемый в стандарте GSM цифровой сотовой связи, имеет название RPE-LTP, что переводится как долговременное предсказание с возбуждением регулярной последовательностью импульсов. Кодер формирует битовый поток со скоростью 13 кбит/с и был выбран после многочисленных экспертных оценок. Этот кодер вобрал в себя достоинства двух способов кодирования: RELP (Residual Excited Linear Prediction - линейное предсказание с возбуждением остатком) и MPE-LTP (Multi-Pulse Excited Long-Term Prediction - долговременное предсказание с импульсным возбуждением). Преимущество RELP-кодека состоит в том, что он обеспечивает хорошее качество речи при сравнительно низкой сложности. Однако качество речи при использовании этого кодека ограничивается помехой, создаваемой при восстановлении высокочастотных компонентов речевого сигнала и ошибками при передаче битов по каналу связи. MPE-LTP-кодек обеспечивает очень хорошее качество речи при высокой сложности и не очень чувствителен к ошибкам в канале передачи. Благодаря модификации RELP-кодека с целью введения в него некоторых элементов MPE-LTP-кодека скорость нового кодека была снижена с 14,77 до 13,0 кбит/с без потерь качества передачи речи. Наиболее важным введенным элементом была петля долговременного предсказания.

На первом этапе входные отсчеты сигнал подвергаются предыскажению ФВЧ, в результате чего подавляется постоянная составляющая сигнала и увеличивается уровень высокочастотных компонентов.

На втором этапе входной сигнал разделяется на сегменты 160 отсчетов по 20 мс. Затем в процессе LPC анализа вычисляются 8 коэффициентов r(i) цифрового LPC анализирующего фильтра. При этом формируются отсчеты d ошибки кратковременного предсказания, имеющие меньший динамический диапазон.

На третьем этапе происходит дальнейшее снижение динамического диапазона за счет долговременного предсказания. Для этого группа из 160 отсчетов ошибки предсказания d разбивается на четыре кадра по 40 отсчетов. Далее каждый сегмент выравнивается до уровня следующих друг за другом сегментов речи. Для этого LTP фильтр вычитает предыдущий период сигнала из текущего периода. Данный фильтр характеризуется параметром задержки N и коэффициентом усиления b. Период вычисления этих параметров равен 5 мс.

Восемь коэффициентов r(i) LPC анализирующего фильтра и параметры фильтра LTP анализа кодируются и передаются со скоростью 3,6 кбит/с.

На четвертом этапе для формирования последовательности возбуждения остаточный сигнал пропускают через фильтр нижних частот с частотой среза 3-4 кГц. Далее производится анализ и выбор подпоследовательности. Отсчеты ошибки e каждого кадра взвешиваются и разделяются на три подпоследовательности, каждая из которых рассматривается как кандидат сигнала возбуждения. Для каждой подпоследовательности оценивается энергия; подпоследовательность с наибольшей энергией принимается в качестве остатка долговременного предсказания. Отсчеты этой подпоследовательности возбуждения нормируются на значение наибольшего отсчета, квантуются и передаются в канал вместе с номером выбранной подпоследовательности.

Окончательно периодическая последовательность фрагментов передается со скоростью 9,4 кбит/с. Общая скорость передачи составляет 3,6 + 9,4 = 13 кбит/с.

В декодере речевой сигнал восстанавливается по откликам последовательности регулярного импульсного возбуждения (RPE) двухступенчатым синтезирующим фильтром.

При этом качество речи соответствует качеству речи, передаваемой по ISDN, и превосходит качество речи в аналоговых радиотелефонных системах.

Теоретически время задержки речевого сигнала в кодеке равно длительности сегмента и составляет 20 мс. Реальное время задержки, с учетом операций канального кодирования и перемежения, а также физического выполнения рассматриваемых операций, составляет 70-80 мс.

Детектор активности речи (VAD) играет решающую роль в снижении потребления энергии от аккумуляторной батареи в портативных абонентских терминалах. Он также снижает интерференционные помехи за счет переключения свободных каналов в пассивный режим. Реализация VAD зависит от типа применяемого речевого кодека. Главная задача при проектировании VAD - обеспечить надежное отличие между условиями активного и пассивного каналов. Если канал на мгновение свободен, его можно заблокировать, поскольку средняя активность речи говорящего ниже 50%, то это может привести к существенной экономии энергии аккумуляторной батареи.

К устройствам VAD предъявляются следующие основные требования:

- минимизация вероятности ложной тревоги при воздействии только шума с высоким уровнем;

- высокая вероятность правильного обнаружения речи низкого уровня;

- высокое быстродействие распознавания речи для исключения задержек включения;

- минимальное время задержки выключения.

В стандарте GSM принята схема VAD с обработкой в частотной области. Структурная схема VAD приведена на рисунке.

Ее работа основана на различии спектральных характеристик речи и шума. Считается, что фоновый шум является стационарным в течение относительно большого периода времени, его спектр также медленно изменяется во времени. VAD определяет спектральные отклонения входного воздействия от спектра фонового шума. Эта операция осуществляется инверсным фильтром, коэффициенты которого устанавливаются применительно к воздействию на входе только фонового шума. При наличии на входе речи и шума инверсный фильтр осуществляет подавление компонентов шума и, в целом, снижает его интенсивность Энергия смеси сигнал+шум на выходе инверсного фильтра сравнивается с порогом, который устанавливается в период воздействия на входе только шума. Этот порог находится выше уровня энергии шумового сигнала. Превышение порогового уровня принимается за наличие на входе реализации (сигнал+шум). Коэффициенты инверсного фильтра и уровень порога изменяются во времени в зависимости от текущего значения уровня шума при воздействии на входе только шума. Поскольку эти параметры (коэффициенты и порог) используются детектором VAD для обнаружения речи, сам VAD не может на этой же основе принимать решение, когда их изменять. Это решение принимается вторичным VAD на основе сравнения огибающих спектров в последовательные моменты времени. Если они аналогичны для относительно длительного периода времени, предполагается, что имеет место шум, и коэффициенты фильтра и шумовой порог можно изменять, то есть адаптировать под текущий уровень и спектральные характеристики входного шума.

VAD с обработкой в спектральной области удачно сочетается с речевым RPE/LTP-LPC кодеком, так как в процессе LPC анализа уже определяется огибающая спектра входного воздействия, необходимая для работы вторичного VAD.

Формирование комфортного шума осуществляется в паузах активной речи и управляется речевым декодером. Когда детектор активности речи (VAD) в передатчике обнаружит, что говорящий прекращает разговор, передатчик остается еще включенным в течение следующих пяти речевых кадров. Во время первых четырех из них характеристики фонового шума оцениваются путем усреднения коэффициента усиления и коэффициентов фильтра LPC анализа. Эти усредненные значения передаются в следующем пятом кадре, в котором содержат информацию о комфортном шуме (SID кадр - Silence Insertion Descriptor).

В речевом декодере комфортный шум генерируется на основе LPC анализа SID кадра. Чтобы исключить раздражающее влияние модуляции шума, комфортный шум должен соответствовать по амплитуде и спектру реальному фоновому шуму в месте передачи. В условиях подвижной связи фоновый шум может постоянно изменяться. Это значит, что характеристики шума должны передаваться с передающей стороны на приемную сторону не только в конце каждого речевого всплеска, но и в речевых паузах так, чтобы между комфортным и реальным шумом не было бы резких рассогласований в следующих речевых кадрах. По этой причине SID кадры посылаются каждые 480 мс в течение речевых пауз.

Динамическое изменение характеристик комфортного шума обеспечивает натуральность воспроизведения речевого сообщения при использовании системы прерывистой передачи речи.

В условиях замираний сигналов в подвижной связи речевые фрагменты могут подвергаться значительным искажениям. При этом для исключения раздражающего эффекта при воспроизведении необходимо осуществлять экстраполяцию речевого кадра.

Было установлено, что потеря одного речевого кадра может быть значительно компенсирована путем повторения предыдущего фрагмента. При значительных по продолжительности перерывах в связи предыдущий фрагмент больше не повторяется, и сигнал на выходе речевого декодера постепенно заглушается, чтобы указать пользователю на разрушение канала.

То же самое происходит и с SID кадром. Если SID кадр потерян во время речевой паузы, то формируется комфортный шум с параметрами предыдущего SID кадра. Если потерян еще один SID кадр, то комфортный шум постепенно заглушается.

Применение экстраполяции речи при цифровой передаче, формирование плавных акустических переходов при замираниях сигнала в каналах в совокупности с полным DTX процессом значительно улучшает потребительские качества связи с GSM по сравнению с аналоговыми сотовыми системами связи.

<== предыдущая лекция	\|	следующая лекция ==>
Векторное квантование	\|	Принципы кодирования звука в формате MPEG

Поделиться с друзьями:

Дата добавления: 2014-01-04; Просмотров: 1563; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2025) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.007 сек.