Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Основы цифрового представления речевых сигналов




КЛАССИФИКАЦИЯ КОДЕРОВ РЕЧИ

Исторически сложились два направления кодирования речи:

§ кодирование формы сигнала (КФС), называемое также аппроксимацией формы речевой волны;

§ параметрическое компандирование речи, иногда называемое кодированием источника сигнала.

В первом методе кодер формы волны аппроксимирует форму речевого сиг­нала во времени. Этот метод основан на использовании статистических характеристик речевого сигнала (РС) и практически не зависит от механизма его формирования. Кодеры этого типа обеспечивают высокое качество пере­дачи речи, но скорость цифрового потока редко бывает меньше 32 кбит/с. Поэтому для кодирования речи со скоростью передачи 16 кбит/с и меньше – прежде всего для цифровых систем сотовой и персональной спутниковой связи - получили мощное развитие разнообразные методы параметриче­ского компандирования речи (таблица 1).

Трудность создания кодеков, обеспечивающих минимально возможную скорость передачи для речевого источника, обусловлена рядом причин. Во-первых, речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего, а речевой сигнал не является стационарным процессом. Законы изменения его вероятностных характеристик на участках произнесения гласных и согласных звуков существенно различаются, не говоря уже о паузах и смычках (участки звучания согласных типа «м», «н», «п» и т. п.), где характеристики могут изменяться почти скачком.

Вторая причина связана с определением (формализацией) критерия верности передачи, свойственным получателю. Действительный критерий восприятия, который характеризует качество слухового приема речевого сигнала человеком, отличается от распространенного критерия среднеквадратической ошибки или от какого-либо другого критерия, контролирующего отклонение «формы реализаций». Поэтому воспользоваться непосредственно результатами теории передачи информации для расчета качественных характеристик источника речевого сигнала затруднительно. Однако, можно попытаться получить оценки минимально возможной скорости передачи из других соображений, используя физические свойства получателя и источника речевых акустических колебаний.

 

Вид преобразования речи Устр-ва преоб-ра- зова-ния Алгоритмы кодирования -декодирования речи Скорость пере-дачи, кбит/с
Кодирование формы сигнала   Кодеры формы сигнала Импульсно - кодовая модуляция (ИКМ)  
Дифференциальная ИКМ (ДИКМ) 48/52/56
Адаптивная дельта-модуляция (АДМ)  
Адаптивная дифференциальная ИКМ (АДИКМ)  
    Парамет- рическое компан-дирова-ние (кодирование) речи Вокодеры Спектрально-временные (полосный, формантный, гармонический) 1,2-4,8
Кодирование на основе линейного предсказания (LPC)
    Гибридные кодеры Линейное предсказание с возбуждением от остатка предсказания (RELP)     4,8-16
Линейное предсказание с многоимпульсным возбуждением (MPE-LPC)
Линейное предсказание с долговременным предсказанием (LTP-LPC)
Линейное предсказание с регулярным импульсным возбуждением (RPE-LPC)
Линейное предсказание с кодовым возбуждением (CELP)
Линейное предсказание с кодовым возбуждением и малой задержкой (LD-CELP)
Линейное предсказание с возбуждением алгебраическим кодом (ACELP)
Линейное предсказание с векторным возбуждением (VSELP)
Адаптивное кодирование с предсказанием (АРС)
Метод квантования по максимуму правдоподобия (MP-MLQ)

При параметрическом компандировании моделирует­ся процесс речеобразования человека. Для этого в кодере из речевого сигнала вычисляются определенные параметры, которые передаются к декодеру, где они используются для восстановления формы сигна­ла. Восстановленная форма сигнала очень часто отличается от формы исходного сигнала; при этом звук подобен или близок к оригиналу. Ис­пользование полностью параметрических методов в настоящее время ограничено, так как они приводят к заметному ухудшению натурально­сти звучания голоса и чрезвычайно чувствительны к фоновому шуму. Один из способов снижения скорости передачи речи и повышения эф­фективности использования полосы пропускания канала связи состоит в применении гибридных методов, основанных на принципах линейного предсказания и объединяющих параметрическое компандирование и кодирование формы волны (таблица 1).

Основные характеристики наиболее распространенных и перспективных методов кодирования речи являются предметом изучения в следующих лекциях.




Поделиться с друзьями:


Дата добавления: 2013-12-13; Просмотров: 402; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.007 сек.