Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Цифровое представление звуковых сигналов




Задача сжатия видеоинформации

 

Цифровой телевизионный сигнал в последовательной форме может непосредственно передаваться по каналам связи, предна­значенным специально для передачи дискретных сигналов, напри­мер, по широкополосным многоканальным линиям телеграфной связи с временным разделением каналов. В последние годы все шире используются широкополосные цифровые линии связи. Для цифрового телевизионного вещания могут использоваться и кана­лы связи с модуляцией несущего колебания.

Возможность точной передачи цифрового сигнала в первую очередь определяется отношением Сигнал/Помеха (СШ) в канале связи.

Оценим ширину полосы частот цифрового сигнала в последовательной форме и требуемую для его передачи ширину полосы канала связи. Рассмотрим периодическую последовательность прямоугольных импульсов, имеющих период Т=2Ти. Спектр такого сигнала содержит постоянную составляющую, основную гармонику частоты 1/ Т и постепенно убывающие нечет­ные гармоники этой частоты. Следовательно, спектр идеального импульсного сигнала неограничен.

Если ограничить полосу частот такого сигнала с помощью ФНЧ с достаточно крутым срезом АЧХ, форма импульсов будет искажена. Искажения проявятся в виде увеличе­ния длительности нарастания и спада импульса и возникновения колебательного переходного процесса. Это будет причиной огра­ничения допустимой частоты передаваемого импульсного сигнала, т.е. ограничения скорости передачи двоичных символов по каналу связи.

Длительность нарастания импульса связана с верхней гра­ничной частотой ФНЧ соотношением

=1/(2).

Если длительность входного импульса меньше tн, амплитуда импульса на выходе ФНЧ станет уменьшаться. При достаточно малой дли­тельности импульсов их амплитуда на выходе канала связи станет сравнимой с уровнем помех, что приведет к ошибкам работы при­емного устройства.

Выбросы и колебательные переходные процессы, возни­кающие при передаче импульсов, также ограничивают частоту пе­редаваемых по каналу связи импульсов. Если эта частота слишком велика, колебательный переходный процесс, созданный одним импульсом, будет накладываться на следующий импульс. Возни­кает помеха, называемая интерференционной, которая может при­вести к ошибкам приема.

Изложенные причины приводят к известному по теории связи условию: по каналу связи с шириной полосы пропускания можно передавать в виде двухуровневых импульсов 2 бит информации за 1 с. То есть эффективность использования полосы частот канала связи составляет 2(бит/с)/Гц. Следовательно, для передачи в последовательной форме цифрового телевизионного сигнала со скоростью передачи двоичных символов 243 Мбит/с необходим канал связи с шириной полосы частот 121,5 МГц. Ясно, что ни стандартный канал наземного телевизионного вещания, имеющий ширину полосы 8 МГц, ни спутниковый канал связи, имеющий ширину полосы 27 МГц, непригодны для передачи цифрового телевизионного сигнала. А для передачи телевизионных сигналов высокой четкости необходима еще более широкая полоса частот.

Поэтому одной из важнейших задач в области цифрового телевидения была задача сокращения скорости передачи двоичных символов и, соответственно, требуемой полосы частот канала связи. Эта задача может быть решена путем уменьшения избыточности информации, передаваемой в телевизионном сигнале. Уменьшение избыточности обеспечивает также уменьшение требуемого ЗУ при записи телевизионных программ. В соответствии с установившейся в технической литературе терминологией уменьшение объема передаваемой информации в ряде случаев будем называть сжатием видеоинформации, а также сжатием изображений, сжатием звуковых сигналов, сжатием речи и т.д. Обратную операцию будем называть расширением, х отя это звучит не привычно. В англоязычной литературе используется термин соmргеssion, а для обратной операции - deсоmргеssion. Избыточность телевизионного сигнала разделяется на структурную, статистическую и психофизиологическую.

Структурная избыточность связана с наличием в обычном телевизионном сигнале гасящих импульсов, во время которых информация об изображении не передается. Структурная избыточность телевизионного сигнала может быть уменьшена путем передачи во время гасящих импульсов какой-либо полезной информа­цией (например, звукового сопровождения), однако большого вы­игрыша это не дает.

Статистическая избыточность вызывается наличием кор­реляционных связей между значениями сигнала в соседних эле­ментах одной строки, в соседних строках и в соседних кадрах. Со­кращение статистической избыточности достигается путем устра­нения указанных корреляционных связей. Одним из наиболее из­вестных методов сокращения статистической избыточности явля­ется кодирование с предсказанием или дифференциальная импульсно-кодовая модуляция (ДИКМ), основанная на передаче приращений значений сигнала.

Психофизиологическая избыточность телевизионного сиг­нала определяется той информацией в нем, которая не восприни­мается человеком и, следовательно, могла бы и не передаваться. Психофизиологическая избыточность сокращается за счет удале­ния из передаваемого сигнала информации, отсутствие которой существенно не влияет на восприятие изображения человеком.

Примером метода сокращения психофизиологической избы­точности может служить способ кодирования Кретцмера, в соот­ветствии с которым при передаче крупных деталей изображения количество градаций яркости увеличивается, а при передаче мел­ких деталей - уменьшается. Этот способ основан на использовании обратно пропорциональной зависимости между геометрическим и градационным разрешением зрительного аппарата человека. При восприятии мелких деталей ухудшается различие градаций ярко­сти. В других методах используется ухудшение геометрического и градационного разрешения зрения при наблюдении движущихся объектов. Общая основа всех этих методов - ограниченность про­пускной способности зрения как системы передачи и обработки информации.

Применение различных способов сжатия информации, за­ключенной в телевизионном изображении, позволяет не только передавать цифровой телевизионный сигнал обычной четкости по стандартным каналам телевизионного вещания, но и добиться возможности передачи по этим каналам одновременно нескольких программ телевидения обычной четкости, сигналов новых систем телевидения высокой четкости, а также передачи цифровых теле­визионных сигналов по каналам связи с более узкой полосой частот, чем стандартные вещательные каналы.

Методы сжатия изображений можно разделить на два класса: методы сжатия без потерь информации и методы сжатия с частичной потерей информации. При сжатии без потерь после декодирования получается изображение, идентичное исходному. Примерами таких методов могут служить различные алгоритмы архивирования изображений, применяемые в вычислительной технике и основанные на уменьшении статистической избыточности. Возможности сжатия реальных цветных или полутоновых черно-белых изображений без потерь весьма ограничены. Так, путем преобразования записанного в компьютере изображения в формат GIF, являющийся одним из наиболее компактных и эффективных, объем информации сокращается в среднем в 2-3 раза, что явно недостаточно для решения задач, стоящих в области цифрового телевидения.

Гораздо большего эффекта позволяют достичь методы сжатия с частичной потерей информации. С помощью метода JPEG можно уменьшить объем информации реального неподвижного изображения в 5-10 раз без заметного ухудшения визуально воспринимаемого качества декодированных изображений. Возможно и еще большее сжатие, но при этом уже начинают наблюдаться заметные искажения изображения. Получение ­минимального объема передаваемой или запоминаемой информации при сохранении достаточно высокого качества изображения является одной из главных задач при поиске новых алгоритмов сжатия.

 

Исходная форма звукового сигнала - непрерывное изменение амплитуды во времени - представляется в цифровой форме с помощью "перекрестной дискретизации" - по времени и по уровню.

Одновременно с временной дискретизацией выполняется амплитудная - измерение мгновенных значений амплитуды и их представление в виде числовых величин с определенной точностью. Точность измерения (двоичная разрядность N получаемого дискретного значения) определяет соотношение сигнал/шум и динамический диапазон сигнала (теоретически это - взаимно-обратные величины, однако любой реальный тракт имеет также и собственный уровень шумов и помех).

Полученный поток чисел (серий двоичных цифр), описывающий звуковой сигнал, называют импульсно-кодовой модуляцией или ИКМ (Pulse Code Modulation, PCM), так как каждый импульс дискретизованного по времени сигнала представляется собственным цифровым кодом.

Чаще всего применяют линейное квантование, когда числовое значение отсчета пропорционально амплитуде сигнала. Из-за логарифмической природы слуха более целесообразным было бы логарифмическое квантование, когда числовое значение пропорционально величине сигнала в децибелах, однако это сопряжено с трудностями чисто технического характера.

Временная дискретизация и амплитудное квантование сигнала неизбежно вносят в сигнал шумовые искажения, уровень которых принято оценивать по формуле 6N + 10lg (Fдискр/2Fмакс) + C (дБ), где константа C варьируется для разных типов сигналов: для чистой синусоиды это 1.7 дБ, для звуковых сигналов - от -15 до 2 дБ. Отсюда видно, что к снижению шумов в рабочей полосе частот 0..Fмакс приводит не только увеличение разрядности отсчета, но и повышение частоты дискретизации относительно 2Fмакс, поскольку шумы квантования "размазываются" по всей полосе вплоть до частоты дискретизации, а звуковая информация занимает только нижнюю часть этой полосы.

В большинстве современных цифровых звуковых систем используются стандартные частоты дискретизации 44.1 и 48 кГц, однако частотный диапазон сигнала обычно ограничивается возле 20 кГц для оставления запаса по отношению к теоретическому пределу. Также наиболее распространено 16-разрядное квантование по уровню, что дает предельное соотношение сигнал/шум около 98 дБ. В студийной аппаратуре используются более высокие разрешения - 18-, 20- и 24-разрядное квантование при частотах дискретизации 56, 96 и 192 кГц. Это делается для того, чтобы сохранить высшие гармоники звукового сигнала, которые непосредственно не воспринимаются слухом, но влияют на формирование общей звуковой картины.

Для оцифровки более узкополосных и менее качественных сигналов частота и разрядность дискретизации могут снижаться; например, в телефонных линиях применяется 7- или 8-разрядная оцифровка с частотами 8..12 кГц.

Обратное преобразование звуковых сигналов из цифровой формы в аналоговую требует обязательного использования ФНЧ, подавляющего все частоты выше частоты дискретизации чтобы точно восстановить форму аналогового сигнала.

Чтобы упростить требования к аналоговому ФНЧ, перед цифроаналоговым преобразованием выполняют повышение частоты дискретизации (upsampling) в несколько раз. Например, частоту 44,1 кГц повышают в 4 раза до 176,4 кГц. Промежуточные отсчеты получают путем интерполяции с использованием цифрового фильтра. При этом все побочные составляющие спектра сигнала смещаются вверх.

Методы эффективного сжатия цифрового звука, В настоящее время наиболее известны Audio MPEG, PASC и ATRAC. Все они используют так называемое "кодирование для восприятия" (perceptual coding) при котором из звукового сигнала удаляется информация, малозаметная для слуха. В результате, несмотря на изменение формы и спектра сигнала, его слуховое восприятие практически не меняется, а степень сжатия оправдывает незначительное уменьшение качества. Такое кодирование относится к методам сжатия с потерями (lossy compression), когда из сжатого сигнала уже невозможно точно восстановить исходную волновую форму.

Приемы удаления части информации базируются на особенности человеческого слуха, называемой маскированием: при наличии в спектре звука выраженных пиков (преобладающих гармоник) более слабые частотные составляющие в непосредственной близости от них слухом практически не воспринимаются (маскируются). При кодировании весь звуковой поток разбивается на мелкие кадры, каждый из которых преобразуется в спектральное представление и делится на ряд частотных полос. Внутри полос происходит определение и удаление маскируемых звуков, после чего каждый кадр подвергается адаптивному кодированию прямо в спектральной форме. Все эти операции позволяют значительно (в несколько раз) уменьшить объем данных при сохранении качества, приемлемого для большинства слушателей.

Каждый из описанных методов кодирования характеризуется скоростью битового потока (bitrate), с которой сжатая информация должна поступать в декодер при восстановлении звукового сигнала. Декодер преобразует серию сжатых мгновенных спектров сигнала в обычную цифровую волновую форму.

Audio MPEG - группа методов сжатия звука, стандартизованная MPEG (Moving Pictures Experts Group - экспертной группой по обработке движущихся изображений). Методы Audio MPEG существуют в виде нескольких типов - MPEG-1, MPEG-2 и т.д.; в настоящее время наиболее распространен тип MPEG-1.

Существует три уровня (layers) Audio MPEG-1 для сжатия стереофонических сигналов: Минимальная скорость потока данных в каждом уровне определяется в 32 кбит/с; указанные скорости потока позволяют сохранить качество сигнала примерно на уровне компакт-диска. Все три уровня используют входное спектральное преобразование с разбиением кадра на 32 частотные полосы. Наиболее оптимальным в отношении объема данных и качества звука признан уровень 3 со скоростью потока 128 кбит/с и плотностью данных около 1 Мб/мин. При сжатии с более низкими скоростями начинается принудительное ограничение полосы частот до 15-16 кГц, а также возникают фазовые искажения каналов (эффект типа фэйзера или фленжера).

Audio MPEG используется в компьютерных звуковых системах, CD-i/DVD, "звуковых" дисках CD-ROM, цифровом радио/телевидении и других системах массовой передачи звука.

PASC (Precision Adaptive Sub-band Coding - точное адаптивное внутриполосное кодирование) - частный случай Audio MPEG-1 Layer 1 со скоростью потока 384 кбит/с (сжатие 1:4). Применяется в системе DCC.

ATRAC (Adaptive TRansform Acoustic Coding - акустическое кодирование адаптивным преобразованием) базируется на стереофоническом звуковом формате с 16-разрядным квантованием и частотой дискретизации 44.1 кГц. При сжатии каждый кадр делится на 52 частотные полосы, результирующая скорость потока - 292 кбит/с (сжатие 1:5). Применяется в системе MiniDisk.

Контрольные вопросы

1. Какие операции предполагает преобразование аналогового телевизионного сигнала в цифровой?

2. Что называется дискретизацией телевизионного сигнала?

3. Что называется квантованием телевизионного сигнала?

4. Что называется кодированием телевизионного сигнала?

5. Какое условие по частоте дискретизации должно выполняться в соответствии с теоремой Котельникова?

6. В каком случае интерполированный сигнал не будет иметь искажений формы по сравнению с исходным сигналом?

7. Каким образом будут отличаться спектры дискретизированного сигнала при выполнении и при нарушении условий теоремы Котельникова?

8. Как проявляются искажения, создаваемые дискретизацией?

9. Чем определяется число уровней квантования?

10. Что называется шумом квантования и как он проявляется?

 

 




Поделиться с друзьями:


Дата добавления: 2014-01-06; Просмотров: 1903; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.022 сек.