Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Вопрос 3. Форматы записи-воспроизведения аудио сигналов

 

Для эффективного кодирования аудиоданных применяются наиболее прогрессивные методы, в основе которых лежит свойство их универсальности и независимости от качества исходного звукового фрагмента, равно как и результирующего, в зависимости от установок, применяемых в ходе сжатия.В настоящее время наиболее известны mp3, wma и divx audio. Все они используют так называемое кодирование для восприятия (perceptual coding), при котором из звукового сигнала удаляется информация, малозаметная для слуха. В результате, несмотря на изменение формы, и спектра сигнала, его слуховое восприятие практически не меняется, а степень сжатия оправдывает незначительное уменьшение качества. Такое кодирование относится к методам сжатия с потерями, когда из сжатого сигнала уже невозможно точно восстановить исходную волновую форму.

Приемы удаления части информации базируются на особенностях человеческого слуха, называемой маскированием: при наличии в спектре звука выраженных пиков (преобладающих гармоник) более слабые частотные составляющие в непосредственной близости от них на слух практически не воспринимаются (маскируются). При кодировании весь звуковой поток разбивается на мелкие кадры, каждый из которых преобразуется в спектральное представление и делится на ряд частотных полос.

Внутри полос происходит определение и удаление маскируемых звуков, после чего каждый кадр подвергается адаптивному кодированию прямо в спектральной форме. Все эти операции позволяют значительно (в несколько раз) уменьшить объем данных при сохранении качества, приемлемого для большинства слушателей. Каждый из описанных методов кодирования характеризуется скоростью битового потока, с которой сжатая информация должна поступать в декодер при восстановлении звукового сигнала. Декодер преобразует серию сжатых мгновенных спектров сигнала в обычную цифровую волновую форму. В любом видео или аудио потоке содержится значительное количество избыточной информации, которая независимо от ее присутствия или отсутствия не может быть воспринята человеческим ухом или глазом. Информация в MPEG-файле записана последовательными блоками — кадрами (frames), которые последовательно считываются, а затем декодируются. Естественно, что чем больше поток, тем большее количество информации остается в файле и соответственно тем большее представление об оригинальном звуке в нем содержится. Аудиоинформация, сжатая по данной схеме, может передаваться потоком (streaming), а может храниться в файлах формата MP3 или WAV-MP3. Отличие второго от первого состоит в наличии дополнительного заголовка WAV-файла, что позволяет при наличии MP3-кодека в системе для работы с таким файлом использовать стандартные средства Windows.

Основная идея, на которой основаны все методики сжатия аудио сигнала с потерями, — отказ от кодирования тонких деталей звучания оригинала, лежащих вне пределов возможностей человеческого слуха. Звуки, находящиеся на границах резких перепадов уровня: после очень громкого звука на протяжении небольшого отрезка времени около 100 мс и перед ним на протяжении 5 мс, человеческое ухо неспособно воспринимать другие, более тихие звуки.

Говоря об этом, обычно имеют в виду возможности сознательного восприятия, игнорируя часто встречающийся эффект под порогового восприятия различных мелких, сравнительно тихих деталей; с их помощью, например, нередко обеспечивается эмоциональная окраска композиции. Но если при кодировании все же ограничиваться только действительно не воспринимаемыми потерями, то можно говорить о сохранении исходного качества закодированного аудио.

Как известно, наиболее важную роль в передаче звукового сигнала играют вершины огибающей, в то время как переходами вблизи нулевой отметки можно пожертвовать. После такой обработки звуковая выборка без труда сжимается с помощью обычных алгоритмов кодирования LZ или Huffman. Но полученная ширина потока не yдовлетвоpила разработчиков. Ради дальнейшего уменьшения объема потока была разработана подробная психоакустическая модель возможностей человеческого слуха, и из потока стала исключаться информация о деталях звука, полностью или частично маскируемых более сильным сигналом. В данную категорию из-за низкого уровня автоматически попадает большая часть сознательно не воспринимаемого сигнала (в принципе, на высших потоках происходил аналогичный процесс, но в несравнимо меньшей степени, с сохранением практически всех существенных деталей). Кроме того, для снижения уровня потерь на низких потоках применяются особые виды техники, главный из которых – режим кодирования объединенного стерео (joint stereo). Потери при кодировании в режиме joint stereo на низких потоках (и только на них) оказываются намного ниже, чем при кодировании в режиме нормального стерео, если стереоэффект особого значения не имеет; но, к сожалению, оно же приводит к плачевным результатам в часто встречающихся случаях записей с фазовым сдвигом, созданным при записи намеренно или появившимся в процессе эксплуатации записи.

Суть кодирования в соответствии с техникой joint stereo состоит в пpеобpазовании всего стереосигнала в средний сигнал между каналами и разность между ними. Но это только один вариант joint stereo, называемый MS Stereo. На особо низких потоках, таких как 96 Кбит/с, применяется техника MS/IS Stereo, в которой для некоторых частотных диапазонов вместо разницы между каналами хранится лишь информация о соотношении мощностей сигнала в разных каналах. Продукция FhG IIS так кодирует только высокие частоты, но некоторые кодеры позволяют выбрать нужный диапазон вручную. К сожалению, выбор заключается в указании нужного значения одной из маловразумительных внутренних переменных формата, не разъясняемой в документации.

Окончательной версии выше упоминаемой психоакустической модели пока не существует, как нет и определенного стандартного алгоритма кодирования. В связи с этим в общем случае объем и степень ощутимости потерь определяются, с одной стороны, потоком, а с другой — особенностями конкретной разновидности психоакустической модели, использованной в каждом конкретном кодере. Последний момент имеет особенно большое значение на низких потоках. Существует набор эффектов, которые на таких потоках крайне плохо поддаются кодированию.

И еще одна особенность человеческого слуха была учтена при разработке алгоритма компрессии — использование минимального порога слышимости. Наибольшей чувствительностью (2-4 дБ) органы слуха обладают в среднем диапазоне частот порядка 2-5 кГц. На других частотах порогом чувствительности может стать значение громкости звука в 40 дБ. Иными словами, звуки, лежащие за порогом чувствительности, нет смысла сохранять, поскольку они все равно не будут услышаны.

На основании подобных эффектов создается так называемая психоакустическая модель, разбивающая весь частотный спектр на части, в которых уровень звука примерно одинаков, после чего удаляет звуки, не воспринимаемые человеком, как это было описано выше.

Существует три уровня audio MPEG для сжатия стереофонических сигналов:

· коэффициент сжатия 1:4 при допустимом потоке данных 384 Кбит/с;

· 1:6..1:8 при 256..192 Кбит/с;

· 1:10..1:12 при 128..112 Кбит/с.

Теперь попробуем понять, какова разница между уровнями (Layers). Например, в Layer 3 части разбитого спектра намного меньше, чем в первых двух, и по этой причине сжатие этим методом является наиболее продуктивным, а коэффициент его достигает 1:12 без заметной на слух потери качества. Поэтому столь широкое распространенное получило расширение файлов MP3 (MPEG Layer 3).

Для получения звука с качеством CD необходимо компрессировать аудиофайлы с потоком 256 Кбит/с, но для большинства слушателей и большинства применений вполне достаточно 128 Кбит/с (по 64 Кбит/с на канал). Однако среди великого множества кодеров MP3-файлов следует отметить немногие, позволяющие сжимать звуковой ряд с переменным потоком (variable bitrate), обеспечивая, таким образом, максимальное качество и экономя дисковое пространство. Основой таких кодеков является использование в каждый момент времени определенного значения потока и, как следствие, изменяющейся во времени природы звукового сигнала (частоты и амплитуды звуковых колебаний). Для сжатия речи с отличным качеством вполне достаточно 24 или 32 Кбит/с.

Построение той самой психоакустической модели — сложный математический процесс, изобилующий вычислениями с плавающей запятой. Как следствие, подобный процесс, равно как и процесс сжатия, методом Хаффмана, требует солидной вычислительной мощности и при декодировании файлов формата MPEG, и особенно — при кодировании. Первоначально для этой цели использовались специализированные устройства, выполнявшие все математические преобразования на аппаратном уровне, и лишь в последние годы, после появления достаточно мощных процессоров, способных справляться с подобными вычислениями без особого ущерба для остальных приложений, это стало возможным и с помощью специальных программ.

 

Вопрос 4. Программные средства записи-воспроизведения звука

 

Приведем пример программы для записи звука. Программа для записи звука – Audacity, это бесплатная программа, с помощью которой вы сможете делать качественные, профессиональные записи с любых источников звука и сохранять их в различных форматах, с последующей публикацией аудио записей на своем сайте.

 

Программа для записи звука – Audacity, позволяет создавать очень качественные аудио файлы в широко распространённых форматах, таких, как mp3, wav и много других. И, что не маловажно, у программы для записи звука – Audacity, есть русский интерфейс.

Для того, чтобы установить программу для записи звука - Audacity, необходимо скачать дистрибутив.

Могу предложить Вам скачать версию дистрибутива - audacity-win-unicode-1.3.13.exe. Чтобы скачать программу для записи звука – Audacity, кликаем по ссылке: скачать Audacity 1.3.

Для установки программы кликаем два раза на скаченный исполняемый дистрибутивный файл. Процесс установки обычный, и ни каких проблем не вызывает.

Если, в процессе установки, Вы оставите отмеченным бокс “Создать ярлык на рабочем столе”, то программа установщик, создаст ярлык, и Вы сможете запускать программу для записи звука с помощью этого ярлыка. Программа установлена.

Интерфейс программы для записи звука Audacity, интуитивно понятен, и Вы быстро эту программу освоите. Как всегда, в верхней части программы, расположено главное меню.

В меню Вы можете создать проект, произвести запись с микрофона, открыть проект или аудио запись для редактирования. С помощью редактирования, можно вырезать не нужные куски аудио записи или добавить фрагмент аудио записи.

Кроме того, программа для записи звука Audacity, способна применить к аудио записи различные аудио эффекты. Уменьшить или увеличить уровень аудио записи, применить к аудиозаписи такие эффекты, как выравнивание, инвертирование, авто приглушение, изменение скорости и темпа воспроизведения аудио записи и так далее.

При необходимости, при создании аудио контента, и редактировании аудио записей, Вы можете использовать такие эффекты, как удаление шума, щелчков, автоматическое снижение уровня аудио записи, а так же плавное нарастание аудио звука.

С помощью программы для записи звука Audacity, можно работать как с моно звуком, так и со стерео звуком. При редактировании аудио записи, диаграмма записи выводится в специальные окна, где Вы имеете возможность визуально оценивать уровень амплитуды аудио записи, и при необходимости производить необходимые изменения в аудио запись.

Под главным меню программы для записи звука, находятся основные кнопки управления. Это кнопки Запись, Воспроизведение, Приостановка, Остановка и две кнопки для перехода в начало и конец аудио дорожек.

Стоит упомянуть и о строке иконок с инструментами, которые дублируют основные пункты меню. Это иконка для регулировки уровня выходного сигнала, уровня записи микрофона, иконка вырезания и вставки фрагментов аудио записей. Иконка изменения скорости воспроизведения редактируемой аудио записи.

Это далеко не полный перечень возможностей программы для записи звука - Audacity. Как видите, программа для записи звука Audacity, имеет такой набор функций и инструментов, что её можно сравнить с профессиональной программой для работы с аудио.

Теперь несколько слов о работе с программой для записи звука – Audacity. Программа имеет интуитивно понятный интерфейс, работа с программой быстро осваивается.

После установки программы, можно включить запись и записать звук с микрофона. В результате, немного поработав в программе для записи звука – Audacity, можно получить качественную запись аудио подкаста.

 

<== предыдущая лекция | следующая лекция ==>
Вопрос 2. Технологии звукового синтеза | Дополнительный материал по видеоинформации
Поделиться с друзьями:


Дата добавления: 2014-01-06; Просмотров: 994; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.027 сек.