Вопросы качества аудиоматериала

Последствия преобразования из форматов с потерями качества

Исходный материал для сжатия - это аудиодиски формата CDDA. Сам формат далек от совершенства, существуют форматы с более высокими возможностями, например SACD или DVD-Audio, но во первых если количество записей в формате CDDA исчисляется сотнями миллионов наименований, то все остальные форматы укладываются в несколько десятков тысяч, а во вторых качество записи определяется не столько цифровым форматом, сколько качеством аналоговых мастер лент с которых делались записи и технологией ремастирования.

CDDA формат представляет звуковую информацию в импульсно-кодовой модуляции (PCM) с частотой дискретизации 44,1 кГц, что соответствует битрейту 1411,2 кбит/с, оцифровка стерео сигнала производится с точностью 16 бит. Частота дискретизации в 44.1 кГц, согласно теореме Котельникова - Найквиста - Шеннона позволяет без искажений восстанавливать оригинальный сигнал с максимальной частотой в спектре до 22050 Гц. Для сравнения ниже приведены параметры оцифровки других форматов:

  CDDA DVD-Audio SACD
Разрешение 16 бит PCM 16-, 20-, 24 бит PCM 1 бит DSD
Частота дискретизации 44,1 кГц 44,1—192 кГц 2,8224 МГц
Динамический диапазон 96 dB 144 дБ (теоретически) 120 dB
Частотный диапазон 20—20 000 Гц 5 — 96000 Гц 20—50 000 Гц
Ёмкость диска 700 МБ 4,7—8,5 ГБ 4,7—8,5 ГБ
Время звучания 80 мин.   120 / 109 мин
Стерео + + +
Surround Sound - 5.1 (кроме 192 кГц) 5.1

Стандарт CDDA (16 бит/44.1 кГц) является вполне достаточным для получения хорошего звучания при условии правильного мастеринга (с высокой разрядностью и частотой дискретизации) и преобразования в конечный вид с использованием качественных алгоритмов ресемплирования. Имеется в виду, что исходный материал формируется на частотах и с точностью гораздо более высоких, чем у стандарта CDDA, а затем сигнал 'огрубляется' до параметров данного стандарта. Это особенно хорошо видно на изданиях, выпускаемых одновременно в стандарте SACD и CDDA.

При переносе информации c CDDA на жесткий диск компьютера формируется wav файл. Информация wav файла полностью соответствует информации хранящейся на CDDA диске. Сигнал wav файла может сжиматься "без потери качества" (режим архивирования, когда при распаковке исходный сигнал восстанавливается с точностью до бита) или "с потерей качества". В отличии от "формата без потерь" (lossless) "форматы с потерей качества" (lossy) сжимают материал за счет преобразования исходного сигнала. Вопросы о том насколько принципиальна потеря качества с точки зрения слушателя постоянно обсуждается в интернет, но в большинстве случаев вопрос решается на уровнем ощущений - "я не слышу разницы" или наоборот. Попробую посмотреть на этот вопрос с технической точки зрения. Большинство аудио редакторов имеют режим отображения информации, называемый "Спектральный просмотр" (Spectral View). В этом режиме по вертикали откладывается частота сигнала, а цвет точки определяет силу сигнала данной частоты.

В ходе эксперимента брался исходный wav файл, содержащий сигнал достаточно высокого качества, проводилось преобразование в тот или иной формат "с потерями" качества с различными характеристиками, далее полученный результат снова возвращался в wav формат и просматривался аудио редактором. Посмотрим на вид сигнала до и после преобразования для lossy форматов MP3, ACC (формат Apple и iTunes), OGG (новый универсальный формат). Параметры преобразования указаны для каждой картинки.


карт. 1

Это исходный сигнал, достаточно хорошего качества. Размер исходного wav файла 39.6 Мбайт (CDDA - 44.1 KHz). При сжатии "без потерь" в формате flac размер файла 25.0 Мбайт, в формате ape - 23.9 Мбайт.


карт. 2

Это сигнал, преобразованный в формат MP3 с битрейт (Bit Rate) 320 Кбит/сек. Размер файла 9.0 Мбайт. Это высокий битрейт, и размер файла достаточно велик но потери качества заметны.


карт. 3

Это сигнал, преобразованный в формат MP3 с битрейт 256 Кбит/сек. Размер файла 7.2 Мбайт.


карт. 4

Это сигнал, преобразованный в формат MP3 с битрейт 128 Кбит/сек. Размер файла 3.6 Мбайт.


карт. 5

Это сигнал, преобразованный в формат MP3 с битрейт 96 Кбит/сек. Размер файла 2.7 Мбайт.


карт. 6

Это сигнал, преобразованный в формат ACC с битрейт 256 Кбит/сек. Размер файла 4.3 Мбайт.


карт. 7

Это сигнал, преобразованный в формат ACC с битрейт 128 Кбит/сек. Размер файла 3.6 Мбайт.


карт. 8

Это сигнал, преобразованный в формат OGG с битрейт 320 Кбит/сек. Размер файла 9.8 Мбайт. Достаточно качественный сигал, но и размер файла  максимален в данной выборке. На "слух" вряд ли возможно распознать отличие данного сигнала от оригинала, но искажение сигнала в верхних частотах имеет место. Есть оно и в средних частотах, хотя мене заметно.


карт. 9

Это сигнал, преобразованный в формат OGG с битрейт 256 Кбит/сек. Размер файла 7.9 Мбайт.


карт. 10

Это сигнал, преобразованный в формат OGG с битрейт 128 Кбит/сек. Размер файла 3.7 Мбайт.

В виде таблицы:

 Формат  Битрейт (Кбит/сек)  Размер файла (Мбайт)  k сжатия
 wav  44.1 KHz  39.6  
 flac  -"-  25.0 1.58
 ape  -"-  23.9 1.66
 MP3  320  9.0 4.40
 MP3  256  7.2 5.50
 MP3  128  3.6 11.00
 MP3  96  2.7 14.67
 ACC  320  4.3 9.21
 ACC  128  3.6 11.00
 OGG  320  9.8 4.04
 OGG  256  7.9 5.01
 OGG  128  3.7 10.70

На приведенных картинках потери в качестве сигнала очевидны. Следует обратить внимание на то, что два наиболее приемлемых результата преобразования имеют похожие k-сжатия около 4. Это означает что результат сжатия не столько зависит от алгоритма MP3 или OGG, сколько от выбранного битрейта и дают похожие размеры результирующих файлов. А ведь именно размер файла является смыслом сжатия "с потерями". Поэтому решение о методе сжатия в конечном счете определяется стоимостью места на внешних носителях, и тех "жертвах" в качестве звука на которые готов пойти хозяин коллекции, ради уменьшения ее объема.

Поскольку определение качества сигнала формальными Tau-анализаторами не дает однозначного ответа, весь исходный материал коллекции просматривается в "ручном" режиме и только при отсутствии признаков преобразования или иных подозрительных дефектов принимается в состав коллекции. Здесь можно ознакомиться с некоторой терминологией, используемой при описании звука.

Другие источники не качественного аудио сигнала

Еще одним источником не качественных записей являются звуковые дорожки снятые с концертных DVD и извлеченные из музыкальных клипов. В основе звуковой концепции DVD положены технологии обеспечивающие эффект присутствия зрителя, для чего используется значительное количество независимых звуковых каналов (5 или 7), а также дополнительный низкочастотный канал (под сабвуфер). Аудио запись предъявляет другие требования. В этом случае основное требование - адекватная передача звука, а поскольку у человека только два уха, то и большое количество каналов не требуется. Использование сабвуфера оправдывается только недостаточной способностью звуковых колонок одинаково качественно воспроизводить весь частотный спектр слышимого звука. Проблема заключается в том, что технология воспроизведения и распространения высоких и низких частот сильно отличаются. Сабвуфер, это наиболее экономное решение данной задачи. Hi-end техника, как правило, не имеет средств выделения из стерео записи низкочастотного канала и специального выхода для подключения сабвуфера. Требования к качеству звукового сигнала на DVD традиционно не высоки, где то на уровне среднего mp3, однако алгоритмы компрессии отличались от применяемых к аудио записям. Картинка подобного сигнала показана ниже:


карт. 11

Однако в настоящее время все обстоит не так однозначно. Современные видео-DVD и особенно Blu-ray диски имеют настолько много места, что появляется возможность сохранения самого качественного аудио сигнала. Наиболее распространенный стандарт Dolby Digital формирует единый поток данных, в котором сигналы каждого из 6 каналов располагаются один за другим. Скорость цифрового потока всех шести каналов составляет 384 Кбит/с. В этом стандарте каждый канал кодируется с использованием в десять раз меньшего количества битов, чем при записи на CDDA. Сегодня исходные аудиодорожки к фильмам записываются в формате без сжатия PCM с параметрами 24 бит/96 кГц, что гораздо лучше, чем на аудио CD. После микширования саундтрек сжимают для воспроизведения в кинотеатре или дома. Для Blu-ray диска объем которого доходит до 50 Гб необходимость в компрессии отпадает. Такой диск способен хранить полный саундтрек в формате PCM 7.1 с параметрами 24 бит/48 кГц; даже однослойный 25-гигабайтный диск легко вмещает звуковую дорожку без сжатия в формате PCM 5.1. Самые качественные стандарты - Dolby TrueHD и DTS-HD Master Audio. DTS-HD Master Audio позволяет сохранять идентичность звука оригинала. Кроме этого данные форматы могут передавать аудио-сигнал с максимально высоким битрейтом со сжатием без потери качества в 24,5 Мбит/с (это для Blu-ray) и 18,0 Мбит/с (HD DVD). Причем на диске могут присутствовать как многоканальная запись (5.1 или 7.1), так и стерео (2 канала). Кроме упомянутых форматов, определяющих границы качества звука современных видео записей, существует множество других форматов, которые в некоторых случаях лучше стандарта CDDA, а в некоторых случаях хуже. Поэтому сам факт извлечения аудио сигнала из видео диска не является признаком его плохого качества. В последнее время мне часто попадаются концертные записи, которые не имеют соответствующего аудио издания, но тем не менее имеющие вполне приличное звучание.

Некоторые соображения о качестве звукового материала

Здесь можно посмотреть другие картинки спектра сигнала, говорящие о характеристиках аудио материала.


карт. 12

Это фортепьяно, при полном и насыщенном спектре, с большим количеством обертонов. Высокое качество исходного материала.


карт. 13

 Сигнал на фоне "серого шума". Здесь отсутствуют признаки преобразования, но сигнал 'победнее'. Однако такая запись может быть совершенно нормальна, а состояние сигнала являться признаком, например концертной записи. Здесь можно говорить о невысоком соотношении сигнал/шум источника сигнала при оцифровке или ремастировании.


карт. 14

Это фортепьяно, спектр 'бедный' но шума мало, хотя фортепьяно и не должно давать частоты выше 4200 Hz без учета обертонов. Вопрос в том почему такой сигнал получен в ходе создания диска. Если речь идет ремастировании записей 50-х годов, то можно объяснить данное состояние сигнала качеством исходного материала и такая запись может быть принята. Например, записи Scott Joplin имеют еще более 'бедный' сигнал, но причина такого его состояния понятна. Часто в качестве исходного материала используются не профессиональные мастер-ленты, а виниловые пластинки - в этом случае необходимо знать, кто и в каких условиях занимался переводом материала в цифру. Но если, приведенный выше вид, имеет сигнал снятый со свежей мультиинструментальной записи, изданной в 2000-х годах, то сразу возникает вопрос к диску.

Для вида сигнала важен состав инструментов, используемых в записи, а также велась ли запись с использованием 'физических' инструментов или применялась электроника. Запись с использованием одного инструмента всегда будет иметь более бедный спектр, по сравнению с оркестровой записью, пусть в оркестре даже два или три инструмента, поскольку каждый из них имеет свои собственные обертоны.

Так выглядит вступление оркестра после фортепьянного начала:


карт. 15

Электронные инструменты практически не дают обертонов, а их сигнал имеет характерные регулярные особенности. Ниже приведен спектр записи с использованием электронных инструментов.


карт. 16

Еще одной любопытной особенностью проявляющейся при просмотре спектра, является наличие 'микрофонного следа'. Это достаточно условный термин, подразумевающий наличие в частотной характеристике микрофона, некой частоты самовозбуждения, оставляющий характерный след на записи. Я подозреваю, что это не только следствие особенности микрофона, но их сочетание с акустикой помещения, где производилась запись. Мне встречались подобные особенности именно на концертных записях.


карт. 17

В большинстве случаев услышать данную особенность практически не возможно. Гораздо хуже, когда с подобным 'следом' пытаются бороться с помощью частотной фильтрации, как это показано на картинке, приведенной ниже. Здесь можно подозревать существенное ухудшение исходного материала.


карт. 18

В значительной степени на картинку сигнала влияют условия записи. Студийная запись всегда будет лучше концертной (live) записи по соотношению сигал/шум. На спектральную картинку влияет также общий уровень записи (громкость).

Спектральный анализ помогает понять, что можно требовать от конкретной записи, поскольку ни одна даже самая 'навороченная' техника не способна воспроизвести те частоты, которых просто нет в исходном сигнале. В любом случае оценку качества записи по спектральной картинке можно делать только с учетом приведенных выше соображений.

вернуться

 

         Последние изменения в документе сделаны 26/10/16 17:17

Главная страница проекта:
My Music Base