DJ School: Что такое цифровое аудио
Цифровое аудио, в таком случае, есть ни что иное, как представление непрерывной волны в виде дискретных импульсов. В некотором роде это сходно с кино и телевидением: непрерывное с виду изображение также является набором отдельных кадров. Просмотр кадров с надлежащей скоростью (24 или 30 кадров в секунду), заставляет человеческий мозг воспринимать их как непрерывно меняющееся изображение. В цифровом аудио для достижения эффекта непрерывности используются подобные «кадры», снятые со звука, называемые сэмплами (samples). Но из-за природы человеческого слуха, процесс образования сэмплов более сложен. Звук, если можно так выразится, «аналоговый» по своей сути, он непрерывно меняется и в нем отсутствуют дискретные скачки давления. Такой звук мы и ожидаем услышать, так что уши невозможно «одурачить» по подобию кино: «скачущий» звук не будет восприниматься, независимо от того, с какой частотой следуют эти скачки. Все это означает, что цифровое аудио не может в полной мере являться средством, доносящим звуковую информацию до наших ушей. Оно представляет некое среднее звено, требующее некоторых преобразований на входе и на выходе. Микрофон производит аналоговый сигнал, преобразуя колебания воздуха в непрерывно меняющиеся электрические сигналы. В цифровом аудио эти аналоговые сигналы преобразуются в цифровые данные. На выходе данные преобразуются обратно в аналоговый сигнал, который посылается на усилитель или громкоговорители, давая нам возможность его услышать.
Звук в пространстве распространяется в виде волн, это все и так знают. Волны представляют собой частые колебания давления. Чем чаще колебания, тем выше частота звука, чем выше их амплитуда, тем громче звук. Проще не бывает. Колебания цикличны по природе своей, и если можно было бы видеть, как они проходят через какую-либо точку, они предстали бы в виде постоянно меняющейся волны. Поэтому мы будем считать, что звук имеет форму волны (waveform).
Процесс преобразования аналогового аудио в цифровые данные (A-D conversion) включает в себя измерение мгновенных значений уровня (амплитуды) несколько раз в секунду, и запись этого уровня в виде числа. Данный процесс называется сэмплированием, а каждое число, полученное в результате преобразования — сэмплом или просто словом.
Точность процесса преобразования определяется двумя основными факторами: диапазоном (минимальным и максимальным значением чисел для каждого из сэмплов), и скоростью, вернее частотой непосредственно сэмплирования (количеством сэмплов, полученных за единицу времени).
Диапазон значений: Длина слова
Каким же образом диапазон значений чисел влияет на качество звука? Если речь идет об уровне (громкости) звука, диапазон значений аналогового аудио находится в пределах от 0 до бесконечности, т.е. количество этих значений бесконечно велико. Однако, если вы берете мгновенные значения амплитуды через какие-либо промежутки времени, они всегда будут аппроксимированными (приблизительными) в большей или меньшей степени. Степень соответствия полученных и реальных значений зависит от количества шагов аппроксимации. Если ваш числовой набор состоит из четырех значений, например, 1, 2, 3 и 4, то в таком случае аппроксимация будет очень и очень грубой. А если диапазон значений составляет 65536 чисел, то аппроксимированные значения будут весьма близки к реальным. Разница между соседними значениями амплитуды называется шагом квантования.
Разница между полученным в результате аппроксимации уровнем сигнала и реальным уровнем называется ошибкой квантования. Эти ошибки воспринимаются на слух как шум. Соответственно, возвращаясь к вышесказанному, чем точнее приближение, тем меньше ошибок и тем ниже уровень шума у цифрового устройства. Разница между максимальным уровнем сигнала и уровнем шума, вызываемого ошибками квантования, называется отношением сигнал/шум аналого-цифрового преобразователя.
Цифровые сэмплы представляются в виде бинарных кодов (этот термин должен быть хорошо знаком пользователям персональных компьютеров) — последовательностей нулей и единиц. В таком виде представляется практически вся информация в электронных устройствах. (Если кто-то вам скажет, что его система лучше, так как в ней используются двойки и тройки, не верьте.)
Каждая цифра в бинарном коде известна как бит. В данном случае существует точная формула, связывающая число битов, которые использует преобразователь для создания цифровых сэмплов с максимальным отношением сигнал/шум этого преобразователя
Отношение сигнал/шум (дБ) = 1,76 + (число бит х 6,2)
Обычно эту формулу используют в упрощенной форме
Отношение сигнал/шум (дБ) = 2 + (число бит х 6)
Таким образом получается, что преобразователь, использующий цифровые слова длиной 8 бит обладает потенциальным отношением сигнал/шум равным 50 дБ, что представляет из себя качество, подобное СВ-радиостанциям. Преобразователь 12-битный обеспечивает отношение сигнал/шум 74 дБ, что будет примерно соответствовать хорошей кассетной деке или FM-радиостанции. И 16-битный преобразователь имеет отношение сигнал/шум, равное 98 дБ, что соответствует динамическому диапазону симфонического оркестра.
Тем не менее эти выводы — всего лишь теория. На самом деле существует великое множество разнообразных факторов, например, тот факт, что электронные схемы не абсолютно совершенны и имеют небольшие отклонения от своих «паспортных» характеристик. Это является причиной того, что реальная величина отношения сигнал/шум какого-либо АЦП всегда чуть ниже, чем рассчитанное по формулам.
Поскольку количество шагов квантования и есть то, что интересует нас в данный момент, то оно рассчитывается по простой формуле: 2 в степени (количество бит преобразователя). Таким образом 16-битный преобразователь имеет 2^16 шагов квантования, что составляет 65536 значений.
Промышленным стандартом для цифрового аудио являются 16-битные преобразователи. Эти устройства используются в DAT-магнитофонах, CD-плейерах и многодорожечных цифровых рекордерах. Нам (людям, а точнее нашим ушам) просто не нужен динамический диапазон, превышающий 98 дБ, его все равно невозможно ощутить, так что с этим все в порядке.
Однако, поскольку существующие цифровые системы на практике далеко не всегда обладают тем динамическим диапазоном, которым должны обладать теоретически, а нам хотелось бы распоряжаться всем этим диапазоном, то в таком случае может помочь пара лишних бит в АЦП. Даже в цифровых системах шум имеет свойство накапливаться: если вы микшируете несколько источников цифрового сигнала, шум, поступающий с них, будет складываться, снижая качество полученного микса. Чем больше обрабатывается и микшируется цифровой сигнал, тем больше необходимость в дополнительных битах. По этой причине многие цифровые устройства, например, устройства обработки, устройства записи или полностью цифровые микшерные консоли используют более длинные кодовые слова: 18, 20, 24, а иногда даже 32 бита. Эти дополнительные биты помогают поддерживать качество финального микса, который в конечном счете будет 16-битным. В технологиях, таких, как DVD (Digital Versatile Disk) также используются кодовые слова большей длины.
Кодовые слова длиной менее 16 бит также приемлемы в некоторых ситуациях. Используя их можно сократить объем используемой памяти, и это позволит упростить конструкцию системы. Большинство цифровых сэмплеров используют 12-битные кодовые слова, и при этом отлично звучат. Причина в том, что от сэмплеров не требуется такой огромный динамический диапазон, как для мастеринга. Один из первых цифровых форматов записи, известный как EIAJ или PCM-F1, понимал 14-битные и 16-битные кодовые слова. Более короткие слова, хотя и сокращают динамический диапазон на 6 дБ, оставшиеся 2 бита помогают системе в нахождении и коррекции ошибок (об этом чуть позже), что делает систему более надежной сохраняя, а иногда даже улучшая качество звучания.
Скорость: Частота сэмплирования
Другой решающий фактор качества и точности аналого-цифрового преобразователя — частота, с которой сэмплы «снимаются» с аналогового сигнала. Если требуется точное воспроизведение волны, то с нее должно быть снято по меньшей мере 2 сэмпла — в таком виде звучит следствие из теоремы Найк-виста, адаптированное к теме цифрового аудио. Исходя из этого следствия можно сделать вывод (хотя он уже давно сделан), что частота сэмплирования какого-либо должна в 2 раза превышать максимальную слышимую частоту этого сигнала. Если это правило не соблюдается, то появляется эффект наложения, результирующий появлением ненужных частот в спектре цифрового сигнала.
Ниже мы иллюстрируем возникновение этого эффекта. Например, если мы будем использовать АЦП с частотой 20 кГц и подавать на него аналоговый сигнал с частотой 15 кГц, взятые сэмплы не будут представлять собой 2 части одного цикла, напротив, они будут представлять собой разные части разных циклов. Преобразователю это, естественно, без разницы, и он думает что это части одного цикла. Частота сигнала, «по мнению» преобразователя, представляет собой разность входного сигнала и собственной частоты сэмплирования, деленной на 2, т.е. 5 кГц, и этот «продукт» без помех попадает на пленку и нам в уши. Естественно, что таких ситуаций стоит избегать.
Частотный диапазон человеческого слуха в лучшем случае достигает верхней границы в 20 кГц. Таким образом, чтобы охватить весь спектр слышимых частот, частота сэмплирования должна составлять минимум 40 кГц. Однако, вполне возможно, что звуки частотой выше 20 кГц могут производиться на свет в процессе записи и попадать на пленку (то, что мы их не слышим еще не означает, что их там нет). Чтобы избежать наложения, вызванного этими неслышными звуками, их следует отфильтровать. Это можно сделать с помощью ВЧ-фильтра, который просто обрежет все частоты выше 20 кГц.
Но. практически фильтр с такой добротностью невозможно произвести, но даже если бы это было возможно, он вносил бы фазовые искажения в частоты, лежащие ниже 20 кГц, в особенности, если он был бы аналоговым. Чтобы справиться с данным обстоятельством, частоты сэмплирования, как правило, превышают 40 кГц, и фильтру не нужно обладать абсолютно вертикальным срезом, достаточно относительно крутого уклона.
Наиболее популярными частотами сэмплирования, используемыми для цифрового аудио являются 44,1 кГц и 48 кГц. Компакт диски записываются и воспроизводятся на частоте 44,1 кГц. Большинство профессиональной аудиопродукции использует 48 кГц в качестве частоты сэмплирования. Также вы можете столкнуться с более низкими значениями этих частот в некоторых применениях. Как в случае с короткими кодовыми словами, низкие частоты сэмплирования обуславливают меньший объем памяти, нужный для хранения цифровой информации, а схематика устройств в таких случаях значительно проще. Некоторые устройства обработки, в частности ревербераторы, используют низкие частоты сэмплирования в своих схемах, руководствуясь фактом, что звуки высоких частот не так подвержены отражениям, и ВЧ-составляющая сигнала на входе будет просто проигнорирована процессором.
Более низкие частоты сэмплирования, такие, как 22 кГц и даже 11 кГц, широко используются в мультимедийных приложениях, где качество изображения всегда играет ведущую роль, в отличие от качества звука, а вопрос свободного пространства на диске всегда стоит ребром. Также с низкими частотами сэмплирования можно встретиться в некоторых вещательных приложениях, наподобие системы прямой спутниковой связи, используемой в восточной Европе и Азии, и переносящей цифровое аудио с частотой сэмплирования 32 кГц. Также, хотя это практически не используется, в некоторых DAT-рекордерах присутствует возможность использования частоты 32 кГц и 12-битных кодовых слов, что позволяет увеличить емкость пленки почти в 2 раза, или записывать 4 канала вместо обычных двух. Вы также можете столкнуться с совсем уж странными частотами типа 44,056 кГц. Они обычно используются при синхронизации аудио и видео.
Обратное преобразование
Обратный процесс — преобразование цифрового сигнала в аналоговый чтобы мы могли его услышать — называется цифро-аналоговым преобразованием (что, согласитесь, совсем не удивительно). Кодовые слова поступают в устройство, преобразующее их в переменное напряжение, соответствующее значению сэмпла. Полученный результат выглядит как ступенчатая непрерывная волна. Эти «ступеньки» впоследствии сглаживаются ВЧ-фильтром (аналоговым или цифровым), который убирает из сигнала гармоники с частотой выше 20 кГц и преобразует «ступеньки» в плавные кривые. Этот сигнал является почти точной копией изначального аналогового сигнала, и он уже может направляться на усилитель, в громкоговорители и т.д. в уши.
Буферизация
Есть еще одно понятие, которое следует знать, раз уж мы пока говорим о теории.— буферизация. Известно, что в аналоговых системах от скорости, с которой движется пластинка, зависит высота тона воспроизводимого звука. Мгновенные изменения в скорости воспроизведения в результате дают небольшие изменения в частоте, которые, к сожалению, слышны и называются коэффициентом детонации (wow & flutter).
С цифровыми аудиозаписями дело обстоит немного иначе. Цифровые аудиосигналы должны управляться встроенным устройством отсчета времени, тем самым обеспечивая появление каждого сэмпла строго вовремя. Если это условие не будет соблюдаться, кодовые слова смешаются в одну кучу и результат будет непредсказуем (хотя вполне предсказуемо отвратным). Это устройство отсчета времени работает с частотой, равной частоте сэмплирования, а импульсы генерируются чрезвычайно точным кристаллом кварца.
Представьте себе емкость, в которую через шланг поступает жидкость, а емкость оборудована чрезвычайно точным клапаном в дне. Количество жидкости, поступающей в емкость за единицу времени может меняться, но количество жидкости, вытекающей из емкости за единицу времени будет оставаться неизменным. Примерно так работает буферная схема в цифровом аудио. В конечном счете это означает, что на цифровые системы не влияет нестабильность механизма, и поэтому в любой спецификации цифрового устройства коэффициент детонации отсутствует.
Очень важна стабильность внутренних «часов». Любые отклонения, даже самые маленькие, вызывают эффект «дрожания», слышимый на записи. В результате запись страдает от шума, фазовых искажений и недостаточного разделения стереоканалов. А производители цифровых систем класса High End идут на всяческие ухищрения и изобретают разнообразные механизмы устранения или предупреждения этого неприятного эффекта.