DJ School: Что такое цифровое аудио

Цифровое аудио, в таком случае, есть ни что иное, как представление непрерывной волны в виде дискретных импульсов. В некотором роде это сходно с кино и телевидением: непрерывное с виду изображение также является набором отдельных кадров. Просмотр кадров с надлежащей скоростью (24 или 30 кадров в секунду), заставляет человеческий мозг воспринимать их как непрерывно меняющееся изображение. В цифровом аудио для достижения эффекта непрерывности используются подобные «кадры», снятые со звука, называемые сэмплами (samples). Но из-за природы человеческого слуха, процесс образования сэмплов более сложен. Звук, если можно так выразится, «аналоговый» по своей сути, он непрерывно меняется и в нем отсутствуют дискретные скачки давления. Такой звук мы и ожидаем услышать, так что уши невозможно «оду­рачить» по подобию кино: «скачущий» звук не будет восприниматься, независимо от того, с какой частотой следуют эти скачки. Все это означает, что цифровое аудио не может в полной мере являться средством, доносящим зву­ковую информацию до наших ушей. Оно представляет некое среднее звено, требующее некоторых преобразований на входе и на выходе. Микрофон производит аналоговый сигнал, преобразуя колебания воздуха в непрерывно ­меняющиеся электрические сигналы. В цифровом аудио эти аналоговые сигналы преобразуются в цифровые данные. На выходе данные преобразуются обрат­но в аналоговый сигнал, который посылается на усилитель или громкоговори­тели, давая нам возможность его услышать.

Звук в пространстве распространяется в виде волн, это все и так знают. Волны представляют собой частые колебания давления. Чем чаще колебания, тем выше частота звука, чем выше их амплитуда, тем громче звук. Проще не бывает. Колебания цикличны по природе своей, и если можно было бы видеть, как они проходят через какую-либо точку, они предстали бы в виде постоянно меняющейся волны. Поэтому мы будем считать, что звук имеет форму волны (waveform).

Процесс преобразования аналогового аудио в цифровые данные (A-D conversion) включает в себя измерение мгновенных значений уровня (амплиту­ды) несколько раз в секунду, и запись этого уровня в виде числа. Данный про­цесс называется сэмплированием, а каждое число, полученное в результате пре­образования — сэмплом или просто словом.

Точность процесса преобразования определяется двумя основными фак­торами: диапазоном (минимальным и максимальным значением чисел для каж­дого из сэмплов), и скоростью, вернее частотой непосредственно сэмплирова­ния (количеством сэмплов, полученных за единицу времени).

Диапазон значений: Длина слова

Каким же образом диапазон значений чисел влияет на качество звука? Если речь идет об уровне (громкости) звука, диапазон значений аналогового аудио находится в пределах от 0 до бесконечности, т.е. количество этих значений бес­конечно велико. Однако, если вы берете мгновенные значения амплитуды че­рез какие-либо промежутки времени, они всегда будут аппроксимированными (приблизительными) в большей или меньшей степени. Степень соответствия полученных и реальных значений зависит от количества шагов аппроксима­ции. Если ваш числовой набор состоит из четырех значений, например, 1, 2, 3 и 4, то в таком случае аппроксимация будет очень и очень грубой. А если диапа­зон значений составляет 65536 чисел, то аппроксимированные значения будут весьма близки к реальным. Разница между соседними значениями амплитуды называется шагом квантования.

Разница между полученным в результате аппроксимации уровнем сигнала и реальным уровнем называется ошибкой квантования. Эти ошибки восприни­маются на слух как шум. Соответственно, возвращаясь к вышесказанному, чем точнее приближение, тем меньше ошибок и тем ниже уровень шума у цифрово­го устройства. Разница между максимальным уровнем сигнала и уровнем шума, вызываемого ошибками квантования, называется отношением сигнал/шум ана­лого-цифрового преобразователя.

sound_wave
Чем меньше шаг квантования, тем точнее приближение к реальному уровню сигнала.

Цифровые сэмплы представляются в виде бинарных кодов (этот термин должен быть хорошо знаком пользователям персональных компьютеров) — последовательностей нулей и единиц. В таком виде представляется практичес­ки вся информация в электронных устройствах. (Если кто-то вам скажет, что его система лучше, так как в ней используются двойки и тройки, не верьте.)

Каждая цифра в бинарном коде известна как бит. В данном случае существует точная формула, связывающая число битов, которые использует преобразова­тель для создания цифровых сэмплов с максимальным отношением сигнал/шум этого преобразователя

Отношение сигнал/шум (дБ) = 1,76 + (число бит х 6,2)

Обычно эту формулу используют в упрощенной форме

Отношение сигнал/шум (дБ) = 2 + (число бит х 6)

Таким образом получается, что преобразователь, использующий цифро­вые слова длиной 8 бит обладает потенциальным отношением сигнал/шум рав­ным 50 дБ, что представляет из себя качество, подобное СВ-радиостанциям. Преобразователь 12-битный обеспечивает отношение сигнал/шум 74 дБ, что будет примерно соответствовать хорошей кассетной деке или FM-радиостан­ции. И 16-битный преобразователь имеет отношение сигнал/шум, равное 98 дБ, что соответствует динамическому диапазону симфонического оркестра.

Тем не менее эти выводы — всего лишь теория. На самом деле существует великое множество разнообразных факторов, например, тот факт, что элект­ронные схемы не абсолютно совершенны и имеют небольшие отклонения от своих «паспортных» характеристик. Это является причиной того, что реальная величина отношения сигнал/шум какого-либо АЦП всегда чуть ниже, чем рас­считанное по формулам.

Поскольку количество шагов квантования и есть то, что интересует нас в данный момент, то оно рассчитывается по простой формуле: 2 в степени (коли­чество бит преобразователя). Таким образом 16-битный преобразователь име­ет 2^16 шагов квантования, что составляет 65536 значений.

Промышленным стандартом для цифрового аудио являются 16-битные пре­образователи. Эти устройства используются в DAT-магнитофонах, CD-плейе­рах и многодорожечных цифровых рекордерах. Нам (людям, а точнее нашим ушам) просто не нужен динамический диапазон, превышающий 98 дБ, его все равно невозможно ощутить, так что с этим все в порядке.

Однако, поскольку существующие цифровые системы на практике далеко не всегда обладают тем динамическим диапазоном, которым должны обладать теоретически, а нам хотелось бы распоряжаться всем этим диапазоном, то в таком случае может помочь пара лишних бит в АЦП. Даже в цифровых системах шум имеет свойство накапливаться: если вы микшируете несколько источников циф­рового сигнала, шум, поступающий с них, будет складываться, снижая каче­ство полученного микса. Чем больше обрабатывается и микшируется цифро­вой сигнал, тем больше необходимость в дополнительных битах. По этой при­чине многие цифровые устройства, например, устройства обработки, устрой­ства записи или полностью цифровые микшерные консоли используют более длинные кодовые слова: 18, 20, 24, а иногда даже 32 бита. Эти дополнительные биты помогают поддерживать качество финального микса, который в конеч­ном счете будет 16-битным. В технологиях, таких, как DVD (Digital Versatile Disk) также используются кодовые слова большей длины.

Кодовые слова длиной менее 16 бит также приемлемы в некоторых ситуа­циях. Используя их можно сократить объем используемой памяти, и это позво­лит упростить конструкцию системы. Большинство цифровых сэмплеров ис­пользуют 12-битные кодовые слова, и при этом отлично звучат. Причина в том, что от сэмплеров не требуется такой огромный динамический диапазон, как для мастеринга. Один из первых цифровых форматов записи, известный как EIAJ или PCM-F1, понимал 14-битные и 16-битные кодовые слова. Более короткие слова, хотя и сокращают динамический диапазон на 6 дБ, оставшие­ся 2 бита помогают системе в нахождении и коррекции ошибок (об этом чуть позже), что делает систему более надежной сохраняя, а иногда даже улучшая качество звучания.

Скорость: Частота сэмплирования

Другой решающий фактор качества и точности аналого-цифрового пре­образователя — частота, с которой сэмплы «снимаются» с аналогового сигна­ла. Если требуется точное воспроизведение волны, то с нее должно быть снято по меньшей мере 2 сэмпла — в таком виде звучит следствие из теоремы Найк-виста, адаптированное к теме цифрового аудио. Исходя из этого следствия можно сделать вывод (хотя он уже давно сделан), что частота сэмплирования какого-либо должна в 2 раза превышать максимальную слышимую частоту этого сигнала. Если это правило не соблюдается, то появляется эффект нало­жения, результирующий появлением ненужных частот в спектре цифрового сигнала.

Ниже мы иллюстрируем возникновение этого эффекта. Например, если мы будем использовать АЦП с частотой 20 кГц и подавать на него аналоговый сигнал с частотой 15 кГц, взятые сэмплы не будут представлять собой 2 части одного цикла, напротив, они будут представлять собой разные части разных циклов. Преобразователю это, естественно, без разницы, и он думает что это части одного цикла. Частота сигнала, «по мнению» преобразователя, представ­ляет собой разность входного сигнала и собственной частоты сэмплирования, деленной на 2, т.е. 5 кГц, и этот «продукт» без помех попадает на пленку и нам в уши. Естественно, что таких ситуаций стоит избегать.

Частотный диапазон человеческого слуха в лучшем случае достигает вер­хней границы в 20 кГц. Таким образом, чтобы охватить весь спектр слышимых частот, частота сэмплирования должна составлять минимум 40 кГц. Однако, вполне возможно, что звуки частотой выше 20 кГц могут производиться на свет в процессе записи и попадать на пленку (то, что мы их не слышим еще не означает, что их там нет). Чтобы избежать наложения, вызванного этими не­слышными звуками, их следует отфильтровать. Это можно сделать с помощью ВЧ-фильтра, который просто обрежет все частоты выше 20 кГц.

Но. практически фильтр с такой добротностью невозможно произвести, но даже если бы это было возможно, он вносил бы фазовые искажения в час­тоты, лежащие ниже 20 кГц, в особенности, если он был бы аналоговым. Что­бы справиться с данным обстоятельством, частоты сэмплирования, как пра­вило, превышают 40 кГц, и фильтру не нужно обладать абсолютно вертикальным срезом, достаточно относительно крутого уклона.

Наиболее популярными частотами сэмплирования, используемыми для цифрового аудио являются 44,1 кГц и 48 кГц. Компакт диски записываются и воспроизводятся на частоте 44,1 кГц. Большинство профессиональной аудио­продукции использует 48 кГц в качестве частоты сэмплирования. Также вы можете столкнуться с более низкими значениями этих частот в некоторых при­менениях. Как в случае с короткими кодовыми словами, низкие частоты сэмп­лирования обуславливают меньший объем памяти, нужный для хранения циф­ровой информации, а схематика устройств в таких случаях значительно про­ще. Некоторые устройства обработки, в частности ревербераторы, использу­ют низкие частоты сэмплирования в своих схемах, руководствуясь фактом, что звуки высоких частот не так подвержены отражениям, и ВЧ-составляющая сиг­нала на входе будет просто проигнорирована процессором.

Более низкие частоты сэмплирования, такие, как 22 кГц и даже 11 кГц, широко используются в мультимедийных приложениях, где качество изобра­жения всегда играет ведущую роль, в отличие от качества звука, а вопрос сво­бодного пространства на диске всегда стоит ребром. Также с низ­кими частотами сэмплирования можно встретиться в некоторых вещательных приложениях, наподобие системы прямой спутниковой связи, используемой в восточной Европе и Азии, и переносящей цифровое аудио с частотой сэмпли­рования 32 кГц. Также, хотя это практически не используется, в некоторых DAT-рекордерах присутствует возможность использования частоты 32 кГц и 12-битных кодовых слов, что позволяет увеличить емкость пленки почти в 2 раза, или записывать 4 канала вместо обычных двух. Вы также можете столк­нуться с совсем уж странными частотами типа 44,056 кГц. Они обычно исполь­зуются при синхронизации аудио и видео.

Обратное преобразование

Обратный процесс — преобразование цифрового сигнала в аналоговый чтобы мы могли его услышать — называется цифро-аналоговым преобразова­нием (что, согласитесь, совсем не удивительно). Кодовые слова поступают в устройство, преобразующее их в переменное напряжение, соответствующее значению сэмпла. Полученный результат выглядит как ступенчатая непрерыв­ная волна. Эти «ступеньки» впоследствии сглаживаются ВЧ-фильтром (анало­говым или цифровым), который убирает из сигнала гармоники с частотой выше 20 кГц и преобразует «ступеньки» в плавные кривые. Этот сигнал является по­чти точной копией изначального аналогового сигнала, и он уже может направ­ляться на усилитель, в громкоговорители и т.д. в уши.

Буферизация

Есть еще одно понятие, которое следует знать, раз уж мы пока говорим о теории.— буферизация. Известно, что в аналоговых системах от скорости, с которой движется пластинка, зависит высота тона воспроизводимого звука. Мгновенные изменения в скорости воспроизведения в результате дают небольшие изменения в частоте, которые, к сожалению, слышны и называются коэффициен­том детонации (wow & flutter).

С цифровыми аудиозаписями дело обстоит немного иначе. Цифровые аудиосигналы должны управляться встроенным устройством отсчета времени, тем самым обеспечивая появление каждого сэмпла строго вовремя. Если это условие не будет соблюдаться, кодовые слова смешаются в одну кучу и резуль­тат будет непредсказуем (хотя вполне предсказуемо отвратным). Это устрой­ство отсчета времени работает с частотой, равной частоте сэмплирования, а импульсы генерируются чрезвычайно точным кристаллом кварца.

Представьте себе емкость, в которую через шланг поступает жидкость, а емкость оборудована чрезвычайно точным клапаном в дне. Количество жид­кости, поступающей в емкость за единицу времени может меняться, но количе­ство жидкости, вытекающей из емкости за единицу времени будет оставаться неизменным. Примерно так работает буферная схема в цифровом аудио. В ко­нечном счете это означает, что на цифровые системы не влияет нестабильность механизма, и поэтому в любой спецификации цифрового устройства коэффициент детонации отсутствует.

Очень важна стабильность внутренних «часов». Любые отклонения, даже самые маленькие, вызывают эффект «дрожания», слышимый на записи. В ре­зультате запись страдает от шума, фазовых искажений и недостаточного раз­деления стереоканалов. А производители цифровых систем класса High End идут на всяческие ухищрения и изобретают разнообразные механизмы устра­нения или предупреждения этого неприятного эффекта.

Vadim
Vadim

Меня зовут Вадим, я увлекался электронной музыкой, фотографией, дизайном и социальными медиа. Так-же я публиковал статьи для начинающих и опытных диджеев.

Сейчас я полностью отдан своей компании Coma Web Development, где мы делаем сайты на WordPress.

Статей: 170

Ответить