54Представляем приборы

предыдущая статья | оглавление | в архив | следующая статья



Алгоритм сжатия данных звука ISO/MPEG (MUSICAM)


Г. Высоцкий Теле-Спутник - 8(34) Август 1998 г.


В ноябре 1992 года группой экспертов по технологиям передачи движущихся изображений (MPEG — Motion Picture Expert Group) при международной организации по стандартам (ISO — International Standards Organization) был официально предложен стандарт MPEG-1. Этот стандарт описывает технологию информационного сжатия для передачи и хранения цифровых данных подвижного изображения и звука.

Составной частью в него входит стандарт ISO 11172-3 (уровень II), описывающий сжатие данных звукового сопровождения. Именно этот стандарт, называемый кратко ISO/MPEG (уровень II/II A), и его расширение MUSICAM (уровень II), разработанное специалистами Corporate Computer Systems, Inc. (США), используется сейчас для звукового сопровождения телевизионных программ MPEG-2. Кроме этого, алгоритм ISO/MPEG (уровень II/II A) реализован в аппаратуре для цифрового спутникового радиовещания.

В нашей стране успешно работают цифровые спутниковые сети "Русского Радио", "Европы-Плюс", "Радио Модерн" и других московских и петербургских радиостанций. В таких сетях используется приемное и передающее оборудование производства американских компаний Wegener Communications и ComStream. Крупнейший поставщик оборудования ComStream в России и СНГ — Корпорация "Дженерал Сателайт" (Санкт-Петербург, Екатеринбург).

Использование информационного сжатия позволяет передать звук с высоким качеством, используя очень узкую полосу частот. Это, в свою очередь, делает возможной двойную экономию — меньше стоимость аренды спутникового канала, меньше диаметры передающей и приемной антенн. Принципы построения сетей спутникового цифрового радиовещания заслуживают отдельной публикации.

Для того чтобы понять, как реализуется сжатие данных звука, кратко рассмотрим технологию цифровой записи / воспроизведения звука. Согласно теореме Котельникова, чтобы восстановить без искажений аналоговый сигнал после его преобразования в цифровой, необходимо, чтобы частота выборки (дискретизации) была хотя бы вдвое выше верхней граничной частоты исходного сигнала. Для записи звука на компакт-диски используется частота выборки 44,1 кГц — это позволяет получить частотный диапазон до 20 кГц.

Второй фактор, влияющий на качество воспроизводимого звука, — количество двоичных разрядов квантования. Во-первых, им определяется передаваемый динамический диапазон звука. Во-вторых, после цифро-аналогового преобразования уровень воспроизводимого сигнала может принимать некоторое множество фиксированных значений. Исходный же аналоговый сигнал изменяется непрерывно. В результате восстановленный сигнал неизбежно отличается по форме от исходного, и отличие это тем больше, чем меньше разрядов использовалось для квантования сигнала. Искажение формы сигнала при воспроизведении эквивалентно добавлению некоего шума — шума квантования. Чтобы достичь полной неразличимости шумов квантования, в технике компакт-дисков используется 16-разрядное квантование, при этом уровень воспроизводимого сигнала может принимать одно из 65 536 значений.

Следовательно, для передачи по каналу связи двух каналов звука с качеством CD без применения сжатия требуется передать 44,1 кГц * 16 бит * 2 канала= 1411 Кбит/с. Такой сигнал будет занимать полосу частот около 1,5 МГц. Для передачи такого же сигнала, предварительно сжатого с использованием алгоритма MUSICAM, достаточно скорости 200 Кбит/с, и такой сигнал займет полосу менее 0,5 МГц.

Эффект маскирования

Алгоритм сжатия использует особенности восприятия звуков человеческим ухом — так называемый психоакустический эффект. Человеческое ухо и связанные с ним центры головного мозга воспринимают примерно 10% информации, содержащейся в звуковом сигнале. Остальные 90% являются избыточными, следовательно, их можно не передавать по каналу связи.

Сигнал определенной частоты (тон), воздействуя на ухо, не позволяет различить (маскирует) другие тоны, близкие к нему по частоте и меньшие по амплитуде. В реальном звуковом сигнале одновременно присутствуют несколько маскирующих тонов на различных частотах. Совокупным действием всех маскирующих тонов определяется граница маскирования — функция от частоты, определяющая минимальную амплитуду воспринимаемых сигналов. Компоненты сигнала, амплитуда которых лежит ниже границы маскирования, человеческим ухом не воспринимаются, поэтому их можно не передавать.

Функциональная схема кодера



На рис. 1 показана функциональная схема кодера ISO/MPEG. Цикл кодера (1 кадр) составляет 24 мс. Звуковой сигнал, поданный на вход кодера, поступает на гребенку фильтров, где разделяется на 32 частотных полосы. Аналого-цифровое преобразование выполняется кодером отдельно в каждой полосе. Частота выборки составляет 48 кГц.

Для каждого кадра процессор кодера рассчитывает спектр входного сигнала и границу маскирования, которая служит психоакустической моделью человеческого уха. Далее психоакустическая модель дважды используется для минимизации объема данных. Первый раз: если в одной или нескольких частотных полосах ни одна выборка не превышает минимального значения границы маскирования в этой полосе — вся информация, связанная с этой полосой (полосами), исключается из передаваемого сигнала. Второй раз: для квантования сигнала в тех полосах, где его уровень выше границы маскирования, количество разрядов динамически изменяется таким образом, чтобы шумы квантования при этом оставались ниже границы маскирования.

Динамическое распределение битов

В каждом кадре кодер перераспределяет имеющиеся "в его распоряжении" биты между частотными полосами. Такой процесс называется динамическим распределением битов. Если всего количества имеющихся битов недостаточно для полного маскирования шумов квантования, биты распределяются уже внутри полосы по времени таким образом, чтобы сконцентрировать "незамаскированные" шумы на коротком временном участке в конце кадра. Если, напротив, биты оказываются "лишними", они используются для снижения шумов квантования до минимально возможного уровня. Такая минимизация шумов оказывается очень полезной, если сигналу предстоит пройти несколько циклов кодирования-декодирования. От цикла к циклу шумы квантования неизбежно увеличиваются, и "запас", созданный за счет "лишних" битов, позволяет увеличить максимально допустимое число циклов.

Масштабные коэффициенты

Из вышеизложенного видно, что для аналого-цифрового преобразования в каждой полосе от кадра к кадру используется разное количество битов. Для восстановления декодером истинной величины сигнала в кодере формируются масштабные коэффициенты. Коэффициенты вычисляются так: в каждой полосе определяется выборка с максимальным значением, затем это значение подвергается 16-разрядному квантованию. Динамический диапазон масштабных коэффициентов — 120 дБ. Этого достаточно для кодирования сигнала с таким же динамическим диапазоном.

Формат передаваемых данных



На рис. 2 приведена структура кадра ISO/MPEG (уровень II/IIA). Заголовок кадра содержит специальные данные, необходимые декодеру для корректного восстановления сигнала — масштабные коэффициенты, информация о распределении битов, признак режима обработки стереофонического сигнала (независимые или совмещенные каналы) и другие служебные данные. Поле данных звука содержит выборки звукового сигнала. Поле дополнительных данных может содержать данные, которые формируются вне кодера и передаются в едином цифровом потоке — команды системы сетевого администрирования, команды управления абонентскими приемниками и периферийной аппаратурой радиостанций-ретрансляторов, а также любые данные пользователя с низкой скоростью. Если сжимается стереофонический сигнал и скорость цифрового потока на выходе кодера 256 Кбит/с, то длина одного кадра составляет 6.144 бит, из них примерно 300 бит приходится на заголовок, остальные — на данные звука и дополнительные данные.

Принцип дифференцированной защиты от ошибок

Если в результате ошибки искажается один из битов заголовка, весь кадр может быть воспринят декодером неверно, и 24 мс сигнала будут искажены. Если искажается один из битов поля данных, это приводит к искажению всего одной выборки. Заметность такого искажения зависит от того, приходился ли этот бит на старший (более значимый) или на младший (менее значимый) разряд выборки. В любом случае искажение будет занимать очень короткий отрезок времени и вряд ли будет воспринято слушателем. Исходя из этого, заголовок кадра защищается от ошибок помехозащитным кодом, а остальная часть кадра остается незащищенной. При обнаружении неисправимой ошибки в заголовке декодер вместо скомпрометированного кадра повторяет предыдущий. Если ошибки обнаруживаются в заголовках второго и последующих кадров, декодер отключает звук на своих выходах. Описанная здесь стратегия защиты данных от ошибок обеспечивает полное отсутствие ощутимых искажений при коэффициенте ошибок на входе декодера 10-5. При увеличении коэффициента ошибок искажения увеличиваются незначительно, если же количество ошибок становится слишком большим, декодер просто отключает звук.

Кодирование стереофонического звука

Алгоритм ISO/MPEG (уровень II/IIA) предполагает сжатие и передачу одного монофонического канала (режим работы кодера mono), стереофонического звука с раздельными каналами или двух разных монофонических каналов одновременно (stereo или dual mono), или стереофонического звука со совмещенными каналами (режим joint-stereo).

С точки зрения кодирования, режимы stereo и dual mono абсолютно идентичны. Каналы от начала и до конца обрабатываются кодером раздельно. Ровно половина битов каждого кадра отводится для данных "левого" канала, вторая половина — для "правого" канала. Правый канал всегда остается правым, левый — левым, смешивания и наложения сигналов двух каналов не происходит.

В режиме joint stereo кодер динамически перераспределяет биты в кадре между левым и правым каналами, в зависимости от того, какой канал требует в данный момент большего количества битов для кодирования. В результате в режиме joint stereo удается передать более широкий диапазон частот и больший динамический диапазон, чем в режиме stereo (при одинаковой скорости цифрового потока на выходе кодера). Кроме того, в режиме joint stereo некоторые процессы обработки левый и правый каналы проходят совместно. При этом сигналы разных каналов частично смешиваются. Однако при прослушивании "настоящего" стерео в реальной аудитории тоже происходит пространственное смешение двух каналов. Результаты тестирования показывают, что значительная часть слушателей даже предпочитает режим joint stereo режиму stereo, особенно при больших степенях сжатия.

Скорость цифрового потока и качество сигнала

Качество передаваемого сигнала прямо пропорционально скорости цифрового потока на выходе кодера и обратно пропорционально ширине диапазона частот, занимаемого исходным сигналом. Другими словами, для одного и того же исходного сигнала качество передачи будет тем выше, чем выше скорость цифрового потока (меньше степень сжатия). И наоборот, при одной и той же степени сжатия более качественно будет передан сигнал, имеющий небольшой частотный диапазон. Алгоритм ISO/MPEG (уровень II/II A) предусматривает различные степени сжатия данных с соответствующей скоростью цифрового потока на выходе 56, 64, 112, 128, 192, 256 и 348 кБит/с.

В мае 1992 г. в Стокгольме международной организацией по стандартам (ISO) было проведено тестирование, целью которого было определить максимально допустимую степень сжатия различных сигналов. Более 60 экспертов с отличным музыкальным слухом не отличили стереофонический сигнал, прошедший цикл сжатия/декодирования со скоростью цифрового потока 256 Кбит/с, от исходного. В зависимости от характера передаваемого звукового сигнала и области применения различают следующие уровни качества передачи звуковой информации со сжатием:

  • Contribution — 384 Кбит/с (стерео). Такое качество используется для передачи цифровой мастер-копии из одной студии в другую. Предполагается, что переданная таким образом звуковая информация будет храниться в цифровом виде и в дальнейшем может подвергаться многократной компрессии-декомпрессии.
  • Distribution — 256 Кбит/с (стерео). Используется для раздачи сигнала из студии на передатчики радиостанций-ретрансляторов. Сигнал, переданный с таким качеством, может быть подвергнут ограниченному количеству циклов компрессии-декомпрессии (обычно не более 5).
  • Emission — 192 Кбит/с (стерео). Предполагается, что сигнал, переданный с качеством emission, декодируется только один раз, и в дальнейшем будет записываться и воспроизводиться аналоговыми методами. Качество этого уровня используется для непосредственного спутникового вещания, рассчитанного на индивидуальный прием, а также для передачи звукового сопровождения цифровых телевизионных программ.
  • Commentary — 64 Кбит/с (моно). Это самый низкий уровень качества, он используется только для передачи речевых сигналов — репортажей, комментариев и т. п.

Модификации стандарта и совместимость аппаратуры

Стандарт ISO/MPEG не содержит четких инструкций по реализации алгоритма сжатия. По сути своей он определяет не сам алгоритм, а набор инструментов и правил, используемых для сжатия данных. Основное назначение стандарта — обеспечить совместимость оборудования, использующего базовый стандарт и все его последующие модификации, по принципу "вниз". Например, оборудование, поддерживающее расширение этого стандарта MUSICAM, будет работать с оборудованием, изготовленным для работы в стандарте ISO/MPEG (уровень II/IIA), при этом вероятно, что оборудование стандарта ISO/MPEG (уровень II/IIA) не сможет реализовать все возможности расширения.

Гениальной находкой разработчиков стандарта является то, что часть инструкций по обработке сжатого сигнала содержится в самом сигнале. Это позволяет совершенствовать алгоритм сжатия, изменяя аппаратно только кодер. Любой декодер стандарта ISO/MPEG автоматически является совместимым не только с любым из существующих кодеров, но и с кодерами, которые будут когда-либо созданы. Собственно, апгрейд программного обеспечения приемника тоже не представляет проблемы — данные нового ПО могут быть переданы одновременно с сигналом ISO/MPEG. Не в последнюю очередь именно этими качествами объясняется то, что оборудование, использующее стандарт ISO/MPEG (уровень II/IIA), так широко применяется и постоянно совершенствуется.

Литература:

  1. Севальнев Л.А. Передача цифровых телевизионных программ с информационным сжатием данных по спутниковым каналам связи. "Теле-Спутник", июль 1997 г.
  2. Richard Maddox. Digital Audio Compression. 1996/97 World Satellite Yearly. Baylin Publications, 1996.
  3. DAC700 Digital Audio Codec / Multiplexer Subsystem. Installation and Operation Guide. ComStream (r) A Spar Company, 1995 г.
  4. ABR200 Audio Broadcast Receiver. Installation and Operation Guide. ComStream (r) A Spar Company, 1995.
  5. www. musicamusa.com


 
Теле-Спутник Август 1998
наверх
 



Уважаемые посетители!
В связи с полной реконструкцией Архива, возможны ситуации, когда текст будет выводиться не полностью или неправильно (отсутсвие статей в некоторых номерах это не ошибка). Если заметите какие-то ошибки, то, пожалуйста, сообщите нам о них. Для связи можете воспользоваться специальной формой:

Номер журнала: *
Страница: *
Дополнительные сведения: *
Желательно четко опишите замеченную проблему - это поможет быстрее ее решить.
Мы не отвечаем на вопросы! Их следует задавать на нашем форуме!
Антиспам: * Нажмите мышкой на синий квадрат:


Поля, помеченные звездочкой (*)
обязательны для заполнения





Новый сайт