Онлайн учебники на TEPKA.ru

Учебник по HTML 4

Звуковые файлы формата MP3

Как уже отмечалось в начале главы, хранение звуковых данных в оцифрованной форме с высоким качеством требует довольно больших затрат дисковой памяти. Попытки сократить объем файлов, используя стандартные архиваторы, обычно не приводят к значительному выигрышу из-за специфичности звуковых данных. Тем не менее, добиться довольно значительного уровня сжатия видео- и аудиоинформации удается при использовании специфических методов, основанных на анализе структуры данных и последующем сжатии с некоторыми потерями.

Реальная возможность обработки изображений и звука, сравнимых по качеству с существовавшими аналоговыми примерами, появилась только в конце 80-х годов.

В 1988 году Международной организацией стандартов ISO (International Standards Organization) был сформирован комитет MPEG (Moving Pictures Expert Group, группа экспертов в области движущихся изображений), основной задачей которого являлась разработка стандартов кодирования подвижных изображений, звука и их комбинации. За десять лет своего существования комитет выработал ряд стандартов по данному вопросу. В результате, обобщив обширные исследования в этой области, был рекомендован определенный набор методов сжатия аудио- и видеоданных. Был определен ряд специфических форматов для хранения данных, отличающихся по качеству результатов и скорости передачи данных.

В настоящее время существует три стандарта хранения видеоданных: MPEG-1, MPEG-2 и MPEG-4. В рамках форматов MPEG-1 и MPEG-2 существуют также форматы хранения звуковой информации, которые носят название Layer-1, Layer-2 и Layer-З. Эти три звуковых формата определены для MPEG-1 и незначительными расширениями используются в MPEG-2. Все три формата похожи друг на друга, но используют различные уровни компромисса между сжатием и сложностью. Уровень Layer-1 — наиболее простой, не требует значительных затрат на сжатие, но и дает небольшую степень сжатия. Уровень Layer-3 — наиболее трудоемкий и предлагает самое лучшее сжатие. В последнее время огромную популярность завоевал формат Layer-З, который часто называют просто MP3. Такое название связано с типичным расширением MP3 для звуковых файлов, хранящихся в этом формате. Это сокращение укоренилось, стало общепринятым, в частности, дало название ряду сайтов, посвященных этой технологии (www.mp3.com, mp3.box.sk, mp3soft.da.ru и др.).

Основная идея, на которой основаны все методики сжатия аудиосигнала с потерями, — пренебрежение тонкими деталями звучания оригинала, лежащими вне пределов возможностей человеческого слуха. Здесь можно выделить несколько моментов.

Уровень шума. Звуковое сжатие базируется на простом факте. Если человек находится рядом с громко воющей сиреной, то вряд ли он услышит разговор стоящих неподалеку людей. Причем это происходит не оттого, что человек обращает больше внимание на громкий звук, а в большей степени оттого, что человеческое ухо фактически теряет звуки, лежащие в том же диапазоне часто, что и значительно более громкий звук. Этот эффект носит название маскирующего, он изменяется с различием в громкости и частоте звука.

Одним из основных способов сжатия звука является уменьшение числа бит, используемых для хранения данных при дискретизации звука. Уменьшение числа бит эквивалентно добавления шума к звуку. Сжатие MPEG использует маскирующий эффект, имея в виду, что человек все равно не услышит появляющийся в результате уменьшения числа бит шум.

Вторым моментом является деление полосы звуковых частот на подполосы. Каждая из выбранных подполос далее обрабатывается отдельно. Программа кодирования выделяет самые громкие звуки в каждой подпол осе и использует эту информацию для определения приемлемого уровня шума для этой подполосы. Лучшие программы кодирования учитывают также влияние соседних полос. Очень громкий звук в одной подпол осе может повлиять на маскирующий эффект и на близлежащие полосы.

Еще одним моментом кодирования является использование психоакустической модели, опирающейся на особенности человеческого восприятия звука. Сжатие с использованием этой модели основано на удалении заведомо не слышимых частот с более тщательным сохранением звуков, хорошо различаемых человеческим ухом. К сожалению, здесь не может быть точных математических формул. Восприятие звука человеком — сложный, до конца не исследованный процесс, поэтому выбор методов сжатия выполняется на основе анализа прослушивания и сравнения по-разному сжатых звуков группами экспертов. Зато здесь имеются практически неограниченные возможности в сфере улучшения психоакустических моделей.

Большинство существующих алгоритмов для кодировки человеческого голоса основано на высокой степени предсказуемости такого сигнала — универсальные алгоритмы сжатия MPEG с переменным успехом пытаются применить этот прием. Еще одним приемом сжатия является использование так называемого совмещенного стерео. Известно, что слуховой аппарат человека может определить направление лишь средних частот — высокие и низкие звучат как бы отдельно от источника. Значит, эти фоновые частоты можно кодировать в моно сигнал.

Кроме всего этого для сжатия используется различие в сложности потоков в каналах. Например, если в правом канале какое-то время полная тишина, это "зарезервированное" место используется для повышения качества левого канала или туда впихиваются необходимые биты, не влезшие в поток чуть раньше.

На последней стадии сжатия используется алгоритм сжатия Хаффмана, используемый во многих стандартных программах сжатия. Этот процесс позволяет улучшить степень сжатия для относительно однородных сигналов, которые плохо сжимаются с помощью описанных выше приемов.

На основе описанных идей строятся алгоритмы сжатия, позволяющие достичь степени компрессии 10:1 и выше практически без потери в качестве звучания. При кодировании задают требуемый уровень компрессии, а алгоритмы сжатия добиваются требуемого уровня сжатия за счет качества. Для данного применения требуемый уровень сжатия обычно указывают в виде величины потока данных (bit rate), измеряемого в Кбит/с.

Примечание

Термин "bit rate" обозначает количество битов передаваемой информации в секунду. На русский язык этот термин переводится по-разному в различных источниках. В последнее время часто вместо формального перевода употребляют новое для русского языка слово "битрейт". Вариантами перевода также являются следующие: "ширина потока данных", "сложность потока битов", "скорость потока", "битовая частота". Иногда для звуковых файлов этот же параметр называют степенью сжатия файла. Например, говорят, что файл сжат до 128 Кбит/с. Дело в том, что величина битрейта напрямую связана с размером звукового файла в расчете на одну секунду звучания (уменьшение размера файла в определенное количество раз обеспечивает снижение битрейта в такое же количество раз).