Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Энциклопедия PC

.pdf
Скачиваний:
30
Добавлен:
13.03.2015
Размер:
8.94 Mб
Скачать

668 Глава11. АудиосистемаPC

вычислительные ресурсы процессора. Раньше обработка сигналов в реальном масштабе времени была уделом лишь специализированных сигнальных процессоров (например, серий TMS). В них предусмотрены специальные средства для таких функций, как, например, быстрое преобразование Фурье. Теперь же эта работа под силу и «обычным» процессорам Pentium, не говоря уже о ММХ и

Pentium II, III и 4. Специализированные сигнальные процессоры DSP (Data Signaling Processor) входят в состав «продвинутых» звуковых карт. Как и графические акселераторы, они позволяют выполнять действия по обработки сигналов, не загружая центральный процессор. Это немаловажно: например, чтобы иметь возможность работать на компьютере (Pentium ММХ-166), слушая музыку из МРЗфайлов через обычную звуковую карту (GUS), пришлось отключить все «навороты» типа эквалайзеров и т. п. Для тех же, кто не считает необходимостью приобретение дорогих карт, существует масса программных продуктов, реализующих сложные эффекты инацентральном процессоре PC.

11.1.2. Методыкомпрессии звуковойинформации

Как указывалась выше, частота дискретизации и разрядность квантования определяются требованием к полосе пропускания и динамическому диапазону тракта при заданном отношении сигнал/шум. Простейший способ цифрового представления сигналов называется импулъсно-кодовой модуляцией (ИКМ) или РСМ (Pulse-Code Modulation). Поток данных РСМ представляет собой последовательность мгновенных значений или выборок (samples) в двоичном коде. Если применяемые преобразователи имеют линейную характеристику (мгновенное значение напряжения сигнала пропорционально коду), то данная модуляция называется линейной (Linear РСМ). В случае ИКМ кодер и декодер не выполняют преобразования информации, а только занимаются упаковкой/распаковкой бит в байты и слова данных. Интенсивность потока (bit rate) определяется как произведение частоты дискретизации (sample rate) на разрядность и на число каналов. Аудио-CD дает поток 44 100 х 16 х 2 - 1 411 200 бит/с (стерео). Ленточные цифровые накопители (DAT) работают с частотами дискретизации 32, 44,1 или 48 кГц и разрядностью 16 бит. Соответственно потоки данных — 1 024 000, 1 411 200 или1 536 000 бит/с(стерео).

В задачу более сложных кодеков (компрессоров/декомпрессоров) входит сокращение потока в канале передачи (хранения) относительно потока на выходе АЦП и входе ЦАП. Для реальных звуковых сигналов кодирование с линейной ИКМ является неэкономичным, Поток данных можно сократить, если использовать несложный алгоритм сжатия, применяемый в системе дельта-ИКМ (ДИКМ), она же

DPCM (Differential Pulse-Code Modulation). Упрощенно этот алгоритм выглядит так: в цифровом потоке передаются не сами мгновенные отсчеты, а масштабированная разность реального отсчета и его значения, сконструированного кодеком по ранее сгенерированному им потоку данных. Разность передается с меньшим числом разрядов, чем сами отсчеты. В АДИКМ (адаптивная ДИКМ, или

ADPCM — Adaptive Differential Pulse-Code Modulation) масштаб разности определяется по предыстории — еслиразность монотонно растет, мае-

11.1. Краткийэкскурсвприкладнуюзвукотехнику 669

штаб увеличивается, и наоборот. Конечно, восстановленный сигнал при таком представлении будет больше отличаться от исходного, чем при обычной ИКМ, но можнодобиться существенного сокращения потока цифровыхданных. ADPCM стала широко применяться при цифровом хранении (CD-XA) и передаче аудиоинформации (например, в голосовых модемах). Алгоритм ADPCM с точки зрения процессора PC может быть реализован как программно, так и аппаратно средствами звуковой карты (модема). Заметим, что на стандартных аудио-CD и DAT компрессиянеприменяется.

Базовое ПО, обеспечивающее цифровую звукозапись в Windows — приложение «Фонограф», — позволяет выбирать частоту и разрядность преобразования, количество каналов (моно/стерео), а также формат данных (РСМ, ADPCM). Для хранения звука используются файлы с расширением .WAV (Waveform — форма волны), заголовки этих файлов содержат информацию о частоте и разрядности квантования, количестве каналов (моно/стерео) и формате записи (методе компрессии).

Более сложные алгоритмы и высокая степень сжатия применяются в аудиокодеках MPEG. В кодере MPEG-1 входным потоком являются 16-битные выборки с частотой 48 кГц (профессиональная аудиотехника), 44,1 кГц (бытовая техника) или 32 кГц (применяется в телекоммуникациях). Стандарт определяет три «слоя» (layer) сжатия — Layer I, Layer 2 и Layer 3, работающие один поверх другого. Первоначальная компрессия осуществляется на основе психофизических свойств звуковосприятия. Здесь обыгрывается свойство маскирования звуков: если в сигнале имеются два тона с близкими частотами, существенно различающиеся по уровню, то более мощный сигнал замаскирует слабый (он не будет услышан). Пороги маскирования зависят от удаленности частот. В MPEG весь диапазон звуковых частот разбивается на 32 поддиапазона (sub-band), в каждом поддиапазоне определяются наиболее мощные спектральные составляющие и для них вычисляются пороги частот маскирования. Эффекты маскирования от нескольких мощных составляющих суммируются. Действие маскирования распространяется не только на сигналы, присутствующие одновременно с мощным, но и на предшествующие ему за 2-5 мс (premasking) и последующие в течение до 100 мс (postmasking). Сигналы маскированных областей обрабатываются с меньшим разрешением, поскольку для них снижаются требования к отношению сигнал/шум. За счет этого «загрубления» и происходит сжатие. Компрессию на психофизической основе выполняет слой Layer 1. Следующий этап (Layer 2) повышает точность представления и более эффективно упаковывает информацию. Здесь у кодера в работе находится «окно» длительностью 23 мс (1152 выборки). На последнем этапе (Layer 3) применяются сложные наборы фильтров и нелинейное квантование.

Дополнительные возможности компрессии обусловлены высокой коррелированностью сигналов между парой каналов в стереотракте. С точки зрения поддержки стереофонии поток может представлять один канал (Mono), два независимых канала, пару обычных стереоканалов (L/R Stereo) или стерео в суммарноразностном представлении (M/S-Stereo). В последнем варианте, называемом также joint stereo или intensity stereo, один канал несет суммарный сигнал обоих стереоканалов, адругой— ихразность. Разделение стереоканалов выполняется

670 Глава11. АудиосистемаPC

на выходе декодера. Дополнительная компрессия достигается за счет ограничения (снизу) полосыпропусканияразностного канала.

Стандарт определяет ряд фиксированных значений интенсивности потока в канале от 32 Кбит/с до 448 (Layer 1), 384 (Layer 2) и 320 Кбит/с (Layer 3).

Наибольшую степень сжатия обеспечивает слой Layer 3, для которого при высокой достоверности декодирования достигается коэффициент сжатия 11:1. Так, для обеспечения стереофонии с качеством, близким к аудио-CD, достаточно потока 128

Кбит/с (Layer 2 - 160 Кбит/с, Layer 1 - 288 Кбит/с). Layer 1 используется в мини-

дисках Sony и цифровых компакт-кассетах Philips (384 Кбит/с). Layer 2 используется для спутникового вещания и видео-CD (224 Кбит/с). Layer 3 используется в ISDN и Интернете (128 Кбит/с), а в последнее время он стал фактическимстандартомидляаудиозаписинаCD-ROM.

Чемвышеуровенькомпрессии, тембольших вычислительных ресурсовтребует кодек. К счастью, ресурсоемкость несимметрична — декодирование значительно проще кодирования. Аудиодекодер может встраиваться в графические карты с MPEG-декодером, при этом графическая карта снабжается выходным разъемом аудиосигнала. В настоящее время стали популярными звукозаписи в формате MPEG-1 Layer 3 (файлы с расширением .МРЗ), которые могут быть декодированы на современных компьютерах программным способом с выводом сигнала как на ЦАП любой звуковой карты, так и в WAV-файлы. Часто по расширению (или для краткости) их ошибочно называют файлами MPEG-3 (такого стандарта и нет!). Файлы с расширением .МР1 и .МР2 представляют данные в формате MPEG-1 Layer 1 и 2 соответственно, но они не так широко распространены. Для декодирования высококачественной стереофонии в реальном времени требуется как минимум 486DX4-100. Процесс кодирования (на Layer 3) в реальном времени обеспечивают специализированные сигнальные процессоры, а также процессоры семейства х86 с тактовой частотой от 500 МГц. На PC компрессии в формат МРЗ поддаются WAV-файлы, записанные с разрядностью и частотой, принятой в MPEG, или же цифровые данные с аудиодисков. Время компрессии на менее мощномпроцессоребудетвнесколькоразпревышатьвремязвучанияфайла.

В MPEG-2, по сравнению с MPEG-1, определены еще и частоты дискретизации 16, 22,05 и 24 кГц. Здесь аудиопоток может содержать две пары широкополосных каналов (фронт и тыл), а также один низкочастотный (до 100 Гц). Разрядность входногоивыходногопотоков можетдостигать 18 идаже24 бит.

Конечно же, за экономию памяти (пропускной способности канала), обеспечиваемую компрессией, приходится расплачиваться потерей истинной верности (Hi-Fi) звуковоспроизведения. Побочныеэффекты«психофизическойкомпрессии» на различных музыкальных фрагментах будут проявляться по-разному. Искажения при воспроизведении поп-музыки будут менее заметны, чем симфоническойилифортепьяннойпритехжепараметрахкомпрессии.

11.1.3. Методы синтеза звуков

Синтезаторы звуков в наше время стали уже привычными инструментами. Их используют как дляимитации голосов «естественных» музыкальных инструмен-

11.1, Краткийэкскурсвприкладнуюзвукотехнику 671

тов, человеческого голоса, различных шумов, так и для создания оригинальных звуков. Прежде чем рассматривать проблемы и методы синтеза, займемся «препарированием» звука.

Звуки можно разделить на шумовые и тональные (мелодические). Из высшей математики известно, что любой сигнал можно представить в виде ряда гармонических (синусоидальных) составляющих (ряд Фурье), каждая из которых характеризуется своей частотой, амплитудой и фазой. Шумовые звуки имеют спектр, непрерывный в какой-то области. Спектр тонального звука — дискретный, с основным тоном и гармониками, частота которых кратна частоте основного тона (первая гармоника является основным тоном). Музыкальный звукоряд представляет собой ряд последовательных нот, отличающихся друг от друга частотами основного тона. Ноты, частоты которых отличаются друг от друга в 2 раза, отстоят друг от друга на одну октаву. В пределах каждой октавы «европейский» звукоряд насчитывает 12 полутонов (7 основных нот со знаками альтерации — диезами и бемолями). Частоты соседних полутонов отличаются друг от друга в I2V2 раз. Для более тонкой идентификации тона имеется и единица измерения цент — одна сотая (по логарифмической шкале) от полутона.

Сигнал с непрерывным равномерным спектром в широком диапазоне частот называют «белым шумом» (он может охватывать весь слышимый диапазон частот). Поскольку суммарная мощность любого звука конечна, отдельные составляющие белого шума имеют бесконечно малую амплитуду. Если из белого шума выделить узкую спектральную полоску, то звук получит тональную «окраску». Если ширина полосы будет уже, чем расстояние до соседней ноты звукоряда, звук приблизится к мелодическому. Звуки реальных инструментов являются смесью мелодических и шумовых (характерный пример — «придыхающее» звучание саксофона).

Анализ осциллограмм музыкальных звуков позволил построить их обобщенную модель (рис. 11.3). Здесь видна несущая частота, обогащенная гармониками, и ее огибающая. Звук имеет четыре явно выраженные фазы:

» атака (attack) — бурный рост амплитуды несущей, сопровождающийся значительными изменениями (обогащением) ее спектрального состава;

SB спад(decay), сопровождающийся«смягчением» спектра;

«удержание (sustain) — относительно стационарный, постепенно затухающий процесс (например, удержание нажатой клавиши фортепьяно);

ж затухание (release) — довольно быстрое уменьшение амплитуды до нуля (демпфирование колебаний при отпускании клавиши).

По первым буквам английских названий фаз такая модель называется ADSR. Для каждого инструмента характерен свой набор параметров, описывающих эти фазы. Для инструментов с широким диапазоном звучания значения параметров заметно различаются дляразных участков частотного диапазона.

Небольшие периодические колебания частоты тона называют вибрато (слово «частотное» подразумевается). Модуляция амплитуды называется тремоло, или амплитудным вибрато. Если при переходе от ноты к ноте новая частота основного тона устанавливается не скачком, а плавно «подъезжает», такое исполнение

672 Глава11. АудиосистемаPC

называетсяпортаменто. Смещениевсегостроявпроцессеигры(ссохранением интерваловваккордах) называетсяглиссандо.

Атака Спад Удержание

 

Затухание

Рис. 11.3. Типоваяосциллограммазвукафортепьяно

Акустическая система любого естественного инструмента имеет свой набор формант — областей резонанса, где амплитудно-частотная характеристика имеет подъем. Форманты придают инструментам характерную узнаваемость. В человеческом голосе форманты позволяют, например, различать гласные звуки — каждойгласнойсоответствуетопределеннаяпараформант.

Теперь, послеэтогобеглого«осмотра» звуков, поговоримосинтезе.

Электронным синтезом звуков начали заниматься еще в 20-е годы. Первым синтезатором был терменвокс, созданный в России Львом Терменом. В этом инструменте использовались высокочастотные генераторы; оператор управлял частотой одного из генераторов, меняя положение своей руки относительно специального электрода. Выходная — звуковая — частота выделялась какразность частот пары генераторов. Любопытно, что полупроводниковые «версии» термен-вокса иногда используются и в наши дни. На 60-80-е годы приходится бурное развитие аналоговых методов синтеза, в 90-е годы в основном развиваются цифровые и гибридные (аналоговые с цифровым управлением). Введем несколько определений, относящихся квозможностямсинтезаторов.

Одноголосный, или монофонический (monophonic), синтезатор в каждый мо-

мент времени способен воспроизводить только один звук (ноту). При попытке исполнить несколько нот (взять аккорд) будет звучать лишь одна из них. Многоголосный, или полифонический (polyphonic), синтезатор способен одновременно исполнить несколько нот (не более, чем число его голосов). Многотембровый (multitimbral) синтезатор может одновременно издавать звуки с различными тембрами (имитировать несколько разных инструментов).

Сигнал со сложным спектральным составом можно получать самыми разнообразными способами. Если ограничиваться небольшим числом составляющих, то можно воспользоваться аддитивным методом синтеза. Его суть очевидна из названия (addition — сложение): сигналы от нескольких управляемых генераторов суммируются. Частоты генераторов могут находиться в гармоническом (быть кратными одной из частот) или ином соотношении. Однако спектрально богатый звук при таком подходе требует применения большого числа согласованно управляемых генераторов, что трудно реализуемо по множеству технических причин. Противоположностью аддитивному является субтрактивный метод

11.1. Краткийэкскурсвприкладнуюзвукотехнику 673

(subtraction — вычитание). Здесь Из шумового (или другого спектрально богатого) сигнала выделяются только нужные области. Тут вспоминается известное объяснение процесса создания скульптуры; взять глыбу и отсечь все лишнее. Реализация управляемых фильтров, выполняющих это «художественное отсечение», особенно в аналоговом виде затруднительна. На практике эти два базисных методаприменяютсявсочетаниисрядомдругих.

Богатые возможности синтеза предоставляли модульные синтезаторы, среди которых наиболее известны Moog-синтезаторы (названы по фамилии создателя). Модули этих синтезаторов представляли собой различные устройства, управляемые напряжением: генераторы (VCO — volt controlled oscillator), фильтры

(VCF — volt controlled filter), усилители (VGA — volt controlled amplifies) и

генераторы управляющих сигналов различных форм. Для генерации сигналов произвольной формы использовали секвенсоры — наборы потенциометров и коммутирующих ключей. Потенциометрами «набиралась» форма по точкам (в Moog использовалось 12 потенциометров), ключиобеспечивали«развертку» этогонабора во времени (циклически или однократно по команде). Генераторы и фильтры имели логарифмическую характеристику управления (Roland, Moog) с чувствительностью одна октава на вольт или линейную (синтезаторы Yamaha, Korg, где частота в герцах пропорциональна напряжению). Клавиатура (и другие управляющие устройства) вырабатывала напряжение с уровнем, определяемым нажатой клавишей. Модули соединялись между собой шнурами (patch), и звук определялся определенной комбинацией этих соединений. С тех пор слово patch применительно к синтезаторам означает определенный (загружаемый в память) тип звука (инструмента). Конечно, модульные синтезаторы были дорогими и малопригодными для исполнения произведений в реальном времени. Позже появились синтезаторы с фиксированными соединениями тех же узлов (например, Mini-Moog), скоторымиужемоглисправитьсяимузыканты-исполнители.

Идеи модульных синтезаторов легли в основу построения FM-синтезато-ров, получивших широкое распространение и в простых звуковых картах для PC.' Синтез FM (Frequency Modulation —' частотная модуляция) построен на модуляции частоты одного звукового генератора (несущей) сигналом от другого звукового генератора. Здесь есть отличия от модуляции, применяемой в радиотехнике, где низкочастотный (звуковой) сигнал управляет частотой высокочастотного, частота которого (несущая) выше на несколько порядков, вызывая малое относительное отклонение несущей частоты. В FM-синтезаторах частоты соизмеримы, и частота несущей может быть даже ниже модулирующей, глубина модуляции высока. В таком приложении модуляция позволяет из пары гармонических сигналов получать сигнал с богатым набором спектральных составляющих, частоты которых определяются через суммы и разности частот исходных сигналов. Пара управляемых генераторов, имеющих и средства формирования огибающей их колебаний (фазы атаки, спада, удержания и затухания), называется оператором. В формировании одного звука (голоса инструмента) может быть задействовано несколько операторов, их можно собирать в цепочки и кольца (в зависимости от сложности звука). Все компоненты синтезатора имеют цифровое управление через набор регистров, доступный управляющей программе. В процессе исполнения программа динамически рас-

674 Глава 11. АудиосистемаPC

пределяет имеющиеся ресурсы (операторы). Количество операторов определяет полифонические и многотембровые возможности синтезатора, при формировании сложных тембров полифонические возможности сужаются. FM-син- тезаторы звуковых карт хороши для создания необычных («компьютерных») звуков, но их возможности в воспроизведении естественных звуков весьма скудны. Существуют и очень сложные FM-синтезаторы с богатыми возможностями, но в картах для PC они не применяются.

Для имитации звуков естественных инструментов больше подходит метод синтеза, основанный на воспроизведении (playback) предварительно записанных образцов (samples) звуков. Этот метод используется в WT-синтезаторах, которые применяются в относительно дорогих моделях звуковых карт. Такие синтезаторы имеют память, в которой хранятся волновые таблицы WT (Wave Table) — оцифрованные образцы звуков (сэмплы). Для извлечения звука процессор синтезатора извлекает из памяти подходящий образец и воспроизводит его с требуемыми параметрами. Ограниченный размер памяти заставляет использовать различные ухищрения, направленные на ее экономию. Во-первых, можно хранить образцы не всех нот, доступных для синтезируемого инструмента, а только некоторых из них, распределенных по его диапазону. Тогда промежуточные ноты вычисляются по образцам ближайших к ним. При этом процессору приходится определять точки воспроизводимого сигнала, попадающие между выборками образцов. Для этого используются различные алгоритмы интерполяции, от сложности которых зависит «правильность» вычисленной волны. Во-вторых, можно хранить образец для звука с минимальной длительностью, при которой фазы ADSR различимы. При воспроизведении в фазе удержания зацикливается фрагмент, кратныйпериодуосновноготона(указателинаегограницыхранятсявместес образцом). При этом процессор должен обеспечить «гладкость» стыковки, а фрагмент для повтора должен быть тщательно подготовлен, чтобы не было слышнопериодических «всхлипов» на«швах». Каквсегда, чемвышетребованияк качеству звука, тем больше требуется ресурсов — объема памяти выборок и мощности внутреннего процессора синтезатора. Достоверность звуков будет высокой, если один образец будет обслуживать лишь несколько смежных нот. Хорошо бы хранить и несколько образцов для разной силы звука, поскольку у многих инструментов она существенно влияет на характер сигнала. Для придания звуку естественности вычисленные волны пропускают и через управляемые фильтры. Оживляет звучание и введение случайных составляющих в алгоритмы вычисленийиобработки.

Платы волновых синтезаторов имеют постоянную память (ROM) для хранения голосов основных инструментов и оперативную для загрузки произвольного набора голосов, включая оригинальные звуки, созданные пользователем. По старинке они называются «патчами» (patches). Волновой синтезатор для PC может быть выполнен не только в виде самостоятельной карты, но и поставляться в качестве средства расширения карты с FM-синтезатором.

Методы синтеза звуков не исчерпываются перечисленными. В настоящее время развиваетсяновыйподходксинтезу— математическоемоделированиефизических процессов, происходящих в реальных инструментах. Конечно, для решения этой задачи в реальном времени требуются мощные вычислительные ресурсы, предоставляемыесовременнымипроцессорами.

11.1. Краткийэкскурсвприкладнуюзвукотехнику 675

Описанные методы применимы к синтезу как тональных, так и шумовых звуков (например, звуков ударных инструментов). Конечно же, здесь есть масса нюансов, которые выходят за рамки данногообсуждения.

11.1.4. Стереофоническоеиобъемное воспроизведение

Для обычной стереофонии достаточно двух колонок, расположенных перед слушателем, и подавляющее большинство звуковых карт имеют стереофонический аудиовыход. Некоторыми ухищрениями перекрестного смешивания сигналов удалось расширить зону стереоэффекта, но добиться объемности звучания не удавалась.

Системаобъемного, илиобволакивающего(surround), звучанияDolby Surround Pro Logic, применяемая в «домашнем кинотеатре» с аналоговой записью звука, использует 4 воспроизводящих канала усилителей. Здесь слушателя окружают колонками со всех сторон: перед ним располагают три колонки (слева, справа и по центру), а за ним еще две тыловые (слева и справа). Для каждой из фронтальных колонок используется свой собственный широкополосный канал, а обе тыловые колонки используют сигнал одного канала с ограниченной полосой пропускания (100-7000 Гц). Все 4 канала упакованы в стереосигнал с обычными параметрами каналов. Этот стереосигнал может храниться и передаваться по любому стереотракту — компакт-диски, радио FM, стерео в телевидении и видеокассетах. На обычных стерео (и моно) системах этот сигнал будет воспроизводиться естественным для этих систем способом, но с помощью специального декодера Dolby Surround Pro Logic он раскладывается на вышеуказанные 4 канала.

Для цифровых систем фирма Dolby разработала систему Dolby Digital, она же АС-3, в которой передается (хранится) в сжатом виде информация шести каналов

— пяти широкополосных и одного низкочастотного. Здесь слушателя также окружают колонками со всех сторон: три колонки спереди (слева, справа и по центру), две тыловые (слева и справа) и еще одна колонка, низкочастотная, называемая сабвуфером (subwoofer), располагается за спиной (хотя ее положение относительно произвольно). Самая мощная колонка в этой системе — саб-вуфер; центральная колонка несколько мощнее (и «широкополосное») боковых. Тыловые колонки(rear spikers) могутиметьсравнительнонебольшуюмощностьиразмеры. В отличие от предыдущей системы здесь сигнал для каждой колонки передается своим собственным каналом, и не в аналоговом, а в цифровом виде. Как и положено фирме Dolby, в системе приняты эффективные способы шумоподавления. Эта полная схема поддерживается цифровым форматом и называется «5.1». Такая система воспроизведения устанавливается в современных кинотеатрах с «цифровым» звуком.

Название АС-3 означает «аудиокодек-3». Кодер Dolby Digital упаковывает 5 каналов с полосой 20-20000 Гц (±0,5 дБ, завал -3 дБ на частотах 3 и 20 300 Гц) и один канал с полосой 20-120 Гц. Входные сигналы могут иметь разрядность 20 и более бит и частоту дискретизации в 32, 44,1 или 48 кГц. В зависимости от требований к качеству и числу каналов поток данных на выходе кодера имеет

676 Глава 11. АудиосистемаPC

скорость от 32 Кбит/с (моно) до 640 Кбит/с. Характерны скорости в 384 Кбит/с для полной схемы «5.1» бытового формата и 192 Кбит/с для стереофонической передачи звука. Кодирование 5.1 включено в стандарт MPEG-2 и используется для записи звукового сопровождения для DVD-дисков (и супервидео-CD). Выход на 6- канальную акустику (аналоговый или даже цифровой) имеют «продвинутые» модели современных звуковых карт для PC. Аппаратный декодер АС-3, встроенный в звуковую карту, позволяет разгрузить центральный процессор при воспроизведении DVD (или иных источников аудиопотока MPEG-2).

Промежуточный вариант объемности звука — квадрофония (пара колонок спереди, пара — сзади). Однако все эти варианты — «шумные», их оценка окружающими, не увлеченными игрой, вряд ли будет адекватной техническим достижениям. Остается еще вариант — наушники, в которых опять-таки всего пара излучателей.

11.1.5.Трехмерныйзвук

Вкомпьютерной аудиотехнике, как и графике, мощным двигателем прогресса являются игры. Первые игры довольствовались заранее запрограммированными звуками, издаваемыми программно-управляемым динамиком. Потом игры стали озвучиваться звуковыми картами, воспроизводящими цифровые записи и синтезирующими звук (в основном FM). Параметрами звуков уже стали управлять динамически, в зависимости от развития сюжета. Здесь уже появилась стереофония с ее возможностью панорамирования источников звуков. Но с ростом возможностей цифровой обработки растут и потребности, в результате чего появилось несколько разработок трехмерного звука (3D Sound или 3D Audio). Их целью является создание у слушателя впечатления локализации источников в трехмерном пространстве, окружающем его — не просто линейной стереопанорамы, а по трем координатам: лево-право, перед-зад, верх-низ.

Разработчики ЗО-звука исходили из того, что сферическую локализацию человек ухитряется выполнять по сигналам от пары своих ушей — стало быть, можно найти способ формирования этих сигналов даже через пару выходных акустических устройств. Алгоритмы обработки цифрового аудиопотока с целью создания иллюзии трехмерной локализации при выводе через 2-, 4- или 6-каналь- ные акустические системы строятся на основе психоакустических моделей восприятия звука человеком. Конечно же, как и в случае вывода трехмерной графики через плоский экран монитора, это все-таки иллюзия, но ее убедительность совершенствуется по мере усложнения алгоритмов. В значительной степени эта иллюзияподкрепляетсяформируемымизображением, котороеозвучивается(большую часть информации человек воспринимает через зрение). Реализация этих алгоритмов возможна как с помощью сигнальных процессоров (DSP) звуковых карт, так и центральным процессором (аналогия с SD-графикой). Но центральному процессору трудно справиться с несколькими аудиопотоками, особенно если учесть его загруженность остальной (не звуковой) частью игрового приложения. Заметим, что для формирования объемного звука в играх не используются (пока?) возможности кодирования в АС-3, поскольку для современных процессоров это слишком ресурсоемкая задача.

11.1. Краткийэкскурсвприкладнуюзвукотехнику 677

Для реализации трехмерного звука применяются разнообразные фирменные технологии, различающиеся подходами и способами достижения трехмерности. Однако их объединяет один общий принцип — создание идеального ЗО-звука невозможно, поскольку звуковое восприятие у людей сугубо индивидуально. Тем не менее трехмерный звук вносит дополнительное оживление в мультимедий-. ную системукомпьютера.

В технологии SRS 3D Sound (фирмы SRS Labs) информация извлекается из обычного (двухканального) стереопотока и после обработки выводится через пару каналов, но с большим пространственным эффектом. Функция обработки назы-

вается HRTF (Head-Related Transfer Function), она описывает передаточные фун-

кции прохождения звуковых сигналов к барабанным перепонкам ушей слушателя в зависимости от положения источника звука относительно его головы. Функция HRTF зависит от трехмерных координат (здесь удобна сферическая система координат) и частоты.

Технология TruSurround, опирающаяся на ядро SRS 3D Sound, позволяет б- канальный поток АС-3 конвертировать для воспроизведения через одну пару колонокссохранениемтрехмерности.

3D RSX (Intel 3D Realistic Sound Experience) — программная реализация функции

HRTF на процессорах с расширением ММХ. Позволяет позиционировать источник, имеет дополнительные эффекты — реверберация, смещение строя (и эффект Допплера).

Технология A3D от фирмы Aureal Semiconductor решает примерно те же задачи, что и SRS 3D Sound. Эта фирма разработала и технологию Wavetracing, которая со звуком выполняет преобразования, напоминающие трехмерное графическое моделирование. Здесь также присутствует сцена, только теперь акустическая. На сцене располагаются пассивные акустические объекты, например стены. Объекты представляются акустическими многоугольниками, обладающими определенными свойствами поглощения и отражения звука. Правда, в отличие от графики количество многоугольников, требуемое для достоверности звукопередачи, ограничивается несколькими десятками. Среди этих объектов располагается виртуальный слушатель, а также источники звуков. Для каждого источника звука просчитываются все возможные пути прохождения звука до ушей (обоих) слушателя: учитываются затухания в преградах, отражения от предметов, атмосферное затухание. При расчетах учитывается динамика движения и моделируется эффектДопплера. Акустические объекты(многоугольники) создаются конвертированием графической модели. Источниками звука могут быть любые средствакомпьютера, генерирующиецифровойаудиопоток.

Трехмерный звук генерируется прикладными программами, и для обеспечения совместимости с различными звуковыми картами разработаны специальные интерфейсы (API), одним из которых является DS3D (DirectSound 3D). В DS3D входит собственно API (набор команд), интерфейс аппаратных средств звуковой карты (драйвер) и программный эмулятор HEL (Hardware Emulation Layer), который при отсутствии аппаратной поддержки SD-звука картой программно выполняет команды API с минимальными возможностями (насколько позволит процессор). Поддержку DS3D (драйверы) имеют все карты, претендующие на ЗОзвук. DS3D используетвыход надве колонки(стереосистема).