Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Редактирование звука.docx
Скачиваний:
11
Добавлен:
22.12.2018
Размер:
1.07 Mб
Скачать

1 1 Как кодируется звук  Звук представляет собой распространяющуюся чаще всего в воздухе, воде или другой среде волну с непрерывно изменяющейся интенсивностью и частотой.  Человек может воспринимать звуковые волны (колебания воздуха) с помощью слуха в форме звука различая при этом громкость и тон.  Чем больше интенсивность звуковой волны, тем громче звук, чем больше частота волны, тем выше тон звука.  Зависимость громкости, а также высоты тона звука от интенсивности и частоты звуковой волны  Герц (обозначается Гц или Hz) — единица измерения частоты периодических процессов (например колебаний).  1 Гц означает одно исполнение такого процесса за одну секунду: 1 Гц= 1/с.  Если мы имеем 10 Гц, то это означает, что мы имеем десять исполнений такого процесса за одну секунду.  Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).  Кроме того, человек может воспринимать звук в обширном диапазоне интенсивностей, в котором максимальная интенсивность больше минимальной в 1014 раз (в сто тысяч миллиардов раз).  Для того, чтобы измерять громкость звука придумали и применяют специальную единицу"децибел" (дБ)  Уменьшение или увеличение громкости звука на 10 дБ соответствует уменьшению или увеличению интенсивности звука в 10 раз.  Временная дискретизация звука  Для того чтобы компьютерные системы могли обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую, дискретную форму с помощью временной дискретизации.  Для этого, непрерывная звуковая волна разбивается на отдельные маленькие временные участки, для каждого такого участка устанавливается определенная величина интенсивности звука.  Таким образом, непрерывная зависимость громкости звука от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность «ступенек».  Для записи аналогового звука и его преобразования в цифровую форму используется микрофон, подключенный к звуковой плате.  Чем гуще на графике будут располагаться дискретные полоски, тем качественнее в итоге получится воссоздать первоначальный звук  Качество полученного цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации.  Частота дискретизации звука - это количество измерений громкости звука за одну секунду.  Чем большее количество измерений производится за одну секунду (чем больше частота дискретизации), тем точнее «лесенка» цифрового звукового сигнала повторяет кривую аналогового сигнала.  Каждой «ступеньке» на графике присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N(градаций), для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука.  Глубина кодирования звука — это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.  Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитывать по общей формуле N = 2I.  Например, пусть глубина кодирования звука составляет 16 битов, в таком случае количество уровней громкости звука равно:  N = 2I = 216 = 65 536.  В процессе кодирования каждому уровню громкости звука присваивается свой 16-битовый двоичный код, наименьшему уровню звука будет соответствовать код 0000000000000000, а наибольшему — 1111111111111111.  Качество оцифрованного звука  Итак, чем больше частота дискретизации и глубина кодирования звука, тем более качественным будет звучание оцифрованного звука и тем лучше можно приблизить оцифрованный звук к оригинальному звучанию.  Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим «моно»).  Но следует помнить, что для улучшения этого звука в телефонии применяются приборы, напоминающие синтезаторы речи и вокодеры. О вокодерах, также доступна эта статья  Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим «стерео»).  Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла.  Можно легко оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 24 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду и умножить на 2 канала (стереозвук):  16 бит × 24 000 × 2 = 768 000 бит = 96 000 байт = 93,75 Кбайт.  Звуковые редакторы  Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Наиболее видными можно смело назвать, такие как Sony Sound Forge, Adobe Audition, GoldWave и другие.  Оцифрованный звук представляется в звуковых редакторах в наглядной визуальной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью компьютерной мыши.  Кроме того, можно накладывать, перехлёстывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).  Звуковые редакторы позволяют изменять качество цифрового звука и объём конечного звукового файла путём изменения частоты дискретизации и глубины кодирования. Оцифрованный звук можно сохранять без сжатия в звуковых файлах в универсальном формате WAV (формат компании Microsoft) или в форматах со сжатием OGG, МР3 (сжатие с потерями).  Также доступны менее распространённые, но заслуживающие внимания форматы со сжатием без потерь. О музыкальных форматах читайте нашу статью: Разнообразие цифровых форматов  При сохранении звука в форматах со сжатием отбрасываются не слышимые и невоспринимаемые («избыточные») для человеческого восприятия звуковые частоты с малой интенсивностью, совпадающие по времени со звуковыми частотами с большой интенсивностью. Применение такого формата позволяет сжимать звуковые файлы в десятки раз, однако приводит к необратимой потере информации (файлы не могут быть восстановлены в первоначальном, исходном виде). 

Квантование по уровню

Мы узнали, как при помощи дискретизации по времени сохраняется временная информация о звуковом сигнале; давайте теперь рассмотрим другой вопрос: как при помощи квантования по уровню кодируется информация об амплитуде сигнала.

При квантовании по уровню вырабатываются двоичные числа, которые представляют значения отсчетов аналогового сигнала. Двоичные числа являются цифровым представлением напряжения аналогового звукового сигнала в моменты дискретизации по времени.

Количество битов, используемых для кодирования отсчетов звукового сигнала, называется разрядностью квантования по уровню. Аналогично тому, как частота дискретизации определяет ширину полосы частот цифровой аудиосистемы,

разрядность квантования по уровню определяет ее динамический диапазон, разрешающую способность и уровень нелинейных искажений. Большинство цифровых аудиосистем используют сегодня как минимум 16-разрядные слова, при этом разрядность наиболее современных систем доходит до 20. Чем больше длина слова, тем точнее выходной сигнал будет соответствовать исходному.

Длина слова при квантовании определяет количество уровней квантования, используемых для кодирования отсчетов звукового сигнала. Оно равно 2х , где х— это разрядность слова. Например, 16-разрядное квантование обеспечивает 216, то есть 65536 уровней квантования отсчетов аналогового сигнала. Система с числом разрядов 18 увеличивает число уровней квантования в четыре раза, до значения 262144, а 20-разрядное квантование обеспечивает 1048576 уровней. Чем больше разрядность слова, тем шире динамический диапазон, меньше нелинейные искажения и шум, выше разрешающая способность по уровню.

В отличие от процесса дискретизации по времени, квантование по уровню вносит в кодируемый сигнал погрешности. Преобразование бесконечного множества значений аналоговой величины в конечное количество двоичных чисел по самой своей природе является аппроксимационным процессом. Погрешности появляются потому, что результат квантования фактически никогда не является точным представлением напряжения аналогового сигнала. Разность между фактическим значением аналогового сигнала и представляющим его двоичным числом называется погрешностью квантования по уровню, или шумом квантования.

На рис. В-4 показано, как появляются погрешности квантования. Значения аналогового сигнала не совпадают со значениями, представляемыми при помощи двоичных чисел. Например, первая выборка (крайняя левая вертикальная штриховая линия) попадает между уровнями квантования 100111 и 101000. Поскольку не существует значения 100111,25, квантующее устройство просто округляет его до ближайшего дискретного уровня квантования (100111), хотя это число и не является абсолютно точным. Разность между напряжением, представляемым числом 100111 (1,3 В), и фактическим напряжением звукового сигнала (1,325 В) дает погрешность квантования. При восстановлении аудиосигнала по округленному двоичному числу 100111 будет выработан не вполне точный аналоговый сигнал. В результате появится искажение исходной формы звуковой волны.

Наихудший случай — это когда аналоговый сигнал имеет значение, попадающее точно между двумя уровнями квантования. Именно такая ситуация имеет место для второго слева отсчета на рис. В-4. Разность между отсчетом аналогового сигнала и уровнем квантования, представляющим этот отсчет, будет наибольшей.

Погрешность квантования выражают в процентах от младшего разряда (MP). Для первой слева выборки погрешность квантования составляет одну четверть MP, для второй — половину MP. Обратите внимание, что погрешность квантования никогда не превосходит половины значения MP. Следовательно, чем меньше

величина шага квантования по уровню, тем меньше погрешность. Добавление одного разряда удваивает число шагов и вдвое уменьшает погрешность квантования. Поскольку уменьшение вдвое дает разницу в 6 дБ, отношение сигнала к шуму в цифровой системе увеличивается на 6 дБ при добавлении каждого дополнительного разряда в слове квантования. Цифровая система с 18-разрядным квантованием по уровню будет иметь шум на 12 дБ ниже, чем система с 16-разрядным квантованием.

Отношение сигнал/шум цифровой системы в децибелах можно приблизительно определить, умножив разрядность слова квантования на 6. В системе с 16-разрядным квантованием обеспечивается отношение сигнал/шум около 96 дБ, а в 20-разрядной цифровой аудиосистеме оно составит примерно 120 дБ, то есть на 24 дБ выше, чем в первом случае.

Погрешность квантования воспринимается на слух как грубая зернистость звука низкого уровня, например, реверберационного процесса. Вместо того чтобы слышать постепенное затухание звука до полного его исчезновения, мы замечаем увеличение шероховатости и зернистости по мере затухания сигнала. Это происходит потому, что по мере снижения уровня сигнала погрешность квантования начинает составлять все больший процент от его величины.

Увеличение нелинейных искажений по мере снижения уровня сигнала характерно для цифровой аудиотехники; во всех типах аналоговой записи повышенные искажения проявляются при высоком уровне сигнала. Рост искажений при снижении уровня сигнала делает их намного более заметными. Увеличение разрядности слова квантования с 16 до 20 значительно уменьшает остроту этой проблемы.

Учтите, что отношение сигнал/шум и значение полного коэффициента нелинейных искажений, указанные в паспорте цифровой аудиосистемы, относятся к сигналу максимального уровня. Большую часть времени уровень музыкального сигнала существенно ниже и таким образом ближе к уровню шума. Искажения определяются не полным количеством разрядов цифровой системы, а числом разрядов, используемых для квантования сигнала в данный момент. Именно вследствие этого искажения и шум в цифровых аудиосистемах обратно пропорциональны амплитуде сигнала, из-за чего возникают сложности с сигналами низкого уровня.

Установка уровня записи при использовании цифровых систем принципиально отличается от подобной операции для аналоговых систем. В идеальном случае наивысший пик во всей аудиопрограмме должен в точности соответствовать полному цифровому уровню, т.е. использовать все разряды цифрового кода. Если уровень записи установлен так, что наивысший пик на 6 дБ ниже уровня полной шкалы, то это равнозначно отбрасыванию одного бита из слова квантования и снижению отношения сигнал/шум на 6 дБ. Если амплитуда аналогового сигнала выше, чем напряжение, представляемое наибольшим числом, устройство квантования просто выходит за пределы своих возможностей по числу разрядов и формирует наибольшее доступное значение, ограничивая таким образом музыкальные пики. Возникает искаженная форма сигнала, которая создает на пиках неприятный "скрипучий" звук. Если у вас есть устройство цифровой записи на магнитную ленту в формате DAT, вы можете просмотреть уровень записи на компакт-диске, подключив цифровой выход проигрывателя компакт-дисков к цифровому входу магнитофона. Его индикатор покажет точный уровень записи на компакт-диске. Если наивысший пик никогда не достигает полной шкалы, это значит, что часть разрешающей способности потеряна вследствие неоптимальной записи.

Учтите, что уровень звуковой программы с очень широким динамическим диапазоном будет большую часть времени находится близко к уровню шума квантования, в отличие от сигнала с ограниченным динамическим диапазоном.

Пики сигнала, имеющего широкий динамический диапазон, будут примерно соответствовать уровню полной шкалы, следовательно, сигнал с существенно меньшим уровнем будет кодироваться меньшим числом разрядов. Эта проблема особенно остра в классической музыке, имеющей очень широкий динамический диапазон. Инженеры звукозаписи вынуждены сжимать динамический диапазон при записи классической музыки. К этой мере прибегают и продюсеры поп-музыки, которые хотят, чтобы их записи звучали по радио громче, чем другие песни. Жесткое ограничение динамического диапазона делает поп-музыку громкой в течение всего времени, но это достигается за счет снижения ее динамичности, естественности и мощности ритма.

Товары для здоровья и красоты - ортопедические матрасы.

Уровни цифрового сигнала рассчитываются относительно сигнала полной шкалы, соответствующего единичным значениям цифр всех разрядов. При данном количестве разрядов большего числа быть не может. Этот эталонный уровень называется 0дБР8, где обозначение FS (Full Scale) означает "полной шкалы". Например сигнал с уровнем — 20 дБР8 на 20 дБ ниже сигнала полной шкалы.

2 Вибра́то — периодические изменения высоты, громкости или тембра музыкального звука.

Амплитудное вибрато (англ. amplitude modulation) — звуковой эффект или соответствующее устройство, реализующее периодическое изменение уровня громкости (амплитуды сигнала). Характеризуется пульсирующим звучанием.

Часто́тное вибра́то, бенд, подтяжка (англ. bending — изгиб, искривление) — приём игры на некоторых музыкальных инструментах, позволяющий извлечь «искусственные» ноты, не предусмотренные в строе инструмента.

Эффект тембрового вибрато также предназначен для изменения спектра звуковых колебаний. Физическая сущность этого эффекта состоит в том, что исходное колебание с богатым тембром пропускается через полосовой частотный фильтр, у которого периодически изменяется либо частота настройки, либо полоса пропускания, либо по различным законам изменяются оба параметра. При этом фильтр выделяет из всего спектра исходного колебания те частотные составляющие, которые попадают в “мгновенную” полосу его пропускания. Так как полоса пропускания изменяется по ширине и перемещается по частоте, то тембр сигала периодически изменяется.

2 2 Дилэй (англ. Delay - задержка) — эффект задержки звука, задержка происходит с помощью записи входного сигнала с последующим проигрыванием его через определённый период времени. Задержанный сигнал может воспроизводится либо один раз, либо несколько раз для создания повторяющегося звука похожего на распадающейся эхо.

Флэнжер (англ. flanger - фланец) - это звуковой эффект, который происходит когда два идентичные сигнала смешиваются вместе, один из сигналов задержан на небольшое время, время задержки постоянно изменяется, как правило задержка меньше 20 миллисекунд. Это приводит к эффекту движущегося гребенчатого фильтра: пики и провалы суммируются в результирующий частотный спектр, где они связанны друг с другом в линейный гармонический ряд. Изменение времени задержки служит причиной движения вверх и вниз по частотному спектру.

Часть выходного сигнала, как правило, подается обратно на вход (обратная связь), ("рециркулирующие задержки"), это производит эффект резонанса, что еще больше усиливает интенсивность пиков и провалов в спектре. Фаза подаваемого обратно сигнала иногда перевернута, это порождает еще одну вариацию фленжер эффекта.

Флэнжер создает в спектре звука "расческу" - последовательность максимумов и минимумов, схожую с дифракционной/интерференционной картинами. Благодаря встроенному LFO, эта картина движется вверх-вниз, максимумы воспринимаются как обертона, в результате чего кажется, что звук тоже становится то выше, то ниже, хотя в то же время слушатель слышит все те же ноты без изменений.

Фэйзер (англ. phaser), также часто называемый фазовым вибрато — звуковой эффект, который достигается фильтрацией звукового сигнала с созданием серии максимумов и минимумов в его спектре. Положение этих максимумов и минимумов варьируется протяжении звучания, что создает специфический круговой (англ. sweeping) эффект. Также фэйзером называют соответствующее устройство. По принципу работы схож с хорусом и отличается от него временем задержки (1-5 мс). Помимо этого задержка сигнала у фэйзера на разных частотах неодинакова и меняется по определённому закону.

Хорус (англ. chorus - хор) - модуляционный эффект, созданный для имитации многоголосного (хорового) звучания.

Эффект хора возникает, когда отдельные звуки с примерно одинаковым тембром и почти (с небольшим отличием) одинаковой высотой тона (питч), смешиваются и воспринимаются как единое целое. Похожие звуки, исходящие из различных источников могут происходить естественным путём (как в случае хора или струнного оркестра), он этот эффект также может моделировать с помощью электронных блок эффектов или другими устройствами обработки.

3 2 Плаги́н (от англ. plug-in) — независимо компилируемый программный модуль, динамически подключаемый к основной программе, предназначенный для расширения и/или использования её возможностей. Также может переводиться как «модуль». Плагины обычно выполняются в виде разделяемых библиотек. Плагин - это маленькая программка, которая встраивается в основную (большую) программу и расширяет её возможности.

4 2 Панорамирование

Функция Pan/Expand позволяет определить, как будет слышен звук в звуковом поле между двумя динамиками. Можно сделать так, что звук будет восприниматься исходящим из левой или правой колонки, а также из звукового поля между ними. Этот эффект называется панорамированием. Функция Pan/Expand обладает и некоторыми другими возможностями, о которых мы также коротко расскажем. Чтобы использовать функцию Pan/Expand, сделайте следующее: 1. Выделите в вашем файле данные, которые вы хотите нормализовать. Чтобы обработать весь файл, либо ничего не выделяйте, либо выделите все данные, выбрав команду меню Edit -> Select All. 2. Выберите команду меню Process -> Pan/Expand, чтобы открыть диалоговое окно Pan/Expand (рис. 8.15). 3. Установите в раскрывающемся списке Process mode одноименный параметр. Выберите пункт Pan (preserve stereo separation), чтобы выполнить панорамирование без сведения левого и правого каналов. Это может быть полезно, если у вас есть стереофоническая запись (например, сопровождающей вокальной группы) и вы не собираетесь изменять сам сигнал, но хотите панорамировать группу голосов в определенную область стереопо-ля. Если вы выберете пункт Pan (mix channels before panning), панорамирование будет проведено совместно со сведением левого и правого каналов стереофонической записи. Эта возможность может пригодиться, если необходимо изменить все стереополе, а не отдельный сигнал. Попробуйте воспользоваться обоими пунктами, чтобы уловить разницу на слух. 4. В окне Pan/Expand , помимо параметра Process mode, вы обнаружите график. Его левая шкала отображает позиционирование стереофонического сигнала — он может быть в центре стереополя, а также в левой или правой его части. На графике изображена линия, отображающая характеристики панорамирования, которое вы хотите применить к вашим звуковым данным. Левый край линии представляет начало выделенной области, а правый край — ее конец. Если положение линии таково, что левый ее край находится внизу графика, а правый — вверху, это значит, что по отношению к вашим звуковым данным будет применено линейное панорамирование. Это объясняется тем, что левый край линии находится в правой части стереополя, а правый край — в левой его части. Таким образом, звук сначала будет доноситься из правого динамика, а затем плавно перейдет в левый. Понятно, как работает эта функция?

Рис. 8.15. Вы можете панорамировать данные из стереофонического звукового файла, используя функцию Pan/Expand

При работе со стереофоническим файлом можно включить отображение диаграммы сигналов в качестве фона графика, установив флажок Show wave. Вы также можете указать программе, отображать ли содержимое обоих каналов или только одного из них, выбрав соответствующий пункт из расположенного рядом списка. Это никак не повлияет на сам процесс панорамирования. 5. Вы можете изменить форму линии панорамирования графическим способом, оперируя маленькими квадратиками на ее концах. Эти квадратики называются точками огибающей. 6. Если вы хотите выполнить сложное панорамирование, вы можете добавить еще несколько точек огибающей, щелкнув в любом месте линии. Чем больше точек вы добавите (а их может быть не больше 16), тем точнее вы сможете изменять форму линии (рис. 8.16).

Рис. 8.16. Вы можете выполнять сложное панорамирование, добавляя к огибающей новые точки

7. Отрегулируйте ползунок параметра Output gain (-60 to 20 dB), чтобы определить громкость файла после обработки. 8. Нажмите на кнопку Preview, чтобы услышать, как звучит файл, до того, как программа Sound Forge произведет в нем фактические изменения. 9. Нажмите на кнопку ОК. Программа Sound Forge выполнит панорамирование ваших звуковых данных в соответствии с характеристиками линии панорамирования, указанными в диалоговом окне Pan/Expand - Funky saxophone riff.

Изменение длительности

Изменением длительности фрагмента или целого файла занимается команда Time Stretch (растяжение времени) в меню Process1. На рисунке 3.35 показано ее диалоговое окно. Движком Final Time или цифрами в окошке вводите длительность, которую должен иметь файл или фрагмент. Если хотите задать длительность в процентах, поменяйте единицы измерения в окошке Input Format - выберите Percentage. Если вам известно, в каком темпе был записан фрагмент, то можете выбрать строку Tempo и ввести новый темп в ударах в минуту.

Эффект работает без заметных искажений в диапазоне от 75 до 115 %. Во всяком случае, всегда можно подобрать такой режим, при котором не появится никаких посторонних призвуков, звук останется ровным и четким. При более сильных изменениях возможно всякое.