- •Лекции по курсу
- •4 Видеосигналы 44
- •1 Цифровые фильтры
- •1.1 Сущность явления Гиббса
- •1.2 Весовые функции
- •1.3 Разностное уравнение
- •1.4 Нерекурсивные фильтры
- •1.5 Рекурсивные фильтры
- •1.6 Структурные схемы цифровых фильтров
- •1.7 Импульсная характеристика фильтров
- •1.7.1 Свертка входного сигнала с импульсной характеристикой цифрового фильтра
- •2 Аналого-цифровое преобразование
- •2.1 Цифровая обработка звуковых сигналов
- •2.2 Основные понятия и определения
- •2.3 Структура и алгоритм работы цап
- •2.4 Структура и алгоритм работы ацп
- •2.4.1 Параллельные ацп
- •2.4.2 Ацп с поразрядным уравновешиванием
- •2.4.3 Ацп с плавающей точкой
- •3.1 Методы и стандарты передачи речи по трактам связи, применяемые в современном оборудовании (7 кГц)
- •3.1.1 Импульсно-кодовая модуляция (pcm — Pulse-Code Modulation)
- •3.1.3 Методы эффективного кодирования речи
- •3.1.4 Кодирование речи в стандарте cdma
- •3.1.5 Речевые кодеки для ip-телефонии
- •3.1.6 Оценка качества кодирования речи
- •3.2 Основные понятия цифровой звукозаписи
- •3.2.1 Натуральное цифровое представление данных
- •3.2.2 Кодирование рсм
- •3.3 Формат mp3
- •3.3.1 Сжатие звуковых данных
- •3.3.2 Кратко об истории и характеристиках стандартов mpeg.
- •3.3.3 Каковы отличия режимов cbr, vbr и abr?
- •3.3.4 Какие методы кодирования стерео информации используются в алгоритмах mpeg (и других)?
- •3.3.5 Какие альтернативные mpeg-1 Layer III (mp3) алгоритмы компрессии существуют?
- •3.4 OggVorbis
- •3.6 Flac
- •4 Видеосигналы
- •4.1 Общие положения алгоритмов сжатия изображений
- •4.2 Алгоритмы сжатия
- •4.2.1 Gif (CompuServe Graphics Interchange Format)
- •4.2.3 Jpeg
- •4.2.5 Метод Хаффмана
- •4.2.6 Png (Portable Network Graphics)
- •4.2.7 Tiff (Tagged Image File Format)
- •4.2.8 Pdf (Portable Document Format)
- •4.2.9 Adobe Photoshop Document
- •4.2.10 CorelDraw Document
- •4.2.11 Wmf (Windows Metafile)
- •4.2.12 Bmp (Windows Device Independent Bitmap)
- •4.2.13 Rtf (Microsoft Rich Text Format)
- •4.3 Вейвлет-преобразования
- •4.4 Jpeg2000
- •4.4.1 Общая характеристика стандарта и основные принципы сжатия
- •4.4.2 Информационные потери в jpeg2000 на разных этапах обработки
- •4.5 Видеостандарт mpeg-1
- •4.6 Mpeg-2
- •4.6.1 Стандарт кодирования mpeg-2
- •4.7 Стандарт mpeg-4
- •4.7.1 Особенности стандарта mpeg-4
- •4.7.2 Профайлы в mpeg-4
- •4.8 Стандарт hdtv
- •5 Принципы построения и особенности внедрения систем цифрового тв вещания
- •5.1 Глобальная модель систем цифрового вещания
- •5.2 Определение и классификация систем доставки
- •Приложение п1 Ортогональные разложения функций
- •П2 Дискретизация функций рядами Фурье
- •П4 Частота дискретизации
- •П5 Разрядность
3.1.6 Оценка качества кодирования речи
При оценке качества кодирования и сопоставлении различных кодеков оцениваются разборчивость речи и качество синтеза (качество звучания) речи.
Для оценки разборчивости речи используется метод DRT (диагностический рифмованный тест).
В этом методе подбираются пары близких по звучанию слов, отличающихся отдельными согласными, которые многократно произносятся рядом дикторов, и по результатам испытаний оценивается доля искажений. Метод позволяет получить как оценку разборчивости отдельных согласных, так и общую оценку разборчивости речи.
Для оценки качества звучания используется критерий DAM (диагностическая мера приемлемости). Испытания заключаются в чтении несколькими дикторами (мужчинами и женщинами) ряда фраз, которые прослушиваются на выходе тракта связи рядом экспертов-слушателей, выставляющих оценки по 5-балльной шкале. Результатом является средняя субъективная оценка, или средняя оценка мнений (MOS). Хотя этот метод является субъективным, его результаты по сопоставлению различных типов кодеков при проведении испы- таний одними и теми же группами дикторов и экспертов-слушателей являются достаточно объективными, и на них основываются выводы и решения.
В табл. 3 приведены результаты оценки четырех типов кодеков. Близкие к шкале MOS результаты дает объективный метод оценки качества с использованием понятия кепстрального расстояния (Cepstrum Distance - CD).
Существует множество вариантов кодеков речи, из которых приходится выбирать кодек для ССС. Например, при разработке стандарта GSM были исследованы шесть типов кодеков, после чего выбор был остановлен на кодеке RPE-LTP. Работа по выбору типа кодека для стандарта GSM была завершена в 1988 г., а в 1989 г. был предложен метод VSELP, принятый затем в стандарте D-AMPS. Работы по совершенствованию кодекса речи продолжаются и в настоящее время. Обоими стандартами (D-AMPS и GSM) предусмотрено введение полускоростного кодирования, которое сможет увеличить пропускную способность канала связи в два раза. В числе исследуемых вариантов для стандарта D-AMPS рассматривается возможность введения векторного квантователя параметров линейных спектральных пар с расщеплением и межкадровым предсказанием, а для стандарта GSM - использование метода кодирования CELP.
Таблица 3 Оценка кодеков речи по шкале MOS
Тип кодека |
Темп передачи информации, кбит/с |
Оценка MOS |
РСМ |
64 |
4.12 |
ADPCM |
13 |
3.78 |
RPE-LTP (стандарт GSM) |
13 |
3.58 |
VSELP (стандарт D-AMPS) |
8 |
3.44 |
CELP (стандарт CDMA) |
4,8 9,6 |
3 3,7 |
QCELP (стандарт CDMA) |
13 |
4.02 |
3.2 Основные понятия цифровой звукозаписи
3.2.1 Натуральное цифровое представление данных
Одна из "цифровых" форм записи звуковых данных известна уже очень давно, с тех времен, когда не существовало никаких компьютеров. Это всем известная запись музыки при помощи нот.
Такого рода запись активно применяется и сегодня (так называемый формат General MIDI, или просто MIDI) при использовании компьютера для создания электронной музыки.
Фактически в таком случае в файл записываются не сами звуки, а правила их синтеза. Поэтому эту запись называют синтетической. Таким образом, можно добиться очень высокого качества звука, но ограничения, присущие этому методу, также очевидны. Синтетическая звукозапись не записывается, а конструируется. С ее помощью нельзя записать игру реального оркестра или пение, она также не имеет средств для записи естественной речи и вообще произвольных звуков, которые нельзя представить в виде набора простых стандартных звуковых единиц ("нот").
Поэтому, более распространен натуральный способ цифровой записи звука, заключающийся в хранении самой формы звуковой волны, то есть, регистрации в цифровом виде изменения амплитуды звукового сигнала с течением времени. Это основной способ цифровой записи звука, так как в нем не делается различий в отношении того, какой именно звук записывается. Исходная форма волны, как уже говорилось, - непрерывная аналоговая величина, поэтому в ходе записи производится аналогово-цифровое преобразование. При воспроизведении звука требуется обратное, цифро-аналоговое преобразование.