3.6.4.Использование mpeg-4 кодер речи (speech coder) вместо itu кодека

ITU-T кодеры речи на данный момент работают на скоростях 6.3/5.3 (G.723), 8 kbps (G.729), 16 kbps (G.728), 32 kbps (G.721) 48/56/64 Kbps (G.722). В то же время MPEG-4

кодеры поддерживают скорости 2 - 24 kbps для режима 8 kHz и 14-24 kbps для 16 kHz.

Сейчас ITU-T кодеры не поддерживают такие скорости для соответствующих частот. Кроме того,MPEG-4 предоставляет возможность масштабирования сложности и скорости потока данных а также многоскоростные операции (multi-bitrate operation) на 2 - 24 kbps. Качество кодировки сравнимо сITU-T кодерами на соответствующих скоростях.

MPEG-4 сейчас стандартизирует кодер речи, который сможет работать на 2.0kbps.

Это будет наиболее низкая скорость среди международных стандартов. (ITU-T не поддерживает эту скорость). Качество на 2.0 kbps соответствует‘качеству линий связи’ ("communication quality") и подходит для обычных диалогов, оно лучше, чем у FS1016 4.8kbps кодера.

Вы можете использовать преимущества MPEG-4 кодера речи в различных приложениях. Основанная наMPEG-4 Интернет-телефония устойчива к потере пакетов при передаче данных.

При использовании в аудио-визуальных системах, качество кодирования улучшено за счёт подбора скорости аудио- и видео-потоков на основе содержания кодируемой информации. MPEG-4 кодер может также использоваться в системах радио связи. Устойчивость к ошибкам здесь повышена за счёт различных схем размещения битов(bit allocation) для кодирования речи и коррекции ошибок в зависимости от условий возникновения ошибок (error conditions). Эти особенности не реализованы ни в одном другом стандарте.

Низкая скорость потока данных используется также для кодирования ‘party talk’ (одновременно говорят несколько человек). Даже если 10 человек одновременно общаются через Интернет, каждый терминал будет принимать только18kbps поток от девяти других собеседников.

Другой важной особенностью является то, что ITU-Tориентирован на коммуникации в реальном времени. В низкоскоростном кодере речиMPEG-4 рассматривается также проблема хранения информации (storage media). Кодер позволяет изменять скорость (speed), не изменяя основного тона (pitch) и фонем (phoneme), что используется для доступа к/ поиска вбазах данных при очень быстрой речи. Таким образом, человек может распознать содержимое речи, даже если её скорость удвоена. Кодер позволяет также изменять основной тон. Эти особенности не поддерживаются другими стандартами.

Наконец, поскольку MPEG-4кодеры речи стандартизованы в среде аудио-визуальной структурыMPEG-4, они поддерживают все прочие возможностиMPEG-4, такие как передача с распределённых серверов (distributed servers), синхронизация с синтезированной музыкой или видео, а также пост-обработка параметрических эффектов (parametric effects post-processing). Эти возможности отсутствуют в стандартах, ориентированных только на кодирование речи.

Естественный звук (Natural Sound).

В MPEG-4 скорость кодирования естественного аудио стандартизирована в пределах от 2 до более чем 64kbps. ВключениеMPEG-2 AAC стандарта в набор инструментовMPEG-4 позволяет осуществлять основное сжатие аудио сигналов в области высоких скоростей потока данных. Для этого вMPEG-4 синтаксис потока данных и процесса декодирования определяется в терминах набора инструментов. Для достижения наиболее высокого качества во всём диапазоне скоростей потоков данных и в то же время высоких функциональных возможностей, в стандарт включены 3 типа схем кодирования:

Параметрическое кодирование (parametric coding techniques) соответствует наиболее низким скоростям, т.е. 2 - 4 kbit/s для речи при частоте дискретизации 8 kHz и 4 - 16 kbit/s для аудио (8 или 16 kHz).

При кодировании речи на средних скоростях 6 - 24 kbit/s применяется метод линейного предсказания с возбуждением сигналом (Code Excited Linear Predictive (CELP)). Здесь используются две частоты дискретизации – 8 и 16kHzдля поддержки речи с узким и широким диапазоном сигнала соответственно.

Рис.2: Основная структураMPEG-4 Аудио.

Для скоростей потоков данных начиная с менее чем 16kbps применяется алгоритм преобразования из временной в частотную области (time-to-frequency (T/F) coding techniques), а именно TwinVQ и AAC кодеки. Аудио сигналы здесь обычно кодируются при частоте дискретизации начиная с 8kHz.

Чтобы покрыть весь диапазон скоростей потоков данных и обеспечить масштабирование по скорости и по диапазону была разработана основная структура MPEG-4 (Рис.2).

Начиная с низкоскоростных кодеров, за счёт усовершенствований, таких как BSAC (Bit Sliced Arithmetic Coding – Побитовое арифметическое кодирование) вAAC кодере – для лучшей масштабируемости, как качество, так и диапазон могут быть улучшены. Эти усовершенствования реализуются в среде одного кодера или же соединением нескольких алгоритмов кодирования.

Масштабируемость:

Масштабируемость скорости потока данных позволяет преобразовывать исходный сигнал в поток с меньшей скоростью, который тем не менее может быть декодирован в значащий сигнал. Преобразование может осуществляться или при передаче, или в декодере.

Масштабируемость частотного диапазона является частным случаем масштабируемости скорости потока данных. Таким образом, часть потока данных, представляющая часть частотного спектра может быть отброшена при передаче или декодировании.

Масштабируемость (изменяемость) сложности кодеров позволяет кодерам различной сложности вырабатывать верный значащий поток данных.

Масштабируемость (изменяемость) сложности декодеров позволяет декодировать сигнал с помощью декодеров различной сложности. Качество аудио сигнала зависит, в основном, от сложности используемых кодеров и декодеров.

Устойчивость к ошибкам позволяет декодеру избежать или скрыть искажения, которые вызваны ошибками передачи.

Масштабируемость определена для некоторых инструментовMPEG-4, но может применяться и к комбинации алгоритмов, например, при использованииTwinVQкак основного иAAC как дополнительного (улучшенного).

Многоуровневая структура MPEG-4 ориентирована на использование различных инструментов и сигналов, и кодеки, соответствующие существующим стандартам могут быть приспособлены (accomodated) к ней. Каждый изMPEG-4 кодеров создаётся с возможностью автономного режима работы и собственным синтаксисом потока данных. Дополнительные функциональные возможности могут быть реализованы в кодерах или как отдельные инструменты к ним. Пример функциональной возможности, встроенной в кодер – изменение основного тона в параметрическом кодере.

<<< < Предыдущая 1 2 3 4 56 / 126 7 8 9 10 11 12 > Следующая >>>

Соседние файлы в предмете Цифровая обработка сигналов

#
01.05.20142.68 Mб285Вейвлет-преобразование в задачах цифровой обработки сигналов.doc
#
01.05.20142.43 Mб44Дельта-модуляция.DOC
#
01.05.201499.84 Кб128Дискретное преобразование Фурье.doc
#
01.05.2014598.54 Кб221Книга по ЦОС в формате pdf.pdf
#
01.05.20141.09 Mб23Компрессия данных.DOC
#
01.05.2014352.77 Кб55Компьютерное аудио - форматы аудио-файлов и методы компрессии.doc
#
01.05.2014441.34 Кб74Компьютерный синтез речи. Realspeak Solo Katerina.doc
#
01.05.2014749.57 Кб39Лабораторная работа №6.doc
#
01.05.2014364.03 Кб29Лабораторная работа №61.doc
#
01.05.2014423.42 Кб23Лабораторная работа №62.doc
#
01.05.20143.93 Mб27Лабораторная работа №63.doc