Ж у р н а л   о   к о м п ь ю т е р н ы х   с е т я х   и   т е л е к о м м у н и к а ц и о н н ы х   т е х н о л о г и я х
СЕТИ И СИСТЕМЫ СВЯЗИ on-line
  ПОИСК: ПОДПИСКА НА НОВОСТИ: НОМЕР:
    ДОМОЙ • Архив: Новостей | Конференций | НомеровПодписка
 
   
 
   
    
РЕДАКЦИЯ
 
Все о журнале
Подписка
Как проехать
Где купить
Отдел рекламы
График выхода журнала
Адреса в Интернет

РУБРИКАТОР
   
• Инфраструктура
• Информационные
   системы

• Сети связи
• Защита данных
• Кабельные системы
• Бизнес
• Колонка редактора
• Электронная
   коммерция

• Только на сервере
• Системы
   учрежденческой
   связи

• Новые продукты


Rambler's Top100

  

Кодирование речи в цифровой телефонии

Давид Ворсано

Цифровая телефония значительно повысила качество услуг междугородной телефонной связи и сделала возможной интеграцию телекоммуникаций и передачу цифровых данных, что понижает стоимость услуг и помогает удовлетворять постоянно растущие требования к пропускной способности канала.

Если различного рода аналоговое аудио- и видео коммуникационное оборудование может быть в принципе реконструировано для цифровой передачи, то человеческий голос порождает присущий ему аналоговый сигнал, который занимает полосу частот между 200 и 3400 Гц. Кодирование речи обеспечивает компактное цифровое представление аналогового голосового сигнала и делает возможной высококачественную передачу по цифровым телефонным сетям.

Метод импульсно-кодовой модуляции (pulse code modulation - PCM) принят в 1960 г. в качестве международного стандарта кодирования речи для телефонного канала, работающего на скорости 64 Кбит/с. С возрастанием потребностей в пропускной способности канала были разработаны новые технологии сжатия речи с целью минимизировать скорость передачи цифровых потоков с сохранением приемлемых качества сигнала, сложности реализации алгоритма и временных задержек.

При разработке высококачественных методов сжатия речи для скоростей цифровых потоков ниже 10 Кбит/с возникают специфические трудности. К счастью, недавние достижения в области обработки цифровых сигналов (digital signal processing - DSP) и сверхбольших интегральных схем (very large scale integration - VLSI) сделали реализацию таких кодирующих устройств экономически эффективным, и, значит, стали возможными проводная и беспроводная телефония высокого качества, видеоконференции и мультимедийные приложения.

Критерии разработки кодирующих устройств

При разработке любой новой технологии исследователи должны добиваться технологического совершенства, с одной стороны, и низкой стоимости реализации, с другой. Применительно к методам кодирования речи, понятие совершенства подразумевает высокое качество сигнала и малую временную задержку. Стоимость реализации определяют такие факторы, как общая сложность системы и скорость битового потока, необходимая для достижения определенного качества сигнала.

Скорость цифрового потока

Одним из первых шагов кодирования речи является трансформация аналогового речевого сигнала в цифровой PCM-сигнал со скоростью 64 Кбит/с. Процесс базируется на теореме Найквиста, в соответствии с которой цифровой сигнал, полученный выборкой из аналогового сигнала с частотой в два раза выше максимальной частоты, с помощью интерполяции преобразовывается в аналоговую форму. Человеческая речь воспроизводится с приемлемым качеством в полосе частот 200 - 3400 Гц, чему соответствует частота выборки 8 кГц, или 8000 отсчетов в секунду, а каждый отсчет преобразуется в 8-битовый цифровой код. Следовательно общая скорость цифрового потока PCM-сигнала равна 8*8000 отсчетов в секунду, что соответствует 64 Кбит/с.

Хотя PCM-сигнал со скоростью 64 Кбит/с и гарантирует качество речи аналогового телефонного сигнала, ограниченная общая ширина канала, особенно в спутниковых и радиочастотных системах, вынуждает снижать скорость битовых потоков, отводимых для каждого речевого сигнала. С этой точки зрения весьма эффективны алгоритмы сжатия речи, дополняющие PCM-кодирование математическими функциями, такими как фильтры, квантизаторы и предсказатели. Они манипулируют PCM-сигналом так, чтобы передавать его более эффективным способом, обеспечивая тем не менее точное воспроизведение сигнала на приемном конце.

Качество сигнала

Поскольку человек как "получатель" информации является ключевым элементом любой телекоммуникационной системы, качество сигнала оценивается по его субъективному восприятию речи. Качество сигнала измеряется часто по пятибалльной шкале MOS (mean opinion score - средняя субъективная оценка). Оценка по шкале MOS определяется путем обработки оценок, даваемых группами слушателей, нескольким речевым сигналам, воспроизводимым различными громкоговорителями. Каждый слушатель выносит оценку каждого сигнала: 1 = плохо, 2 = слабо, 3 = разборчиво, 4 = хорошо, 5 = отлично. Затем результаты усредняются. На рисунке приведены MOS-оценки для различных методов кодирования речи. Хотя качество сигнала по большей части напрямую связано со скоростью битового потока, более сложные алгоритмы способны достичь более высоких отношений качества к скорости битового потока.

Сложность кодирования

Очевидно, что чем изощренней алгоритм кодирования речи, тем сложнее его реализовать. Сложность связана с вычислениями, необходимыми для воспроизведения процессов кодирования и декодирования сигналов в реальном времени в микросхемах аппаратурных блоков. Скорость обработки измеряется в миллионах инструкций в секунду (millions of instructions per second - MIPS). Достижения в технологии DSP и увеличение емкости элементов памяти позволяют выполнять более сложные алгоритмы кодирования речи даже в однокристальных микропроцессорах. Тем не менее сложность обработки влияет на физические размеры кодирующего, декодирующего или комбинированного устройства, а также на его стоимость и потребляемую мощность.

Коммуникационные задержки

С увеличением сложности алгоритма кодирования увеличиваются и временные задержки (включающие время обработки и буферизации) в кодере и декодере. Они не имеют значения в широковещательных аудио- и видеоприложениях, но при соединении по обычному телефонному каналу общая задержка должна быть небольшой, поскольку значительное запаздывание снижает качество восприятия при передаче. Реальные коммуникационные задержки (при кодировании и декодировании) составляют от 125 мкс (в линиях с PCM на 64 Кбит/с) до 2,5 мс (при кодировании по методу CELP) и до 100 мс в некоторых узкополосных системах.

Современные методы сжатия речи

Методы сжатия речи разрабатываются для достижения определенных целей - нужных скоростей битового потока, качества сигнала, задержки и сложности. Чтобы гарантировать взаимную совместимость устройств кодирования и декодирования, организации по стандартам, такие как ITU-T, ISO и ETSI определяют эти цели в соответствии с предназначением каждого метода. В табл. 1 приведены стандарты сжатия речи, применяемые в настоящее время.

Международный стандарт кодирования для передачи речи в телефонном канале PCM был принят МККТТ в 1960 г. под названием G.711. Временной интервал для PCM со скоростью 64 Кбит/с формирует базовый строительный блок для современных общественных телефонных служб и оборудования, такого как мультиплексоры каналов.

Метод адаптивной дифференциальной импульсно-кодовой модуляции (adaptive differential pulse code modulation - ADPCM), принятый в качестве стандарта в 1984 г. под названием G.726, воспроизводит речь почти с такой же субъективной оценкой качества, как и PCM, используя только 32 Кбит/с. ADPCM снижает скорость битового потока вдвое путем обработки разности между двумя соседними отсчетами, а не самих отсчетов.

PCM и ADPCM - методы кодирования волновой функции речевого сигнала. Это означает, что они рассматривают входной речевой сигнал как чисто аналоговый. Однако для получения высокого качества сигнала при скоростях ниже 32 Кбит/с такое кодирование неэффективно. Природа человеческой речи и ее восприятия должна быть учтена в алгоритме кодирования.

При кодировании с линейным предсказанием (linear predictive coding - LPC) моделируются различные параметры человеческой речи, которые передаются вместо отсчетов или их разности, требующих значительно большей пропускной способности канала. LPC работает с блоками отсчетов, а не с отдельными отсчетами, как PCM или ADPCM. Для каждого блока LPC-алгоритм вычисляет и передает частоту основного тона, его амплитуду, флаг речевого или неречевого происхождения сигнала и другие параметры. Следует заметить, что буферы, необходимые для хранения блоков данных, увеличивают задержку кодирования.

Первые реализации LPC, такие как LPC-вокодер, способствовали передаче данных на низких скоростях - 2,4 и 4,8 Кбит/с. На скорости 2,4 Кбит/с обеспечивается приемлемый уровень разборчивости речи, но качество, естественность и распознаваемость недостаточны. И поскольку этот метод сильно зависит от точного воспроизведения человеческой речи, его реализации, такие как LPC-вокодер, не подходят для сигналов не речевого происхождения, попадающих в голосовую полосу частот, например сигналы модема.

Более сложные алгоритмы на базе LPC комбинируют LPC с элементами кодирования звуковой волны. Эти алгоритмы используют замкнутый LPC-кодер (называемый также "анализ через синтез" - analysis-by-synthesis -AbS), который характеризуется исчерпывающей самооптимизирующейся процедурой поиска. Ее выполняет аппаратура передачи, которая находит наилучшую аппроксимацию каждого речевого сегмента. Как только такая аппроксимация определена, представляющий ее код передается на другой конец, где используется для реконструкции оригинального аналогового сигнала.

Примеры стандартных замкнутых LPC-алгоритмов - это метод линейного предсказания с кодовым возбуждением (code-excited linear prediction - CELP), метод регулярного импульсного возбуждения (Regular Pulse Excitation - RPE), используемый в европейских сотовых системах на 13,2 Кбит/с, и метод LD-CELP с низкой задержкой (low delay CELP), принятый ITU в 1992 г. как стандарт кодирования речи G.728 на 16 Кбит/с.

Широкое распространение для различных приложений получило и множество нестандартных методов кодирования в частности варианты адаптивного кодирования с предсказанием (adaptive predictive coding -APC), разработанные в лабораториях компании Bell; метод линейного предсказания с векторным возбуждением (vector-sum-excited linear prediction - APC), предложенный фирмой Motorola в качестве стандарта для цифровых сотовых систем США, работающих на скорости 8 Кбит/с; метод линейного предсказания с предиктивным кодовым возбуждением (predictive code-excited linear prediction - PCELP), созданный DSP Group в 1992 г. и встроенный фирмой RAD Data Communications в модульные мультиплексоры доступа.

Если не учитывать критерии сложности и задержки, то главные достижения в кодерах сигналов таковы: улучшение качества сигнала при определенной скорости и получение заданного качества сигнала при низких скоростях. Для коммерческих приложений, где качество передачи речи, характерное для PCM, служит эталоном, следует особо выделить задачу получения приемлемого звучания на все более низких скоростях. Это особенно важно для кодирующих устройств в беспроводных телекоммуникационных системах, которые используют ограниченные по пропускной способности радиочастотные и спутниковые каналы.

Последние достижения

В марте 1995 г. Международный союз по электросвязи (International Telecommunications Union - ITU) выбрал метод сжатия речи для своих будущих стандартов в области мультимедиа и видеотелефонов, подключаемых к коммутируемым телефонным сетям. Стандарт сжатия G.723 частично базируется на новом методе сжатия речи (Multipulse Maximum Likelihood Quantization - MP-MLQ), разработанным израильской фирмой AudioCodes, создателем передовых речевых и факсимильных технологий, и ее корпоративным партнером - американской фирмой DSP Group.

Метод MP-MLQ относится к семейству алгоритмов AbS. Речевой кодер MP-MLQ использует LPC-анализатор 10-го порядка и работает на скоростях 4,8; 6,4; 7,2 и 8,0 Кбит/с. Его структура поддерживает перепрограммирование "на лету" для одной или нескольких скоростей. Масштабируемость алгоритма MP-MLQ позволяет разрабатывать производные реализации для скоростей вплоть до 4,0 Кбит/с, более низких коммуникационных задержек (до 20 мс), кодирование на нескольких скоростях и с переменной скоростью, многоканальную обработку (благодаря низкой вычислительной нагрузке - менее 10 MIPS) и достигать высокого качества на 8 Кбит/с. Средняя субъективная оценка MOS ясно иллюстрирует преимущество MP-MLQ по соотношению качество сигнала/битовая скорость.

В отличие от других кодеров с низкими битовыми скоростями MP-MLQ обеспечивает минимальный уровень искажений при парном (в тандеме) кодировании, когда речевой сигнал проходит через два или более последовательных цикла компрессии/декомпрессии. Эта особенность имеет практическое значение в приложениях, в которых сеанс речевой связи в цифровом канале коммутируется через центральную АТС. Тесты, проведенные в AT&T Labs (табл. 2) и France Telecom (CNET), показали, что оценка качества сигнала по шкале MOS после двух кодирований в тандеме методом MP-MLQ составила 3,409, что лучше оценки G.726 ADPCM на 32 Кбит/с после четырех кодирований в тандеме (3,102) и почти эквивалентно G.726 после двух кодирований в тандеме (3,491).

Реализация MP-MLQ в системах связи

Фирма RAD DataCommunications - первый производитель оборудования, внедривший MP-MLQ в модуль сжатия речи мультиплексора Kilomux-2000. Модуль низкоскоростной передачи речи KVC.3 представляет собой двухканальную плату, поддерживающую скорости 4,8; 6,4; 7,2; 8,0 и 9,6 Кбит/с. Установив несколько плат KVC.3 в корпус мультиплексора Kilomux-2000, можно обеспечить одновременно до 13 телефонных соединений по одному каналу на 64 Кбит/с, что делает применение KVC.3 экономически выгодным решением для связи между офисами. При использовании совместно со спутниковым сетевым интерфейсом, входящим в номенклатуру мультиплектора Kilomux-2000, кодеры KVC.3 обеспечат высококачественную передачу речи и при этом эффективное использование дорогостоящих спутниковых каналов.


распечатать статью

офисные диваны бу . http://www.zalogplus.ru/ взять срочный займ под залог недвижимости спб.




  
1 '1996
СОДЕРЖАНИЕ

колонка редактора

• Говорит и показывает Интервидение

открытые системы

• Мир TCP/IP. Internet Protocol

• Пятая волна компьютеризации: открытые сети общего пользования

• DCE. Скорее жива, чем мертва?

• Ява - остров восходящего солнца

• Проблемы маршрутизации трафика в Internet

• Удаленный доступ по PPP

• Будущее мультимедиа в Internet

• Интеграция Unix и Windows NT средствами NFS

• Internet: каково же будущее?

корпоративные сети

• Переход к коммутируемым сетям

• Загадка маршрутизатора

• Мост над бурным потоком

• Технология управления распределенными сетями

локальные сети

• Дисковые массивы RAID типа SCSI-to-SCSI

• Ленточные системы с автоматической сменой кассет

• Сетевые адаптеры Ethernet для шины PCI

услуги сетей связи

• Системы низкоорбитальных спутников

• Кодирование речи в цифровой телефонии

• Архитектура и функциональные модули сетей SDH

приложения клиент-сервер

• Однопользовательские СУРБД

• SQL Server 6.0: взаимодействие клиента с сервером

• Комплексная автоматизация производства на основе систем SCADA

защита данных

• А в вашей сети живут драконы?

• Испытание антивирусных программ для NetWare

новые продукты

• RAID без компромиссов, Эмулятор SunPC для DOS и Windows, Коммутатор LinkSwitch 1000 фирмы 3Com, Маршрутизаторы 7500 фирмы Cisco, MultiNet for Windows фирмы TGV



 Copyright © 1997-2007 ООО "Сети и Системы Связи". Тел. (495) 234-53-21. Факс (495) 974-7110. вверх