Ж у р н а л о к о м п ь ю т е р н ы х с е т я х и т е л е к о м м у н и к а ц и о н н ы х т е х н о л о г и я х |
![]() |
![]() |
ПОИСК: | ПОДПИСКА НА НОВОСТИ: | НОМЕР: | |||||||
ДОМОЙ • Архив: Новостей | Конференций | Номеров • Подписка |
Об оценке качества речевой связи Дэвид Уиллис
Не списывайте медленный прогресс в этой области на недостаток усилий, ибо количественная оценка качества передачи речи — это очень трудная и многогранная задача. По сравнению с ней тестирование производительности сети передачи данных — сущий пустяк. Там все можно оценить, измерив времена отклика, скорости передачи файлов и пропускную способность. Как правило, если одна система работает в два раза быстрее другой, мы считаем ее лучше. С передачей речи все куда сложнее. Учет субъективных оценок Традиционно качество передачи речи определяется на основании субъективных оценок группы людей, работающих в стерильных условиях тестовой среды. Этот подход наиболее часто использовался и журналом Network Computing для тестирования различных продуктов и услуг. Он занимает много времени и требует наличия большого числа участников, поскольку разные люди могут совершенно по-разному оценивать качество, обеспечиваемое одной и той же системой. Например, женщины склонны воспринимать услышанное иначе, чем мужчины (не говоря уж о различной его интерпретации). Восприятие меняется в зависимости от возраста слушателя и особенностей его родного языка. Более того, от теста к тесту мнения одних и тех же людей могут изменяться, многое зависит от ожиданий: хорошие оценки сотовой связи чаще всего объясняются ожиданием невысокого качества. В середине 90-х годов Сектор по стандартизации телекоммуникаций Международного союза электросвязи (МСЭ-T) завершил разработку рекомендации P.800, “Методы субъективной оценки качества речевой связи”, которая на сегодня является наиболее признанной методологией оценки работы систем передачи речи. В ней описываются условия проведения тестовых испытаний, содержание аудиообразцов, система оценок и методики анализа полученных данных. Чаще всего метод P.800 используют для расчета средней субъективной оценки (Mean Opinion Score — MOS) качества речи по пятибалльной шкале. Поскольку тесты рекомендации P.800 могут приводить к получению неоднозначных результатов, среди ученых и инженеров нет согласия относительно их применения. Даже сами авторы этой рекомендации предупреждают о некорректности сравнения оценок MOS, полученных в разных условиях. К тому же лексика, рекомендуемая в P.800, дает повод для субъективной интерпретации. Англоговорящие исследователи просят участников оценить качество телефонной связи в терминах: “отлично”, “хорошо”, “удовлетворительно”, “неудовлетворительно” и “плохо”. Проблема состоит в том, что разница между “неудовлетворительным” (“poor”) и “плохим” (“bad”) качеством, как правило, намного меньше, чем между “удовлетворительным” (“fair”) и “неудовлетворительным”, поэтому данную шкалу оценок нельзя считать равномерной. С изменением лексики изменятся и результаты. Они могут зависеть от национальности участников тестов. Исследования показали, что если итальянцы, оценивая звонок положительно, ставят оценку “хорошо”, то американцы — “удовлетворительно”. Но главная проблема использования подхода P.800 заключается в том, что он далек от практической жизни: фирмы-производители стремятся тестировать свои системы в идеальных контролируемых условиях, но реальный мир далеко не идеален. Все мы видели на выставках чудеса передачи речи по сетям данных, которые демонстрируются с таким пафосом, как будто это по меньшей мере термоядерный синтез. Когда же эти системы “вступают в борьбу” с реальной сетью, все правила меняются и качество может оказаться совершенно иным. Я столкнулся с несколькими менеджерами, которые не могли уговорить клиентов купить их систему передачи речи через сеть Frame Relay, хотя пилотный проект в контролируемых условиях работал достаточно хорошо. По своей природе сети передачи данных не способны гарантировать постоянное качество обслуживания трафика. В какой-то момент сеть может надежно передавать поток реального времени, а в следующий — нет, особенно если не предприняты попытки распределить трафик по классам и управлять им соответственно. Понимая это, производители оборудования заявляют, что их системы управления буферами и приоритизации пакетов исключают эти колебания. Например, фирма 3Com объявила, что ее виртуальная офисная АТС NBX в условиях падения производительности сети способна работать лучше, чем системы конкурентов даже при использовании одних и тех же кодеков. Однако доказать это с помощью методики P.800 практически невозможно. Тренировка искусственного уха Ясно, что решение проблемы заключается в автоматизации процесса тестирования. Но даже наиболее продвинутые испытательные установки не способны оценивать качество речи так, как это делает человек. Обычный прибор может выдать информацию о том, был ли переданный тон получен должным образом, какой была задержка и возникли ли битовые ошибки. Но если полученный тон отличается от переданного на 10 Гц, будет ли это раздражать пользователя? Сказать трудно. С целью предложить методику оценки MOS на основе низкоуровневых количественных измерений, которые могут быть автоматизированы, МСЭ-Т разработал рекомендацию P.861. Сектор поддержал метод, известный под названием PSQM (Perceptual Speech Quality Measurement) и разработанный компанией KPN Research. При определенных условиях оценки PSQM неплохо коррелируют с оценками MOS. И все-таки PSQM не является полным решением задачи оценки качества речевой связи в пакетных сетях. По признанию самих разработчиков, в подходе P.861 не учтены некоторые важные факторы, которые могут иметь критически важное влияние на восприятие речи. К ним относятся потеря ячеек и пакетов, влияние битовых ошибок и клиппирование речи (отсечка начальных и конечных звуков) плохо работающими механизмами обнаружения речевой активности. Эти проблемы обычно возникают при передаче речи через сети Frame Relay, ATM и IP. Поэтому заявление фирмы-производителя о том, что при испытаниях ее оборудования оценки PSQM оказались выше, чем при тестировании продукции конкурентов, на самом деле мало что говорит. Я не хочу сказать, что оценки PSQM абсолютно бесполезны. Они, конечно, покажут вам, является ли качество передачи речи приемлемым или оно просто ужасно. Но, основываясь на этих оценках, нельзя сравнивать одну систему с другой, впрочем, МСЭ-Т и не намеревается продвигать подобный способ сравнения. Основная польза оценок PSQM заключается в их применении для проведения настройки системы с целью достижения оптимального качества передачи. Во главе списка Венцом разработки систем тестирования качества передачи речи через пакетные сети является система Hammer VON/VoIP Test System фирмы Hammer Technologies. Этот пакет запускается поверх платформы Hammer IT и содержит наиболее полный набор тестов для оценки качества речевой связи по сравнению с другими доступными на сегодняшний день продуктами. Он может генерировать большой объем телефонных вызовов, взаимодействовать с системами речевого ответа, проверять прохождение тонов DTMF и выдавать оценки PSQM. Если вам требуется оценить качество речевой связи, то при всех ограничениях PSQM лучший продукт найти трудно. Немецкая фирма OPTICOM предлагает программный пакет PA&SQM (под ОС MS-DOS), который поддерживает методики PSQM и PSQM+. В последней, по утверждению представителей OPTICOM, сняты некоторые ограничения, присущие PSQM. Фирма Sage Instruments скоро выпустит дополнительное средство PSQM Voice Quality Assessment для тестеров 930A и 950. Оно позволит в считанные секунды получать оценки PSQM, используя генератор искусственной речи. Предполагается, что Sage реализует поддержку этого теста и в карманном устройстве для простой оценки типа “прошел/не прошел” в полевых условиях. Такие тестеры очень пригодятся инсталляторам систем передачи речи через пакетные сети. Понимая все ограничения рекомендаций МСЭ-Т, компания Ameritec предложила совершенно другой подход, реализовав его в наборе тестовых приложений Voice Over Packet, работающих на ее популярных генераторах телефонных вызовов. Наряду с обычным измерением телефонной нагрузки это ПО фиксирует выпадение сигнала (dropouts), круговую задержку и ошибки сигнализации. Подход компании Ameritec не такой обстоятельный, как тот, что реализован в тестерах PSQM, но он обеспечивает получение воспроизводимых количественных результатов, которые могут служить для сравнения разных систем. Главное — то, что внутри При всех недостатках автоматизированных способов оценки качества речевой связи, таких, как PSQM, потребность в них, безусловно, есть, но они должны быть реализованы не на внешних тестовых системах. Нам нужны средства оценки качества в реальном масштабе времени, встроенные в системы передачи речи следующего поколения. Представьте себе что-то наподобие стандарта RMON для речевых служб: внутренние зонды генерируют оценки типа PSQM для наиболее важных сетевых участков и выдают предупреждения, если качество становится ниже установленного порога. При поступлении предупреждения может автоматически запускаться механизм переключения трафика с пакетной сети на инфраструктуру с коммутацией каналов. По-видимому, должно пройти еще какое-то время, прежде чем появятся встроенные средства оценки качества передачи речи. Расчеты оценок PSQM требуют значительных вычислительных мощностей, поэтому для создания небольших встраиваемых зондов необходимы мощные процессоры цифровой обработки сигналов и специализированные микросхемы ASIC. В разработке таких средств заинтересованы многие. Например, производители оборудования пакетной передачи речи, которым не хочется, чтобы в низком качестве речи постоянно обвиняли их продукты, тогда как проблемы могут заключаться совсем в другом, к примеру в неудачной структуре сети. Или, скажем, поставщики услуг, чья работа напрямую зависит от того, насколько клиенты довольны качеством связи.
| ![]() |
![]() |
Copyright © 1997-2007 ООО "Сети и Системы Связи". Тел. (495) 234-53-21. Факс (495) 974-7110. | ![]() |