Машины, которые говорят и слушают
nOCIPOFHHE СИСТЕМ
ДИСКРЕТНОГО РАСПОЗНАВАНИЯ РЕЧИ, РАБОТАЮЩИХ БЕЗ ПОДСТРОЙКИ ПОД ДИКТОРА
§ 2.1. Общие проблемы
автоматической подстройки неадаптивных систем распознавания речи
Ьеадаптивные системы дискретного распознавания речи, рассматриваемые
в настоящей главе, позволяют произвольному диктору-ногитедю нормы произношения
данного языка производить автоматический речевой ввод изолированными словами
или короткими спиво-сочетанияуи. Такие системы являются, как правило,
аппаратурно-ц рог равным и и основываются на выделении некоторых устойчивых
фонетических признаков, проявляццихся у множества дикторов-носителей нормы
данного языка для различных классов звуков,и на дальнейшем использовании этих
признаков (представленных гистограммами их распределения) для декодирования
высказывания. Однако фактически и в этих системах осуществляется некая
подстройка под множество дикторов (обучение) во время сбора статистики,
построения гистограмм параметров для различных звуков и при выборе решающих
правил. Поэтому, строго говоря, такие системы не следовало бы называть
неадаптивными, т.е. термином, достаточно широко распространенным в настоящее
время. Кроме того,автоматическое разбиение всего множества
дикторов-пользователей на группы (кластеры) и формирование обобщенных эталонов
слов дяя каждой группы само по себе есть обучение на диктора, адаптация
универсальной системы к этому множеству пользователей,что также заставляет
быть осторожным в применении Термина-"неада^тивные", Если же говорить
об использовании этого термина в смысле отсутствия адаптации к новому словарю
и языку системы, го, действительно, все известные невдаптивные системы [10,
16,25, 166, 167] практически не обеспечивав автоматическое изменение этих основных
характеристик. Попытка универсальной сегментации слов, яв-хякхцейся основой
подстройки иод словарь, рассмотрена в [133 • Задача настоящей главы -
исследовать более широкие аспекты проблемы перестройки к новым условиям не
адаптивных систем, ориентированных на работу с произвольным диктором. Под
адаптацией будем здесь понимать расширение, развитие неадаптивной системы автоматического
распознавания фраз, составленных мэ изолирований
74
йдов, эа счет некоторого изменения языка этой системы и его
словарного состава. Как правило, в конкретных задачах речевого управления
возникают Проблемы, связанные с обогащением языка, добавлением новых слов и
понятий. В отдельных случаях требуется медиком заменить словарный состав
языка, приспособить системы к совершенно новой задаче. При этом желательно
сохранить основные структурные (синтаксические) свойства языка, связи между
лингвистическими уровнями, соотношения между понятиями внутри уровня, т.е.
придать свойствам языка универсальный характер, формализовать язык речевого запроса
таким образом, чтобы он напоминал язык опи-оанйя баз данных - сетевой,
иерархической или реляционной.
Основными лингвистическими вопросами, возникгшцими при
этом, явжявтся:
1) как оценить сложность языка речевого общения и попытаться, используя
синонимию, свести трудности распознавания сдов, вызванные фонетическими
неопределенностями, до минимума;
2) каким образом ограничить гибкость проблемно-ориентнрова!:-иого языка,
не слыпком сдерживая желания и возможности человека общаться с информационной системой
естественными фразами; какие задачи позволяют нам практически использовать
относительно простой синтаксис языка;
3) как автоматически расширять словарный запас языка;
4) как при этом корректировать язык,
на базе которого создана неадаптивная система автоматического распознавания.
(Вопросы о расширении круга пользователей, включая пользователей,
говорящих с акцентом иди дефектом речи, а также проблемы поиска новых
информативных признаков, использования телефонного канала опускаем, относя их
к техническим вопросам,которые • работе не рассматривается.)
Некоторые из перечисленных лингвистических проблем возникают
и для адаптивных систем, работающих с подстройкой под дик-Юра и словарь. 3
известных работах по аравтическому использованию адаптивных систем [134,140]
нет сведений об адаптации систем к новому изменяемому языку речевого общения
(если не считать замену словаря в системах типа vir-юо подстройкой
под язык).
йервой мз проблем посвящен § 2.2, где выбор словаря
обус-яовлен точностью распознавания слоя и связанной с ней вероятностной
оценкой неопределенности распознавания При заданной совокупности фонетические
признаков. Оценка граю-атнческой сложности яэыка, используемого в
неадаптивных системах распознавания ре-11^^ (языка, древовидной
структуры без сложных внутренних связей)
76
(си. § 2.3), позволяет подойти к решению вышеуказанной проблемы 2). Задаче
автоматического расширения словарного состава посвящена четвертая глава, тесно
связанная с пятой главой, где описаны эксперименты по построению системы
распознавания понятийных фраз конкретного языка описания данных
информационной системы, для которого строилась модель. Кратко о проблеме 3
говорится в п. 2.3.3 , в котором рассматривается автоматическая подстройка
"под язык", изменяющийся с изменением словарного состава.
Рассматривающиеся далее вопросы,на наш взгляд,имеют весьма важное
значение как идеологическая основа будущих систем автоматического речевого
запроса информации, ориент грованных на произвольного пользователя. Если
первые практические неадаптивные системы распознавания речи (СРР) могут и
отличаться от аппаратурно-программных, аналогичных нашей (скажем, основываться
на мультимик-ропроцессорных системах, в которые речевой сигнал поступает с
АЦП), то общие лингвистические проблемы, указанные здесь, неизменно будут
возникать при любой структуре системы и любом подходе к первичному
описанию сигнала. Не следует забывать, что неадаптивные системы
автоматического распознавания являются основными системами будущего - при
общении-, с роботами и информационными системами общего назначения. Вопросы,
рассматриваемые далее, будут относиться к неадаптивным системам,
ориентированным на пословный ввод речевой информации, а также на ввод
информации короткими словосочетаниями, которые можно рассматривать как одно
слово. Это связано с тем, что лишь на изолированных словах и коротких
словосочетаниях параметры звуков (выцеляемые алпаратурно) являются относительно
устойчивыми (обладают малой дисперсией), и можно говорить о возможном
использовании характеристик, определяемых гистограммами параметров, для
автоматического распознавания .
При распознавании изолированных слов представляется
целесообразным разработать алгоритм, который обеспечивал бы устойчивое сегментирование
поступающих на вход реализации слов на участки, соответствующие различи™
способам образования звуков, т.е. на тональные отрезки речи, шумные и
участки, соответствующие гиухии смычковым (коротким паузам внутри слова).
Звонкие фрикативные звуки можно было бы отнести к шумным. Существуют
различные методы такой классификации в зависимости от первичного описания
речевых сигналов. Для аппаратурно-программного метода достаточно высокую
точность классификации отрезков речи на участки "тон - иум ' Пауза"
для произвольного диктора дают бинарные признаки способа образования звуков,
выделяемые аппаратурно [97] .
76
Динамика участков "тон
- шум - пауза" является хорошим признаком распознавания слов для небольших
специально подобранных „доварей. Не представляет труда перейти к
небольшому новому словарю, используя лишь признаки классификации отрезков
речи на вти трч класса и динамику типов участков в слове. Вакно
правильно выбрать фонетическую структуру слов этого словаря. В зависгзло-стИ от
возможностей надежной классификации отрезков речи на этапе анализа сигнадоч
(первичная сегментация и маркировка) mosko использовать большее число классов
сегментов (классов фонетической структуры слова), динамика которых позволит
надекно классифицировать большее число слов словаря. (В наших работах на
начальной уровне анализа речи использовалось как семь типов сегментов (ей. Я, 2.2.2),
так и три типа - тональный-шумный-сауза (см. § 5.5).)
В связи с этим Ж.Дрейфу
о-Граф для распознавания словарного состава разработал специализированный язык
речевого общения sotina ,
состоящий из бессмысленных слов, которым условно придается некое смысловое
значение, и включал лишь "контрастные" в Пространстве используемых
признаков звуки, поэтому легко различаемые автоматически [127] . Словарный
состав языка sotina включал бессмысленные слова, на базе
которых предлагалось создать искусственный язык для речевого общения
человека и 5ВУ.
§ 2.2. Оценка
сложности распознавания словаря речевого общения
2.2.1.Связь точности распознавания с особенностями фонетики слов.Сравнивать
качество распознавания существующих СРР и СПР только по точности распознавания
или объему словаря недостаточно по нескольким причинам. Во-первых,разные
задачи, естественно, требуют различных языков общения,словарный состав
которых включает слова, имеющие различные акустические (фонетические)
характеристики.Источники информации о таких высших уровнях знаний языка, как
синтаксис, семантика, прагматика, накладывают различные ограничения на
возможные альтернативы, поэтому задача распознавания упрощается для различных
языков по-разному; даже для словаря с высокой степенью фонетической
неопределенности можно получить (за счет семантико-синтаксических
ограничений) высокую точность иитер-Чрета11ии высказывания. Во-вторых, СРР
используют разнообразные методы первичной обработки и представления речевых
сигналов на ниж-них уровнях. С этим связана различная
точность фонетической классификации , являющейся основой распознавания.
Рассмотрим, как раз-
77
лишаются
речевые сигналы на разных уровнях знания и как они используются при
распознавании слов. Известно, что наибольшие оаибхи дают слова и фразы с
близкой фонетической структурой, входящие в общий словарь распознавания.
При этих условиях задача распознавания как изолированных слов, так и
слитной речи усложняется, но синтаксис и другие высшие источники знаний о
языке накладывают ограничения, которые сокращают неопределенности, тем самкл
повкаая точность распознавания слов.
При
выборе словаря СРР важно, как уже отмечалось, знать не только размер
словаря, но и степень различимости слов. Для частных применений и малых
словарей необходимо предварительно провести отбор и разумную замену слов,
если позволяет задача, с целью увеличения различимости слов словаря. Поэтому
целесообразно исследовать неопределенности, ограничения и сложности, встречаемые
при использовании различных языков практических СРР.
Дзя того, чтобы показать
влияние фонетической структуры слов словаря на сложность распознавания,
рассмотрим, в качестве примера. три словаря: I) "А", "Б",
"В"; 2) "ОДИН", "ДВА","ТРИ"; 3) "А",
"П", "Г".
Сравнивая словари I и 2, нетрудно заметить, какой словарь легче распознавать.
В данном случае интуитивно можно утверждать, что словарь 2)легче распознавать
из-за более сложной фонетической структуры слов, так как можно привлечь
больше дополнительной информации о последовательности звуков, составляющих
слова.Сравнивая словари I) и 3)по сложности распознавания, трудно дать однозначный
ответ, какой словарь легче распознавать объективными ме-тздами. Точность
автоматической классификации слов словарями "А", "Б",
"В" и "А", "П", "Г" сильно
зависит от объективно регистрируемой степени акустического сходства элементов
калиюто словаря, относящихся к различным классам, т.е. от методов первичной
обработки и представления речевых сигналов, соответствующих этим словам, от
порогов срабатывания устройств, преобразующих аналоговый сигнал в цифровой,
и правил принятия решения.
Существующие
системы распознавания изолированных слов показывают, что количество слов
словаря (при одинаковой точности распознавания) не может быть, вообще
говоря, мерой качества системы распознавания. В [139] исследуются два
словаря: алфавитно-цифровой, содержащий 26 букв и 10 цифр, и словарь
географических названий, состоящий из 250 слов. В результате была
получена точность распознавания первого словаря 88,6% и второго 97,356. Хотя
объем второго словаря почти на порядок больше, точность распознавания слов,
входящих в этот словарь, выше. Можно предполо
жить, что
это объясняется более сложной фонетической структурой слов второго
словаря, которая и обеспечивает меньшие трудности при автоматическом
распознавании.
В системах, работающих без подстройки под диктора, наиболее
груднокдассифицируемыми звуками русской речи являются, как показано в С4,
26, 62, 97] , носовые и боковые сонорные согласниэ, звонкие взрывные и
безударные гласные. Кроме того, следует отметить, что в опоеделенном
фонетическим окружении даже звуки, относительно хорошо классифицируемые, в
другом фонетическом контексте могут вызвать определенные трудности при
автоматическом распознавании из-за аллофонных изменений, связанных с
коар-уикуляцией. Все это следует учитывать при оценке сложности распознавания
словаря в "неадаптивных" системах автоматического распознавания
речи. Отметим, что на точность распознавания речи влияют также
синтаксические ограничения, так как синтаксис языка определяет
грамматические изменения словоформ и порядок следования слов.
Далее рассмотрим некоторые
подходы, позволяющие, по нашему мнению, осуществлять относительное
сравнение сложности распознавания словарей, и введем определения, связанные с
оценкой качества автоматического распознавания слов проблемно-ориентированного
языка.
2.2.2. Информационный критерий оценки фонетической неопределенности. При распознавании устной речи необходимо стремиться к тому, чтобы
все фонемы классифицировались правильно, поэтому нас интересует распознавание
полной последовательности фонетических единиц, составляющих высказывание.
При этом основным источником неопределенности при распознавании речи
является сам акустический сигнал. Еще большую неопределенность представляет
параметрическое описание речевой волны. Рассмотрим неопределенности акустического
сигнала и приведем меру оценки фонетической неопределенности. Используя эти мерь,
можно оценить лексическую и фразеологическую неопределенности. Слитная речь
расчленяется на последовательность сегментов по признакам способа
образования звуков. К этим признакам добавляются признаки места
образования,которые изменяются непрерывно как внутри сегментов, так и через
их Границы С 91,97]. С некоторыми дискретными единицами-звуками речи -
фонемами или квааифонемами сегменты связаны таким образом,что смысловые единицы
речи (слова) представляются цепочкой фонем.
Большинство систем
автоматического распознавания речи [79] преобразует речевой сигнал в такую
фонемную цепочку, которая затем сравнивается с ожидаемыми в слове звуками.
Процесс преоб-
79
разования речевого сигнала в последовательность фонем
включает нахождение признаков, сегментацию и маркировку сегментов.
Опишем модель фонетической неопределенности, позволяющую
оценивать результаты неправильного распознавания фонем. Далее будем
использовать матрицу ошибок распознавания фонем и фонетическую структуру слов
словаря при оценке лексической неопределенности.
Лексическая неопределенность будет иметь место тогда,
когда слова неверно классифицируются из-за близости их фонетической
структуры, т.е. последовательности параметров, определяющих эту структуру,
на конкурирующих словах. Например, в словах "слезать" и
"срезать" первичные параметры звуков, входящих в эти слова,
сходны. Когда оба эти слова входят в один и тот же словарь,их точная
классификация затруднена, поэтому их можно считать лексически неопределенными.
В реальных системах, если позволяет задача, следует подбирать слова,чтобы
такой ситуации не возникло.Приведем критерии сложности словаря для того,
чтобы можно было оценить степень различимости словарей [63].
рассмотрим распознавание речи как процесс передачи речевой
информации через канал с шумом и оценим информацию, теряющуюся в канале.
Потерянная информация является мерой неопределенности или сложности
распознавания фонем. В идеальном канале числи входных идеальных, полученных после
сегментации высказывания экспертами-фонетистами, и выходных фонетических
единиц должно быть одинаковым, а последовательность фонем на выходе
должна соответствовать входной последовательности. Если же это условие не
соблюдается, в канале теряется информация, и в зависимости от вели-vwi потерь можно говорить о большей или меньшей неопределенности
классификации фонем. При практической оценке фонетической неопределенности в
данной работе использовались система признаков [73] и алгоритм
сегментации речи на семь типов сегментов:
V - гласный, Т - переходный,
М - сонорный, L - низкочастотный, Н - высокочастотный, /? - шумный, П -
пауза. Затем алгоритм маркировки ставил в соответствие каждому сегменту некоторый
фонетический символ, используя априорно полученные гистограммы параметров.
От надежности маркировки сегментов во многом зависит точность работы
GPP.
Так как СРР рассматривается здесь как канал передачи
информации, предположим, что имеются г возможных входных символов
алфавита А и s возможных выходов алфавита В
. Таким образом, СРР описывается канальной матрицей. На рис. 2.1 приводится
схема канала передачи информации и канальной матрицы.
60
|
|
|
|
а, "г
|
'и Рг,
|
Р„ • • Р„ ••
|
• • • P,s • • • Р„
|
*
|
|
|
|
•
|
|
|
|
'.
|
|
|
"г
|
^
|
Рг, • •
|
• • Prs
|
рис. 2.1. Блок-схема канала передачи иниормации и канальной матрицы
Канал передачи информации,
используемой для описания системы распознавания речи, представленной
цепочкой фонем, преобразует незашумденную последовательность звуков в выходную
последовательность "машинных " фонем, содержащую ошибки пропуска,
вставки слияния и замены звуков.
Символами Ar'l{a•|.}
и ^s={Ц'} обозначены соответственно входной и
выходной алфавиты фонем. Дхя простоты предполагается, что канал представляет
собой независимый дискретный канал без памяти. Если р {Ь. /а^)
- вероятность символа Ь- на выходе канала при подаче символа а^ ,
то этот канал передачи информации можно описать матрицей условных
вероятностей Р = = [^(6//o,)J . Очевидно,
£ p( &/•/<?,)= 7 ; i=f~r.
На рис. 2.2 приводится пример матрицы условных вероятностей
при распознавании изолированных звуков.
Пусть элемента входного
фонетического алфавита {аЛ появляются на входе с некоторой априорной вероятностью
р(а ),р(а ),-.. ••.,/?(а^), а элементы алфавита [Ь.\ на виходв -
с вероятностью P(ti,), p(by),..., р(.Ьу) • Как отмечено ранее, работу канала передачи входного
ад^евита {а^} кластеризует канальная ма'грипа,поэт<аду
Символ
|
а
|
о
|
и
|
0,69 0.10 0.01
Апостериорная
вероятность того, '•то, если в результате распознавания Получили фонеыу Ь,
, то на вход поступила фонема а^ , определяется по Формуле
Байеса
Зак.480
у
|
0,15 0,75 0,10
0,01
0,10 0,89
Рис. 2.2. Ilptttcap
мктрицы условных вероятностей распознавания изолированных звуков
|
(2.2)
Ииормацня
7(а^; Ь ), получаемая от канала, когда на его вход потупила фонема а.^ ,
а на выходе распозналась как 6, , опредедется [91]
. , p^Jbj)
l^i\b^lo<j ^ . (2.3)
С]»дняя
информация, получаемая на выходи канаха с потерями при жредаче (распознавании)
входного алфавита фонем A:={a•^, которШ распознается как
алфавит в = { ^ } , будет
UA,B)=^p(a„^)Ha^^)=
^^,6,)^^/^-а,в' L J у? р(а,)
=-ip(a„b-)lo^p(ai)^p(a^b,)io^p(a,/^)^
^,0
/1,0
=-ip(a,)log,p(a^lp(a,^toy^p(a,/ 6,);
л, в
I
(А ,В) = Н W^P^, ^}to^f){a, /Ь,). (2.4)
л, в
С»метим, чтоН(Л)- энтропия, характеризующая степень
неоп-редвдедости входного алфавита А-=-{а^] . Из (2.4) подучаем,что
H(A)-I(A,S)=-^p(a,,b..)iw,p(ai/b^=
Л, о
=-рР(^/Ь/)р(Ь,)1о^р(а,/6,)-
Д,В
=-^р(^-)^/?1'а,/^-)^/)(^./^.)=
Н(А/В); (2.5)
Н(А^)- апостериорная
ентропия входного алфавита фонем, которая 82
характеризует меру информации, теряемой в системе
распознавания дрй передаче входного алфавита { я^} . Апостериорная внтропия и
является мерой, оценивающей сложность входного словаря для автоматического
распознавания при фиксированном параметрическом описании.
При наличии значений энтропии
входного алфавита фонем можно вычислить размер (объем), равный У'"',
а значения 2 vw
характеризуют среднее количество возможных альтернативных (конкурентных)
элементов алфавита {о I на входе СРР после того, как на выходе получили
множество { 6 } , т.е. меру сложности распознавания входного алфавита
фонем. Назовем эту меру эквивалентным размером алфавита фонем. Значение у"^0'
можно назвать энтропийным критерием оценки фонетической неопределенности,
который является обобщенной характеристикой сложности распознавания алфавита
фонем < а^ \ данной системы распознавания. Если СРР работает без
ошибок, условная энтропия Н(А/В)вО и эквивалентный размер алфавита фонем
2"("/°' = i. Естественно, что если Н(А/В)»0, то Z"^^!, а в случае, когда СРР не распознает Н(А/В)=Н(А), то эквивалентный
размер алфавита фонем равен Z"^
Эквивалентный размер алфавита
фонем дает возможность количественно оценить среднее число возможных
конкурентных фонем (имеющие близкие параметрические описания), и для его
определения необходимо знать апостериорные вероятности p(a^/b-) входного алфавита.
Для решения конкретных проблем
автоматического распознавания ограниченных наборов слов взе многообразие
фонем можно свести к двум-трем рабочим фонетическим единицам (например,к
классам длительных шумных, звонких и смычных звуков), которые При
использовании простой системы признаков к несложных алгоритмов распознавания
дают нулевую апостериорную энтропию. Однако ври решении задачи распознавания
относительно сложных словарей и/иди требование надежной фонетической
верификаций произнесенного слова такого количества рабочих фонем сказывается
явно недостаточно. Работать Же с полным набором фоней "ложно из-за ошибок
их автоматического распознавания. Поэтому к приходится идти на компромиссные
решения - искать какой-то оптимуи при фонетическом описании рабочих словоформ.
Эти проблемы будут частично рас-емотрены в а. 2.2.3.
Условные вероятности
распознавания фонем ^(6,/д.), определяющие эквивалентный размер фонетического
алфавита, можно опре-• Делить несколькими методами.
83
Статистический мегод позволяет получать
вероятности распознавания фонем, используя реальную СРР. ото осуществляется
путем сравнения результата распознавания системы с точной ручной сег~ ментацией
и маркировкой речевого сигнала (иди его параме-гричес-кого представления),
поступающего на вход системы распознавания. В результате получается
классическая матрица правильной и оаибочной классификации входного алфавита
фонем.
Акустико-параметрический метод, когда матрица
ошибок классификации фонем получается путем прямого сравнения их параметрического
описания. При этом эталон фонемы выбирается из множества реализации данной
фонемы. Расстояние между фонемами используется для оценки условных
вероятностей ошибочной классификации фонем. Точность этого метода зависит от
выбранного эталона и объема исследовательского материала.
Кроме
этих методов, оценку вероятности ошибочной классификации фонем можно
произвести на основе моделирования речеобразующе-го тракта человека
[73.
^.2.3. Оценка сложности распознавания слов по их фонетичес-кой
структуре. Рассмотрим неадаптивную систему распознавания слов как канал
передачи информации. Слова входного словаря V= ^Я.,У„,... ...,
V.,..., v„} можно представить
последовательностью фонетичес-
'• f Г Г /* 1
~ "
/•> ' * о JiHftBa п^гуппылрп ^ЛП—
\ а^ ,
af , . . . , af \ ,
а слова выходного сло-11 г "- 1
'I 2 " ^ "1 ^,,^,.. . W -.^}
|
_^.. „_.....
квазифонетических эталонов iff,
-- i bj , bj , . . . ,
bj } , где
Q^ e А , Ъ, f- В - соответственно
входной и выходной алфавиты фонем канала; г= /, R ; s= /, 5 ; л= п(г) ;
1= l(s). Тогда оценку сложности
распознавания слов, производимого сравнением входной реализации с цепочками
квааифонетических эталонов, можно осуществить на основании анализа матрицы ошибок,
подученной при представлении эталонов слов Wy ё. W поверхностными формами й^
f Wg , k^ f,Ky каждого выходного слова. Фактически
сложность распознавания входного словаря V определяется наличием
сходных эталонных поверхностных форы U^ выходного словаря W
и частотой встречаемости зтих поверхностных форм р (w<n). Основная проблема При построении матрицы ошибок
для каждого словаря заключается в формировании эталонов поверхностных
форм г^ е w, для реализация каждого слова и получения
квазй-фонвтического графа /Т г^), учитывающего все поверхностные формы в
вероятностями их появления. Все множество квазифоиетических поверхностных
форм слова w, записать в
виде эталонного графа трудно, так как ори аппаратурно-програмыном методе
распознавания появляются не только поверхностные формы слова, обусловленные
В4
особенностями произношения, но и формы, включающие
случайные сегменты, маркированные квазифонетическими метками, появление которых
связано с неидеальностью автоматической фонетической сегментации и
маркировки нашим алпаратурно-програмыным методом, вызванной, например,
изменением интенсивности речевого сигнала.
В
дальнейшем будем рассматривать влияние двух обстоятельств на
формирование эталонных поверхностных форм слов рабочего словаря, учитывая,
что поверхностные формы, связанные о особенностями произношения и матрицей
ошибок квазифонемной классификации, можно построить вручную (или
автоматически,исполь-ауя таблицу акустико-фонодогических правил, хранящуюся в
памяти, и прилагаемых к базовой квазифонетической цепочке), а поверхностные
формы w . , обусловленные особенностями аппаратуры выделения
информативных признаков, можно получить, анализируя статистику реализации
квазифояетических цепочек слов рабочего словаря, полученных с помощью ЭВМ.
Получение этой статистики не всегда обязательно, особенно если
рассматриваются слова,контраст-ные по своим акустическим свойствам.
Предварительную оценку сложности распознавания слов можно сделать
аналогично оценке сложности фонетического алфавита - по фонетической
структуре слов, вычисляя апостериорную словесную неопределенность и не
исследуя статистики реализации.
Все
эталоны слов и^у б W рабочих словарей должны быть представлены
последовательностью маркированных фонетическими метками отрезков, где
квазифонемы должны делиться на опорные, обязательные для данного слова
(определяющие базовую форму и, как Правило, присутствующие во всех
поверхностях), и "вспомогательные", трудноклассифицируемые.
Трудноклаосифицируемые сегменты должны быть расчленены (хотя бы грубо) на
несколько квазифонетических элементов, если длина этих сегментов выше
пороговой (это делает на первом этапе человек на основании знаний фонетической
структуры возможных форм каждого слова). Опорными сегментами слова следует
считать маркированные отрезки которые при их маркировке квазифонетичаскими
метками допускают суммарную ошибку ниже ввристически определенного порога.
При
автоматическом распознавании выбор эталонов (из словаря эталонов) должен быть
в первую очередь обусловлен наличием в Поступившей на вход реализации
опорных, обязательных маркированных сегментов о. с учетом того, что за
счет иеидеадьности сегментации общее число сегментов входной реализации
может не совпадать с возможным числом сегментов эталонного графа,за счет
Неопорных сегментов, образующихся или выпадающих случайно.
У5
Следует отметить, что принятые решения о принадлежности
поступившей на вход реализации к тому или иному классу следует
делать но эталонам с одинаковым числом опорных сегментов и с учетом
верификации сяова, всякий раз используя эвристически выбранные пороги
достоверности, в общем случае разные для различных слов. Так, для принятия
окончательного решения о принадлежности входной реализации Уд. к классу Wy необходимо выбрать
и w, , который ооответ-
два наиболее вероятных кандидата
— —— - . ^ ствуют вероятности p(v,/u7y] и ^(i^/г^ ), и проверить,удовлетворяются ли
условия:
WM,)>^,;
Р^/^-Р^/^,)^^
где А^ - пороговое значение вероятности того,
что входная реализация соответствует олову у/, ; Ay, - пороговые значения разности условных
вероятностей принадлежности входной реализации
г1д.
классам и vf.
, при которых принимается решение о клас-
сификации у^ .
Пороговые значения /Зд,/!,, выбираются
экспериментально по заданной системе используемых фонетических признаков,а
также требуемых точности распознавания и вероятности отказов от распознавания.
В случае, если подбором порогов заданные требования к системе распознавания
не удается выполнить, следует провести более детальный анализ неопорных
сегментов, иди попытаться улучшить систему признаков. В ряде случаев дяя
удовлетворения заданных в системе требований следует использовать синонимию.
66
Рассмотрим далее более конкретно, как оценить
лексическую неопределенность словаря V языка речевого общения неадаптивной
системы автоматического распознавания. Аналогично тому, как оценивалась
неопределенность алфавита фонем, можно определить сложность распознавания
входного словаря V , состоящего из R слов, и вычислить эквивалентный размер входного
словаря. При этом необходимо получить вероятности p(v^/w,) одиэости областей призна-хового описания слов i^, « V, ur,
б W, г= /7Д.
3s /75.
которые представляются в виде последовательности фонетических единиц (фонетической
транскрипции слов). Далее оценим вероятности p(ff^/v7y).
Как уже отмечалось, на основе лингвистических знаний,
эта-жоны слов Wy (. W представляются
в вида фонетических ( вернее, квазифонетических) цепочек,совокупность которых
описывается графом с конечным числом состояния, а каждая фонема - признаками
способа и места образования. Слову
VT, соответствует одна или несколько траекторий
(цепочек поверхностных форм) на графе (количество траекторий зависит от метода произношения
и характеристики диктора). Направленный граф f (W,) представляет все фонемы этахона сяова иг,
б W , который имеет uf,
поверхностных форм, k=
!, 2, . . ., А-з ; uly
= U'1Л
; каждая поверхностная форма
^ e w, содержит
,.^,-...^ Пусть р ( иГу)
|
ur,
e 1= l(3.k) опорных квааифонем, т.е. иг,
), } I-- /,2,..., 1(з, k).
априорная
вероятность появления слова u^eW на выходе блока
лексического распознавания, а априорная вероят-
ность иГу поверхностной формы этого же оаова этом выполняются
условия
л, « Р(Щ,)= Z: Р(^) ; £/?(ur,)=/.
Необходимо
отметить, что количество опорных сегментов в поверхностных формах слов
выходного словаря различно, т.е. предел изменения индекса I зависит
как от номера слова, так и от его поверхностной формы I = I
(.з, k}.
Для
того,чтобы осуществить оценку неверной классификации слов словаря на стадии
лексического распознавания по фонетической структуре этих слов, выполним
операцию разбиения всех поверхностных форм эталонов слов на М фонетических
групп с одинаковым количеством опорных сегментов 1= I (з) . При
этом слова, поверхностные формы которых принадлежат разным группам, не будут
Путаться между собой, поскольку их легко классифицировать по числу
"опорных" фонем, составляющих слова.
8?
Вообще
говоря, можно представить себе фонетические группы эталонных поверхностных
форм, отличающиеся не только числом опорных фонем, но и их характером,
а также порядком следования.Если учесть все три фактора, позволяющие разбить
эталоны на существенно большее число фонетических групп, то дальнейшие
рассуждения можно отнести к каждой из этих групп. Для простоты,однако, будем
считать, что мы имеем М фонетических групп, в каждой из которых
одинаковое число опорных сегментов. В практических задачах при разбиении на
группы следует учитывать все эти факторы, однако необходимо строго ограничивать
число различных опорных сегментов, выбирая лишь те, которые не путаются
между собой и характеризуются групповыми признаками места образования -
ударные гласные, смычные, фрикативные [81,60] .
Итак,
допустим, что существует М фонетических групп слов W, , W^, . . . ,
W^ , . .., W^ , в каждой из которых^ одинаковое число опорных квазифонем. Общее число
эталонов И/= U W^ , а
количество фонем, составляющих: слова (длина фонетической цепочки) каждой
группы, об означим через I ; т= /,/И.
Представляя
таким образом слова словаря на входе СРР и используя матрицы ошибочной
классификации фонем, составляющих слова
/Кй/&)-[Ру],
(2.5) можно оценить вероятности p^(v /Wy) спутывания поверхностных
форм слов внутри
каждой группы слов следующим образом:
t = t, 2, . . . ,
t^ - длина фонетической цепочки
группы слов ^ , а^ е ^ , Ь„ е иг,.
В общем случае одно и ъо же слово Wy может иметь К, поверхностных
форм, имеющих разное число фонетических элементов и попадающих в разные
группы слов W^, . Поэтому
общую условную вероятность "спутывания" слов словаря определим
P(v^/w,l= Г P(w^) р^ ( ^ /г^-)
.
Для определения потери
информации в СРР, которая рассматривается как канал перэдачи информации, в
случае распознавания слов используем выражение
86
KV/W)-- -Z p(w,)i p(v^/ w^ locj^ p( v^ /v/,).
Тогда 2 определяет эквивалентный размер словаря —
число альтернативных слов на входе
системы распознавания, а
2й v) - фактический
объем входного словаря, где
Эти выражения, аналогичные
формулам (2.4), (2.5), оценивающим фонетическую неопределенность, являются
критерием оценки лексической неопределенности. Они определяют сложность
распознавания словаря и позволяют судить о качестве СРР. При автоматической
маркировке, наряду с ошибками неверной кдассификации фонем, существуют, как уже
отмечалось, ошибки неверной сегментации, приводящие к слиянию отрезков,
соответствующих смежным фонемам, в один сегмент или расчленению отрезка,
соответсвувщего одной фонеме, на несколько смежных фонем разных классов. При
выборе альтернативных слов словаря надо следить за тем, чтобы неприятности
такого рода не вызывали подобия последовательностей фонетических единиц,
соответствующих разным словам. Для этого необходимо использовать матрицы,
отражающие возможные варианты сегментации слов словаря и частоты
встречаемости тех или иных вариантов сегментации, соответствующих различит
поверхностным фориам слов. Так как информация о словах, содержащихся в
фонемах,избыточна, то часто при оценке различимости слов словаря вполне
достаточно использовать опорные фонемы, допускающие минимум ошибок расчленения
и слияния. Поэтому в формуле (<i.7) дяя приближенной
оценки спутывания слов необходимо в первуи очередь использовать вероятности
ошибочного распознавания таких опорных фонем, которые в данном слове не дают
ошибок слияния и расчленения.
§ 2.3. О
языке описания данных в системе автоматического речевого запроса информации
2.3.1.
Понятийный язык и двухступенчатое иерархическое построение его
грамматического представления. Информационные системы,
стояь распространившиеся в настоящее время, требувФ общения с ними с
помощью устной речи на языяв, близком к естественному. Необходимая нам
информация должна быть выдана по запросу
последовательности
понятийных дескрипторов, которую человек может произнести, не используя
жесткого порядка следования этих дескрипторов. Такое представление
совокупности дескрипторов - понятийного поля не только обеспечивает
естественность запроса информации из базы данных, но и фактически не
увеличивает времени поиска релевантной информации, так как при этом
учитываются отношения между понятиями и используется иерархический принцип с
ыниыой иерархией, обеспечиваемой перестраиваемой структурой дорического
дерева. В связи с этим можно представить общую грамматику 6
формирования понятийного поля, включающего посведо-вательность предложений,
которые дают информацию о структуре дег.криптов, в виде иерархически
связанных граыиатик верхнего и нижнего уровней. (Процесс формирования
свободных от ошибок словесных цепочек, полученных в результате
автоматического распознавания слов и устного редактирования, рассматривать
здесь не будем .) Грамматика верхнего уровня G" определяет общую структуру понятийного поля, а языки, обусловленные
грамматиками нижних уровней б[ , конкретизируют порождение
предложений на уровне формирования понятийных фраз. Грамматика G" допускает появление понятий
(они выражены запросными фразами S^ ), формирующих смысл запроса, в произвольном
чередовании. Иными словами, порождающая грамматика последовательности понятий -
есть простей-вая грамматика типа 0 (по Хомскому), в которой нетерминальными
символами vh являются
обобщенный дескриптор понятийного поля (поисковый образ запроса) и понятийный
уровень, а терминальными V - конкретное наименование понятий (названия
уровней) ^ . Нетерминальный символ { обобщенный дескриптор понятийного
поля j является начальным символом S в
грамматике в", а правила вывода р сводятся к допустимости
перестановок терминальных символов s.—^s-.такчто для понятий
s,,Sg,...,5^ язык, обусловленный этой грамматикой, допускает К
' предложений длины К , в каждом из которых все понятия различны:
S,
, S, , . . . , S„ ; ^ , s, , • • • , ^ ; 5,. S,, S, ,. .., 5^ .
Вообще говоря, грамматики
типа 0 допускают бесконечное количество словесных цепочек (предложений)
различной длины, составленных из терминальных символов. Если считать, что нас
интересуют словесные цепочки с неповторяющимися терминальными символами, и
представлять обобщенный дескриптор понятийного поля цепочками переменной
длины J = f -L К , то число N возможных предложений,
используемых для работы и допускаемых языком этой гр^матикм,
^^., ^^
90
Каждый
из терминальных символов грамматики в° в свою очередь является
начальным (и нетерминальным) символом порождающей грамматики второго уровня
(7, , накладывающей или не нак-
ограничения на формирование предложений в t'-ru
понятийного уровня (рис.2.3).
|
ладывающей
ограничения на формирование предложений в рамках каждого t-ru понятийного ур
Рис. 2.3. Порождения тийных полей
|
Отметим, что в зависимости от особенностей терминального словаря
каждого уровня и привычки пользователей к произношению фраз этого уровня
на естественном языке порождающая грамматика с начальным (нетерминальным)
символом, полученным на предыдущем уровне, может быть нулевого, первого,
второго иди третьего типа, определяемого соответствующими правилами вывода.
Далее
мы рассмотрим оценку грамматической сложности языка (с точки зрения
автоматического распознавания речи) на уровне
формирования
предложений с учетом произношения слов, являющихся
Go терминальными символами грамматики , и покажем, что означает
"подстройка под
словарь и язык" в неадаптивных системах автоматического распознавания
слов. Языки, определяемые грамматиками б", (7/, G',...,(?/,..., G^ (рис. 2.3), будем называть языками
системы распознавания речи, подразумевая, что с точки зрения автоматического
распознавания слова, являющиеся терминальньгми символами грамматики высшего
уровня, также конкурируют между собой и определяют начальный символ сети
(графа), которой представляется языком СРР.
2.2.2. Оценка сложности языка с точки зрения
автоматичес-кого распознавания пословно произносимых предложений.
Синтаксис и семантика языка СРР, определяемых грамматилаки
{G^} , накладывают
ограничения на порядок следования слов в предложении в характер возможных
словосочетаний. Эти ограничения существенно облегчают задачу распознавания
речи вследствие сокращения общего поискового пространства признаков.
Для
приближенной оценки грамматической сложности языка СРР рассмотрим грамматику
автоматического языка как наиболее простого и наиболее поддающегося
количественному анализу.Грамматики Нулевого, первого и второго типов, как было
указано ранее, также можно использовать для формирования предложений в СРР,
однако их количественные характеристики подучить сложнее. и тому же ряд
закономерностей, характерных дяя языков, оаисываяицихся грамматиками
91
Правила
подстановки в грамматиках третьего типа (автоматных) имеют вид А = а В
или А —- В , где А, В с 1^ и а, Ь (. \'i . Для языка СРР А и В характеризуют названия смысловых групп, а а
, Ь - названия слов в смысловых группах - подсдоварях. Грамматика
автономного языка определяется множеством внутренних состояний s„3 ,. . .,s^,...,
ss и правилом перехода в следующее состояние
.
Следовательно,
после слова с номером i(n) из
группы слов s с S может следовать слово из подсловаря s^, с s . Кроме того,
заданы S и S - состояния,
которыми соответствен
но начинаются и кончаются фразы. Например, предложение имеет структуру
l.(G)=S„v, v. ,.
где veS,,
v, e S,, . т = /, 2, . . . , I
Оценим синтаксическую сложность автоматного языка средним
коэффициентом ветвления К^р , который определяется средним числом
возможных слов в каждой точке дерева ветвления:
количест-
^десь К^ - коэффициент ветвления в
точке i ; N во точек ветвления.
Средний коэффициент
ветвления удовлетворительно описывает синтаксическую сложность языка тогда,
когда появления слов в предложении равновероятны.
Если средняя длина
предложения /^д , то произведениями Z^„ «/<- можно оценивать грамматическую сложность рассматриваемых языков
речевого запроса и даже в какой-то мере (очень приближенно) сравнивать точность
автоматического распознавания пословно произносимых фраз. Но эта оценка не
учитывает фонетических особенностей подсловарей. К тому же в реальных
условиях различные слов8 словаря речевого общения имеют разные
вероятности при формировании фраа. Для учета этих факторов будут использованы
квазифонетическое представление поверхностных форм слов (см.п.2.2.2) и стохастическая
порождающая грамматика, у которой задано вероятностное распредеаенме правил
образований предложений рц из слов в
i/
92
»аждой точке ветвления 1= 1,п нкя выполняется условие
При этом для всех
точек ветвле-
(2.13)
где К- - количество возможных слов в
точке I (коэффициент ветвления). Тогда вероятность получения фразы l(G)6i(G) в результате применения t правил подстановок равно произведению
вероятностей примененных при этом выводе правил образования. Отметим, «то
число слов, составляющих предложения, может быть различное И зависит от
количества правил,примененных при формировании данного предложения.
Определим энтропию Н(/-} языка /(0)
.Для этого обозначим через L^ множество всех
фраз длины п слов, допускаемых грамматикой G:
через
ЮЛИЯ
|
р(^)
|
/ -и1^
^п-\Ч '•••'
|
f(n)
|
Лп) '-г '• • •
|
- вероятность
|
•s • • • • ' получения
|
фразы /(0)
|
HU
|
)
|
языка речевого общения
|
|
|
|
|
|
|
if/)) f(n) •} ^
• • • • • '-г ' • • •)•
г(л)
н^-^, ^ ^О^/^О,
(2.15) где Т - максимальная длина предложения. Естественно, что
г z pa^)=f.
/,., iyki, г
В случае, когда различные предложения, порождаемые грамматикой G ,
имеют разные смысловые интерпретации, тогда энтропия Языка характеризует
его возможность передавать информации. В соответствии с теорией
кодирования информации число возможных фраз языка с энтропией H(Z) будет 2н(t), и это значение определяет размер
входного языка.
Для
определения сложности (неопределенности) распознавания языка речевого обшения
рассмотрим процесс распознавания предложения в виде последовательности
распознавания слов из подсловарей данного уровня, размеры которых определяются
коэффициентами ветвления К^ . Тогда для оценки сложности
распознавания языка необходимо оценить сложность распознавания всех N
подсловарей
93
этого
уровня, где <V - число точек ветвления. Ранее, в п.
2.2.3, рассматривали, как можно оценить сложность распознавания словарей
по фонетической структуре слов, поэтому здесь на этом вопросе подробно
останавливаться не будем, а только отметим, что вероятность появления слова
г^
|
вероятностью P(Vf, } применения'
|
в подсловаре i- определяется /с.-го
правила подстановки в
каждом узле дерева стохастической автоматной
грамматики. Имея условные вероятности р. (v^/Шс) ошибочного распознавания
слов каждого из подсловарей и рассматривая CPF как
канал передачи информации, определяем потери информации /„ду в случае
распознавания предложений, произносимых пословно, следующим образом:
к к;
£
с?
Обычно
интересуются, как распределены потери информации по различным понятийным
уровням S^ и различным узлам графа,
представлякщего автоматную грамматику уровня. Важно знать,в каком узле языка
общения "тонкое место" и как его устранить.
Для общей оценки сложности
распознавания предложений, которые произносятся пословно в соответствии с
заданной грамматикой G ,
можно пользоваться выражением 2 "" , которое определяет
среднее число возможных альтернативных фраз на входе в СРР. В случае,
если СРР работает баз ошибок, при пословном произношении фразы на выходе
системы всегда одно предложение.
Формула (2.17) оценивает
сложность распознавания фраз языка речевого общения СРР. При этом отметим,
что эта мера зависит как от фонетической структуры слов словаря, так и от
грамматических правил образования предложений. В практических СРР при
распознавании языка необходимо, чтобы /„ была близка к нулю
^пот < ] порог • (РВД11118 ошибки при распознавании слов можно устранить
словами устного автоматического редактирования .) Если это условие не удовлетворяется,
то возникает проблема изменения языка, которая сводится к изменению
словаря системы и/ияи грам-иатики языка с целью увеличения точности
распознавания.Для этого можно либо использовать синонимию в подсловарях,
имеющих наибольшую неопределенность, либо изменить грамматическую структуру
предложения путем изменения грамматики G , которая используется
как механизм сокращения области поиска, ограничивающей число приемлемых
альтернатив.
94
г.3.3.
Изменение языка в
неадаптивных системах автоматического речевого запроса.Описанный во.
2.3.1 в общем видепоня-тийный язык речевого общения "человек -
информационная систеыа" допускает его развитие на основе некоторого ядре
или создание -не базе общих представлений о структуре языка. Суть
развития этого языка ("подстройка под язык") сводится: к замене или
увеличению числа терминальных символов грамматики в", определяющей
появление, замену или уничтожение целых понятийных уровней, язык которых
определяется грамматиками ^ ; к замене, уменьшению или увеличении
числа терминальных символов грамматик G^ без изменения числа понятийных уровней.
Понятийный
язык речевого запроса информации рассматривается как лингвистический процессор,
который представяен комплексом Программ, обеспечивающим автоматический
перевод устного текста в заданный момент для того, чтобы информационная
система могла воспринимать (понимать) фразы, относящиеся к рассматриваемой
пред-иетной области. Тогда задача "подстройки под язык" сводится к
модификации (иди вообще построению) этого лингвистического процессора, который
допускает только правильные, осмысленные пред-жижения, обусловяенные
грамматики 6°, G,', <?,,..., <?/.
В
соответствии с п. 2.3.1, задача построения такого лингвистического
процессора, если заданы множества слов { у,
, г^, . . . .... Уд,} словаря V описания данных
информационной системы, формально сводится к построению некоторой функции
/ = <f> (v,, ^ , . . .. 1^ ),
где i v,
, Vy , . . . , гГд. } б V , полностью
определяющей работу «Ннгвистичесного процессора (семантико-синтаксического
анализатора), который допускает только слова, являющиеся грамматически
правильными в данном контексте.
Дяя этой цели фразы
языка речевого общения представим в виде направленного графа с конечным числом
состояний без циклов
(2.18)
Весь словарь (узлы графа) разобьем на I
непересекающихся понятийных уровней, т.е.
(2.19)
Для указания связи между словами (узлами) понятийного графа строим
матрицу смежности 2)= [и';,], которая распадается на
9Ь
D, ,Д,, . . .
,Д„, . . . ,^_, подматриц, где Д„ =(о^ б {О,/}) указывает смежность п-го
и п+1 уровней графа 6(1/, Г). Тогда задача подстройки
"под язык" заключается в задании
и/или изменении словаря языка речевого общения
и матрицы смежности D > указывающей связь между словами понятийного
графа.
Иными словами, частичная иди
полная замена словари в неадаптивных системах распознавания фраз, составленных
из изолированных слов и коротких словосочетаний на основе понятийных языков,
описываемых грамматиками { 6°, G\, CJ, . . .
, G^ } ,
приводит к изменению грамматик, к приспособлению понятийного графа к новым
требованиям,
Замена терминальных символов
{V- ^ грамматик {С/} производится записью в соответствующий
массив, где хранятся эталоны старых слов, новых слов и квазифонетических
поверхностных форм, представляющих эталоны нового терминального символа. Если
используются программы автоматического порождения множества поверхностных
форм по базовой форме слов (слова), определяющих новый терминальный символ,
то дл.-: замены терминального символа (получения множества эталонов) требуется
ввести лишь информацию о последовательности квазифонетических символов; запись
новых символов можно производить аналогично описанному. Эталоны названий
новых понятийных уровней вводятся так же,потому что они являются терминальными
символами грамматики верхнего уровня G"• При введении нового уровня необходимо
описать грамматику языка этого уровня и включить эталоны новых терминальных
символов. Изменение матрицы смежности производится в зависимости от требований
измененного языка, от новых понятий и новых взаимоотношений между словами
понятийного графа. Если необходима замена правильных слов словами-синонимами,
то никаких изменений матрицы смежности не производится. Оысл введения
слов-синонимов сводится лишь в уменьшению 1^, (2.17).