Машины, которые говорят и слушают
| Категория реферата: Рефераты по кибернетике
| Теги реферата: мировая торговля, эффективность реферат
| Добавил(а) на сайт: Чупров.
Предыдущая страница реферата | 1 2 3 4 5 6 7 | Следующая страница реферата
Процесс распознавания слов начинался с выбора эталонов -претендентов, идентичных входной реализации, и кодов макровре-ненной структуры и отличных от нее числом квазифонетичвских сегментов на величину не более заданного порога. Наиболее вероятные пары гипотез о слове принимались методом динамического программирования. При этом учитывались лексические ограничения на место слова во фразе. Далее блок семантико-синтаксического анализа принимал решение об истинной последовательности слов во фразе. При работе с шестью операторами и обучении системы на каждом из них надежность распознавания слов составила 8836,а надежность распознавания фраз за счет блока лингвистического анализа - 95%. Точность верификации диктора по произвольной фразе - 96%. Система устойчива к внешним шумам до 65 дБ.
Другая система, разработанная в Институте систем управления АН
ГрузССР,способна работать при более высоком урочне шумов (до 100 дБ и
выше) СЗб]. Основной особенностью этой системы распознавания фраз, произносимых с паузами между словами, было наличие комплекса
помехозащищенных датчиков, который обеспечил приемлемое отношение
сигнал/шум на входе системы распознавания. В качестве приемника речевой
информации применялся ларингофон ЛЭМ-3, а также дополнительные
помехозащитные признаки устной речи, в качестве которых использовались
артикуляционные характеристики ре-чеобразования. Бесконтактные датчики
позволяли выделять:
- признак, отражающий изменение величины раствора ротовой щели во время произнесения неогубя°нных звуков;
- признак степени огубяения;
- признак скорости воздушного потока у потового отверстия [42].
Зак.480
17
Изучение свойств речевого сигнала в пространстве выбранных признаков позволило разработать процедуру описания слов, обеспечивающую восстановление как макровременной (имеется в виду пос-хедовательность звонких и глухих участков, а также пауз),так и квазифонемной структуры речи. При испытании систем [ЗЬ,??] выявилась высокая точность распознавания фраз. К сожалению,обе системы реализованы на ЭВМ Ы-200, обладающей малым объемом оперативной памяти и слабым быстродействием, из-за чего время распознавания фраз было в 30 - 50 раз больше реального.
В ранках традиционного аппаратурно-программного направления
автоматического распознавания речи ведутся работы в ВЦ и Институте
проблем передачи информации АН СССР [13,67,6?] .В основе метода лежит
алгоритмическая обработка выделяемых специальной аппаратурой информативных
параметров коротких отрезков речевого сигнала (сегментов длительностью 10-
20 мс). Последовательность этих отрезков и составляет высказывание, которое требуется дешифрировать. Параметры (признаки) сегментов
характеризуют (в большей или меньшей степени) параметры речеобразующего
тракта человека, определяющие особенности порождаемых звуков.
В Cl3] рассмотрены алгоритмы распознавания названий чисел от нуля до
ста, причем система предусматривает реальное время распознавания и
произвольного диктора. Алгоритм распознавания двухступенчатый и состоит
из блоков распознавания и подтверждения фонетической структуры
(верификации). Если гипотезируемое слово не подтверждается (блоком
верификации), то входная реализация сравнивается с другими словами, близкими к ней в пространстве признаков, или подается сигнал переспроса.
При распознавании двухсловных сочетаний второе слово анализируется с конца в направлении к его началу. Варианты произношения, на основании
которых создавался алгоритм, исследовались на материале около 2200
реализации названий чисел, произносимых 20 дикторами. В результате анализа
получены варианты произношения двузначных чисел. Многие из них
произносятся сравнительно единообразно и различаются степенью редукции
безударных гласных, степенью аффрицирова-ния мягких взрывных, наличием или отсутствием смычек перед аффрикатами и т.д. В других числах может
существенно нарушаться фонетическая структура, пропуски отдельных
согласных.В условиях, когда возможно множество вариантов произнесения, алгоритм должен использовать лишь наиболее употребительные варианты, в
которых сохраняются "оперные" звуки - ударные гласные, щелевые, взрывные, а также начальные и конечные звуки.
I&
В OS?] рассмотрено использование речевого Управления в подсистеме АСУП
на базе мини-ЭВМ. Аппаратурно-программная система, разработанная в
Львовском ордена Ленина государственном университете им. И.Франко, уже
эксплуатируется. Система использует мини-ЭВМ ЕС-1010 в режиме реального
времени и параллельной работы около 90 производственных задач. Это
налагает жесткие условия на объем оперативной памяти, используемой для
программ обработки речевого сигнала (всего 10 Кбайт). Словарь системы
40 слов, которые могут быть организованы в командные фразы (5 слов во
фразе). Используется девять типов запроса, примерами которых могут быть:
"оперативная сводка выпуска", "ресурсы смены", "выходные характеристики
участка первой настройки" и т.п. Из-за жест-' ких ресурсов памяти система
ориентирована на работу с одним диктором, сформировавшим свои эталоны и
имеющим свой пароль. Работа системы в помещении машинного зала с уровнем
шумов 68-75 дБ показала надежность распознавания фраз, превышающую У0%, а
после переспроса - более 9Ь%.
Недостаточная надежность распознавания с первого ^^произнесения обусловлена в основном упрощениями алгоритма распознавания, на которые пришлось пойти ради экономии'места и оперативной памяти.
Аппаратурно-программное направление представлено также системой [33] , которая на первом уровне распознавания обнаруживала в словах сегменты и классифицировала их по способу образования звуков на гласные, щелевые, аффрикаты, дрожащие , а также глухие и звонкие. На втором этапе некоторые звуки классифицировались внутри данной группы по месту их образования. В результате каждому сегменту присваивалась Кодовая последовательность,занимающая I байт. Четыре старших разряда этого кода указывали групповую принадлежность данного звука, четыре младших разряда определяли тип звука внутри данной группы.
Для распознавания слов образуется элементарная последовательность
псевдослогов, сравнивающаяся с эталонами последовательности. При
экспериментальной проверке работы система распознавания на материале 50 и
200 слов с участием трех дикторов она показала 93 и 84% точности
распознавания соответственно.Анализ ошибок показал, что в большей
части они вызвали неправильными формированиями сегментов контрольной
реализации или эталонов, возникающими при срабатывании системы до начала
произнесения от посторонних шумов или шумов дыхания.
Интерес к построении систем распознавания речи, работающих с
множеством дикторов,стали проявяять и исследователи, тради-
19
ционно работавшие с одним диктором. Т.К.Винцюк и соавторы [21] показали, что в рамках существующей однодикторной системы фонемного распознавания
речи может быть создана многодикторная система распознавания, которую
авторы назвали кооперативной,поскольку система предварительно обучается по выборке кооператива дикторов. Основные результаты экспериментов: при индивидуальном обучении системы распознавания речи средняя
надежность распознавания по чужим дикторам не превышает 80% (на словаре
из 100 слов);
- при кооперативном обучении средняя надежность распознавания для четырех членов кооператива составляем 98^, что вполне приемлемо для практического использования;
- кооперативное обучение способствует существенному превышению
надежности распознавания речи лиц, не участвовавших в получении обучающей
выборки (для двух новых дикторов средняя надежность распознавания 97 и
92%).
S 1.3. Развитие систем распознавания/понимания слитной речи
Задача общения человека и ЭВМ с помощью естественной,слитной речи оказалась гораздо более сложной, чем построение систем распознавания изолированных слов. Одной из первых практических систем распознавания последовательности слитных словосочетаний (пять слов исходного словаря) явилась система фирмы KdC .описанная ранее.
В дальнейшем будем различать системы распознавания *и системы понимания слитной речи. В первых, как правило, рассматриваются фразы, составленные из последовательности слов, между которыми синтаксическая и семантическая связь либо отсутствует,либо слишком жесткая (используется автономная грамматика).Системы понимания, в отличие от систем распознавания, при декодировании входного высказывания используют высшие лингвистические уровни языков, близкие к естественным, работая с фразами, в которых допустимы стилистические ошибки, бессмысленные звуковые сочетания, произвольные паузы и междометия.
При построении систем понимания речи необходимо в большей степени, чем при создании систем распознавания слитной речи, использовать опыт
специалистов по искусственному интеллекту, а также привлекать
специальные знания о синтаксисе, семантике и прагматике языка общения.
В то же время отметим, что деление на системы автоматического распознавания
и понимания является 20
достаточно условным и фактически определяется коэффициентом ветвления, который показывает, сколько возможных слов допускается после каждого слова
высказывания. В современных системах распознавания слитной речи средний
коэффициент не превышает,как правило, 30 (в системе Nac-ISQ), а в
системах понимания этот коэффициент достигает 200-300 (бессмысленные
звукосочетания типа цмм ... , эээ ... и т.д., а также паузы и
междометия можно рассматривать в СПР как возможные варианты слов).
Так как автоматическое распознавание 300 - 300 слов в непрерывном речевом потоке - сложная задача, веди использовать обычные математические методы распознавания, то для ее решения и привлекаются высшие уровни знания о языке (синтаксис, сематика и прагматика), а также другие способы, обеспечивающие сужение числа альтернатив на каждом шаге принятия решения о слове, используемые обычно в задачах искусственного интеллекта (ИИ). В связи с этим в системах понимания говорят о семантической точности распознавания смысла фразы, когда не все составляющие (слова) могут быть распознаны правильно.
Перейдем к рассмотрению систем распознавания слитной речи. Как
правило, такие системы работают по принципу фонемного распознавания, от
точности которого зависит общая надежность работы системы. Одной из
наиболее интересных отечественных систем с обучением на конкретного
диктора и словарь является система, построенная в Институте кибернетики
АН УССР им. В.М.Гяуи-кова [l9,20] , развитием которой стала кооперативная
система распознавания рвчи[213.
В основу этой системы положена математическая модель речевого сигнала, в которой каждой фонеме соответствует полученный алгоритмически (на
основе анализа текущей автокорреляции сигнала, параметров линейного
предсказания и текущего энергетического спектра) определенный набор
бинарных признаков ( двоичный код). Модель учитывает коартикуляционныв
эффекты, изменение длительности фонем и динамику интенсивности сигнала.
Модель автоматического распознавания Института кибернетики АН СССР
использует анализ сигнала посредством синтеза.
Некоторый процеср порождает из элементарных эталонных сигналов по
определенным правилам эталонную слитную речь (общий для всех слов алфавит
эталонных элементов содержит около 80 элементов кодов). Распознавание
слитной рччи сводится к необходимости нахождения наиболее правдоподобного
эталонного сигнала слитной речи.
21
В этой модели автоматически находятся границы отдельных фонем, паузы, тип и общее количество фонем в распознаваемой последовательности о учетом априорной вероятности частоты встречаемости фонем. Эталонный сигнал слитной речи формируется из эталонных сигналов отдельных слов путем нелинейного преобразования исходных словесных эталонов. При этом эталонные сигналы слов складывались в эталонную слитную речь так, что паузы между словами имели различную длительность (в том чис/ie и нулевую),а длительность элементов фразы изменялась плавно. Параметрами грамматики, порождающей эталонные фразы, являлись: алфавит эталонных элементов, акустике-фонетические транскрипции слов, правила стыковки слов во фразе, правила нелинейной деформации сигналов вдоль оси времени и некоторые другие параметры.
Для экспериментов по распознаванию слитной речи ( словарь включал 200
слов) были получены 1000 реализации этих слов, произнесенных одним
диктором (обучающая выборка). При испытаниях система дала 0,5% ошибок и 3%
отказов при распознавании слов в слитном потоке. Расширение словаря до 300
слов увеличило количество ошибок до 1%, причем отказов было 3,5%. При
экспериментах со словарем из 100 слов удалось получить время
распознавания (на ЭВМ БЭСМ-6), равное I с на I слово [193 • Отметим, что близкий к этому метод используется в системах распознавания слитной
речи (СРСР), разработанных в Отделе вычислительной науки
исследовательского центра фирмы 1УЫ. В связи с тем, что данная фирна
(так же, как и фирма Sperry Univac ) активно занимается
исследованиями по распознаванию слитной речи после завершения проекта
arpa , рассмотрим эти работы более подробно.
Рекомендуем скачать другие рефераты по теме: ответы 9 класс, процесс реферат.
Категории:
Предыдущая страница реферата | 1 2 3 4 5 6 7 | Следующая страница реферата