Машины, которые говорят и слушают

| Категория реферата: Рефераты по кибернетике
| Теги реферата: мировая торговля, эффективность реферат
| Добавил(а) на сайт: Чупров.

Предыдущая страница реферата | 1 2 3 4 5 6 7 | Следующая страница реферата

[pic]
|Упра| |Син|Ре|
|влен| |тез|чь|
|ие | |ато| |
|Памя| |р | |
|ть | |реч| |
| | |и | |
| | |тае| |
| | |- | |
| | |520| |
| | |0 | |
| | | | |
| |. 1 | |
| |{ | |
| |Речевое|
| |постоян|
| |ное |
| |запомин|
| |ающее |
| |устройс|
| |тво tm |
| |S-6100 |

Р и с. I.I. Блок-схема преобразователя "текст - речь'

вания связывает и сглаживав! переходы между ними. В результате формируется кодовая управляющая цепочка аллофонов, у которых согласованы энергетические уровни и достигнута плавность огибающей, а сглаживание коэффициентов фильтра делает более плавными переходы между звуками.

После объединения аллофонов и сглаживания переходов между ними в аллофонной цепочке должны быть расставлены ударения и указана интонация в соответствии с метками пользователя при кодировании входного текста.
Алгоритм конструирования речи устанавливает частоту основного тона только для отмеченных слогов.Управление интонацией основано на градиентном управлении частотой основного тона в ударных слогах. В нейтральных интонациях безударным слогам соответствует среднее значение частоты основного тона, тогда как ударные будут располагаться несколько выше средней линии тона. Наклон создается программой, а пользователь только помечает ударные слоги.

Как уже отмечалось, синтез речи в системе преобразования "текст - речь" системы Texas instruments основан на линейном пред-сказуемостном кодировании, являющемся математической моделью голосового тракта, реализованной в виде фильтра. Коэффициенты линейных уравнений фильтра, определяемые путем анализа естественной речи, используются в модели для управления "конфигурацией" голосового тракта при формировании речевого сигнала. В системе запоминаются соответствующие различным аллофонам коэффициенты фильтра, коэффициент передачи фильтра, частота сигнала возбуждения,используемого для управления фильтром. Система Texas
Instruments обеспечивает [100] хорошее качество речи при использовании
ЛПК со скоростью передачи информации от 1200 до 2400 бит/с.

В Cl40] отмечалось, что разработанная в 1976 г. система дискретного распознавания слов was, предназначенная для ввода речевых команд в
ЭВМ управления огнем тактической артиллерии, использовала систему речевого ответа (обратной связи) YS фирмы Vo-fcrax. Блок речевс" о ответа повторял слова устного донесения, которые по радио или телефонному каналу поступали к корректировщику стрельбы. В случае, если устная команда распознавалась машиной верно,корректировщик произносил ключевое слово, означающее, что команда может поступить в систему управления огнем.

В [30,129] рассматриваются новая интегральная схема синтезатора речи sc-OI и система для проектирования словаря cds-ii. Речевой интегральный синтезатор sg-oi реализует фонемный синтез. Для преобразования фонем в параметры речи используется фо-

немный контроллер.Синтезатор работает с внешней памятью, где хранятся 6- разрядные коды фонем. В отличие от системы Texas Inntru-ments синтезатор sc-OI использует для моделирования голосового тракта человека не кодирование, основанное на линейном предсказании, а более традиционный метод, основанный на применении аналоговых полосовых фильтров, на вход которых поступают сигналы возбуждения от генератора с регулируемой частотой, моделирующего работу голосовых связок, и от генератора псевдослучайных сигналов, моделирующего шумовой источник.

На входе синтезатора SC-OI стоит фонемный контроллер, который преобразует код фонемы (их 64) в матрицу спектральных параметров.
Контроллер же может изменять частоту основного тона; что позволяет устранять монотонность звучания синтезированной речи.
Управление синтезатором осуществляет генератор синхронизирующих импульсов, находящийся в интегральной схеме. Управление час-'тотой основного тона производите"! внешним воздействием на источник тонального сигнала.

После поступления кода фонем на фонемный контроллер последний в соответствии с тем, какой звук должен быть порожден,управляет моделью голосового тракта, воздействуя на цепи с переключаемыми емкостями.
Длительность каждой фонемы устанавливается в пределах 50 - 250 мс.

Фонемная информация, поступающая на вход, создается программой преобразования, которая анализирует тексг, вводимый в память из ведущей
ЭВМ или с клавиатуры. В кодах фонетических сим-всдов, формируемых этой программой, содержатся числа, означающие длительность генерируемого звука, которая зависит от ударения.

Информация для синтезатора sc-OI вырабатывается системой для проектирования словаря типа cds -II, на входной клавиатуре которой набираются слова или фразы, подлежащие синтезу. Система базируется на микропроцессоре типа 6У08 фирмы Motorola.Дд-горитм преобразования "текст- речь" и операционная система занимают 24 кбайта ПЯУ и рабочую часть оперативной памяти емкостью 2 кбайта. Выходная информация ciis-11 используется для программирования памяти стираемого ПСУ, где хранятся данные для ИС синтезатора. Для программирования ПЗУ информация из cds-ii передается последовательным кодом в ведущую ЭВМ (которую можно использовать для перевода слов в фонемы), ленточный перфоратор или другое устройство с целью последующей записи в ПЗУ. В систему проектирования словаря входят также печатающее устройство, позволяющей печатать речевую информацию в шестнадцатиричном коде (исполь-

зaк.480 49

ауя, как отмечено, 6 бит на фонему), а затем вручную вводить в программатор ПЗУ.
Наряду с системой cDy-II ^той же фирмой выпускается универсальный речевой модуль fYHtl), не обладающий возможностью преобразования текста в речь. В памяти этого устройства в табличном виде записаны коды 1300 слов, а также 25 суффиксов и префиксов. Как и система проектирования словаря cds-ii, УРЫ включает в свой состав микропроцессор типа 6806. Он также содержит синтезатор типа ас-01, операционную систему, хранящуюся в ПЗУ емкостью 2 кбайта, таблицу слов, записанную в перепрограммируемом ПЗУ емкостью 2 кбайта, и I кбайт рабочей области оперативного запоминающего устройства. УРМ можно использовать в качестве рабочего модуля а различной аппаратуре. При этом модуль может управляться внешним процессором или ведущей ЭВМ.
Некоторые сведения о других синтезаторах содержатся в [51, 52, 55, 142].
1.4.2. Повышение качества синтезируемой речи. Несмотря на появление коммерческих систем автоматического речевого ответа,синтетическая речь еще ке качественна. Поэтому в лабораториях мира продолжают энергично работать над проблемой синтеза речи. В трудах ежегодных международных конференций по акустике речи и обработке сигналов, которые проводятся Институтом инженеров по электротехнике и радиоэлектронике США с 1976 г., большинство докладов посвящено автоматическому синтезу. Работы относятся к самым различным языкам.
В С 115] описана разрабатываемая для шведского языка система "текст- речь", базирующаяся на правилах перевода буквенной информации в фонетическую. Система синтеза состоит из последовательности преобразований, каждое из которых отражает часть знаний о речевое процессе. Отмечается, что для получения качественной речи целесообразно математизировать использование таких просодических параметров, как длительность звуков и интонация. При формализации правил преобразования был использован опыт работ по созданию систем "текст-речь", проводимых в США, и учтен тот факт, что фонетическое представление высказываний в шведском языке бо-яее простое, чем в английском.
Наибольшие трудности вызывает поиск в неразмеченном знаками ударения тексте ударных слогов, а также слогов вторичного ударения ( aecondary stressed syllable ). Во время этого поиска следует использовать различные ключевые индикаторы, такие как сдвоенные гласные, некоторые окончания и комбинации гласных с согласными, образующими ударные слоги.

разработаны основные правила преобразования фонетической цепочки в синтезированную акустическую волну.Эти правила, для формализации которых создан специальный язык, работают на сегментном уровне. Например, правило, определяющее длительность сегмента, запювется—< DURATION
- Т * ЙХР (-ЬОО(В)* 0,12 - LOG(A>*
« 0,35)> , где Т - номинальная длительность; А,В,С, - переменные, зависящие от позиции и длительности слова или фразы.
В [Иб] сообщается о системе речевого синтеза, разработанной для английского языка в Bell Laboratories. Система обеспечивает более высокое качество синтезируемой речи за счет» I) более точных правил определения длительности звуков речи, основанных на измерениях, которые продесаны на участках естественной речи; 2) расширяющихся правил учета аллофонических изменений как функции словесных и других границ; 3) введения большого числа правил просодии нижнего уровня, учитывающих особенности речеобра-эования
(ассимиляцию звуков, изменения внутри звукосочетания согласных, контекстную зависимость гласных и т.д.); 4) правил, учитывающих медленные изменения параметров модели голосовых связок и шумового источника возбуждения.
Многие особенности системы синтеза речи Bell Laboratories рассмотрены также в С75,Ь9].В [69], в частности, довольно подробно описаны свойства просодии английского языка.Предполагается различать просодию высшего
(собственна Просодические функции) и просодию низшего уровней (их акустические компоненты) и использовать правила просодии для повышения качества синтезируемой речи.
При исследовании слитной речи выявилось, что в английском языке:

- главный фактор, определяющий длительность гласных, - позиция гласной в слове, а слова - в предложении (или в синтагме); гяасная имеет наибольшую длительность, если она находится в последнем слоге перед паузой; это объясняется особенностями контура основного тона перед паузой, что значительно удлиняет гласный; различие длительности гласных в предпауэальной и непредпау-эальной позициях приблизительно находится в соотношении 2:1;

- последующие согласные укорачивают длительность гласного Ьо сравнению с некоторым средним значением), если за гласным следует глухой взрывной (характеризуемый смычкой), и удлиняют, если за гласным следует звонкий фрикативный; наибольшее влияние на длительность гласных согласные оказывают в предпаузальной позиции;

-.длительность безударных гласных, если они не находятся в конце слова, составпяет около 40 мс; в конечных позициях они Содее длительны;
51

- дифтонгизация сильно удлиняет гласную;

- на длительность согласных основное влияние оказывают 2 фактора: положение согласной относительно ударного сдога и границ слова или предложения и консонантность окружения;

- длительности консонантных согласных (а именно глухих фрикативных f,s,S) подчинены точному аддитивному правилу, ударение и границы слова действуют как факторы приращения, а согласные , смежные с фрикативными, действуют как фактор укорачивания;

- наибольшее непостоянство длительностей в зависимости от ударения и позиции проявляют переднеязычные согласные t , d, n ',

Рекомендуем скачать другие рефераты по теме: ответы 9 класс, процесс реферат.

Claw.ru | Рефераты по кибернетике | Машины, которые говорят и слушают

Машины, которые говорят и слушают

Категории:

Поделитесь этой записью или добавьте в закладки

Рефераты от А до Я

Полезные заметки