Разговор с машиной: мифы и реалии речевого управления
| Категория реферата: Рефераты по информатике, программированию
| Теги реферата: оружие реферат, контрольные работы по алгебре класс
| Добавил(а) на сайт: Лукьяненко.
1 2 3 4 5 | Следующая страница реферата
Разговор с машиной: мифы и реалии речевого управления
Почуев Сергей Иванович, д.т.н., профессор.
На научно-популярном уровне изложены некоторые новые технико-эргономические психологические принципы и подходы к созданию и использованию естественно языкового интерфейса “человек-машина” для управления сложными техническими системами.
Введение
С момента появления первых “интеллектуальных” машин (под “интеллектуальной” машиной далее понимается объект искусственного происхождения, способный воспринимать и рационально использовать информацию, передаваемую ей в любой форме человеком, для выполнения определенных целевых действий) люди стремятся к максимальному удобству управления ими. Это стремление находит свое выражение как в конкретных технических разработках, так и в неосознанных и осознанных мечтах людей о думающих, понимающих человека и говорящих с ним помощниках, имеющих искусственную природу. За примерами далеко ходить не надо. Достаточно вспомнить Али-Бабу, дистанционно управлявшего дверями пещеры с сокровищами с помощью сакраментальной речевой команды “Сезам откройся!”, героев многочисленных научно-фантастических романов или даже пушкинскую царицу, периодически консультирующуюся с чудо зеркальцем по поводу собственной внешности. В последнем случае мы, по-видимому, имеем дело с гениально предугаданным прообразом системы глобального мониторинга женщин, сопряженной с экспертной системой определения уровня их красоты и оснащенной естественно языковым интерфейсом….
В настоящее время попытки создания подобного интеллектуального речевого интерфейса “человек-машина” все более перемещаются из мира сказок в реальную жизнь, а соответствующие системы стремятся занять свое место под солнцем в кабинах самолетов, рубках кораблей, трубках мобильных телефонов, “мозгах” роботов и т.п.
Вместе с тем объем использования естественно-речевых технологий в практике управления сложными техническими системами до настоящего времени весьма невелик, несмотря на очевидную привлекательность такого способа общения с “интеллектуальной” машиной.
Более того, все мы являемся свидетелями того, что разнообразные, постоянно совершенствуемые электронные приборы как бытовые, так и используемые в различной профессиональной деятельности людей, продолжают “обрастать” все новыми многофункциональными кнопками, значения которых не в состоянии быстро запомнить и эффективно использовать, особенно в условиях возможного дефицита времени, ни один нормальный человек. В результате, возрастающие функциональные возможности техники часто оказываются нереализованными, а освоение новых электронных устройств человеком-оператором превращается в мучительный процесс запоминания многотомных инструкций и наставлений!
Что надо сделать для того, чтобы люди могли и хотели разговаривать с машинами, а машины отвечали им взаимностью?
Отвечая на этот непростой вопрос, современные ученые часто уповают на трудно преодолимые технические сложности надежного распознавания естественной слитной человеческой речи и ее смысловой интерпретации машиной. С данными утверждениями во многом следует согласиться. Это, прежде всего, касается существенных ограничений созданных к настоящему времени алгоритмов искусственного интеллекта, программ распознавания слитной речи и, в ряде случаев, недостаточных реальных возможностей аппаратной части современных компьютеров.
Однако, когда мы имеем дело с управлением сложной технической системой и не требуем от нее порождения новых знаний или оперативного освоения (понимания) новых команд, ситуация упрощается. В рассматриваемом случае нам нужен не мудрый думающий собеседник, а толковый и дружелюбный исполнитель нашей воли, который при решении той или иной функциональной задачи без ущерба для конечного успеха может быть ограничен в своих словах и действиях.
Как здесь не вспомнить наших четвероногих любимцев, которых мы привыкли считать умными, если они знают десяток команд и попусту не лают ... Автор далек от мысли проводить буквальное сравнение, чтобы не обидеть ни собак, ни машины. Каждые по-своему хороши! Вместе с тем, абсолютное большинство современных технических систем строиться именно так, чтобы на бесконечное число ситуаций внешнего мира реагировать большим, но конечным количеством действий. Это, в первую очередь, касается т.н. разовых команд, определяющих режимы работы того или иного технического устройства. Вспомните рычаг указателя поворота на Вашем автомобиле, кнопку “START” на видеокамере и т.п. Находясь в любой точке земного шара и, будучи дисциплинированным водителем, Вы будите действовать одинаково, указывая поворот. Ваши стандартные манипуляции с видеокамерой для начала съемки также никак не зависят от выбранного сюжета, а определяются ее конструкцией.
Таким образом, даже работая с фиксированным словарем речевых команд, можно добиваться достаточно впечатляющих результатов с точки зрения повышения комфортности и оперативности управления различными техническими устройствами и системами, в полной мере наслаждаясь иллюзией их интеллектуальности.
Данный вывод не претендует на новизну, т.к. еще лет 30 назад, а может быть и более, специалисты предрекали блестящее будущее подобным системам. Но, повторюсь, предсказания не оправдались, несмотря на значительные успехи в области повышения надежности распознавания речи, в особенности команд из ограниченного набора.
Мифы о речевом управлении так и не стали широкой повседневной практикой! Почему?
В качестве главных причин подобного явления обычно называют:
-существенную зависимость надежности распознавания от индивидуальных особенностей диктора (например, он шепеляв и совсем не тот, кто ранее обучал машину);
-подчиненность результатов распознавания текущему психофизиологическому состоянию человека (например, оператор “с большого бодуна”, простужен или сильно напуган приближением к Земле очередного астероида);
-сильное влияние акустических помех, присутствующих в ситуациях реальной жизни (например, я говорю, а рядом стонет мотор старых “Жигулей”).
-наличие пользовательского стереотипа управления (например, аргументы оператора типа: “меня так учили, мне так удобнее, я двадцать лет успешно нажимаю на кнопки и не собираюсь произносить Ваши дурацкие команды!”).
Рискну предположить, что дело здесь не только, а может быть и не столько в этих причинах (последняя причина, кстати сказать, скорее не причина, а следствие низкого уровня эргономичности немногочисленных реально существующих систем речевого управления).
Организация речевого диалога с машиной это не только борьба за высокую надежность распознавания человеческой речи в разнообразных условиях, но и придание самому процессу общения некой осмысленности, удобства, взаимности, доверия и своего рода психологической совместимости со стороны человека!
Но этой стороне проблемы речевого управления, как мне кажется, в настоящее время учеными и конструкторами не уделяется должного внимания. Поэтому, абстрагируясь в дальнейшем от упомянутых ранее “чисто распознавательных” аспектов речевого управления, сосредоточимся на некоторых новых технико-эргономических и психологических принципах и подходах, использование которых может позволить ускорить процесс внедрения “речевых” технологий в техническую практику.
Дабы излишне не “грузить” читателя, также оставим в стороне и важную смежную проблему синтеза и использования речевых информационных сообщений, генерируемых машиной, независимо от речевых команд человека. Благо, данная проблема более изучена и приятные женские голоса, сообщающие человеку-оператору плохие новости, уже достаточно давно звучат в наушниках пилотов самолетов и салонах “крутых” автомобилей.
Итак, будем полагать, что мы имеем дело с некоторой сложной технической системой, управление которой осуществляется в реальном масштабе времени с использованием фиксированного набора разовых (дискретных) речевых команд. Далее речь пойдет именно о таких командах, т.к. человеку осуществлять непрерывное управление технической системой, как правило, удобнее с помощью рук, ног и органов управления, на которых находятся эти и, как знать, возможно, и другие части тела.
По мнению автора, при построении эффективной и дружелюбной системы речевого общения необходимо помнить и правильно использовать следующее.
Речевой канал не должен быть единственно возможным для решения любой из функциональных задач, возлагаемых на управляемую техническую систему и должен использоваться только тогда, когда это действительно удобно человеку, например при дефиците времени или большом количестве рутинных тактильных (ручных) операций.
Рекомендуем скачать другие рефераты по теме: шпори скачать бесплатно, сочинения по русскому языку.
Категории:
1 2 3 4 5 | Следующая страница реферата