Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Системы речевого ввода и вывода информации




 

Существует две технологии речевого общения с компьютером:

· системы распознавания речи;

· системы синтеза речи.

Системы распознавания речи

В системах распознавания речи выполняется оцифровка звуковой информации, ее идентификация с кодами, содержащимися в электронных тезаурусных (иногда многоязычных) словарях, необходимая автоматическая коррекция кодов и гене­рация соответствующих им символов, слов и предложений, возможный вывод тек­стов на экран для ручной их коррекции (иногда звуковое воспроизведение) и за­пись текстов в память машины либо исполнение «услышанных» команд.

По характеру распознаваемой речи системы речевого ввода подразделяются:

· системы, ориентированные на распознавание отдельных слов, команд и вопро­сов;

· системы распознавания предложений и связной речи;

· системы идентификации по образцу речи.

Системы, ориентированные на распознавание отдельных слов, команд и вопросов часто называют системами речевого управления, поскольку их основная задача - обеспечить выполнение компьютерной системой действий, задаваемых голосом.

Наибольшее распространение такие системы получили в автоматических телефон­ных службах. В них можно ввести голосом номер телефона вызываемого абонента или его имя; можно задать простой вопрос автоматической справочной службе.

Наиболее разработаны системы распознавания чисел, которые можно отнести к средствам распознавания первого поколения. В развитых системах такого рода человек сначала говорит свой числовой пароль, затем свой числовой идентифика­тор и только после этого может назвать число, кодирующее сущность запроса.

К средствам распознавания второго поколения относятся системы распознавания имен. Основаны эти системы на использовании ключевых слов (имен), хранимых, естественно, в базе данных системы. Множество хранимых слов и ограничивает возможные имена (при вызове телефонного абонента, например) и распознавае­мые команды и вопросы. Система Voice Writer компании Curzvail позволяет рас­познавать около 10 000 слов английского языка, которые после идентификации преобразуются в соответствующие ASCII-последовательности и либо исполняют­ся машиной (если это команды), либо заносятся в файл. Система компании Charles Schwab & Co., специализирующейся на предоставлении брокерских услуг участ­никам фондового рынка, при обработке более 10 тыс. названий и десятков видов ценных бумаг обеспечивает при распознавании 95%-ю точность (это, конечно, очень слабо, но количество клиентов этой справочной службы не убывает).

Существенно сложнее системы третьего поколения, строящие диалог с пользо­вателем с помощью системы голосовых меню. Такие системы основаны на идее обучения: в течение некоторого времени система обучается на большом количе­стве типовых речевых диалогов (включающих, кстати, и слова-паразиты). В ходе этого обучения строится рабочий словарь и база данных отношений между отдель­ными словами. Примером системы третьего поколения может служить Natural Dialogue System фирмы Philips, используемая швейцарской железнодорожной ком­панией Swiss Railwais для справочной системы, обслуживающей не только желез­нодорожные, но и автобусные маршруты, и паромные переправы.

Системы распознавания предложений и связной речи

Системы этой группы делятся на системы раздельной диктовки и системы распо­знавания связной речи.

Системы раздельной диктовки проще в разработке и технической реализации, но они требуют от пользователя не совсем естественного произнесения фраз — с ко­роткой паузой перед каждым следующим словом. К таким системам относятся, например, ViaType корпорации IBM, Dragon Dictate фирмы Dragon System. По­следняя система позволяет, наряду с прочим, непосредственно надиктовывать текст в программы Word, Word Perfect, Internet Explorer, Netscape Navigator и т. д. Ак­тивный словарь системы насчитывает десятки тысяч слов и может пополняться пользователем, скажем, по его профессиональной тематике. В системе дополни­тельно анализируются спектральные (частотные) характеристики каждой буквы, выделяются и хранятся ее отдельные фонемы (элементы спектра). На основе это­го анализа создаются фонетические модели букв и формируемых из них слов. Точ­ность распознавания достигает 90 %, а после проверки по словарю еще значитель­но повышается.

Наиболее сложные проблемы возникают при распознавании связной речи. При произнесении связной речи больше сказывается эмоциональная составляющая вводимой информации, и при слитном произношении слов несколько изменяется их звучание — все это, безусловно, затрудняет распознавание. Наиболее продвинутыми системами распознавания слитных текстов можно считать системы распознавания речи: Naturally Speaking Delux компании Dragon System, Via Voice корпорации IBM и WildFire фирмы Wildfire Communication, Voice Xpress фирмы Lernoute&Hauspie SpeechProducts. Названные системы позволяют после длительной «тренировки» программы надиктовывать ПК тексты и отдельные команды, иногда даже разными операторами. Так, система ViaVoice позво­ляет многие виды работ на компьютере выполнять в речевом режиме. Можно на­диктовывать текст (письма, отчеты, статьи) непосредственно в Windows-приложе­ния, открывать и закрывать компьютерные файлы, ориентироваться в пределах рабочего стола. Такие речевые команды, как «file save, fale print, scroll up, scroll down» безошибочно выполняются компьютером. Скорость ввода текста достигает 140 слов в минуту, что намного больше средней скорости ввода-информации с клавиатуры.

Системы идентификации по образцу речи

Идентификация по образцу речи относится к биометрическим технологиям иден­тификации человека по его уникальным физическим признакам, таким как отпе­чатки пальцев, рисунок радужной оболочки глаз. Речь, подобно подписи, харак­теризуется множеством постоянных физических параметров (которые, кстати, существенно меньше меняются со временем, чем внешность человека). Цель сис­тем идентификации по образцу речи — идентифицировать конкретного известно­го системе пользователя и выявить самозванца. Взаимодействие пользователя с си­стемой идентификации состоит из трех этапов:

· регистрации пользователя с целью запоминания особенностей его голоса и фор­мирования для него речевой модели;

· тестирования, во время которого выполняется сравнение поступившего образ­ца речи с запомненной речевой моделью пользователя, а также возможное вы­явление модели самозванца из базы моделей голосов множества прочих людей;

· допуска к работе в системе, если тестирование прошло успешно, и пользователь назвал верный пароль.

Механизм распознавания речи

Механизм распознавания речи состоит обычно из четырех основных блоков:

· препроцессора;

· экстрактора;

· компаратора;

· интерпретатора.

Препроцессор или модуль сбора данных обеспечивает приведение речевого сигна­ла к наиболее качественному виду (производится автоматическая регулировка усиления, подавление эхо-сигнала, фиксация наличия или отсутствия речи и ин­тонационного конца фразы).

Экстрактор выполняет спектральный анализ сигнала. Акустическо-фонетический поток звуков разбивается на короткие кадры (длительностью примерно по 10 мс) и выявляются спектральные характеристики каждого кадра.

Компаратор выполняет акустическое сравнение выявленных характеристик каж­дого кадра с имеющимися акустическо-фонетическими образцами. Сравнение про­изводится на уровнях выявления контекстно-независимых фонем, контекстно-за­висимых фонем и моделей слов.

Интерпретатор решает задачу наилучшего разбиения полученного компаратора «алфавитного» потока на слова и фразы.




Поделиться с друзьями:


Дата добавления: 2014-01-06; Просмотров: 1503; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.015 сек.