Системы речевого ввода и вывода информации

⇐ Предыдущая 123 Следующая ⇒

Существует две технологии речевого общения с компьютером:

· системы распознавания речи;

· системы синтеза речи.

Системы распознавания речи

В системах распознавания речи выполняется оцифровка звуковой информации, ее идентификация с кодами, содержащимися в электронных тезаурусных (иногда многоязычных) словарях, необходимая автоматическая коррекция кодов и генерация соответствующих им символов, слов и предложений, возможный вывод текстов на экран для ручной их коррекции (иногда звуковое воспроизведение) и запись текстов в память машины либо исполнение «услышанных» команд.

По характеру распознаваемой речи системы речевого ввода подразделяются:

· системы, ориентированные на распознавание отдельных слов, команд и вопросов;

· системы распознавания предложений и связной речи;

· системы идентификации по образцу речи.

Системы, ориентированные на распознавание отдельных слов, команд и вопросов часто называют системами речевого управления, поскольку их основная задача - обеспечить выполнение компьютерной системой действий, задаваемых голосом.

Наибольшее распространение такие системы получили в автоматических телефонных службах. В них можно ввести голосом номер телефона вызываемого абонента или его имя; можно задать простой вопрос автоматической справочной службе.

Наиболее разработаны системы распознавания чисел, которые можно отнести к средствам распознавания первого поколения. В развитых системах такого рода человек сначала говорит свой числовой пароль, затем свой числовой идентификатор и только после этого может назвать число, кодирующее сущность запроса.

К средствам распознавания второго поколения относятся системы распознавания имен. Основаны эти системы на использовании ключевых слов (имен), хранимых, естественно, в базе данных системы. Множество хранимых слов и ограничивает возможные имена (при вызове телефонного абонента, например) и распознаваемые команды и вопросы. Система Voice Writer компании Curzvail позволяет распознавать около 10 000 слов английского языка, которые после идентификации преобразуются в соответствующие ASCII-последовательности и либо исполняются машиной (если это команды), либо заносятся в файл. Система компании Charles Schwab & Co., специализирующейся на предоставлении брокерских услуг участникам фондового рынка, при обработке более 10 тыс. названий и десятков видов ценных бумаг обеспечивает при распознавании 95%-ю точность (это, конечно, очень слабо, но количество клиентов этой справочной службы не убывает).

Существенно сложнее системы третьего поколения, строящие диалог с пользователем с помощью системы голосовых меню. Такие системы основаны на идее обучения: в течение некоторого времени система обучается на большом количестве типовых речевых диалогов (включающих, кстати, и слова-паразиты). В ходе этого обучения строится рабочий словарь и база данных отношений между отдельными словами. Примером системы третьего поколения может служить Natural Dialogue System фирмы Philips, используемая швейцарской железнодорожной компанией Swiss Railwais для справочной системы, обслуживающей не только железнодорожные, но и автобусные маршруты, и паромные переправы.

Системы распознавания предложений и связной речи

Системы этой группы делятся на системы раздельной диктовки и системы распознавания связной речи.

Системы раздельной диктовки проще в разработке и технической реализации, но они требуют от пользователя не совсем естественного произнесения фраз — с короткой паузой перед каждым следующим словом. К таким системам относятся, например, ViaType корпорации IBM, Dragon Dictate фирмы Dragon System. Последняя система позволяет, наряду с прочим, непосредственно надиктовывать текст в программы Word, Word Perfect, Internet Explorer, Netscape Navigator и т. д. Активный словарь системы насчитывает десятки тысяч слов и может пополняться пользователем, скажем, по его профессиональной тематике. В системе дополнительно анализируются спектральные (частотные) характеристики каждой буквы, выделяются и хранятся ее отдельные фонемы (элементы спектра). На основе этого анализа создаются фонетические модели букв и формируемых из них слов. Точность распознавания достигает 90 %, а после проверки по словарю еще значительно повышается.

Наиболее сложные проблемы возникают при распознавании связной речи. При произнесении связной речи больше сказывается эмоциональная составляющая вводимой информации, и при слитном произношении слов несколько изменяется их звучание — все это, безусловно, затрудняет распознавание. Наиболее продвинутыми системами распознавания слитных текстов можно считать системы распознавания речи: Naturally Speaking Delux компании Dragon System, Via Voice корпорации IBM и WildFire фирмы Wildfire Communication, Voice Xpress фирмы Lernoute&Hauspie SpeechProducts. Названные системы позволяют после длительной «тренировки» программы надиктовывать ПК тексты и отдельные команды, иногда даже разными операторами. Так, система ViaVoice позволяет многие виды работ на компьютере выполнять в речевом режиме. Можно надиктовывать текст (письма, отчеты, статьи) непосредственно в Windows-приложения, открывать и закрывать компьютерные файлы, ориентироваться в пределах рабочего стола. Такие речевые команды, как «file save, fale print, scroll up, scroll down» безошибочно выполняются компьютером. Скорость ввода текста достигает 140 слов в минуту, что намного больше средней скорости ввода-информации с клавиатуры.

Системы идентификации по образцу речи

Идентификация по образцу речи относится к биометрическим технологиям идентификации человека по его уникальным физическим признакам, таким как отпечатки пальцев, рисунок радужной оболочки глаз. Речь, подобно подписи, характеризуется множеством постоянных физических параметров (которые, кстати, существенно меньше меняются со временем, чем внешность человека). Цель систем идентификации по образцу речи — идентифицировать конкретного известного системе пользователя и выявить самозванца. Взаимодействие пользователя с системой идентификации состоит из трех этапов:

· регистрации пользователя с целью запоминания особенностей его голоса и формирования для него речевой модели;

· тестирования, во время которого выполняется сравнение поступившего образца речи с запомненной речевой моделью пользователя, а также возможное выявление модели самозванца из базы моделей голосов множества прочих людей;

· допуска к работе в системе, если тестирование прошло успешно, и пользователь назвал верный пароль.

Механизм распознавания речи

Механизм распознавания речи состоит обычно из четырех основных блоков:

· препроцессора;

· экстрактора;

· компаратора;

· интерпретатора.

Препроцессор или модуль сбора данных обеспечивает приведение речевого сигнала к наиболее качественному виду (производится автоматическая регулировка усиления, подавление эхо-сигнала, фиксация наличия или отсутствия речи и интонационного конца фразы).

Экстрактор выполняет спектральный анализ сигнала. Акустическо-фонетический поток звуков разбивается на короткие кадры (длительностью примерно по 10 мс) и выявляются спектральные характеристики каждого кадра.

Компаратор выполняет акустическое сравнение выявленных характеристик каждого кадра с имеющимися акустическо-фонетическими образцами. Сравнение производится на уровнях выявления контекстно-независимых фонем, контекстно-зависимых фонем и моделей слов.

Интерпретатор решает задачу наилучшего разбиения полученного компаратора «алфавитного» потока на слова и фразы.

⇐ Предыдущая 123 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2014-01-06; Просмотров: 1503; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.015 сек.