Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Распознавание и синтез речи

Переключатели клавиатуры

Эти программы связаны с переключением и исправлением клавиатурной раскладки (в том числе, позволяют исправлять текст, введенный не в той клавиатурной раскладке).

SwitchIt – драйвер клавиатуры способный полностью заменить стандартный переключатель, либо сотрудничать с ним.

Punto Switcher – при вводе невозможных в русском или английском языке сочетаний букв (например, Цштвщцы), производится перекодировка и переключение раскладки.

Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Главным фактором, ускорившим развитие программ распознавания речи, было совершенствование компьютеров.

Эти программы требуют большой вычислительной мощности и значительных объемов памяти. Чтобы использовать программы распознавания речи с полной отдачей, рекомендуется РС с процессором Pentium MMX/166 или аналогичным и жестким диском не менее 2 Гбайт. Перед его покупкой следует убедиться, что используемая программа распознавания речи поддерживает имеющуюся в РС звуковую карту.

Программы распознавания речи требуют всю эту мощь, поскольку они выполняют сложную работу. Сначала произносимые вами слова захватываются микрофоном и обрабатываются звуковой картой.

Затем программа анализирует звук, чтобы отличить низкочастотные гласные от высокочастотных согласных. После этого результаты сравниваются с фонемами (частями слов), группами фонем и словами, чтобы подобрать наиболее точный эквивалент.

Этот алгоритм должен быть не только аккуратным и быстрым, но пластичным, чтобы учитывать особенности произношения, модуляции голоса, скорость речи. После подбора наиболее точного слова программа анализирует контекст, что предугадать следующее слово. Это позволяет различить слова-омонимы, например, коса (вид прически), коса (береговая отмель), коса (сельскохозяйственный инструмент).

NaturallySpeaking и ViaVoice могут работать сразу после того, как вы прочтете несколько предложений. Чтобы добиться лучших результатов следует, однако, произвести 30-минутную тренировку. Чтобы еще лучше подготовить программу следует прочитать текст или импортировать документы, содержащие наиболее часто употребляемые вами слова.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека. Основным преимуществом голосовых систем является дружелюбность к пользователю — он избавляется от необходимости «продираться» сквозь сложные и запутанные лабиринты голосовых меню. Теперь достаточно произнесения цели звонка, после чего голосовая система автоматически переместит звонящего в нужный пункт меню.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

На сегодняшний день существует два типа систем распознавания речи - работающие "на клиенте" (client-based) и по принципу "клиент-сервер" (client-server). Второй вариант более популярен и прост в разработке: речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.). Второй вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки "на клиенте" в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая "на клиенте" кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.

 

<== предыдущая лекция | следующая лекция ==>
История создания | Задачи для самостоятельного решения. Общая схема исследования функции и построения графика
Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 715; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.135 сек.