Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Управление голосом Vocollect

ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ

YY градусов

Была

XX часов

В

Поиск и выбор из памяти (ПОп) этих элементарных сообщений выполняется программой.

Формирование более сложных сообщений требует базы синтаксических правил, сложных программ, а также элементов, присущих способам синтеза речи по правилам.

 

 

Каждый пользователь мечтает о том, что бы иметь возможность подключить микрофон (или диктофон) к компьютеру и видеть весь поток слов в текстовом редакторе или, что бы его слова воспринимались, как команды к исполнению соответствующими устройствами, по его желанию.

4.1. Еще в 1996 г. компания Lernout & Hauspie Speech Products

предоставила лицензию на разработанную ею технологию распознавания речи (Automatic Speech Recognition, ASR) корейской корпорации LG Group для использования в широком спектре продуктов - бытовой электронике, средствах связи и компьютерных системах.

В частности, устройства Hands Free Phone ("телефон, оставляющий руки свободными"). Пользователи такого телефона могут голосом диктовать требуемый номер и выбирать те или иные функции. LG использует, так же технологию распознавания речи при создании мультимедиа-ПК, в системах автонавигации, в "обучаемых" роботах.

Технология распознавания речи, разработанная Lernout & Hauspie многоязычна. В настоящее время она поддерживает целый спектр языков: американский и британский английский, французский, немецкий, а так же корейский, арабский, китайский и японский. Именно многоязычность послужила решающим фактором при выборе лицензируемой технологии ASR.

Lernout & Hauspie, так же предоставила лицензию на свою технологию ASR компании Acer Sertek, входящей в состав Acer Group

 

для использования распознавания речи при разработке мультимедиа-приложений, которыми будут комплектоваться ПК и периферийные устройства производства Acer.

Впервые представленная на мировом рынке около 10 лет назад, технология распознавания речи (или голосовая технология) доказала свою эффективность в широком спектре отраслей. Практика показывает, что использование технологии распознавания речи, например на складах позволяет:

  • Увеличить производительность более чем на 35%;
  • Увеличить точность операций по сбору заказов до 99,99%;
  • Сократить время, необходимое для обучения персонала на 50 %;
  • Минимизировать дефицит товара на складе.

 

Фирма Psion Teklogix, например разработала комплексную голосовую систему Vocollect®, включающую в себя терминал Talkman T2, по сути это многофункциональный носимый индустриальный компьютер, управляемый голосом, с поддержкой беспроводной связи.

 

Терминал Talkman T2 использует систему распознавания речи Vocollect®, интегрированную с технологией синтеза речи, предоставляющую пользователям связь в реальном времени со складом, производством и другими бизнес - системами. Внутренняя архитектура терминала, совместимая со стандартом Wi-Fi, предоставляет возможность интеграции в существующие или новые радиосети.

Как работает система?

Система Voice-Directed Distribution™ принимает выдаваемые центральным компьютерной системой управления (ЦКСУ) задачи (например, список отбора или запрос на пополнение) и передает сотрудникам голосовые пошаговые указания по выполнению их повседневных задач. Терминал Talkman преобразует данные в речевые команды, направляя сотрудника к определенному проходу и ячейке. Сотрудники подтверждают свое местонахождение, произнося в микрофон гарнитуры системы распознавания речи числовой идентификатор (контрольное число).

Система распознавания речи преобразует слова сотрудника в текст и отправляет эти данные по беспроводной сети обратно в ЦКСУ. При выполнении задачи сотрудник общается с ЦКСУ через носимый на ремне терминал Talkman и гарнитуру системы распознавания речи (наушники с микрофоном). Система производит учет количества единиц отобранного товара только после произнесения сотрудником

 

правильного проверочного числа. В этот момент задание считается завершенным, и пользователь направляется к следующему месту, указанному в задаче.

Все это позволяет:

· выполнять работу быстрее, с большей точностью и более высоким уровнем безопасности;

· исправлять ошибки инвентаризации сразу при их появлении;

· снижать количество ошибок при комплектовании заказа;

· контролировать работу персонала;

· снижать количество бумажной документации.

 

Программное обеспечение Vocollect®

Программа VoiceClient установленная на терминале Talkman T2 включает в себя индустриальную систему распознавания речи. Vocollect® организована как базирующаяся на распознавании слов и зависимая от голоса пользователя система, предназначенная специально для зашумленных производственных помещений.

 

Система может поддерживать пользователей, говорящих на разных языках и распознавать отдельные слова отфильтровывая любые лишние фоновые звуки и шум.

4.3. Система распознавания речи «Dragon Naturally Speaking»

Разработка компании Nuance (капитализация 5 млрд. долларов) – программный продукт, система диктовки для любого текста и любого пользователя на английском языке. Система требует пред началом работы адаптации языковых моделей и расширения словаря. Адаптация языковых моделей производится путем загрузки в систему типичных для работы пользователя текстов и последующей корректировки статистических языковых моделей. Расширение словаря – задача пользователя. Насколько успешно он с ней справится, настолько успешно будет работать система. Любая система распознавания знает только те слова, что есть в ее словаре. Существует в этой системе и подстройка под голос диктора. Для этого нужно минут тридцать почитать тексты, предложенные системой, что бы программа адаптировала параметры существующих акустических моделей.

Следует четко понимать, что на данном этапе (а может быть и в принципе) создание универсального продукта невозможно. Например, для журналистов, которые проводят интервью с разными людьми,

 

 

в разном окружении, в разных местностях. Надеяться на появление мобильных и даже стационарных устройств для распознавания спонтанной речи не приходится. Спонтанная речь отличается более сложными языковыми и акустическими моделями. Вычислительные мощности и речевые базы спонтанной речи должны иметь гигантские размеры. В то же время системы с ограниченным специализированным словарем есть и хорошо работают. Например, их используют медицинские учреждения в США. Известно, что медицинским работникам постоянно требуется делать какие – то записи, будь то история болезни или протоколирование действий. Медики в США наговаривают текст, который автоматически переводится в машинный вид. Затем текст подвергается косметической правке. Соответствующие технологии есть у фирмы Nuance. Объем продаж медицинских систем распознавания речи в США составляет 12 – 15 млрд. долларов. Можно, так же отметить мультимедийную систему изучения английского языка в игровой форме «TriplePlayPlus English». Разработка Сиракузского университета США (так же разновидность системы Dragon), в которой реализован диалоговый речевой режим обучаемого и программы. Производится предварительная настройка по принципу (мужчина, женщина или ребенок). Затем, в ходе речевого диалога, программа не пропустит на следующий этап обучения до тех пор, пока ее не «удовлетворит» произношение обучаемого.

В целом, в плане практического применения, наибольших успехов достигли системы на ограниченных специализированных словарях.

4.4. Разработка «Горыныч».

Это доморощенная адаптация под русский язык системы распознавания речи «Dragon Naturally Speaking» от компании Nuance.


Основные свойства:

· вывод речевого текста может производиться в любые текстовые редакторы, а также в иные программы независимо от их производителя;

· совместимость с операционными системами Windows;

· удобный интерфейс, включая настройку микрофона;

· возможность добавлять в словарь собственные слова;

· тренировка слов непосредственно в процессе диктовки.


Требуемые ресурсы:

· Процессор Pentium® 500 МГц;

· 64 МБ оперативной памяти;

· 250 МБ свободного места на жестком диске;

· Звуковое устройство 16 бит с микрофонным входом;

· Устройство для чтения компакт-дисков;

· Микрофон (рекомендуется гарнитура – микрофон и наушники).

Тем не менее, разработку «Горыныч» нельзя признать удачной (специалисты называют ее «весьма неуклюжей»). Причина - прототип «Dragon» создавался для английского языка, организованного совершенно иначе, чем русский.

В английском и подобных языках есть жесткая последовательность слов в предложениях. С русским языком у специалистов возникают немалые трудности. В области акустики наибольшую проблему для распознавания русской речи представляет необычайно сильная количественная и качественная изменчивость гласных безударных слогов, частично обусловленная свободным характером словесного ударения. Это приводит к нейтрализации и «размазыванию» акустических свойств сегментов, особенно в спонтанной разговорной речи.

 

<== предыдущая лекция | следующая лекция ==>
ЛПК - синтезаторы | 
Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 345; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.023 сек.