Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Режим обучения устройства




(Режим 1):

Диктор (Д) последовательно произносит в микрофон отдельные слова. Речевой сигнал с микрофона усиливается усилителем и в нормированном виде поступает на дальнейшую обработку – блок 1. Далее в блоке 2 происходит преобразование аналогового речевого сигнала X(t) в цифровую форму – формируется цифровое информационное описание речевого сигнала X*(t). Алгоритм формирования цифрового описания зависит от того, какой метод положен в основу формирования признаковых параметров. Будем считать, что речевой сигнал подвергается спектральному анализу. В блоке 3 происходит формирование словаря УРВ и запись словаря в память устройства. Формирование словаря происходит последовательно для всех слов, которые должны входить в словарь. На этом заканчивается режим 1 – режим обучения УРВ.

РЕЖИМ РАСПОЗНАВАНИЯ (режим 2): Этот режим является основным, то есть это собственно режим распознавания слов. Начальная часть режима (блоки 1 и 2) реализуются аналогично.

 

Сформированный цифровой образ, произнесённого диктором слова – реализация Xp(i) – поступает в блок 4, в котором происходит сравнение реализации с эталонами Xэ(j). В этом же блоке происходит нормализация темпа речи методом деформации оси времени с тем, чтобы длительность звучания реализации соответствовала длительности звучания эталона. Результатом работы блока 4 являетсямассив данных – так называемых мер сходства (или несходства) – {Mk}, каждая из которых характеризует близость произнесённого слова к эталонам.

В блоке 5 происходит анализ мер сходства и вырабатывается решение, определяющее результат распознавания.

 

Возможны 5 вариантов решения (подсказок диктору):

а). Входная реализация тождественна (близка) одному из эталонов заданного словаря.

б). Реализация не принадлежит данному словарю.

в). Реализация равноудалена от нескольких эталонов словаря.

г). Реализация произнесена тихо.

д). Реализация не принадлежит к классу речевых сигналов (помеха).

2.2 Обобщённая структура устройства распознавания речи.

 

Обобщённая структура устройства распознавания речи (УРВ) приведена на рис. 4. В приведённой структуре УРВ используется метод спектрального представления речевого сигнала.

На структурной схеме использованы следующие обозначения:

Д – дисплей (мини дисплей) устройство, замыкающее цепь обратной связи, позволяющее информировать диктора о состоянии устройства (режим подсказок диктору);

ПЗУ – постоянное запоминающее устройство, хранящее микропрограммы управления ЭВМ нижнего уровня (МП, микро ЭВМ);

ОЗУ-ЭТ – оперативное запоминающее устройство эталонов, хранящее эталоны;

ПП – предпроцессор, аналого-цифровое вычислительное устройство, осуществляющее спектральный анализ речевого сигнала с последующим преобразованием данных в цифровую форму;

ЭВМ (МП, μЭВМ) – ЭВМ нижнего уровня, управляющая потоками информации в УРВ;

ПДП – процессор динамического программирования, осуществляющий вычисление мер сходства между реализациями и эталонами;

Кл – клавиатура;

ИБ – интерфейсный блок (интерфейс), связывающий УРВ с ЭВМ верхнего уровня.

 

Данная структура функционирует в полном соответствии с моделью устройства речевого ввода, рассмотренного выше.

Определённую специфику в данную структуру вносит предпроцессор, который реализует начальную стадию работы устройства как в режиме обучения (создания словаря), так и в режиме распознавания. Структура предпроцессора во многом определяет работу УРВ в целом.

 




Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 280; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.