Режим обучения устройства

12 Следующая ⇒

(Режим 1):

Диктор (Д) последовательно произносит в микрофон отдельные слова. Речевой сигнал с микрофона усиливается усилителем и в нормированном виде поступает на дальнейшую обработку – блок 1. Далее в блоке 2 происходит преобразование аналогового речевого сигнала X(t) в цифровую форму – формируется цифровое информационное описание речевого сигнала X*(t). Алгоритм формирования цифрового описания зависит от того, какой метод положен в основу формирования признаковых параметров. Будем считать, что речевой сигнал подвергается спектральному анализу. В блоке 3 происходит формирование словаря УРВ и запись словаря в память устройства. Формирование словаря происходит последовательно для всех слов, которые должны входить в словарь. На этом заканчивается режим 1 – режим обучения УРВ.

РЕЖИМ РАСПОЗНАВАНИЯ (режим 2): Этот режим является основным, то есть это собственно режим распознавания слов. Начальная часть режима (блоки 1 и 2) реализуются аналогично.

Сформированный цифровой образ, произнесённого диктором слова – реализация Xp(i) – поступает в блок 4, в котором происходит сравнение реализации с эталонами Xэ(j). В этом же блоке происходит нормализация темпа речи методом деформации оси времени с тем, чтобы длительность звучания реализации соответствовала длительности звучания эталона. Результатом работы блока 4 являетсямассив данных – так называемых мер сходства (или несходства) – {Mk}, каждая из которых характеризует близость произнесённого слова к эталонам.

В блоке 5 происходит анализ мер сходства и вырабатывается решение, определяющее результат распознавания.

Возможны 5 вариантов решения (подсказок диктору):

а). Входная реализация тождественна (близка) одному из эталонов заданного словаря.

б). Реализация не принадлежит данному словарю.

в). Реализация равноудалена от нескольких эталонов словаря.

г). Реализация произнесена тихо.

д). Реализация не принадлежит к классу речевых сигналов (помеха).

2.2 Обобщённая структура устройства распознавания речи.

Обобщённая структура устройства распознавания речи (УРВ) приведена на рис. 4. В приведённой структуре УРВ используется метод спектрального представления речевого сигнала.

На структурной схеме использованы следующие обозначения:

Д – дисплей (мини дисплей) устройство, замыкающее цепь обратной связи, позволяющее информировать диктора о состоянии устройства (режим подсказок диктору);

ПЗУ – постоянное запоминающее устройство, хранящее микропрограммы управления ЭВМ нижнего уровня (МП, микро ЭВМ);

ОЗУ-ЭТ – оперативное запоминающее устройство эталонов, хранящее эталоны;

ПП – предпроцессор, аналого-цифровое вычислительное устройство, осуществляющее спектральный анализ речевого сигнала с последующим преобразованием данных в цифровую форму;

ЭВМ (МП, μЭВМ) – ЭВМ нижнего уровня, управляющая потоками информации в УРВ;

ПДП – процессор динамического программирования, осуществляющий вычисление мер сходства между реализациями и эталонами;

Кл – клавиатура;

ИБ – интерфейсный блок (интерфейс), связывающий УРВ с ЭВМ верхнего уровня.

Данная структура функционирует в полном соответствии с моделью устройства речевого ввода, рассмотренного выше.

Определённую специфику в данную структуру вносит предпроцессор, который реализует начальную стадию работы устройства как в режиме обучения (создания словаря), так и в режиме распознавания. Структура предпроцессора во многом определяет работу УРВ в целом.

12 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2014-01-07; Просмотров: 298; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2025) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.007 сек.