КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Модель с использованием логики размытых (нечетких) множеств
В настоящей модели, основным автором которой является Д. Массаро [Massaro, 1987], большое внимание (пожалуй, большее, чем в прочих моделях) удепяется формальному механизму, с помощью которого осуществляется переход от акустических признаков, обнаруживаемых в речевом сигнале, к сегментным единицам (фонемам или слогам). Особенностью модели является также использование не только акустической, но и визуальной информации (наблюдаемых губных артикуляций и т.п.). Процедуры, описываемые Д. Массаро и его соавторами, относятся только к фонетической (в широком смысле) стороне языка и речи. Выделяются две основные стадии перцептивного процесса. На первой, как и во многих других моделях, в акустическом речевом сигнале детектируются акустические признаки. На второй с помощью установленной метрики оценивается степень близости данного акустического признака к его прототипическому, эталонному значению, ассоциированному с теми или иными фонемами (слогами). Указанная степень близости принимает вид числа в интервале от 0 до 1, т.е. от полного несовпадения до идеального совпадения; иначе говоря, используется логика размытых, или нечетких множеств, согласно которой вместо ответа "да/нет" на вопрос о принадлежности данного элемента некоторому множеству мы оцениваем меру принадлежности множеству (при вероятностной трактовке, принимаемой, впрочем, не всеми, - вероятность вхождения элемента в множество). Численное выражение меры близости выступает истинностным значением (вместо значений "истинно" и "ложно" в двузначной логике). Перемножая истинностные значения, соответствущие данным акустическим признакам, мы получаем ранг предпочтительности: величину, определяющую близость набора признаков тому идеальному, эталонному их комплексу, который отвечает той или иной фонеме или слогу. Деление истинностных значений на сумму рангов предпочтительности для всех фонем (или слогов) языка дает квазивероятностную оценку каждого из решений относительно идентичности фонемы (слога), принимаемого моделью. Модель Массаро обнаружила достаточно высокую эффективность на материале, сильно ограниченном, впрочем, качественно и количественно (некоторые типы английских открытых слогов). Д. Клатт приводит фактические примеры, по его мнению, демонстрирующие материал, плохо поддающийся обработке процедурами Массаро [Клатт, 1987; 1989]. Опыты с синтезированной речью показывают, что акустические признаки, для мужского голоса обычно ответственные за назализацию - увеличение полосы частот, соответствующей F1, и возрастание интенсивности 1-й гармоники, для женского голоса оказываются связанными с фарингализацией (breathiness), характеризующейся специфическим шумом в частотной области выше 2 кГц. Но в английском языке (Д. Клатт обсуждает эксперименты выполненные на материале английского языка) нет фарингализованных фонем, следовательно, отсутствует прототип, эталон относительно которого оценивалась бы фарингализация. Таким образом, указанное реальное соотношение признаков с поправкой на пол диктора не может быть учтено в модели Массаро. Тем не менее в целом модель Массаро, по мнению Д. Клатта, превосходит все существующие модели, пользующиеся обращением к признакам и сегментным единицам [Klatt, 1989, р.209]. 9.4.8. Модель "перцептивной стрелки" Настоящая модель отражена в нескольких публикациях Дж. Миллера и его соавторов [Miller, 1982; Miller, 1980; Miller, Jongman, 1987]. Модель содержит три основных компонента. Первый компонент моделирует слуховую систему человека, его задача - устанавливать спектральные характеристики речевого сигнала. Результатом выступает лоцирование ("расположение") сигнала в n-мерном пространстве. Для гласных это пространство трехмерно, где в качестве трех его осей используются отношения формант: FI/kF0; F3/F2; F2/F1. Второй компонент представлен механизмом, основной принцип работы которого реализуется как вращение "перцептивной стрелки" в указанном n-мерном пространстве. Стрелка пробегает значения, соответствующие данному сигналу, реагируя на них с постоянной времени 60-180 мс. Обладая инерцией и упругостью, "стрелка" при внезапной смене направления изменения параметров входного сигнала еще продолжает движение в прежнем направлении и "проскакивает" положение, соответствующее моменту этого внезапного изменения. Так, повышение F2 после взрыва в слоге [bа] приведет к тому, что "стрелка" укажет на большее, чем на стационарном участке гласного, значение F2, тогда как понижение F2 в слоге [da] приведет к обратному результату. После усреднения на интервале гласного (за счет большой постоянной времени) эффект коартикуляции будет нейтрализован; вернее, таково намерение автора модели, однако нет уверенности в том, что этот результат достижим столь простыми средствами. Третий компонент модели ответствен за принятие решения относительно характера речевого сегмента; для гласных такой сегмент считается детектированным, когда движение "перцептивной стрелки" характеризуется медленной скоростью или сменой направления. По существу, как можно понять, речь идет о том, чтобы "отстроиться" от возмущений в сигнале и определить параметры квазистационарного участка с использованием избранной метрики. Вызывает, однако, сомнения возможность установить надежные численные константы, позволяющие различать события, относящиеся к коартикуляции, от информационно независимых его изменений. Кроме того, сомнительна и сама по себе абсолютность этого различия. Хорошо известно, например, что для губных мягких согласных русского языка сигналом мягкости выступает именно коартикуляционный эффект - [i]-образный тип формантного перехода от согласного к гласному. Утрата этой информации, будучи невосстановимой, сделает невозможной идентификацию согласного - хотя идентификация гласного без такой "помехи" окажется более простой задачей.
Дата добавления: 2015-06-04; Просмотров: 530; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |