Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Морфология (морфонализ)




Словообразование (дериватология)

Главные проблемы АОТ

Сегментация и снятие омонимии

(на морфемном уровне)

 

лист-в-енн-иц-а

? лист-в-ен-ниц-а

? лист-в-е-нн-ица

? лист-венниц-а

… …

Проблема описания значений морфем

Определение инвентаря морфем

Принципы формализация подачи информации в словарях морфем и грамматиках

 

Проблема идиоматичности слова

Подснежник = предмет (-ник), находящийся ниже (под-) [снега].

 

Снег – мин. непроизводная единица.

Вопрос применимости для извлечения информации о лексическом значении

 

Проблема неуниверсальности СО-моделей

тигр + -иц- = тигрица

тигр + -енок = тигренок

 

Аналогично:

лев – левица – левенок (?)

бык – бычица – бычонок (?)

 

Проблема морфемного варьирования

ДРУГ

дру[г]а, дру[к], о дру[г’]е

ДРУЖОК

дру[ж]ок, дру[ш]ка

ДРУЗЬЯ

дру[з’]ья

 

музей – музея – музеи:

музе(j)-0 – музе(j)-а – музе(0)-и

 

СО-синтез. Частный пример лингвистической формализации

красный – краснота

гладкий – гладкость

синий – синева

желтый – желтизна

… …

Разветвленная модель, позволяющая на основании формальных и семантических (!) признаков определить, образуется или не образуется слово.

Преобладание форманта -ость

верный – верность краткий - краткость

Специфика активных словообразовательных моделей

Модели, позволяющие на основании формальных и семантических признаков определить, образуется или не образуется слово.

 

Разветвленность и громоздкость алгоритмов. Включенность неавтоматизированных элементов.

Сложность русского словообразования.

Выводы:

Словообразовательные структуры проще давать списком, гнездами, тем более что сегодня можно позволить себе затратность в плане компьютерных ресурсов.

С другой стороны, описание аффиксов может быть полезно в процедуре морфологического и семантического анализа слов, отсутствующих в БД:

* компьютерность (мышления)

компьютерн-ый + -ость.

Применимость СО-анализа

в практике обучения РКИ

в системах машинного перевода

как дополнение разных видов АОТ

 

Но!

Ограниченность использования из-за перечисленных проблем.

 

Задачи

обобщение грамматических форм

(окно – окна – окне – окнами и т.п.)

в различных программах, связанных с АОТ

разведение форм, относящихся к разным парадигмам (disambiguation, снятие неоднозначностей):

после – 1) после (нар.), 2) после (предл.), 3) посол (сущ.)

 

Морфологическая классификация языков

изолирующие

агглютинирующие

инкорпорирующие

флективные – наверно, самые продуктивные и интересные для разработки моделей морфологического анализа

Граматический словарь
А. А. Зализняка

Примеры словарных статей

1/бол<еть нсв нп 1a (_о живом существе_)

2/бол<еть нсв нп 5b (_о частях тела_)

б>олеутол<ение с 7a

б>олеутол<яющий п 4a

болив<ар м 1a (_шляпа_)

бол<ивар м 1a (_денежная единица_)

болив<иец мо 5*a

болив<ийка жо 3*a

болив<ийский п 3a!&

болигол<ов м 1a

бол<ид м 1a

 

Особенности именной парадигмы падежей

nom — именительный падеж (голова, сын, степь, сани, который)

gen — родительный падеж (головы, сына, степи, саней, которого)

dat — дательный падеж (голове, сыну, степи, саням, которому)

acc — винительный падеж (голову, сына, степь, сани, который/которого)

ins — творительный падеж (головой, сыном, степью, санями, которым)

loc — предложный падеж ([о] голове, сыне, степи, санях, котором)

gen2 — второй родительный падеж (чашка чаю)

acc2 — второй винительный падеж (постричься в монахи; по два человека)

loc2 — второй предложный падеж (в лесу, на оси́)

voc — звательная форма (Господи, Серёж, ребят)

adnum — счётная форма (два часа́, три шара́)

 

 

Особенности глагольной парадигмы

инфинитив

личные формы

причастия (грамматически прилагательные)

деепричастия

Итого около 150 форм + возвратные

(» 80)

Прочие проблемы

Чисто флективные классы:

стол – стола – столы

Словоизменение с чередованием:

потолок – потолока – потолоки (?)

Словоизменение с супплетивизмом:

человек – человека – человеки (?)

меня – меню – мень (?)

 

По словарю А. А. Зализняка

8 типов именного словоизменения (с подтипами)

16 типов глагольного словоизменения (с подтипами)

особые типы склоненичя местоимений, числительных и т.д.

наличие «изолированной» лексики, не подчиняющейся общим моделям (глаголы типа БЫТЬ)

А еще «многословные» слова, фразеологизмы!

В течение, в виде, без устали, на ощупь, до упаду

 

Крутиться (крутится, кручусь, крутилась…) как белка в колесе

Положить (положишь, положил…) зубы на полку

Черт с… (тобой, ним, этим, лекцией…)

Пример работы морфоанализатора
Исходный текст

Вывод программы (Mystem, Яндекс) http://company.yandex.ru/technologies/mystem/

Вывод программы (Mystem, Яндекс) http://company.yandex.ru/technologies/mystem/

Проблема грамматической омонимии

стекла – стечь

стекла – стекло

 

при – при (предлог)

при – переть (императив)

при – пря (напр. род. п. ед. ч.) = устар. ссора, спор, состязание; то же, что распря.

 

Формально-графический принцип анализа

Основа + флексия:

мыш-Ь

мыш-И

мыш-И

мыш-Ь

мыш-ЬЮ

мыш-И

Виды морфоанализа

со словарем основ

со словарем словоформ

методом логического умножения

без словаря, с помощью таблиц

Чистый стеммер малопродуктивен для РЯ:

* кровать – кроваю – кроваешь – по типу читать (?)

* кровать – кровлю – кровишь – по типу спать (?)

* кровать – крую – круешь – по типу сновать (?)

Самое лучшее!

комбинированные модели!

Требования к современному алгоритму

объем словаря (покрытие 98-99%)

словоизменительный алгоритм

эффективная гипотетическая обработка новых слов

обучаемость системы

технические характеристики

Использование морфоанализа

системы информационного поиска

лингвистические корпуса

машинный перевод

автоматизированная проверка грамотности

… … …

Самые известные свободно распространяемые программы русского морфологического анализа:

MyStem (Яндекс)

Диалинг, Dialing (АОТ.ру)

 

Снятие неоднозначностей: постморфология

частота употребления форм:

при – предлог, при – от устар. пря

а – союз, частица, междометие, существительное?

анализ ближайшего контекста, шаблоны:

Л. П. Быков, профессор, зав. кафедрой

учет повторных употреблений в тексте

Быков – Быкова – Быковым. В одном контексте (?):

* Быков пасет пастух Быков.

подробный синтаксический анализ:

функция в предложении, особенности согласования, управления и т.п.

подключение словарей оборотов:

в + течение = в_течение (предлог)

 

Общие проблемы морфоанализа

объем словаря (больше или меньше?)

развитие системы (пополнение и чистка базы)

 




Поделиться с друзьями:


Дата добавления: 2015-07-02; Просмотров: 565; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.