КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Морфология (морфонализ)
Словообразование (дериватология) Главные проблемы АОТ Сегментация и снятие омонимии (на морфемном уровне)
лист-в-енн-иц-а ? лист-в-ен-ниц-а ? лист-в-е-нн-ица ? лист-венниц-а … … Проблема описания значений морфем Определение инвентаря морфем Принципы формализация подачи информации в словарях морфем и грамматиках
Проблема идиоматичности слова Подснежник = предмет (-ник), находящийся ниже (под-) [снега].
Снег – мин. непроизводная единица. Вопрос применимости для извлечения информации о лексическом значении
Проблема неуниверсальности СО-моделей тигр + -иц- = тигрица тигр + -енок = тигренок
Аналогично: лев – левица – левенок (?) бык – бычица – бычонок (?)
Проблема морфемного варьирования ДРУГ дру[г]а, дру[к], о дру[г’]е ДРУЖОК дру[ж]ок, дру[ш]ка ДРУЗЬЯ дру[з’]ья
музей – музея – музеи: музе(j)-0 – музе(j)-а – музе(0)-и
СО-синтез. Частный пример лингвистической формализации красный – краснота гладкий – гладкость синий – синева желтый – желтизна … … Разветвленная модель, позволяющая на основании формальных и семантических (!) признаков определить, образуется или не образуется слово. Преобладание форманта -ость верный – верность краткий - краткость Специфика активных словообразовательных моделей Модели, позволяющие на основании формальных и семантических признаков определить, образуется или не образуется слово.
Разветвленность и громоздкость алгоритмов. Включенность неавтоматизированных элементов. Сложность русского словообразования. Выводы: Словообразовательные структуры проще давать списком, гнездами, тем более что сегодня можно позволить себе затратность в плане компьютерных ресурсов. С другой стороны, описание аффиксов может быть полезно в процедуре морфологического и семантического анализа слов, отсутствующих в БД: * компьютерность (мышления) компьютерн-ый + -ость. Применимость СО-анализа в практике обучения РКИ в системах машинного перевода как дополнение разных видов АОТ
Но! Ограниченность использования из-за перечисленных проблем.
Задачи обобщение грамматических форм (окно – окна – окне – окнами и т.п.) в различных программах, связанных с АОТ разведение форм, относящихся к разным парадигмам (disambiguation, снятие неоднозначностей): после – 1) после (нар.), 2) после (предл.), 3) посол (сущ.)
Морфологическая классификация языков изолирующие агглютинирующие инкорпорирующие флективные – наверно, самые продуктивные и интересные для разработки моделей морфологического анализа Граматический словарь Примеры словарных статей 1/бол<еть нсв нп 1a (_о живом существе_) 2/бол<еть нсв нп 5b (_о частях тела_) б>олеутол<ение с 7a б>олеутол<яющий п 4a болив<ар м 1a (_шляпа_) бол<ивар м 1a (_денежная единица_) болив<иец мо 5*a болив<ийка жо 3*a болив<ийский п 3a!& болигол<ов м 1a бол<ид м 1a
Особенности именной парадигмы падежей nom — именительный падеж (голова, сын, степь, сани, который) gen — родительный падеж (головы, сына, степи, саней, которого) dat — дательный падеж (голове, сыну, степи, саням, которому) acc — винительный падеж (голову, сына, степь, сани, который/которого) ins — творительный падеж (головой, сыном, степью, санями, которым) loc — предложный падеж ([о] голове, сыне, степи, санях, котором) gen2 — второй родительный падеж (чашка чаю) acc2 — второй винительный падеж (постричься в монахи; по два человека) loc2 — второй предложный падеж (в лесу, на оси́) voc — звательная форма (Господи, Серёж, ребят) adnum — счётная форма (два часа́, три шара́)
Особенности глагольной парадигмы инфинитив личные формы причастия (грамматически прилагательные) деепричастия Итого около 150 форм + возвратные (» 80) Прочие проблемы Чисто флективные классы: стол – стола – столы Словоизменение с чередованием: потолок – потолока – потолоки (?) Словоизменение с супплетивизмом: человек – человека – человеки (?) меня – меню – мень (?)
По словарю А. А. Зализняка 8 типов именного словоизменения (с подтипами) 16 типов глагольного словоизменения (с подтипами) особые типы склоненичя местоимений, числительных и т.д. наличие «изолированной» лексики, не подчиняющейся общим моделям (глаголы типа БЫТЬ) А еще «многословные» слова, фразеологизмы! В течение, в виде, без устали, на ощупь, до упаду
Крутиться (крутится, кручусь, крутилась…) как белка в колесе Положить (положишь, положил…) зубы на полку Черт с… (тобой, ним, этим, лекцией…) Пример работы морфоанализатора Вывод программы (Mystem, Яндекс) http://company.yandex.ru/technologies/mystem/ Вывод программы (Mystem, Яндекс) http://company.yandex.ru/technologies/mystem/ Проблема грамматической омонимии стекла – стечь стекла – стекло
при – при (предлог) при – переть (императив) при – пря (напр. род. п. ед. ч.) = устар. ссора, спор, состязание; то же, что распря.
Формально-графический принцип анализа Основа + флексия: мыш-Ь мыш-И мыш-И мыш-Ь мыш-ЬЮ мыш-И Виды морфоанализа со словарем основ со словарем словоформ методом логического умножения без словаря, с помощью таблиц Чистый стеммер малопродуктивен для РЯ: * кровать – кроваю – кроваешь – по типу читать (?) * кровать – кровлю – кровишь – по типу спать (?) * кровать – крую – круешь – по типу сновать (?) Самое лучшее! комбинированные модели! Требования к современному алгоритму объем словаря (покрытие 98-99%) словоизменительный алгоритм эффективная гипотетическая обработка новых слов обучаемость системы технические характеристики Использование морфоанализа системы информационного поиска лингвистические корпуса машинный перевод автоматизированная проверка грамотности … … … Самые известные свободно распространяемые программы русского морфологического анализа: MyStem (Яндекс) Диалинг, Dialing (АОТ.ру)
Снятие неоднозначностей: постморфология частота употребления форм: при – предлог, при – от устар. пря а – союз, частица, междометие, существительное? анализ ближайшего контекста, шаблоны: Л. П. Быков, профессор, зав. кафедрой учет повторных употреблений в тексте Быков – Быкова – Быковым. В одном контексте (?): * Быков пасет пастух Быков. подробный синтаксический анализ: функция в предложении, особенности согласования, управления и т.п. подключение словарей оборотов: в + течение = в_течение (предлог)
Общие проблемы морфоанализа объем словаря (больше или меньше?) развитие системы (пополнение и чистка базы)
Дата добавления: 2015-07-02; Просмотров: 602; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |