Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Cпособ представления морфологической информации

Интерфейс библиотеки

Модуль морфологического анализа

Морфологический анализ

Для формирования словаря корневых основ на лексическом уровне использовался модуль морфологического анализа, разработанный в Донецком институте искусственного интеллекта [3].

 

В комплект поставки библиотеки морфологического анализа слов русского языка входят следующие файлы:

- GlobalFunc.h – заголовочный файл с описанием экспортируемых функций и используемых типов;

- UkrDeclareLemma.dll, UkrDeclareLemma.lib – файлы библиотеки;

- tab.dat, tree.dat, connect.dat – файлы, содержащие данные словарной базы.

 

Интерфейс библиотеки позволяет выполнять действия по следующим направлениям:

- очистка, загрузка и сохранение словарной базы;

- модификация словарной базы;

- получение информации о словоформах;

- получение информации о словарной базе;

- служебные функции.

 

Морфологическая информация хранится в виде набора бито­вых полей. Такой способ сочетает в себе простоту обработки и экономное хранение морфологической информации. При таком способе извлечение отдельных морфологических характеристик слова про­изводится единообразно, невозможна неверная интерпретация морфологи­ческой информации.

Перечень обозначений морфоло­гических характеристик, приведен в таблице 3.1. Для извлечения мор­фологической информации, используются маски категорий морфологической информации, приведенные в таблице 3.2.

Определение значения одной из категорий, например рода, происходит путём применения операции побитового «и» значения морфологической ин­формации и маски категорий. Если словоформе категория не присуща, то результат операции побитового «и» её морфологической информации и маски этой категории будет равен 0. Приведем примеры извлечения значений отдельных категорий морфологической информации.

Пример определения значения категории «род» словоформы: MI & rod_mask Результат: _Masculine, _Feminine, _Neuter или 0.

 

Таблица 3.1 – Представление морфологической информации

Значение Категория Значение
Числовое Макроопределения
0x00000001 Nominative Падеж Именительный
0x00000002 _Genitive Родительный
0x00000003 _Dative Дательный
0x00000004 _Accusative Винительный
0x00000005 _Ablative Творительный
0x00000006 _Locative Предложный
0x00000007 _Vocative Звательный
0x00000008 _Masculine Род Мужской
0x00000010 _Feminine Женский
0x00000018 _Neuter Средний
0x00000020 _Singular Число Единственное
0x00000040 _Plural Множественное
0x00000080 _Past Время Прошедшее
0x00000100 _Future Будущее
0x00000180 _Continius Настоящее
0x00000200 _FaceFir Лицо 1-е
0x00000400 _FaceSec 2-е
0x00000600 _FaceThi 3-е
0x00000800 _Active Залог Действительный
0x00001000 _Passive Страдательный
0x00002000 _ComparativeFormOfAdj Степень сравнения, краткость Сравнительная
0x00004000 _ExellentFormOfAdj Превосходная
0x00006000 _ShortFormOfAdj Краткая форма
0x00008000 _Verb Часть речи Глагол
0x00010000 _Participle Причастие
0x00018000 _Gerund Деепричастие
0x00020000 _Adjective Прилагательное
0x00028000 _Noun Существительное
0x00030000 _Pronoun Местоимение
0x00038000 _Numeral Числительное
0x00040000 _AdVerb Наречие
0x00048000 _Preposition Предлог
0x00050000 _Conjunction Союз
0x00058000 _Particle Частица
0x00060000 _Interjection Междометие
0x00068000 _Predicate Предикатив
0x00070000 _Poslelog Послелог
0x00078000 _ComparativeWord Сравнительное слово
0x00080000 _Animate Одушевлен­ность Одушевленное
0x00100000 _NotAnimate Неодушевленное
0x00200000 _Imperative Наклонение Повелительное
0x00400000 _Accomplished Вид глагола Совершенный
0x00800000 _Incomplete Несовершенный
0x00C00000 _Accompl_Incompl Совершенный/несовершенный
0x01000000 _Count Тип числительного Количественное
0x02000000 _Ordinal Порядковое
0x03000000 _PlurLive Собирательное одушевлённое
0x04000000 _PronNoun Тип местоимения Местоимение-существительное
0x08000000 _PronAdject Местоимение-прилагательное
0x0C000000 _PronPersonal Личное местоимение
0x10000000 _PronImpersonal Безличное
0x10000000 _VerbIntransitive   Непереходный глагол
0x10000000 _VerbReflexive   Возвратная форма глагола
0x800000000 _Introductory   Вводное слово

 

Таблица 3.2 – Маски категорий морфологической информации

Числовое значение Макроопределение Маска категории
0x00000007 case_mask Падеж
0x00000018 rod_mask Род
0x00000060 count_mask Число
0x00000180 time_mask Время
0x00000600 face_mask Лицо
0x00001800 active_passive_mask Залог
0x00006000 adjfrm_mask Степень сравнения, краткость
0x00078000 part_of_speech_mask Часть речи
0x00180000 animate_mask Одушевлённость
0x00C00000 aspect_of_verb_mask Вид глагола
0x03000000 number_type_mask Тип числительного
0x1C000000 pron_type_mask Тип местоимения

 

Для системы обработки текстов на морфологическом уровне важную роль играет наличие средств обработки слов, отсутствующих в словаре. Для этого необходима разработка средств морфологического анализа без словаря.


<== предыдущая лекция | следующая лекция ==>
Обзор основных алгоритмов морфологического анализа | Предикатная структура – локальное семантическое представление предложения текста
Поделиться с друзьями:


Дата добавления: 2014-01-11; Просмотров: 1203; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.013 сек.