Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Морфологическая информация, этапы морфологического разбора текста




Цель МА — определить принадлежность некоторой словоформы к парадигме

определенной лексемы и грамматические признаки для этой словоформы – морфологическую

информацию (МИ) для использования ее на последующих этапах обработки ЕЯ текста.

Так для существительных этими признаками будут: род, число, падеж и склонение, для

прилагательных: род, число и падеж; для глаголов - время, лицо, число, спряжение, вид; для

местоимений – число и лицо. Классификация морфологических признаков слов русского языка

изображена на рисунке 1.

Рис.1. Морфологические признаки слов русского языка

Для русского языка, как и для большинства синтетических языков, задача лексико-

грамматического разбора решается довольно просто и почти стопроцентной точностью, благодаря

их развитой морфологии. В аналитических языках, например английском, где широко

представлена лексическая многозначность, простой алгоритм, сопоставляющий каждому слову в

тексте наиболее вероятный для данного слова морфологический класс, дает лишь около 90%

точности.

Для синтетических языков морфологический разбор текста включает:

1. Выделение внутри предложений отдельных словоформ.

2. Определение всех вариантов комбинаций основ и аффиксов для каждой словоформы и,

соответственно, вариантов грамматических форм.

3. Устранение грамматической неоднозначности на основе комбинаторного словаря,

содержащего все контексты употребления слов.

Для увеличения точности разбора используются два типа алгоритмов: вероятностно-

статистические и основанные на продукционных правилах.

Алгоритмы, основанные на продукционных правилах, используют правила, которые

строятся автоматически на основе некоторого корпуса текстов или создаются лингвистами.

Вероятностно-статистические алгоритмы используют, в основном, два источника

информации.

- Словарь словоформ, в котором каждой словоформе соответствует множество лексико-

грамматических классов, которые могут быть у данной словоформы. Для каждого лексико-

грамматического класса указывается частота его встречаемости относительно других

морфологических классов данной словоформы.

- Информация о встречаемости всех возможных последовательностей морфологических

классов попарно, по тройкам, по четверкам и т.д. с относительной частотой такой пары (тройки,

четверки и т.д.). Эта информация обрабатывается неким статистическим алгоритмом (например,

на основе скрытых цепей Маркова) для нахождения наиболее вероятного лексико-

грамматического класса для каждого слова в предложении.

Оба подхода дают примерно одинаковый результат на уровне 96-98 % точности.

Существует несколько классификаций основных видов алгоритмов морфологического

анализа. По использованию словарей системы МА можно разделить на словарные (со словарем

словоформ или со словарем основ) и бессловарные, а по организации алгоритмов — на методы с

декларативной, процедурной и комбинированной ориентацией.




Поделиться с друзьями:


Дата добавления: 2014-01-11; Просмотров: 794; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.