КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Морфологическая информация, этапы морфологического разбора текста
Цель МА — определить принадлежность некоторой словоформы к парадигме определенной лексемы и грамматические признаки для этой словоформы – морфологическую информацию (МИ) для использования ее на последующих этапах обработки ЕЯ текста. Так для существительных этими признаками будут: род, число, падеж и склонение, для прилагательных: род, число и падеж; для глаголов - время, лицо, число, спряжение, вид; для местоимений – число и лицо. Классификация морфологических признаков слов русского языка изображена на рисунке 1. Рис.1. Морфологические признаки слов русского языка Для русского языка, как и для большинства синтетических языков, задача лексико- грамматического разбора решается довольно просто и почти стопроцентной точностью, благодаря их развитой морфологии. В аналитических языках, например английском, где широко представлена лексическая многозначность, простой алгоритм, сопоставляющий каждому слову в тексте наиболее вероятный для данного слова морфологический класс, дает лишь около 90% точности. Для синтетических языков морфологический разбор текста включает: 1. Выделение внутри предложений отдельных словоформ. 2. Определение всех вариантов комбинаций основ и аффиксов для каждой словоформы и, соответственно, вариантов грамматических форм. 3. Устранение грамматической неоднозначности на основе комбинаторного словаря, содержащего все контексты употребления слов. Для увеличения точности разбора используются два типа алгоритмов: вероятностно- статистические и основанные на продукционных правилах. Алгоритмы, основанные на продукционных правилах, используют правила, которые строятся автоматически на основе некоторого корпуса текстов или создаются лингвистами. Вероятностно-статистические алгоритмы используют, в основном, два источника информации. - Словарь словоформ, в котором каждой словоформе соответствует множество лексико- грамматических классов, которые могут быть у данной словоформы. Для каждого лексико- грамматического класса указывается частота его встречаемости относительно других морфологических классов данной словоформы. - Информация о встречаемости всех возможных последовательностей морфологических классов попарно, по тройкам, по четверкам и т.д. с относительной частотой такой пары (тройки, четверки и т.д.). Эта информация обрабатывается неким статистическим алгоритмом (например, на основе скрытых цепей Маркова) для нахождения наиболее вероятного лексико- грамматического класса для каждого слова в предложении. Оба подхода дают примерно одинаковый результат на уровне 96-98 % точности. Существует несколько классификаций основных видов алгоритмов морфологического анализа. По использованию словарей системы МА можно разделить на словарные (со словарем словоформ или со словарем основ) и бессловарные, а по организации алгоритмов — на методы с декларативной, процедурной и комбинированной ориентацией.
Дата добавления: 2014-01-11; Просмотров: 825; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |