КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Фрагментация. Предварительная обработка союзов и приписывание им семантических характеристик.Вводится несколько множеств союзов и устойчивых словосочетаний
Предварительная обработка союзов и приписывание им семантических характеристик. Вводится несколько множеств союзов и устойчивых словосочетаний, которые могут рассматриваться как союзы. В том числе, множество сложных союзов, которые разделены запятой, множество сложных союзов без запятой. Союзам приписывается семантическая интерпретация (в рамках данной работы семантическая интерпретация называется грамматической характеристикой), ориентируясь на тип союза. При этом может возникнуть омонимия, поскольку один союз может иметь несколько типов.
Расстановка границ сегментов. Вводятся множества сочинительных союзов, опираясь на классификацию видов сочинительной связи. Как известно, виды сочинительной связи различаются в соответствии со значением сочинительного союза или его аналога. При задании множеств, отвечающих видам союзов, необходимо учитывать, что союзы могут быть двусоставными. Согласно правилам русского языка, если однородные члены соединены составными союзами, то перед второй частью союза ставится запятая. Поэтому двусоставные союзы опишем с помощью пар слов, где первое слово в паре принадлежит одному сегменту, второе слово, стоящее после запятой, принадлежит следующему сегменту (сегменту справа). По аналогии с сочинительными союзами, вводятся множества подчинительных союзов, с опорой на существующие типы подчинительных союзов. Граница сегмента ставится после знака препинания из множества знаков препинания, или после слова из множества сочинительных союзов без запятой. Граница не проходит по тем знакам препинания, которые входят в состав определенных графематическим анализом единиц (сокращения, дробные числа, букво-числовые комплексы и др.). В том случае, если несколько знаков препинания идут подряд, по ним проходит одна граница.
Определение типа сегмента. До построения морфологических вариантов по декартовому произведению омонимов строится аналитическая форма глагола. Тип сегмента равен одному из следующих значений, указанных в таблице 6.1, по алгоритму, приведенному ниже.
Таблица 3.5. Тип сегмента
Если в сегменте по порядку, указанному в таблице, найдено слово соответствующей части речи без омонимии, то тип определен. Устанавливается тип сегмента ТИРЕ, если в сегменте есть тире (не первым и не последним символом сегмента). Если нет слов без омонимии, то строится множество однозначных морфологических интерпретаций сегмента, т.е. рассматривается декартово произведение омонимов внутри сегмента.
Пример 1: рассматривается сегмент МАССА РАБОЧЕГО СТЕКЛА МАССА — сущ. (масса) s[1]={s[1][1]} РАБОЧЕГО — 1)прил. (рабочий) 2) сущ. (рабочий) s[2]=(s[2][1], s[2][2]) СТЕКЛА — 1) сущ (стекло), 2) глагол (стекать) s[3]=(s[3][1], s[3][2]) В результате имеем 4 морфологические интерпретации - МАССА (сущ) РАБОЧЕГО (прил) СТЕКЛА (сущ) type_sg=9 first=0 - МАССА (сущ) РАБОЧЕГО (прил) СТЕКЛА (гл) type_sg=1 first=s[3][2] - МАССА (сущ) РАБОЧЕГО (сущ) СТЕКЛА (сущ) type_sg=9 first=0 - МАССА (сущ) РАБОЧЕГО (сущ) СТЕКЛА (гл) type_sg=1 first=s[3][2]
Каждой морфологической интерпретации сегмента ставится в соответствие отдельная структура. В данном примере сегменту МАССА РАБОЧЕГО СТЕКЛА будет соответствовать 4 структуры.
Снятие омонимии внутри сегмента. До построения морфологических вариантов по декартовому произведению омонимов строится аналитическая форма глагола. Если предикат омонимичен только с потенциально не предикатной частью речи, стоит непосредственно после глагола «быть» в будущем времени и сегмент содержит инфинитив несовершенного вида, то строится форма глагола из трех частей: «будет»+предикат+ инфинитив.
Примеры: жить здесь будет невыносимо — здесь будет_невыносимо_жить; ты когда-нибудь будешь красиво улыбаться — ты когда-нибудь будешь_красиво_улыбаться Если type=2 || type=3 (краткое прилагательное или причастие), но в предложении нет согласованного существительного (местоимения) по числу, падежу, роду, то такая интерпретация удаляется.
Пример 2: сегмент она не права имеет 5 морфологических интерпретаций: 1) ОНА (местоим, ж.р., ед.ч. им.п) НЕ (частица) ПРАВА (кр. прил, ж.р., ед.ч. им. п.) type=3 Ver=3 2) ОНА (местоим, ж.р., ед.ч. им.п) НЕ (частица) ПРАВА (кр. прил, ж.р., ед.ч., вин. п.) type=3 Ver=3 3) ОНА (местоим, ж.р., ед.ч. им.п) НЕ (частица) ПРАВА (сущ, и.п. мн.ч.) type=9 Ver=0 4) ОНА (местоим, ж.р., ед.ч. им.п) НЕ (частица) ПРАВА (сущ, вин.п. мн.ч.) type=9 Ver=0 5) ОНА (местоим, ж.р., ед.ч. им.п) НЕ (частица) ПРАВА (сущ, р.п. ед.ч.) type=9 Ver=0 Удаляется интерпретация 2.
Пример 3: в предложении права забрали в милиции уничтожается омоним слова права (краткое прилагательное женского рода единственного числа), т.к. во всем предложении нет существительного (местоимения), с ним согласованного.
Оценка синтаксического покрытия каждой морфологической интерпретации с помощью синтаксических правил. При этом считается вес сегмента - количество синтаксически связанных словосочетаний в сегменте. Выбираются те морфологические интерпретации сегмента, которые имеют максимальный вес. В Примере 1 МАССА РАБОЧЕГО СТЕКЛА наибольший вес=2 имеют интерпретация 1 и 4. В примере2 максимальный вес имеет интерпретация 1. Если в сегменте есть неомонимичная предикация (глагол в личной форме, краткое прилагательное, краткое причастие, предикативное слово, причастие или деепричастие, т.е. type=1-6), то во всех остальных словах данного фрагмента уничтожаются омонимы этих частей речи.
Например, сегмент СТЕКЛО НА СОЛНЦЕ БЛЕСТИТ, Так как БЛЕСТИТ - неомонимичная форма глагола БЛЕСТЕТЬ, то в сегменте удаляется омоним слова СТЕКЛО (от глагола стекать).
Дата добавления: 2014-01-11; Просмотров: 396; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |