КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Семантическая сеть – глобальное представление текста
Анализ средств формального описания понятий Локальная модель мира представляет собой формализованное описание некоторого контекста, отражающего объекты и их отношения. Разделение лексем или групп лексем на объекты и отношения является достаточно условной процедурой и зависит от семантических ролей, исполняемых лексемами или группами лексем, отражающими некие значения в определенном контексте. Идея семантических ролей или семантических падежей достаточно активно исследовалась Ч. Филлмором, П. Уинстоном, Д. Апресяном и другими известными учеными в этой области. Проявление объектов и отношений в тексте можно рассматривать в трех аспектах: 1 - синтаксическом (КАК формируется?); 2 - семантическом (ЧТО означает?); 3 - прагматическом (ДЛЯ чего? В каких целях?). Классификация элементов и назначение определенных ролей элементам или классам элементов и у Ч. Филлмора, и у Д. Апресяна происходит не на семантической, а на прагматической, целевой основе, т.е. по их назначению, а не по семантическому содержательному признаку [24]. Поэтому, вместо принятой в литературе понятия "семантическая роль", здесь предлагается новое понятие - "прагматическая роль" элемента, означающее целевую функцию объекта в заданном контексте. Предложенные различными авторами объектно-предикатные системы покрывают все пространство объектов и их отношений, тем не менее, оставаясь лишь вариантами выделения и описания прагматических ролей, не претендующими на завершенность и даже на достаточность. Под семантической связью в [25] в общем случае также понимается отношение понятий в понятийной системе предметной области, употребляющийся в качестве синонима понятия предикат. Для корректной последующей обработки текста предварительно необходимо осуществить его (текста) «развертывание»: эксплицирование анафор и эллипсисов. Последующий статистический анализ текста, использующий когнитивный подход, позволяет выявить глобальную внутреннюю структуру текста как ассоциативную (однородную семантическую) сеть, вершинами которой являются ключевые понятия текста (слова и устойчивые словосочетания), а ребрами – их смысловые (ассоциативные) отношения в тексте, например, их попарная встречаемость в смысловых фрагментах текста. И ключевые понятия, и их связи взвешиваются численными характеристиками – смысловыми весами. Ранее была реализована технология обработки текстовой информации TextAnalyst [28], позволяющая автоматически выявлять ключевые понятия в тексте на основе только информации о структуре самого текста (независимо от предметной области). Для этого формировался частотный портрет текста, содержащий информацию о частоте встречаемости понятий текста, представленных как корневые основы соответствующих слов, или их устойчивых сочетаний, встречающихся в тексте, а также об их совместной (попарной) встречаемости в смысловых фрагментах текста (например, в предложениях). Частотный портрет, таким образом, содержал информацию о частоте встречаемости понятий и их попарной (в терминах их ассоциативной связи) встречаемости в тексте. Использование хопфилдоподобного алгоритма [2] позволяло перейти от частоты встречаемости к смысловому весу (вес связей при этом оставался неизменным). Этот способ включал несколько этапов. На этапе первичной обработки из текста удалялась нетекстовая информация, текст сегментировался на слова и предложения, из текста удалялись стоп-слова, рабочие и общеупотребимые слова, а оставшиеся слова подвергались морфологической обработке. Для простоты анализа морфологическая обработка производилась с использованием традиционного морфологического словаря – словаря первого уровня - . Далее формировался словарь второго уровня – – словарь корневых основ (и устойчивых словосочетаний). На следующем этапе строился частотный портрет текста, то есть выявлялись частоты встречаемости корневых основ понятий (полученных в результате морфологического анализа) и их устойчивых сочетаний, и частоты их попарной встречаемости в предложениях текста (то есть формировался словарь третьего уровня ). И, наконец, на третьем этапе, частоты встречаемости перенормировались в смысловые веса с использованием итеративной процедуры, похожей на алгоритм искусственной нейронной сети, предложенной Хопфилдом (2.17). В результате итеративной процедуры перенормировки наибольшие веса получали понятия, связанные с наибольшим числом других понятий с большим весом, то есть те понятия, которые стягивают на себя смысловую структуру текста. Полученные таким образом смысловые веса ключевых понятий показывают значимость этих понятий в тексте. В дальнейшем эта информация используется для выявления предложений текста, содержащих наиболее важную информацию в тексте. В результате получается так называемая ассоциативная (однородная) семантическая сеть как совокупность несимметричных пар понятий , где и – понятия, связанные между собой отношением ассоциативности (совместной встречаемости в некотором фрагменте текста).
Дата добавления: 2014-01-11; Просмотров: 437; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |