КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Текстологические методы
Пример 4.6 Одна из первых отечественных экспертных компьютерных игр описана в работе [Гинкул, 1989]. Основной принцип игры «Зоосад» состоит в создании игровой ситуации при организации диалога с экспертом. При этом задача извлечения знаний маскируется нацеленностью на решение чисто игровой задачи: необходимо определить содержимое «черного ящика», в котором находится некое животное, при этом надо набрать наибольшее количество очков, не истратив выделенного ресурса денег. В ходе игры эксперт делает ставки на различные гипотезы, указывая при этом, какими признаками обладает то или иное животное. После каждого ответа он получает необходимую информацию о результатах. По ходу игры невидимо для эксперта формируются правила, отражающие знания эксперта на основании сделанных им ходов. В данной игре - это знания о том, какими признаками обладают те или иные животные. Таким образом, выявляется алфавит значимых признаков для диагностики и классификации животных. Сравнительные характеристики экспертных игр приведены в табл. 4.4.
Таблица 4.4. Сравнительные характеристики экспертных игр
Группа текстологических методов объединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик и других носителей профессиональных знаний. В буквальном смысле текстологические методы не относятся к текстологии - науке, которая родилась в русле филологии с целью критического прочтения литературных текстов, изучения и интерпретации источников с узкоприкладной задачей - подготовки текстов к изданию. Сейчас текстология расширила свои границы включением аспектов смежных наук - герменевтики (науки правильного толкования древних текстов - библии, античных рукописей и др.), семиотики, психолингвистики и др. Текстологические методы извлечения знаний, безусловно, используя основные положения текстологии, отличаются принципиально от ее методологии, во-первых, характером и природой своих источников (профессиональная специальная литература, а не художественная, живущая по своим особым законам), а во-вторых, жесткой прагматической направленностью извлечения конкретных профессиональных знаний.
Среди методов извлечения знаний эта группа является наименее разработанной, по ней практически нет никакой библиографии, поэтому дальнейшее изложение является как бы введением в методы изучения текстов в том виде, как это представляют авторы. Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста. Сам текст на естественном языке является лишь проводником смысла, а замысел и знания автора лежат во вторичной структуре (смысловой структуре или макроструктуре текста), настраиваемой над естественным текстом [Величковский, Капица, 1987], или, как сформулировано в работе [Файн, 1987], «текст не содержит и не передает смысл, а является лишь инструментом для автора текста». При этом можно выделить две такие смысловые структуры: М1 - смысл, который пытался заложить автор, это его модель мира, и М2 - смысл, который постигает читатель, в данном случае инженер по знаниям (рис. 4.6), в процессе интерпретации I. При этом Т - это словесное одеяние М1 то есть результат вербализации V. Сложность процесса заключается в принципиальной невозможности совпадения знаний, образующих М1 и М2, из-за того, что М1 образуется за счет всей совокупности представлений, потребностей, интересов и опыта автора, лишь малая часть которых находит отражение в тексте Т. Соответственно, и М2 образуется в процессе интерпретации текста Г за счет привлечения всей совокупности научного и человеческого багажа читателя. Таким образом, два инженера по знаниям извлекут из одного Г две различные модели Мi1, и М i2.
Рис. 4.6. Схема извлечения знаний из специальных текстов
Встает задача: выяснить, за счет чего можно достичь максимальной адекватности М1 и М2, помня при этом, что понимание всегда относительно, поскольку это синтез двух смыслов «свое-чужое» [Бахтин, 1975]. Рассмотрим подробнее, какие источники питают модель М1 и создают текст Г. В работе [Сергеев, 1987] указаны два компонента любого научного текста. Это первичный материал наблюдений и система научных понятий в момент создания текста. В дополнение к этому, на наш взгляд, помимо объективных данных экспериментов и наблюдений, в тексте обязательно присутствуют субъективные взгляды автора , результат его личного опыта, а также некоторые «общие места» или «вода» . Кроме этого, любой научный текст содержит заимствования из других источников (статей, монографий) и т. д. При этом все компоненты погружены в языковую среду L. Можно записать:
.
Таким образом, компоненты научного текста можно представить в виде следующей схемы (рис. 4 7). При этом компоненты , , часть входят и в модель М1.
Рис. 4.7. Компоненты научного текста
При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на перечисленные выше компоненты для выделения истинно значимых для реализации базы знаний фрагментов. Сложность интерпретациинаучных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое «погружен» текст. Различают микро - и макроконтекст. Микроконтекст - это ближайшее окружение текста. Так, предложение получает смысл в контексте абзаца, абзац в контексте главы и т. д. Макроконтекст - это вся система знаний, связанная с предметной областью (то есть знания об особенностях и свойствах, явно не указанных в тексте). Другими словами, любое знание обретает смысл в контексте некоторого метазнания. Теперь несколько подробнее о центральном звене процедуры извлечения знания - о понимании текста. Классическим в текстологии является определение немецкого философа и языковеда В. фон Гумбольдта [Фон Гумбольдт, 1984]: «...Люди понимают друг друга не потому, что передают собеседнику знаки предметов, и даже не потому, что взаимно настраивают друг друга на точное и полное воспроизведение идентичного понятия, а потому, что взаимно затрагивают друг в друге одно и то же звено цепи чувственных представлений и зачатков внутренних понятий, прикасаются к одним и тем же клавишам инструмента своего духа, благодаря чему у каждого вспыхивают в сознании соответствующие, но не тождественные смыслы.»
Говоря на языке современного языкознания, понимание - это формирование «второго текста», то есть семантической структуры (понятийной структуры) [Сиротко-Сибирский, 1968]. В нашей терминологии - это попытка воссоздания семантической структуры М1 в процессе формирования модели М2, то есть это первый шаг структурирования знаний. Как происходит процесс понимания I? Одна из возможных схем изложена в работе [Соколов, 1947; Соколов, 1968]. Мы внесли несколько изменений в эту схему в связи с тем, что в ней трактуется понимание текста на иностранном языке, а нас интересует понимание текста в новой для познающего субъекта предметной области. Кроме этого, дополним ее некоторыми положениями герменевтики. В целом полученная схема согласуется со стратегией изучения всего нового.
Основными моментами понимания текста являются:
• Выдвижение предварительной гипотезы о смысле всего текста (предугадывание). • Определение значений непонятных слов (то есть специальной терминологии). • Возникновение общей гипотезы о содержании текста (о знаниях). • Уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям). • Формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (ключевыми) словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний. • Корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому). • Принятие основной гипотезы, то есть формирование М2.
Следует отметить наличие как дедуктивной (от целого к частям), так и индуктивной (от частей к целому) составляющей процесса понимания. Такой двуединый подход позволяет охватывать текст как смысловое единство особого рода, с его основными признаками, такими как связность, цельность, законченность и др. [Сиротко-Сибирский, 1968]. Центральными моментами процесса I являются шаги 5 и 7, то есть формирование смысловой структуры или выделение «опорных», ключевых, слов или «смысловых вех» [Сиротко-Сибирский, 1968], а также заключительное связывание «смысловых вех» в единую семантическую структуру. При анализе текста важно выявление внутренних связей между отдельными элементами текста и понятиями. Традиционно выделяют два вида связей в тексте — эксплицитные (или явные связи), которые выражаются во внешнем дроблении текста, и имплицитные (скрытые связи). Эксплицитные связи делят текст на параграфы с помощью перечисления компонентов, вводных слов (или коннекторов) типа «во-первых..., во-вторых..., однако и т. д.». Имплицитные, или внутренние, связи между отдельными «смысловыми вехами» вызывают основное затруднение при понимании. Итак, семантическая структура текста образуется в сознании познающего субъекта с помощью знаний о языке, знаний о мире, а также общих (фоновых) знаний в той предметной области, которой посвящен текст. «Тексту пишут для посвященных». Другими словами, если текст не является научно-популярным, то для его адекватного прочтения требуется некоторая подготовка. Таким образом, путь к знаниям удлиняется еще на одно звено. Если мы раньше говорили, что сами текстологические методы редко употребляются как самостоятельный метод извлечения, а обычно используются как некоторая подготовка к коммуникативному взаимодействию, то теперь утверждаем, что и для прочтения текстов нужна подготовка. Какая же? Подготовкой к прочтению специальных текстов является выбор совместно с экспертами некоторого «базового» списка литературы, который постепенно введет аналитика в предметную область. В этом списке могут быть учебники для начинающих, главы и фрагменты из монографий, популярные издания. Только после ознакомления с «базовым» списком целесообразно приступать к чтению специальных текстов. Таким образом, на процесс понимания (или интерпретации) I и модель М2 влияют следующие компоненты (рис. 4.8): • экстракт компонентов , почерпнутый из текста Т; • предварительные знания аналитика о предметной области ; • общенаучная эрудиция аналитика ; • его личный опыт .
.
Процесс I - это сложный, не поддающийся формализации процесс, на который существенным образом влияют такие чисто индивидуальные компоненты, как когнитивный стиль познания, интеллектуальные характеристики и др.
Рис. 4.8. Компоненты формирования смысла текста
Но процедура разбивки текста на части («смысловые группы»), а затем сгущение, сжатие содержимого каждого смыслового куска в «смысловую веху» является, видимо, основой для любого индивидуального процесса понимания. Такая компрессия (сжатие) текста в виде набора ключевых слов, передающих основное содержание текста, может служить удобной методологической основой для проведения текстологических процедур извлечения знаний. В качестве ключевого слова может служить любая часть речи (существительное, прилагательное, глагол и т. д.) или их сочетание. Набор ключевых слов (ИКС) - это набор опорных точек, по которым развертывается текст при кодировании в память и осознается при декодировании, это семантическое ядро цельности [Сиротко-Сибирский, 1968].
Дата добавления: 2015-07-02; Просмотров: 866; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |