Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Общая структура модели




МСТ – собрание сведений о языке, представленных в виде исчисления, т.е. перечня разрешений и запрещений – что можно, а что нельзя делать в процессе синтеза и анализа языкового выражения. МСТ моделирует знание языка говорящим. МСТ – не порождающее, а преобразующее устройство, перекодирующее смыслы в тексты и обратно. Соответствие между текстами и смыслами много- многозначное: одному смыслу может отвечать много текстов, выражающих этот смысл (синонимия), а одному тексту – много смыслов (омонимия). Синонимия и омонимия распространены в языке настолько широко, что описание перехода от смыслов непосредственно к текстам неосуществимо ввиду его сложности. Этот переход следует разделить на последовательные этапы, включающие ряд промежуточных представлений между текстом и смыслом. В МСТ постулируется семантический уровень (в более поздних версиях – два таких уровня – глубинно- и поверхностно-семантический), два синтаксических – глубинно и поверхностно-синтаксический, два морфологических уровня (также глубинный и поверхностный) и один фонологический уровень.

Семантический уровень использует особый семантический метаязык для записи значений. состоящий из элементарных символов (сем) и отношений между ними. На семантическом уровне высказыванию соответствует семантическое представление. Его важнейшая часть –семантическая структура в виде графа. который не обязан быть деревом. В семантическое представление входит, кроме того, информация о коммуникативной организации смысла (теме, реме, логических акцентах и пр.)

Переход от (поверхностно)-семантического к глубинно-синтаксическому уровню МСТ происходит посредством применения (поверхностно)-семантического компонента. Он расчленяет семантическое представление на куски, соответствующие предложениям и знаменательным словам, подбирает лексические и грамматические средства выражения несинтаксических значений (например, информация о соотнесенности с моментом речи переходит в грамматическую характеристику глагольного времени) и устанавливает глубинно-синтаксические отношения между абстрактными лексемами глубинно-синтаксического уровня.

Элементы условного метаязыка используются и на синтаксических уровнях. Глубинно-синтаксическое представление (ГСП) включает глубинно-синтаксическую структуру (ГСС) предложения. Это дерево зависимостей, узлы которого представляют только обобщенные лексемы – символы обычных лексем, идиом, лексических функций и фиктивных лексем. Линейный порядок узлов в ГСС не задается. Ветви ГСС представляют собой универсальные глубинно-синтаксические отношения (ГСО), число которых не больше 10. На этом же уровне содержатся сведения о коммуникативной организации высказывания, о его просодической характеристике и о тождестве или различии референтов его ИГ, а также некоторые сведения о составляющих, которые оказываются все же необходимыми, несмотря на выбранный способ изображения синтаксической структуры в виде структур зависимостей (используется и понятие именной группы как носителя референтной характеристики, т.е. фразовой категории, которая получает определение в синтаксисе составляющих). Кроме ГСС, глубинно-синтаксическое представление включает еще три вида структур: коммуникативную, анафорическую и просодическую.

Глубинно-синтаксический и глубинно-морфологический уровни, а также лежащий между гими поверхностно-синтаксический уровень связываются синтаксическим компонентом. Последний включает два субкомпонента – глубинно-синтаксический, который связывает ГСП с поверхностно-синтаксическим уровнем, и поверхностно-синтаксический, который связывает поверхностно-синтаксический уровень с глубинно-морфологическим. Первый субкомпонент 1) превращает обобщенные лексемы ГСС в конкретные лексемы, символы лексических функций заменяются значениями этих функций при данных аргументах, - также конкретными лексемами или их сочетаниями; 2) вводит служебные слова; 3) уточняет грамматические признаки лексем; 4) устанавливает поверхностно-синтаксические отношения между лексемами.

Поверхностно-синтаксический уровень содержит поверхностно-синтаксическую структуру (ПСС) – дерево зависимостей, узлы которого представляют все словоформы предложения и только они. Узлы, как и в ГСС, линейно не упорядочены. Ветви ПСС представляют собой поверхностно-синтаксические отношения (ПСО) между словоформами. Набор ПСО не универсален и в каждом языке устанавливается отдельно. Источники ПСО при переходе от смысла к тексту – ГСО, некоторые глубинные слова, а также индексы некоторых морфологических категорий. На этом же этапе поверхностно-синтаксический компонент определяет порядок слов (точнее глубинно-морфологических представлений словоформ) и добавляет просодические фразовые характеристики.

Глубинно-морфологический уровень содержит глубинно-морфологическое представление (ГМП), которое включает цепочку всех словоформ предложения и сведения о просодических характеристиках его компонентов. В ГМП словоформы входит имя лексемы и совокупность всех значений ее морфологических словоизменительных категорий. Переход от глубинно-морфологического к поверхностно-морфологическому уровню осуществляется морфологическим компонентом МСТ. Основное его содержание – переход от абстрактного представления словоформы к ее фонологической записи. Наконец, фонологический компонент преобразует фонологическое представление в фонетическое. Фонологический и фонетический уровни включают соответственно фонематическую и фонетическую транскрипционные записи предложения (т.е. фонологический компонент также образует два подуровня).

 

Определим теперь особенности модели СТ, которые она сохраняет по отношению к иным лингвистическим моделям. Стоит сформулировать их так, как они представляются сейчас, через 25 лет после выхода основополагающего труда Мельчука. При этом не определяется, считать ли их достоинствами модели или некоторые — скорее недостатками.

Ориентированность на синтез. При заявленной равнозначности направлений синтеза и анализа, первичным и более важным в модели считается синтез. Именно синтез привлекает все знания о языке, в то время как анализ возможен и на основе частичных знаний. В западной же традиции упор делается на анализ языка, в прикладном отношении считающийся более важным. В итоге для столь важных при анализе текстов унификационных алгоритмов нам пока не известны обратные. Остается неясным, как в рамках какой-либо из ветвей генеративной теории превратить некую семантическую сеть в последовательность деревьев зависимостей или составляющих, отвечающих отдельным предложениям.

Когда идет речь о синтезе, на Западе обычно строятся другие теории, отличные от теорий анализа. Причина кроется в том, что конкретные генеративные грамматики описывают все предложения языка L, но при этом лишь те из возможных семантических структур, которые этому множеству L соответствуют. В то же время любая теория синтеза должна была бы описать все возможные семантические сети и соответствующие им предложения языка. Насколько нам известно, синтез текста по произвольно заданной семантической сети серьезно продумывался именно в рамках модели СТ.

Многоуровневый характер модели. Согласно модели СТ, в языке есть несколько уровней (текстовой, два морфологических, два синтаксических, семантический), причем представление одного уровня считается полностью эквивалентным представлению любого иного уровня. Эквативный преобразователь «Смысл ß> Текст» и обратный ему преобразователь «Текст ß> Смысл» распадаются на несколько парциальных преобразователей с одного уровня на соседний. Разложение на уровни в модели призвано упростить правила межуровневых преобразований.

Разнообразие структур и формализмов. Каждому парциальному преобразователю соответствуют свои правила и формализмы ввиду существенного разнообразия структур, которыми отображаются данные разных уровней (строки, деревья, сети). На каждом уровне в модели СТ привлекается только минимальное необходимое количество изобразительных средств. (Хотя при этом не считается обязательным, чтобы в прикладной системе парциальные преобразователи алгоритмически всегда воплощались строго в той же последовательности, в которой они стоят в модели.) Напротив, современная западная научная мысль старается найти практически для всех уровней языка единый формализм.

Различение глубинного и поверхностного синтаксических представлений. Четко разделяются объекты и синтаксические черты, которые свойственны двум этим уровням. Вспомогательные и служебные слова текста на глубине исчезают. Аналогично, одни характеристики словоформ оказываются чисто грамматическими и остаются на поверхности (например, грамматические падежи и согласовательные показатели прилагательных), другие, определяемые семантикой, сохраняются и на глубинных уровнях. Такое разделение способствует минимизации изобразительных средств на каждом уровне. Понятие глубинного и поверхностного синтаксических представлений есть и у Хомского, но они определяются им по-иному.

Независимость состава слов и порядка их следования в предложении. Вообще говоря, это свойство целой группы синтаксических теорий, а не только модели СТ. Полной независимости порядка слов от их состава в модели не постулируется. Это две стороны, определяемые разными факторами. С формальных позиций, различение двух этих сторон ведет к последовательному использованию на синтаксическом уровне грамматик зависимостей, а не грамматик составляющих, как в большинстве западных теорий. В итоге основные правила межуровневых преобразований оказываются в модели СТ иными, чем в западной парадигме. Основное преимущество грамматик зависимостей усматривается в том, что именно связи между (полнозначными) словами сохраняются на семантическом уровне, а для грамматик составляющих их обычно приходится выявлять на семантическом уровне отдельным механизмом.

Учет коммуникативной структуры текста. Состав слов зависит от содержания высказывания, а порядок зависит как от этого состава (грамматически детерминированная расстановка), так и от коммуникативной структуры текста (влияние деления на тему/рему, старое/новое). В западной прикладной лингвистике зависимость порядка слов в предложении от коммуникативной структуры текста долго просто не замечалась.

Ориентированность на языки иного строя, чем английский. В известной мере противопоставленность грамматик составляющих и грамматик зависимостей связана с разным типами языков. Грамматики зависимостей особо хороши для языков со свободным порядком слов типа русского и латыни, в то время как грамматики составляющих — для языков с жестким порядком типа английского. Впрочем, модель СТ практически доказала свою способность описывать и языки типа английского, французского или немецкого. Уже накоплен большой опыт работы с деревьями зависимостей для любых языков. Генеративная традиция (например, HPSG) тоже приходит к тем же деревьям зависимостей, но постепенно и в имплицитной манере.

Средства синонимического варьирования и лексические функции. Только в модели СТ даны исчисление лексических функций и правила внутриуровневых древесных преобразований с их использованием. Это неотъемлемое и очень важное для модели средство синонимического варьирования предложений. Быть может, оно является наиболее важной особенностью модели, играющей ключевую роль в ее механизме синтеза (генерации текста), по глубине проработки не имеющем аналога в генеративной традиции. Именно с помощью синонимического варьирования производится поиск реализуемых на поверхности синтаксических вариантов данного семантического представления при переводе с одного языка на другой. Лексические функции позволяют также стандартизовать семантическое представление, уменьшив разнообразие узлов в нем. С прикладной стороны синонимическое варьирование разработано на таком же уровне строгости, что и западные формализмы, и практически — в программной реализации — проверено на разных языках. В рамках западной парадигмы подобная задача, похоже, и не ставилась.

Разметка синтаксических отношений между словами. Известно, что если внутри каждого правила контекстно-свободной грамматики формально выделить главную составляющую (head), как это делается в HPSD, то дерево составляющих легко переводится в дерево зависимостей, эквивалентное по содержащейся информации о связях между словами и группами слов. Но в модели СТ имеется дополнительное свойство деревьев зависимостей — размеченность всех их дуг. При этом обнаружено, что в конкретных языках могут существовать изоморфные деревья с разными метками на дугах, и это различие связано с различием смысла.

Модели управления. В отличие от субкатегориальных фреймов генеративной лингвистики, внешне несущих ту же информацию, модели управления связывают семантические и синтаксические валентности лексем, притом не только у глаголов, но и у прочих частей речи. В итоге МУ позволяют явным образом указать, какими вариантами оформляется каждая данная семантическая валентность на поверхностном уровне: существительным беспредложно, существительным с конкретным предлогом или с несколькими разными предлогами по выбору, инфинитивом и т. п. Субкатегоризация же обычно сводится с простому перечислению всех возможных сочетаний синтаксических валентностей при данном фиксированном порядке их расположения во фразе. В языках со сравнительно свободным порядком слов количество таких фреймов для отдельных глаголов может достигать нескольких десятков, и они затуманивают единую картину семантических валентностей. Да и разнообразие групп глаголов, имеющих одинаковое сочетание фреймов, бывает сопоставимо с числом глаголов в языке.

Сохранение традиций и терминологии классической лингвистики. Модель СТ относится к наследию классической лингвистики значительно бережнее, чем западная вычислительная лингвистика. Своим многолетним развитием модель СТ показала, что в значительном большинстве случаев даже повышенная точность описания и необходимость в строгом формализме позволяет сохранить уже известную терминологию, быть может, дав терминам более четкое определение. Сохранены понятия лексемы, граммемы, морфемы, морфа, подлежащего, сказуемого, дополнений, обстоятельств и пр. В рамках же генеративной лингвистики теория строится каждый раз как бы с нуля, без попыток объяснить релевантные явления в терминах, известных в лингвистике ранее. Дополнительную строгость это дает не всегда, а чаще ведет к терминологической путанице и отрыву прикладных исследований от наследия и современного состояния теоретической лингвистики, поскольку специалисты близких областей просто не понимают друг друга.

Неосторожно сформулированное, трудно реализуемое, существенно недоделанное

Выдача всех синонимических вариантов сразу. В ранних работах И. Мельчук заявлял, что его модель предназначена для порождения параллельно сразу всех синонимических вариантов одного смысла (и выявления всех возможных разборов данного предложения, если оно омонимично). Как теоретическая формулировка соотношения смысла с текстами это было хорошо, но было понято некоторыми исследователями как необходимость в таких программах и обещание строить именно их. Хотя в принципе модель СТ такую возможность дает, практически при генерации текстов обычно нужно выдавать только один правильный вариант.

Лозунг атомизации семантики. Неосторожным было прозвучавшее как обязательство реализовать в рамках данной модели систему семантических атомов (сем), через которые можно представить любые смыслы. Это пока не получилось ни в этой, ни в какой-либо иной теории. До сих пор идут споры, сколько таких атомов должно быть. Все благополучно сошлись на идее, что достаточно разлагать смыслы слов до разумного предела, диктуемого прикладной задачей. Так, перевод с одного близкого языка на другой может вообще не нуждаться в подобном разложении.

Ограниченное же и равно приемлемое для разных исследователей разложение смыслов применительно, например, к индоевропейским языкам потенциально осуществимо, но требует для больших словарей десятилетий упорной словарной работы. Одним из направлений такой работы является начатая под руководством Ю.Д. Апресяна разработка синонимических словарей особого типа — с выделением всех семантических сущностей, различающих неабсолютные синонимы. Без подобной проработки, пока не сопровождающейся формализацией, невозможно представить себе будущие системы «понимания» текста.

Пока отсутствуют правила расстановки слов, связанные с коммуникативной организацией фраз. Дело в том, что до сих пор не существует адекватной теории коммуникативной организации предложений и текстов в целом. В языках типа английского, где коммуникативная организация внутри предложения внешне обычно не выражена (порядок слов строго фиксирован), эту проблематику многие просто игнорируют. Но в модели СТ, разделившей состав слов и их порядок, такое игнорирование выглядит как введение лишней сущности без формальных средств оперирования ею.

Технология составления толково-комбинаторых словарей осталась не разработанной. Их составление оказывается до сих пор под силу только тем, кто осваивал модель много лет, а по существу создавал и совершенствовал ее. Вероятно, именно отсутствие ясной и массовой технологии разработки словарей явилось одной из основных исторических причин отставания модели от западных «конкурентов».

 

 




Поделиться с друзьями:


Дата добавления: 2015-07-02; Просмотров: 675; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.027 сек.