Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Тема 4: дискрипторные информационно-поисковые языки: состав и стуктура

Метод координатного индексирования и поиска. Состав и структура дескрипторных информационно-поисковых языков. Анализ информации и построение словарей. Принципы отбора лексических единиц.

В основе построения дискрипторных информационно-поисковых языков лежит принцип координатного индексирования: основное смысловое содержание документа может быть выражено списком ключевых слов, т.е. наиболее существенных для понимания текста полнозначных[2] слов.

Принцип чистого координатного индексирования и поиска состоит в индексировании документов и запросов списками ключевых слов, являющихся ПОДами и ПОЗами, и в последующем сравнении полученных списков.

Метод координатного индексирования и поиска.

Пусть задано универсальное множество ключевых слов и некоторое множество документов . Пусть далее есть поисковый образ документа , т.е. существует такое отражение множества документов А в множество , что , .

Пусть – подмножество документов с ПОДом, равным , т.е.

, .

Обозначим подмножество документов, содержащих , через .

Если задано , то каждому соответствует . Тогда ,

Рис. 4.1. Схема пересечения ПОД и ПОЗ

Рассмотрим запрос Q, поисковый образ которого есть , . Документ отвечает на запрос (релевантен Q), если

Подмножество релевантно запросу Q, если (рис. 4.1).

В соответствии с принципом чистой координации документ выдается на запрос Q в том случае, если их поисковые образы имеют не менее K общих ключевых слов.

Рассмотрим недостатки чистой координации на примерах [2]:

Пусть заданы следующие документы:

02. Хлористый натрий, бромистый калий, йодистый калий.

04. Ядерные реакторы.

05. Столкновение мезона с протоном.

06. Химические реакторы.

08. Передача электроэнергии из Англии в Шотландию.

Поисковые образы приведенных документов:

02. Хлориды, натрий, бромиды, калий, калий, йодиды.

04. Ядерные реакторы.

05. Столкновение, мезоны, протоны.

06. Химические, реакторы.

08. Передача, электроэнергия, Англии, Шотландия.

 

Перечислим некоторые нежелательные ситуации, возникающие при поиске в подобном массиве:

1) Ложная координация:

Запрос – йодистый натрий.

ПОЗ – йодиды, натрий.

В соответствии с принципом чистой координации, если К<2, то в массиве, выданном на данный запрос, будет документ 02. В действительности этот документ не отвечает запросу, т.к. в нем говорится об йодистом калии, а не о натрии.

2) Неполная координация:

Запрос – столкновение протона с протоном.

ПОЗ – столкновение, протоны.

Выдача – документ 05, не соответствующий запросу.

3) Синонимия ключевых слов

Запрос – поваренная соль.

ПОЗ – поваренная соль.

Выдача отсутствует, хотя нужно выдать документ 02, т.к. термин «поваренная соль» синоним термина «хлористый натрий».

4) Полисемия

Запрос – реакторы.

ПОЗ – реакторы.

Выдача – документы 04, 06, т.е. химические и ядерные реакторы.

5) Необозначенность родо-видовых (парадигмических) связей

Запрос – галоиды щелочных металлов.

ПОЗ – галоиды, щелочные металлы.

Выдачи нет, хотя нужно выдать документ 02, т.к:

а) галоиды – бромиды, йодиды, хлориды и т.д.;

б) щелочные металлы – калий, натрий и т.д.

6) Ложные синтагматические связи:

Запрос – передача электроэнергии из Шотландии в Англию.

ПОЗ – передача, электроэнергия, Шотландия, Англия.

Выдача – документ 08, хотя он и не отвечает запросу.

7) Невыдача документов, близких по смыслу запросу.

Запрос – хлористый и йодистый натрий, щелочные металлы.

ПОЗ – хлориды, йодиды, натрий, щелочные металлы.

Выдача отсутствует при К =5, хотя при К =3 будет выдан документ 02.

 

Для ликвидации указанных недостатков необходимы:

· устранение синонимии, полисемии, омонимии; это достигается введением в ИПЯ лексографического контроля;

· учет парагматических связей; учет возможен благодаря операций «И», «ИЛИ», «НЕ» и весовых коэффициентов, а также других методов и приемов уточнения и расширения запросов;

· учет синтагматических связей; учет возможен с помощью указателей роли и связи.

 

Основными элементами ДИПЯ являются (рис. 4.2):

1. Словарь лексических единиц, обеспечивающий выделение определенных частей текста и их замену на коды лексических единиц.

2. Правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов (слов и словосочетаний – морфология; фраз, текстов в целом – синтаксис) с естественного языка на ИПЯ.

3. Правила построения и ведения ИПЯ, определяющие процедуру изменения и совершенствования ИПЯ, т.е. его словаря и правил применения.

Словари лексических единиц делятся на 2 группы:

– основные лексические словари, составляющие лексику ИПЯ. В качестве лексических единиц этих словарей используются ключевые слова, словосочетания и дескрипторы;

– морфологические словари, обеспечивающие морфологический анализ и нормализацию слов.

Ключевое слово – полнозначное слово естественного языка, выражающее смысловое содержание фрагмента документа или запроса самостоятельно или в наборе с другими ключевыми словами.

 

Рис. 4.2. Основные элементы дескрипторных ИПЯ

Словосочетание – последовательность нескольких слов (обычно 2–5) естественного языка, выражающая основное смысловое содержание фрагмента документа или запроса. Словосочетание может использоваться и в роли ключевого слова. Обычно словарь ключевых слов включает и отдельные слова и словосочетания, однако словосочетаний в этом словаре меньше, чем отдельных слов. И наоборот, словарь словосочетаний в основном состоит из словосочетаний.

Дескриптор – понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов, т.е. это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание.

Словарь дескрипторов с заданными парадигматическими[3] отношениями между его элементами носит название тезауруса. Тезаурус – это основной тип словарей современных ИПС.

Обобщенная структура информационно-поискового тезауруса включает, как минимум, три составляющих – словарную часть, семантическую карту, руководство по использованию.

Словарная часть – алфавитный список дескрипторов с их словарными статьями и ключевых слов. Словарная статья дескриптора строится по схеме:

,

где –дескриптор, –множество ключевых слов-синонимов ; –множество родовых по отношению к дескрипторов, т.е. дескрипторов, связанных с отношением род–вид; – множество видовых по отношению к дескрипторов; –множества дескрипторов, связанных с одним из отношений целое–часть, часть–целое, причина–следствие, следствие–причина, функциональное сходство. Все указанные множества упорядочены по алфавиту. В конкретных тезаурусах некоторые из множеств или все могут отсутствовать. Все множества могут быть одноэлементными или пустыми.

Семантическая карта – система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.

Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.

Основное назначение морфологических словарей состоит в отождествлении различных форм одного и того же слова и выявлении соответствующей грамматической информации, которую несет данное слово независимо от его окружения в тексте. Отождествление различных форм одного и того же слова проводятся для их нормализации, т.е. приведения к единому написанию и морфологической форме (нормальному виду). Именно в таком виде после соответствующего кодирования используются при индексировании и поиске документов. Нормализация слов необходима для их индексирования. Грамматическая информация к слову необходима для его восстановления (декодирования) по его коду, представленному в терминах ИПЯ.

Наиболее широкое распространение получили словари основ слов; окончаний слов; суффиксов, префиксов, приставок и предлогов; словоформ (словоформа – это последовательность букв между двумя соседними пробелами).

Процедура нормализации слов и выявления соответствующей им грамматической информации может выполняться как с использованием морфологического анализа и синтеза, так и без них. В любом случае прибегают к морфологическим словарям. Использование методов морфологического анализа позволяет сократить количество словарей, но за счет усложнения процедуры нормализации и выявления грамматической информации. Чем менее сложен алгоритм морфологического анализа, тем более сложны используемые им морфологические словари. Следует отметить, что нормализацию слов можно выполнить с помощью морфологических словарей минимальной сложности или вообще без них. Однако платой за такую простоту является невозможность получения грамматической информации или ее бедность.

 

 

Анализ информации и построение словарей. Принципы отбора лексических единиц.

Задача построения словарей сводится к следующему [2]: по заданному классу текстов необходимо выбрать попарно-различные лексические единицы (словоформы, основы слов, КС, дескрипторы и т.д.), определить их морфологические синтаксические и семантические характеристики и расположить в заранее обусловленном порядке.

При построении словарей приходится решать три основные проблемы: какие слова включать в словарь; какие учесть типы отношений; какова должна быть детальность словаря?

Решение первой проблемы в основном базируется на учете синонимии[4], омонимии[5], полисемии[6], а также информативности слов, косвенным показателем которой является частота их встречаемости в текстах. Лингвистические исследования показывают, что распределение слов по их частоте вхождения в текст для достаточно больших текстов заданного тематического профиля подчиняется закону, близкому к гиперболическому. Высокочастотной части этого распределения соответствуют «общие» слова, не несущие существенной смысловой нагрузки в текстах данной совокупности. Низкочастотной части распределения соответствуют новые специфические термины, не нашедшие распространения в текстах совокупности.

С учетом сказанного принципы отбора слов при решении первой из названных проблем [2]:

– не включать в словари редкие термины;

– исключать общие понятия с высокой частотой встречаемости;

– в каждый класс понятий вводить слова только с одинаковой частотой встречаемости;

– использовать только устойчивые слова и словосочетания;

– исключать незначащие (в пределах данных текстов) слова, тщательно проанализировав;

– неоднозначные термины применять в том значении, которое они имеют в данном массиве.

Типы пардигматических и синтагматических отношений, используемых в ИПЯ, определяют его смысловыразительную способность, которая возрастает с увеличением количества и усложнением типов учитываемых отношений.

Основные принципы, которым необходимо руководствоваться при выборе таких отношений:

– затраты на разработку, ведение и использование словарей не должны превышать эффекта от их применения;

– выбор типов отношений зависит от предполагаемых целей и областей использования ИПЯ и определяется необходимой полнотой и точностью поиска информации;

– прежде чем переходить к учету синтагматических отношений, необходимо исчерпать возможности парадигматики. Это связано с тем, что парадигматика позволяет найти область решений, а синтагматика – конкретное решение.

Степень детализации словаря определяет полноту и точность поиска. Широкоупотребляемые термины дают большую полноту, но низкую точность поиска.

При выборе степени детализации словарей необходимо учитывать заданные ограничения на желаемую полноту и точность поиска, а также иметь иерархию словарей и использовать их различные уровни при поиске информации по разным запросам.

Одной из актуальных задач информационно-поисковых систем является поиск аналогов. Сложность этой проблемы заключается в том, что по поисковому образу запроса, выраженному в терминах одной области знаний или отрасли техники, необходимо найти документ-аналог, поисковый образ которого выражен в терминах другой области знаний. Возникает межъязыковый барьер совместимости профессиональных языков. Один из путей преодоления такого барьера состоит в фасетном[7] принципе организации словарей, т.е. в построении одноименных фасет в словарях всех областей знаний и метафасет или трансляторов для перевода терминов одной области знаний в термины другой области знаний в пределах заданного фасета. Другой путь решения той же проблемы состоит в построении иерархического комплекса словарей, охватывающего все области знаний.

 

Количественные характеристики словарей. Эффективность информационного поиска в значительной мере определяется уровнем качества словарей информационно-поискового языка. Качество словарей можно охарактеризовать различными показателями. Наиболее часто используются следующие:

1) Количество типов словарей.

2) Число лексических единиц словарей.

3) Полнота словаря.

Рассмотрим ИПЯ некоторой автоматизированной ИПС, обслуживающей определенную предметную область. – общее число понятий данной предметной области, которые могут быть построены из лексических единиц ИПЯ () по правилам их образования в данном ИПЯ. Тогда коэффициент полноты словаря можно определить отношением к :

.

На практике используют:

,

где – количество лексических единиц словаря, по которым должен проводится поиск (определяется по общему количеству несовпадающих лексических единиц массива запросов), – количество лексических единиц в словаре.

4) Коэффициент отображения лексики поискового массива.

Данный коэффициент определяется следующим образом:

где – количество дескрипторов в словаре.

5) Коэффициент динамики роста словаря.

где – количество лексических единиц, введенных в словарь в процессе обработки D документов.

6) Распределение лексических единиц по длине словосочетаний

Средняя длина словосочетаний, используемых в ИПЯ в качестве лексических единиц, характеризует степень прекоординации[8] ИПЯ, тем самым являясь важной характеристикой смысловыразительной способности ИПЯ. Для характеристики ИПЯ с этой точки зрения используют распределение длин словосочетаний:

, ,

где – количество лексических единиц, содержащих l слов; m – максимальная длина словосочетания в ИПЯ (в числе слов).

Средняя длина лексических единиц:

, где .

7) Распределение лексических единиц по количеству символов

Длину лексических единиц ИПЯ можно характеризовать распределением:

,

,

где – количество лексических единиц, содержащих i символов, с – максимальное число символов в лексической единице. Среднее число символов в лексической единице:

8) Ранговое распределение лексических единиц словаря.

Пусть –словарь ИПС. Обозначим – частоту встречаемости слова x во всех текстах массива. Перенумеруем словарь так, чтобы частота слова была невозрастающей функцией его номера, т.е. если , то .

Назовем функцию ранговым распределением слов .

Показано, что частота слова n- го ранга связана с частотой слова 1-го ранга следующей зависимостью:

,

где n –ранг слова.

 

 

Контрольные вопросы

1. Какова суть метода координатного индексирования и поиска?

2. Каковы недостатки чистой координации и пути их устранения?

3. Какие основные элементы включают дескрипторные поисковые языки? Охарактеризуйте каждый из этих элементов.

4. Какие используются для оценки уровня качества словарей информационно-поискового языка?


<== предыдущая лекция | следующая лекция ==>
Тема 3: документальные информационные системы: общая характеристика и виды | Тема 5: системы индексирования
Поделиться с друзьями:


Дата добавления: 2014-01-13; Просмотров: 1708; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.054 сек.