КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Тема 3: документальные информационные системы: общая характеристика и виды
Два типа документальных систем: семантически-навигационные системы, системы на основе индексирования. информационно-поисковый язык и его составляющие. Основной задачей документальных информационных систем является накопление и предоставление пользователю документов, содержание, тематика, реквизиты и т. п. которых адекватны его информационным потребностям. Поэтому можно дать следующее определение документальной информационной системы — единое хранилище документов с инструментарием поиска и отбора необходимых документов. Поисковый характер документальных информационных систем исторически определил еще одно их название — информационно-поисковые системы (ИПС), хотя этот термин не совсем полно отражает специфику документальных ИС. Автоматизированная информационно-поисковая система (АИПС) является ядром документальной автоматизированной информационной системы. На рис. 3.1 представлена декомпозиция логико-семантических средств, обеспечивающих создание и функционирование АИПС. Это комплекс языковых, логических и математических средств формализованного представления семантической информации в целях ее автоматизированной обработки и поиска. Рис. 3.1. Логико-семантические средства, обеспечивающие создание и функционирование информационно-поисковых систем Соответствие найденных документов информационным потребностям пользователя называется пертинентностью. Пертине́нтность (англ. pertinence) — соотношение объёма полезной информации к общему объёму полученной информации Это субъективная оценка потребителем степени соответствия найденной информации его потребности или полезность найденного для решения поставленной задачи. В силу теоретических и практических сложностей с формализацией смыслового содержания документов пертинентность относится скорее к качественным понятиям, хотя, как будет рассмотрено ниже, может выражаться определенными количественными показателями. В зависимости от особенностей реализации хранилища документов и механизмов поиска документальные ИПС можно разделить на две группы: I. Семантически-навигационные системы. II. Системы на основе индексирования.
I. В семантически-навигационных системах документы, помещаемые в хранилище (в базу) документов, оснащаются специальными навигационными конструкциями, соответствующими смысловым связям (отсылкам) между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют некоторую семантическую (смысловую) сеть в базе документов. Способ и механизм выражения информационных потребностей в подобных системах заключаются в явной навигации пользователя по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых информационно-поисковых системах. II. В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса-координаты в поисковом пространстве. То есть осуществляется перевод содержания документа с естественного языка на ИПЯ, в результате которого полный текс документа заменяется некоторой характеристикой, коротко отражающей его смысловое содержание. Формализованное представление (описание) индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности средствами и языком поискового пространства, формируя поисковый образ запроса (ПОЗ) к базе документов. Система на основе определенных критериев и способов ищет документы, поисковые образы которых соответствуют или близки поисковым образам запроса пользователя, и выдает соответствующие документы. Соответствие найденных документов запросу пользователя называется релевантностью. Схематично общий принцип устройства и функционирования документальных ИПС на основе индексирования иллюстрируется на рис. 3.2. Подобная операция сравнения смыслового содержания запроса со смысловым содержанием хранящихся в системе документов возмодна только в случае, когда существует некоторый язык представления информации, позволяющий однозначно описывать смысловое содержание документов и запросов. Естественный язык для этих целей не подходит в силу своей многозначности и высокой сложности. Рис. 3.2. Схема устройства и функционирования документальных ИПС на основе индексирования
Поисковое пространство, отображающее поисковые образы документов и реализующее механизмы информационного поиска документов так же, как и в СУБД фактографических систем, строится на основе языков документальных баз данных, называемых информационно-поисковыми языками(ИПЯ). Информационно-поисковый язык представляет собой некоторую формализованную семантическую систему, предназначенную для однозначного выражения содержания документа и запросов по поиску необходимых документов. По аналогии с языками баз данных фактографических систем ИПЯ можно разделить на структурную и манипуляционную составляющие (рис. 3.2).
Рис. 3.3. Механизмы ИПЯ
Структурная составляющая ИПЯ (поискового пространства) документальных ИПС на основе индексирования реализуется индексными указателями в форме информационно-поисковых каталогов, тезаурусов и генеральных указателей. Информационно-поисковые каталоги являются традиционными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляют собой классификационную систему знаний по определенной предметной области. Смысловое содержание документа в информационно-поисковых каталогах отображается тем или иным классом каталога, а индексирование документов заключается в присвоении каждому документу специального кода (индекса) соответствующего по содержанию класса (классов) каталога и создания на этой основе специального индексного указателя. Тезаурус представляет собой специальным образом организованную совокупность основных лексических единиц (понятий) предметной области (словарь терминов) и описание парадигматических отношений между ними. Парадигматические отношения выражаются семантическими отношениями между элементами словаря, не зависящими от любого контекста. Независимость от контекста означает обобщенность (абстрагированность) смысловых отношений, например отношения «род-вид», «предмет-целое», «субъект-объект-средство-место-время действия». Так же, как и в информационно-поисковых каталогах, в системах на основе тезаурусов в информационно-поисковое пространство отображается не весь текст документа, а только лишь выраженное средствами тезауруса смысловое содержание документа. Генеральный указатель (глобальный словарь-индекс) в общем виде представляет собой перечисление всех слов (словоформ), имеющихся в документах хранилища, с указанием (отсылками) координатного местонахождения каждого слова (№ документа – № абзаца – № предложения – № слова). Индексирование нового документа в таких системах производится через дополнение координатных отсылок тех словоформ генерального указателя, которые присутствуют в новом документе. Так как поисковое пространство в таких системах отражает полностью весь текст документа (все слова документа), а не только его смысловое содержание, то такие системы получили название полнотекстовых ИПС. Структурная составляющая ИПЯ семантически-навигационных систем реализуется в виде техники смысловых отсылок в текстах документов и специальном навигационном интерфейсе по ним и в настоящее время представлена гипертекстовыми технологиями. Поисковая (манипуляционная) составляющая ИПЯ реализуется дескрипторными и семантическими языками запросов. В дескрипторных языках документы и запросы представляются наборами некоторых лексических единиц (слов, словосочетаний, терминов) — дескрипторов, не имеющих между собой связей, или, как еще говорят, не имеющих грамматики. Таким образом, каждый документ или запрос ассоциируется или, лучше сказать, представлен некоторым набором дескрипторов. Поиск осуществляется через поиск документов с подходящим набором дескрипторов. В качестве элементов-дескрипторов выступают либо элементы словаря ключевых терминов, либо элементы генерального указателя (глобального словаря всех словоформ). В силу отсутствия связей между дескрипторами, набор которых для конкретного документа и конкретного запроса выражает, соответственно, поисковый образ документа — ПОД или поисковый образ запроса ПОЗ, такие языки применяются, прежде всего, в полнотекстовых системах. Семантические языки содержат грамматические и семантические конструкции для выражения (описания) смыслового содержания документов и запросов. Все многообразие семантических языков подразделяется на две большие группы: • предикатные языки; • реляционные языки. В предикатных языках в качестве элементарной осмысленной конструкции высказывания выступает предикат, который представляет собой многоместное отношение некоторой совокупности грамматических элементов. Многоместность отношения означает, что каждый элемент предиката играет определенную роль для группы лексических элементов в целом, но не имеет конкретных отношений с каждым элементом этой группы в отдельности. Аналогом предикатного высказывания в естественном языке выступает предложение, констатирующее определенный факт или описывающее определенное событие. В реляционных языках лексические единицы высказываний могут вступать только в бинарные (друг с другом), но не в совместные, т. е. не многоместные отношения. В качестве лексических единиц семантических языков выступают функциональные классы естественного языка, важнейшими из которых являются: • понятия-классы (общее определение совокупности однородных элементов реального мира, обладающих некоторым характерным набором свойств, позволяющих одни понятия-классы отделять от других); • понятия-действия (лексический элемент, выражающий динамику реального мира, содержит универсальный набор признаков, включающий субъект действия, объект действия, время действия, место действия, инструмент действия, цель и т. д.); • понятия-состояния (лексические элементы, фиксирующие состояния объектов); • имена (лексические элементы, идентифицирующие понятия-классы); • отношения (лексические элементы, служащие для установления связей на множестве понятий и имен); • квантификаторы (всеобщности, существования и т. д.). Семантические языки составляют языково-манипуляционную основу информационно-поисковых каталогов, тезаурусов и семантически-навигационных (гипертекстовых) ИПС, описывая своими средствами собственно сами каталоги, тезаурусы, семантические сети и выражая смысловое содержание документов и запросов. Полнота информационного поиска R определяется отношением числа найденных пертинентных документов А к общему числу пертинентных документов С, имеющихся в системе или в исследуемой совокупности документов: R=A/C. Точность информационного поиска Р определяется отношением числа найденных пертинентных документов А к общему числу документов L, выданных на запрос пользователя: P=A/L Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы. Коэффициент информационного шума k, соответственно, определяется отношением числа нерелевантных документов (L–A), выданных в ответе пользователю к общему числу документов L, выданных на запрос пользователя: k=(L-А)/L В идеале полнота информационного поиска и точность информационного поиска должны приближаться к единице, хотя на практике их значения колеблются в пределах от 60 до 90%. Контрольные вопросы 1. Что оценивает «пертинентность»? 2. Перечислите логико-семантические средства, обеспечивающие создание и функционирование АИПС. 3. В чем различия семантически-навигационных систем и систем на основе индексирования? 4. Дайте определение понятию «информационно-поисковый язык». 5. Что такое поисковый образ документа и поисковый образ запроса? 6. С помощью каких технологий реализуется структурная составляющая информационно-поискового языка? 7. С помощью каких механизмов реализуется поисковая (манипуляционная) составляющая ИПЯ? 8. Какими количественными показателями характеризуются результаты информационного поиска в документарных системах?
Дата добавления: 2014-01-13; Просмотров: 3597; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |