Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Общая функциональная структура документальных ИПС




Пертинентность и релевантность

Документальные ИС

 

lКлассические модели и методы в теории ИС изначально ориентировались на организацию хранения и обработки детально структурированных данных.

lОднако, на практике оказалось, что информация чаще представлена в виде простых текстовых документов.

lИтак, ДИС – это системы, ориентированные на работу с текстовыми документами, с данными, имеющими приближенное представление, сложную структуру.

Наиболее распространенный тип документальных систем – информационно-поисковые системы (ДИПС), предназначенные для накопления и поиска по различным критериям документов на естественном языке.

В отличие от ФИПС, которые в ответ на запрос потребителя осуществляют выдачу конкретных сведений (фактов), ДИПС в результате поиска предоставляет потребителю совокупность документов, смысловое содержание которых соответствует запросу.

 

Потребность человека в определенной информации в процессе его практической деятельности носит название информационной потребности.

l

lЧастное значение информационной потребности в определенные моменты времени, выраженное на ЕЯ, представляет собой информационный запрос, с которым пользователь обращается к системе.

В теории ДИПС введены два фундаментальных понятия: пертинентность и релевантность.

lДокументы, содержание которых удовлетворяет информационной потребности, называют пертинентными (от англ. pertinence – уместность, связь, отношение).

l Релевантность (от англ. relevance – уместность) представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован.

Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания (ПП) и поисковых образцов документов (ПОД).

lДля записи ПП и ПОД применяются специальные информационно-поисковые языки.

Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДИСП определяется степень смысловой близости между ПОД и ПП.

lТакой набор правил получил название критерия смыслового соответствия (КСС).

lВ состав типичной ДИПС входят четыре основные подсистемы:

1. Подсистема ввода и регистрации.

2. Подсистема обработки.

3. Подсистема хранения

4. Подсистема поиска.

Задачи подсистемы ввода и регистрации:

· Создание электронных копий бумажных документов (сканирование, распознавание, ввод с клавиатуры);

· Обеспечение подключения к каналам доставки электронных документов;

· Присвоение эл.документам уникальных идентификаторов, ведение таблицы синхро-низации имен;

· Преобразование формата эл.документов.

 

qСистема хранения:

· Средства архивации

· СУБД для доступа к данным по идентификатору.

q

qПодсистема обработки формирует для каждого документа ПОД.

ПОД сохраняются в индексе. Логически индекс – таблица, строки которой соответствуют документам, а столбцы информационным признакам.

qВ ячейках таблицы могут хранится либо 1, либо 0 – в зависимости наличия или отсутствия данного признака в данном документе.

qТакая таблица сильно разрежена, на практике хранят свертку таблицы по строкам и столбцам. Такую форму хранения называют прямой или инверсной.

 

При поступлении на вход системы запроса пользователя он преобразуется в ПП и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения КСС. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.

 

Для хранения документов применяют средства сжатия и быстрого поиска информации.

 




Поделиться с друзьями:


Дата добавления: 2014-01-13; Просмотров: 937; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.011 сек.