КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Общая функциональная структура документальных ИПС
Пертинентность и релевантность Документальные ИС
lКлассические модели и методы в теории ИС изначально ориентировались на организацию хранения и обработки детально структурированных данных. lОднако, на практике оказалось, что информация чаще представлена в виде простых текстовых документов. lИтак, ДИС – это системы, ориентированные на работу с текстовыми документами, с данными, имеющими приближенное представление, сложную структуру. Наиболее распространенный тип документальных систем – информационно-поисковые системы (ДИПС), предназначенные для накопления и поиска по различным критериям документов на естественном языке. В отличие от ФИПС, которые в ответ на запрос потребителя осуществляют выдачу конкретных сведений (фактов), ДИПС в результате поиска предоставляет потребителю совокупность документов, смысловое содержание которых соответствует запросу.
Потребность человека в определенной информации в процессе его практической деятельности носит название информационной потребности. l lЧастное значение информационной потребности в определенные моменты времени, выраженное на ЕЯ, представляет собой информационный запрос, с которым пользователь обращается к системе. В теории ДИПС введены два фундаментальных понятия: пертинентность и релевантность. lДокументы, содержание которых удовлетворяет информационной потребности, называют пертинентными (от англ. pertinence – уместность, связь, отношение). l Релевантность (от англ. relevance – уместность) представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован. Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания (ПП) и поисковых образцов документов (ПОД). lДля записи ПП и ПОД применяются специальные информационно-поисковые языки. Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДИСП определяется степень смысловой близости между ПОД и ПП. lТакой набор правил получил название критерия смыслового соответствия (КСС). lВ состав типичной ДИПС входят четыре основные подсистемы: 1. Подсистема ввода и регистрации. 2. Подсистема обработки. 3. Подсистема хранения 4. Подсистема поиска. Задачи подсистемы ввода и регистрации: · Создание электронных копий бумажных документов (сканирование, распознавание, ввод с клавиатуры); · Обеспечение подключения к каналам доставки электронных документов; · Присвоение эл.документам уникальных идентификаторов, ведение таблицы синхро-низации имен; · Преобразование формата эл.документов.
qСистема хранения: · Средства архивации · СУБД для доступа к данным по идентификатору. q qПодсистема обработки формирует для каждого документа ПОД. ПОД сохраняются в индексе. Логически индекс – таблица, строки которой соответствуют документам, а столбцы информационным признакам. qВ ячейках таблицы могут хранится либо 1, либо 0 – в зависимости наличия или отсутствия данного признака в данном документе. qТакая таблица сильно разрежена, на практике хранят свертку таблицы по строкам и столбцам. Такую форму хранения называют прямой или инверсной.
При поступлении на вход системы запроса пользователя он преобразуется в ПП и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения КСС. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.
Для хранения документов применяют средства сжатия и быстрого поиска информации.
Дата добавления: 2014-01-13; Просмотров: 937; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |