Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Документальные информационные системы




 

Документальные системы (предназначенные для обработки, по­иска, представления полнотекстовых документов или справочно-реферативной информации) ведут свое происхождение от библиотечно-реферативных служб или информационных центров, выпускаю­щих реферативную информацию (обзоры, экспресс-информацию, реферативные журналы).

В данных системах единицей данных является документ.

В докумен­тальных системах моделью является наполнение, содержание БД, в том числе словарей, тезаурусов и т. д., поэтому основное внимание уделяется языковым, семантическим проблемам.

Примерами документальных поисковых систем являются библиотечные каталоги, в которых книга (документ) индексируется по фамилии авторов, тематике, году выпуска, по ключевым словам, содержащимся в тексте (в принципе, это и есть признак документального поиска, так другие перечисленные индексы могут быть реализованы и в фактографической ИС) и т.п.

ИПС ­­­– информационно-поисковая система, позволяет находить документы по определенным критериям, признакам или ключевым словам. Примером является функция «Поиск» в Windows, доступная из главного меню.

Документальный информационный поиск в сети Интернет.

Поисковые задачи в сети Интернет имеют следующие особен­ности:

1. Огромный объем доступной информации. За последние годы было предпринято множество попыток оценить размер ресурса Ин­тернет, и, хотя оценки не полностью совпадают, все они единоглас­ны в том, что в Интернет содержится более миллиарда страниц и их число увеличивается экспоненциально.

2. Высокий процент временной информации. Информация в Ин­тернет очень динамична, информационные ресурсы непрерывно появляются, пропадают, перемещаются, обновляются. В среднем, ежемесячно изменяется около 40 % информации, среднее время жизни половины страниц в Интернет не превышает 10 дней.

3. Неконтролируемое качество информации. Отсутствие редактор­ского контроля над публикуемой информацией в Интернет обуслав­ливает проблему ее качества - информация может быть некоррект­ной (например, устаревшей), ложной, плохо сформулированной, содержать ошибки (опечатки, грамматические ошибки, ошибки оцифровки и т. п.). Так, по некоторым оценкам, одна опечатка встречается в среднем в каждых двухстах часто употребляемых сло­вах или в трех иностранных фамилиях.

4. Разнородность информации. Кроме различных форматов пред­ставления информации, используется также множество различных языков и алфавитов. Около 30 % информации в Интернет составля­ют точные или приблизительные копии других документов.

5. Структура процессов в поисковых системах WWW. Ключевым отличием данных систем от классических АИПС является нали­чие сетевых роботов - программных модулей-агентов, занимаю­щихся сбором информации о доступных WWW-pecypcax. Они осуществляют сканирование и, начиная с некоторого множества ссылок (URL) на WWW-страницы, рекурсивно обходят ресурсы Интернет, извлекая ссылки из получаемых документов.

Собранная информация помещается в хранилище, содержимое которого определяет набор документов, по которым идет поиск.

Как и в классических ИПС, для достижения приемлемой эф­фективности поиск производится не напрямую по документам в хранилище, а по индексным структурам, за создание которых отве­чает модуль индексирования.

Получение и выполнение запросов пользователей - это задача модуля поисковой машины.

При исследовании задачи сканирования возникает ряд вопросов.

1. Выбор WWW-ссылок для индексирования. Обычно робот имеет информацию о существовании множества еще не отсканиро­ванных ресурсов и может выбирать, какой из них «посетить» сле­дующим. Этот выбор осуществляется согласно используемой робо­том стратегии сканирования, которая напрямую определяет множе­ство страниц, которое будет обработано роботом и, как следствие, какие страницы будут известны поисковой системе.

2. Частота обновления индекса. В связи с высокой динамикой изменений в WWW собранная информация о многих посещенных страницах довольно быстро перестает отражать их реальное текущее содержание.

3. Минимизация нагрузки на WWW-серверы. Робот не должен перегружать сервер своими запросами или сканировать информа­цию против воли владельца сервера.

4. Организация параллельного сканирования. Одним из спосо­бов повышения производительности является параллельный запуск нескольких роботов на разных машинах, но при этом необходим хо­рошо масштабируемый механизм координации их действий (напри­мер, чтобы они одновременно не сканировали один и тот же адрес).

 




Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 2395; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.013 сек.