КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Лекция 7. Тема: Информационно - поисковые системы
Тема: Информационно - поисковые системы.
План: 1. Общие сведение о информационно-поисковых системах (ИПС). Основные определения. 2. Функционирование ИПС. Схема функционирования поисковой системы. 3. ИПС, базирующиеся на классификации. 4. Организация ИПС на поиски по ключевым словам. 5. Метасистемы. 6. Развитие информационно – поисковых систем. Ключевые слова Поиск информации, электронные каталоги, информационно – поисковая система, классификация, ключевые слова, метаданные, объём информации, анализ документа, поисковый образ, запрос, релевантность, атрибут, метасистема, рубрикация, информационные ресурс, эффективность, библиотечные каталоги, технология, портал, образовательная срда, пользователи, архитектура, автоматизированная система.
В последние годы сеть интернет стала основным хранилищем информации. С ростом объёмов хранимых данных стала актуальной проблема информационного поиска. Для облегчения поиска на открытых для доступа сайтах в интернет используют информационно – поисковые системы (ИПС) и электронные каталоги. В ИПС собираются, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе Web – серверов. Индексирование включает создание поисковых образов документов. Обычно в поисковый образ входят или все значащие слова, имеющиеся в документе, или только слова из заголовка. Информационно – поисковая система – программная система для хранения, поиска и выдачи интересующей пользователя информации. Информационно – поисковая система выполняет анализ документов, создание и хранение поисковых образов документов, анализ запросов пользователей, поиск и выдачу пользователю данных о месте расположения в сети запрашиваемых документов. В основе поиска лежит сопоставление запроса пользователя с поисковыми образами документов, в результате отбираются релевантные документы, т.е. документы, чьи поисковые образы соответствуют запросу. Во многих ИПС пользователю представляется возможность обращаться к серверу с запросами на естественном языке, а также со сложными запросами, включающими логические связки. Примерами таких ИПС могут служить системы Excite, Lycos, Altavista и другие. Для функционирования Altavista в своё время фирма DEC выделила несколько компьютеров, в том числе десятипроцессорную машину Alpha – 8400. Поисковые образы, называемые также метаописаниямиили метаданными, могут представлять собой значения атрибутов документов или множество ключевых слов. Поиск на основе этих двух вариантов поисковых образов называют атрибутивным и контекстным поиском. Часто используют сочетание этих двух способов поиска. Поиск в электронных каталогах основан на составлении запроса с разделами информации в иерархической структуре её классификации. Классификацию информации называют рубрикацией. Наиболее сложной является разработка тематической рубрикации. В мире существует ряд систем тематической рубрикации. Та, в России широко известны иерархические системы УДК (универсальная десятичная классификация) и ГРНТИ (Государственные реестр научно – технической информации). Однако, они громоздки и неудобны для использования в электронных каталогах и образовательных ИПС. Поэтому существует ряд частных систем рубрикации с несколькими уровнями иерархии. Отметим, что если в ИПС создание поисковых образов осуществляется автоматически, то в электронных каталогах структура информационных ресурсов определяется квалифицированными людьми. Примеры поисковых систем, работающих по принципу электронного каталога: Yahoo!, Galaxy, Looksmart, Yandex. Так, в Yahoo! На верхнем уровне иерархи выделено 14 категорий (например, искусство и гуманитарные науки, образование, бизнес и экономика, наука и др.) Пользователь при поиске осуществляет навигацию по разделам иерархического дерева, спускаясь от верхнего уровня до искомого конечного, на котором он получает сведения об адресах сайтов с нужными информационными ресурсами. Объем информационного пространства в упомянутых системах довольно велик. Так, в системе Yahoo! Была собрана информация 1 800 000 сайтов.
Функционирование информационно – поисковой системы Общая схема функционирования традиционной ИПС представлена на рис.
Рис. 1. Схемы функционирования ИПС.
Основными процессами в ИПС являются индексирование документов и поиск документов по запросу пользователя. Процесс информационного поиска происходит следующим образом. Пользователь выражает свои информационные потребности в виде специального текста – информационного запроса к ИПС. Система формирует из информационного запроса поисковое предписание, переводя запрос на информационно – поисковый язык (ИПЯ). ИПЯ представляет собой формальный язык, который используется внутри ИПС для представления пользовательского запроса и хранимых документов. Описание документов на ИПЯ называется поисковым образом документа. В процессе поиска ИПС должна выбрать из массива документов те, которые содержательно релевантны запросу, то есть соответствуют информационным потребностям пользователя, выраженным в запросе. Такое определение релевантности не формально, поэтому определяют формальную релевантность, как соответствие, определяемое алгоритмически, путем сравнения поискового предписания и поискового образа документа. Критерий выдачи документа – поискового образа документа и поискового предписания, по которому принимается решение о выдаче некоторого документа в ответ на информационный запрос. В процессе индексирования, для каждого документа, хранящегося в системе, строится поисковый образ. Различают 2 основных подхода к построению поискового образа – приписывающее и выводящее индексирование. В первом случае в процессе индексирования документу присваивается номер ключевых слов из некоторой классификационной системы, и документ помещается в общую классификацию. Во втором случае из документа выбирается набор ключевых слов и объявляется поисковым образом, с которым далее работает ИПС. Традиционные ИПС осуществляют как поиск, так и хранение документов. В отличие от традиционных ИПС, ИПС для поиска информации в интернет не могут осуществлять фукнцию хранения документов, что приводит к необходимости другого подхода к организации работы ИПС. Рассмотрим основные классы промышленных ИПС для поиска информации в интернет.
ИПС, базирующиеся на классификации.
В целом, схема работы такой ИПС в Интернет аналогична схеме работы традиционной ИПС. Общая схема работы ИПС на основе классификации показана на рис. 2.
Рис. 2.Общая схема работы ИПС базирующейся на классификации.
Основным отличием является появление процесса поиска новых документов. В традиционных ИПС новые документы вводятся в систему хранения оператором и индексируются. В ИПС, ориентированных на работу в Интернет, ввод новых документов осуществляется либо вручную оператором, либо автоматически с помощью специальной программы обхода Интернет – индексирующего робота. Применение для информационного поиска в интернет ИПС базирующихся на классификации эффективно в случае, когда классификационная система построена по узкой предметной области. Основных недостатков два: 1. Для качественного поиска они вынуждены выкачивать из Интернет все документы для индексирования и хранения их у себя. Это приводит к большому объёму хранимой информации, высокой нагрузке на сеть и необходимости постоянно обновлять информации в базе; 2. Поиск документов пользователем может осуществляться только по используемой классификационной системе. ИПС, базирующиеся на поиске по ключевым словам.
ИПС базирующиеся по ключевым словам позволяют искать Web – страницы о их содержанию, формируя запрос в виде ключевых слов, которые должны присутствовать в документе. В настоящее время, системы поиска по ключевым словам представляют собой наиболее распространенные ИПС в интернет. На рис. 3 показана общая схема работы системы поиска по ключевым словам. Основными процессами в работе системы является поиск новых документов индексирующим роботом, индексирование найденных документов и выполнения запроса пользователя. Индексирующий робот представляет собой автономный процесс, постоянно или периодически обновляющий и пополняющий базу документов. Изначально роботу дается список Web – серверов, которые необходимо проиндексировать. В процессе работы индексирующий Рис. 3. Общая схема работы системы по ключевым словам.
Робот осуществляет обход Web – серверов по гиперссылкам между страницами и собирает все найденные документы в базу документов, а ссылки - в базу ссылок. Таким образом, на основе начального списка серверов строятся документы для всех достижимых Web – страниц. Периодически, индексирующий робот проверяет хранящуюся информацию на корректность и целостность путем повторного обхода проиндексированных страниц. По известным ИПС документам строится индекс, позволяющий эффективно осуществлять поиск по ключевым словам. Дальнейшее хранения всего документа после индексирования ненужно, для экономии дискового пространства хранится короткий поисковый образ. Запрос пользователя представляет собой набор ключевых слов с булевыми связками. Выбор документов по запросу осуществляется с помощью индекса. ИПС возвращает в ответ на запрос список ссылок на документы. Достоинством систем поиска по ключевым словам является простота использования. К недостаткам можно отнести следующие особенности. 1. В ответ на запрос выдается много нерелевантной информации. Это происходит из-за того, что с помощь. Списка ключевых слов практически можно сформулировать информационные потребности пользователя. 2. Индексирующие роботы сильно загружают сеть. Так как робот не имеет возможности перемещаться по сети, он вынужден скачивать большие объемы информации для локальной обработки (объём информации исчисляется терабайтами). 3. Невозможность работы с часто изменяемой информацией. 4. Охват Интернет любой из имеющихся систем поиска по ключевым словам не превышает 16%. 5. Возможность работы пользователя только в интерактивном режиме. Метасистемы. Метасистемы для ИП в Интернет, являются надстройками над существующими системами поиска по ключевым словам. Они позволяют преодолеть следующие недостатки промышленных систем поиска по ключевым словам. Решение проблемы ИП в Интернет на сегодняшний день состоит не только в построении эффективных ИПС, но и в изменении структурной организации информации Интернет. Технология поиска, основанная на упорядочении метаинформации наподобие библиотечных каталогов (классификация по содержанию) продолжает развиваться. Однако поиск по ключевым словам во всем пространстве Интернет не всегда оказывается эффективным и может потребовать слишком много времени. Сделать работу пользователя корпоративной системы в интернет более эффективной позволяет технология порталов, применение языка разметки XML и языков поиска XPath или XQuery в базах XML – документов. Контрольные вопросы и задания. 1. Какую информацию выполняют информационно – поисковые системы? 2. Что лежит в основе поиска информации? 3. Что представляют собой поисковые образы и каким образом осуществляется создание поисковых образов? 4. Приведите примеры ИПС. 5. Объясните и составьте общую схему работы ИПС, базирующейся на классификации. 6. Каким образом происходит поиск в ИПС по ключевым словам? 7. Какие недостатки имеет система поиска по ключевым словам? 8. Что такое рубрикация? 9. По каким признакам классифицируется ИПС? 10. Приведите примеры поисковых систем по принципу электронного каталога. 11. Для каких целей в Интернет создают порталы? 12. Перечислите задачи, связанные с развитием ИПС.
Литература 2, 5, 13, 18.
Дата добавления: 2014-01-11; Просмотров: 12072; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |