КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Булева модель поиска
Модели поиска информации Главная цель информационно-поисковой системы – наилучшим образом удовлетворить потребности пользователей в необходимой информации. Для реализации этой глобальной цели необходимо проделать ряд подготовительных операций, которые были подробно рассмотрены выше: проанализировать информационный массив и представить его в форме, удобной для хранения и обработки. Второй частью поискового аппарата ИПС является непосредственно модель поиска информации. Любая стратегия поиска тесно связана с информационно-поисковым языком. Информационно-поисковый язык (ИПЯ) – это специальный язык для формирования запросов к ИПС. Необходимость создания ИПЯ вызвана трудностями интерпретации естественного языка в случае его использования в системе. Однако синтаксис поисковых языков обычно довольно прост и внешне они часто похожи на естественные. Современные поисковые системы позволяют полностью формулировать запрос на естественном языке. Перед использованием таких запросов обычно проводится морфологическая (нормализация терминов запроса[3]), лексическая (удаление из запроса терминов, присутствующих в стоп-словаре), реже синтаксическая и семантическая обработка. Рассмотрим основные модели поиска информации, применяемые в ИПС. Наиболее распространенной моделью поиска является булева модель, позволяющая составлять логические выражения из набора терминов. Найденные документы определяются в результате описанных запросом логических операций над множеством поисковых образов документов. Пользователь получает только те документы, чьи наборы терминов точно совпадают с соответствующими комбинациями терминов запроса. Поисковые образы запросов связывают термины с помощью булевых операторов ("И" – "AND", "ИЛИ" – "OR", "И НЕ" – "AND NOT"). Эти операции производятся над множествами документов, содержащих тот или иной термин, определенный запросом. Несколько типичных булевых стратегий поиска изображено на рис. 4.
Рис. 4. Поиск с использованием булевых операторов Здесь – термины, из которых состоят запросы, а – множества документов, содержащих эти термины (например, множество содержит термин и т. д.). Информационно-поисковые системы, работающие с такой моделью поиска, обладают рядом недостатков.
Тем не менее, несмотря на описанные недостатки, булева модель поиска широко применяется в современных ИПС из-за своей простоты. 11.2. Функции подобия "документ-запрос" Негативные свойства, характерные для булевого алгоритма поиска, обусловлены главным образом употреблением в запросе логических коннекторов, приводящих к жестким условиям поиска. Одним из решений этой проблемы является отказ от использования логических операторов и, как следствие, разработка каких-либо других алгоритмов поиска. В большинстве современных поисковых систем, и в том числе в ИПС сети Интернет, применяются модели поиска информации, основанные на вычислении мер близости документов и запросов. Информационно-поисковые языки, используемые в таких моделях, получили название языков типа "найти похожее" (языки типа "Like This"). В этих языках необязательно формулировать запросы с помощью булевых связок, а наиболее мощные системы дают пользователям возможность составлять запросы на обычном естественном языке. Для вычисления меры подобия документов и запросов существует более тридцати различных алгоритмов. На сегодняшний день используется лишь несколько из них. Мы рассмотрим четыре алгоритма: - алгоритм расширенного булевого поиска, - алгоритм наибольшего цитирования, - алгоритм, - расширенный векторный алгоритм поиска.
Дата добавления: 2014-01-20; Просмотров: 4104; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |