Булева модель поиска

⇐ Предыдущая 1 2 3 4 567 8 Следующая ⇒

Модели поиска информации

Главная цель информационно-поисковой системы – наилучшим образом удовлетворить потребности пользователей в необходимой информации. Для реализации этой глобальной цели необходимо проделать ряд подготовительных операций, которые были подробно рассмотрены выше: проанализировать информационный массив и представить его в форме, удобной для хранения и обработки. Второй частью поискового аппарата ИПС является непосредственно модель поиска информации.

Любая стратегия поиска тесно связана с информационно-поисковым языком. Информационно-поисковый язык (ИПЯ) – это специальный язык для формирования запросов к ИПС. Необходимость создания ИПЯ вызвана трудностями интерпретации естественного языка в случае его использования в системе. Однако синтаксис поисковых языков обычно довольно прост и внешне они часто похожи на естественные.

Современные поисковые системы позволяют полностью формулировать запрос на естественном языке. Перед использованием таких запросов обычно проводится морфологическая (нормализация терминов запроса[3]), лексическая (удаление из запроса терминов, присутствующих в стоп-словаре), реже синтаксическая и семантическая обработка.

Рассмотрим основные модели поиска информации, применяемые в ИПС.

Наиболее распространенной моделью поиска является булева модель, позволяющая составлять логические выражения из набора терминов. Найденные документы определяются в результате описанных запросом логических операций над множеством поисковых образов документов. Пользователь получает только те документы, чьи наборы терминов точно совпадают с соответствующими комбинациями терминов запроса.

Поисковые образы запросов связывают термины с помощью булевых операторов ("И" – "AND", "ИЛИ" – "OR", "И НЕ" – "AND NOT"). Эти операции производятся над множествами документов, содержащих тот или иной термин, определенный запросом.

Несколько типичных булевых стратегий поиска изображено на рис. 4.

Формулировка запроса	Операции с множествами документов	Результат поиска
Термин
Термины
Термины
Термины
Термины

Рис. 4. Поиск с использованием булевых операторов

Здесь – термины, из которых состоят запросы, а – множества документов, содержащих эти термины (например, множество содержит термин и т. д.).

Информационно-поисковые системы, работающие с такой моделью поиска, обладают рядом недостатков.

Обычные булевы запросы затрудняют варьирование глубины поиска с целью выдачи большего или меньшего количества документов в зависимости от требований пользователя. Для получения желаемого уровня эффективности необходимо найти правильную формулировку запроса: не слишком широкую и не слишком узкую. Оператор AND может привести к резкому сокращению числа документов, которые выдаются на запрос. Оператор OR, напротив, может чрезмерно расширить запрос, и выделить нужную информацию из информационного шума будет трудно. Результат поиска также сильно зависит от того, насколько типичными для базы данных ключевых слов являются термины запроса. Поэтому для успешного применения булевой модели пользователю следует хорошо ориентироваться в лексике словаря и знать, как влияет на результат поиска добавление или исключение терминов из запроса.
При использовании булевой логики нельзя получить эффект от функций совпадения векторов, которые дают непрерывный спектр совпадений (полных, частичных или нулевых) между запросами поисковыми образами документов. Это обстоятельство приводит к жесткому требованию "все или ничего" на выходе.
Еще одним минусом является тот факт, что множество выданных документов не может быть представлено пользователю в ранжированном виде, например, в порядке уменьшения сходства между документом и запросом. Документ либо полностью соответствует запросу, либо не соответствует совсем.

Тем не менее, несмотря на описанные недостатки, булева модель поиска широко применяется в современных ИПС из-за своей простоты.

11.2. Функции подобия "документ-запрос"

Негативные свойства, характерные для булевого алгоритма поиска, обусловлены главным образом употреблением в запросе логических коннекторов, приводящих к жестким условиям поиска. Одним из решений этой проблемы является отказ от использования логических операторов и, как следствие, разработка каких-либо других алгоритмов поиска.

В большинстве современных поисковых систем, и в том числе в ИПС сети Интернет, применяются модели поиска информации, основанные на вычислении мер близости документов и запросов.

Информационно-поисковые языки, используемые в таких моделях, получили название языков типа "найти похожее" (языки типа "Like This"). В этих языках необязательно формулировать запросы с помощью булевых связок, а наиболее мощные системы дают пользователям возможность составлять запросы на обычном естественном языке.

Для вычисления меры подобия документов и запросов существует более тридцати различных алгоритмов. На сегодняшний день используется лишь несколько из них. Мы рассмотрим четыре алгоритма:

- алгоритм расширенного булевого поиска,

- алгоритм наибольшего цитирования,

- алгоритм,

- расширенный векторный алгоритм поиска.

⇐ Предыдущая 1 2 3 4 567 8 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2014-01-20; Просмотров: 4104; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2025) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.01 сек.