Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Поиск с помощью усечения

Сложные запросы.

Сложноорганизованность записей и полей в документальных БД оправдывается возможной потребностью в формулировке сложных запросов. Собственно, что требуется, так это возможность комбинирования понятий и ключей в их логическом взаимоотношении и возможность изменения запроса на основе промежуточных результатов. Информационные потребности часто очень сложно сформулировать, и выдаваемая информация может быть разного уровня полезности. С такого рода потребностями поможет справиться логическая гибкость. Для решения подобных вопросов в среде документальных систем БД были найдены несколько путей получения или выдачи релевантной информации.

Поисковые функции документальных ИС.

Основные поисковые функции включают в себя: усечение (truncation), возможность просмотра на экране файла инвертированных индексов, поиск по словарной близости – корневому родству (proximity searching), с помощью булевых операторов, создание наборов (set building) и пошаговое сужение области поиска (stepwise refinement), поиск по размеру (range searching) и поиск по сравнению (comparison searching), а также возможность заранее определять поля, по которым проводится поиск. Приведённые ниже поисковые функции считаются стандартными и находят применение в работе практически с любой текстовой БД.

Большинство систем позволяют пользователю использовать усечение терминов для поиска всех терминов или фраз, которые начинаются с одного определённого набора букв. Такая функция обычно задаётся системе с помощью специального символа усечения. Таким образом, помещая символ усечения после набора букв ПРАВО, пользователь даёт системе команду найти входы инвертированных индексов ПРАВОВОЙ, ПРАВОПРИМЕНИТЕЛЬНЫЙ и другие (символ усечения различен в разных системах, но обычно это символы?, #, *, и /). В некоторых системах можно найти и другие вариации усечения. Левостороннее усечение не используется всеми системами, но в некоторых случаях оно может оказаться необходимым (например, в химической БД).

Чаще встречается функция определения максимальной длины термина или набора букв (например, для выдачи терминов КОМПЬЮТЕР, КОМПЬЮТЕРА, а не КОМПЬЮТЕРИЗАЦИЯ или КОМПЬЮТЕРНЫЙ). Вставной символ неопределённости, иногда называемый internal wildcard character, используется там, где необходима замена символов (например, WOM*N). Некоторые системы поддерживают такой символ неопределённости для замены некоего набора букв в середине слова, например при выражении ПРИВ*ТЬ будут выданы ПРИВЫКАТЬ, ПРИВЫКНУТЬ и любое другое слово, начинающееся на ПРИВ и заканчивающееся на ТЬ, например, ПРИВИНТИТЬ.

Использование усечения имеет особое значение для пофразово проиндексированных полей, поскольку это позволяет пользователю получить необходимые записи без необходимости знать фразы целиком. Используя усечённый поиск автора ПЕТРОВ, можно найти все записи, содержащие автора с фамилией ПЕТРОВ, так как не будет необходимости вводить пробелы, знаки пунктуации или инициалы таким образом, как это требуется при пофразовом индексировании, так как все они будут следовать за символом усечения.

<== предыдущая лекция | следующая лекция ==>
Несколько ключей доступа | Поиск с помощью булевых логических операторов
Поделиться с друзьями:


Дата добавления: 2014-01-06; Просмотров: 520; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.012 сек.