Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Особенности поисковых систем




В большинстве случаев информационная потребность возникает после изучения какой-либо новой информации, полученной пользователем. Часто возникает ситуация, когда пользователь уже обладает некоторым массивом документов по искомой тематике. Предлагается использовать эти документы для автоматизированного составления поискового запроса с помощью специализированной программы.

Поисковый процесс представлен четырьмя стадиями:

· формулировка (происходит до начала поиска);

· действие (начинающийся поиск);

· обзор результатов (результат, который пользователь видит после поиска);

· и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности).

Более удобная нелинейная схема поиска информации состоит из следующих этапов:

1. Фиксация информационной потребности на естественном языке;

2. Выбор поисковых сервисов сети и формализация записи информационной потребности на конкретных информационно-поисковых языках (ИПЯ);

3. Выполнение созданных запросов (поиск);

4. Сохранение релевантных документов для последующего изучения;

5. Извлечение из релевантных документов ссылок для расширения

запроса;

6. Повторное выполнение запроса;

7. Изучение всего массива сохраненных документов;

8. Если информационная потребность не полностью удовлетворена,

то возврат к первому этапу.

Система должна осуществлять индексацию всех документов пользователя. В процессе индексации все слова, содержащиеся в документах, разбиваются по следующим семантическим классам:

стоп-слова;

наиболее частотные слова бытового (разговорного) языка;

общекультурная терминология;

общенаучная терминология;

известные системе термины предметной области;

неизвестные слова.

Разбиение осуществляется на основе соответствующих словарей, которые должны быть составной частью системы. К неизвестным словам будут отнесены в первую очередь многие специальные слова предметной области. Туда же попадут новообразованные термины и слова, содержащие ошибки.

На основе индекса осуществляется построение векторного представления документов, после чего система производит иерархическую кластеризацию множества документов, в результате чего получается разбиение этого множества на тематические группы. В ходе диалога с пользователем происходит выбор одного или нескольких наиболее релевантных кластеров документов и задание характеристик поискового процесса.

Поисковый запрос следует строить на основе вектора центроида выбранного кластера. Оптимальный размер запроса составляет от 8-12 до 25-30 терминов. Последняя подготовительная операция заключается в записи запроса на информационно-поисковом языке.

Основная задача поисковой системы - минимизировать время, затрачиваемое пользователем на поиск релевантной запросу информации. Релевантность - одно из самых субъективных и запутанных понятий в науке информационного поиска. Наиболее часто говорят о релевантности с точки зрения пользователя, и тогда ``релевантная запросу информация'' и ``нужная пользователю информация'' - одно и то же. Именно о такой релевантности мы говорим в данном разделе. Вопрос заключается в том, какую информацию пользователь посчитает нужной? В некоторых обстоятельствах релевантную информацию можно определить как всю информацию из базы, имеющую отношение к запросу. Так, например, если пользователю нужно узнать все о конкретной фирме, то он заинтересован в нахождении всех документов, в которых упоминается об этой фирме. Это так называемый широкий запрос.

В других обстоятельствах релевантная информация - это только та информация, которая достаточна для выполнения определенной задачи пользователя, например, поиска ответа на конкретный вопрос. Это узкий запрос. Если в последнем случае в результатах поиска будет много избыточных данных, т.е. данных, которые имеют отношение к запросу, но не нужны для выполнения данной задачи, то выборка нужной/релевантной информации займет у пользователя дополнительное время.

Таким образом, традиционно к поисковой системе применяют две основные характеристики: точность и полнота, а точнее, их зависимость. Каждый раз, когда пользователь задает системе запрос, тем самым инициализируя поиск, все документы в коллекции поисковой системы делятся на четыре части.
Точность определяет один аспект поиска, а именно, насколько хорошо поисковая система способна минимизировать время, затрачиваемое пользователем на поиск релевантной данному запросу информации. В то время как полнота определяет другой аспект - насколько хорошо система способна найти релевантную данному запросу информацию. Можно подобрать оптимальный запрос(ы), когда каждый найденный документ будет релевантным, и каждый релевантный документ будет найден??? Как будет видно далее, это невозможно.




Поделиться с друзьями:


Дата добавления: 2014-01-03; Просмотров: 1063; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.012 сек.