Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Организация и проведение поиска информации в Internet

Поисковые системы

Поиск информации в сети Internet

Поисковая система – это система, которая занимается сбором информации о ресурсах Internet и ее систематизацией для того, чтобы упростить пользователю доступ к интересующей его информации.

· каталоги;

· поисковые машины;

Поисковые системы обычно состоят из трех компонент:

· агент (паук или кроулер), которая сканирует Internet и собирает информацию;

· база данных, которая содержит собираемую информацию;

· поисковый механизм и интерфейс для взаимодействия с базой данных.

 

Принципы определения соответствия запроса найденному документу (релевантности):

1) Количество слов запроса в текстовом содержимом документа (т.е. в HTML-коде).

2) Тэги, в которых эти слова располагаются (например, в <title>)

3) Местоположение искомых слов в документе (например, в начале страницы).

4) Время – как долго страница находится в базе поискового сервера.

5) Индекс цитируемости – как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковой системы.

На запрос пользователя поисковая система формирует упорядоченный список документов в соответствии с перечисленными принципами.

Метапоисковая информационно-поисковая система – поддерживающая поиск нескольких индексов поискового механизма одновременно

Главная задача информационно-поисковой системы – поиск информации, релевантной информационным потребностям пользователя.

Язык поисковых запросов – язык формированиязапроса для информационно-поисковой системы. Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть дом и ДОМ, Not и nOt воспринимаются одинаково. Рассмотрим язык запросов на примере поисковой системы Rambler (www.rambler.ru).

Операторы. Запрос, состоящий из нескольких слов, может содержать операторы. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.

Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу < собака AND кошка> найдутся только те документы, которые содержат и слово < собака>, и слово < кошка>.

Каждый из операторов имеет сокращенное обозначение.

Оператор Сокращенное обозначение
AND &
OR |
NOT !

Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок.

Кавычки. Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе.

Скобки. При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.

Метасимволы. Поддержка поиска строк с использованием метасимволов ('*', '?'), которые обычно используются в значении "любая подстрока" и "произвольный одиночный символ" соответственно.

Морфология. По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Поисковая машина понимает и различает слова русского и английского языков – по умолчанию, поиск ведется по всем формам слова.

Стоп-слова. Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые “стоп-слова” – самые частотные слова русского и английского языков, например, предлоги, частицы и артикли.

Ограничение расстояния. Если запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста – положительное число, по умолчанию равное расстоянию в сорок слов. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу < красная армия> будут найдены те документы, в которых слова < красная> и < армия> хотя бы один раз встретятся менее чем в сорока словах друг от друга.Запрос в данном случае может быть записан <(40, красная армия)>. Т.о., значение ограничения контекста можно изменять конструкцией < (число, запрос)>.

Расширенный поиск. Форма расширенного поиска дает возможность:задавать дополнительные параметры поиска; редактировать параметры поиска и поля, заданные по умолчанию; выбирать наиболее удобную форму показа результатов поиска.

При оперативном поиске, как и в большинстве попыток, вы получите лучшие результаты, когда потратите некоторое время на выработку стратегии.

Стратегия проведения поиска:

  1. Сформулировать понятие о том, что ищете (в письменной форме).
  2. Уточнить категорию информации (общая, специальная и др.)
  3. Определить тип искомого ресурса (web-сайт, ftp-архив, e-mail адрес, документ и др.)
  4. Сформировать список ключевых слов, синонимов и отношений между ними.
  5. Выбрать инструментальное средство поиска.
  6. Выбрать способ поиска в поисковой системе.
  7. Выбрать поисковую систему.
  8. Выполнить поиск.
  9. Просмотреть найденные ресурсы.
  10. Создать закладки избранного.
  11. Изменить элементы стратегии поиска при необходимости (например, вернитесь к пункту 5).
<== предыдущая лекция | следующая лекция ==>
Современные корпоративные сети и принцип организации мультисервисных систем передачи данных | Необходимые компоненты ресурса
Поделиться с друзьями:


Дата добавления: 2014-01-06; Просмотров: 549; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.