Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Поиск по индексу

Поиск по индексузаключается в том, что пользователь формирует запрос и передает его поисковой машине. В случае когда у пользователя имеется несколько ключевых слов, весьма полезно использование булевых операторов.

Текст, в пределах которого проверяется действие логических операторов, называется единицей поиска. Это может быть предложение, абзац или весь документ. В разных поисковых системах могут использоваться различные единицы поиска. Например, можно искать документы, в которых два слова - "электрический" и "счетчик" - находятся одновременно в пределах предложения или в пределах всего документа. Соответственно поиск в пределах предложения возможен для тех систем, которые имеют в индексе подробный адрес.

Поисковые машины- это роботизированные системы (Search Engines). Специальная программа-робот, которую называют паук (spider) или ползун (crawler), постоянно обходит Сеть в поисках новой информации, которую она вносит в базу данных. База данных содержит URL-адреса и проиндексированную информацию, связанную с этими адресами. Важными показателями качества поисковой машины являются объем базы данных (количество документов), скорость обхода Сети (с этим связана скорость обновления информации в базе данных), алгоритм индексации (только по ключевым словам Web-страницы или по всему тексту, с учетом морфологии или без него, с поиском по тэгам HTML - заголовкам, ссылкам, подписям к изображениям и др.), а также дополнительные возможности (расширенный поиск, поиск похожих документов, ограничение области поиска), удобный пользовательский интерфейс и справочная система.

Мощная поисковая машина обходит всю сеть за несколько дней. При этом составляется весьма свежий и довольно подробный индекс - опись доступных ресурсов. При каждом новом цикле обхода индекс обновляется, и старые недействительные адреса удаляются. Однако автоматизированный подход приводит к тому, что в индекс могут попасть дубликаты (один и тот же документ на разных сайтах, в разных кодировках). Поисковые машины индексируют фреймы покадрово, не индексируют редиректы, а иногда и скрипты. Кроме того, часть интернета для поисковых машин закрыта. Это информация, доступ к которой осуществляется по паролю, а также базы данных, доступ в которые осуществляется по запросу из формы (а не по ссылке).

Таблица 4

  Яндекс Rambler Апорт! AltaVista Google
Зона поиска,объем базы данных Русская часть Интернета. Поиск по страницам сайтов из раздела каталога, по регионам. Специальный поиск по новостям, товарам, картинкам. Русская часть Интернета. Русская часть Интернета. Специализи-рованный поиск по новостям, товарам, картинкам, MP3 Специализи-рованный поиск по новостям, товарам, развлечениям, аудио (MP3) и видео. Специализи-рованный поиск по университе-там США, Apple, Linux, BSD
Объем базы на начало 2001 года Более 31 миллионов документов Более 12 миллионов документов Более 14 миллионов документов Более 250 миллионов документов 1,25 миллиарда страниц
Тип индексации полнотекстовая индексация полнотекстовая индексация полнотекстовая индексация и индексация по ссылкам полнотекстовая индексация полнотекстовая индексация и индексация по ссылкам
Наличие дополнительных сервисов Система объединяет поисковую машину и каталог, а также ряд дополнительных проектов (Закладки.Ру, Народ.Ру, система интеллектуального выбора товаров, CY и пр.). Система объединяет поисковую машину и рейтинг-классификатор Top100 Система объединяет поисковую машину, каталог и дополнительные сервисы (интернет-покупки и др.) Система объединяет поисковую машину, каталог и ряд дополнительных сервисов (хостинг, регистрация доменного имени, перевод и др.) Система объединяет поисковую машину и каталог, содержащий 15 разделов и 1,5 миллиона Web-страниц.
Синтаксис языка поиска
логическое И пробел или & (в пределах предложения)&&(в пределах документа) AND, &, пробел между словамипо умолчанию И, AND, &,+, пробел между словами по умолчанию AND, & (только при сложном поиске) по умолчанию для всех слов поиска
логическое ИЛИ | OR, | ИЛИ, OR, | OR (по умолчанию при простом поиске), | (только при сложном поиске) OR
бинарный оператор И-НЕ ~ (в пределах предложения) ~ ~ (в пределах документа) не используется заменяется префиксным оператором "-" (AND - пробел по умолчанию); НЕ, NOT AND NOT,! (только при сложном поиске) заменяется префиксным оператором "-"
префиксы обязательных (+) и запрещенных (-) слов +, - не используются +, - +, - (только при простом поиске) +, -
группирование слов () () () () не используется
расстояние между ключевыми словами при поиске /(n m) - в словах, &&/(n m) - в предложениях (- назад, + вперед) при расширенном поиске - выдача документов только с минимальным расстоянием между словами сл2(...), с2(...), w2(...), [2,...] (- назад, + вперед) NEAR (в пределах10 слов, только при сложном поиске) не используется
поиск фразы " " нет " ", " " " ",, -..-
символы замены части слова нет *,? (замена любого символа) * (только в конце слова) * нет
ограничение по языку документа выбор: любой, кириллица, латиница выбор: любой, русский, английский выбор: русский, английский выбор из 25 языков выбор из 25 языков
морфология все склонения и спряжения по умолчанию,! (поиск точной словоформы) # (все формы слов), @ (однокоренные слова) ! (указание нормальной формы) нет нет
поиск по датам есть есть есть есть нет
ограничение поиска по полям Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в текстах ссылок, в названиях скриптов, объектов и апплетов. Поиск похожих документов. Сужение поиска на выбранные сайты. Поиск в заголовках, адресах, названиях документов (только при расширенном поиске). Поиск похожих документов. Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в адресах, в текстах ссылок. Сужение поиска на выбранные сайты. Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в адресах, в текстах ссылок, в названиях скриптов, объектов и апплетов Поиск в ссылках и Поиск похожих документов. Сужение поиска на выбранные сайты.
Возможности расширенной формы, качество помощи
настройка расширенной формы настройка словарного фильтра, настройки по дате, по сайту, ссылке, изображению, специальному объекту по документу, дате, режимам AND, OR, расстоянию между словами, усечению слова по документу, заголовку, изображению,дате, 5 разделам (сайты, МР3, картинки, товары, новости) по булевскому вопроснику, дате, по сайту, ссылке, изображению, тексту и пр. ограничения по сайту, языку, ссылкам
настройка вывода результатов задание числа результатов на странице, всех элементов формы вывода задание числа результатов на странице, формы вывода задание формы выдачи задание числа результатов на странице, всех элементов формы вывода задание числа результатов на странице, всех элементов формы вывода
ранжирование результатов поиска сортировка по релевантности или дате сортировка по релевантности или дате по популярности сайта по терминам, указанным в SORT по цитируемости (ссылок на страницу с других страниц)
итеративный поиск (в результатах поиска) Да. Выполняется с помощью установки флажка Да. Выполняется с помощью переключателя области поиска Да. Выполняется с помощью установки флажка Да. Выполняется с помощью SORT BY нет
качество раздела помощи имеется детальное описание языка запросов, таблица синтаксиса и раздел по поиску в категориях краткий раздел HELP подробный справочник по языку запросов, есть много русских синонимов для основных операторов самый большой из рассмотренных в этой таблице учебник on-line по языку запросов очень ограниченный раздел HELP
семейный фильтр есть нет нет есть нет

 

Синтаксис языка запросовв разных поисковых системах может отличаться, обычно в справочных данных на поисковом сервере приводится информация о синтаксисе запросов. В качестве примера в табл. приводится синтаксис языка запросов, принятый в поисковой машине Yandex.

 

Таблица 5. Синтаксис языка запросов при строгом поиске

Синтаксис Что означает оператор Пример запроса
Пробел или & Логическое И (в пределах предложения) Лечебная физкультура
&& Логическое И (в пределах документа) Рецепты && (плавленый сыр)
I Логическое ИЛИ Фото I фотография I снимок I фотоизображение
+ Обязательное наличие слова в найденном документе (работает также в применении к стоп-словам) +Быть или +не быть
() Группирование слов (Технология I изготовление) (сыра I творога)
~ Оператор И НЕ (в пределах документа) Банки ~ закон
~~или~ Оператор И НЕ (в пределах документа) Путеводитель по Парижу ~~ (агентство I тур)
/(n m) Расстояние в словах (~ назад +вперед) Поставщики /2 кофе музыкальное /(-2 4) образование вакансии ~/+1 студентов
<< << Поиск фразы <<Красная шапочка>> (эквивалентно красная /+1 шапочка)
&&/(n m) Расстояние в предложениях (-назад +вперед) Банк && /1 налоги  

Многие поисковые системы имеют режим "расширенный поиск". Например, в наиболее популярной на сегодня поисковой системе Google (www.google.com) этот режим дает возможность искать документы на определенном языке, измененные в определенное время или представленные в определенном формате, например Word-документ или презентацию Power Point.

После того как пользователь передал запрос поисковой системе, она обрабатывает синтаксис запроса и сравнивает ключевые слова со словами в индексе. После этого составляется список сайтов, отвечающих запросу, они ранжируются по релевантности и формируется результат поиска, который и выдается пользователю.

Несмотря на то что человек человеку всегда лучше объяснит, что же он ищет, нельзя сказать, что современные поисковые машины - это примитивные системы, которые, кроме как найти некоторую последовательность символов, ничего не могут. Напротив, существуют, например, поисковые системы позволяющие решать проблему различных словоформ. А это далеко не тривиальная задача. Если мы ищем документ по ключевому слову "стол", то, вероятно, документ, содержащий фразу "столы для кухни" - это то, что нам нужно. Однако "стол" и "столы" для системы, осуществляющей формальное сравнение, - это разные слова. Поиск, учитывающий словоизменения, называется морфологическим поиском.

<== предыдущая лекция | следующая лекция ==>
Построение индекса | Скорость обхода и актуальность ссылок
Поделиться с друзьями:


Дата добавления: 2014-01-20; Просмотров: 445; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.