Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Язык запросов для Windows XP




Используя запросы, можно искать документы по содержащимся в них словам и фразам или их свойствам:

Для всех документов доступны следующие свойства.

Имя свойства Описание
All Все свойства, включая Contents. Используется только в текстовых запросах (не в запросах числовых значений).
Contents Слова и фразы, содержащиеся в документе
Filename Имя документа
Size Размер документа в байтах
Write Дата и время последнего изменения документа

 

Простейшим типом запроса является одно слово.

Существуют пять типов запросов:

· текстовые запросы в свободной форме;

· запросы фраз;

· запросы соответствий шаблону;

· относительные запросы;

· векторные запросы

Для реализации всех типов запросов существует специальный язык запросов.

Например, имена свойств могут задаваться как в длинной, так и в короткой формах.

 

Длинная форма Пример Короткая форма Пример
{prop name=имя} {prop name="Число страниц"} @имя @"Число страниц"
  {prop name=заголовок} #имя #заголовок

 

В имени свойства регистр не учитывается. Если в имени больше одного слова, в запросах оно должно заключаться в кавычки как в длинной, так и в короткой форме.

Тег {/prop} закрывает ссылку на имя свойства. Если в запросе использовано несколько имен свойств, первый тег {/prop} закрывает имя ближайшего предшествующего свойства, а текущим становится имя предыдущего свойства в запросе.

 

Имеются два специальных имени свойств: Contents и All.

Свойство Contents включает все содержимое документа. Если в запросе задано свойство Contents, службой индексирования будет выполнен поиск только по содержимому документа. Если в запросе задано свойство All, службой индексирования будет выполнен поиск по содержимому и значениям свойств документа.

Если в запросе не указано свойство, службой индексирования по умолчанию будет использовано свойство Contents.

Системы локального поиска

Системы локального поиска (для домашнего использования):

· Персональный поиск Яндекса

· Архивариус 3000

· Copernic Desktop Search;

· Google Desktop Search с GDE Enterprise

· DVYGUN Smart Search

 

Системы корпоративного локального поиска:

· dtSearch Desktop

· iSYS Desktop

· DVYGUN Smart Search Enterprise Edition

· SearchInform Desktop Professional

Архивариус 3000

Программа Архивариус 3000 – это поиск документов и почтовых сообщений в компьютере, в локальной сети и в съёмных дисках.

 

Основные возможности Архивариус 3000:

· Мгновенный полнотекстовой поиск документов и почты.

· Смысловой поиск с морфологией на 18 языках (в том числе белорусском).

· Поддерживаются локальная сеть и съёмные диски (CD, DVD и прочие).

· Поддержка более 400 форматов от MS Office и PDF до LEX, и W&D (Слово и дело).

· Поиск во всех распространенных типах архивов (начиная от ZIP и RAR, и заканчивая ARJ и ZOO. Архивариус 3000 умеет распаковывать архивы без использования внешних архиваторов).

· Поиск почтовых сообщений Outlook, Outlook Express, MS Exchange, The Bat! и других.

· Поиск в базах данных Lotus Notes и Lotus Domino.

· Серверный режим и доступ из дома к рабочим документам через Интернет.

Полностью поддерживается Unicode и более 100 кодировок (все европейские, все кириллические, все греческие, китайские, японские, корейские. Поддерживаются даже очень редкие кодировки: казахские, армянские, грузинские, тайские, тибетские и другие).

SearchInform Desktop Professional

SearchInform Desktop Professional - профессиональная программа полнотекстового поиска документов на персональном компьютере.

 

SearchInform поддерживает индексацию электронных писем, подключение и индексацию баз данных и других внешних источников.

Для работы с сетью предлагаются клиент-серверная архитектура и политика настройки доступа к проиндексированным документам.

 

Основные возможности:

· морфологический и цитатный поиск,

· логические операции,

· поиск с синтаксическим разбором слова (по началу слова, его окончанию, по средней части либо полное совпадение)

· смешанный цитатный поиск (все слова из запроса должны присутствовать в документе, но не обязательно во введенном порядке)

· поиск с коррекцией ошибок, использование синонимов и т.д.

· применение словаря незначимых слов (в программе уже есть их готовый список) и использовать для поиска словарь приоритетных слов.

· поиск документов, похожих по своему содержимому на текст запроса.

Тестирование:

SearchInform проиндексировала тестовую базу (документы в форматах DOC, TXT и HTML размером около 20 Гбайт) за 3 часа 17 минут, создав индексный файл размером 4,4 Гбайт.

Компьютер: процессор Athlon/2,2 ГГц, оперативная память 1 Гбайт, IDE-диск Seagate на 160 Гбайт под управлением ОС Windows XP.

Аппаратные решения корпоративного поиска

10.10.2007 Компания Google представила пятое поколение аппаратных поисковиков Search Appliance, ориентированных на крупные корпорации и правительственные организации.

Search Appliance способны работать с более чем 220 типами различных файлов, включая документы HTML, Microsoft Office, PDF, PostScript, WordPerfect, Lotus и многие другие.

Функция универсального поиска Universal Search обеспечивает связь с системами управления корпоративным контентом:

· Microsoft SharePoint,

· IBM FileNet,

· OpenText LiveLink,

· EMC Documentum.

Стоимость аппаратных поисковиков Search Appliance от 30 000 $.


Вопрос 13: Глобальный информационный поиск (поисковые системы, история поисковых систем, качество работы поисковых систем, поисковые запросы, поисковая оптимизация, социальный поиск)

 

История поисковых систем

  Archie - первая поисковая система в Интернете (для индексации FTP архивов)
  Мэтью Грэй (Matthew Gray) создал Wandex - первую поисковую система для WWW. В 1993 года в Интернете было 623 вебсайта. В 2008 - более 180 000 000 вебсайтов.
  Создана WebCrawler, первая система индексирующая ресурсы при помощи робота на основе полнотекстового поиска, а не только заголовкам страниц и информации мета-тегов.
  Появилось множество конкурирующих поисковых систем: «Lycos», «Excite», «Infoseek», «AltaVista» и т.д. Созданы первые оригинальные российские Rambler и Aport
  Создана поисковая машина Яндекс
  Сергей Брин и Лоуренс Пейдж создают поисковую машину Google
  Запуск системы Yahoo! Search
  Запуск системы Microsoft Search
  Microsoft запустила новый поисковик Bing, который сменил Live Search.

По данным comScore лидерами поиска являются:

1. Google - 67,9% (рост за год 0,6%);

2. Baidu - 9,5% (китайская поисковая система);

3. Yahoo! - 8,9%.

4. Microsoft Bing - 2,9%

5. Naver - 2,1% (корейский поисковик),

6. Ask.com - 1,6%.

7. Яндекс -:1,5% (годовой рост 90%, переместился с 9 на седьмое место).

По данным comScore лидерами поиска в Рунете являются: Яндекс - 54,5%, Google - 34,5%, Mail.ru. 9,7%, Rambler - 1,9%, (по данным ComScore за август 2009).

Поисковые системы

Поисковая система это:

1. Онлайн-сервис, предоставляющий возможность поиска информации на в Интернете.

2. Программно-аппаратная система, предназначенная для поиска и доставки информации.

3. Сайт, на котором по заданному запросу можно получить информацию о ресурсах в Интернете, соответствующих данному запросу.

Основой поисковой системы является поисковый движок.

Поисковый движок (search engine) - комплекс программ, обеспечивающий функциональность поисковой системы.

Работа поискового движка состоит из этапов:

· индексация информационных тесурсов;

· поиск в индексе;

· ранжирование результатов поиска и выдача их пользователю.

Важнейшей частью поискового движка является поисковый робот.

Поисковый ро́бот (web crawler) — программа, предназначенная для обхода и индексирования страниц Интернета.

Web crawler сканирует содержимое страницы, заносит его на сервер поисковой машины, которой принадлежит и по ссылкам отправляется на следующие страницы.

Индексация - процесс добавления поисковым роботом сведений о Web-страницах в индекс поисковой системы.

Индекс - база данных поисковой системы, в которой перечислены все слова и указано, в каких местах они встречаются.

Наличие заранее сформированного полнотекстового индекса позволяет поисковой системе произвести в нём поиск слов запроса и сразу получить список документов, в которых они встречаются.




Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 377; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.028 сек.