Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Информационный поиск в сети Интернет




Переход к информационному обществу XXI века породил беспрецедентный рост объемов и концентрации информации в глобальных компьютерных сетях. Это резко обострило проблему создания информационно-поисковых систем (ИПС) и их эффективного использования.

История автоматизированных информационно-поисковых систем исчисляется полувеком. Типичная ИПС первых лет — это человеко-машинная система, где анализ и описание содержания документов (индексирование) выполняется вручную, а поиски проводятся машиной. Первоначально основу ИПС составляли информационно-поисковые языки (ИПЯ), основным элементом которых являются дескрипторные словари и тезаурусы. Сегодня, однако, большинство работающих ИПС относится к классу вербальных систем бестезаурусного типа, когда индексационные термины выбираются непосредственно из текстов документов. Лавинообразный рост объемов электронной документальной информации, ее видовое, тематическое и языковое разнообразие являются как причиной кризиса современного информационного поиска, так и стимулом его совершенствования.

Проблема поиска ресурсов в сети Интернет была осознана достаточно скоро, и в ответ появились различные системы и програм­мные инструменты для поиска, среди которых следует назвать системы Gopher, Archie, Veronica, WAIS, WHOIS и др. В последнее время на смену этим инструментам пришли «клиенты» и «серверы» всемирной паутины WWW.

Если попытаться дать классификацию ИПС сети Интернет, то можно выделить следующие основные типы:

1. ИПС вербального типа (поисковые системы – search engines)

2. Классификационные ИПС (каталоги – directories)

3. Электронные справочники («желтые» страницы и т.п.)

4. Специализированные ИПС по отдельным видам ресурсов

5. Интеллектуальные агенты.

Глобальный учет всех ресурсов Интернета обеспечивается вербальными и отчасти классификационными системами.

Классификационные ИПС реализуют навигацию в веб-пространстве на основе специальных указателей, представляющих собой тематические «деревья», строящиеся на основе классификаций.

Для решения проблемы максимального охвата ресурсов Интернета создаются системы, называемые метапоисковыми (metasearch engines).

Основным средством поиска информации в сети сегодня следует считать глобальные ИПС вербального типа, индексирующие (по крайней мере, претендующие на это) все Интернет-пространство. К числу главных поисковых систем этого типа (в первую очередь, по объему базы данных) можно отнести Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Среди российских систем главными являются три: Яндекс (Yandex), Рамблер (Rambler) и Апорт! (Aport). Как правило, системы с бóльшим объемом базы дают в результате поиска и большее количество документов. Большая, как лингвистическая, так и программная проблема — многоязычие информационного пространства Интернета и многообразие форматов представления данных.

Особенность современных систем — полнотекстовый поиск. Многие вербальные ИПС сети Интернет вычисляют релевантность документов запросам путем сопоставления элементов запроса с полными текстами документов, размещенных в сети. Что касается информационно-поискового языка, то, как правило, в качестве поисковых элементов выступают обычные слова естественных языков. Запросы формулируются через специальный интерфейс, реализуемый в виде экранных форм в программах-броузерах.

В составе любой поисковой системы можно выделить три основные части.

Робот подсистема, обеспечивающая просмотр (сканирование) Интернета и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии. Этот программный комплекс является основным средством сбора информации о наличии и состоянии информационных ресурсов сети.

Поисковая база данных так называемый индекс — специальным образом организованная база (англ. index database), включающая, прежде всего, инвертированный файл, который состоит из лексических единиц, взятых из проиндексированных веб-документов, и содержит разнообразную информацию о них (в частности, их позиции в документах), а также о самих документах и сайтах в целом.

Поисковая система подсистема поиска, обеспечивающая обработку запроса (поискового предписания) пользователя, поиск в базе данных и выдачу результатов поиска пользователю. Поисковая система общается с пользователем через пользовательские интерфейсы — экранные формы программ-броузеров: интерфейс формирования запросов и интерфейс просмотра результатов поиска.

Важным компонентом современных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь общается с поисковой системой. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

Интерфейс выдачи (форма представления результатов) у разных систем включает такие параметры: статистика слов из запроса, количество найденных документов, количество сайтов, средства управления сортировкой документов в выдаче, краткое описание документов и др. Описание каждого документа, в свою очередь, может содержать в своем составе: заглавие документа, URL (адрес в сети), объем документа, дату создания, название кодировки, аннотацию, шрифтовое выделение в аннотации слов из запроса, указание на другие релевантные веб-страницы того же сайта, ссылка на рубрику каталога, к которой относится найденный документ или сайт, коэффициент релевантности, другие возможности поиска (поиск похожих документов, поиск в найденном).

 

Вопросы для самоконтроля:

 

  1. Что собой представляют ИПС?
  2. Какова классификация ИПС?
  3. Что собой представляет документальная ИПС?
  4. Что собой представляет фактографическая ИПС?
  5. Из каких частей состоит ИПС?
  6. Какие обеспечивающие подсистемы ИПС имеются?
  7. Основные понятия информационного поиска.
  8. Что собой представляют информационно-поисковые языки?
  9. Какова классификация ИПС в Интернете?
  10. Основные части любой ИПС.

 





Поделиться с друзьями:


Дата добавления: 2014-11-18; Просмотров: 2941; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.044 сек.