Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Поиск во Всемирной паутине Интернет




В Web размещены миллионы сайтов, причем с актуальной информацией соседствует много устаревших ресурсов, мусора и недобросовестной рекламы. Так суммарное число Web-страниц, установленных в мире в конце 2001 г. составляло 7,5 млрд чел., а к концу 2005 г. ожидалось, что оно возрастет до 25 млрд чел.;

Интернет - это наиболее демократичный источник информации. Каждый может разместить в Сети собственный ресурс и высказать свое мнение. В этом одновременно сила и слабость Всемирной сети.

Находить информацию в Интернете, вероятно, было бы очень трудно, если бы не были созданы мощные поисковые инструменты: поисковые машины (поисковики), каталоги-рейтинги (рубрикаторы), тематические списки ссылок, онлайновые энциклопедии и словари.

Для поиска разного рода информации наиболее эффективными оказываются различные инструменты.

Каталоги ресурсов

Каталог имеет иерархическую структуру. Тематические разделы первого уровня определяют максимально широкие темы, такие как "спорт", "отдых", "наука", "магазины" и т.д. В каждом таком разделе могут быть подразделы. Пользователь может уточнять интересующую его область, путешествуя по дереву каталога и постепенно сужая зону поиска. Например, при поиске информации о ноутбуках цепочка поиска может выглядеть так: Информационные технологии -> Компьютеры -> Ноутбуки. Дойдя до нужного подкаталога, пользователь находит в нем набор ссылок.

Обычно в каталоге все ссылки являются профильными, поскольку составлением каталогов занимаются не программы, а люди. Очевидно, что если ведется поиск общей информации по некоторой широкой теме, то целесообразно обратиться к каталогу. Если же необходимо найти конкретный документ, то каталог окажется малоэффективным поисковым средством.

Часто каталоги ресурсов одновременно являются и рейтингами, т.е. каталог предлагает зарегистрированным в нем сайтам установить на своих страницах счетчик посещений, и отображает списки ссылок на сайты в соответствии с их популярностью (посещаемостью). Популярность ресурса оценивается по ряду параметров, в том числе по так называемым хостам (количество уникальных посетителей в сутки) и хитам (количество заходов на сайт в сутки).

Одним из наиболее популярных каталогов-рейтингов является Rambler's Top 100. (http://top100.rambler.ru/top100/). Часто бывает интересно оценить состояние не общероссийских, а региональных ресурсов по конкретной тематике. Для обзора web-ресурсов Красноярска и края можно рекомендовать каталоги-рейтинги ресурсов Krasland (http://www.krasland.ru/) и Сталкер (http://www.stalker.internet.ru/).

Поисковые машины

Релевантный документ - документ, смысловое содержание которого соответствует информационному запросу. Современные поисковые машины осуществляют поиск по контексту, т.е. словам, содержащимся в запросе, учитывая вариации словоформ и расширяя запросы синонимами. Но смысла компьютеры не понимают, поэтому в списке ответов на запрос, наряду с релевантными вашему запросу документами, вы можете получить и те, которые вам никоим образом не подходят.

Очевидно, что от умения грамотно выдавать запрос зависит процент получаемых релевантных документов. Доля релевантных документов в списке всех найденных поисковой машиной называется точностью поиска. Нерелевантные документы называют шумовыми. Если все найденные документы релевантные (шумовых нет), то точность поиска составляет 100%. Если найдены все релевантные документы, то полнота поиска - 100%.

Таким образом, качество поиска определяется двумя взаимозависимыми параметрами: точностью и полнотой поиска. Увеличение полноты поиска снижает точность, и наоборот.

Поисковые системы можно сравнить со справочной службой, агенты которой обходят предприятия, собирая информацию в базу данных. При обращении в службу информация выдается из этой базы. Данные в базе устаревают, поэтому агенты их периодически обновляют. Иными словами, справочная служба имеет две функции: 1) создание и постоянное обновление данных в базе и 2) поиск информации в базе по запросу клиента.

Аналогично, поисковая машина состоит из двух частей: так называемого поискового робота (или паука), который обходит серверы Сети и формирует базу данных, и механизма поиска релевантных запросу пользователя ссылок в базе.

Рис. 5. 9. Главная страница поисковой системы Google

Следует отметить, что, отрабатывая конкретный запрос пользователя, поисковая система оперирует именно внутренней базой данных (а не пускается в путешествие по Сети). Несмотря на то, что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все Web-документы: их число слишком велико. Проблема недостаточности полноты поиска состоит не только в ограниченности внутренних ресурсов поисковика, но и в том, что скорость робота ограниченна, а количество новых Web-документов постоянно растет.

Наиболее популярными на сегодня поисковыми системами являются Google (www.google.com, www.google.ru) – рис. 5.9 и Яндекс (www.yandex.ru) – рис. 5.10.

Рис. 5. 10. Главная страница поисковой системы Яндекс

Онлайновые энциклопедии и справочники

В ряде случаев бывает нужно найти не просто документ, содержащий ключевое слово, а именно толкование некоторого слова. При поиске незнакомого термина с помощью поисковой машины вы рискуете получить целый ряд статей, в которых этот термин используется, и при этом так и не узнать, что же он все-таки обозначает. Подобный поиск предпочтительнее проводить в онлайновой энциклопедии.

Одной из крупнейших онлайновых энциклопедий является ресурс "Яндекс. Энциклопедии" (http://encycl.yandex.ru/) - этот проект содержит 14 энциклопедий, в том числе статьи из Большой Советской Энциклопедии и "Энциклопедию Брокгауза и Эфрона" (рис.5.11). При написании данного пособия использовался Энциклопедический систематизированный словарь-справочник по информатике (http://encycl.yandex.ru/dict/informatica). К крупным относится и "Энциклопедия Кирилла и Мефодия" (http://www.km.ru).

Рис. 5. 11. Главная страница онлайновых энциклопедий Яндекс

Помимо переноса в гипертекстовую среду традиционных словарей бурно развиваются энциклопедические wiki-проекты. Ви́ки — веб-сайт для сбора и структуризации письменных сведений. Характеризуется тем, что наполнять и редактировать размещаемую на нем информацию могут все посетители. http://ru.wikipedia.org/ - википедия на русском языке — часть многоязычного проекта, целью которого является создание полной энциклопедии на всех языках Земли.




Поделиться с друзьями:


Дата добавления: 2014-01-06; Просмотров: 392; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.006 сек.