Особенности поиска информации в Интернет

Интернет как глобальное средство обмена информацией нередко используется для поиска необходимых данных. Способов поиска информации множество (в скобках указаны случаи, когда такой способ поиска наиболее применим): Поиск с помощью поисковых машин (конкретные вещи) Каталоги и коллекции ссылок (более общие понятия) Рейтинги (самые популярные ресурсы) Конференции, чаты и страницы ссылок на тематических сайтах (редкие, специализированные вещи). Ограниченные временные, физические и финансовые возможности людей вынуждают чаще всего применять для этого специальные каталоги и поисковые машины (поисковики) - своего рода библиотекари, индексирующие доступный им массив информации в Интернет. В данном разделе выделены особенности и рассмотрены общие правила работы наиболее известных каталогов и поисковых систем.

Каталоги представляют собой систематизированные группы адресов, объединенные, как правило, по тематике. К удобству их применения можно отнести то, что, если пользователю известна тема искомого документа, он будет исследовать соответствующую ветвь каталога, не отвлекаясь на посторонние, не относящиеся к делу документы. Однако, объем каталога ограничен физическими возможностями редакторской группы и ее субъективностью в выборе материала. В них отсутствует информация на узкие, специальные темы, да и саму тематику искомого документа не всегда можно сформулировать в пределах классификации каталога. Ниже приведены возможности зарубежных и российских каталогов.

Yahoo! - Самый популярный каталог, содержащий обширную информацию о десятках тысяч Web-узлов. Первый уровень иерархии содержит 14 тематических категорий, которые разветвляются еще на 4 - 5 подуровней. Имеет собственную машину поиска, позволяющую: 1) искать по базе Yahoo!, по Usenet или по адресам электронной почты; 2) ограничить поиск материалами, размещенными за последний день, неделю, месяц, год или 3 года; 3) выдать статьи, содержащие хотя бы одно ключевое слово или все ключевые слова; 4) искать по однокоренным словам или только по указанным ключевым; 5) выдать результаты по 10, 25, 50 или 100 на одной странице (подробнее ниже).

Excite Reviews - Содержит обзоры 60 тыс. узлов Интернет (иерархический каталог)

Galaxy - Иерархический каталог с подробным описанием тематических категорий на первой странице. Осуществляет поиск по категории поиска, по одному или нескольким ключевым словам, краткий и подробный вывод результатов поиска, переход на страницы Gopher и Telnet.

Yellow Pages - Поиск информации о 16 млн. американских компаниях в различных областях деятельности, а также персональные данные и электронные адреса частных лиц.

Russia on the Net - Первый каталог русских ресурсов.

Созвездие Интернет - Охватывает около 400 серверов. Возможность усечения терминов. Содержит названия и краткие характеристики серверов. Привлекательная графика. Небольшая зона поиска, слабая иерархия.

Желтые страницы Интернет - Около 1200 Web-серверов. Большой объем информации, хорошо продуманная структура.

Сокровища Интернет - Каталог Web-ресурсов на сервере Relcom.

АУ! - Молодой, быстроразвивающийся каталог.

Сводная таблица некоторых предметных каталогов
	List.Ru	Апорт	Яндекс	Rambler
Общая характеристи Ка	19 разделов верхнего уровня, Каталог ресурсов по Регионам (подраздел рубрики Государство Российское)	14 разделов верхнего уровня, каталог ресурсов по Регионам (подраздел Рубрики Страны и регионы)	10 осн. разделов, 7 комбинир., дополнительная классиф-я по региону, источни ку информации, целевой аудитории и сектору экономики.	56разделов (Рейтинг -одноуров невый каталог)
Сортировка ресурсов внутри раздела	Алфавит, оценка гидов, популярность (посещае- мость), дата	Алфавит, хиты (посещаемость), лига (оценка гидов), индекс цитируемости (оценка числа ссылок на дан- ный ресурс), оценка (мнение пользо- вателей)	Алфавит, дата добавления, индекс цитиру- емости (кол-во ссылок на данный ресурс с других ресурсов)	по посеща -емости
Булевские операторы	язык Яndex	язык Апорт	язык Яndex	язык Rambler

Таблица 10.2. Сводная таблица некоторых предметных каталогов

Поисковых серверов всего известно более 150, различающихся по регионам охвата, принципам проведения поиска, объему индексной базы, скорости обновления информации, способности искать "нестандартную" информацию и тому подобное. Основными критериями выбора поисковых серверов являются объем индексной базы сервера и степень развитости самой поисковой машины. Традиционно поисковые системы имеют три элемента:

1. Робот (кроулер, паук, агент), который перемещается по Сети и собирает информацию;

Кроулеры просматривают заголовки и возвращают только первую ссылку.

Пауки - программы, осуществляющие общий поиск информации в Сети и сообщающие о содержании найденного документа, индексируя его и извлекая итоговую информацию.

Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных.

Роботы реализованы как программная система, которая запрашивает информацию из удаленных участков Интернет, используя стандартные сетевые протоколы. Первый робот был создан для того, чтобы обнаружить и посчитать количество веб-серверов в Сети. Все роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах (черных дырах). На практике роботы сохраняют почти всю информацию о том, где они побывали. Даже если робот смог определить, должна ли указанная страница быть исключена из его базы данных, он уже понес накладные расходы на запрос самого файла, а робот, который решает игнорировать большой процент документов, очень расточителен. Пытаясь исправить эту ситуацию, Интернет-сообщество приняло "Стандарт исключений для роботов". Этот стандарт описывает использование простого структурированного текстового файла, доступного в известном месте на сервере (" /robots.txt ") и используемого для того, чтобы определить, какая из частей ссылок сервера должна игнорироваться роботами. Все "умные" поисковые машины сначала обращаются к этому файлу, который должен присутствовать на каждом сервере. На сегодняшний день этот файл обязательно запрашивается поисковыми роботами только таких систем как Altavista, Excite, Infoseek, Lycos, OpenText и WebCrawler. Это средство может быть также использовано для того, чтобы предупредить роботов о черных дырах. Каждому типу роботов можно передавать определенные команды, если известно, что данный робот специализируется в конкретной области. Этот стандарт является свободным, но его очень просто осуществить и в нем имеется значительное давление на роботов с попыткой их подчинения.

2. База данных, которая содержит всю информацию, собираемую роботами.

Проиндексировать произвольный документ, находящийся в Сети, очень сложно. Первые роботы просто сохраняли название документа и якори (anchor) в самом тексте, но новейшие роботы уже используют более продвинутые механизмы и вообще рассматривают полное содержание документа. Проиндексированная информация отсылается базе данных (БД) поискового механизма. Вид построенного индекса определяет, какой поиск может быть сделан пользователем поискового механизма и как полученная информация будет интерпретирована. Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. БД автоматически обновляются за определенный период времени с тем, чтобы мертвые ссылки были обнаружены и удалены.

3. Пользовательский интерфейс для взаимодействия с БД поисковика.

Когда пользователь ищет информацию в Интернет, он заполняет поисковую форму на странице поисковика. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в поисковой форме должны соответствовать критериям, используемым агентами при индексации ресурсов Сети. Как формат, так и семантика запросов варьируются в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена. Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным. Языки запроса различных машин поиска в основном являются сочетанием следующих функций (табл..10.3.):

Операторы булевой алгебры AND, OR, NOT:
	AND (И) - осуществляется поиск документов, содержащих все термины, соединенные данным оператором;
	OR (ИЛИ) - искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором;
	NOT (НЕ) - поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором.
Операторы расстояния - ограничивают порядок следования и расстояния между словами, например:
	NEAR - второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов;
	FOLLOWED BY - термины следуют в заданном порядке;
	ADJ - термины, соединенные оператором, являются смежными.
Возможность усечения терминов - использование символа " * " вместо окончания термина позволяет включить в искомый список все слова, производные от его начальной части (шаблона).
Учет морфологии языка - машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск.
Возможность поиска по словосочетанию, фразе.
Ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т.д.).
Ограничения по дате опубликования документа.
Ограничения на количество совпадений терминов.
Возможность поиска графических изображений.
Чувствительность к строчным и прописным буквам.

Таблица 10.3. Языки запроса различных машин поиска

На основе введенной пользователем поисковой строки в БД отыскивается предмет запроса и выводится список соответствующих ссылок. Число документов, полученных в результате поиска по запросу, может быть огромно. Однако, благодаря ранжированию документов, применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными (в идеале). Основные принципы определения релевантности следующие:

1. Количество слов запроса в текстовом содержимом документа (в html-коде).

4. Удельный вес слов (густота), относительно которых определяется релевантность, в общем количестве слов документа. Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).

5. Время - как долго страница находится в базе поискового сервера. Множество сайтов живут максимум месяц. Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме.

6. Индекс цитируемости - число ссылок на данную страницу с других страниц, зарегистрированных в БД.

Существуют особенности показа полученного списка - некоторые поисковики показывают только ссылки; другие выводят ссылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ссылкой.

Результат запроса (список ссылок) обрабатывается в два этапа. На первом этапе (автоматическая обработка) производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной "интеллектуальности" запроса. Дальнейшая (ручная) обработка производится пользователем путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации. Когда пользователь щелкает на ссылку из списка, то перед запросом соответствующего документа у того сервера, на котором он находится, поисковики заносят в свою БД отметку о пользовательском предпочтении. Собранная информация о поведении пользователей (формулировки запросов и выбранные из списка ресурсы) успешно используется в рекламных компаниях в Сети.

Сводная таблица по ведущим поисковым машинам
	Яндекс	Rambler	Апорт!	AltaVista	Google
Зона поиска	Русская часть Интернета. Поиск по страницам сайтов раздела каталога, по регионам, спец. картинкам.	Русская часть Интернета.	Русская часть Интернета. Спец. поиск по новостям, товарам, картинкам, MP3	Спец.поиск по новостям, товарам, развлечениям, аудио (MP3) и видео.	Спец.поиск по универ- ситетам США, Apple, Linux, BSD
База на нач. 2001	Более 31 млн. док.	Более 12 млн. док.	Более 14 млн. док.	Более 250 млн. док.	1,25 млрд. Страниц
Тип индекса- ции	Полнотексто- вая индекса- ция	Полнотекст. индексация.	Полнотек- ст. индекс., индекс. по ссылкам	Полнотекст. индекс.	Полнотекст. индекс., индекс. по ссылкам
Дополн. Сервисы	Каталог, Народ.Ру, Закладки.Ру, система ГУРУ, CY и пр.	Каталог, рейтинг- классифи- катор Тop100	Каталог, интернет- покупки и др.	Каталог, хостинг, регистрация доменного имени, перевод.	Каталог, содержащий 15 разделов и 1,5 млн. Web-страниц
Синтаксис языка поиска
Логич. И	пробел или &(в преде- лах предло- жения) &&(в преде- лах док.)	AND, &, Пробел между сло- вами по умолчанию	И, AND, &, +, пробел по умолч.	AND, & (только при слож- ном поиске)	по умолч. для всех слов поиска
Логич. ИЛИ	\|	OR, \|	ИЛИ, OR, \|	OR (по умолч.), \| (сложн. поиск)	OR
Бинарн. оператор И-НЕ	~ (в пре- делах пред- ложения) ~ ~ (в пределах документа)	не исполь- зуется	Заменяется префикс- ным опера- тором "-" (AND – пробел по умолчанию)	AND NOT,! (только при сложном поиске)	Заменяется префиксным оператором "-"
Префикс обяз. (+) и запрещ. (-) слов	+, -	не исполь- зуются	+, -	+, - (только при простом поиске)	+, -
Груп. Слов	()	()	()	()	не исполь- зуется
Расстоя- ние между ключ. Словами	/(n m) – в словах, &&/(n m) - в предло- жениях (- назад, + вперед)	В расшир. поиске- выдача док.только с миним. расстоянием между словами	сл2(...), с2(...), w2(...), [2,...] (- назад, + вперед)	NEAR (только при сложном поиске в пределах 10 слов)	не исполь- зуется
Поиск Фразы	" "	нет	" ", ' '	" "	" ", ' ', -..-

Замена части Слова	нет	*,? (замена любого символа)	* (только в конце слова)	*	нет
Язык до- Кумента	выбор: лю- бой, кирил- лица, лати- ница	выбор: лю- бой, рус- ский, английский	выбор:рус- ский, английский	Выбор из 25 языков	выбор из 25 языков
Поиск по полям	заголовки, ссылки, мета-тэги, файлы и подписи картинок, в текстах ссылок, в названиях скриптов, объектов и апплетов., поиск похо- жих доку- ментов.	заголовки, адреса, названия документа (только при расшир. поиске), поиск похо- жих доку- ментов	заголовки, ссылки, мета-тэги, файлы и подписи картинок, адреса, тексты ссылок, сужение поиска на выбран- ные сайты	заголовки, ссылки, мета-тэги, файлы и подписи картинок, адреса, тексты ссылок, названия скриптов, объектов и апплетов	ссылки и поиск похожих доку- ментов, суже- ние поиска на выбран- Ные сайты
Морфо- логия	все скло- нения и спряжения по умолч. ! (точное словоформа)	# (все фор- мы слов), @ (одно- коренные слова)	!(указание нормальной формы)	нет	нет
Поиск по Датам	есть	есть	есть	есть	нет
Возможности расширенной формы, качество помощи
Расшир. форма Поиска	Словарный фильтр,дата, сайт,ссылка, изображе- ние, специ- альный объект	документ, дата, режи- мы AND, OR, расстояние между сло- вами,усече- ние слова	документ, заголовок, изобра- жение, дата, 5 разделов (сайты, МР3, картинки, товары, новости)	булевский вопросник, дата, сайт, ссылка, изображе- ние, текст и пр.	ограничения по сайту, языку, ссылкам
Вывод списка Ссылок	задание числа резуль татов на странице, всех элементов формы вывода	задание числа ре- зультатов на странице формы вывода	Задание формы выдачи	задание числа результатов на странице, всех элементов формы вывода	задание числа результатов на странице, всех элементов формы вывода

Таблица 10.4. Сравнительные характеристики ведущих поисковых машин российского Интернет