Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Общие сведения о работе поисковой системы Рамблер




Все поисковые системы Интернета, и Рамблер в том числе, состоят из трех базовых компонентов:

· веб-паук (web spider);

· индексатор;

· поисковая машина

Web spider представляет собой программу, которая обходит страницы с заданными URL, скачивает их в базу данных, а затем архивирует и перекладывает в хранилище один раз в сутки. Робот размещается на нескольких машинах, каждая из которых выполняет свое задание. Так, робот на одной машине может качать новые страницы, которые еще не известны поисковой системе, а на другой - страницы, которые были скачены не менее месяца, но и не более года назад. При этом все машины используют одно и то же хранилище.
При необходимости, работу можно распределить другим способом: например, разбив список URL на N частей и раздав их N машинам. Параллельная работа веб-паука на нескольких машинах позволяет легко выдерживать дополнительную нагрузку: при увеличении количества страниц, которые нужно обойти роботу, достаточно просто распределить задачу на большее число машин. Данные, которые собирает web spider, размещаются в индексной базе.

Индексатор – это программа, которая занимается обработкой страниц, скаченных при помощи веб-паука. Ее задача - "прочесть" все документы, извлечь из них слова и разместить их в специальную базу данных - индекс. Информация, находящаяся в хранилище в сжатом виде, делится на несколько частей. Эти части постепенно распределяются между машинами, на которых запущена программа-индексатор. Как только индексатор на одной из машин заканчивает обработку очередной части страниц, он обращается за следующей порцией. В результате на первом этапе формируется много маленьких индексных баз, каждая из которых содержит информацию о некоторой части Интернета, а вся обработка данных осуществляется параллельно, поэтому ускорение процесса индексации достигается при помощи добавления машин в систему.
После того, как вся информация обработана, начинается объединение (слияние) результатов, а также расстановка помет: откуда взят тот или иной документ. Благодаря тому, что частичные индексные базы и основная база, к которой обращается поисковая машина, имеют одинаковый формат, процедура слияния является простой и быстрой операцией, не требующей никаких дополнительных модификаций частичных индексов. Основная база участвует в анализе как одна из частей нового индекса. Так, если объединяются N новых частей, то в анализе участвует N+1 фрагмент (N новых + основная база предыдущей редакции). Кроме того, единый формат позволяет проводить тестирование частичных баз еще до объединения их с основной и обнаруживать ошибки на более раннем этапе.

Специальная программа составляет таблицы перенумерации документов базы и объединяет содержимое всех частей. Среди страниц с одинаковыми адресами выбирается наиболее свежая версия; если при скачивании веб-адресов (URL) последней информацией была ошибка 404 (запрашиваемая страница не существует), она временно удаляется из индексной базы. Параллельно осуществляется склейка дублей: страницы, которые имеют одинаковое содержимое, но различные URL, объединяются в один документ.
Сборка единой базы из частичных индексных баз представляет собой простой и быстрый процесс. Сопоставление страниц не требует никакой интеллектуальной обработки и происходит со скоростью чтения данных с диска. Если информации, которая генерируется на машинах-индексаторах, получается слишком много, то процедура "сливания" частей проходит в несколько этапов. Вначале частичные индексы объединяются в несколько промежуточных баз, а затем промежуточные базы пересекаются с основной базой предыдущей редакции. Таких этапов может быть сколько угодно. Промежуточные базы могут сливаться в другие промежуточные базы, а уже потом объединяться окончательно. Поэтапная работа незначительно замедляет формирование единого индекса и не отражается на качестве результатов.

Поисковая машина – обеспечивает точность и корректность обработки данных. От ее особенностей зависит, насколько быстро и точно пользователь найдет то, что его интересует. Когда пользователь вводит свой запрос, поисковая машина ищет ответ в своей индексной базе и выводит результаты в соответствии со своим алгоритмом поиска.

Поисковая система Рамблера "говорит" на том же языке, что и мы с Вами. Помимо русского разговорного языка, она знает несколько сотен других языков (носители которых создают сайты в Интернете), а также "понимает" специальные символы и формулы. Таким образом, Ваш поисковый запрос, как и вопрос в обычной речи, может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. Например, если ввести в поисковую строку несколько слов без знаков препинания и специальных символов, поисковая машина найдет все документы, в которых содержатся эти слова (причем на ограниченном расстоянии друг от друга).

Однако можно научиться искать более эффективно. Для этого нужно:

· Точно представить, что именно Вы хотите найти.

· Попытаться описать искомое наиболее полно и емко. То есть если Вы хотите найти реферат по развитию герменевтики в России, необходимо. чтобы поисковый запрос содержал все три определяющие понятия: "реферат", "герменевтика", "Россия".

· Ввести поисковый запрос без ошибок. Если Вы ошибетесь - мы постараемся Вас поправить в списке ассоциативных запросов "У нас также ищут". Но желательно все-таки помнить, как пишется слово, которое Вы ищете.

· Использовать уточняющие слова. Если Вам требуется найти книгу Паркинсона, в запросе должны присутствовать оба слова: "книга" и "Паркинсон". В противном случае в результате поиска появятся страницы, посвященные болезни Паркинсона.

· Использовать синонимы и образные выражения. Если искомое слово не найдено, постарайтесь переформулировать свой запрос.

· Применять служебные символы (см. операторы, скобки и кавычки)




Поделиться с друзьями:


Дата добавления: 2014-01-14; Просмотров: 541; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.128 сек.