КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Общие сведения о работе поисковой системы Рамблер
Все поисковые системы Интернета, и Рамблер в том числе, состоят из трех базовых компонентов: · веб-паук (web spider); · индексатор; · поисковая машина Web spider представляет собой программу, которая обходит страницы с заданными URL, скачивает их в базу данных, а затем архивирует и перекладывает в хранилище один раз в сутки. Робот размещается на нескольких машинах, каждая из которых выполняет свое задание. Так, робот на одной машине может качать новые страницы, которые еще не известны поисковой системе, а на другой - страницы, которые были скачены не менее месяца, но и не более года назад. При этом все машины используют одно и то же хранилище. Индексатор – это программа, которая занимается обработкой страниц, скаченных при помощи веб-паука. Ее задача - "прочесть" все документы, извлечь из них слова и разместить их в специальную базу данных - индекс. Информация, находящаяся в хранилище в сжатом виде, делится на несколько частей. Эти части постепенно распределяются между машинами, на которых запущена программа-индексатор. Как только индексатор на одной из машин заканчивает обработку очередной части страниц, он обращается за следующей порцией. В результате на первом этапе формируется много маленьких индексных баз, каждая из которых содержит информацию о некоторой части Интернета, а вся обработка данных осуществляется параллельно, поэтому ускорение процесса индексации достигается при помощи добавления машин в систему. Специальная программа составляет таблицы перенумерации документов базы и объединяет содержимое всех частей. Среди страниц с одинаковыми адресами выбирается наиболее свежая версия; если при скачивании веб-адресов (URL) последней информацией была ошибка 404 (запрашиваемая страница не существует), она временно удаляется из индексной базы. Параллельно осуществляется склейка дублей: страницы, которые имеют одинаковое содержимое, но различные URL, объединяются в один документ. Поисковая машина – обеспечивает точность и корректность обработки данных. От ее особенностей зависит, насколько быстро и точно пользователь найдет то, что его интересует. Когда пользователь вводит свой запрос, поисковая машина ищет ответ в своей индексной базе и выводит результаты в соответствии со своим алгоритмом поиска. Поисковая система Рамблера "говорит" на том же языке, что и мы с Вами. Помимо русского разговорного языка, она знает несколько сотен других языков (носители которых создают сайты в Интернете), а также "понимает" специальные символы и формулы. Таким образом, Ваш поисковый запрос, как и вопрос в обычной речи, может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. Например, если ввести в поисковую строку несколько слов без знаков препинания и специальных символов, поисковая машина найдет все документы, в которых содержатся эти слова (причем на ограниченном расстоянии друг от друга). Однако можно научиться искать более эффективно. Для этого нужно: · Точно представить, что именно Вы хотите найти. · Попытаться описать искомое наиболее полно и емко. То есть если Вы хотите найти реферат по развитию герменевтики в России, необходимо. чтобы поисковый запрос содержал все три определяющие понятия: "реферат", "герменевтика", "Россия". · Ввести поисковый запрос без ошибок. Если Вы ошибетесь - мы постараемся Вас поправить в списке ассоциативных запросов "У нас также ищут". Но желательно все-таки помнить, как пишется слово, которое Вы ищете. · Использовать уточняющие слова. Если Вам требуется найти книгу Паркинсона, в запросе должны присутствовать оба слова: "книга" и "Паркинсон". В противном случае в результате поиска появятся страницы, посвященные болезни Паркинсона. · Использовать синонимы и образные выражения. Если искомое слово не найдено, постарайтесь переформулировать свой запрос. · Применять служебные символы (см. операторы, скобки и кавычки)
Дата добавления: 2014-01-14; Просмотров: 541; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |