Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Актуальность

Актуальность – не менее важная характеристика поиска, которая определяется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу. Например, на следующий день после теракта в Тушино огромное количество пользователей обратились к поисковой машине Рамблер с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток. Однако основные документы уже были заиндексированы и доступны для поиска, благодаря существованию "быстрой базы", которая обновляется два раза в день, а при необходимости может обновляться быстрее.

На сегодняшний день индексная база поисковой системы Рамблер состоит из 8 частей, каждая из которых живет своей независимой жизнью. Весь Интернет условно разделен на 7 секторов и называется своим цветом: красный, оранжевый, желтый, зеленый, голубой, синий, фиолетовый. Сайт компании Рамблер относится к голубому сектору. Информация о web-ресурсах каждого сектора хранится в соответствующей части индексной базы. Восьмая часть – «быстрая база» – включает в себя страницы, на которых размещен счетчик Тор 100 и которые еще не успели попасть в основную индексную базу.

Все части индексной базы собираются и обновляются по отдельности. Так, сегодня происходит переиндексация и обновление красного сектора, завтра - оранжевого и желтого, послезавтра – зеленого и т.д. Благодаря такому ступенчатому алгоритму в поисковой машине регулярно появляется свежая информация. Полный цикл обновления занимает около недели. При этом сбор информации происходит параллельно, а непосредственно на изготовление индекса документов одного сектора уходит всего несколько часов. Поэтому существует принципиальная возможность обновлять индексную базу быстрее.

Разделение Интернета на 7 секторов условно. При необходимости он может быть разбит на 10, 20 или 40 секторов, каждый из которых будет обрабатываться автономно. В такой системе заложена возможность значительного увеличения нагрузки. С ростом объема информации в сети Интернет растет и индексная база поисковой машины. Постепенно переиндексация и сборка базы начинает занимать все больше времени, а процесс обновления индекса становится более громоздким. Поступление новых данных затягивается, информация начинает терять свою актуальность. Возможность «передела» Интернета на большее число секторов позволяет удерживать размер каждой части базы в оптимальном диапазоне, контролировать время ее сборки и обновления.

«Быстрая база» отличается от остальных частей индекса меньшим объемом и очень оперативным обновлением: время ее построения занимает около двух часов. В базе содержится информация о страницах, на которых был установлен счетчик Тор 100. Участниками рейтинга Тор 100 являются новостные порталы, сайты крупных компаний, Интернет-магазины, форумы, - все наиболее популярные ресурсы в сети. Каждый раз при установке счетчика на новую страницу сайта, зарегистрированного в Тор 100, информация передается в поисковую систему. Страница ищется во всех цветах основной базы и, если она еще не известна поисковой системе, отправляется в очередь на обработку. Перед обработкой страницы дополнительно фильтруются, из них отбираются самые посещаемые. Таким образом, «сливки» с Интернета собираются два раза в день.

«Быстрая база» представляет собой разумное решение проблемы актуальности данных в поиске. Информационное агентство может выложить новость через десять минут после ее появления, потому что тратит время только на верстку страницы. Поисковая машина должна сначала заиндексировать текст, а на это требуется гораздо больше времени. «Быстрая база» охватывает все ресурсы Интернет, зарегистрированные в Тор 100, на которых был размещен счетчик, и которые еще не успели попасть в основную базу. При этом индексируются как страницы с новостями, так и другие свежие документы, появившиеся в Тор 100. В результате через сутки после теракта в поиске Рамблера была доступна не только основная информация, опубликованная на сайтах новостных агентств, которую можно найти и прочитать в разделах новостей, но и комментарии, высказывания очевидцев, обсуждения на форумах, все, что было к этому времени опубликовано на наиболее посещаемых страницах Интернета.

Главный критерий приема сайта Яндексом – это текст, написанный на русском языке. Поисковая система имеет достаточно быстрый поисковый робот, который позволяет при первичной индексации странице уже через 2-4 часа появляться в результатах поиска. Далее страница ставится системой в очередь на полную индексацию, после которой она иногда может пропасть из результатов поиска, если будет принята за спам, или из-за каких-либо технических проблем. Поэтому позицию страницы нужно отслеживать в течение нескольких дней, пока Яндекс проведет полную индексацию. Кроме того, список результатов, выдаваемых Яндексом, может меняться зависимости от загруженности серверов. После индексации главной страницы, остальные обычно включаются в индекс примерно через две недели.

Яндекс, обнаруживая новую или измененную страницу, индексирует ее, разбивая документ на элементы: текст, заголовок, подписи к картинкам, содержимое тега описания, текст ссылок и некоторые другие. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ Яндекс не хранит, поэтому и создает очень компактный индекс. Робот регистрирует дату последнего обхода каждой страницы, дату ее изменения, присланную сервером, и дату внесения последних изменений в базу. Яндекс оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые ресурсы. Обычно переиндексация происходит раз в две-три недели. Изменения, внесенные в уже проиндексированные страницы, робот отслеживает самостоятельно при следующем заходе на сайт.

У робота Яндекса свой график деятельности и изменить его, например, как в других поисковиках, не представляется возможным, т.к. Яндекс игнорирует тег.

Чтобы выяснить, проиндексировал ли Яндекс сайт, необходимо на странице www.yandex.ru/addurl.html ввести в поле регистрационной формы адрес сайта и проанализировать результаты. Если будет выдано сообщение что «Ваш URL был только что внесен в нашу базу данных», это значит, что сайт будет проиндексирован в ближайшее время. Если получено сообщение «Ваш URL уже проиндексирован. Вы можете посмотреть, какие страницы вашего сайта проиндексированы в Яndex.Ru к настоящему времени», то, нажав на ссылку «проиндексированы в Яndex.Ru», можно получить весь список документов ресурса, которые были проработаны поисковиком. Если регистрируемый сайт пропал из результатов поиска (чаще всего по техническим причинам самой машины), можно воспользоваться описанным выше способом, чтобы убедиться, что сайт все-таки прописан в индексе. Обычно при этом выдается сообщение о том, что «Ваш URL уже известен роботу. Данный ресурс будет проиндексирован в ближайшее время».

Яндекс постоянно совершенствует поисковый механизм. Последние изменения оказались наиболее кардинальными и внесли новизну не только
в способ формирования результатов выдачи, но и значительно расширили возможности поиска.

 

<== предыдущая лекция | следующая лекция ==>
Точность | Скорость поиска
Поделиться с друзьями:


Дата добавления: 2014-01-11; Просмотров: 870; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.013 сек.