Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Вывод результатов поиска




Язык документа

Расстояние между словами запроса...

ограничивать — расстояние между словами из запроса в тексте документа не должно быть слишком большим; вклю­чено по умолчанию, поскольку повышает точность поиска;

не ограничивать — расстояние между словами не играет роли; будут найдены все документы, содержащие слова за­проса, вне зависимости от того, на каком расстоянии друг от друга они находятся.

4. Исключить документы, содержащие сле­дующие слова. Из списка найденного исключаются те доку­менты, в которых есть слова, перечисленные в этом поле.

любой — поиск любых документов, независимо от языка — включено по умолчанию;

русский — поиск только по «русскоязычным» (кириллица) документам;

английский — поиск только по «англоязычным» докумен­там (набранным латиницей).

6. Дата создания документа. Позволяет отбирать только те документы, дата создания которых укладывается в за­данный диапазон. В частности, можно ограничить выдачу только «новыми» (начиная с указанной даты) или «старыми» документа­ми (до указанной даты). Все даты задаются в формате день/ме­сяц/год, например, 29/02/2000. По умолчанию находятся лю­бые документы, вне зависимости от даты. Внимание: если сервер не возвращает даты документа, то в качестве таковой проставля­ется дата индексирования (день, когда документ был считан «ро­ботом» Rambler).

7. Искать документы только на следующих сайтах. Позволяет отбирать только те документы, которые найдены на указанных сайтах. Под сайтом понимается либо уни­кальное DNS-имя (домен), либо DNS-имя с каталогом первого уровня, начинающимся с тильды. Например: topioo.rambier.ru,

www.lenta.ru, www.hosting.ua/ -name — НО не www.rambler.ru/ domains/.

Можно указать несколько сайтов через запятые. По умолча­нию в поиске участвуют документы со всех проиндексирован­ных сайтов.

8.1. Сортировать

сайты по релевантности — найденные документы группи­руются по сайтам, так что одна позиция в списке результа­тов поиска может соответствовать нескольким документам. Порядок выдачи сайтов определяется их релевантностью (степенью соответствия запросу документов с сайта) — включено по умолчанию;

страницы по релевантности — документы не группируются по сайтам, то есть все документы с одного сайта выдаются по отдельности. Порядок выдачи определяется релевантностью (соответствием запросу) каждого отдельного документа;

страницы по дате (сначала новые) — документы не группи­руются по сайтам; порядок выдачи — от более новых доку­ментов к более старым;

страницы по дате (сначала старые) — то же, что и в преды­дущем случае, но сначала выводятся самые старые из най­денных документов.

8.2. Выдавать

по 15 — на страницах результатов поиска выводится по 15 найденных документов (сайтов) — включено по умолча­нию;

по 30 — количество позиций на страницах результатов по­иска увеличивается до 30;

по 50 — количество позиций на страницах результатов по­иска увеличивается до 50.

8.3. Форма вывода

стандартная — включено по умолчанию;

краткая — в результатах поиска показываются только заго­ловки найденных документов;

детальная — выводится максимум информации о найден­ных документах: заголовок, аннотация, идентификатор до­кумента, даты модификации и индексирования, размер, ко­дировка, адрес и т. п.

8.4. Связанные запросы

показывать — в левой части экрана выводится список за­просов, «связанных» с данным — то есть часто задаваемых теми пользователями, которые вводили данный запрос;

не показывать — включено по умолчанию; колонка со спи­ском «связанных» запросов не выводится (начало списка показывается внизу страницы под заголовком «У нас также ищут»).

Индексирование информации в Rambler. В связи с постоянным ростом количества документов в сети, система должна быть мас­штабируемой. В Rambler масштабируемость достигается за счет параллельного исполнения задачи произвольным количеством машин.

Сбором информации занимается «робот», который обходит страницы с заданными URL, загружает их в базу данных, а затем архивирует и перекладывает в хранилище суточными порциями. Робот размещается на нескольких машинах, и каждая из них вы­полняет свое задание. Так, робот на одной машине может загру­жать новые страницы, которые еще не были известны поиско­вой системе, а на другой — страницы, которые ранее уже были загружены (не менее месяца, но и не более года назад). При не­обходимости обработка распределяется другим способом, напри­мер, разбив список URL на 10 частей и распределив их по 10 ма­шинам. Параллельная работа программы позволяет легко увели­чивать нагрузку — при возрастании числа страниц, которые нужно обойти роботу, достаточно просто распределить задачу на большее число машин.

В хранилище информация в сжатом виде собирается и раз­бивается на части по 50 Мбайт, распределяемые между 70 маши­нами, на которых запущена программа-индексатор. Как только индексатор на одной из машин заканчивает обработку очеред­ной порции страниц, он обращается за следующей. В результате на первом этапе формируется много небольших индексных баз, каждая из которых содержит информацию о некоторой части Internet. Таким образом, обработка данных осуществляется па­раллельно, поэтому ускорение процесса индексации достигается добавлением машин в систему.

После того, как все части информации обработаны, осущест­вляется объединение результатов. Благодаря тому, что частичные индексные базы и основная база, к которой обращается поиско­вая машина, имеют одинаковый формат, процедура слияния яв­ляется быстрой операцией, не требующей никаких дополнитель­ных модификаций частичных индексов. Основная база участвует в анализе как одна из частей нового индекса. Так, если объеди­няются 70 новых частей, то в анализе участвует 71 фрагмент (70 новых + основная база предыдущей редакции). Кроме того, единый формат позволяет проводить тестирование частичных баз еще до объединения их с основной, и обнаруживать ошибки на более раннем этапе.

На сегодняшний день индексная база поисковой системы Rambler состоит из 8 частей. Весь Internet разделен на 7 секто­ров, каждый условно обозначается цветом: красный, оранжевый, желтый, зеленый, голубой, синий, фиолетовый. Сайт компании Rambler относится к голубому сектору. Информация о ресурсах каждого сектора хранится в соответствующей части индексной базы. Восьмая часть — «быстрая база» — включает в себя стра­ницы, на которых размещен счетчик Тор 100 и которые еще не успели попасть в основную индексную базу.

Все части индексной базы собираются и обновляются по от­дельности. Например, сегодня происходит переиндексация и об­новление «красного» сектора, завтра — «оранжевого» и «желтого», послезавтра — «зеленого» и т. д. Благодаря такому ступенчатому алгоритму в поисковой машине регулярно появляется свежая ин­формация. Полный цикл обновления занимает около недели. При этом сбор информации происходит параллельно, а непосредст­венно на изготовление индекса документов одного сектора затра­чивается несколько часов.

Разделение Internet на 7 секторов условно. При необходимо­сти он может быть разбит на 10, 20 или 40 секторов, каждый из которых будет обрабатываться автономно. В такой системе зало­жена возможность значительного увеличения нагрузки. С ростом объема информации в сети Internet растет и индексная база по­исковой машины. Постепенно переиндексация и сборка базы начинает занимать все больше времени, а процесс обновления индекса становится более громоздким. Поступление новых дан­ных затягивается, информация начинает терять свою актуаль­ность. Возможность «передела» Internet на большее число секто­ров позволяет удерживать размер каждой части базы в оптималь­ном диапазоне, контролировать время ее сборки и обновления.

«Быстрая база» отличается от остальных частей индекса меньшим объемом и очень оперативным обновлением: время ее построения занимает около двух часов. В базе содержится ин­формация о страницах, на которых был установлен счетчик Тор 100. Участниками рейтинга Тор 100 являются новостные порта­лы, сайты крупных компаний, Internet-магазины, форумы, — все наиболее популярные ресурсы в сети. Каждый раз при установке счетчика на новую страницу сайта, зарегистрированного в Тор 100, информация передается в поисковую систему. Страница разыскивается во всех «цветах» основной базы и, если она еще не известна поисковой системе, отправляется в очередь на обра­ботку. Перед обработкой страницы дополнительно фильтруются, из них отбираются самые посещаемые.

Скорость поиска тесно связана с его устойчивостью к нагруз­кам. В среднем в рабочие часы на поисковую машину Rambler поступает около 60 запросов в секунду. Такая загруженность тре­бует сокращения времени обработки отдельного запроса.

Контрольные вопросы

1. Какие средства входят в состав Web-технологий? Что такое CGI?

2. Перечислите команды протокола HTTP.

3. Каков состав программного обеспечения WWW?

4. Перечислите основные программы-клиенты и серверы WWW.

5. Перечислите основные форматы HTML.

6. Каковы основные возможности отображения документов?

7. Каким образом реализуются списки и таблицы?

8. Расскажите об организации гипертекстовых ссылок.

9. Каковы возможности браузера Netscape Navigator?

10. Каковы настройки браузера Netscape Navigator?

11. Что подразумевается под Intranet-технологиями?

12. Что такое информационная система?

13. Какие типы информационных систем Internet вам известны?

14. Каковы основные принципы системы WAIS?

15. В чем состоит отличие протокола Z39.50 от других прикладных прото­колов?

16. Почему использование протокола HTTP для реализации ИПС вызывает трудности?

17. Из каких фаз состоит взаимодействие по протоколу Z39.50?

18. Что такое «динамические папки» в системах WAIS?

19. В чем отличие ИПС WAIS и WWW?

20. Какова структура ИПС в сети WWW?

21. Что такое информационно-поисковый язык (ИПЯ) и каковы его разно­видности?

22. Перечислите наиболее известные информационно-поисковые систе­мы (ИПС) в WWW.

23. Каковы поисковые возможности ИПС Yandex?


Литература

1. Абдикеев Н. И., Бачинин Ю. Г. INTERNET в информацион­ных технологиях: Лабораторная работа по циклу дисциплин «Ин­форматика» / Под общ. ред. К. И. Курбакова. М.: Рос. экон. акад., 2001. 43 с.

2. Василевич А., Зиновьев С., Молотков Л. Он-лайновый доступ к базам данных международной информационной сети STN International j j Информационные ресурсы России. 1996. Вып. 4—5. С. 36-38.

3. Информационные ресурсы и документальные базы данных: создание, использование, анализ / Е. Н. Васина, О. Л. Голицына, Н. В. Максимов, И. И. Попов. М:. РГГУ, 1997. 178 с.

4. Горностаев Ю. М., Поляк Ю. Е. Русский Интернет. 7500 Webs. М.: ЦЭМИ РАН; МЦНТИ, 1998. 155 с.

5. Гусева А. И. Технология межсетевых взаимодействий. Net­Ware — Unix — Windows — Internet. M.: Диалог-МИФИ, 1997. 272 с.

6. Дегтярев Е. К. Введение в Unix. М.: МП «Память», 1992. 128 с.

7. Информационное пространство новых независимых госу­дарств / Ю. М. Арский и др.; Всероссийский ин-т научн. и техн. ин­формации РАН. М.: ВИНИТИ, 2000. 200 с.

8. Казаков С. И. Основы сетевых технологий, 1998. 87 с.

9. Лопатин В. Н. Информационная безопасность России: Чело­век. Общество. Государство / Санкт-Петербургский университет МВД России. СПб.: Фонд «Университет», 2000. 428 с.

10. Методы, системы, стандарты // Мир связи и информации. Connect. 1996. № 12. С. 54-55.

11. блифер В. Г. Олифер Н. А. Компьютерные сети. Принципы, технологии, протоколы. СПб.: Питер, 2000. 672 с.

12. Пайк М. Internet в подлиннике. Пер. с англ. СПб.: HV — Санкт-Петербург, 1996. 640 с.

13. Попов И. И. Автоматизированные информационные системы и сети. М.: МИФИ, 1985. 118 с.

14. Попов И. И. Информационные ресурсы и системы: реализа­ция, моделирование, управление. М.: ТПК «Альянс», 1996. 408 с.

15. Попов И. И. Автоматизированные информационные системы (по областям применения). М.: РЭА им. Г. В. Плеханова, 1999. 103 с.

16. Вопросы разработки информационно-методического обу­чающего комплекса «Мировые информационные ресурсы и сети. Методы доступа к ним» / И. И. Попов, Е. Н. Васина, О. JI. Голицы­на, Н. В. Максимов, Т. JI. Партыка, П. Б. Храмцов // Наукоемкие технологии образования: Межвузовский сборник научно-методиче- ских трудов. Т. 2. М.: РЭА им. Г. В. Плеханова, 2000. С. 164—168.

17. Попов И. И., Максимов Н. В., Храмцов П. Б. Введение в сете­вые информационные ресурсы и технологии: учеб. пособие. М.: РГГУ, 2001. 203 с.

18. Попов И. И., Селетков С. Н., Романенко А. Г. Программа спе­циальной дисциплины «Мировые информационные ресурсы и сети, методы взаимодействия с ними» (индекс СД02/01/071900) (програм­ма курса) // Учебные программы общепрофессиональных и специ­альных дисциплин по межотраслевой специальности 071900 «Ин­формационные системы (по областям применения)». М.: ГК РФ ВО; РЭА им Г. В. Плеханова, 1996. С. 95-103.

19. Попов И. И., Храмцов П. Б. Мировые информационные ре­сурсы и сети (методы доступа к ним): учебник / Под общей ред. К. И. Курбакова; МКП НТО Минобразования РФ; Рос. экон. акад. М., 1998. 145 с.

20. Родионов И. И. Интернет для российских предпринимателей. М.: МЦНТИ, 1997. 260 с.

21. Стандартизация электронных документов и методов их обра­ботки // Технологии электронных коммуникаций. Т. 5. М.: МЦНТИ, 1992. 126 с.

22. Стерлинг, Дональд Дж. Волоконная оптика. Техническое ру­ководство. М.: ЛОРИ, 1998.

23. Финогенов К., Черных В. MS-DOS 6. М.: ABF, 1993. 448 с.

24. Фролов А. В., Фролов Г. В. Локальные сети персональных компьютеров. Монтаж сети, установка программного обеспечения. Т. 7. М.: Диалог-МИФИ, 1994. 176 с.

25. Фролов А. В., Фролов Г. В. Программирование модемов. М.: Диалог-МИФИ, 1993. 233 с.

26. Фролов А. В., Фролов Г. В. Сервер Web своими руками. М.: Диалог-МИФИ, 1997.

27. Храмцов П. Б. Лабиринт Интернет: Практическое руково­дство. М.: Электронинформ, 1996. 256 с.




Поделиться с друзьями:


Дата добавления: 2014-11-29; Просмотров: 1011; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.041 сек.