КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Вывод результатов поиска
Язык документа Расстояние между словами запроса... • ограничивать — расстояние между словами из запроса в тексте документа не должно быть слишком большим; включено по умолчанию, поскольку повышает точность поиска; • не ограничивать — расстояние между словами не играет роли; будут найдены все документы, содержащие слова запроса, вне зависимости от того, на каком расстоянии друг от друга они находятся. 4. Исключить документы, содержащие следующие слова. Из списка найденного исключаются те документы, в которых есть слова, перечисленные в этом поле. • любой — поиск любых документов, независимо от языка — включено по умолчанию; • русский — поиск только по «русскоязычным» (кириллица) документам; • английский — поиск только по «англоязычным» документам (набранным латиницей). 6. Дата создания документа. Позволяет отбирать только те документы, дата создания которых укладывается в заданный диапазон. В частности, можно ограничить выдачу только «новыми» (начиная с указанной даты) или «старыми» документами (до указанной даты). Все даты задаются в формате день/месяц/год, например, 29/02/2000. По умолчанию находятся любые документы, вне зависимости от даты. Внимание: если сервер не возвращает даты документа, то в качестве таковой проставляется дата индексирования (день, когда документ был считан «роботом» Rambler). 7. Искать документы только на следующих сайтах. Позволяет отбирать только те документы, которые найдены на указанных сайтах. Под сайтом понимается либо уникальное DNS-имя (домен), либо DNS-имя с каталогом первого уровня, начинающимся с тильды. Например: topioo.rambier.ru, www.lenta.ru, www.hosting.ua/ -name — НО не www.rambler.ru/ domains/.
Можно указать несколько сайтов через запятые. По умолчанию в поиске участвуют документы со всех проиндексированных сайтов. 8.1. Сортировать • сайты по релевантности — найденные документы группируются по сайтам, так что одна позиция в списке результатов поиска может соответствовать нескольким документам. Порядок выдачи сайтов определяется их релевантностью (степенью соответствия запросу документов с сайта) — включено по умолчанию; • страницы по релевантности — документы не группируются по сайтам, то есть все документы с одного сайта выдаются по отдельности. Порядок выдачи определяется релевантностью (соответствием запросу) каждого отдельного документа; • страницы по дате (сначала новые) — документы не группируются по сайтам; порядок выдачи — от более новых документов к более старым; • страницы по дате (сначала старые) — то же, что и в предыдущем случае, но сначала выводятся самые старые из найденных документов. 8.2. Выдавать • по 15 — на страницах результатов поиска выводится по 15 найденных документов (сайтов) — включено по умолчанию; • по 30 — количество позиций на страницах результатов поиска увеличивается до 30; • по 50 — количество позиций на страницах результатов поиска увеличивается до 50. 8.3. Форма вывода • стандартная — включено по умолчанию; • краткая — в результатах поиска показываются только заголовки найденных документов; • детальная — выводится максимум информации о найденных документах: заголовок, аннотация, идентификатор документа, даты модификации и индексирования, размер, кодировка, адрес и т. п. 8.4. Связанные запросы • показывать — в левой части экрана выводится список запросов, «связанных» с данным — то есть часто задаваемых теми пользователями, которые вводили данный запрос; • не показывать — включено по умолчанию; колонка со списком «связанных» запросов не выводится (начало списка показывается внизу страницы под заголовком «У нас также ищут»).
Индексирование информации в Rambler. В связи с постоянным ростом количества документов в сети, система должна быть масштабируемой. В Rambler масштабируемость достигается за счет параллельного исполнения задачи произвольным количеством машин. Сбором информации занимается «робот», который обходит страницы с заданными URL, загружает их в базу данных, а затем архивирует и перекладывает в хранилище суточными порциями. Робот размещается на нескольких машинах, и каждая из них выполняет свое задание. Так, робот на одной машине может загружать новые страницы, которые еще не были известны поисковой системе, а на другой — страницы, которые ранее уже были загружены (не менее месяца, но и не более года назад). При необходимости обработка распределяется другим способом, например, разбив список URL на 10 частей и распределив их по 10 машинам. Параллельная работа программы позволяет легко увеличивать нагрузку — при возрастании числа страниц, которые нужно обойти роботу, достаточно просто распределить задачу на большее число машин. В хранилище информация в сжатом виде собирается и разбивается на части по 50 Мбайт, распределяемые между 70 машинами, на которых запущена программа-индексатор. Как только индексатор на одной из машин заканчивает обработку очередной порции страниц, он обращается за следующей. В результате на первом этапе формируется много небольших индексных баз, каждая из которых содержит информацию о некоторой части Internet. Таким образом, обработка данных осуществляется параллельно, поэтому ускорение процесса индексации достигается добавлением машин в систему. После того, как все части информации обработаны, осуществляется объединение результатов. Благодаря тому, что частичные индексные базы и основная база, к которой обращается поисковая машина, имеют одинаковый формат, процедура слияния является быстрой операцией, не требующей никаких дополнительных модификаций частичных индексов. Основная база участвует в анализе как одна из частей нового индекса. Так, если объединяются 70 новых частей, то в анализе участвует 71 фрагмент (70 новых + основная база предыдущей редакции). Кроме того, единый формат позволяет проводить тестирование частичных баз еще до объединения их с основной, и обнаруживать ошибки на более раннем этапе.
На сегодняшний день индексная база поисковой системы Rambler состоит из 8 частей. Весь Internet разделен на 7 секторов, каждый условно обозначается цветом: красный, оранжевый, желтый, зеленый, голубой, синий, фиолетовый. Сайт компании Rambler относится к голубому сектору. Информация о ресурсах каждого сектора хранится в соответствующей части индексной базы. Восьмая часть — «быстрая база» — включает в себя страницы, на которых размещен счетчик Тор 100 и которые еще не успели попасть в основную индексную базу. Все части индексной базы собираются и обновляются по отдельности. Например, сегодня происходит переиндексация и обновление «красного» сектора, завтра — «оранжевого» и «желтого», послезавтра — «зеленого» и т. д. Благодаря такому ступенчатому алгоритму в поисковой машине регулярно появляется свежая информация. Полный цикл обновления занимает около недели. При этом сбор информации происходит параллельно, а непосредственно на изготовление индекса документов одного сектора затрачивается несколько часов. Разделение Internet на 7 секторов условно. При необходимости он может быть разбит на 10, 20 или 40 секторов, каждый из которых будет обрабатываться автономно. В такой системе заложена возможность значительного увеличения нагрузки. С ростом объема информации в сети Internet растет и индексная база поисковой машины. Постепенно переиндексация и сборка базы начинает занимать все больше времени, а процесс обновления индекса становится более громоздким. Поступление новых данных затягивается, информация начинает терять свою актуальность. Возможность «передела» Internet на большее число секторов позволяет удерживать размер каждой части базы в оптимальном диапазоне, контролировать время ее сборки и обновления. «Быстрая база» отличается от остальных частей индекса меньшим объемом и очень оперативным обновлением: время ее построения занимает около двух часов. В базе содержится информация о страницах, на которых был установлен счетчик Тор 100. Участниками рейтинга Тор 100 являются новостные порталы, сайты крупных компаний, Internet-магазины, форумы, — все наиболее популярные ресурсы в сети. Каждый раз при установке счетчика на новую страницу сайта, зарегистрированного в Тор 100, информация передается в поисковую систему. Страница разыскивается во всех «цветах» основной базы и, если она еще не известна поисковой системе, отправляется в очередь на обработку. Перед обработкой страницы дополнительно фильтруются, из них отбираются самые посещаемые.
Скорость поиска тесно связана с его устойчивостью к нагрузкам. В среднем в рабочие часы на поисковую машину Rambler поступает около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Контрольные вопросы 1. Какие средства входят в состав Web-технологий? Что такое CGI? 2. Перечислите команды протокола HTTP. 3. Каков состав программного обеспечения WWW? 4. Перечислите основные программы-клиенты и серверы WWW. 5. Перечислите основные форматы HTML. 6. Каковы основные возможности отображения документов? 7. Каким образом реализуются списки и таблицы? 8. Расскажите об организации гипертекстовых ссылок. 9. Каковы возможности браузера Netscape Navigator? 10. Каковы настройки браузера Netscape Navigator? 11. Что подразумевается под Intranet-технологиями? 12. Что такое информационная система? 13. Какие типы информационных систем Internet вам известны? 14. Каковы основные принципы системы WAIS? 15. В чем состоит отличие протокола Z39.50 от других прикладных протоколов? 16. Почему использование протокола HTTP для реализации ИПС вызывает трудности? 17. Из каких фаз состоит взаимодействие по протоколу Z39.50? 18. Что такое «динамические папки» в системах WAIS? 19. В чем отличие ИПС WAIS и WWW? 20. Какова структура ИПС в сети WWW? 21. Что такое информационно-поисковый язык (ИПЯ) и каковы его разновидности? 22. Перечислите наиболее известные информационно-поисковые системы (ИПС) в WWW. 23. Каковы поисковые возможности ИПС Yandex? Литература 1. Абдикеев Н. И., Бачинин Ю. Г. INTERNET в информационных технологиях: Лабораторная работа по циклу дисциплин «Информатика» / Под общ. ред. К. И. Курбакова. М.: Рос. экон. акад., 2001. 43 с. 2. Василевич А., Зиновьев С., Молотков Л. Он-лайновый доступ к базам данных международной информационной сети STN International j j Информационные ресурсы России. 1996. Вып. 4—5. С. 36-38. 3. Информационные ресурсы и документальные базы данных: создание, использование, анализ / Е. Н. Васина, О. Л. Голицына, Н. В. Максимов, И. И. Попов. М:. РГГУ, 1997. 178 с. 4. Горностаев Ю. М., Поляк Ю. Е. Русский Интернет. 7500 Webs. М.: ЦЭМИ РАН; МЦНТИ, 1998. 155 с. 5. Гусева А. И. Технология межсетевых взаимодействий. NetWare — Unix — Windows — Internet. M.: Диалог-МИФИ, 1997. 272 с. 6. Дегтярев Е. К. Введение в Unix. М.: МП «Память», 1992. 128 с. 7. Информационное пространство новых независимых государств / Ю. М. Арский и др.; Всероссийский ин-т научн. и техн. информации РАН. М.: ВИНИТИ, 2000. 200 с. 8. Казаков С. И. Основы сетевых технологий, 1998. 87 с. 9. Лопатин В. Н. Информационная безопасность России: Человек. Общество. Государство / Санкт-Петербургский университет МВД России. СПб.: Фонд «Университет», 2000. 428 с. 10. Методы, системы, стандарты // Мир связи и информации. Connect. 1996. № 12. С. 54-55. 11. блифер В. Г. Олифер Н. А. Компьютерные сети. Принципы, технологии, протоколы. СПб.: Питер, 2000. 672 с. 12. Пайк М. Internet в подлиннике. Пер. с англ. СПб.: HV — Санкт-Петербург, 1996. 640 с. 13. Попов И. И. Автоматизированные информационные системы и сети. М.: МИФИ, 1985. 118 с. 14. Попов И. И. Информационные ресурсы и системы: реализация, моделирование, управление. М.: ТПК «Альянс», 1996. 408 с. 15. Попов И. И. Автоматизированные информационные системы (по областям применения). М.: РЭА им. Г. В. Плеханова, 1999. 103 с. 16. Вопросы разработки информационно-методического обучающего комплекса «Мировые информационные ресурсы и сети. Методы доступа к ним» / И. И. Попов, Е. Н. Васина, О. JI. Голицына, Н. В. Максимов, Т. JI. Партыка, П. Б. Храмцов // Наукоемкие технологии образования: Межвузовский сборник научно-методиче- ских трудов. Т. 2. М.: РЭА им. Г. В. Плеханова, 2000. С. 164—168. 17. Попов И. И., Максимов Н. В., Храмцов П. Б. Введение в сетевые информационные ресурсы и технологии: учеб. пособие. М.: РГГУ, 2001. 203 с. 18. Попов И. И., Селетков С. Н., Романенко А. Г. Программа специальной дисциплины «Мировые информационные ресурсы и сети, методы взаимодействия с ними» (индекс СД02/01/071900) (программа курса) // Учебные программы общепрофессиональных и специальных дисциплин по межотраслевой специальности 071900 «Информационные системы (по областям применения)». М.: ГК РФ ВО; РЭА им Г. В. Плеханова, 1996. С. 95-103. 19. Попов И. И., Храмцов П. Б. Мировые информационные ресурсы и сети (методы доступа к ним): учебник / Под общей ред. К. И. Курбакова; МКП НТО Минобразования РФ; Рос. экон. акад. М., 1998. 145 с. 20. Родионов И. И. Интернет для российских предпринимателей. М.: МЦНТИ, 1997. 260 с. 21. Стандартизация электронных документов и методов их обработки // Технологии электронных коммуникаций. Т. 5. М.: МЦНТИ, 1992. 126 с. 22. Стерлинг, Дональд Дж. Волоконная оптика. Техническое руководство. М.: ЛОРИ, 1998. 23. Финогенов К., Черных В. MS-DOS 6. М.: ABF, 1993. 448 с. 24. Фролов А. В., Фролов Г. В. Локальные сети персональных компьютеров. Монтаж сети, установка программного обеспечения. Т. 7. М.: Диалог-МИФИ, 1994. 176 с. 25. Фролов А. В., Фролов Г. В. Программирование модемов. М.: Диалог-МИФИ, 1993. 233 с. 26. Фролов А. В., Фролов Г. В. Сервер Web своими руками. М.: Диалог-МИФИ, 1997. 27. Храмцов П. Б. Лабиринт Интернет: Практическое руководство. М.: Электронинформ, 1996. 256 с.
Дата добавления: 2014-11-29; Просмотров: 1011; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |