Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Поисковые машины




Поисковая машина - (Search engine, синонимы: поисковая система, поисковый сервер, “искалка”) - инструмент для поиска информации в Интернет. Поисковые машины состоят из двух основных частей: программы-робота и индексного файла (базы данных). Робот сканирует сайты Интернет, выгружая web-страницы на базовый компьютер, где производится их индексирование. Учитываются не только тексты, но и иллюстрации, а также аудио- и видеофайлы. Пользователь, вводя состоящий из ключевых слов запрос, обращается к индексному файлу и получает в ответ перечень страниц, содержащих искомые термины. По территориальному охвату поисковые машины различаются на глобальные и локальные (национальные или отраслевые).

К основным параметрам поисковых систем относятся:

1) объем индексных файлов (число проиндексированных серверов и отдельных документов); Первая величина, являющаяся ключевой, устанавливает широту охвата материала и определяется числом проиндексированных документов. Сейчас эта цифра для лидеров мирового сетевого поиска составляет более триллиона документов.

2) степень оперативности обновления базы данных за счет включения сведений о новых материалах и удаления устаревших; Учитывая тот факт, что в среднем интернетовский адрес сохраняет актуальность до полугода, после чего документ или меняет местоположение или убирается с сервера, большое значение имеет уровень оперативности обновления данных, характеризующий степень соответствия индексного файла поисковой системы реальному местоположению документов на сайтах. В настоящее время этот параметр колеблется от двух недель до полутора месяцев.

3) возможности для составления запроса; Возможности поискового механизма выражать запрос максимально точно в значительной степени предопределяют долю релевантных документов в перечне полученных результатов. Каждая машина имеет свою собственную лексику, которая по-разному позволяет детализировать поисковое предписание.

4) интеллектуальность системы ранжирования результатов поиска; Все поисковые машины обладают модулем ранжирования результатов поиска. Создание таких модулей - целая область программирования, в которой конкурируют сложнейшие алгоритмы, созданные разными компаниями. Перечень факторов, принимаемых во внимание при определении места документа в перечне ссылок, необычайно широк: от местоположения слова на странице до рейтинга (авторитета) страниц, имеющих ссылки на найденный документ

5) наличие дополнительных сервисных функций, облегчающих работу пользователя. Не последнюю роль играет и простота интерфейса, наличие дополнительных сервисных функций, как, например, возможность перевода текста документа на иностранный язык, способность выделять все документы с определенного сайта, сужение критериев в ходе поиска, нахождение документов "по образцу" и т.д.

По этим параметрам среди внушительного числа поисковых систем выделяются несколько наиболее признанных, позволяющих выявлять информацию с высокой степенью полноты и надежности. К наиболее авторитетным поисковым системам всемирного масштаба в настоящее время относится Google (www.google.com). Российские системы этого класса ныне представлены Яндекс (www.yandex.ru), Rambler (www.rambler.ru).

Практически все всемирно известные справочники и поисковые системы в настоящее время превратились во внушительные информационные корпорации с многомиллионными доходами. Заработав авторитет наиболее посещаемых мест в Сети, они предоставляют свои страницы для размещения рекламной информации, доходы от которой и составляют основу их бюджета. Постепенно поисковые сервера превращаются в многофункциональные порталы, в которых поисковый сервис остается главной приманкой для пользователей, но далеко не единственной и даже не основной из предоставляемых услуг. Помимо разыскания информации, такие сервера обычно предоставляют пользователям бесплатную электронную почту, возможность бесплатно размещать собственные страницы, сведения о погоде, текущих новостях, биржевые котировки, карты местности и т.д.

Профессиональная работа с поисковиками требует специальных навыков, поскольку простой ввод искомого термина в поисковую строку, скорее всего, приведет к получению списка из сотен тысяч документов, содержащих данное понятие, что практически равносильно нулевому результату.

Google (www.google.com)

Поисковая система, запущенная в 1998 году и являющаяся ныне единоличным лидером среди глобальных поисковых систем по всем значимым параметрам. Главное достоинство Google - объем его индексного файла, который составляет на сегодня более триллиона web-страниц и статей из групп новостей по интересам. В сутки программы-роботы системы индексируют порядка трех миллионов новых и обновленных страниц, при том, что актуализация базы производится каждые 28 дней.

Второе несомненное преимущество Google - его способность индексировать документы не только в виде HTML-файлов, но также документы в форматах PDF, RTF, PS, DOC, XLS, PPT, WP5 и ряде других. При этом Google позволяет моментально конвертировать страницы в указанных форматах в обычный HTML-файл, что освобождает пользователя от необходимости иметь специальное программное обеспечение для доступа к файлу.

Следующим важнейшим достоинством является специально разработанный модуль ранжирования результатов - PageRank. Он основан на алгоритме, согласно которому вначале устанавливается структура ссылок во всей Сети, а затем каждая отдельная страница ранжируется в соответствии с числом и значимостью ссылок на нее с других страниц. При этом авторитетность внешних ссылок более важна, чем их количество. Подобный алгоритм позволяет существенно повысить релевантность ссылок, вследствие чего Google отличает высокая степень соответствия найденной информации интересам пользователя. Этот результат достигается, в частности, еще и за счет специальной подсистемы защиты пользователя от сайтов, которые продвигаются с помощью различных недобросовестных методов.

Google отличается высокой степенью комфорта для пользователя. Несмотря на то, что это глобальная поисковая система, пользователи из неанглоязычных стран автоматически переадресовываются на интерфейс на их родном языке. Русскоязычный интерфейс, в частности, находится по адресу www.google.com.ru. Длительность процесса в большинстве случаев не превышает одной секунды, несмотря на огромный объем индексного файла системы.

Интерфейс первой страницы Google - на сегодня в Сети у него нет достойных конкурентов.

Методика поиска с помощью Google предельно проста. В поисковую строку водится запрос на естественном языке - неважно на русском, английском или любом другом. Язык запросов не допускает усечения терминов знаком "*", поэтому все возможные варианты слов (library, libraries, librarians) пользователю следует вводить самостоятельно.Все термины запроса по умолчанию объединяются условием AND (И) - перед ними нет нужды ставить знак "+". Таким образом, в список результатов попадают лишь страницы, содержащие все введенные ключевые слова. Для поиска по точной фразе традиционно используются кавычки: так, запрос "Кто убил кошку у мадам Поласухер?" прямо приведет к ссылке на полный текст "Собачьего сердца" Михаила Булгакова. Поисковый механизм игнорирует стоп-слова (предлоги, союзы, артикли), однако, если какое-либо из таких слов существенно, перед ним необходимо поставить "+", давая понять системе, что в данном случае термин даже из одной буквы является значимым (например, Александр +I).

Google имеет в своем арсенале множество опций для максимальной конкретизации запроса. Все они доступны через меню Advanced Search "Расширенный поиск". Помимо уже описанных возможностей, добавляются фильтры, ограничивающие язык документа, его формат (к примеру, "только документы в PDF"), время опубликования ("последние три месяца"), место термина в самом документе ("в заголовке страницы") или расположение страницы в определенном домене или даже сайте.

Помимо поиска текстовых материалов, Google обладает лучшими на сегодня возможностями поиска иллюстраций с помощью режима "Поиск изображений" (Images, "Картинки").

Кстати, совсем недавно Google сообщил о специальной индексации сайтов крупнейших учебных заведений, что должно несколько улучшить поиск различной информации академического характера. Новый вид поиска под названием Google Scholar (http://scholar.google.com) облегчит жизнь учащимся и научным работникам, так как он специально предназначен для поиска специализированной научной литературы, включая рефераты диссертаций, статьи, книги, различные научные публикации и ссылки на них. При этом в базу данных научного поисковика от Google войдут как документы, находящиеся в открытом доступе, так и материалы, доступные исключительно по подписке (статьи, которые только цитируются в проиндексированных материалах, выводятся в результатах с пометкой citation), причем последние включаются в базу данных по согласованию с издателями, полные версии статей будут доступны только подписчикам, а все остальные пользователи смогут ознакомиться только с рефератами таких материалов.

Академия гугл – позволяет вести поиск научных, надёжных и проверенных источников информации.

Яндекс (http://www.yandex.ru или www.ya.ru)

Запущен в сентябре 1997 года. В настоящее время - признанный лидер российского поискового сервиса. Демонстрирует высокие показатели, как по объему проиндексированных документов, так и по релевантности поиска. Актуализация базы осуществляется еженедельно. Кроме того, Яндекс - поисковая система, индексирующая документы в форматах PDF, RTF и DOC.

Первая страница Яндекс. Находится если не все, то многое.

Интерфейс максимально прост - состоит из единственной строки ввода. За счет встроенной системы морфологической обработки терминов Яндекс приспособлен для формирования запросов на естественном русском языке. Мощнейшая лингвистика позволяет учесть практически все возможные оттенки употребления ключевых слов и составить поисковое предписание в высшей степени широко, охватив все возможные сочетания терминов. В процессе обработки запроса поисковый механизм самостоятельно производит расширения, исключает стоп-слова, анализирует расстояние терминов друг от друга и пр.Типичный запрос в этом случае задается путем ввода отдельных терминов или целой фразы в поисковую строку.

Для формирования более точного запроса целесообразно обратиться к "Расширенному поиску" (пункт в нижней части титульной страницы). С помощью структурированного меню можно легко задать ограничения по различным сочетаниям ключевых слов, местоположению термина в документе, времени и языку публикации, месте на сайте.

Безусловным достоинством Яндекс является модуль ранжирования результатов поиска. В его основе лежит алгоритм анализа местоположения и повторяемости термина в документе и анализ внешних ссылок на страницу. Система производит группировку найденных страниц по сайтам на этапе формирования списка результатов и выдает по одному документу с сервера, который, по ее мнению, наиболее соответствует запросу. При этом в ссылке указывается общее число документов с данного сервера, также содержащих искомый термин. Яндекс показывает найденные термины в окружающем словарном контексте, что позволяет сразу же установить степень соответствия найденного документа информационной потребности пользователя.

Rambler (http://www.rambler.ru)

Запущен в октябре 1996 года и изначально предназначался для выявления материалов на серверах в пределах бывшего СССР. К началу нового тысячелетия Rambler на время утратил лидирующие позиции, устарев практически по всем показателям. Однако проведенная в декабре 2002 коренная модернизации всей программно-аппаратной части позволила поисковой системе вновь обрести былой авторитет. По результатам тестов, Rambler занимает второе место после Яндекса по величине базы данных.

Система обладает обычной и расширенной ("Расширенный поиск") формами ввода запроса. При серьезных разысканиях лучше обратиться к последней, которая предоставляет дополнительные возможности в ограничении запроса различными параметрами, задании критерия сортировки результатов и степени развернутости выводимых результатов. По умолчанию результаты поиска группируются по сайтам, что весьма логично, поскольку на одном сайте термин используется, как правило, в едином контексте. Всегда четко указывается дата создания документа и дата его последнего индексирования поисковым роботом.

Апорт (http://www.aport.ru)

Поисковая система, запущенная в феврале 1996 года, ныне прекратила своё существование является каталогом товаров и услуг. Хотя в своё время он был снабжен массой различных возможностей, заставляющих отнести его к числу самых удобных для пользователя. Именно в нем одним из первых в российской практике был применен сложный язык запросов (http://aport.ru/help.htm), позволяющий максимально детализировать поисковое предписание и избавить пользователя от информационного шума, возникающего при случайном сочетании ключевых слов. Апорт на достаточно высоком уровне осуществлял поиск MP3-файлов.

Список результатов содержал сведения об адресе, дате опубликования и последней проверке документа. Документы с одного сайта сгруппированы вместе. Помимо поисковой системы, Апорт имел одноименный справочник ресурсов, являвшийся наиболее объемным каталогом в России.

 

Бинг является русскоязычным вариантом текстовой версии поисковика, запущенного корпорацией Майкрософт в 2009 году. Он в настоящий момент не опережает Гугл. Однако объем индексного файла сопоставим с аналогами в Гугл, но по всем остальным параметрам, по определению релевантности поисковых запросов, Бинг пока ещё уступает своему сильному конкуренту. Система обладает стандартными возможностями поисковика, возможность поиска по картинкам и видеозаписям.

GoGo.ru — является российским поисковиком, разработкой компании Mail.Ru, запущенный в июне 2007 года. Компания приобрела домен gogo.ru ещё в 2000 году. Спустя 6 лет началась разработка, которую возглавил Михаил Костин, создатель поисковика Апорт. Сумма инвестиций составила 700 тысяч долларов.

Результаты выдачи отличаются от встроенной системы на основе поисковика Яндекс. По данным специализированных статистических компаний, качество её поисковой выдачи находится на хорошем уровне.

Отличительными особенностями являются поиск на русском языке по видеозаписям, а также на основе данных проекта ответы. Мэйл.ру. разработчиками предусмотрена возможность фильтрации результатов поиска по теме. Есть возможность ограничить выдачу по коммерческим, информационным, а также пользовательским источникам.

В 1996 году в калифорнийском городе под названием Беркли была разработана новая поисковая система — поисковик Ask.com.

Одна из особенностей поисковика Ask.com. состоит в том, что она вопросно-ответная. В ее основе лежит обычный разговорный язык, использующийся каждым из нас в повседневной жизни. Почему разработчики отдали предпочтение такому специфическому подходу. Прежде всего, потому, что количество пользователей глобальной паутины ежедневно возрастет. К тому же, многие новички не обладают нужными навыками использования глобальной паутины, а также временем, необходимым для изучения всех тонкостей составления верных поисковых запросов.

Благодаря, как уже было отмечено выше, «вопросно-ответной» концепции, пользователи этой поисковой системы избавлены от необходимости составлять запросы с нужными ключевыми словами. Кроме того, им не требуется использовать и логические операторы поиска и множество прочих поисковых функций, требующих специальных умений и знаний.

В поисковик Ask.com входят следующие возможности — AskCity (результаты поиска для выбранного города, региона и т.д.), функция перевода страниц на английский язык, автоподбор синонимов ключевых слов, получение информации о времени размещения веб-сайта. Последняя функция позволяет узнать пользователям время появления выбранного портала в глобальной паутине. Благодаря всему этому данная ПС получила своих приверженцев во всемирной паутине.




Поделиться с друзьями:


Дата добавления: 2015-05-26; Просмотров: 1171; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.024 сек.