Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Поиск в Рунете

 

Поиск в русскоязычной части Интернета (в Рунете) ослож­няется наличием нескольких кодировок букв кириллицы (Win 1251, КОI-8R и др.). Загрузив какую-нибудь страницу из Рунета, иногда можно увидеть вместо русского текста «тарабарщину» из различных букв и значков. Чтобы избавиться от нее и прочитать страницу, можно вручную сменить кодировку букв.

Когда пользователь задает поисковую фразу или слово ин­дексной системе, последняя должна определить кодировку, пре­образовать ее к той, в которой составлен индекс, и приступить к поиску. Результат поиска должен быть выдан пользователю в ко­дировке его браузера. Наличие различных кодировок русских букв сильно затрудняет работу поисковых машин. Вот почему универсальные поисковые системы (например, «Аltavista») не очень хороши для поиска в русскоязычных документах.

Наряду с индексом «Апорт», в Рунете широко используется индекс «Яндекс» (httpр://www.yandex.ru, Яndex - Я зыковый i ndex). «Яндекс» - набор средств полнотекстовой индексации и поиска в текстовых документах с учетом морфологии русского языка.

Робот «Уаndex.Ru» автоматически считает серверы в доме­нах su, ru, am, az, by, gе, kg, kz, md, ua, uz относящимися к Рунету. Остальные сайты вносятся в базу, если на них найден текст на Русском языке или если владельцы ресурсов убедят администра­цию поисковой машины в том, что их сервер интересен пользова­телям русскоязычного Интернета.

В Интернете часто одни и те же документы лежат на разных серверах, или на одном сервере, но в разных кодировках. «Уаndex.Ru» умеет определять совпадения документов и индексирует только один документ (URL) из группы одинаковых. Уникальные серверы (хосты) - это серверы, на которых проиндексирован хотя бы один документ.

Если поиск «Яндекса» не позволил найти ни одного документа, то пользователь, возможно, допустил орфографическую ошибку в написании слова. Нужно проверить правильность написания. Если пользователь использовал при поиске несколько слов, то нужно посмотреть на количество повторений каждого слов в найденных документах (перед их списком после фраз «Результат поиска»). Возможно, какое-то слово ни разу не встречается. Скорее всего, его пользователь и написал неверно.

Если список найденных страниц слишком мал или не содержит полезных страниц, нужно попробовать изменить слово. На­пример, вместо «рефераты» возможно больше подойдут «курсо­вые работы» или «сочинения». Можно задать для поиска три-четыре слова-синонима сразу. Для этого нужно перечислить их через вертикальную черту (|) - логическое ИЛИ. Тогда будут найдены страницы, где встречается хотя бы одно из них. Напри­мер, вместо «фотографии» можно задать «фотографии | фото | фотоснимки».

Слово «психология» или «продукты» дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. На­пример, «психология Юнга» или «продажа и покупка продо­вольствия». Пользователю нужно также сужать область вопро­са. Если он интересуется автомобилями «ГАЗ», то запросы «автомобиль Волга» или «автомобиль ГАЗ» выдадут более подходящие документы, чем «легковые автомобили».

Начиная слово с большой буквы, пользователь не найдет слов, написанных с маленькой буквы, если это слово не первое в предложении. Поэтому не нужно набирать обычные слова с большой буквы, даже если с них пользователь начинает вопрос «Яндексу». Заглавные буквы в запросе рекомендуется использо­вать только в именах собственных, например: «группа Черный кофе», «телепередача Здоровье».

Если один из найденных документов ближе к искомой теме, чем остальные, то можно нажать на ссылку «найти похожие документы». Ссылка расположена под краткими описаниями найденных докумен­тов. «Яndex» проанализирует страницу и найдет документы, похожие на тот, что указал пользователь. Но если эта страница была стерта с сервера, а «Яндекс» еще не успел удалить ее из базы, то пользователь получит сообщение «Запрошенный документ не найден».

Распространено мнение, что шаблон «*», означающий лю­бой набор символов, достаточен для поиска в текстах. Но это не так. Вот случаи, когда шаблон не спасает:

слова, у которых в разных формах меняется основа (суппле­тивные формы) - идти-шел, плохо-хуже, я-меня, человек-люди, ребенок-дети и т.д.;

слова с большим количеством словоформ;

слова с беглыми гласными и чередованиями - искать-ищу, окно-окон, расти-рос и т.д.;

короткие (три-четыре буквы) слова - дом, хор и т.д.

Рассмотрим язык строгого поиска информации в Яндексе. Синтаксис языка запросов представлен в табл. 1.

Трактовка слов. Независимо от того, в какой форме пользова­тель употребляет слово в запросе, поиск учитывает все его формы согласно правилам русского языка. Например, если задан запрос «идти», то в результате поиска будут найдены ссылки на докумен­ты, содержащие слова «идти», «идет», «шел», «шла» и т.д. На за­прос «окно» будет выдана информация, содержащая и слово «окон», а на запрос «отзывали» - документы, содержащие слово «отозвали».

По умолчанию поиск учитывает все формы заданного слова согласно правилам русского языка. Однако существует возмож­ность поиска по точной словоформе. Для этого перед словофор­мой надо поставить восклицательный знак «!». Так, по запросу "!Лужкову" будут найдены все документы, содержащие слово­форму «Лужкову», а по запросу «Лужков ~~!Лужкову» - документы, в которых упоминается Лужков, кроме тех, которые были найдены по первому запросу.

Таблица 1 запросов

<== предыдущая лекция | следующая лекция ==>
Обзор поисковых систем Интернета | Синтаксис языка запросов
Поделиться с друзьями:


Дата добавления: 2014-01-20; Просмотров: 332; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.