КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Поиск в Рунете
Поиск в русскоязычной части Интернета (в Рунете) осложняется наличием нескольких кодировок букв кириллицы (Win 1251, КОI-8R и др.). Загрузив какую-нибудь страницу из Рунета, иногда можно увидеть вместо русского текста «тарабарщину» из различных букв и значков. Чтобы избавиться от нее и прочитать страницу, можно вручную сменить кодировку букв. Когда пользователь задает поисковую фразу или слово индексной системе, последняя должна определить кодировку, преобразовать ее к той, в которой составлен индекс, и приступить к поиску. Результат поиска должен быть выдан пользователю в кодировке его браузера. Наличие различных кодировок русских букв сильно затрудняет работу поисковых машин. Вот почему универсальные поисковые системы (например, «Аltavista») не очень хороши для поиска в русскоязычных документах. Наряду с индексом «Апорт», в Рунете широко используется индекс «Яндекс» (httpр://www.yandex.ru, Яndex - Я зыковый i ndex). «Яндекс» - набор средств полнотекстовой индексации и поиска в текстовых документах с учетом морфологии русского языка. Робот «Уаndex.Ru» автоматически считает серверы в доменах su, ru, am, az, by, gе, kg, kz, md, ua, uz относящимися к Рунету. Остальные сайты вносятся в базу, если на них найден текст на Русском языке или если владельцы ресурсов убедят администрацию поисковой машины в том, что их сервер интересен пользователям русскоязычного Интернета. В Интернете часто одни и те же документы лежат на разных серверах, или на одном сервере, но в разных кодировках. «Уаndex.Ru» умеет определять совпадения документов и индексирует только один документ (URL) из группы одинаковых. Уникальные серверы (хосты) - это серверы, на которых проиндексирован хотя бы один документ. Если поиск «Яндекса» не позволил найти ни одного документа, то пользователь, возможно, допустил орфографическую ошибку в написании слова. Нужно проверить правильность написания. Если пользователь использовал при поиске несколько слов, то нужно посмотреть на количество повторений каждого слов в найденных документах (перед их списком после фраз «Результат поиска»). Возможно, какое-то слово ни разу не встречается. Скорее всего, его пользователь и написал неверно. Если список найденных страниц слишком мал или не содержит полезных страниц, нужно попробовать изменить слово. Например, вместо «рефераты» возможно больше подойдут «курсовые работы» или «сочинения». Можно задать для поиска три-четыре слова-синонима сразу. Для этого нужно перечислить их через вертикальную черту (|) - логическое ИЛИ. Тогда будут найдены страницы, где встречается хотя бы одно из них. Например, вместо «фотографии» можно задать «фотографии | фото | фотоснимки». Слово «психология» или «продукты» дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. Например, «психология Юнга» или «продажа и покупка продовольствия». Пользователю нужно также сужать область вопроса. Если он интересуется автомобилями «ГАЗ», то запросы «автомобиль Волга» или «автомобиль ГАЗ» выдадут более подходящие документы, чем «легковые автомобили». Начиная слово с большой буквы, пользователь не найдет слов, написанных с маленькой буквы, если это слово не первое в предложении. Поэтому не нужно набирать обычные слова с большой буквы, даже если с них пользователь начинает вопрос «Яндексу». Заглавные буквы в запросе рекомендуется использовать только в именах собственных, например: «группа Черный кофе», «телепередача Здоровье». Если один из найденных документов ближе к искомой теме, чем остальные, то можно нажать на ссылку «найти похожие документы». Ссылка расположена под краткими описаниями найденных документов. «Яndex» проанализирует страницу и найдет документы, похожие на тот, что указал пользователь. Но если эта страница была стерта с сервера, а «Яндекс» еще не успел удалить ее из базы, то пользователь получит сообщение «Запрошенный документ не найден». Распространено мнение, что шаблон «*», означающий любой набор символов, достаточен для поиска в текстах. Но это не так. Вот случаи, когда шаблон не спасает: слова, у которых в разных формах меняется основа (супплетивные формы) - идти-шел, плохо-хуже, я-меня, человек-люди, ребенок-дети и т.д.; слова с большим количеством словоформ; слова с беглыми гласными и чередованиями - искать-ищу, окно-окон, расти-рос и т.д.; короткие (три-четыре буквы) слова - дом, хор и т.д. Рассмотрим язык строгого поиска информации в Яндексе. Синтаксис языка запросов представлен в табл. 1. Трактовка слов. Независимо от того, в какой форме пользователь употребляет слово в запросе, поиск учитывает все его формы согласно правилам русского языка. Например, если задан запрос «идти», то в результате поиска будут найдены ссылки на документы, содержащие слова «идти», «идет», «шел», «шла» и т.д. На запрос «окно» будет выдана информация, содержащая и слово «окон», а на запрос «отзывали» - документы, содержащие слово «отозвали». По умолчанию поиск учитывает все формы заданного слова согласно правилам русского языка. Однако существует возможность поиска по точной словоформе. Для этого перед словоформой надо поставить восклицательный знак «!». Так, по запросу "!Лужкову" будут найдены все документы, содержащие словоформу «Лужкову», а по запросу «Лужков ~~!Лужкову» - документы, в которых упоминается Лужков, кроме тех, которые были найдены по первому запросу. Таблица 1 запросов
Дата добавления: 2014-01-20; Просмотров: 351; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |