КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Синтаксис языка запросов
Естественно-языковый поиск. Знаки «+» (плюс) и «-» (минус). Если пользователю нужно, чтобы некоторые слова из запроса обязательно были найдены, он должен поставить перед каждым из них «+». Если пользователю нужно исключить какие-либо слова из результата поиска, то он должен поставить перед каждым из них «-». Например, запрос «частные объявления продажа велосипедов», выдаст много ссылок на сайты с разнообраз-ными частными объявлениями. Запрос с «+» «частные объявления продажа +велосипедов» покажет объявления о продаже именно велосипедов. Если пользователю нужно описание Парижа, а не предложения многочисленных турагентств, то имеет смысл задать такой запрос «путеводитель по Парижу -агентство -тур».
Основные операторы. Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа. Тот же эффект произведет употребление символа «&». Например, при запросе «лечебная физкультура» или «лечебная & физкультура» результатом поиска будет список документов, в которых в одном предложении содержатся и слово «лечебная», и слово «физкультура» (эквивалентно запросу «+лечебная +физкультура»). Между словами можно поставить знак «|», чтобы найти документы, содержащие любое из этих слов (удобно при поиске синонимов). Запрос вида «фото | фотография | фотоснимок снимок | фотоизображение» задает поиск документов, содержащих хотя бы одно из перечисленных слов. Еще один знак - тильда «~» - позволит найти документы с предложением, содержащим первое слово, но не содержащим второе. По запросу «банки ~ закон» будут найдены все документы, содержащие слово «банки», рядом с которым (в пределах предложения) нет слова «закон». Чтобы подняться на ступеньку выше — от уровня предложения до уровня документа, просто повторите соответствующий знак. Одинарный оператор «&» или «~» ищет в пределах предложения; двойной «&&» или «~~» - в пределах документа. Например, по запросу «рецепты &&(плавленый сыр)» будут найдены документы, в которых есть и слово «рецепты», и словосочетание «плавленый сыр» («плавленый сыр» будет в одном предложении). Запрос «руководство Visual С ~~ цена» выдаст все документы со словами «руководство Visual С», но без слова «цена». Поиск с расстоянием. Часто в запросах ищут устойчивые словосочетания. Если поставить их в кавычки, то будут найдены те документы, в которых эти слова идут строго подряд. Например, по запросу «"красная шапочка"» будут найдены документы с это фразой. При этом фразы типа «а шапочка у нее была красная» найдены не будут.
Как «Яndex» адресует слова? Если все слова в тексте перенумеровать по порядку следования, то расстояние между словами a и b - это разница между номерами слов а и b. Таким образом, расстояние между соседними словами равно 1 (а не 0), а расстояние между соседними словами, стоящими «не в том порядке», равно -1. То же самое относится и к предложениям. Если между двумя словами поставлен знак «/», за которым сразу напечатано число, значит, требуется, чтобы расстояние между ними не превышало этого числа слов. Например, задав запрос «поставщики /2 кофе», вы требуете найти документы, в которых сосодержится и слово «поставщики», и слово «кофе», причем расстояние между ними должно быть не более двух слов, и они должны находиться в одном предложении. (Найдутся «поставщики колумбийского кофе», «поставщики кофе из Колумбии» и т.д.). Если порядок слов и расстояние точно известны, то можно воспользоваться синтаксисом «/+n». Так, например, задается поиск слов, стоящих подряд. Запрос «синяя /+1 борода» означает, что слово «борода» должно следовать непосредственно за словом «синяя». (К тому же результату приведет запрос «"синяя борода"»). В общем виде ограничение по расстоянию задается при помощи синтаксиса вида «/(n m)», где «n» - минимальное, а «m» - максимально допустимое расстояние. Отсюда следует, что запись «/n» эквивалентна «/(-n +n)», а запись «/+n» эквивалентна «/(+n +n)». Запрос «музыкальное /(-2 4) образование» означает, что слово «музыкальное» должно находиться от «образование» в интервале расстояний от 2 слов слева до 4 слов справа. Практически все знаки можно комбинировать с ограничением расстояния. Например, результатом поиска по запросу «вакансии ~/+1 студентов» будут документы, содержащие слово «вакансии», причем в этих документах слово «студентов» не следует непосредственно за словом «вакансии». Когда знаки ограничения по расстоянию стоят после двойных операторов, употребленные там числа - это расстояние не в словах, а в предложениях. Расстояние в абзацах определяется аналогично расстоянию в словах. Запрос «банк &&/1 налоги» означает, что слово «налоги» должно находиться в том, либо в соседнем со словом «банк» предложении.
Скобки. Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки. Например, запрос «(история, технология, изготовление) /+1 (сыра, творога)» задает поиск документов, которые содержат любую из фраз: «история сыра», «технология творога», «изготовление сыра», «история творога». Поиск в зонах. Можно искать информацию в «зонах» - заголовках (имя «зоны»: Title), ссылках (имя «зоны»: Аnchor) и адресе (имя «зоны»: Аddress). Синтаксис: $имя_зоны (поисковое выражение). Запрос «$title CompTek» ищет в заголовках документов слово «СompТеk». Запрос «$anchor (CompTek | Dialogic) находит документы, в ссылках внутри которых есть одно из слов - «СоmрТеk> или «Dialogic». Поиск в определенных элементах. Можно ограничить поиск информации списком серверов или, наоборот, исключить серверы из поиска (URL). Можно также искать документы, содержащие ссылки на определенные URL (link) и файлы картинок (image). Если нужно работать не с конкретным URL (image), а со всеми, начинающимися с данной последовательности символов, то используйте «*». Синтаксис: #имя_элемента= "имя_файла (URL)". По запросу «СоmрТеk ~~ #url=www.comptek.ru*» будут найдены упоминания компании «СоmрТеk» везде, кроме ее собственного сервера (www.comptek.ru). А запрос //#link=www.comptek.ru*» покажет все документы, в которых есть ссылки на сервер компании. Запрос «#image="tort*"» даст ссылки на документы с изображениями тортов (хотя, возможно, найдется и портрет черепахи Тортиллы). Можно также искать по ключевым словам (keywords), аннотациям (аbstract) и подписям под изображениями (hint). Синтаксис: #имя_элемента=(поисковое выражение). По запросу «#kеуwords=(поисковая система) | #abstract=(поисковая система)» будут найдены все страницы, на которых есть эти слова. По запросу «#hint=(кино)» будут найдены документы, содержащие изображение с такой подписью. Ранжирование результата поиска. При поиске для каждого найденного документа «Яндекс» вычисляет величину релевантности (соответствия) его содержания поисковому запросу. Список найденных документов перед выдачей пользователю сортируется по этой величине в порядке убывания. Релевантность документа зависит от ряда факторов, в том числе от частотных характеристик искомых слов, веса (значимости) слова или выражения, близости искомых слов в тексте документа друг другу и т.д.
Пользователь может влиять на порядок сортировки, используя операторы веса и уточнения запроса. Задание веса слова или выражения применяется для того, чтобы увеличить релевантность документов, содержащих «взвешенное» выражение. Синтаксис: слово:число или (поисковое_выражение):число. По запросу «поисковые механизмы:5» будут найдены те же документы, что и по запросу «поисковые механизмы». Разница состоит в том, что наверху найденного списка окажутся документы, в которых чаще встречается именно слово «механизмы». Запрос «поисковые (механизмы | машины | аппараты):5» равнозначен запросу «поисковые (механизмы:5 машины:5 | аппараты:5)». Задание уточняющего слова или выражения применяется для того, чтобы увеличить релевантность документов, содержащих уточняющее выражение. Синтаксис: <- слово или <- (уточняющее_выражение). По запросу «компьютер <- телефон» будут найдены все документы, содержащие слово «компьютер». При этом первыми будут выданы документы, содержащие слово «телефон». Если ни в одном документе со словом «компьютер» нет слова «телефон» то результат запроса будет эквивалентен запросу «компьютер». Летом 2002 г. компания «Яндекс» объявила о запуске новой поисковой службы изображений «Яндекс.Картинки» (www.yandex.ru/images.html). Служба автоматически собирает картинки, находящиеся в Рунете, в стандартных графических форматах (jpeg, gif и png). Как результат поиска приводятся не только ссылки на изображения, но и уменьшенные копии оригиналов. На момент запуска в базе «Яндекс.Картинки» содержалось около 12 млн. изображений. Большое внимание уделено ранжированию результатов поиска - учитывается не только мера совпадения текста подписей и ссылок, но и размер картинок и их «авторитетность», для расчета которой используется взвешенный индекс цитирования страниц, содержащих картинку или ссылающихся на нее. Уже два раза в Рунете компания «Яндекс» провела Кубок России по поиску в Интернет. В этих увлекательных соревнованиях участвовало более тысячи человек, а следили за их ходом десятки тысяч. Поиск в Интернет - это новый вид интеллектуальной деятельности. Как известно, правильная постановка задачи - уже половина решения, и этот принцип особенно важен в отношении поиска в сети Интернет. В ходе поиска вырабатываются навыки анализа и переформулировки задачи, разложения ее на элементарные составляющие. Кроме того, поиск обеспечивает приток новых знаний и одновременно приучает их критически оценивать, ведь Интернет часто предоставляет противоречивую информацию по одному и тому же вопросу. Контрольные вопросы:
5.1. Перечислите поисковые машины Интернета. 5.2. Чем осложняется поиск информации в Рунете? 5.3. Перечислите факторы, от которых зависит релевантность документа. 5.4. Что означает оператор «пробел или &» в поисковом выражении «Яндекса»? 5.5. Что означает оператор «&&» в поисковом выражении «Яндекса»? 5.6. Что означает оператор «+» в поисковом выражении «Яндекса»? 5.7. Что означает оператор «|» в поисковом выражения «Яндекса»? 5.8. Что означает оператор «" "» в поисковом выражении «Яндекса»?; 5.9. Что означает оператор «/(n m)» в поисковом выражении * «Яндекса»? 5.10. Что означает оператор «()» в поисковом выражении «Яндекса»? 5.11. Что означает оператор «~» в поисковом выражении «Яндекса»? 5.12. Что означает оператор «~~» в поисковом выражении Яндекса? 5.13. Что означает оператор «&&/(n m)» в поисковом выражении «Яндекса»? 5.14. Возможен ли в «Яндексе» поиск изображений? 5.15. Какой список документов найдет «Яндекс» по запросу «коммерческая & тайна»? 5.16. Какой список документов найдет «Яндекс» по запросу «+пластиковые карты -микропроцессор»?
Дата добавления: 2014-01-20; Просмотров: 3879; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |