Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Правила создания поисковых образов




Мифы по поводу поиска информации в системе Internet.

Параметры поисковых систем, влияющие на эффективность поиска

1. объем базы индексов;

2. способность ранжировать результаты поиска по релевантности;

3. способность выдавать в начале списка ссылки на документы, наиболее релевантные запросу.

4. синтаксис языка запросов (возможность создания поискового образа, близкого к существу искомой информации).

Благодаря способности ранжировать отобранные документы по релевантности, на практике можно считать, что наиболее интересные материалы будут содержаться в первых 20 – 30 документах.

 

Поиск информации в сети – это действия пользователя, начиная от определения предмета поиска и формулировки поискового образа, до получения ответа на запросы с использованием, теоретически, всех поисковых средств, которые предоставляет сегодня Internet.

1. Поисковые роботы ищут информацию во всех ресурсах Internet;

2. Не составляет большой проблемы еще раз найти заинтересовавший Вас материал;

3. Если начальный поиск закончился неудачей, то данной информации в сети нет.

Объем ИР в системе Internet настолько велик, что даже при круглосуточной работе поисковый робот не может обработать все ИР. Практический вывод: если на найдена интересующая информация с помощью одной поисковой системы, необходимо использовать другие поисковые системы.

Т. к. ИР системы Internet постоянно изменяются, то при выдаче поисковой системе даже спустя сутки повторного запроса, содержащего уже задававшийся поисковый образ, в ответном списке ссылок может не содержаться адрес Web – страницы, выданный ранее.

Часто бывает так, что интересные материалы встречаются совершенно случайно, в процессе поиска по другой теме. В такой ситуации необходимо сразу же записать адрес данной Web – страницы.

Если в ответе поисковой системы отсутствуют документы с искомой информацией и / или содержится слишком много документов, это значит, что поисковый образ слабо соответствует тому набору значимых слов, который сформировал поисковый робот при индексации документов.

Естественный язык запросов привлекает своей простотой, однако, как показывает практика, он менее эффективен при серьезном поиске, когда ставится задача найти все или большинство документов на заданную тему.

На основе предварительно полученной информации о предмете поиска необходимо составить максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, названий и фамилий, тесно связанных с проблемой.

1. В конце поискового образа знак препинания «.» не ставится.

2. При формировании поискового образа лучше использовать несколько ключевых слов, чем 1 ключевое слово (отмена крепостного права 1861 Александр II манифест).

3. Как правило, записанные в поисковом образе слова воспринимаются поисковой системой по логике & (И); однако возможно, что поисковая система воспримет их по логике ׀ (ИЛИ); для выяснения логики восприятия необходимо записать поисковый образ дважды и 2 раза выдать запрос: «ароматические растения» и «ароматические&растения».

Иными словами, если Вы вводите запрос к поисковой машине, состоящий из нескольких слов, то в результате получаете список документов, в которых встречается хотя бы одно слово.

4. При необходимости в поисковый образ можно вводить слова, которые не должны встречаться в искомых документах. Обычно для этого перед ключевым словом используется либо знак "-", либо слово NOT: ‘пищевые –лекарственные –ядовитые травы’ или ‘пищевые NOTлекарственные NOT ядовитые травы’.

5. Если слово обязательно должно присутствовать в документе, перед ним необходимо поставить знак «+» (автомобили +ГАЗ).

6. Начинайте имена собственные: названия компаний, городов, фамилии людей, и др. с заглавных букв, а все остальные слова пишите только маленькими буквами.

7. В общем случае регистр написания поисковых слов и операторов значения не имеет, то есть дом и ДОМ, Not и nOt воспринимаются одинаково. И лишь иногда, в целях повышения качества поиска, регистр слов поискового запроса принимается во внимание.

Например, если запрос состоит из двух, трех или четырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному, и автоматически производится изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n - количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного "лишнего" слова или знака препинания, например "Баден-Баден", "А. Пушкин", "Федор Михайлович Достоевский".

8. Необходимо учитывать, что по каждому слову запроса поисковая система проводит поиск с учетом правил словоизменения языка по всем формам слова. Например, при поиске по слову 'человек' будут также найдены документы, содержащие слова 'человеку', 'человеком', 'человека' и даже 'люди'. Чтобы провести поиск только по одной определенной форме слова, нужно взять его в двойные кавычки или воспользоваться поиском точной фразы.

9. Знак «двойные кавычки» можно использовать для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу 'самолет "заправился" посадка' удовлетворяет документ, содержащий текст '... самолет совершил посадку и заправился...', и не удовлетворяет документ, содержащий текст '.. самолет совершил посадку, чтобы заправиться...'.

10. Если вы хотите найти фразу целиком - заключите ее в кавычки («красная шапочка», «Воронежский региональный центр»);

11. Если вы вводите запрос к поисковой машине, состоящий из нескольких слов, то в результате получаете список документов, в которых встречается хотя бы одно слово.

12. Если Вы хотите, чтобы были найдены документы, в которых содержатся все слова запроса, их необходимо объединить оператором AND. Например, по запросу 'собака AND кошка' найдутся только те документы, которые содержат и слово 'собака', и слово 'кошка'. В то же время, по запросу ‘собака кошка’ будут найдены документы, содержащие только слово ‘собака’, только слово ‘кошка’ и оба эти слова.

Оператор AND имеет 2 формы записи: ‘AND’ и ‘&’.

13. Целесообразно длинные слова записывать с использованием подстановочного символа «*»; этот символ заменяет любое количество символов до конца слова.

14. По возможности необходимо избегать употребления в поисковом образе стоп – слов.

15. В сложных поисковых образах целесообразно применить группирование слов: (технология ׀ изготовление) (сыра ׀ творога).

16. Если запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста - положительное число, по умолчанию равное расстоянию в 40 слов. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу 'экологически чистая' будут найдены те документы, в которых слова 'экологически' и 'чистая' хотя бы один раз встретятся менее чем в 40 словах друг от друга. Значение ограничения контекста можно изменять специальной конструкцией.

17. Указывайте расстояние между словами. ‘СЛ5(оптика линза)’. Такая запись означает, что в тексте между указанными словами могут находиться не более 5 слов.

18. Расстояние между словами может указываться другим способом: ‘слово1/ + m слово2’ («экологически/+1 чистая» или «экологически /+5 чистая).

19. Если список найденных Web – страниц мал, целесообразно использовать синонимы.

20. Если количество Web – страниц исчисляется сотнями, то необходимо уточнить поисковый образ, введя дополнительные ключевые слова, или воспользоваться специальными средствами расширенного поиска.

21. Чем больше ключевых слов входит в поисковый образ, тем короче и конкретнее будет список выданных Web – страниц.

22. Используйте комбинированный поиск фраз. Фразы позволяют выполнять поиск слова с учетом контекста. Машина ищет точное совпадение с текстовой строкой, заключенной в кавычки. Скомбинировав несколько фраз искомого документа с помощью оператора языка запроса AND, можно существенно увеличить точность запроса.

23. Применяйте редкие слова. Если вы хотите найти документ по одному или нескольким словам, выберите наиболее необычные. Тем самым вы избежите напрасной траты времени на перебор бесполезных для вас сайтов.

24. Не употребляйте очень распространенных терминов. Слова типа «компьютер», «провайдер», «Web», «Windows» приводят к высокой выборке нерелевантных узлов, то есть к большому количеству шумовой информации. Некоторыми машинами поиска подобные термины (стоп-слова) вообще не учитываются.

25. Избегайте игнорируемых ключевых слов. Игнорируемыми (стоп-словами) называют слова, которые разработчики механизмов поиска автоматически исключают из запроса. Так, если вы попробуете в запросе указать, например, слово «компьютер», то получите ответ «Документы, удовлетворяющие данному запросу, не найдены». Большинство машин поиска игнорируют также одно, двух- и трехбуквенные слова. Иногда не выполняется также поиск слов, начинающихся с цифры.




Поделиться с друзьями:


Дата добавления: 2015-04-29; Просмотров: 857; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.02 сек.