Организация ИПС

⇐ Предыдущая 42 43 444546 47 48 49 Следующая ⇒

ИПС отличаются друг от друга по логике своей работы и по техническим параметрам. К логике относится выделение единицы хранения, язык запросов, представление исходных и выходных документов, а также - адресная информация. К параметрам - время индексации и поиска, объем индекса, поддержка существующих платформ, совместимость с другими системами.

Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка.

Основатели и разработчики первых поисковых систем воспользовались методом поиска книг в библиотеках. Они создали тематические каталоги, в категориях которых и располагались нужные сайты. Человек заходил в каталог, выбирал нужную рубрику и получал несколько сайтов по тематике, к ней относящихся. По началу, когда сайтов было не много, все было прекрасно, а потом стало все сложней и сложней отыскать нужный ресурс. Рубрик становилось все больше и больше, вложенность категорий все росла и росла. В конец концов к группе «Scooter» пришлось проделывать путь в 7-8 подкатегорий, а если в какой-то категории «свернуть» не туда, то можно было просто ничего не найти.

Потом постепенно все поисковые системы начали переходить на «поисковые указатели». В отличии от каталогов, поисковые указатели формируют связки «Запрос — ответ», и к «ответам» могли приписываться несколько разных ресурсов. Но в последствии выяснилось, что это трудно не только для людей, но и для поисковых машин, потому что на любой распространенный запрос «высыпались» сотни тысяч ответов, в которых просто невозможно было разобраться. И именно поэтому возможность выбора поисковиком из этой «горы» информации полезных двадцати-тридцати ссылок и стала определяющей на поисковом рынке.

Большинство поисковых систем перешло на четырехэтапную структуру работы. Первые три этапа почти для всех поисковых систем одинаковы. Принцип работы: сначала поисковая система индексирует (собирает) информацию и заносит их в базу данных, потом, с учетом морфологии, разрезает все слова страниц на составляющие. Если человек обращается к поисковому процессору, то в действие вступает третий и четвертый этапы работы поисковой системы, она выбирает из базы абсолютно все документы, соответствующие данному запросу, а потом уже выводит их в зависимости от того, какая страница имеет больший поисковый вес, точность вхождения поисковой фразы, дату обновления и т.д.

Такая выборка, на основе многих параметров, называется ранжированием результатов поиска. Первые механизмы ранжирования документов строились на основе точности вхождения самого текста в поисковый запрос. Но это оказалось неактуальным, потому что степень вхождения поисковой фразы, расположение ее в теле документа или список ключевых слов не давал полного представления о документе.

Именно механизмы ранжирования отличают поисковые системы одну от другой. Сейчас каждая поисковая система старается предложить свои механизмы ранжирования документов, чтобы занять лидирующее положение на поисковом рынке. Во многих поисковых системах на результаты поиска влияет около 200-300 факторов, которые тщательно скрываются от конкурентов. Именно они (совместно со скоростью индексации и объемами указателей) и помогли в свое время Гуглу опередить некогда лидирующую АльтаВисту.

Простейший способ организации индекса (базы с описанием источников информации, я говорила, что про это будет, но не знаю, насколько оно вам нужно) для ИПС - сделать единицей хранения выделенную по некоторым правилам (пробелы, знаки препинания) последовательность из букв и цифр. Назовем такую последовательность токеном (впервые слышу это слово, но так написано, на всякий случай пропускайте). А в качестве адресной информации можно хранить путь и имя файла, URL Web-страницы или номер записи и поле БД. По такому пути пошли и идут разработчики многих систем. Например, один из самых известных поисковых механизмов в Интернет - AltaVista компании Dec.

ИМХО, по личному опыту работы с гуглом: он работает с русским словарём машинных основ и окончаний (пойти и пошёл воспринимает как разные слова, и подтвердить словарь словоформ мне не удалось), так что последующие три абзаца неактуальны.

Развитие ИПС (оно же типа принципы интеллектуализации)

Дальнейшее содержательное развитие ИПС идет в сторону упрощения работы с ними и их интеллектуализации. Идеальный язык запросов ИПС - естественный. Надо научить систему "понимать", что от нее хотят. Для этого широко используют словари, ряды синонимов, тезаурусы слов. Для расширения области поиска делают переводы (как правило, пословные) запросов на другой язык (например, в Интернете - с русского на английский). Представляется заманчивым научить ИПС выполнять запрос вида: "Найди мне все на данную тему", или, что еще сложнее, "Подбери мне все документы такие, как этот". Для решения этой задачи используют методы теории распознавания образов, нейронные сети, контент-анализ.

Существует два противоположных подхода к поисковым механизмам. Первый, "демократический" - поиск должен быть настолько прост, чтобы любой неподготовленный человек мог бы не очень задумываясь спросить, что ему надо, и получить за приемлемое время приемлемый ответ. Второй, "элитарный" - поиск является тонким инструментом, с которым надо разобраться и обращаться квалифицированно. Как обычно, оба подхода справедливы, что находит свое отражение в наличии у всех крупных Интернет-поисков двух поисковых страниц - Simple и Advance (ИМХО, это у гугла «простой и «расширенный», с дополнительными параметрами).

При поиске существует проблема глубокой паутины. Глубокая паутина (также известна как невидимая паутина) — множество веб-страниц Всемирной паутины, неиндексируемых поисковыми системами. В глубокой паутине находятся веб-страницы, не связанные с другими гиперссылками — например, страницы, динамически создаваемые по запросам к базам данных. В глубокой паутине также находятся сайты, доступ к которым открыт только для зарегистрированных пользователей. Поисковые системы используют специальные роботы (англ. web crawler), которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются. В то же время, информация из баз данных, доступная пользователям через поисковые веб-формы (но не по гиперссылкам), остается недоступной для робота, неспособного в режиме реального времени правильно заполнить форму значениями (другими словами, сформировать запрос к базе данных). Таким образом, значительная часть Всемирной паутины оказывается скрыта от поисковых роботов. Используя аналогию, информация, будучи недоступной для поисковых систем, находится «на глубине» (от англ. deep).

Шаблоны?
Выделение токена указанным выше способом имеет очевидные недостатки для всех языков, в которых слова имеют словоформы - то есть изменяются по числам, родам, падежам, временам. При поиске пользователь вынужден либо вспоминать, как точно выглядело искомое слово, либо, почувствовав себя школьником, честно склонять и спрягать, чтобы получить полную парадигму слова.?

Частичное решение этой проблемы - шаблоны. Из них самый распространенный - "*" в конце слова. Такой шаблон неплохо работает для английского языка, где большая часть словоизменения сводится к добавлению окончаний "s", "ed" и "ing", хотя и не спасает от мусора в результате поиска. С русским языком уже гораздо сложнее.

Случаи, когда шаблон не спасает:?
Слова, у которых в разных формах меняется основа (супплетивные формы): идти-шел, плохо-хуже, я-меня, человек-люди, ребенок-дети?
Слова с большим количеством словоформ. Привести список всех словоформ русского глагола (с причастиями и деепричастиями - до 250 различных форм) человеку, не имеющему лингвистического образования, очень трудно. Понять, все ли словоформы из этого списка "накрываются" шаблоном "*" - ещё труднее.?
Слова с беглыми гласными и чередованиями. В словаре на 90000 слов, используемом в нашей системе, примерно четверть слов имеет чередования, которые не позволяют найти слово по шаблонам: (искать-ищу, окно-окон, расти-рос: запрос и* или ок* или р* даст много мусора)?
Короткие (три-четыре буквы) слова: дом, хор,.... Во всех языках, в том числе и в русском, имеется общая закономерность: чем чаще слова используются, тем они короче. Применение шаблона "*" в коротких словах приводит к большому количеству ненужных ссылок в списке найденных документов.?

Развитие ИПС (оно же типа принципы интеллектуализации)
Дальнейшее содержательное развитие ИПС идет в сторону упрощения работы с ними и их интеллектуализации. Идеальный язык запросов ИПС - естественный. Надо научить систему "понимать", что от нее хотят. Для этого широко используют словари, ряды синонимов, тезаурусы слов. Для расширения области поиска делают переводы (как правило, пословные) запросов на другой язык (например, в Интернете - с русского на английский). Представляется заманчивым научить ИПС выполнять запрос вида: "Найди мне все на данную тему", или, что еще сложнее, "Подбери мне все документы такие, как этот". Для решения этой задачи используют методы теории распознавания образов, нейронные сети, контент-анализ.?

При поиске существует проблема глубокой паутины. Глубокая паутина (также известна как невидимая паутина) — множество веб-страниц Всемирной паутины, неиндексируемых поисковыми системами. В глубокой паутине находятся веб-страницы, не связанные с другими гиперссылками — например, страницы, динамически создаваемые по запросам к базам данных. В глубокой паутине также находятся сайты, доступ к которым открыт только для зарегистрированных пользователей. Поисковые системы используют специальные роботы (англ. web crawler), которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются. В то же время, информация из баз данных, доступная пользователям через поисковые веб-формы (но не по гиперссылкам), остается недоступной для робота, неспособного в режиме реального времени правильно заполнить форму значениями (другими словами, сформировать запрос к базе данных). Таким образом, значительная часть Всемирной паутины оказывается скрыта от поисковых роботов. Используя аналогию, информация, будучи недоступной для поисковых систем, находится «на глубине» (от англ. deep).
В 2005 году компания «Yahoo!» сделала серьёзный шаг к решению этой проблемы. Компания выпустила поисковый движок «Yahoo! Subscriptions», который производит поиск по сайтам (пока немногочисленным), доступ к которым открыт только зарегистрированным участникам этих сайтов.

Это, однако, полностью не решило имеющейся проблемы. Эксперты поисковых систем по-прежнему пытаются найти технические возможности для индексации содержимого баз данных и доступа к закрытым веб-сайтам.

Научить компьютер уточнять вопросы у человека (попытки были у AltaVista, но безуспешно).
Создавать словари синонимов.

⇐ Предыдущая 42 43 444546 47 48 49 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2015-04-24; Просмотров: 777; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.021 сек.