КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Организация ИПС
ИПС отличаются друг от друга по логике своей работы и по техническим параметрам. К логике относится выделение единицы хранения, язык запросов, представление исходных и выходных документов, а также - адресная информация. К параметрам - время индексации и поиска, объем индекса, поддержка существующих платформ, совместимость с другими системами. Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка. Основатели и разработчики первых поисковых систем воспользовались методом поиска книг в библиотеках. Они создали тематические каталоги, в категориях которых и располагались нужные сайты. Человек заходил в каталог, выбирал нужную рубрику и получал несколько сайтов по тематике, к ней относящихся. По началу, когда сайтов было не много, все было прекрасно, а потом стало все сложней и сложней отыскать нужный ресурс. Рубрик становилось все больше и больше, вложенность категорий все росла и росла. В конец концов к группе «Scooter» пришлось проделывать путь в 7-8 подкатегорий, а если в какой-то категории «свернуть» не туда, то можно было просто ничего не найти. Потом постепенно все поисковые системы начали переходить на «поисковые указатели». В отличии от каталогов, поисковые указатели формируют связки «Запрос — ответ», и к «ответам» могли приписываться несколько разных ресурсов. Но в последствии выяснилось, что это трудно не только для людей, но и для поисковых машин, потому что на любой распространенный запрос «высыпались» сотни тысяч ответов, в которых просто невозможно было разобраться. И именно поэтому возможность выбора поисковиком из этой «горы» информации полезных двадцати-тридцати ссылок и стала определяющей на поисковом рынке. Большинство поисковых систем перешло на четырехэтапную структуру работы. Первые три этапа почти для всех поисковых систем одинаковы. Принцип работы: сначала поисковая система индексирует (собирает) информацию и заносит их в базу данных, потом, с учетом морфологии, разрезает все слова страниц на составляющие. Если человек обращается к поисковому процессору, то в действие вступает третий и четвертый этапы работы поисковой системы, она выбирает из базы абсолютно все документы, соответствующие данному запросу, а потом уже выводит их в зависимости от того, какая страница имеет больший поисковый вес, точность вхождения поисковой фразы, дату обновления и т.д. Такая выборка, на основе многих параметров, называется ранжированием результатов поиска. Первые механизмы ранжирования документов строились на основе точности вхождения самого текста в поисковый запрос. Но это оказалось неактуальным, потому что степень вхождения поисковой фразы, расположение ее в теле документа или список ключевых слов не давал полного представления о документе. Именно механизмы ранжирования отличают поисковые системы одну от другой. Сейчас каждая поисковая система старается предложить свои механизмы ранжирования документов, чтобы занять лидирующее положение на поисковом рынке. Во многих поисковых системах на результаты поиска влияет около 200-300 факторов, которые тщательно скрываются от конкурентов. Именно они (совместно со скоростью индексации и объемами указателей) и помогли в свое время Гуглу опередить некогда лидирующую АльтаВисту. Простейший способ организации индекса (базы с описанием источников информации, я говорила, что про это будет, но не знаю, насколько оно вам нужно) для ИПС - сделать единицей хранения выделенную по некоторым правилам (пробелы, знаки препинания) последовательность из букв и цифр. Назовем такую последовательность токеном (впервые слышу это слово, но так написано, на всякий случай пропускайте). А в качестве адресной информации можно хранить путь и имя файла, URL Web-страницы или номер записи и поле БД. По такому пути пошли и идут разработчики многих систем. Например, один из самых известных поисковых механизмов в Интернет - AltaVista компании Dec. ИМХО, по личному опыту работы с гуглом: он работает с русским словарём машинных основ и окончаний (пойти и пошёл воспринимает как разные слова, и подтвердить словарь словоформ мне не удалось), так что последующие три абзаца неактуальны. Развитие ИПС (оно же типа принципы интеллектуализации) Дальнейшее содержательное развитие ИПС идет в сторону упрощения работы с ними и их интеллектуализации. Идеальный язык запросов ИПС - естественный. Надо научить систему "понимать", что от нее хотят. Для этого широко используют словари, ряды синонимов, тезаурусы слов. Для расширения области поиска делают переводы (как правило, пословные) запросов на другой язык (например, в Интернете - с русского на английский). Представляется заманчивым научить ИПС выполнять запрос вида: "Найди мне все на данную тему", или, что еще сложнее, "Подбери мне все документы такие, как этот". Для решения этой задачи используют методы теории распознавания образов, нейронные сети, контент-анализ. Существует два противоположных подхода к поисковым механизмам. Первый, "демократический" - поиск должен быть настолько прост, чтобы любой неподготовленный человек мог бы не очень задумываясь спросить, что ему надо, и получить за приемлемое время приемлемый ответ. Второй, "элитарный" - поиск является тонким инструментом, с которым надо разобраться и обращаться квалифицированно. Как обычно, оба подхода справедливы, что находит свое отражение в наличии у всех крупных Интернет-поисков двух поисковых страниц - Simple и Advance (ИМХО, это у гугла «простой и «расширенный», с дополнительными параметрами). При поиске существует проблема глубокой паутины. Глубокая паутина (также известна как невидимая паутина) — множество веб-страниц Всемирной паутины, неиндексируемых поисковыми системами. В глубокой паутине находятся веб-страницы, не связанные с другими гиперссылками — например, страницы, динамически создаваемые по запросам к базам данных. В глубокой паутине также находятся сайты, доступ к которым открыт только для зарегистрированных пользователей. Поисковые системы используют специальные роботы (англ. web crawler), которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются. В то же время, информация из баз данных, доступная пользователям через поисковые веб-формы (но не по гиперссылкам), остается недоступной для робота, неспособного в режиме реального времени правильно заполнить форму значениями (другими словами, сформировать запрос к базе данных). Таким образом, значительная часть Всемирной паутины оказывается скрыта от поисковых роботов. Используя аналогию, информация, будучи недоступной для поисковых систем, находится «на глубине» (от англ. deep). Шаблоны? Частичное решение этой проблемы - шаблоны. Из них самый распространенный - "*" в конце слова. Такой шаблон неплохо работает для английского языка, где большая часть словоизменения сводится к добавлению окончаний "s", "ed" и "ing", хотя и не спасает от мусора в результате поиска. С русским языком уже гораздо сложнее.
Развитие ИПС (оно же типа принципы интеллектуализации) Существует два противоположных подхода к поисковым механизмам. Первый, "демократический" - поиск должен быть настолько прост, чтобы любой неподготовленный человек мог бы не очень задумываясь спросить, что ему надо, и получить за приемлемое время приемлемый ответ. Второй, "элитарный" - поиск является тонким инструментом, с которым надо разобраться и обращаться квалифицированно. Как обычно, оба подхода справедливы, что находит свое отражение в наличии у всех крупных Интернет-поисков двух поисковых страниц - Simple и Advance (ИМХО, это у гугла «простой и «расширенный», с дополнительными параметрами). При поиске существует проблема глубокой паутины. Глубокая паутина (также известна как невидимая паутина) — множество веб-страниц Всемирной паутины, неиндексируемых поисковыми системами. В глубокой паутине находятся веб-страницы, не связанные с другими гиперссылками — например, страницы, динамически создаваемые по запросам к базам данных. В глубокой паутине также находятся сайты, доступ к которым открыт только для зарегистрированных пользователей. Поисковые системы используют специальные роботы (англ. web crawler), которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются. В то же время, информация из баз данных, доступная пользователям через поисковые веб-формы (но не по гиперссылкам), остается недоступной для робота, неспособного в режиме реального времени правильно заполнить форму значениями (другими словами, сформировать запрос к базе данных). Таким образом, значительная часть Всемирной паутины оказывается скрыта от поисковых роботов. Используя аналогию, информация, будучи недоступной для поисковых систем, находится «на глубине» (от англ. deep). Это, однако, полностью не решило имеющейся проблемы. Эксперты поисковых систем по-прежнему пытаются найти технические возможности для индексации содержимого баз данных и доступа к закрытым веб-сайтам. Научить компьютер уточнять вопросы у человека (попытки были у AltaVista, но безуспешно).
Дата добавления: 2015-04-24; Просмотров: 826; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |