Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Поиск информации. Многие поисковые машины, такие как Google и AltaVista, просматривают содержимое каждого Web-сервера




Многие поисковые машины, такие как Google и AltaVista, просматривают содержимое каждого Web-сервера, создавая индексированные базы данных по мере обнаружения документов. Однако при обращении к этим огромным БД пользователи встречаются с хорошо известными проблемами. В том числе они вынуждены тратить много времени на проверку того, содержат ли полученные результаты именно необходимые сведения. Кроме того, они часто получают столь значительное количество информации, охватывающей весьма широкую область, что отказываются от большей ее части и ограничиваются лишь небольшим набором документов.

Недавние исследования поведения Web-пользователей и связанных с ним практических проблем показывают, что для эффективного поиска информации в Сети требуется преодолеть множество препятствий. Как показано на рис. 1, они могут иметь самую разную природу — от недостатка опыта (неумения получать существующие страницы) до проблем дизайна (браузер плохо спроектирован либо его трудно эффективно применять). Значительной части Web-пользователей требуется слишком много времени, чтобы найти конкретный документ или Web-страницу. Другие проблемы связаны с трудностями получения полезной и понятной информации. Анализ этих препятствий позволяет выявить две конкретные проблемы:

  • современные поисковые системы не могут исследовать поведение пользователя, его намерения или профиль, чтобы собрать информацию, которая была бы полезной, например, для автоматизации рутинных задач;

· представление на базе ключевых слов, которое используют поисковые машины и информационно-поисковые системы, накладывает слишком много ограничений.

 
Рис. 1. Препятствия к поиску в Web-пространстве могут иметь самую разную природу — от недостатка опыта до проблем дизайна

Действительно, многие поисковые системы не могут собрать базовые сведения о пользователе — отчасти потому, что для них не характерно получение неявной информации на уровне языкового общения, к которому часто прибегают потребители. Например, если в запросе на естественном языке используются неявные предположения или местоимения («Найти документы, которые содержат...» или «Каковы планы путешествий Ее Величества на следующий год?»), то поисковая машина не найдет нужной информации. Что же касается точности и полноты поиска, система пропустит тысячи относящихся к делу документов, если запросы не содержат достаточного количества ключевых слов, позволяющих судить о подобии. Первая проблема относится к интеллекту поисковой машины и ее способностям адаптации, а вторая связана с представлением запроса, взаимодействием с пользователем и способностью системы воспринимать основообразующую (в том числе неявную) информацию, выраженную на естественном языке.

Чтобы справиться с этими проблемами, исследователи обратились к разработке интеллектуальных поисковых агентов. Такие агенты по-новому применяют традиционную «паучью» технологию поиска и обычно являются «роботами», которых можно обучить поиску в Сети определенных типов информационных ресурсов. Владелец интеллектуального агента способен персонализировать его так, чтобы тот создавал индивидуальные профили или удовлетворял конкретные информационные потребности. Агент может быть автономным, т.е. самостоятельно судить о вероятной уместности материала. И чем чаще он служит инструментом поиска, тем выше становится его «мастерство» — агент учится на прошлом опыте. Потребителю предоставлены возможности пересмотра результатов поиска и отклонения любых информационных источников, не относящихся к делу или бесполезных. Агент хранит эту информацию в пользовательском профиле, чтобы задействовать ее при обучении и поиске.

Но даже современные подходы не позволяют устранить ряд проблем, включая информационную перегрузку, затраты времени на поиск и получение необходимых сведений. Некоторые поисковые системы не могут выполнить углубленный лингвистический анализ запроса и контекста, помогающий качественно осуществить поиск информации, которую пользователь действительно хочет найти. Для того чтобы справиться с этими ограничениями, отдельные системы теперь включают в процесс поиска как статистические переменные, так и лингвистические параметры. Однако данный подход все еще остается на стадии опытных разработок и базируется преимущественно на документах, представленных в рамках парадигмы «мешка слов», которая является базисной для многих информационно-поисковых систем.

В отличие от поиска, фильтрация подразумевает отбор документов на основании их содержимого. В качестве примера можно указать предложенную в когнитивную систему фильтрации сведений со скрытой семантической индексацией для отбора новостных статей. Другой пример — система Infoscope, которая задействует агентов на основе правил, чтобы следить за поведением пользователя и предлагать варианты.

Преодолевая трудности создания подходящих профилей в ходе диалога, некоторые современные системы фильтрации позволяют пользователям выбирать в качестве типовых один или несколько релевантных документов, вместо того чтобы требовать прямого и явного определения области интересов. Другие системы пытаются построить профили по поведению потребителя. Однако этот подход недостаточно практичен, поскольку пользователи не всегда фокусируются на реальных целях и порой путешествуют по Сети без явного направления, что может привести поискового агента к неверным выводам об их предпочтениях.

С точки зрения языка эти проблемы можно в какой-то мере преодолеть, либо извлекая больше знаний из того, что ищут пользователи, либо генерируя в интерактивном режиме более внятные запросы, побуждающие потребителя сосредоточиться на своих интересах. Некоторые исследователи для построения пользовательских профилей применяют технологию обработки естественного языка (natural-language processing, NLP), но лишь в ограниченных областях, в случае привлечения WordNet или более простых ресурсов. Их усилия сосредоточены на проблемах доступа и обобщения концепций, решение которых позволит с упреждением отвечать на нужды пользователей.

К задачам NLG относятся:

  • определение содержания высказывания, влияющее как на макроуровень (определение содержания высказывания или реплики в диалоге), так и на микроуровень (определение содержания соответствующих ссылочных выражений);
  • структурирование текста — идентификация наиболее подходящих структур для использования при конкретных обстоятельствах;
  • внешняя реализация — отображение содержания предложения в морфологически и грамматически правильно построенные слова и предложения.

Конструкция системы NLG предполагает генерацию текста на естественном языке на уровне диалога, причем сложные задачи типа планирования беседы играют ключевую роль в синтезе эффективного текста. Эти усилия позволяют ввести теорию речевых актов в компьютерные системы, планирующие речевые последовательности. Если обработка беседы включает в себя управление диалоговыми взаимодействиями с пользователем, системы NLG могут получать базовые сведения о коммуникативных шагах, чтобы синтезировать ответы в соответствии со знаниями и целями потребителя, реагировать на его ошибки или справляться с его неожиданной реакцией.

 




Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 299; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.