Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Проект системы MARRI




 

Система MARRI [Villemin, 1999] разработана для поиска Web-страниц, релевант­ных запросам в определенной предметной области. Для решения поставленных задач система использует знания, представленные в виде онтологии, которая в данном случае понимается как множество концептов и связей между ними. Ба­зисное предположение разработчиков состоит в том, что релевантные тексты со­стоят из значимых для предметной области предложений, содержащих фрагмен­ты, «сопоставимые» с онтологией предметной области. Предполагается, что одни агенты - агенты сети - для предварительного отбора используют стандартные машины поиска, а другие - специализированные агенты - осуществляют поверх­ностный анализ полученных Web-страниц, затем проверяют их на соответствие так называемому онтологическому тесту и возвращают пользователю лишь те страницы, которые успешно прошли данный тест.

Суть онтологического теста состоит в следующем. Сначала осуществляется мор­фологический и синтаксический анализ предложений полученного от агентов сети текста и строится его синтаксическое дерево; затем осуществляется опреде­ление типа предложения (утвердительное, отрицательное и т. п.) и тип речевого акта, который это предложение отражает. Для дальнейшего анализа выбираются только простые утвердительные предложения со структурой NP VP NP, где NP -именная группа, a VP - глагольная группа. При этом неявно предполагается, что структура знаний о предметной области отражена в структуре предложений, описывающих концепты. Поэтому, если анализируемое предложение действи­тельно описывает некоторый концепт, значимые для предметной области слова уже присутствуют в онтологии.

С учетом всего вышесказанного, онтологический тест выполняется следующим образом:

 

• существительные (или, в общем случае, именные группы) отображаются на концепты онтологии, а глаголы (или, в общем случае, глагольные группы) на роли;

• в глагольной группе выделяется для дальнейшей обработки основной глагол (V). Если он отсутствует в онтологии, тест возвращает «неудачу», иначе:

• в левой «верхней» именной группе выделяется базисное существительное (N). Если оно отсутствует в онтологии, тест возвращает «неудачу», иначе:

• проверяется ограничение (семантическое отношение) S между N и V. При этом возможны следующие варианты:

♦ N и V действительно связаны отношением S, которое представлено в онто­логии;

♦ в онтологии отношением S связаны существительное N' и глагол V, причем N' является подклассом N, а V - подклассом V;

♦ если же предыдущие два варианта не имеют места, тест возвращает «неудачу »;

♦ аналогичная процедура выполняется и для правой «верхней» именной группы.

Таким образом, онтологический тест в случае успеха позволяет «наложить» ана­лизируемый текст на онтологию предметной области.

Архитектурно система MARRI (рис. 9.9) является сетью специализированных агентов четырех типов: агент пользователя (User Agent), агент-брокер (Broker Agent), агент сети (Connection Agent) и агент обработки текста (Text Processing Agent). Каждый из агентов обладает следующими свойствами:

 

• это автономная Java-программа с собственным сетевым адресом (URL);

• он взаимодействует с другими агентами с помощью языка ACL (Agent Com­munication Language), функционирующего над HTTP-протоколом;

• агент является потребителем и поставщиком информации, в зависимости от того, с какими агентами системы он общается;

• он может взаимодействовать с автономными программными компонентами такими как, например, Web-броузеры, анализаторы ЕЯ или онтологические БД;

• агент обладает специальными знаниями и возможностями вывода для оп­ределения того, доступна ли нужная Web-страница, содержит ли она тек­стовую информацию и релевантна ли эта информация определенной пред­метной области.

 

 

Рис. 9.9. Архитектура системы MARRI

 

Интерфейсный агент (ИА) поддерживает интеллектуальное взаимодействие с пользователем. Он ассистирует при формулировке запросов и представляет ре­зультаты поиска в виде списка релевантных URL или Web-страниц. Когда поль­зователь выбирает интересующую его предметную область, ИА запрашивает со­ответствующую онтологию из онтологической БД, а также информирует других агентов сети о том, какая онтология будет использоваться.

Задачей агента сети (АС) является подключение к заданной URL Web-странице, ее считывание и анализ. В силу того, что нужная страница может быть недоступна или неинтересна по содержанию, АС должен «уметь» обрабатывать исключи­тельные ситуации, а также анализировать собственно текст, представлен­ный на считанной странице.

В системе MARRI задействованы два типа агентов-брокеров: брокер URL и бро­кер HTML. Первые предназначены для «сопровождения» списков Интернет-ад­ресов, поставляемых броузером, а вторые - для запоминания полученных Web-страниц и распределения их между агентами обработки текста (АОТ) для дальнейшего анализа.

Целью функционирования АОТ является семантический анализ Web-страниц для проверки их релевантности на базе соответствующей онтологии. Предвари­тельно эти же агенты преобразуют HTML-текст к определенному структурному представлению, с которым работают морфологический и синтаксический ана­лизаторы. Результат обработки текста представляется в виде синтаксического дерева, которое должно отождествиться с определенным фрагментом используе­мой онтологии.

С архитектурной точки зрения система MARRI, по сегодняшним меркам, явля­ется почти традиционной. Ее отличительная черта - представление агентов ав­тономными Java-программами с собственными сетевыми адресами, что неявно предполагает их мобильность и/или распределенность по сети. Такое решение было бы весьма интересным, если бы не политика контроля за безопасностью сервера, которая не допускает в настоящее время регистрацию и запуск Java-про­грамм, не сертифицированных на данном сервере.

Прототип системы реализован на языке Java (версия 1.1.3). Для тестирования его разработаны две (очень грубых) онтологии - одна в области электронной коммерции (около 200 элементов), а вторая - в области Интернет-безопасности клиентских приложений (около 450 элементов). Предполагается развитие этих онтологий и интеграция их с соответствующими онтологиями, уже существую­щими на онтологических серверах.

 




Поделиться с друзьями:


Дата добавления: 2015-07-02; Просмотров: 782; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.