Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Возможности представления знаний на базе языка HTML




 

Выше были рассмотрены основные конструкции HTML. Теперь обсудим, каким образом они могут быть использованы для семантической разметки Интернет-документов и насколько это вообще возможно и эффективно.

Для этого выделим те конструкции языка, которые могут быть полезными для решения данной задачи.

Очевидно, что к их числу, прежде всего, относятся теги типа <TITLE>, <META... > и <А... >.

Первый важен для фиксации семантики всего HTML-документа, так как текст, заключенный между тегами <TITLE> и </TITLE>, чаще всего отражает его назначе­ние и/или содержание.

Теги типа <МЕТА... >, по существу, вводят имена атрибутов и их значения с помо­щью параметров name=«...» и content=«...», а ссылки и якоря фиксируют отноше­ния между частями одного документа и/или отдельными документами.

Но если теги типа <МЕТА... > явно вводят семантику значений атрибутов, одина­ково интерпретируемых броузерами за счет ключевых слов (например, keywords, author и др.), которые могут быть значениями параметра name, то теги типа <А... > лишь фиксируют факт наличия отношения между ссылкой и ее якорем. В некото­рых случаях этому отношению можно «приписать» имя See Also, в других - Isa, Consist Of, Part Of или иное подходящее имя, но в целом семантика данной конст­рукции имплицитна, а встроенная интерпретация ее связана лишь с переходом по ссылке и визуализацией начала соответствующего фрагмента документа или за­грузкой нового документа для просмотра.

Из других конструкций HTML полезными для последующей обработки на пред­мет эксплицитного представления семантики соответствующих частей докумен­та могут быть заголовки разделов и подразделов (тексты между тегами <Hi> и </Hi>), списки, таблицы и другие элементы языка.

Но в целом можно отметить, что выделение значимых для семантической интер­претации конструкций является экспертной задачей, решаемой каждый раз авто­ром соответствующей Интернет-публикации по-своему. Правда, уже существуют определенные стереотипы, особенно заметные на коммерческих сайтах. Так, на­пример, при анализе сайтов Интернет-магазинов, проведенном Н. В Майкевич, было зафиксировано, что каталоги товаров в настоящее время в большинстве слу­чаев представляются таблицами и/или списками либо «зашиты» в чувствитель­ные для щелчка мышью графические образы Аналогичная ситуация характерна и для индексов на сайтах машин поиска.

Для примера на рис. 8.2 приведена экранная форма известного электронного ма­газина, функционирующего в сети по адресу http://amazon. com/.

 

Рис. 8.2. Экранная форма секции «Электроника» магазина Amazon.com

 

Фрагмент соответствующего HTML-текста представлен ниже:

 

<html>

<head>

<title>

Amazon.com: Electronics/Software/Operating Systems

</title>

</head>

….

<body... >

<table.. >

<tr>

<td colspan=2 bgcolor = #EEEECC>

<font... >Browse <B>Operating Systems</B></font>

</td>

</tr>

<tr>

<td bgcolor ="FFFFFF" valign = "top" width=50%>

<ul>

<li><a href = /exec/obidos/tg/electronics/...> DOS</a>

<li><a href=/exec/obidos/tg/electronics/...> Linux & Unix</a>

<li><a href=/exec/obidos/tg/electronics/...> Macintosh</a>

</ul>

</td>

<td valign="top" width=50%>

<ul>

<li><a href=/exec/obidos/tg/electronics...> Microsoft Windows</a>

 

<li><a href=/exec/obidos/tg/electronics/...> 0S2</a>

</ul>

</td>

</tr>

</ table>

…………………………………………………………………………….........

 

Как следует из сравнения экранной формы (см. рис. 8.2) и приведенного HTML-текста, каталог товаров организован в виде таблицы (тег <table>), в ячейках ко­торой (тег <td>) с помощью конструкции списка (тег <li>) перечислены продук­ты (в данном случае это операционные системы DOS, Linux & Unix, Macintosh, Microsoft Windows и OS2). Собственно описания этих продуктов и их характе­ристики заданы в виде ссылок на отдельные документы (теги <а href=/exec/obidos/tg/electronics...>). При этом из анализа HTML-текста следует, что его се­мантически значимые характеристики могут быть «закопаны» достаточно глу­боко. И более того, разбросаны по разным частям одного документа и даже раз­ным документам. Все вышесказанное существенно затрудняет семантический анализ Интернет-документов, независимо от того, выполняется ли он людьми-экспертами или специальными программами.

Решение проблемы семантического анализа Интернет-документов в настоящее время связывается с использованием двух подходов. В рамках первого из них предполагается, что семантическая разметка HTML-текста выполняется вруч­ную (или полуавтоматически, с применением соответствующих инструменталь­ных средств) его автором на основе специальных метатегов. По существу, ре­зультатом такой разметки является семантическая сеть, отражающая знания, представленные в документе. Второй подход связан с автоматическим и/или по­луавтоматическим преобразованием исходного текста в специальное семанти­ческое представление, как правило, в онтологию или ее фрагмент. Подробнее эти подходы обсуждаются ниже. Но и в том и в другом случае для выполнения указанных преобразований целесообразно конвертирование HTML-текстов в более удобное для дальнейшей обработки представление. Для иллюст­рации возможностей применения к решению этой задачи средств представления знаний, описанных в предыдущих главах, рассмотрим интеллектуальный HTML-конвертор [Maikevich et al., 1998].

Для сокращения объема материала обсудим подмножество языка HTML, которое может быть задано следующими BNF-определениями:

 

HTML-текст::= <HTML> HEAD BODY </HTML>

HEAD::= TITLE { HEAD } |...

TITLE::= <TITLE> строка </TITLE>

BODY::= <B0DY> HTML-BODY </B0DY>

HTML-BODY::= PARAGRAPH { HTML-BODY } |

HEADER { HTML-BODY } | LIST { HTML-BODY } |...

HEADER::= <H1> TEXT </H1> | <H2> TEXT </H2> |...

PARAGRAPH::= <P> TEXT </P> I

LIST::= <UL> LIST-ATOM { LIST-ATOM } </UL> |

<0L> LIST-ATOM { LIST-ATOM } </0L> |

<MENU> LIST-ATOM { LIST-ATOM } </MENU> |...

………………………………………………………………………………

ANCHOR::= <A HREF= LINK > TEXT </A> |

<A NAME= метка > TEXT </A>

TEXT::=...

LIST-ATOM::=...

LINK::=...

……………………………………………………………………..

 

Некоторые из синтаксических диаграмм, соответствующих приведенным выше правилам, представлены на рис. 8.3 и 8.4.

Как следует из приведенных правил и диаграмм, с теоретической точки зрения HTML - это простой язык программирования с контекстно-свободной грамма­тикой. Нетрудно показать, что для анализа HTML-текстов можно использо­вать, например, нисходящие распознаватели, реализуемые на базе метода рекурсивного спуска. При этом возможны разные подходы. Ниже для этого использу­ется продукционно-фреймовый формализм представления знаний и показыва­ется, как на этой основе может быть разработан интеллектуальный HTML-кон­вертор.


 

Рис. 8.3. Синтаксическая диаграмма понятия HTML

 

 

Рис. 8.4. Синтаксическая диаграмма понятия LINK

 

Прежде всего, зададим регулярное отображение каждого правила спецификации HTML-конструкций в соответствующий объект базы знаний на уровне фрейма-прототипа. Система таких прототипов даст нам описание языка, а множество фреймов-экземпляров - спецификацию конкретных и синтаксически правиль­ных HTML-текстов. Основные правила такого отображения следующие:

• каждому концепту из левой части BNF-определения поставим в соответствие имя фрейма-прототипа;

• альтернативам из правой части BNF-определения при этом должны соответ­ствовать имена слотов этого фрейма;

• для концептов-нетерминалов соответствующий слот должен иметь тип frame;

• для концептов-терминалов соответствующие слоты будут, как правило, иметь типы numb или string,

• рекурсия в BNF-определениях заменяется итерацией, а соответствующие сло­ты становятся множественными.

Применение сформулированных выше правил к BNF-определениям языка HTML приводит нас к следующему множеству фреймов-прототипов:

 

[htmlis_aprototype, if_added HTML ();

HEAD frame, restr_by head;

BODY frame, restr_by body ];

[headis_aprototype, if_added HEAD ();

BODY{frame}, restr_by one_of {title,..,} ];

[title is_aprototype, if_added TITLE ();

BODYstring ];

…………………………

[bodyis_aprototype, if_added BODY ();

SENT {frame}, restr_by one_of {header, paragraph, list,...} ];

[header is_aprototype;

BODY frame, restr_by text ];

[hi is_aheader,if_added H1()];...[h6 is_aheader, if_added H6()];

[paragraph is_aprototype, if_added PARAGRAPH ();

BODY frame, restr_by text ];

[listis_aprototype;

ATOM{frame}, if_added LI () ];

………………………………………………………………………….

[textis_aprototype;

ATOM {frame}, rest r_by one_of {br, hr, image, anchor,..., line} ];

[br is_aprototype; if_added BR () ];

[hr is_aprototype; if_added HR () ];

[image is_aprototype; if_added IMG ();

SRC frame, restr_by link ];

[anchor is_aprototype;

BODY frame, restr_by text ];

…………………………………………………………………………..

[linkis_aprototype;

URL frame, restr_by one_of {http, ftp,...} ];

MAIL frame, restr_by mail ];

[url is_alink;

without_slotMAIL];

[httpis_aurl, if_added HTTP ();

SERVER string;

DIR {string};

FILE string ];

[ftp is_aurl, if_added FTP ();

SERVER string;

DIR {string};

FILE string ];

 

Теперь, в соответствии с приведенными фреймами-прототипами и синтаксичес­кими диаграммами, можно специфицировать процедурную часть конвертора как систему демонов, присоединенных к фреймам и/или их слотам. Для примера ниже приводится спецификация одного из таких демонов на языке Java [Нортон и др., 1998]:

 

public class HTML extends Frame Prototype {

HEAD head = null;

BODY body = null;

………………..

String keyword;

 

public void HTML (String name) {

super (name);

keyword = get Token ();

if (keyword.compareTo ("<HTML>") = = 0) {

head = new HEAD (getNewName ());

body = new BODY (getNewName ());

};

keyword = get Token ();

if (keyword.compareTo ("</HTML>") = = 0) return;

}

………………….

}

 

По существу, такой демон не что иное, как конструктор класса HTML, а запуск конвертора осуществляется с помощью оператора создания нового объекта этого класса:

 

HTML currPage = new HTML (get_new_name ());

 

При этом будут рекурсивно вызываться конструкторы других классов (на верх­нем уровне это HEAD и BODY), что, в конечном счете, приведет к построению множества фреймов-экземпляров, представляющих анализируемую HTML-стра­ницу (currPage).

Понятно, что в общем случае такой подход дает нам средства синтаксически-ори­ентированного конвертирования HTML-текста во фреймовое представление. Но получение полезной для дальнейшей работы базы знаний предполагает его даль­нейшую семантическую интерпретацию и построение, в конечном счете, семанти­ческой сети, отражающей смысл исходного Интернет-документа.

Для примера, фрагменты такой семантической сети для HTML-текста описания секции «Электроника» магазина Amazon.com, обсуждавшегося выше, приведены на рис. 8.5.

 

 

 
 

Рис. 8.5. Фрагмент семантической сети для секции «Электроника» магазина Amazon.com

 

По сути дела, эта семантическая сеть представляет фрагмент онтологии предмет­ной области «Электронная коммерция», которая может быть базисом для ре­шения разнообразных практических задач. Так, например, с ее помощью могут решаться задачи поиска определенных товаров по запросу пользователя, осуще­ствляться маркетинговый анализ запросов и т. п. Во всех этих и многих других случаях онтологии играют ключевую роль как один из перспективных подходов к представлению знаний в среде Интернет.

Вместе с тем, несмотря на важность понятия онтологии для теории и практики современных интеллектуальных систем, общепринятого понимания этого тер­мина нет, хотя различные определения, предложенные разными авторами и на­учными коллективами [Gruber, 1991; Guarino, 1996; Fridman et al., 1997], ра­спространяются и медленно конвертируют. Поэтому в следующем параграфе обсуждается само понятие онтологии и вводится соответствующая система мо­делей [Maikevich et al, 1999], затем приводится классификация онтологии, по­лезная для последующего сравнения известных в этой области проектов. В за­ключительных разделах главы обсуждаются примеры онтологии и специальные системы аннотирования Интернет-ресурсов на основе онтологии.

 




Поделиться с друзьями:


Дата добавления: 2015-07-02; Просмотров: 683; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.048 сек.