Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Технологии разметки документов

Идея использования стандартных форматов для подготовки структурированных мобильных документов, которые могут быть перенесены с одной компьютерной платформы на другую, зародилась в 60-е годы. Пионерами в этой области были организация Graphic Communications Association (GCA), разработавшая систему GenCode для обмена документами между различными предприятиями, и корпорация IBM, разработавшая язык обобщенной разметки GML для обмена документами внутри корпорации.

В результате совместных усилий создателей GenCode и GML был разработан язык SGML (Structured Generalized Markup Language), принятый в качестве стандарта ISO в 1986 г.

Основная идея языка SGML проста. В соответствии с ней текст документов дополняется информацией (метаданными), задающей макетную и логическую структуры документа. Выделение элементов логической и макетной структур документа осуществляется с использованием меток, часто называемых тэгами, которые отмечают начало и конец выделяемого фрагмента и указывают, каким образом следует интерпретировать данный фрагмент документа (глава, раздел, рисунок и т.д.). Выделение элемента может не сопровождаться указанием способа его форматирования. Такая разметка документа называется описательной, или дескриптивной.

Описательная разметка повышает мобильность документа, так как не содержит требований к представлению его фрагментов. Документ, содержащий описательную разметку, может быть перенесен на другую платформу, в среду другой СПТД, в которой может быть получено надлежащее представление документа.

Развитие идей описательной разметки привело к определению разметки как формального языка описания документов (ЯОД). В результате язык обобщенной разметки SGML обладает такими важными функциями, как:

1) расширяемость. Автор документа может самостоятельно определять имена тэгов и атрибутов, задавая их синтаксис и семантику, путем создания определения типа документа (DTD), включающего совокупность тэгов разметки и правила их интерпретации;

2) структурированность. Документ может служить контейнером для других документов при неограниченной степени вложенности, что позволяет создавать сложные документы из более простых документов;

3) проверка корректности. Формальное описание грамматики языка позволяет автоматизировать проверку корректности SGML-документа в обрабатывающей СПТД.

Язык SGML содержит и позволяет создавать идентификаторы описывающие различные элементы документов и их атрибуты, выполнять обобщенную разметку документов сложной логической и макетной структуры.

Язык SGML обеспечивает следующие основные возможности представления и обработки документов:

§ поддерживает символьные данные, представляющие естественные языки, научную запись или форматированный текст;

§ поддерживает разделение данных на записи;

§ поддерживает двоичные данные, которые могут интерпретироваться как иллюстративный материал, звуковые сигналы или другие множества числовых или логических значений;

§ поддерживает версии документа, тексты которых незначительно отличаются друг от друга, без дублирования текста общих частей;

§ поддерживает объекты, например части документа, содержащиеся в отдельных файлах.

Язык SGML широко распространен на практике, однако основная проблема его применения связана со сложностью этого языка. Так, полная спецификация языка SGML содержит около 500 страниц. По этой причине на основе SGML разработаны специализированные языки разметки документов.

Язык гипертекстовой разметки HTML представляет собой упрощенный вариант языка обобщенной разметки с ограниченными возможностями, созданный на основе языка SGML. В частности, язык HTML имеет строго ограниченный набор тэгов, который не может быть расширен пользователем. Кроме того, HTML не допускает вложенной структуры документов.

Гипертекст представляет собой систему электронных документов с перекрестными ссылками как внутри документов, так и между различными документами. Язык HTML служит для структурированной разметки документов, он содержит тэги, которыми могут быть помечены необходимые элементы документа для доступа к ним из других частей документа или других документов.

Основная область применения языка HTML — это публикация Документов в сетях Internet/Intranet и поиск информации с использованием гипертекстовых ссылок. Возможности языка HTML обеспечивают вывод информации на экран в удобном для пользователя виде.

XML — расширяемый язык разметки — быстро становится стандартом для идентификации и описания данных в рамках Web-технологии. Так же, как и HTML, XML является подмножеством давно существующего, но не получившего пока широкого распространения языка SGML. Принципиальное отличие XML от HTML состоит в том, что HTML предназначен для описания внешнего представления документа Web-навигатором, в то время как задача XML — описание внутренней структуры документа. Если тэги HTML — это по сути инструкции для визуализации содержания документа Web-навигатором, то тэги XML определяют смысл того, что за ними следует.

Так, в HTML запись <bold>Oracle</bold> означает, что при визуализации слова Oracle оно будет выделено жирным шрифтом. Напротив, в XML запись <company_name>Oracle</company_name> означает, что слово Oracle будет интерпретировано как имя компании (разумеется, при условии, что тэг <company_name> изначально был предназначен конкретно для задания имени компании и ни для чего иного).

Ключевым преимуществом XML по сравнению с HTML является то, что в XML описание внешнего представления документа отделено от его структуры и содержания. Для задания внешнего представления документов используются стили (style sheet). XML-документ может быть представлен в различных вариантах, которые определяются примененными к нему стилями. Для одного XML-документа может быть подготовлено сколь угодно много стилей.

Другое важное преимущество XML по отношению к HTML — это то, что XML разрешает пользователю задавать собственную спецификацию тегов, т.е. пользователь может создавать свои собственные тэги для того, чтобы адекватно представлять смысл и структуру данных, с которыми он работает. Создаваемые пользователем тэги могут быть определены двумя путями:

1) непосредственным заданием тэга в теле самого документа;

2) они могут быть формально определены в специальной структуре, которая называется DTD (Document Type Definition).

В настоящее время XML становится все более популярным как средство настройки представления данных для различных навигаторов и специфических устройств, а также в широком смысле — для прикладных программ и пользователей. Используя XML-документы совместно со стилями в рамках архитектуры клиент/сервер (т.е. как на клиенте, так и на серверах, будь то серверы баз данных или серверы приложений), мы можем организовывать, трансформировать и представлять данные, сформированные для потребностей конкретного пользователя для широкого класса различных устройств, включая графические и неграфические навигаторы, персональные цифровые помощники (PDA), такие, как Palm Pilot, мобильные сотовые телефоны, пейджеры и т.д.

Уже сейчас XML начинает использоваться для замены устаревшей технологии EDI (Electronic Data Interchange), что позволяет включать в сферу e-commerce множество средних и мелких предприятий, для которых технология EDI была недоступна из-за своей громоздкости и дороговизны. Все более активно XML начинает использоваться и в ERP приложениях. Например, в Oracle Applications Release 11/ предполагается использовать основанные на XML средства интеграции как внутри Oracle Applications, так и с ERP-системами других поставщиков.

Принятие языка XML в качестве стандарта, которому все готовы следовать, связано в значительной степени с его простотой. Принятая в XML объектно-ориентированная модель (Document Object Model, DOM) позволяет легко преобразовывать XML-документы для хранения в объектно-реляционных и реляционных СУБД, и наоборот. Например, эти функции выполняет средство Oracle — XML SQL Utility for Java. Однако даже для такого относительно простого объекта стандартизации, как иерархический документ, требуется более Широкая унификация стандартов — для более эффективного использования в Сети.

<== предыдущая лекция | следующая лекция ==>
Основные понятия и определения. Рост количества полнотекстовых документов, представленных в электронном виде, требует развития соответствующих методов навигации в информационных фондах | Технологии документирования информационных ресурсов - ODA
Поделиться с друзьями:


Дата добавления: 2014-01-13; Просмотров: 852; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.016 сек.