Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Data Warehousing




Для решения этих проблем в последние годы сформировался подход, основанный на переработке первичных данных и помещении их в отдельную базу данных. Этот подход получил название Data Warehousing (еще одно название – управление знаниями – Knowledge Management), что обычно переводится как хранилище данных или технология построения хранилищ данных.

Идея, лежащая в основе Data Warehousing, состоит в том, что проводить оперативный анализ непосредственно на базе OLTP-систем неэффективно и потому нежелательно. Вместо этого необходимые данные извлекаются из нескольких OLTP-систем, преобразуются, и затем помещаются в один источник данных - Data Warehouse (хранилище данных). Этот процесс называется погружением данных.

В процессе погружения данные:

- очищаются(устраняется ненужная или служебная информация);

- агрегируются(вычисляются суммы, средние);

- трансформируются(происходит преобразование типов данных, реорганизация структур хранения);

-объединяются (из различных источников);

- синхронизируются (приводятся к одному моменту времени).

В результате такой переработки данных они могут быть гораздо более успешно использованы для построения систем поддержки принятия решений(DSS – Decision Support Systems) и систем оперативного анализа (OLAP – Online Analysis Processing).

Типичная Data Warehousing состоит из базы данных, средств погружения данных и хранилища метаданных.

База данных хранилища обычно организована на платформе достаточно мощной СУБД. Поскольку обычные размеры хранилища достигают сотен гигабайт, используемая СУБД должна поддерживать технологию VLDB – очень больших баз данных (Very Large Database). Для организации базы данных хранилища традиционно используются продукты IBM, Microsoft, Oracle, Terradata и аналогичные.

Средства погружения данных включают в себя средства очищения, преобразования, синхронизации и агрегирования данных. Именно эти средства ответственны за трансформацию данных, хранящихся в OLTP системах в целостную и взаимосвязанную информацию, а также сохранение этой информации в хранилище.

Средства погружения данных должны быть не только надежны и производительны, они должны обладать известной гибкостью, предоставляя возможность конфигурирования и программирования с использованием языка сценариев трансформации. Еще одно существенное требование к этим средствам - возможность доступа к широкому спектру источников данных, что обычно обеспечивается за счет использования универсального интерфейса доступа к данным типа ODBC, OLE и др. Ведущие фирмы только недавно начали выпускать продукты, обладающие описанной функциональностью, поэтому на протяжении многих лет приходилось либо использовать собственные решения, ориентированные на конкретную систему, либо продукты небольших фирм типа Prism Solutions, ETI, Carleton и аналогичные. Из продуктов крупных фирм, выпущенных в недавнем времени, можно назвать Visual Warehouse от IBM и Data Transformation Services от Microsoft.

Хранилище метаданных – это “данные о данных”, которые описывают информацию, представленную в хранилище. Эта информация необходима как для поддержания целостности хранилища, так и для хранения информации о типичных запросах, группах пользователей и т.д. Условно все метаданные можно разделить на две группы:

а) технические метаданные, содержащие информацию о хранилище, обычно используемую его создателями или администраторами. Сюда, например, входит информация об источниках данных, сценариях погружения, процедурах поддержки целостности хранилища, информация о правах доступа и т.д.

б) аналитические метаданные, содержащие информацию, которой пользуются аналитики, работающие с хранилищем. Сюда, например, могут входить типичные запросы к хранилищу, форматы представления данных, ссылки на Web-страницы и т.д.

Хранилища данных могут содержать в себе очень много информации, в результате чего запросы к такому хранилищу будут выполняться недопустимо медленно. Во избежание этого дополнительные к основному небольшие хранилища данных – киоски данных (Data marts). Киоск данных представляет собой небольшое хранилище с несколько упрощенной архитектурой, связанное с основным хранилищем и предназначенное для хранения небольшого подмножества данных основного хранилища. Например, основное хранилище может содержать информацию о деятельности организации в целом, а киоск – лишь о деятельности одного отдела.




Поделиться с друзьями:


Дата добавления: 2014-12-16; Просмотров: 837; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.