КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Сховища даних, архітектура, моделі та основи їх створення
Різновидом баз даних є сховище даних (Data WarenHouse). Поняття сховищ даних виникло зовсім недавно. Необхідність розробки нової концепції сховищ даних обумовлена такими факторами: o Розвиток інформаційних технологій привів до систем нового типу, які дістали назву систем підтримки прийняття рішень. Ці системи основані на новій технології, яка дістала назву OLАР-технології (On – Line Analyse Processing Systems). Основою OLАР-технології є реалізація аналітичних запитів. o Системи підтримки прийняття рішень, основані на формуванні аналітичних запитів, почали конфліктувати з транзакційними системами оперативної обробки даних (ОLТР- системами, On – Line Transaction Processing). Одночасне вирішення оперативних і аналітичних запитів на одній базі даних часто призводить до нестачі ресурсів. ? Формування аналітичних звітів на основі традиційних баз даних, які вміщують оперативну інформацію, займає дуже багато часу. Причому витрати часу, необхідні для формування аналітичних звітів, невпинно зростають зі зростанням обсягів оперативної інформації в базі даних. Це призводить до того, що менеджери не встигають готувати відповідні рішення на основі отриманих аналітичних звітів. ? Дуже часто на підприємстві чи в організації функціонує декілька ОLТР - систем, кожна з яких має свою окрему базу даних, в яких використовуються різні структури даних, способи кодування, одиниці вимірювання. Побудова зведеного аналітичного запиту на основі декількох баз даних є дуже складною проблемою, яка спочатку потребує вирішення проблеми узгодженності даних, що зберігаються в різних базах даних. Вирішення перерахованих вище проблем було знайдено в розробці концепції сховища даних. Сховище даних має виконувати функції попереднього добору, агрегації та підготовки оперативних даних ОLТР - системам. Тобто в сховищі даних зберігаються не первинні дані, а певним чином інтегровані дані, які створюють основу для вирішення аналітичних задач і функціонування систем підтримки прийняття рішень. Таким чином сховище даних (Data WarenHouse) це особливі форма організації бази даних, котра призначена для зберігання в погодженому вигляді агрегованої інформації, що отримується ні основі баз даних різних ОLТР - систем та зовнішніх джерел. Сховища даних характеризуються предметною орієнтацією,інтегрованістю, підтримкою хронології, незмінністю і мінімальною надлишковістю. Ці основні особливості сховищ даних були визначені в 1992 році їх винахідником Біллом Інмоном. Вони незалежно від реалізації притаманні всім сховищам даних і полягають ось у чому. ? Предметна орієнтація. Дані в сховищі даних організовані у відповідності до основних напрямків діяльності підприємства чи фірми (замовники, продажі, склад і т.п.). У цьому полягає відмінність сховищ даних від організації оперативної БД, в якій дані подаються у відповідно до процесів (відвантаження товару, виписка рахунків і т.п.) Предметна організація даних не лише спрощує аналіз, а й значно прискорює проведення аналітичних розрахунків. Тобто сховища орієнтовані на бізнес-поняття, а не на бізнес процеси ? Інтегрованість. Первинні дані оперативних баз даних перевіряються, певним чином добираються, приводяться до одного виду, необхідною мірою агрегуються (тобто обраховуються сумарні показники) і завантажуються у сховище; даних. Такі інтегровані дані набагато простіше аналізувати. ? Підтримка хронології. Дані, які вибираються з оперативних баз даних нагромаджуються в сховищі даних у вигляді „історичних пластів”, кожен із яких характеризує певний період часу. Це дозволяє проводити аналіз зміни показників у часі. ? Незмінність. Дані сховища даних, що характеризують кожен „історичний пласт”, ні в якому разі не підлягають змінам. Це теж є суттєвою відмінністю даних, що зберігаються у сховища даних, від оперативних даних.Оперативні дані можуть дуже часто змінюватись, з даними сховища можливі лише операції їх первинного завантаження, пошуку та їх читання. ? Мінімальна надлишковість. Незважаючи на те, що інформація до сховищ даних завантажується з БД ОLТР - систем, це не призводить надлишковості даних. Зведення до мінімуму надлишковості даних забезпечується тим, що перш ніж завантажувати дані до сховищ, їх фільтрують і певним чином очищають від таких даних, які не потрібні і не можуть бути використані в ОLАР-системах. Схема основних компонентів сховища даних включає до свого складу такі компоненти: Менеджер завантаження виконує функції диспетчеризації щодо регулярності завантаження нових даних до-сховища даних згідно зі встановленим регламентом. Менеджер сховища виконує операції аналізу та управління даними. Це такі основні операції: аналіз узгодженості та несуперечності даних; перетворення та переміщення даних з тимчасового сховища в основні таблиці СД; створення індексів; денормалізація даних у разі її необхідності; агрегація (узагальнення) даних; резервне копіювання та архівування даних. Детальні (оперативні) дані - ця складова містить усі детальні дані,які визначені схемою сховища даних. Це можуть бути як первинні дані найнижчого рівня деталізації, так і узагальнені до певного рівня деталізації. Агреговані дані - ця компонента містить дані, які попередньо оброблені менеджером сховища з метою їх часткового чи глибокого узагальнення. У цій частині зберігаються певним чином відсортовані та згруповані дані, необхідні для виконання запитів. Репозитарііі мета даних - це інформація про дані, що зберігаються в СД. Структура мета даних може відрізнятися залежно від їх призначення. Метадані використовуються для таких основних цілей: Вибірка і завантаження даних. Метадані містять інформацію про джерела даних, способи та періодичність їх вибірки і завантаження в СД. Обслуговування сховища. Метадані використовуються для автоматизації процедур узагальнення даних. Обслуговування запитів. Метадані використовуються для визначення переліку таблиць для виконання запитів. Менеджер запитів - це складова сховища, яка виконує операції, пов'язані з управлінням запитів користувачів. Ця компонента реалізується, як правило, на базі СКБД, що підтримує сховище даних, а також сховища даних і програм власної розробки. При визначенні програмно-технологічної архітектури сховища потрібно мати на увазі, що система прийняття рішень, на які б візуальні засоби вона не спиралася, повинна надавати користувачеві можливість деталізації інформації. Керівник підприємства або фірми, отримавши інтегроване представлення даних і висновки, зроблені на їх основі, може зажадати детальніші дані, що уточнюють джерело даних або причини висновків. З погляду проектувальника сховищ даних це означає, що необхідно забезпечити його взаємодію в деяких випадках з БД ОLТР - систем. Архітектура сховищ даних Сховища даних можуть включати такі компоненти: віртуальне сховище даних, корпоративне сховище даних, кіоски чи вітрини даних. Віртуальне сховище даних — це репозитарій метаданих, які описують джерела надходження інформації, структуру даних сховища, методи агрегації та завантаження даних, відомості про структуру бізнес-понять та інші дані про дані, що зберігаються у сховищі. Корпоративні сховища даних (enterprise data warehouses) вміщують інформацію, зібрану із певної множити оперативних БД, яка характеризує всю корпорацію і необхідна для виконання консолідованого аналізу діяльності корпорації в цілому. Такі сховища охоплюють всі численні напрямки діяльності корпорації і використовуються для прийняття як тактичних та і стратегічних рішень. Розробка корпоративного сховища даних дуже трудомісткий процес, який може становити від одного до кількох років, а обсяги сховища можуть досягати від 50 Гбайт до кількох терабайт. Кіоски чи вітрини даних (data marts) це певна підмножина корпоративних даних, які характеризують конкретний аспект діяльності корпорації, наприклад роботу якогось її підрозділу. Кіоск може отримувати дані з корпоративного сховища даних (залежний кіоск) чи бути незалежним, і тоді джерелом поповнення його даними будуть оперативні БД. Розробка кіоска даних потребує значно менше часу і в середньому триває близько трьох-чотирьох місяців. Корпоративні сховища даних та кіоски будуються за подібними принципами і використовують практично одинакові технології. В останні часи з'явилось поняття глобального сховища даних, в якому сховище даних розглядається як єдине джерело інтегрованих даних для всіх вітрин даних. Успіх розробки та впровадження сховища даних залежить від обґрунтованості вибору його архітектури. Щодо концептуальної архітектури сховищ даних, то, сховища даних залежно від підходів до побудови їх архітектури поділяються на: ? віртуальне СД; ? СД на основі семантичної інтеграції предметних областей; ? СД із системою управління запитами до предметних областей; ? Монолітне сховище; ? СД на основі стандартного архіву даних. Віртуальне сховище даних. Основою віртуального сховища даних є репозитарій метаданих, який описує місце розташування У даних в оперативних системах, структуру даних, методи агрегації та завантаження даних, відомості про структуру бізнес-понять та інші дані. Архітектурно-віртуальне сховище даних складається з оперативних систем та системи управління запитами, що зберігає свій репозиторій метаданих. Архітектура сховища на основі семантичної інтеграції предметних областей. Сховище, побудоване за цією архітектурою, поділено на певні розділи, кожен з яких характеризує окрему предметну область, але проектуються вони за єдиними правилами, що гарантує легкість їх об'єднання. Тобто спочатку проектується єдина корпоративна модель сховища, яка забезпечує ідентичність структур полів, кодів і первинних ключів. Архітектура із системою управління запитами до предметних областей. Ця архітектура, на відміну від попередньої, доповнюється блоком управління запитами. Наявність блоку управління запитами дозволяє користувачеві глибоко не занурюватись у деталі побудови структур даних кожної предметної області. За допомогою блоку „Управління запитами” спрощується вирішення проблеми семантичної інтеграції областей, але залишається недолік, що насамперед виявляється у значного часі виконання запитів до різних предметних областей. Монолітне сховище. Монолітне сховище містить не дані всіх предметних областей, а метадані. Тобто це репозиторій усіх доступних на даний момент оперативних даних, які представлені на найвищому рівні деталізації і нормалізації. Запити не виконуються над монолітним сховищем. Дані із монолітного сховища надходять у допоміжне сховище, яке є проміжним сховищем даних (intermediate date store), а потім передаються у сховища даних предметної області, яке називається робочим сховищем (business data warehouse). Стандартний архів даних. При використанні цієї архітектури процес семантичної інтеграції і проміжне сховище заміняються стандартним архівом. Стандартний архів — це стаціонарне інтегроване сховище, що вміщує інформацію для всіх СППР, і яке можна використовувати для заповнення сховищ окремих предметних областей і вітрин даних. Недоліком цього типу архітектури є високі витрати на пам'ять та підвищені вимоги до супроводження. Великі витрати пам'яті пов'язані з тим, що дані у стандартному архіві повинні зберігатись в такому вигляді, щоб легко забезпечувати обробку оперативних деталізованих запитів до сховища даних. Моделі сховищ даних Сховища повинні надавати можливість параметризації даних за різними ознаками, наприклад банківські операції під час їх аналізу необхідно групувати за часом їх виконання, за клієнтами, за їх обсягами у вартісному виразі, за контрагентами, видами валют та іншими ознаками. Тобто дані мають бути представлені у сховищі таким чином, щоб надавати можливість їх багатовимірного аналізу. Основи багатовимірного аналізу були започатковані Е.Ф. Коддом (Е. F. Соdd) в 1993 р. Найбільш вдалою формою представлення даних, що надасть можливість багатовимірної їх параметризації є подання даних у вигляді неплоскої реляційної моделі, а багатовимірної моделі. В основу ОLАР-систем покладено поняття гіперкуба, тобто багатовимірного куба, у комірках якого зберігаються необхідні для аналізу дані. Проте нині існує три варіанти побудови систем на основі сховищ даних: МОLАР (Multidimensional ОLАР), RОLАР (Relational ОLАР) і НОLАР (Hybrid ОLАР). В МОLАР-системі гіперкуб реалізується як спеціальна модель нереляційної структури, яка швидше забезпечує доступ до даних, ніж реляційні моделі, але вимагає додаткових витрат пам'яті. В RОLАР — система гіперкуб це лише користувацький інтерфейс, який моделюється на традиційній реляційній базі даних. Дані в сховищі представляються у вигляді моделі, що дістала назву „зірка” (star schema). Ця модель складається з таблиць двох типів: однієї таблиці даних, що аналізуються, тобто фактів (fact table) — центр зірки і декількох таблиць, які характеризують певні виміри цих фактів (dimension table). Таблиця фактів вміщує числові характеристики якогось напрямку діяльності компанії чи фірми, наприклад обсяги продажу, а також ключі таблиць вимірів. Таблиці вимірів містять додаткові характеристики ключових полів, як правило, це довідкові дані, наприклад дані про назву товару, назву його виробника, тип товару та інші. Зауважимо, що дані таблиць вимірів денормалізовані. І якщо ж таблиці вимірів нормалізовані, то така модель називається „сніжинкою” (snowflake schema). В RОLАР- системах зберігаються агреговані дані. Такий підхід дозволяє зберігати великі обсяги даних, але вони не досить ефективні при виконанні аналітичних операцій, тому системи, побудовані на реляційних моделях, розглядаються швидше як інтелектуальні генератори звітів. Але досі ці системи переважають так, як в реляційні моделі вкладені великі інвестиції і вони є більш зрозумілими і звичними. НОLАР-системи — це комбінований варіант зберігання даних, який використовує обидва типи СУБД. У багатовимірній СУБД зберігаються агрегати даних, а докладні дані, які мають невеликий обсяг, зберігаються в реляційній СУБД.
Дата добавления: 2015-05-24; Просмотров: 5257; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |