Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Основы технологии OLAP

OLAP базируется на использовании концепции ХД и многомерного представления массива данных.

Основной объект OLAP – OLAP-гиперкуб. Это многомерный массив данных, состоящий из отдельных ячеек, содержащих значения показателей.

Измерения – последовательность конкретных значений атрибутов анализируемого показателя.

Мера – числовое значение показателя, соответствующее определенным меткам измерений.

«Объем продаж»

 

Метки на осях измерений могут иметь внутреннюю иерархию: мир-страна-регион-город-район-магазин.

Собственно OLAP сводится к последовательности нескольких типовых операций с гиперкубами:

1. Срез (сечение, Slice). В результате среза из исходного куба формируется подмножество значений показателя, соответствующее метке на оси измерений подвергшихся сечению. Для пользователя результатом среза является двухмерная таблица, заголовки строк и столбцов в которой соответствуют неразрезанным измерениям.

 

2. Rotate. Поворот/Вращение. В результате строки и столбцы меняются местами.

3. Консолидация (свертка).

В результате гиперкуб уменьшается в размерах, за счет консолидации значений показателей по одному или нескольким измерениям.

4. Детализация (развертка) – Drill Down.

В результате выполнения детализации гиперкуб увеличивается, за счет детализации показателей по одному или нескольким измерениям.

5. Построение линий трендов. Строится график зависимостей показателей.

6. Построение кросс – таблиц. Создание перекрестных таблиц из двух и более.

Исходным сырьем для OLAP является обычные двухмерные таблицы.

Разновидности OLAP:

1. ROLAP – реляционный OLAP. При использовании этой технологии массивы для анализа представляют собой реляционные базы. Для реализации OLAP в этом случае используют схему данных, называемая «Звезда».

Fact
Dim. 1
Dim. 2
Dim.3

 

 


Таблица фактов содержит данные, например, о числовых значениях показателя. Таблицы измерений содержат данные об атрибутах этого показателя. Т.е. эти данные меняются редко/

 

Схема «Снежинка».

Dim. 3.1.

В этом случае таблицы измерений могут связываться с консольными таблицами (3.1). Такая схема может использоваться если атрибуты измерений имеют внутреннюю иерархию.

Схема «Созвездие».

Dim. 2.1.
Fact 2
Dim. 2.2.

«Созвездием» эта схема называется потому, что в ней соединяется несколько «Звезд».

В этих схемах используется связь один ко многим (от Dim к Fact).

«+»: В использовании обычных реляционных баз для хранения данных.

«-»: Не слишком высокая эффективность анализа.

2. MOLAP – многомерный OLAP. В этом случае анализу подвергаются именно гиперкубы данных. Фактически каждый гиперкуб представляет собой большую плоскую таблицу, содержащую все значения атрибутов измерений и соответствующие им значения показателей, но система воспринимает как многомерный массив.

«+»: Высокая эффективность анализа.

«-»: Относительная сложность построения таких массивов.

3. HOLAP – гибридный OLAP. Используется сочетание многомерного способа представления данных и реляционного.

«+» предыдущих двух комбинируются.

4. DOLAP (Desktop OLAP) – настольный OLAP. Эти термином обозначают средства для OLAP, которыми можно пользоваться в персональном режиме (на ПК, например).

Требования к средствам OLAP:

Полный список требований к программным средствам реализации OLAP составляют «12 правил Кодда», дополненные позже еще 6 правилами. В сжатом виде эти требования содержатся в тесте FASMI (Fast of Analysis Shared Multidimensional Information) - быстрый анализ разделяемой многомерной информации.

Быстрый означает, что большая часть запросов должна обрабатываться в течении времени, в пределах 3 секунд, при этом наиболее простые – не дольше 1 секунды, а самые сложные – не дольше 20 секунд.

Анализ означает, что OLAP – средство должно обеспечивать выполнение всех видов многомерного, а так же статистического анализа массивов данных.

Разделяемая означает, что в OLAP – средстве должен быть предусмотрен разделяемый доступ к любым элемента массива данных, вплоть до отдельных ячеек.

Многомерной означает, что OLAP – средство должно поддерживать многомерное представление информации, обеспечивать анализ многомерно представленной информации.

Информация. Это слово означает, что OLAP – средство должно предоставлять результаты анализа в любой, необходимой пользователю форме. Это средство должно обеспечивать анализ любой доступной информации.

Технология OLAP практически реализуется с помощью инструментов (приложений) 3 типов:

1. Простые OLAP – средства, интегрированные в различные пакеты общего назначения, например в таблицы.

2. OLAP – средства, интегрированные в большие СУБД, а так же в информационные системы управления предприятием.

3. Автономные OLAP – средства. Например, аналитическая платформа «Контур» и др. Это средства, которые приобретаются отдельно.

 

ОСНОВЫ ТЕХНОЛОГИЙ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ИНФОРМАЦИОННЫХ СИСТЕМАХ.

Data Mining (добыча данных). Этот термин точнее, чем наименование «интеллектуальный анализ данных».

Data Mining – это методы и средства машинной «добычи» из массивов необработанных данных информации, которая является новой, практически ценной, нетривиальной, доступной для интерпретации человеком.

Типовые задачи Data Mining:

1. Классификация – это разделение совокупности на классы, причем количество классов определено заранее, известны признаки, соответствующие каждому классу.

2. Кластеризация – подобна задаче классификации, но классы заранее не определены.

Кластеры

Классификация кластеризация.

3. Выявление последовательностей – шаблонов в данных, соответствующих событиям, происходящим в определенной последовательности.

4. Выявление ассоциаций – шаблонов в данных, соответствующих событиям, происходящим одновременно.

5. Построение регрессионных моделей и прогнозирование.

Y=a0+a1x

 

Средствами Data Mining добывается ценная информация из текстовых, гипертекстовых документов сети Internet, а так же находящихся в других источниках. Для обозначения этих технологий используется:

1. Web Content Mining – методы и средства автоматического аннотирования и классификации текстовых и гипертекстовых документов из сети Internet.

2. Web Usage Mining – методы и средства, позволяющие выявить закономерности в поведении пользователей web-узлов.

Text Mining – добыча информации из текстового документа.

Основные средства и технологии Data Mining:

1. Стандартные методы математической статистики:

1.1. регрессионный анализ (построение регрессионных моделей).

1.2. Корреляционный анализ – определение коэффициента ясности связи. (1 – абсолютный предел связи).

1.3. Дисперсионный анализ.

1.4. Кластерный анализ.

2. Переборные методы:

Переборные методы просты в реализации, но их эффективность невысокая, поэтому на практике переборные механизмы улучшаются применением эвристик (улучшения, произведенные опытным путем).

3. Искусственные нейронные сети (ИНС).

ИНС могут быть универсальными классификаторами -апроксиматорами и прогнозаторами.

4. Системы с нечеткой логикой и нечеткие модели:

Используются в областях и конкретных задачах, для которых типична неопределенность в исходных данных и логических правилах. Неопределенность данных может быть связана с неполнотой, недостоверностью, противоречивостью, нечеткостью. При решении многих задач исходная информация недостаточна, противоречива и т.п.

5. Генетические алгоритмы.

Эволюционные стратегии, используемые при решении задач оптимизации.

6. Методы логических шаблонов в шаблонах массивов данных.

Шаблон – последовательность, определенная цепочка событий.

Инструменты Data Mining:

Статистические методы реализуются либо в специальных пакетах (SPSS, STATISTICA, R), несложный анализ выполняется в электронных таблицах (MS Excel, Open Office Calc).

Интеллектуальный анализ выполняется в специальных пакетах (SAS, Polyanalist, MATLAB(имеет пакет расширения для интеллектуального анализа данных): Neural Network, Fuzzy Logic (нечеткая логика), Genetic Algorithm and Direct Search (генетический алгоритм и прямой поиск).

<== предыдущая лекция | следующая лекция ==>
Анализ данных в АИС на предприятии | Основные методологии управления, используемые в АИСУП
Поделиться с друзьями:


Дата добавления: 2014-01-03; Просмотров: 553; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.051 сек.