Аббревиатура OLAP была впервые введена Коддом (E.F.Kodd), известным ученым в области реляционных БД, создателем широко распространенной реляционной модели. В своей работе, инициированной компанией Arbor Software (сегодня это Hyperion Solutions) "Providing OLAP to User Analysis: AN IT MAN-DATE"(Обеспечение OLAP (оперативной аналитической обработки) для пользователей – аналитиков) в 1993 г., он определил:
- основной недостаток реляционной модели как невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом»
- общие требования к системам OLAP, расширяющим функциональность реляционных СУБД и включающим многомерный анализ как одну из своих характеристик.
Кодд сформулировал концепцию комплексного многомерного анализа данных, накопленных в хранилище, в виде 12 основных правил, которым должны удовлетворять OLAP-системы, как продукты, предоставляющие возможность выполнения оперативной аналитической обработки. В 1995 году к ним были добавлены еще шесть (которые известны в значительно меньшей степени). Все эти правила разделены на четыре группы и названы «характеристиками» (features, особенности). Ниже дано краткое описание этих особенностей, однако сегодня они редко цитируются и мало используются:
- Основные характеристики OLAP:
- многомерность модели данных (оригинальное правило 1). Эта особенность - сердцевина OLAP;
- прозрачность (оригинальное правило 2),
- доступность данных, пакетное извлечение данных (оригинальное правило 3),
- архитектура «клиент-сервер» (оригинальное правило 5),
- многопользовательская работа (оригинальное правило 8),
- интуитивные механизмы манипулирования данными (оригинальное правило 10),
- пакетное извлечение против интерпретации (новое). Это правило требует, чтобы продукт в равной степени эффективно обеспечивал доступ как к собственному хранилищу данных, так и к внешним данным. К большому сожалению лишь небольшая часть OLAP продуктов должным образом соответствует ей, и среди них редкие делают это легко или автоматически. Сегодня это соответствует определению гибридных OLAP, которые, в самом деле, становятся наиболее популярной архитектурой
- модели анализа OLAP (новое). OLAP-продукты должны поддерживать четыре модели анализа (Категориальный, Толковательный, Умозрительный и Стереотипный) которые можно определить как формирование параметрически настраиваемых отчетов, формирование разрезов и группировок с обращением, анализом в стиле "что, если" и моделями поиска целей, соответственно.
- Специальные характеристики:
- Обработка ненормализованных данных (новое)
Указывает на необходимость интеграции между OLAP-машиной и ненормализованными источниками данных. Не должны допускаться изменения данных, которые обычно расцениваются как расчетные ячейки в пределах БД OLAP.,
- Хранение результатов отдельно от исходных данных (новое)
В действительности это боле относится к реализации, чем к сущности продукта. OLAP приложения, работающие в режиме чтения/записи не должны воздействовать напрямую на обрабатываемые данные, и данные, модифицированные в OLAP, должны сохраняться отдельно от данных транзакций. Например, метод обратной записи данных, использованный в Microsoft OLAP Services, является лучшей реализацией этого, поскольку позволяет сохранять данные, измененные в среде OLAP, отдельно от основных данных.
- Выделение пропущенных данных (новое)
Пропущенные данные (Missing Data, Missing Value) – это особый элемент данных, который сигнализирует о том, что в данной ячейке данные отсутствуют и/или не определены. Это может быть как вследствие того, что рассматриваемая комбинация элементов не имеет смысла (например, снегоходы не могут продаваться в экваториальных странах), так и того, что данные не были введены. Термин "Пропущенные данные" по своему значению близок к термину "Пустое значение данных", однако, это не то же самое, что "Нулевое значение". В действительности это интересно только с точки зрения компактности хранения данных, некоторые OLAP инструменты игнорируют это правило без больших потерь в функциональности.
- Обработка отсутствующих значений (новое)
Все отсутствующие значения будут игнорироваться OLAP анализатором без учета их источника. Эта особенность связана с предыдущей и является почти неизбежным следствием того, как OLAP-машина обрабатывает все данные.
- Характеристики построения отчетов:
- стабильная производительность при построении отчетов (оригинальное правило 4),
- автоматическая настройка физического уровня(замена оригинального правила 7),
- гибкое построение отчетов (оригинальное правило 11).
- Управление размерностью:
- общая функциональность - универсальность измерений (оригинальное правило 6),
- неограниченные операции между данными различных измерений (оригинальное правило 9)
- неограниченное число измерений и уровней агрегирования (оригинальное правило 12).
Работа с OLAP-системами может быть построена на основе из двух схем:
OLAP-средства, встроенные в настольные приложения
Такие средства, как правило, имеют множество ограничений: на количество измерений, на допустимые иерархии и так далее.
Двухступенчатую схему "клиент-сервер"
Сервер обеспечивает непосредственно извлечение информации из СУБД и все прочее, необходимое для создания кубов. Специализированное же приложение-клиент предназначено для удобного (а главное -эффективного) просмотра кубов и выявления тех самых аналитических закономерностей, с которых мы начинали наш экскурс.
|