Требования к OLAP-средствам

Аббревиатура OLAP была впервые введена Коддом (E.F.Kodd), известным ученым в области реляционных БД, создателем широко распространенной реляционной модели. В своей работе, инициированной компанией Arbor Software (сегодня это Hyperion Solutions) "Providing OLAP to User Analysis: AN IT MAN-DATE"(Обеспечение OLAP (оперативной аналитической обработки) для пользователей – аналитиков) в 1993 г., он определил:

основной недостаток реляционной модели как невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом»
общие требования к системам OLAP, расширяющим функциональность реляционных СУБД и включающим многомерный анализ как одну из своих характеристик.

Кодд сформулировал концепцию комплексного многомерного анализа данных, накопленных в хранилище, в виде 12 основных правил, которым должны удовлетворять OLAP-системы, как продукты, предоставляющие возможность выполнения оперативной аналитической обработки. В 1995 году к ним были добавлены еще шесть (которые известны в значительно меньшей степени). Все эти правила разделены на четыре группы и названы «характеристиками» (features, особенности). Ниже дано краткое описание этих особенностей, однако сегодня они редко цитируются и мало используются:

Основные характеристики OLAP:

многомерность модели данных (оригинальное правило 1). Эта особенность - сердцевина OLAP;
прозрачность (оригинальное правило 2),
доступность данных, пакетное извлечение данных (оригинальное правило 3),
архитектура «клиент-сервер» (оригинальное правило 5),
многопользовательская работа (оригинальное правило 8),
интуитивные механизмы манипулирования данными (оригинальное правило 10),
пакетное извлечение против интерпретации (новое). Это правило требует, чтобы продукт в равной степени эффективно обеспечивал доступ как к собственному хранилищу данных, так и к внешним данным. К большому сожалению лишь небольшая часть OLAP продуктов должным образом соответствует ей, и среди них редкие делают это легко или автоматически. Сегодня это соответствует определению гибридных OLAP, которые, в самом деле, становятся наиболее популярной архитектурой
модели анализа OLAP (новое). OLAP-продукты должны поддерживать четыре модели анализа (Категориальный, Толковательный, Умозрительный и Стереотипный) которые можно определить как формирование параметрически настраиваемых отчетов, формирование разрезов и группировок с обращением, анализом в стиле "что, если" и моделями поиска целей, соответственно.

Специальные характеристики:

Обработка ненормализованных данных (новое)

Указывает на необходимость интеграции между OLAP-машиной и ненормализованными источниками данных. Не должны допускаться изменения данных, которые обычно расцениваются как расчетные ячейки в пределах БД OLAP.,

Хранение результатов отдельно от исходных данных (новое)

В действительности это боле относится к реализации, чем к сущности продукта. OLAP приложения, работающие в режиме чтения/записи не должны воздействовать напрямую на обрабатываемые данные, и данные, модифицированные в OLAP, должны сохраняться отдельно от данных транзакций. Например, метод обратной записи данных, использованный в Microsoft OLAP Services, является лучшей реализацией этого, поскольку позволяет сохранять данные, измененные в среде OLAP, отдельно от основных данных.

Выделение пропущенных данных (новое)

Пропущенные данные (Missing Data, Missing Value) – это особый элемент данных, который сигнализирует о том, что в данной ячейке данные отсутствуют и/или не определены. Это может быть как вследствие того, что рассматриваемая комбинация элементов не имеет смысла (например, снегоходы не могут продаваться в экваториальных странах), так и того, что данные не были введены. Термин "Пропущенные данные" по своему значению близок к термину "Пустое значение данных", однако, это не то же самое, что "Нулевое значение". В действительности это интересно только с точки зрения компактности хранения данных, некоторые OLAP инструменты игнорируют это правило без больших потерь в функциональности.

Обработка отсутствующих значений (новое)

Все отсутствующие значения будут игнорироваться OLAP анализатором без учета их источника. Эта особенность связана с предыдущей и является почти неизбежным следствием того, как OLAP-машина обрабатывает все данные.

Характеристики построения отчетов:

стабильная производительность при построении отчетов (оригинальное правило 4),
автоматическая настройка физического уровня(замена оригинального правила 7),
гибкое построение отчетов (оригинальное правило 11).

Управление размерностью:

общая функциональность - универсальность измерений (оригинальное правило 6),
неограниченные операции между данными различных измерений (оригинальное правило 9)
неограниченное число измерений и уровней агрегирования (оригинальное правило 12).

Работа с OLAP-системами может быть построена на основе из двух схем: OLAP-средства, встроенные в настольные приложения Такие средства, как правило, имеют множество ограничений: на количество измерений, на допустимые иерархии и так далее. Двухступенчатую схему "клиент-сервер" Сервер обеспечивает непосредственно извлечение информации из СУБД и все прочее, необходимое для создания кубов. Специализированное же приложение-клиент предназначено для удобного (а главное -эффективного) просмотра кубов и выявления тех самых аналитических закономерностей, с которых мы начинали наш экскурс.