С точки зрения обеспечения требуемых данных различаются оперативные (OLTP) и аналитические информационные приложения (OLAP), помогающих принимать бизнес-решения за счет динамически производимых анализа, моделирования и/или прогнозирования данных:
- ХД - хранилище данных - должно включать как внутренние корпоративные данные, так и внешние данные. Основным источником информации, поступающей в оперативную БД, является деятельность корпорации, а для проведения анализа данных требуется привлечение внешних источников информации (например, статистических отчетов).
- объем аналитических БД - баз данных -как минимум на порядок больше объема оперативных. Для оперативной обработки требуются данные за несколько последних месяцев, а для проведения достоверных анализа и прогнозирования в ХД нужно иметь информацию о деятельности корпорации и состоянии рынка на протяжении нескольких лет
- ХД - хранилище данных - должно содержать единообразно представленную и согласованную информацию, максимально соответствующую содержанию оперативных БД. Необходима компонента для извлечения и "очистки" информации из разных источников. Во многих крупных корпорациях одновременно существуют несколько оперативных ИС с собственными БД (по историческим причинам). Оперативные БД могут содержать семантически эквивалентную информацию, представленную в разных форматах, с разным указанием времени ее поступления, иногда даже противоречивую.
- СОД создаются в расчете на решение конкретных задач. Информация из БД выбирается часто и небольшими порциями. Обычно набор запросов к оперативной БД известен уже при проектировании. Набор запросов к аналитической базе данных предсказать невозможно. ХД существуют, чтобы отвечать на нерегламентированные (ad hoc) запросы аналитиков. Можно рассчитывать только на то, что запросы будут поступать не слишком часто и затрагивать большие объемы информации. Размеры аналитической БД стимулируют использование запросов с агрегатами (сумма, минимальное, максимальное, среднее значение и т.д.)
- СОД - системы обработки данных - по своей природе являются сильно изменчивыми, что учитывается в используемых СУБД (нормализованная структура БД, строки хранятся неупорядоченно, B-деревья для индексации, транзакционность). При малой изменчивости аналитических БД (только при заг рузке данных) оказываются разумными упорядоченность ма ссивов, более быстрые методы индексации при массовой выборке, хранение заранее агрегированных данных
- для СОД обычно хватает защиты информации на уровне таблиц. Информация аналитических БД настолько критична для корпорации, что требуются большая грануляция защиты(индивидуальные права доступа к определенным строкам и/или столбцам таблицы).
С учетом приведенных замечаний общая архитектура ХД и системы аналитической обработки данных может выглядеть так, как показано на рисунке.
Общая архитектура ХД и системы аналитической обработки данных
|