Примерная структура ИАС
Примерная структура ИАС, построенной на основе ХД, показана на рисунке.
В конкретных реализациях отдельные компоненты этой схемы могут отсутствовать. При такой организации ИАС ХД функционирует по следующему сценарию: по заданному регламенту в него собираются данные из различных источников – БД систем оперативной обработки. В ХД поддерживается хронология: наравне с текущими хранятся исторические данные с указанием времени, к которому они относятся. В результате необходимые доступные данные об объекте управления собираются в одном месте, приводятся к единому формату, согласовываются и, в ряде случаев, агрегируются до минимально требуемого уровня обобщения.
Несмотря на то, что ХД содержат заведомо избыточную информацию, которая и так имеется в базах или файлах оперативных систем, появление концепции ХД вызвано тем, анализировать данные оперативных систем напрямую невозможно или очень затруднительно. Это объясняется:
- разрозненностью данных (OLTP-системы, текстовые отчеты, xls-файлы);
- хранением их в форматах различных СУБД и в разных узлах корпоративной сети. Но даже если на предприятии все данные хранятся на центральном сервере БД (что бывает крайне редко), аналитик почти наверняка не разберется в их сложных, подчас запутанных структурах
- сложные аналитические запросы к оперативной информации тормозят текущую работу компании, надолго блокируя таблицы и захватывая ресурсы сервера.
Можно констатировать, что практически в любой организации сложилась парадоксальная ситуация: - информация вроде бы, где-то и есть, её даже слишком много, но она неструктурированна, несогласованна, разрознена, не всегда достоверна, её практически невозможно найти и получить. В результате можно говорить об отсутствие информации при ее наличии и даже избыточности..
Для того, чтобы извлекать полезную информацию из данных, они должны быть организованы способом, отличным от принятого в OLTP-системах потому что:
- в OLTP-системах используются нормализованные таблицы БД. Нормализация эффективна, если отношения часто перестраиваются (вставка), но дает отрицательный эффект в случае операции выборки (особенно в случае сложных запросов). А в DSS-системах только операции выборки, и данные редко меняются, поэтому данные целесообразно хранить в виде слабо нормализованных отношений, содержащих заранее вычисленные основные итоговые данные. Большая избыточность и связанные с ней проблемы тут не страшны, т.к. обновление происходит только в момент загрузки новой порции данных. При этом происходит как добавление новых данных, так и пересчет итогов.
- выполнение некоторых аналитических запросов требует хронологической упорядоченности данных. Реляционная модель не предполагает существования порядка записей в таблицах.
- в случае аналитических запросов чаще используются не детальные, а обобщенные (агрегированные данные).
Организация потоков данных
Организация потоков данных в ХД показана на рисунке
|