Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Работа с OLAP-кубом




Вопросы для защиты

1. Назначение инструмента Парциальная предобработка данных. В чем суть обработки данных при помощи этого инструмента?

2. Назначение инструмента Спектральную обработку. В чем суть обработки данных при помощи этого инструмента?

3. Назначение инструмента Корреляционный анализ. В чем суть обработки данных при помощи этого инструмента?

4. Назначение инструмента Дубликаты и противоречия. В чем суть обработки данных при помощи этого инструмента?

 

Лабораторная работа №8

 

Цель работы: ознакомиться с приемами обработки данных в OLAP-кубе.

1. Квантование

Часто аналитику необходимо отнести непрерывные данные (например, Количество продаж) к какому-либо конечному набору (например, всю совокупность данных о количестве продаж необходимо разбить на 5 интервалов – от 0 до 100, от 100 до 200 и т.д. и отнести каждую запись исходного набора к какому–то конкретному интервалу) для анализа или фильтрации, исходя именно из этих интервалов. Для этого в Deductor Studio применяется инструмент квантования (или дискретизации).

Квантование предназначено для преобразования непрерывных данных в дискретные. Преобразование может проходить как по интервалам (данные разбиваются на заданное количество интервалов одинаковой длины), так и по квантилям (данные разбиваются на интервалы разной длины так, чтобы в каждом интервале находилось одинаковое количество записей). В качестве значений результирующего набора данных могут выступать номер интервала, нижняя или верхняя граница интервала, середина интервала либо метка интервала (значения определяемые аналитиком).

Примером использования данного инструмента может служить разбиение данных о возрасте кредиторов на 5 интервалов (до 30 лет, от 30 до 40, от 40 до 50, от 50 до 60, старше 60 лет). Исходные данные распределятся по пяти интервалам именно так, поскольку согласно статистике минимальное значение возраста кредитора 19, а максимальное - 69 лет. Это необходимо аналитику для оценки кредиторской активности разных возрастных групп с целью принятия решения о стимулировании кредиторов в группах с низкой активностью (например, уменьшение стоимости кредита для этих групп) и, быть может, увеличение прибыли в возрастных группах кредиторов с высоким риском (путем предложения дополнительных платных услуг). Причем аналитик желает видеть данные в разрезе по неделям.

Воспользуемся данными, полученными при разбиении даты файла Credit.txt.

Воспользуемся Мастером квантования.

 

 

В нем выберите назначение поля Возраст используемым, укажите способ разбиения По интервалам, задайте количество интервалов равное 5, в качестве значения выберите Метка интервала.

На следующем шаге Мастера определите сами метки соответственно возраста кредиторов: до 30 лет, от 30 до 40 лет и т.д.

 

 

После обработки выберите в качестве способа отображения Куб. В Мастере укажите Сумма кредита в качестве факта, Возраст и поле Дата кредитования (Год + Неделя) в качестве измерения, остальные поля укажите неиспользуемыми.

Далее перенесите Возраст из доступных измерений в Измерения в строках, a Дата кредитования (Год + Неделя) в Измерения в столбцах.

На кросс-диаграмме теперь видна информация о том, какие суммы кредитов берут кредиторы определенных возрастных групп по неделям.

 

 

2. Кросс-таблица

Данный обработчик предназначен для преобразования исходной структуры таблицы данных в удобную для работы форму. С его помощью задаются новые поля таблицы из уже существующих, на основе преобразования значений выбранного поля в новые поля с помощью встроенного обработчика фильтрации. Например: поле Месяц содержащее в себе значения: "январь", "февраль", "март" преобразуется в три соответствующих поля. Значениями которого будут являться агрегированное поле фактов заданное аналитиком. Данный обработчик можно заменить обработчиками: Фильтр - с помощью которого выбираются значения на основе которых будет строится первое поле таблицы, далее применяется Калькулятор - который формирует измерения нового поля и присваивает ему имя; данный алгоритм повторяется для всех предусмотренных полей; после чего все созданные поля собирают с помощью Группировки.

На основе кросс-таблицы удобно вычислять экономические оказатели рассчитываемые на основе прошедших месяцев. Кросс-таблица является одним из инструментов Deductor Studio.

Продемонстрируем применение Кросс-таблицы, используя данные о стоимости продуктов входящих в потребительскую корзину за четыре месяца. Исходные данные находятся в файле basket_of_goods.txt. Необходимо оценить индексы роста цен на продукты питания.

 

 

Вид исходной таблицы мало пригоден для вычислений индексов. Данную таблицу необходимо отредактировать, что бы в ней появились дополнительные поля. В которых содержалась бы информация о цене рассматриваемых продуктов питания за каждый месяц в отдельности.

Вызовите Мастер обработки и в появившемся окне выберите обработчик Кросс - таблица.

Следующим шагом будет настройка используемых полей для формирования таблицы. Используемые поля для построения должны находится либо в колонках либо в строках. В колонки помещают поля на основе значений которых будут создаваться новые, их значениями будут выбранные факты. В строки помещаются поля, которые не нуждаются в изменении. Настройте данное окно: переместите Месяц в колонки, а Наименование в строки, при этом необходимо обязательно указать факты в данном случае - Средняя цена. Новая таблица будет содержать поля: Наименование - название продуктов входящих в потребительскую корзину; Сентябрь - средняя цена, данных продуктов за сентябрь месяц,.... Декабрь - средняя цена, продуктов за декабрь месяц.

 

Следующим шагом необходимо настроить параметры агрегации выбранных фактов.

 

 

После нажатия кнопки Далее открывается следующее окно Мастера обработки, в котором выбирается настройка параметров измерений в колонках. В нем резервируются дополнительные поля для возможного внесения изменений в значения исходного поля таблицы, а так же для измерений, в названии которых содержатся пропуски.

Так как нет данных о цене товара, с неопределенным месяцем, то галочку рядом с Пропущенными значениями ставить не нужно. Прочие значения отметьте галочкой, так как в дальнейшем понадобится пополнить исходную таблицу еще одним месяцем, данные которого запишутся в данный столбец.

Из множества предлагаемых визуализаторов выберите Таблицу.

 

Таким образом, после обработки получили новую таблицу данных, на основе которой удобно производить необходимые вычисления индексов.

Данную таблицу можно получить с помощью группы обработчиков: Фильтр, Калькулятор и Группировка, но они делают сценарий очень громоздким и неудобным к исправлению. Использование Кросс-диаграммы существенно сокращает время остроения сценария и обработки.

3. Преобразование данных к скользящему окну

Когда требуется прогнозировать временной ряд, тем более, если налицо его периодичность (сезонность), то лучшего результата можно добиться, учитывая значения факторов не только в данный момент времени, но и, например, за аналогичный период прошлого года. Такую возможность можно получить после трансформации данных к скользящему окну. То есть, например, при сезонности продаж с периодом 12 месяцев, для прогнозирования количества продаж на месяц вперед можно в качестве входного фактора указать не только значение количества продаж за предыдущий месяц, но и за 12 месяцев назад.

Обработка создает новые столбцы путем сдвига данных исходного столбца вниз и вверх (глубина погружения и горизонт прогноза).

У аналитика имеются данные о месячном количестве проданного товара за несколько лет. Ему необходимо, основываясь на этих данных, сказать, какое количество товара будет продано через неделю и через две.

Исходные данные по продажам находятся в файле Trade.txt. Выполните импорт данных из файла, не забыв указать в Мастере, чтобы в качестве разделителя дробной и целой части была точка, а не запятая. Выполнив удаление аномалий и сглаживание, получаем:

 

Запустите Мастер обработки, выберите в качестве обработчика скользящее окно и перейдите на следующий шаг.

Можно использовать обработчик Автокорреляция и убедиться в наличии годовой сезонности. В связи с этим строить прогноз на месяц вперед можно, основываясь на данных за 1, 2, 11 и 12 месяцев назад. Поэтому необходимо, назначив поле Количество используемым, выбрать глубину погружения 12. Тогда данные трансформируются к скользящему окну так, что аналитику будут доступны все требуемые факторы для построения прогноза.

Просмотреть полученные данные можно в виде таблицы.

 

Как видно, теперь в качестве входных факторов можно использовать Количество - 12, Количество - 11 - данные по количеству 12 и 11 месяцев назад (относительно прогнозируемого месяца) и остальные необходимые факторы. В качестве результата прогноза будет указан столбец Количество.

Задание для практической работы

1. Выполните Квантование данных из файла Credit.txt

2. Выполните преобразование данных файла basket_of_goods.txt с помощью обработчика Кросс таблица

3. Выполните Преобразование данных к скользящему окну из файла Trade.txt.




Поделиться с друзьями:


Дата добавления: 2014-10-31; Просмотров: 792; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.011 сек.