Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Интеллектуальный анализ данных Data mining




Задачи и содержание оперативного (OLAP) анализа.

Классификация IT-анализа по режиму и темпу.

ПОДХОДЫ К ВЫПОЛНЕНИЮ АНАЛИЗА СРЕДСТВАМИ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ (IT-АНАЛИЗА).

1. Типы многомерных OLAP-cистем.

2. Задачи и содержание оперативного (OLAP) анализа.

3. Интеллектуальный анализ данных Data mining.

Информация, извлекаемая из информационных хранилищ и предоставляемая её конечным потребителям независимо от архитектуры ИХ, способов представления в базах данных, должна отвечать предъявляемым требованиям по форме представления, содержанию, своевременности, достоверности, воспринимаемости и т.д. Применяемые методы анализа должны обеспечивать необходимое содержание и достоверность предоставляемой пользователям информации.

Различают два вида информационно-аналитических систем по режиму и темпу анализа:

-статические - имеют заранее разработанный сценарий обработки данных при весьма ограниченных возможностях вариаций запросов - так называемые информационные системы руководителя (Exequtive Information system EIS);

-динамические - обеспечивают обработку нерегламентированных запросов и гибкую систему подготовки отчётов.

Статические ИАС при всей кажущейся простоте и соответственно привлекательности для ЛПР имеют ограниченные возможности по информационной поддержке принятия решений. Зачастую полученная в отчётах информация порождает вытекающие из её содержания вопросы, на которые в допустимое время ответ не может быть получен.

Динамические ИАС предназначены для обработки незапланированных заранее, неожиданных (ad hoc) запросов. Пользователи системы работают с такой ИАС в интерактивном режиме. Обрабатывается серия непредусмотренных заранее запросов, которые возникают в ходе полготовки и принятия решения. Заранее может быть подготовлена некоторая цепочка действий или сценарий, который может корректироваться.

Поддержка принятия управленческих решений осуществляется в следующих режимах или базовых сферах (28):

-сфера детализированных данных;

-сфера агрегированных показателей;

-сфера закономерностей.

В сфере детализированных данных подсистемы ИАС или автономные ИС нацелены на поиск данных. Эту задачу отлично выполняют реляционные СУБД. В качестве языка манипулирования


данными, ставшего стандартным, используется, как правило, SQL. Для поиска детализированной информации используются информационно-поисковые системы, которые могут работать как с операционными, локальными или региональными базами и хранилищами данных, так и совместно с центральным ИХ.

Сфера агрегированных показателей отличается агрегацией данных, оперативной аналитической обработкой, многомерным представлением в виде гиперкубов, многомерным анализом. В этой сфере используются специальные многомерные СУБД. Допустимо использование реляционных представлений данных. При правильном применении реляционных СУБД, как показано выше, показатели эффективности ИАС сопоставимы со специализированными многомерными. Агрегированные массивы при реляционном подходе представлены в виде описанных выше схем: “звезды” и других. Агрегация может производиться также "на лету" при обработке запроса.

Анализ детализированных данных и агрегированных показателей относится к оперативному или OLAP-анализу.

Сфера закономерностей связана или основана на интеллектуальной обработке данных. Главной задачей здесь является выявление закономерностей в исследуемых процессах, взаимосвязей и взаимовлияния различных факторов, поиск крупных "непривычных" отклонений, прогноз хода различных существенных процессов. Эта сфера относится к интеллектуальному анализу (Data mining).

Оперативный анализ – это функция ИАС, обеспечивающая быстрый, в соответствии с правилами FASMI, доступ к любой необходимой информации, содержащейся в ИХ или, точнее в факт-таблице, представляемой также в виде многомерного куба (на практике трёхмерного). Извлечение информации, как правило, сопровождается обработкой её по несложным алгоритмам, как то: производится суммаризация, определение процентов от заданных величин, получение относительных показателей, вычисление величин с заданными коэффициентами и другие действия над данными на разных уровнях детализации. Анализ производится с данными, представленными в виде электронных таблиц, над которыми предоставляется возможность оперативно производить различные более сложные вычисления.

Примерами такого рода целей OLAP-анализа могут быть. Определение суммарных издержек на производство всей совокупности изделий предприятия в течение заданного периода, начиная с большого периода времени (года). Последующими этапами анализа могут быть – получение данных по этому показателю по каждому изделию за более короткие промежутки времени (полугодие, квартал, месяц) и т.д. Затем


можно выявить наиболее затратные процессы, места их возникновения. Список задач можно продолжить. В сбытовой сфере, к примеру, можно изучать объёмы продаж, их динамику, привязку их к регионам, а также получать другие интересующие аналитика или ЛПР сведения.

Извлечение необходимой информации для построения отчётов производится путём использования ряда процедур.

К ним относятся:

- сечение или срез (slice and dice) - извлечение данных из факт-таблицы по каким-либо определённым значениям одного или нескольких измерений, например из гиперкуба (факт-таблицы), содержащей сведения об издержках, в отчёт (раздел отчёта) помещают данные только по какому-либо одному виду или группе издержек;

- поворот, под которым понимают изменение координат, их порядка или добавление измерений; эта процедура обеспечивает замену в готовом отчёте “Издержки”, к примеру, аргумента - время на регионы или центры затрат; если рассматривалась взаимозависимость “возраст - семейное положение” то можно в качестве аргумента брать любое из этих измерений и менять их местами;

- свёртка (drill up) - агрегируются данные по заданным признакам и алгоритмам; можно группировать необходимые данные, содержащиеся в ИХ в детальном виде, так при занесении сведений в операционную БД ежесуточно в ИХ их можно передавать в агрегированном виде – еженедельно или ежемесячно, соответственно агрегированные данные можно помещать в отчёты;

- развёртка или раскрытие (roll up) – процедура, обратная свёртке, данные детализируются, например группы товаров представляются по конкретным товарам, более крупные временные периоды разбиваются на мелкие и т.д.

- создание кросс-таблиц - то-есть совмещение данных из разных таблиц по заданным признакам; например создаётся отчёт, в котором сводятся данные об издержках и выручке по одним и тем же изделиям и временным периодам;

- проекция - конструирование отчётов, являющихся подмножествами из множества единичных реквизитов или атрибутов, содержащихся в операционных базах или в ИХ; (См. также п.2.3.)

- построение трендов – зависимость числовых или качественных значений показателя от тех или иных параметров, времени, технологии и т.д.

Инструменты OLAP –систем обеспечивают возможность сортировки и выборки данных по заданным условиям. Могут задаваться различные качественные и количественные условия.


Последующим этапом анализа является интеллектуальный анализ данных. В англоязычных источниках получивший название Data mining, иногда переводят как – добыча знаний.

Главным предназначением технологий интеллектуального анализа данных является извлечение и представление знаний из накопленной в базах данных, информационных хранилищах и других источниках информации.

При наличии большого количества определений понятия “Знания” здесь мы подразумеваем под ними зависимости и взаимосвязи, скрытые закономерности. Извлечение и представление знаний или познание скрытых связей и закономерностей в совокупностях данных различного объёма представляет собой проблему и для любых объёмов данных, когда связи между явлениями, процессами, фактами выражены неявно и неизвестны закономерности, согласно которым протекают процессы, происходят те или иные явления, события и факты.

Основными задачами интеллектуального анализа (2) являются:

- выявление взаимозависимостей, причинно-следственных связей, ассоциаций и аналогий, определение значений факторов времени, локализация событий или явлений по месту;

- классификация событий и ситуаций, определение профилей различных факторов;

- прогнозирование хода процессов, событий.

Для выполнения интеллектуального анализа используются все достижения математической науки и информационных технологий. В первую очередь используются методы линейной алгебры, классического математического анализа, дискретной математики, многомерного статистического анализа.

В свою очередь многомерный статистический анализ делится на: факторный, дисперсионный, регрессионный, корреляционный, кластерный анализ. Эти методы позволяют решать многочисленные задачи в области экономики, менеджмента, юриспруденции, которые являются составной частью аналитической подготовки принятия решений.

Помимо перечисленных выше методов, ставших традиционными, всё более широкое применение находят специфические методы интеллектуального анализа, происходящие из смежных областей информационных технологий (IT-систем) и получившие в них дальнейшее развитие, – интеллектуальные информационные системы. К ним относятся методы искусственного интеллекта и систем подготовки принятия решений (пересекаются с информационно-аналитическими системами).


К специфическим методам интеллектуального анализа относятся:

- методы нечёткой логики;

- классификационные и регрессионные деревья решений;

- нейронные сети;

- генетические алгоритмы;

- байесовское обучение и кластеризация.

Эти методы стали весьма широко и эффективно применяться в связи с бурным развитием в последнее десятилетие XX века самих методик и соответствующих инструментальных средств. Они находят применение в тех ситуациях, когда обычные методы анализа трудно или невозможно применить из-за отсутствия сведений о характере или закономерностях исследуемых процессов, взаимозависимостях явлений, фактов, о поведении объектов и систем из различных предметных областей, в том числе в социальной и экономической.

С помощью этих методов при отсутствии априорной информации об объектах и их поведении и значительной её неполноте решаются следующие задачи:

-выделение в данных групп сходных по некоторым признакам записей;

-нахождение и аппроксимация зависимостей, связывающих анализируемые параметры или события;

-поиск наиболее значимых параметров данной проблеме (задаче);

-выявление данных, характеризующих значительные или существенные отклонения от сложившихся ранее закономерностей (анализ отклонений);

-прогнозирование развития объектов, систем, процессов на основе хранящейся ретроспективной информации или с использованием принципов обучения на известных примерах и другие задачи.

Решение перечисленных задач может осуществляться каким-либо из перечисленных выше методов или комплексно для получения наиболее адекватного решения.

Средствами ИАС обеспечивается также оценка полученных результатов анализа и моделирования, в том числе оценка точности и устойчивости результатов, верификация моделей на тестовых наборах данных.

Наиболее развитые ИАС, такие как SAS, Oracle обеспечивают представление добытых в результате анализа данных в виде моделей различного рода. Специальные процедуры и языковые средства дают возможность построения моделей автоматически на основе анализа имеющихся данных об исследуемых объектах.

Развитые средства data mining имеют графические средства анализа в виде графических конструкторов моделей, развитых средств отображения результатов, в том числе 3-D.





Поделиться с друзьями:


Дата добавления: 2014-12-27; Просмотров: 2951; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.