Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Технологии Data Mining

Несмотря на разнообразие бизнес-задач почти все они могут решаться по единой методике. Эта методика, зародившаяся в 1989 г., получила название Knowledge Discovery in Databases (KDD) - извлечение знаний из баз данных. Методика не зависит от предметной области; это набор атомарных операций, комбинируя которые, можно получить нужное решение.

KDD включает в себя этапы (рис.6.15):

· подготовки данных,

· выбора информативных признаков,

· очистки,

· построения моделей,

· постобработки и интерпретации полученных результатов.

 

Рис.6.15 – Этапы KDD

 

Ядром этого процесса являются методы Data Mining, позволяющие обнаруживать закономерности и знания.

Базовые классы Data mining:

1. Классификация – установление зависимости дискретной выходной переменной – метки класса от входных переменных путем определения класса объекта по его признакам, при этом множество классов, к которым может быть отнесен объект, известно заранее.

2. Регрессия – это установление зависимости непрерывной выходной переменной от входных переменных, например, прогнозирование временного ряда на основе исторических данных.

3. Кластеризация – это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Число кластеров чаще неизвестно. Объекты внутри кластера должны быть похожими друг на друга и отличаться от других, которые вошли в другие кластеры.

4. Ассоциация – выявление закономерностей между связанными событиями. Примером такой закономерности служит ассоциативное правило, указывающее, что из события X следует событие Y. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее называют анализом рыночной корзины (market basket analysis). Если же нас интересует последовательность происходящих событий, то можно говорить о последовательных шаблонах — установлении закономерностей. между связанными во времени событиями. Примером такой закономерности служит правило, указывающее, что из события X спустя время t последует событие Y.

Кроме перечисленных задач, часто выделяют анализ отклонений (deviation detection), анализ связей (link analysis), отбор значимых признаков (feature selection), хотя эти задачи граничат с очисткой и визуализацией данных.

Ввиду того что Data Mining развивается на стыке таких дисциплин, как математика, статистика, теория информации, машинное обучение, теория баз данных, программирование, параллельные вычисления, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе подходов, применяемых в этих дисциплинах (рисунок 6.16).


Рис.6.16 – Мультидисциплинарный характер Data Mining

 

К методам и алгоритмам Data Mining относятся следующие: искусственные нейронные сети, деревья решений, символьные правила, методы ближайшего соседа и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно-регрессионный анализ; иерархические методы кластерного анализа, неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы; методы поиска ассоциативных правил, в том числе алгоритм Apriori; метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, разнообразные методы визуализации данных и множество других методов.

Рисунок 6.17 иллюстрирует некоторые популярные бизнес-задачи, которые решаются алгоритмами Data Mining.

Рынок программного обеспечения KDD и Data Mining делится на несколько сегментов (рис.6.18).

Статистические пакеты с возможностями Data Mining и настольные Data Mining пакеты ориентированы в основном на профессиональных пользователей.

Их отличительные особенности:

· слабая интеграция с промышленными источниками данных;

· бедные средства очистки, предобработки и трансформации данных;

· отсутствие гибких возможностей консолидации информации, например, в специализированном хранилище данных;

 

 

 

Рис.6.17 – От бизнес-решений к алгоритмам Data Mining

 

· конвейерная (поточная) обработка новых данных затруднительна или реализуется встроенными языками программирования и требует высокой квалификации;

· из-за использования пакетов на локальных рабочих станциях обработка больших объемов данных затруднена.

Плюсом статистических пакетов является их широкая распространенность.

 

 

 

Рис.6.18 – Классификация ПО в области KDD и Data Mining

 

Настольные Data Mining пакеты могут быть ориентированы на решение всех классов задач Data Mining или какого-либо одного, например кластеризации или классификации. Вместе с тем эти пакеты предоставляют богатые возможности в плане алгоритмов, что достаточно для решения исследовательских задач. Существует немало свободно распространяемых настольных пакетов Data Mining с открытыми исходными кодами.

Однако создание эффективных прикладных решений промышленного уровня с помощью таких пакетов затруднено, поэтому в бизнес-аналитике, как правило, используются СУБД с элементами Data Mining и аналитические платформы.

Практически все крупные производители СУБД включают в состав своих продуктов средства для анализа данных и поддержку хранилищ данных.

Отличительные особенности СУБД с элементами Data Mining:

· высокая производительность;

· алгоритмы анализа данных по максимуму используют преимущества СУБД;

· жесткая привязка всех технологий анализа к одной СУБД;

· сложность в создании прикладных решений, поскольку работа с СУБД ориентирована на программистов и администраторов баз данных.

В отличие от СУБД с набором алгоритмов Data Mining, аналитические платформы изначально ориентированы на анализ данных и предназначены для создания готовых решений.

В аналитической платформе, как правило, всегда присутствуют:

· гибкие и развитые средства консолидации, включающие богатые механизмы интеграции с промышленными источниками данных;

· инструменты очистки и преобразования структурированных данных и их последующее хранение в едином источнике в многомерном виде — в хранилище данных;

· модели, описывающие выявленные закономерности, правила и прогнозы, которые также хранятся в специальном источнике данных — репозитарии моделей.

На рисунке 6.19 изображена типовая схема системы на базе аналитической платформы.

 

 

 

Рис.6.19 – Аналитическая платформа

 

В процессе консолидации данных решаются следующие задачи (рис.6.20):

· выбор источников данных;

· разработка стратегии консолидации;

· оценка качества данных;

· обогащение;

· очистка;

· перенос в хранилище данных (ХД).

 

 

 

Рис.6.20 – Аналитическая платформа

 

Сначала осуществляется выбор источников, содержащих данные, которые могут иметь отношение к решаемой задаче, затем определяются тип источников и методика организации доступа к ним.

В связи с этим можно выделить три основных подхода к организации хранения данных:

1. Данные, хранящиеся в отдельных (локальных) файлах, например в текстовых файлах с разделителями, документах Word, Excel и т. д. Такого рода источником может быть любой файл, данные в котором организованы в виде столбцов и записей. Столбцы должны быть типизированы, то есть содержать данные одного типа, например только текстовые или только числовые. Преимущество таких источников в том, что они могут создаваться и редактироваться с помощью простых и популярных офисных приложений, работа с которыми не требует от персонала специальной подготовки. К недостаткам следует отнести то, что они далеко не всегда оптимальны с точки зрения скорости доступа к ним, компактности представления данных и поддержки их структурной целостности.

2. Базы данных (БД) различных СУБД, таких как Oracle, SQL Server, Firebird, dBase, FoxPro, Access и т. д. Файлы БД лучше поддерживают целостность структуры данных, поскольку тип и свойства их полей жестко задаются при построении таблиц. Однако для создания и администрирования БД требуются специалисты с более высоким уровнем подготовки, чем для работы с популярными офисными приложениями.

3. Специализированные хранилища данных (ХД) являются наиболее предпочтительным решением, поскольку их структура и функционирование специально оптимизируются для работы с аналитической платформой. Большинство ХД обеспечивают высокую скорость обмена данными с аналитическими приложениями, автоматически поддерживают целостность и непротиворечивость данных. Главное преимущество ХД перед остальными типами источников данных – наличие семантического слоя, который дает пользователю возможность оперировать терминами предметной области для формирования аналитических запросов к хранилищу.

При разработке стратегии консолидации данных необходимо учитывать характер расположения источников данных – локальный, когда они размещены на том же ПК, что и аналитическое приложение, либо удаленный, если источники доступны только через локальную или глобальную компьютерные сети.

Другой важной задачей, которую требуется решить в рамках консолидации, является оценка качества данных с точки зрения их пригодности для обработки с помощью различных аналитических алгоритмов и методов. Если в процессе оценки качества будут выявлены факторы, которые не позволяют корректно применить к данным те или иные аналитические методы, необходимо выполнить соответствующую очистку данных. Обогащение необходимо применять в тех случаях, когда данные содержат недостаточно информации для удовлетворительного решения определенной задачи анализа. Обогащение данных позволяет повысить их информационную насыщенность и, как следствие, значимость для решения аналитической задачи.

В основе процедуры консолидации лежит процесс ETL (extraction, transformation, loading). Процесс ETL решает задачи извлечения данных из разнотипных источников, их преобразования к виду, пригодному для хранения в определенной структуре, а также загрузки в соответствующую базу или хранилище данных.

Основные критерии оптимальности с точки зрения консолидации данных:

· обеспечение высокой скорости доступа к данным;

· компактность хранения;

· автоматическая поддержка целостности структуры данных;

· контроль непротиворечивости данных.

 

<== предыдущая лекция | следующая лекция ==>
Системы поддержки принятия решений | Нейронные сети и экспертные системы
Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 3035; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.