Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Типы закономерностей

Выделяют пять стандартных типов закономерностей (алгоритмов), выявляемых методами DM. Типы алгоритмов, выявляемых методами DM - Data Mining:
  • Ассоциация
Имеет место в том случае, если несколько событий с высокой вероятностью связаны друг с другом (например, один товар часто приобретается вместе с другим). Пример. Исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.
  • Последовательность
Высокая вероятность цепочки связанных во времени событий (например, в течение определенного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой. Пример. После покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.
  • Классификация
Выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект или событие. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.
  • Кластеризация
Отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства DM самостоятельно выделяют различные однородные группы данных.
  • Прогнозирование
Наличие шаблонов в динамике поведения тех или иных данных (типичный пример — сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования.Именно историческая информация, хранящаяся в БД в виде временных рядов, служит основой для всевозможных систем. Если удается найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

Классы систем Data Mining - DM

DM - Data Mining - является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории БД и др. (см. рисунок). Отсюда обилие методов, алгоритмов и математических правил, реализованных в различных действующих системах DM, среди них можно выделить:
  • Регрессионный, дисперсионный и корреляционный анализ
Реализован в большинстве современных статистических пакетов, в частности в продуктах компаний SAS Institute, StatSoft и др.;
  • Фильтрация
Необходимость в фильтрации возникает, когда нужно отделить полезную информацию от искажающего его шума за счет сглаживания, очистки, редактирования аномальных значений, устранения незначащих факторов, понижения размерности информации и т.д. Применение фильтрации в системах анализа данных относится к первичной обработке данных и позволяет повысить качество исходных данных, а, следовательно, и точность результата анализа.
  • Анализ эмпирических моделей
Анализ эмпирических моделей конкретной предметной области, часто применяемые, например, в недорогих средствах финансового анализа;
  • Кластерный анализ
Кластерный анализ подразделяет гетерогенные данные на гомогенные или полугомогенные группы для объединения сходных событий в группы на основании сходных значений нескольких полей в наборе данных. Метод позволяет классифицировать наблюдения по ряду общих признаков. Кластеризация расширяет возможности прогнозирования. Кластерные модели (иногда также называемые моделями сегментации) весьма популярны при создании систем прогнозирования
  • Нейросетевые алгоритмы
Нейросетевые алгоритмы, идея которых основана на аналогии с функционированием нервной ткани и заключается в том, что исходные параметры рассматриваются как сигналы, преобразующиеся в соответствии с имеющимися связями между «нейронами», а в качестве ответа, являющегося результатом анализа, рассматривается отклик всей сети на исходные данные. Здесь для предсказания значения целевого показателя используется наборы входных переменных, математических функций активации и весовых коэффициентов входных параметров. Нейронные сети реализуют алгоритмы на основе сетей обратного распространения ошибки, самоорганизующихся карт Кохонена, RBF-сетей, сетей Хэмминга и других подобных алгоритмов анализа данных.
  • Ассоциативные правила
Ассоциативные правила выявляют причинно следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Примером такого правила служит утверждение, что в том случае, если произошло событие А, то произойдет и событие В с вероятностью C. Их можно использовать для прогнозирования или оценки неизвестных параметров (значений). Впервые это задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).
  • Деревья решений
Иерархическая структура, базирующаяся на наборе вопросов, подразумевающих ответ «Да» или «Нет». Позволяют представлять правила в последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде "если... то...". Определяют естественные "разбивки" в данных, основанные на целевых переменных. Деревья решений применяются при решении задач поиска оптимальных решенийна основе описанной модели поведения.
  • Алгоритмы сопоставления/прецедентов
(Memory-based Reasoning, MBR/ Case-Based Reasoning, CBR) — выбор близкого аналога исходных данных из уже имеющихся исторических данных. Эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем чтобы оценить неизвестное значение или предсказать возможные результаты (последствия)Называются также методом «ближайшего соседа»;
  • Алгоритмы ограниченного перебора
Алгоритмы ограниченного перебора, вычисляющие частоты комбинаций простых логических событий в подгруппах данных;
  • Генетические алгоритмы
Этот метод использует итеративный процесс эволюции последовательности поколений моделей, включающий операции отбора, мутации и скрещивания. Генетические алгоритмы применяются при решении задач оптимизации. Эти методы были открыты при изучении эволюции и происхождения видов. Для отбора определенных особей и отклонения других используется "функция приспособленности" (fitness function).
  • Эволюционное программирование
Поиск и генерация алгоритма, выражающего взаимозависимость данных, на основании изначально заданного алгоритма, модифицируемого в процессе поиска; иногда поиск взаимозависимостей осуществляется среди каких-либо определенных видов функций (например, по линомов). Каждый из методов имеет свои преимущества и недостатки. Преимущество деревьев решений и ассоциативных правил состоит в их читабельности - они похожи на предложения на естественном языке. Однако при большом количестве факторов данных бывает очень сложно понять смысл такого представления. Недостаток: они не предназначены для широких числовых интервалов. Это связано с тем, что каждое правило или узел в дереве решений представляет одну связь (зависимость, отношение). Чтобы представить зависимости для большого интервала значений потребуется слишком много правил или узлов. Преимущество нейронных сетей в компактном представлении числовых отношений для широкого диапазона значений. А недостаток - в сложности интерпретации.
<== предыдущая лекция | следующая лекция ==>
Технологии, используемые в Data Mining и типы закономерностей | Генетические алгоритмы
Поделиться с друзьями:


Дата добавления: 2014-01-15; Просмотров: 618; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.