Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Общие сведения. Кластерный анализв ППП Statistica




Лабораторная работа №8

Кластерный анализв ППП Statistica

Цель: Освоение методики проведения кластерного анализа в ППП Statistica для определения и получения однородных групп (кластеров).

Главное назначение кластерного анализа — разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры. Методы кластерного анализа можно применять даже тогда, когда речь идет о простой группировке, в которой все сво­дится к образованию групп по количественному сходству.

Техника кластеризации применяется в самых различных областях. Широкое применение нашел кластерный анализ в маркетинговых исследованиях. Всякий раз, когда необходимо классифицировать «горы» информации на пригодные для дальнейшей обработки группы, кластерный анализ оказывается весьма полезным и эффективным. Отличием кластерного анализа от других методов классификации является отсутствие обучающей выборки. Большое дос­тоинство кластерного анализа в том, что он дает возможность производить раз­биение объектов не по одному параметру, а по ряду признаков. Кроме того, кла­стерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов и позво­ляет исследовать множество исходных данных практически произвольной при­роды.

Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве X, разбить множество объектов G на т (т — целое) кластеров Qt, Q2,..., Qm так, чтобы каждый объект Gj принадлежал одному и толь­ко одному подмножеству разбиения. При этом объекты, принадлежащие одному и тому же кластеру, должны быть сходными, а объекты, принадлежащие разным кластерам, — разнородными.

Решением задачи кластерного анализа являются разбиения, удовлетворяю­щие критерию оптимальности. Этот критерий может представлять собой неко­торый функционал, выражающий уровни желательности различных разбие­ний и группировок, который называют целевой функцией. Сходство между объектами Gi, Gj определим через понятие расстояния между векторами измерений Xi, Xj, так как интуитивно понятно, что чем меньше рас­стояние между объектами, тем они более схожи.

Наиболее известный метод представления матрицы расстояний или сходства основан на идее дендрограммы, или диаграммы дерева. Дендрограмму можно определить как графическое изображение результатов процесса последовательной кластеризации, которая осуществляется в терминах матрицы расстояний. С помощью дендрограммы можно графически или геометрически изобразить процедуру кластеризации при условии, что эта процедура оперирует только с элементами матрицы расстояний или сходства. Существует много способов построения дендрограмм. В дендрограмме объекты располагаются вертикально слева, результаты кластеризации — справа. Значения расстояний или сходства, отвечающие строе­нию новых кластеров, изображаются над горизонтальной прямой поверх дендрограмм. На рис.20 показан один из примеров дендрограммы.

 

Рисунок 20 Пример дендрограммы

 

Пример соответствует случаю шести объектов (n=6) и k характеристик (при­знаков). Объекты А и С наиболее близки и поэтому объединяются в один кластер на уровне близости, равном 0,9. Объекты D и Е объединяются при уровне 0,8. В результате имеем 4 кластера: (А, С), (F), (D,E), (В) на уровне 80% сходства. Далее образуются кластеры (А, С, F) и (E, D, В), соответствующие уровням близости, равным соответственно 0,7 и 0,6. Окончательно все объекты группируются в один кластер при уровне 0,5.

Вид дендрограммы зависит от выбора меры сходства или расстояния междуобъектом и кластером и метода кластеризации. Алгоритмы кластерного анализа имеют хорошую программную реализа­цию в ППП STATISTICA, которая позволяет решить задачи самой большой размерности.




Поделиться с друзьями:


Дата добавления: 2014-11-06; Просмотров: 591; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.011 сек.