Кластерный анализ

Лекция №14. Основы многомерного статистического анализа

Введение. Методы многомерного статистического анализа представляют собой объективные количественные способы для исследования сходства, близости, группировки или классификации многомерных объектов (заданных некоторым набором различных признаков). Среди таких методов наиболее известны кластерный и дискриминантный анализ.

М етод кластерного анализа позволяет строить классификацию n объектов посредством объединения их в группы, или кластеры, на основе критерия минимума расстояния между ними в пространстве m показателей, описывающих эти объекты. Вероятностное обоснование результатов кластеризации можно получить методом дискриминантного анализа.

Исходные данные для кластерного анализа представляются в виде матрицы размером , содержащей информацию трех типов, на практике чаще всего используется один тип – измерения значений t показателей для n объектов.

Стратегии кластеризации. Если исходные данные представляют собой значение показателей и переменных для некоего объекта, то необходимо выбрать стратегию объединения и метод вычисления расстояния между объектами в многомерном пространстве показателей – метрику.

Дивизионная стратегия динамических сгущений, возможности применения которой иллюстрирует приведенный ниже пример, - позволяет сгруппировать объекты в заданное число кластеров. В случае дивизионной стратегии кластеризации необходимо задать число кластеров, однако окончательное число кластеров может оказаться меньше.

Промежуточным результатом анализа является среднее внутрикластерное расстояние, по которому можно сравнивать различные варианты кластеризации, и кластеры с указанием включенных в них объектов. При этом можно получить проекции на плоскость каждой пары показателей центров кластеров и объектов каждого кластера, соединенных линиями с центрами.

Агломеративные стратегии позволяют строить дендрограмму классификации в ходе построения иерархии объединения кластеров. Часто используют следующие варианты этой стратегии.

1) стратегия ближайшего соседа очень сильно сжимает пространство исходных переменных и позволяет получить минимальное дерево групповой классификации;

2) стратегия дальнего соседа сильно растягивает пространство;

3) стратегия группового соседа сохраняет метрику пространства;

4) гибкая стратегия – универсальна и зависит от значения бета -параметра, который должен быть меньше 1,0; при бета < 0 – растягивается;

5) метод Уорда минимизирует внутрикластерный разброс объектов.

В результате получают матрицы расстояния между объектами, последовательности кластеров возрастающей общности с указаниями входящий в кластеры объектов и расстояния между ними, на уровне которых произошло объединение кластеров, и дендрограмму – дерево объединения кластеров.

Метрики. При выполнении анализ расстояние меду объектами оценивают с помощью следующих различных метрик:

1) евклидовой метрики; данная метрика применяется для переменных, измеренных в одних единицах;

2) нормализованной евклидовой метрики; эта метрика подходит для переменных, измеренных в различных единицах;

3) метрики суммы квадратов; может использоваться в случае, когда расстояние меду кластерами равно сумме расстояний между их компонентами.;

4) взвешенных суммированных квадратов; этот вид метрики применяют, когда переменные имеют различную значимость, при этом матрица должна содержать веса показателей;

5) манхеттеновской метрики; применяется для ранговых переменных;

6) метрики Брея-Картиса; применяются для ранговых данных, имеющих значение от 1 до 0.

<== предыдущая лекция	\|	следующая лекция ==>
Прогнозирование на основе уравнений тренда	\|	Дискриминантный анализ

Поделиться с друзьями:

Дата добавления: 2014-01-20; Просмотров: 580; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.008 сек.