Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Коэффициентыканонической дискриминацией функции 7 страница




• Древовидная диаграмма (дендрограмма) (dendrogram). Ее также называют древовидный

граф— графическое средство для показа результатов кластеризации. Вертикальные линии

представляют объединяемые кластеры. Положение вертикальной линии на шкале расстоя-

ния (горизонтальная ось) показывает расстояния, при которых объединяли кластеры. Дре-

вовидную диаграмму (рис, 20.8) читают слева направо.

750 Часть III. Сбор, подготовка и анализ данных

Расстояния между кластерными центрами (distances between cluster centres). Указывают, на-

сколько разнесены отдельные пары кластеров, Кластеры, которые разнесены широко, ясно

выражены и поэтому желательны.

Сосульчатая диаграмма (icicle diagram), Это графическое отображение результатов класте-

ризации. Она названа так потому, что имеет сходство с рядом сосулек, свисающих с крыши

дома. Сосульчатую диаграмму (рис. 20.7) читают сверху вниз.

Матрица сходства/матрица расстояний между объединяемыми объектами (similarity/distance

coefficient matrix). Матрица сходства (расстояний) — это нижняя треугольная матрица, со-

держащая значения расстояния между парами объектов или случаев.

ВЫПОЛНЕНИЕ КЛАСТЕРНОГО АНАЛИЗА

Этапы выполнения кластерного анализа представлены на рис. 20.3.

терпретация и профилирование кластеров

Рис. 20.3. Выполнение кластерного

анализа

Первый этап — формулировка проблемы кластеризации путем определения переменных,

на базе которых она будет проводиться, Затем выбирается соответствующий способ измерения

расстояния. Мера расстояния показывает, насколько объекты, подвергнутые кластеризации,

схожи или не схожи между собой. Разработано несколько методов кластеризации, и исследова-

телю необходимо выбрать наиболее подходящий для решения данной проблемы. Решение о

числе кластеров также принимает исследователь. Сформированные кластеры нужно анализи-

ровать с точки зрения переменных, использованных для их получения, а также для профили-

рования кластеров можно использовать дополнительные явно выраженные переменные. И на-

конец, исследователь должен оценить достоверность (качество) процесса кластеризации.

Формулировка проблемы

Возможно, самая важная часть формулирования проблемы кластеризации — это выбор пере-

менных, на основе которых проводят кластеризацию. Включение даже одной или двух посторон-

них (не имеющих отношение к группированию) переменных может исказить результаты класте-

ризации. Задача состоит в том, чтобы выбранный набор переменных смог описать сходство между

объектами с точки зрения признаков, имеющих отношение к данной проблеме маркетингового

исследования. Переменные следует выбирать, исходя из опыта прошлых исследований, теории

или тестируемой гипотезы. Экспериментатор должен обладать интуицией и уметь делать выводы.

Глава 20. Кластерный анализ 751

Для иллюстрации сказанного рассмотрим кластеризацию потребителей на основе их отно-

шения к посещению магазинов для покупки товаров. Опираясь на прошлый опыт, маркетоло-

ги определили шесть переменных. Потребителей попросили выразить их степень согласия со

следующими утверждениями по семибалльной шкале (1 — не согласен, 7 — согласен):

V\ Посещение магазинов для покупки товаров — приятный процесс.

1/2 Посещение магазинов для покупки товаров плохо сказывается на вашем бюджете,

^з Я совмещаю посещение магазинов для покупки товаров с питанием вне дома.

1/4 Я стараюсь сделать лучшие покупки при посещении магазинов.

/5 Мне не нравится посещение магазинов для покупки товаров.

VG Вы можете сэкономить много денег, сравнивая цены в разных магазинах,

Данные, полученные от 20 респондентов, приведены в табл. 20.1.

I Таблица 20.1. Данные для кластеризации

Номер п/п V, V2 Уз V4 Vs Ve

/

.•'

1 2

.'

В

л

::

л

G

«

Э

!

1".

h

:

*•!

i

-•:

•1

•;

На практике кластеризацию выполняют для значительно больших по размеру выборок, со-

стоящих из 100 и больше респондентов. Мы взяли небольшую выборку для иллюстрации про-

цесса кластеризации.

Выбор способа измерения расстояния или меры сходства

Цель кластеризация — группирование схожих объектов. Поэтому для того чтобы оценить,

насколько они похожи или непохожи, необходимо использовать некую единицу измерения.

Наиболее распространенный метод заключается в том, чтобы в качестве такой меры использо-

вать расстояния между двумя объектами. Объекты с меньшими расстояниями между собой

больше похожи, чем объекты с большими расстояниями. Существует несколько способов вы-

числения расстояния между двумя объектами [9].

752 Часть III. Сбор, подготовка и анализ данных

Наиболее часто используемая мера сходства— евклидово расстояние или его квадрат [10].

Евклидово расстояние (геометрическое расстояние в многомерном пространстве) равно квад-

ратному корню из суммы квадратов разностей значений для каждой переменной.

Евклидово расстояние (euclidean distance)

Квадратный корень из суммы квадратов разностей в значениях для каждой переменной

Существуют и другие способы измерения расстояния. Расстояние городских кварталов)

(city-block, или манхэттенское расстояние (Manhattan distance) между двумя объектами — это

сумма абсолютных разностей в значениях для каждой переменной. Расстояние Чебышева

(Chebychev distance) между двумя объектами — это максимальная абсолютная разность в значе-

ниях для любой переменной. Для нашего примера используем квадрат евклидова расстояния.

Если переменные измерены в различных единицах, то единица измерения влияет на реше-

ние кластеризации. В исследовании, посвященном посещению супермаркетов для покупки то-

варов, переменные, выражающие отношение к посещению магазина, можно измерить по шка-

ле Лайкерта; патронаж (постоянство в посещении магазина) можно выразить через частоту по-

сещений магазина в месяц и через сумму, потраченную на покупки; лояльность к торговой

марке — через процент средств, потраченных на покупку товаров в любимом супермаркете.

В этих случаях перед кластеризацией респондентов мы должны нормализовать данные, изме-

нив шкалу измерения каждой переменной таким образом, чтобы среднее равнялось нулю, а

стандартное отклонение — единице. Хотя нормализация может исключить влияние единицы

измерения, она также уменьшает различия между группами по переменным, которые наилуч-

шим образом дискриминируют (отличают) группы или кластеры. Кроме того, желательно уда-

лить выбросы (т.е. случаи с нетипичными значениями) [111.

Использование различных способов измерения расстояния ведет к разным результатам кла-

стеризации. Следовательно, целесообразно использовать различные меры сходства и затем

сравнить результаты. Выбрав меру сходства, затем можно выбрать метод кластеризации.

Выбор метода кластеризации

На рис. 20.4 приведена классификация методов кластеризации.

Методы кластеризации могут быть иерархическими и неиерархическими. Иерархическая

кластеризация (hierarchical clustering) характеризуется построением иерархической, или древо-

видной, структуры.

Иерархическая кластеризация (hierarchical clustering)

Метод кластеризации, характеризующийся построением иерархической, или древовидной,

структуры.

Иерархические методы могут быть агломеративными (объединительными) и дивизивны-

ми. Агломеративная кластеризация (agglomerative clustering) начинается с каждого объекта в от-

дельном кластере. Кластеры объединяют, группируя объекты каждый раз во все более и более

крупные кластеры. Этот процесс продолжают до тех пор, пока все объекты не станут членами

одного единственного кластера.

Агломеративная, или объединительная, кластеризация (agglomerative clustering)

Иерархический метод кластеризации, при которой каждый объект первоначально находится

в отдельном кластере. Кластеры формируют, группируя объекты каждый раз во все более и

более крупные кластеры.

Разделяющая, или дивизивная, кластеризация (divisive clustering) начинается со всех объек-

тов, сгруппированных в единственном кластере. Кластеры делят (расщепляют) до тех пор, пока

каждый объект не окажется в отдельном кластере.

Глава 20. Кластерный анализ 753

Методы кластеризации

Рис, 20.4. Классификация методов кластеризации

Разделяющая, или дивизивная, кластеризация (divisive clustering)

Иерархический метод кластеризации, при котором все объекты первоначально находятся е

одном большом кластере. Кластеры формируют делением этого большого кластера на бо-

лее мелкие.

Обычно в маркетинговых исследованиях используют агломеративные методы, например

методы связи, дисперсионные и центроидные методы. Методы связи (linkage methods) вклю-

чают метол одиночной связи, метод полной связи и метод средней связи.

Методы связи (linkage methods)

Агломеративные методы иерархической кластеризации, которые объединяют объекты в

кластер, исходя из вычисленного расстояния между ними.

754 Часть III. Сбор, подготовка и анализ данных

В основе метода одиночной связи (single method) лежит минимальное расстояние, или пра-

вило ближайшего соседа.

Метод одиночной связи (single method)

Метод связи, в основе которого лежит минимальное расстояние между объектами, или

правило ближайшего соседа.

При формировании кластера первыми объединяют два объекта, расстояние между которы-

ми минимально. Далее определяют следующее по величине самое короткое расстояние, и в

кластер с первыми двумя объектами вводят третий объект. На каждой стадии расстояние между

двумя кластерами представляет собой расстояние между их ближайшими точками (рис. 20.5).

Одиночная связь

Минимальное

Кластер! расстояние ю,астер2

Полная связь

Максимальное

Кластер 1 расстояние Кластер 2

Средняя связь

Среднее

расстояние

Кластер 1 Кластер 2

Рис. 20.5. Методы связи для процедуры

кластеризации

На любой стадии два кластера объединяют по единственному кратчайшемурасстоянию ме-

жду ними. Этот процесс продолжают до тех пор, пока все объекты не будут объединены в кла-

стер. Если кластеры плохо определены, то метод одиночной связи работает недостаточно хоро-

шо. Метод полной связи (complete linkage) аналогичен методу одиночной связи, за исключени-

ем того, что в его основе лежит максимальное расстояние между объектами, или правило

дальнего соседа. В методе полной связи расстояние между двумя кластерами вычисляют как

расстояние между двумя их самыми удаленными точками.

Метод полной связи (complete linkage)

Метод связи, в основе которого лежит максимальное расстояние между объектами, или

правило дальнего соседа.

Глава 20. Кластерный анализ 755

Метод средней связи (average linkage) действует аналогично. Однако в этом методе рас-

стояние между двумя кластерами определяют как среднее значение всех расстояний, изме-

ренных между объектами двух кластеров, при этом в каждую пару входят объекты из разных

кластеров (см. рис. 20.5).

Метод средней связи (average linkage)

Метод связи, в основе которого лежит среднее значение всех расстояний, измеренных

между объектами двух кластеров, при этом в каждую пару входят объекты из разных

кластеров.

Из рис. 20.5 видно, что метод средней связи использует информацию обо всех расстояниях

между парами, а не только минимальное или максимальное расстояние. По этой причине

обычно предпочитают метод средней связи, а не методы одиночной или полной связи.

Дисперсионные методы (variance methods) формируют кластеры таким образом, чтобы ми-

нимизировать внутрикластерную дисперсию.

Дисперсионный метод (variance methods)

Агломеративный метод иерархической кластеризации, в котором кластеры формируют так,

чтобы минимизировать внутрикластерную дисперсию.

Широко известным дисперсионным методом, используемым для этой цели, является метод

Варда (Ward's procedure).

Метод Варда (Ward's procedure)

Дисперсионный метод, в котором кластеры формируют таким образом, чтобы минимизиро-

вать квадраты евклидовых расстояний до кластерных средних.

Для каждого кластера вычисляют средние всех переменных. Затем для каждого объекта вы-

числяют квадраты евклидовых расстояний до кластерных средних (рис. 20.6).

Эти квадраты расстояний суммируют для всех объектов. На каждой стадии объединяют два

кластера с наименьшим приростом в полной внутрикластерной дисперсии. В центроидных ме-

тодах (centroid method) расстояние между двумя кластерами представляет собой расстояние ме-

жду их центроидами (средними для всех переменных), как показано на рис. 20.6.

Центроидный метод (centroid method)

Дисперсионный метод иерархической кластеризации, в котором расстояние между двумя

кластерами представляет собой расстояние между их центроидами (средними для всех пе-

ременных).

Каждый раз объекты группируют и вычисляют новый центроид. Изо всех иерархических

методов методы средней связи и Варда показывают наилучшие результаты по сравнению с дру-

гими методами [12].

К другому типу процедур кластеризации относятся неиерахические методы кластеризации

(nonhierarchical clustering), часто называемые методом А-средних.

Неиерархические методы кластеризации, метод k-средних (nonhierarchical clustering,

k-means clustering)

Метод, который вначале определяет центр кластера, а затем группирует все объекты в пре-

] делах заданного от центра порогового значения.

756 Часть III. Сбор, подготовка и анализ данных

Метод Варда

Центре идный метод

Рис. 20.6. Другие а&юмеративные методы кластеризации

Эти методы включают последовательный пороговый метод, параллельный пороговый

метод и оптимизирующее распределение. В последовательном пороговом методе (sequential

threshold method) выбирают центр кластера и все объекты, находящиеся в пределах задан-

ного от центра порогового значения, группируют вместе. Затем выбирают новый кластер-

ный центр, и процесс повторяют для несгруппированных точек. После того как объект

помещен в кластер с этим новым центром, его уже не рассматривают как объект для даль-

нейшей кластеризации.

Последовательный пороговый метод (sequential threshold method)

Неиерархический метод кластеризации, при котором выбирают кластер и все объекты, на-

ходящиеся а пределах заданного от центра порогового значения, группируют вместе.

Аналогично работает параллельный пороговый метод (parallel threshold method), за исключе-

нием того, что одновременно выбирают несколько кластерных центров и объекты в пределах

порогового уровня группируют с ближайшим центром.

Параллельный пороговый метод (parallel threshold method)

Неиерархический метод кластеризации, при котором одновременно определяют несколько

кластерных центров. Все объекты, находящиеся в пределах заданного центром порогового

значения, группируют вместе.

Метод оптимизирующего распределения (optimizing partitioning method) отличается от двух

изложенных выше пороговых методов тем, что объекты можно впоследствии поставить в соот-

ветствие другим кластерам (перераспределить), чтобы оптимизировать суммарный критерий,

такой как среднее внутри кластерное расстояние для данного числа кластеров.

Глава 20. Кластерный анализ 757

Метод оптимизирующего распределения (optimizing partitioning method)

Неиерархический метод кластеризации, который позволяет поставить объекты в соответствие

другим кластерам (перераспределить объекты), чтобы оптимизировать суммарный критерий.

Два главных недостатка неиерархических методов состоят в том, что число кластеров определя-

ется заранее и выбор кластерных центров происходит независимо. Более того, результаты класте-

ризации могут зависеть от выбранных центров. Многие неиерархические процедуры выбирают

первые k случаев (k — число кластеров), не пропуская никаких значений в качестве начальных

кластерных центров. Таким образом, результаты кластеризации зависят от порядка наблюдений в

данных. Неиерархическая кластеризация быстрее иерархических методов, и ее выгодно использо-

вать при большом числе объектов или наблюдений, Высказано предположение о возможности

использования иерархических и неиерархических методов в тандеме. Во-первых, первоначальное

решение по кластеризации получают, используя такие иерархические методы, как метод средней

связи или метод Варда. Полученное этими методами число кластеров и кластерных центроидов

используют в качестве исходных данных в методе оптимизирующего распределения [ 13].

Выбор метода кластеризации и выбор меры расстояния взаимосвязаны. Например, квадра-

ты евклидовых расстояний используют наряду с методом Варда и центроидным методом. Не-

которые из неиерархических методов также используют квадраты евклидовых расстояний.

Для иллюстрации иерархической кластеризации используем метод Варда. Результаты, по-

лученные при кластеризации данных табл. 20.1, приведены в табл, 20.2.

г Таблица 20.2. Результаты иерархической кластеризации

План агломерации на основании метода Варда

Объединяемые кластеры Стадия, на которой впервые появился

кластер

Стадия Кластер 1 Кластер 2 Коэффициент (расстояние между Кластер 1 Кластер 2 Следующая

объединяемыми кластерами) стадия

б

!

I

(

;.'

?,

А

1,000000

2,500000

4,000000

5,500000

7,000000

8,500000

10,166667

12,666667

15,250000

18,250000

22,750000

27,500000

32,700001

40,500000

51,000000

63,125000

78,291664

171,291656

330,450012

и

1)

758 Часть III. Сбор, подготовка и анализ данных

Окончание табл. 20.2

Принадлежность кластеру при использовании метода Барда

Число кластеров

Меня (HOMepJ случая 4 3

I

•)

I

Полезную информацию можно извлечь из плана агломерации, где показано число случаев

или кластеров, которые нужно объединить на каждой стадии. Первая строка представляет пер-

вую стадию, когда есть 19 кластеров. На этой стадии объединены респонденты 14 и 16, что по-

казано в колонках, озаглавленных "Объединяемые кластеры". Квадрат евклидового расстояния

между точками, соответствующими этим двум респондентам, дан в колонке "Коэффициент",

Колонка "Стадия, на которой впервые появился кластер" показывает стадию, на которой впер-

вые был сформирован кластер. Например, цифра (входа в кластер) 1 на стадии 7 указывает на

то, что респондента 14 впервые включили в кластер на стадии 1. Последняя колонка,

"Следующая стадия", показывает стадию, на которой другой случай (респондент) или кластер

объединили с этим кластером. Поскольку число в первой строке последней колонки равно 7,

значит, респондента 10 объединили с респондентами 14 и 16 на стадии 7, чтобы сформировать

один кластер. Аналогично, вторая строка представляет стадию 2 с 18 кластерами. На стадии 2

респондентов 2 и 13 группируют вместе.

Другая важная часть результата кластеризации содержится в сосульчатой диаграмме, пред-

ставленной на рис. 20.7.

Глава 20. Кластерный анализ 759

Число кластеров

Is

N

IS

Я

I

I

I

г г I i l Г! I I

Столбики соответствуют объектам, которые подлежат кластеризации, в этом случае респон-

дентам присвоили номера от I до 20. Ряды соответствуют числу кластеров. Эту диаграмму чи-

тают снизу вверх. Вначале все случаи считают отдельными кластерами. Так как мы имеем 20

респондентов, количество исходных кластеров равно 20. На первой стадии объединяют два

ближайших объекта, что приводит к 19 кластерам. Последняя строчка на рис. 20.7 показывает

эти 19 кластеров. Два случая, а именно респонденты 14 и 16, которых объединили на этой ста-

дии, не имеют между собой разделяющего пустого (белого) пространства. Ряд с номером 18 со-

ответствует следующей стадии с 18 кластерами. На этой стадии вместе группируют респонден-

тов 2 и 13. Таким образом на этой стадии мы имеем 18 кластеров, 16 из них состоят из отдель-

ных респондентов, а два содержат по два респондента. На каждой последующей стадии

формируется новый кластер одним из трех способов: два отдельных объекта группируют вме-

сте; объект присоединяют к уже существующему кластеру; два кластера группируют вместе.

Еще одно полезное графическое средство отображения результатов кластеризации — это

древовидная диаграмма (дендрограмма) (рис. 20.8).

Метка

объекта

Последовательность I- 4- 4

О 10 15 25

Шкапа расстояний объединяемых кластеров

Рис. 20.8. Древовидная диаграмма, используемая в методе Варда

Древовидную диаграмму читают слева направо. Вертикальные линии показывают класте-

ры, объединяемые вместе. Положение линии относительно шкалы расстояния показывает рас-

стояния, при которых кластеры объединили. Поскольку многие расстояния на первых стадиях

объединения примерно одинаковой величины, трудно описать последовательность, в которой

объединили первые кластеры. Однако понятно, что на последних двух стадиях расстояния, при

которых кластеры должны объединиться, достаточно большие. Эта информация имеет смысл

при принятии решения о количестве кластеров (см. следующий раздел).

Кроме того, если число кластеров определено, то можно получить информацию о принад-

лежности к кластеру, Хотя эта информация следует и из сосульчатой диаграммы, табличная

форма нагляднее, Табл. 20,2 содержит данные о кластерной принадлежности объектов, в зави-

симости от принятого решения; два, три или четыре кластера. Информацию такого рода можно

получить для любого числа кластеров, и она полезна при принятии решения о числе кластеров.

Глава 20. Кластерный анализ 761

Принятие решения о количестве кластеров

Главный вопрос кластерного анализа — вопрос о количестве кластеров. Здесь нет твердых

правил, позволяющих быстро принять решение, но можно руководствоваться следующим.

1. При определении количества кластеров руководствуются теоретическими и практическими

соображениями. Например, если цель кластеризации — выявление сегментов рынка, то

менеджмент может захотеть получить конкретное число кластеров.

2. В иерархической кластеризации в качестве критерия можно использовать расстояния, при

которых объединяют кластеры, В нашем случае из плана агломерации в табл. 20.2 видно,

что значение в колонке "Коэффициент" увеличивается больше, чем вдвое при переходе от

17 к 18 стадии. Аналогично, на последних стадиях древовидной диаграммы (рис. 20.8) кла-

стеры объединяются при больших расстояниях. Следовательно, самое приемлемое реше-

ние — это решение о трех кластерах.

3. В неиерархической кластеризации чертят график зависимости отношения суммарной внут-

ригрупповой дисперсии к межгрупповой дисперсии от числа кластеров. Точка, в которой

наблюдается изгиб или резкий поворот, указывает на приемлемое количество кластеров.

Увеличение числа кластеров за эту точку обычно безрезультативно.

4. Относительные размеры кластеров должны быть достаточно выразительными. Из табл. 20.2,

просто подсчитав частоты кластерной принадлежности, мы увидим, что решение с тремя кла-

стерами приводит к кластерам, содержащим 8, 6 и 6 элементов. Однако если мы перейдем к

четырем кластерам, то размеры кластеров будут 8, 6, 5 и I. Бессмысленно создавать кластер с

одним случаем, поэтому в данной ситуации предпочтительнее решение с тремя кластерами.

Интерпретация и профилирование кластеров

Интерпретация и профилирование кластеров включает проверку кластерных центроидов.

Центроиды представляют средние значения объектов, содержащиеся в кластере по каждой из

переменных. Они позволяют описывать каждый кластер, если присвоить ему номер или метку.

Если компьютерная программа кластеризации не выдаст такую информацию, ее можно полу-

чить через д искри ми нантный анализ. В табл. 20.3 приведены центроиды или средние значе-

ния для каждого кластера в расматриваемом примере.

Таблица 20,3. Кластерные net

Средние переменных

Номер кластера Vi V2 V3 V4 V$ Vs

I

5,750

1,667

3,500

3,625

3,000

5,833

6,000

1,833

3,333

3,125

3,500

6,000

1,750

5,500

3,500

3,875

3,333

6,000

Кластер 1 имеет относительно высокие значения по переменной Vl (посещение магазинов —

приятный процесс) и переменной К, (я совмещаю посещение магазинов с питанием вне дома).

Он также имеет низкое значение по переменной У$ (меня не интересуют покупки). Следователь-

но, кластер I можно назвать так: "любители посещать магазины и делать покупки". Этот кластер

состоит из случаев 1, 3, 6, 7, 8, 12, 15 и 17. Кластер 2 — прямая противоположность кластеру 1: он

имеет низкие значения по переменным К, и К3 и высокое значение по переменной У5, значит, этот

кластер можно назвать "апатичные покупатели". В кластер входят случаи 2, 5, 9, II, 13 и 20. Кла-

стер 3 имеет высокие значения по переменным V2 (посещение магазинов плохо сказывается на

моем бюджете), У< (я стараюсь сделать лучшие покупки, посещая магазины) и У6 (можно сэконо-

мить много денег, сравнивая цены в разных магазинах). Таким образом, этот кластер можно на-

звать "экономные покупатели". Кластер 3 охватывает случаи 4, 10, 14,16,18и 19.

762 Часть III. Сбор, подготовка и анализ данных

Часто имеет смысл профилировать кластеры через переменные, которые не явились ос-

нованием для кластеризации. Эти переменные могут включать демографические, психогра-

фические характеристики, использование продукта или другие переменные. Например, кла-

стеры можно вывести, исходя из искомых преимуществ. Дальнейшее профилирование осу-

ществляют через демографические или психографические переменные, чтобы определить

маркетинговую стратегию для каждого кластера. Переменные, существенно различающиеся

между кластерами, можно идентифицировать дискриминантным анализом и однофактор-

ным дисперсионным анализом.

Оценка надежности и достоверности

Имея несколько умозаключений, выведенных из кластерного анализа, не следует прини-

мать никакого решения по кластеризации, не выполнив оценку надежности и достоверности

этого решения. Формальные процедуры оценки надежности и достоверности решений класте-

ризации достаточно сложны и не всегда оправданы [14], поэтому мы их опустим. Однако сле-

дующие процедуры обеспечат адекватную проверку качества кластерного анализа.

1. Выполняйте кластерный анализ на основании одних и тех же данных, но с использованием

различных способов измерения расстояния. Сравните результаты, полученные на основе

разных мер расстояния, чтобы определить, насколько совпадают полученные результаты.

2. Используйте разные методы кластерного анализа и сравните полученные результаты.

3. Разбейте данные на две равные части случайным образом. Выполните кластерный анализ




Поделиться с друзьями:


Дата добавления: 2015-05-09; Просмотров: 381; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.229 сек.