Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Коэффициентыканонической дискриминацией функции 8 страница




отдельно для каждой половины. Сравните кластерные центроиды двух подвыборок.

4. Случайным образом удалите некоторые переменные. Выполните кластерный анализ по со-

кращенному набору переменных. Сравните результаты с полученными на основе полного

набора переменных.

5. В неиерархической кластеризации решение может зависеть от порядка случаев в наборе

данных. Выполните анализ несколько раз, меняя порядок случаев, до получения стабиль-

ного решения.

Ниже иерархическая кластеризация проиллюстрируется на примере изучения различий в

маркетинговой стратегии фирм США, Японии и Великобритании.

ПРИМЕР. Этот маленький и тесный мир

Данные для исследования конкурирующих между собой 90 компаний из Соединенных

Штатов Америки, Японии и Великобритании получены из подробных личных интервью с

президентами и высшими должностными лицами, принимающими маркетинговые реше-

ния по группам определенных товаров. В основе методологии контроля рыночных различий

лежало сопоставление 30 британских компаний с их главными американскими и японски-

ми конкурентами на британском рынке. В исследование включено 30 триад компаний, каж-

дая состояла из британских, американских и японских компаний, непосредственно конку-

рирующих между собой.

Большинство данных, касающихся эффективности компаний, стратегии и организации,

собраны с использованием пятибалльных семантических дифференциальных шкал. Первая

стадия анализа включала факторный анализ переменных, описывающих стратегии фирм и

маркетинговые виды деятельности. Для того чтобы идентифицировать группы аналогичных

компаний методом иерархической кластеризации Барда, использовали значения факторов.

В итоге получено шесть кластеров.

Затем принадлежность к одному из шести кластеров интерпретировали относительно ис-

ходных переменных: деятельность, стратегия и организационная структура. Во все кластеры

входило несколько преуспевающих компаний, хотя в некоторых кластерах таких компаний

было существенно больше^ чем в других. Распределение фирм по кластерам подтвердило ги-

потезу о том, что успех компании не зависит от национальной принадлежности, поскольку

американские, британские и японские компании обнаружились во всех кластерах. Однако j

Глава 20. Кластерный анализ 763

наблюдалось преобладание японских компаний в кластерах с наиболее преуспевающими

компаниями и преобладание британских компаний в двух кластерах с наименее преуспе-

ваюшими компаниями. По-видимому, японские компании не применяли свойственных

только им уникальных стратегий, скорее большинство из них следовало стратегиям, которые

эффективно работали на британском рынке.

Стратегические кластеры

'Кластер / II III IV V VI

Название Новаторы Продавцы товаров Законода Продавцы- Зрелые Агрессивные мало-

высокого качества гели цен производители продавцы ристые компании

14 13 13 17

36 38 77 41

Размер

Преуспевающие

компании (%)

Принадлежность

к стране {%)

Японские

Американские

Британские

22 31 15 18

14 31 54 53

64 38 31 29

Исследования показывают, что существуют общие стратегии, характерные для преуспе-

вающих компаний, независимо от отрасли промышленности, к которой они относятся. Оп-

ределены три стратегии успеха. Первая — это стратегия "Продавцов товаров высокого каче-

ства". Такие компании сильны в маркетинге и НИОКР (научно-исследовательских и опыт-

но-конструкторских работах). Их технические разработки концентрируются больше на

достижении высокого качества, а не на чистой инновации. Эти компании отличаются уме-

? нием принимать стратегические решения, долгосрочным планированием и хорошо разви-

I тым осознанием своей миссии, Вторая общая стратегия ("Новаторы") заключается в том,

|

что, компании, которые слабее в проведении НИОКР, более предприимчивы и заняты по-

иском и внедрением новых идей. Последняя преуспевающая группа— "Зрелые продавцы",

которые сильно ориентированы на получение прибыли и обладают высоким мастерством в

1 области маркетинга. Как оказаюсь, все три типа состоят из компаний, которые сильно ори-

! ентированы на маркетинг [15].

ПРИМЕНЕНИЕ НЕИЕРАРХИЧЕСКОЙ

КЛАСТЕРИЗАЦИИ

Проиллюстрируем неиерархический метод, используя данные табл. 20.1 и метод оптимизи-

рующего распределения. Исходя из результатов иерархической кластеризации, мы заранее оп-

ределили, что количество кластеров равно трем (трехкластерное решение). Результаты пред-

ставлены в табл. 20.4.

шяимнн^Н^^в^^^^Л^н^н^^в^^н^вв^шямш^^^^^вшщ^щ^нинмвяявц^шн^^^вщня^в^^^вшп Таблица 20.4. Результаты неиерархической кластеризации

Исходные кластерные центры

Кластер Vi Vz V3 Vt

4,0000

2,0000

7,0000

6,0000

3,0000

2,0000

3,0000

2,0000

6,0000

7,0000

4,0000

4,0000

764 Часть III, Сбор, подготовка и анализ данных

Продолжение табл. 20.4

Кластер

\ 2,0000 7,0000

? 7,0000 2,0000

3 1,0000 3,0000

Классификационные кластерные центры

Кластер V, V2

Кластер

3,8135

1,85-7

6,3558

V,

5,8992

3,0234

2,8356

VB

3,2522

1,8327

6,1576

6,4891

3,7864

3,6736

! 2,5149 6,6957

2 6,4436 2,5056

3 1,3047 3,2010

Слисок кластерной принадлежности объектов

Номер Щ объекта Кластер Расстояние

В

!

1,780

2,254

1,174

1,882

2,525

2,340

1,862

1,410

1,843

2,112

1,923

2,400

3,382

1,772

3,605

2,137

3,760

4,421

0,853

0,813

Конечные кластерные центры

Кластер

V,

3,5000

1,6667

5,7500

V2 V3 V*

5,8333 3,3333 6,0000

3,0000 1,8333 3,5000

3,6250 6,0000 3,1250

Глава 20. Кластерный анализ 765

Окончание табл. 20.4

Кластер

1 3,5000 6,0000

2 5,5000 3,3333

3 1,7500 3,8750

Расстояния между конечными кластерными центрами

Кластер 1 2 3

1 0,0000

2 5,5678 0,0000

3 5,7353 6,9944

Дисперсионный анализ

Переменная MS (средний Степени

квадрат) кластера свободы

0,0000

Ошибка MS Степени

свободы

V:

VV,

29,1083

13,5458

31,3917

15,7125

24,1500

12,1708

0,6078

0,6299

0,8333

0,7279

0,7353

1,0711

17,0

17,0

17,0

17,0

17,0

17,0

F-статнстика

47,8879

21,5047

37,6700

21,5848

32,8440

11,3632

Уровень

значимости, р

0,000

0,000

0,000

0,000

0,000

0,000

Число объектов в каждом кластере

Кластер Невзвешенные случаи Взвешенные случаи

Пропущенный

Итого

6,0

6,0

8,0

0,0

20,0

6,0

6,0

8,0

20,0

Исходные кластерные центры — это значения первых трех объектов. Классификационные

кластерные центры — это промежуточные значения центров, используемые для отнесения объ-

екта к определенному кластеру. Каждый объект относят к ближайшему классификационному

кластерному центру. Классификационные центры обновляют до тех пор, пока не достигнут

критерия остановки. Конечные кластерные центры представляют средние значения перемен-

ных для объектов в конечных кластерах.

В табл. 20.4- также показана кластерная принадлежность объектов и расстояние между каж-

дым объектом и его классификационным центром. Следует отметить, что кластерные принад-

лежности, приведенные в табл. 20.2 (иерархическая кластеризация) и табл. 20.4 (неиерархичес-

кая кластеризация), идентичны (кластер 1 табл. 20.2 является кластером 3 в табл. 20.4, а кластер

3 табл. 20.2 — кластером 1 в табл. 20.4), Расстояния между конечными кластерными центрами

указывают, что пары кластеров хорошо разделены. Для каждой переменной, лежащей в основе

кластеризации, приведено только описательное значение /"-статистики для одномерной вы-

борки. Случаи или объекты систематично относят к кластерам, чтобы максимизировать разли-

чия по переменным, лежащим в основе кластеризации, поэтому полученные значения вероят-

ностей не следует интерпретировать как испытание нулевой гипотезы об отсутствии различий

среди кластеров. Следующий пример о выборе больницы продолжает иллюстрацию неиерар-

хической кластеризации.

766 Часть III. Сбор, подготовка и анализ данных

ПРИМЕР. Сегментация с хирургической точностью

Кластерный анализ использовался маркетологами для классификации пациентов, пред-

почитающих стационарное лечение. Цель анализа — идентификация этого сегмента паци-

ентов, предпочитающих стационарное лечение. Кластеризация опиралась на причины, по

которым респонденты предпочитали лечение в больнице. Для того чтобы узнать, насколько

эффективно можно идентифицировать сегменты, сравнивали демографические профили

сгруппированных респондентов.

Для группирования респондентов на основе их ответов на вопросы, касающиеся выбора

больницы, использовали метод кластеризации, минимизирующий дисперсию, который

выполнили с помощью программы Quick Cluster (программный пакет SPSS). Минимизиро-

вали квадраты евклидовых расстояний между всеми переменными, лежащими в основе кла-

стеризации. Поскольку разные респонденты воспринимали шкалы важности по-разному,

перед кластеризацией персональные рейтинги нормировали. Результаты показали, что рес-

пондентов наилучшим образом можно классифицировать на четыре кластера. Достоверность

результатов кластерного анализа проверили методом перекрестной проверки двух половинок

общей выборки.

Как и ожидалось, четыре группы существенно отличались по кривым распределения и

средним значениям ответов, касающихся причин выбора стационарного лечения. Назва-

ния, присвоенные каждой из четырех групп, отразили демографические характеристики и

причины выбора стационарного лечения; клиенты со старомодными взглядами; богатые

клиенты; клиенты, здраво оценивающие стоимость лечения; клиенты, желающие получить

1 профессиональное медицинское обслуживание [16].

КЛАСТЕРИЗАЦИЯ ПЕРЕМЕННЫХ

Иногда кластерный анализ используют для кластеризации переменных, чтобы опреде-

лить однородные (гомогенные) группы. В этом случае элементами, используемыми для

анализа, будут переменные, и меры расстояния вычисляют для всех пар переменных. На-

пример, коэффициент корреляции либо по абсолютной величине, либо с присущим ему

знаком можно использовать как меру сходства (в противоположность расстоянию) между

переменными.

Иерархическая кластеризация переменных помогает идентифицировать характерные

переменные или переменные, которые вносят уникальный вклад в данные. Кластериза-

ция также используется для уменьшения числа переменных. Связанную с каждым класте-

ром линейную комбинацию переменных в кластере называют кластерным компонентом.

Большой набор переменных часто можно заменить набором кластерных компонентов, по-

теряв при этом незначительную часть информации. Однако данное число кластерных

компонентов обычно не объясняет столько дисперсии, сколько такое же количество глав-

ных компонентов. Тогда возникает вопрос: зачем же использовать кластеризацию пере-

менных? Кластерные компоненты обычно легче интерпретировать, чем главные, даже ес-

ли последние повернутые [17]. Проиллюстрируем кластеризацию переменных на примере

из исследования рекламы.

ПРИМЕР. Эмоции — и ничего, кроме эмоций

Для того чтобы определить, какие эмоции вызывает у людей реклама, было проведено I

маркетинговое исследование. Набор из 655 эмоций уменьшили до 180, после этого их оце- |

нили респонденты, которые, вероятнее всего, наиболее подвержены рекламе. Эту группу |

разбили на 31 кластер похожих эмоций, исходя из оценок респондентов о влиянии на них I

| рекламы. Затем эти кластеры разделили на 16 кластеров с положительными эмоциями и ]

I 15 — с отрицательными [18].

Глава 20. Кластерный анализ 767

Положительные эмоции

1. Игривость-несерьезность

2. Дружелюбие

3. Юмор

4. Восхищение

5. Интерес

6. Сила-уверенность

7. Сердечность-нежность

8. Рассла&ленность

9. Энергия-импульсивность

10. Страстное желание-воэбуадение

11. Размышление

12. Гордость

13. Убежденность-ожидание

14. Бодрость-вызов

15. Изумление

16. Горячее желание-осведомленность

Отрицательные эмоции

1. Страх

2. Испорченное настроение-досада

3. Смущение

4. безразличие

5. Скука

6. Грусть

7. Беспокойство

8. Беспомощность-робость

9. Неприязнь-глупость

10. Сожаление-обман

11. Гнев

12. Неловкость

13. Отвращение

14. Раздражение

15. Дурное настроение-замешательство

Таким образом 665 эмоций — откликов на рекламу, снизили до основного набора из 31

i эмоции. Теперь менеджеры в сфере рекламы имеют управляемый набор эмоций (чувств),

I позволяющий понять и измерить эмоциональные отклики респондентов на рекламу. Буду-

| чи измеренными, эти эмоции предоставляют информацию о способности рекламы убеждать

| целевых потребителей.

Кластерный анализ может оказаться полезным при изучении проблем этики маркетинго-

вых исследований (врезка 20.1 "Практика маркетинговых исследований" [19]).

Врезка 20.1. Практика маркетинговых исследований

Кластеризация профессионалов в маркетинге на основе оценки этичности ситуаций

Кластерный анализ используется для объяснения различий в восприятии этических

норм. Для измерения этичности различных ситуаций разработаны шкалы, состоящие из не-

скольких разделов и многих пунктов (многоразмерные шкалы). Одна из таких шкал создана

Райденбахом и Робином (Reidenbach and Robin), она состоит из 29 пунктов, которые охваты-

вают пять областей этики, и служит для оценки респондентом конкретного действия. На-

пример, респондент прочтет о том, что исследователь-маркетолог предоставил частную ин-

формацию об одном из своих клиентов другому клиенту. Респондента попросят заполнить

анкету из 29 пунктов. Например, его просят указать, каким является это действие:

Справедливое (действие);__j;::::: Несправедливое

Обычно приемлемое::;::: _:: Неприемлемое

Имеет место нарушение:::;::::; Нет нарушения условий контракта

Эту шкалу использовали при опросе специалистов-маркетологов. На основе ответов на

29 пунктов анкеты респондентов разделили на кластеры, при этом изучались два основ-

ных вопроса. Во-первых, чем отличаются кластеры с точки зрения таких этических ком-

понентов, как справедливость, релятивизм, эгоизм, утилитаризм, деонтология

(подробности — в главе 24). Во-вторых, какие типы фирм входят в каждый из кластеров?

Кластеры можно описать с точки зрения стандартной промышленной классификации от-

раслей (SIC) и рентабельности фирм. Ответы на эти вопросы позволят увидеть, каким из

768 Часть 111, Сбор, подготовка и анализ данных

принципов этики руководствуется определенный тип руководителей фирм для оценки

этичности ситуаций. Например, попадут ли крупные и мелкие фирмы в один и тот же

кластер? Действительно ли рентабельные фирмы относятся к спорным ситуациям лояль-

нее, чем менее прибыльные фирмы?

ИСПОЛЬЗОВАНИЕ INTERNET И КОМПЬЮТЕРА

В SPSS главной программой для иерархической кластеризации объектов является

CLUSTER. Можно вычислить различные значения меры расстояний, доступны также все ме-

тоды кластеризации, рассмотренные в этой главе. Для неиерархической кластеризации ис-

пользуется программа QUICK CLUSTER. Она чрезвычайно полезна для кластеризации боль-

шого количества случаев. Все опции по умолчанию приводят к кластеризации методом k-

средних. Для кластеризации переменных следует вычислять значения меры сходства по всем

переменным, используя программу PROXIMITIES. Матрицу близости можно получить с по-

мощью программы CLUSTER

В SAS используется программа CLUSTER для иерархической кластеризации случаев или

объектов. Доступны все методы кластеризации, описанные в данной главе, а также некоторые

дополнительные. Неиерархическая кластеризация случаев или объектов выполняется с помо-

щью FASTCLUS. Для кластеризации переменных используется программа VARCLUS. Дендро-

граммы не вычисляются автоматически, их можно получить с помощью программы TREE.

В программном пакете BMDP главной программой для кластеризации случаев с использо-

ванием иерархических методов является 2М. Она позволяет использовать несколько мер рас-

стояний, но только одну из процедур кластеризации: метод одиночной связи, центроидный

метод или правило k ближайших соседей. Для неиерархичсской кластеризации используется

программа КМ, позволяющая выполнять кластеризацию объектов с ^-средними. Кластериза-

ция переменных выполняется программой 1М. Она дает возможность использовать методы

одиночной, полной и средней связи. Существует также специальная программа ЗМ для по-

строения блок-кластеров для категориальных переменных. Поднаборы объектов объединяются

в кластеры, аналогичные поднаборам переменных.

В Minitab можно оценить кластерный анализ, используя функцию Multivariate>Cluster observation.

Кроме того, существуют функции Clustering of Variables и Cluster K-Means. Кластер-

ный анализ нельзя выполнить в Excel (версия 7.0 для PC).

В центре внимания Burke

Когда компания Burke представляет результаты кластерного анализа клиенту, он должен

получить ответы на следующие три существенных вопроса.

1. Что я могут узнать с помощью кластеров о моем рынке?

2. Какие переменные лежат в основе кластеризации?

3. Насколько отличаются кластеры?

Что я могут узнать с помощью кластеров о моем рынке?

Чтобы ответить на этот вопрос, компания Burke обычно использует данные респонден-

1 тов, которые не были включены в процедуру кластеризации. Например, нам удалось опре-

г делить четыре кластера респондентов, исходя из их оценок преимуществ товара. Для провер-

ки нашего предположения о наличии четырех кластеров мы также собрали фактические

данные о поведении покупателей и их намерениях относительно покупок. Если кластеры не

отражают каких-либо важных для руководства значимых различий по этим показателям,

описывающим поведение при покупке товара и намерения купить его, то сложно убедить

1 руководство компании-заказчика в том, что деление клиентов на кластеры целесообразно.

\ Поскольку цель кластеризации — создание групп, очень схожих между собой, то нет гаран-

| тии, что они будут отличаться чем-либо другим, кроме внешних признаков.

Глава 20. Кластерный анализ 769

Какие переменные лежат в основе кластеризации?

Если для создания кластеров мы используем несколько переменных, то следует быть

внимательным, чтобы не создать неявно взвешенную систему. Например, в маркетинговом

исследовании в сфере автоиндустрии заказчик предложил сгруппировать респондентов в со-

ответствии с ответами на 20 вопросов, касающихся желаемых преимуществ нового автомо-

биля. Уже при первом их рассмотрении стало ясно, что семь вопросов прямо или косвенно

связаны с экономией денег, восемь — с имиджем, три — с ценой и два отражали скоростные

качества автомобиля. Можно было спрогнозировать, что вопросы, лежащие в основе класте-

ризации, скорее всего приведут руководство компании к выводу о том, что группы респон-

дентов, по-видимому, больше всего отличаются отношением к экономии денег и имиджу

автомобиля. Но когда вы вычислите евклидовы расстояния, чтобы изучить различия между

респондентами, то в формулу их расчета будет входить данные, полученные при ответах на

!5 вопросов относительно экономии и имиджа и только пять, касающиеся вопросов из об-

ласти ценовых и скоростных характеристик автомобиля. Если эти вопросы имеют сопоста-

вимые шкалы, то явно будет завышено значение данных из первых двух категорий. Разум-

нее сократить как можно больше похожих вопросов, чтобы получить в каждой категории

одинаковое число вопросов, отражающее высоко коррелированные группы вопросов. Если

этого не сделать, то число вопросов, которые вы зададите по данной проблеме, может сильно

повлиять на ваши результаты, сильнее, чем сама проблема.

Насколько отличаются кластеры?

Выше, в первом пункте, мы обсудили, насколько целесообразно выделять кластеры с точки

зрения существования различий между переменными, Нам также необходимо проверить, дейст-

вительно ли кластеры различаются с точки зрения переменных, которые лежали в основе созда-

ния кластеров. Вы можете ввести данные в алгоритм кластеризации, и если вы зададите остановку

этого процесса на двух кластерах, то получите два кластера в силу самой природы этого процесса, а

вовсе не из-за логики проблемы или структуры различий, существующих в изучаемой совокупно-

сти. Поэтому после деления на кластеры важно убедиться, что различия имеют достаточную вели-

чину и стабильность, чтобы вы были уверены в полученных результатах.

1. Маловероятно, что кластеры отличаются по всем вопросам, использованным в качестве

исходных данных для процесса кластеризации. Хотя статистические процедуры не дей-

ственны применительно к систематически создаваемым кластерам, они помогают по-

нять процесс формирования кластеров. Однофакторный дисперсионный анализ пока-

жет, различаются ли отдельные вопросы между сформированными кластерами, исходя

из значения статистики, которая больше всего подходит для вероятностной выборки

(конечно, это не то, что вы хотите... но все же лучше иметь такой "коэффициент"). При-

влекательнее использование дискриминантного анализа, поскольку он покажет, какие

из вопросов станут потенциальными дискриминаторами групп, учитывая при этом кол-

линеарность между этими предикторами.

2. Значимость различий между кластерами с точки зрения руководства — это отдельная

проблема. Предположим, ваши кластеры представляются различными по статистиче-

ским показателям (полученным в результате дисперсионного и дискриминантного ана-

лиза). Однако это вовсе не означает, что различия настолько велики, что руководство

компании-заказчика сочтет их полезными для решения своих проблем. Рассмотрим, на-

пример, такую ситуацию. Вопрос, по которому было проведено различие кластеров, от-

носился к экономии средств, и 90% ответов находилось в диапазоне от 6 до 9 по десяти-

балльной шкале.

Чтобы убедить руководство принять во внимание такое разделение между кластерами,

вам необходимо предоставить дополнительные убедительные доказательства. Дело в том,

что оценки респондентов показывают различия в степени "положительного отношения"

и ничего не говорят о величине различий в рамках одного кластера. Это трудный вопрос,

и нет рецепта для ответа на него. Конечно, было бы лучше, если бы вы могли перевести

эти численные различия в решения, имеющие смысл для высшего руководства.

770 Часть 111. Сбор, подготовка и анализ данных

РЕЗЮМЕ

Кластерный анализ используют для группирования (классификации) объектов (событиев,

случаев), а иногда и переменных в относительно однородные группы. Образование кластеров

зависит от имеющихся данных, а не определяется заранее.

Переменные, которые являются основанием для кластеризации, следует выбирать, исхо-

дя из опыта предшествующих исследований, теоретических предпосылок, проверяемых ги-

потез, а также по усмотрению исследователя. Кроме того, следует выбрать соответствующую

меру расстояния (сходства). Особенность иерархической кластеризации — разработка иерар-

хической или древовидной структуры. Иерархические методы кластеризации могут быть аг-

ломеративными или дивизивными. Агломеративные методы включают: метод одиночной

связи, метод полной связи и метод средней связи. Широко распространенным дисперсион-

ным методом является метод Барда. Неиерархические методы кластеризации часто называют

методами ^-средних. Эти методы включают последовательный пороговый метод, параллель-

ный пороговый метод и оптимизирующее распределение. Иерархические и неиерархические

методы можно применять совместно. Выбор метода кластеризации и выбор меры расстояния

взаимосвязаны.

Решение о числе кластеров принимают по теоретическим и практическим соображе-

ниям. В иерархической кластеризации важным критерием принятия решения о числе класте-

ров являются расстояния, при которых происходит объединение кластеров. Относительные

размеры кластеров должны быть такими, чтобы имело смысл сохранить данный кластер, а не

объединить его с другими. Кластеры интерпретируют с точки зрения кластерных центроидов.

Часто интерпретировать кластеры помогает их профилирование через переменные, которые не

лежали в основе кластеризации. Надежность и достоверность решений кластеризации оцени-

вают разными способами.

КЛЮЧЕВЫЕ ТЕРМИНЫ И ПОНЯТИЯ

агломеративная кластеризация

(agglomerative clustering)

дивизивная кластеризация (divisive clustering)

дисперсионный метод (variance methods)

древовидная диаграмма (дендрограмма)

(dendrogram)

евклидово расстояние (euclidean distance)

иерархическая кластеризация (hierarchical

clustering)

кластерные центры (cluster centers)

кластерный центроид (cluster centroid)

матрица сходства/матрица коэффициен-

тов (значений расстояний между объеди-

няемыми объектами) (similarity/distance

coefficient matrix)

метод Варда (Ward's procedure)

метод одиночной связи (single linkage)

метод оптимизирующего распределения

(optimizing partitioning method)

метод полной связи (complete linkage)

метод средней связи (average linkage)

методы связи (linkage methods)

неиерархическая кластеризация

(nonhierarchical clustering)

параллельный пороговый метод (parallel

threshold method)

план агломерации (allomeration schedule)

последовательный пороговый метод

(sequential threshold method)

расстояния между центрами кластеров

(distances between cluster centres)

сосульчатая диаграмма (icicle diagram)

центроидный метод (centroid method)

Глава 20. Кластерный анализ 771

УПРАЖНЕНИЯ

Вопросы

1. Обсудите сходство и различие между кластерным и дискриминантным анализом.

2. Назовите примеры использования кластерного анализа в маркетинге.

3. Дайте краткие определения следующим терминам: дендрограмма, сосульчатая диаграмма,

графи к агломерации и кластерная принадлежность.

4. Что является наиболее распространенной мерой сходства в кластерном анализе?

5. Дайте классификацию процедур кластеризации,

6. Почему обычно предпочитают использовать метод средней связи, а не одиночной и пол-

ной связи?

7. Назовите два главных преимущества процедур неиерархической кластеризации.

8. Чем следует руководствоваться при принятии решения о количестве кластеров?

9. Что понимают под интерпретацией кластеров?

10. Что представляют собой дополнительные переменные, используемые для профилирования

кластеров?

П. Опишите несколько процедур для оценки качества (надежности и достоверности) кластер-

ного анализа.

12. Как кластерный анализ используют для группирования переменных?

Задачи

1. Верны ли следующие утверждения.

a) Методы иерархической и неиерархической кластеризации всегда приводят к разным




Поделиться с друзьями:


Дата добавления: 2015-05-09; Просмотров: 387; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.25 сек.