Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Коэффициентыканонической дискриминацией функции 2 страница




Рис. 18.2. Диаграмма рассеяния всех, групп

Глава 18. Дискриминантный анализ 703

"путешествие", "отдых'' и "возраст'. К аналогичному заключению можно прийти, изучив струк-

турную матрицу (см. табл. 18.5), Для удобства интерпретации переменные с большими коэффи-

циентами для конкретной функции группируют вместе. Эти группировки отмечены звездочкой.

Так "доход" и "размер семьи" помечены звездочкой для функции 1, поскольку эти переменные

имеют коэффициенты, значения которых для функции 1 выше, чем для функции 2. Эти пере-

менные связаны главным образом с функцией 2, что и показывают звездочки.

На рис. 18.2 приведена диаграмма рассеяния всех групп для функций 1 и 2.

Видно, что группа 3 имеет наивысшее значение по функции 1, а группа 1 — самое низкое. По-

скольку функция 1 в первую очередь связана с переменными "доход" и "размер семьи", можно ожи-

дать, что три группы будут ранжированы по этим двум переменным, Большие семьи, имеющие бо-

лее высокие доходы, вероятно, будут тратить большую сумму на отдых. И наоборот, небольшие семьи

с низкими доходами, вероятно, будут тратить небольшие суммы денег на отдых. Эти результаты под-

тверждаются проверкой групповых средних по переменным: доход и размер семьи.

Кроме того, рис. 18.2 показывает, что функция 2 стремится разделить группы 1 (наивысшее

значение) и 2 (наиболее низкое значение). Эта функция главным образом связана с перемен-

ными "путешествие", "отдых" и "возраст". Имея положительную корреляцию этих переменных

с функцией 2 в структурной матрице, мы ожидаем, что значения переменных "путешествие",

"отдых" и "возраст" в группе 1 больше, чем значения тех же переменных в группе 2. Это дейст-

вительно верно для переменных "путешествие1" и "отдых", на что указывают внутригрупповые

средние этих переменных. Если семьи в группе 1 лояльнее относятся к путешествию и придают

По горизонтали: функция 1

По вертикали: функция 2

-8,0 -6,0 -4,0

'Отмечает групповой центр

Рис. 18.3. Территориальная карта

6,0 8,0

704 Часть III. Сбор, подготовка и анализ данных

большее значение семейному отдыху, по сравнению с семьями из группы 2, то почему они тра-

тят на это меньше денег? Возможно, они и хотели бы потратить большую сумму на отдых, но

они не могут сделать этого из-за низких доходов.

Аналогичные выводы получены с помощью территориальной карты, (territorial map), пока-

занной на рис. 18.3.

Территориальная карта (territorial map)

Инструмент для оценки результатов дискриминантного анализа на основе построения диа-

граммы групповой принадлежности каждого случая.

На территориальной карте каждый групповой центроид указан звездочкой. Границы груп-

пы показаны числами в соответствии с номерами групп. Таким образом, центроид группы 1

ограничен цифрами 1; центроид группы 2 — цифрами 2; центроид группы 3 — цифрами 3.

Оценка достоверности дискриминантного анализа

Результаты классификации, полученные на основе анализируемой выборки показывают,

что (9 + 9 +8)/30 = 86,67% случаев классифицировано верно. Если классификационный ана-

лиз выполняют на основе проверочной независимой выборки табл. 18.3, то процент попаданий

немного меньше— 83,3%. Задав три группы равного размера, и исходя только из случайности,

можно ожидать, что коэффициент результативности (процент попаданий) равен 1/3 = 0,333

или 33,3%. Превышение полученного результата над случайным составляет 50%, и это свиде-

тельствует об удовлетворительной достоверности модели [14].

Следующий пример иллюстрирует применение множественного дискриминантного ана-

лиза для нескольких групп.

ПРИМЕР. Дом — там, где нравится пациенту

Для определения отношения людей к четырем системам предоставления медицинских

услуг (медицинское обслуживание на дому, больницы, дома престарелых и амбулаторные

клиники) проведен их опрос по 10 характеристикам обслуживания. Полученные 102 ответа

проанализированы с помощью множественного дискриминантного анализа (табл. 1).

Таблица 1. Нормированные коэффициенты дискриминацией функции

Дискриминантная функция

Переменная 1 2 3

Безопасность - 0,20 - 0,04 0,15

Удобство (близость) 0,08 0,08 0,07

Вероятность медицинских осложнений3 - 0,27 0,10 0,16

Дороговизна (услуги)3 0,30 - 0,28 0,52

Комфортабельность (комфорт) 0,53 0,27 - 0,19

Санитария - 0,27 - 0,14 - 0,70

Наилучшее медицинское обслуживание - 0,25 0,67 - 0,10

Уединенность (приватность) 0,40 0,08 0,49

Более быстрое выздоровление 0,30 0,32 - 0,15

Комплектация лучшим медицинским персоналом -0,17 - 0,03 0,18

Процент объясняемой дисперсии 63,0Ь 29,4° 7,6°

Статистика хи-квадрат 663,3 289,2 70,1

| вопроснике эти два пункта заданы наоборот. Для анализа данных их закодировали в обратном порядке.

ьр<0,01

Глава 18. Дискриминантный анализ 705

Определены три дискриминантные функции. Проверка статистик хи-квадрат показала,

что все три дискриминантные функции значимы при уровне 0,01. Вклад первой функции в

общую дискриминирующую способность составил 63%, а вклад оставшихся двух функ-

ций — 29,4% и 7,6% соответственно.

В табл. 1 представлены нормированные коэффициенты дискриминантной функции 10

переменных в дискриминантных уравнениях. Значения коэффициентов варьирует в преде-

лах от —1 до + I. При определении способности каждой характеристики классифицировать

(делить на группы) систему предоставления медицинских услуг использованы абсолютные

значения. В первой дискриминантной функции двумя переменными с самыми большими

коэффициентами оказались переменные "комфорт" (0,53) и "приватность v (0,40). Посколь-

ку обе переменные связаны с персональным обслуживанием и медицинским уходом, то

первая характеристика обозначена как "индивидуальный уход''. Во второй функции двумя

переменными с самыми большими коэффициентами стали переменные "качество меди-

цинского обслуживания" (0,67) и "вероятность более быстрого выздоровления" (0,32). По-

этому эта характеристика названа "качество медицинского обслуживания". В третьей дис-

криминантной функции наиболее значимыми характеристиками оказались "санитария" (—

0,70) и "дороговизна (услуг)" (0,52). Поскольку эти две характеристики представляют стои-

мость и цену, третья дискриминантная функция получила название "стоимость".

Значения четырех групповых центроидов показаны в табл. 2.

Таблица 2. Центроиды систем медицинского обслуживания в дискриминантном пространстве

Дискриминантная функция

Система 1 2 3

Больница (стационар) -1,66 0,97 - 0,08

Медицинское обслуживание на дому - 0,60 -1,36 - 0,27

^Амбулаторная клиника 0,54 -0,13 0,77

Медицинский уход в домах престарелых 1,77 0,50 - 0,39

Данные таблицы показывают, что медицинское обслуживание на дому оценивается как

наиболее приемлемое обслуживание по характеристике "индивидуальный уход", а пребыва-

ние в больнице — как наихудший вариант. Что касается характеристики "качество меди-

цинского обслуживания", то здесь наблюдалось существенное различие между медицин-

ским обслуживанием на дому и другими тремя системами. По этой характеристике

"качество медицинского обслуживания", "обслуживание на дому" также получило наи-

высшие оценки по сравнению с амбулаторными клиниками. Но, с другой стороны, амбула-

торные клиники оценены как наилучшие с точки зрения предлагаемой цены.

Классификационный анализ 102-х респондентов, представленный в табл. 3, показывает

верное отнесение к группам, начиная с 86% для больниц и 68% — для амбулаторных клиник.

Таблица 3, Классификационная таблица

Отнесение к класу (в %)

' Система Больница Медицинское обслу- Амбулаторная Медицинский уход

живание на дому клиника а домах престарелых

Больница 86 6 6 2

Медицинское обслуживание н а дому 9 78 1 0 3

j

I Амбулаторная клиника 9 13 68 10

f Медицинский уход в домах престарелых 5 4 13 78

Неверная классификация для больниц составила по 6% для домов престарелых и амбула-

торных клиник и 2% — для медицинского обслуживания на дому (вместо отнесения к боль-

ницам 6% было отнесено к домам престарелых и амбулаторным клиникам и 2% — к медицин-

скому обслуживанию на дому). Неверная классификация для домов престарелых была такой: I

706 Часть III. Сбор, подготовка и анализ данных

9% отнесли к больницам, 10% — к амбулаторным клиникам и 3% — к медицинскому обслу-

живанию на дому. Неверная классификация для амбулаторных клиник была такой: 9% невер-

но отнесли к больницам, 13% — к домам престарелых и 10% — к медицинскому обслужива-

нию на дому. Для медицинского обслуживания на дому неверная классификация оказалась

такой: 5% отнесли к больницам, 4% — к домам престарелых и 13% — к амбулаторным клини-

кам. Результаты показали, что дискриминантные (классифицирующие) функции оказались

достаточно точными при предсказании групповой принадлежности [15].

ПОШАГОВЫЙ ДИСКРИМИНАНТНЫЙ АНАЛИЗ

Пошаговый дискриминантный анализ аналогичен пошаговому множественному регресси-

онному анализу (см. главу 17) в том отношении, что предикторы вводят последовательно, ис-

ходя из их способности различать (дискриминировать) группы. Значение.F—статистики рас-

считывают для каждого предиктора, выполняя одномерный дисперсионный анализ, в котором

группы рассматривают как категориальную переменную, а предиктор — как критериальную

переменную. Предиктор с самым высоким значением /"-статистики первым отбирают для

включения в дискриминантую функцию, если он удовлятворяет определенной значимости и

допустимому критерию. Второй предиктор вводят, исходя из самого высокого скорректирован-

ного или частного значения F, и приняв во внимание уже выбранный предиктор.

Для того чтобы каждый выбранный предиктор оставить в уравнении, его проверяют, исхо-

дя из его связи с другими предикторами. Процесс введения и исключения продолжают до тех

пор, пока все предикторы не будут удовлетворять критерию значимости — условию, необходи-

мому для введения этих предикторов в дискриминантную функцию. На каждой стадии рас-

считывают несколько статистик. Кроме того, в заключение подводят итог введенным или ис-

ключенным предикторам. Пошаговый метод приводит к тому же стандартному выводу кото-

рый вытекает из прямого метода.

Выбор пошагового метода основан на оптимизации принятого критерия. Метод Махалано-

биса (Mahalanobis procedure) основан на максимизации обобщенной меры расстояния между

двумя самыми близкими группами. Этот метод позволяет маркетологам-исследователям из-

влечь максимальную пользу из имеющейся информации [16].

Метод Махаланобиса (Mahalanobis procedure)

Пошаговый метод, используемый в дискриминантном анализе для максимизации обобщен-

ной меры расстояния между двумя самыми близкими группами.

Метод Махаланобиса использован для выполнения пошагового дискриминантного анализа двух

групп при изучении данных в табл. 18,2 и 18.3. Первой выбранной переменной был доход, за ним

следовали размер семьи и отдых. Порядок введения переменньгх указывает на их значимость в дис-

криминации двух групп. Впоследствии это подтвердила проверка нормированных коэффициентов

д искри минантной функции и структура коэффициентов корреляции. Обратите внимание, что ре-

зультаты пошагового анализа согласуются с выводами, ранее полученными прямым методом.

Врезка 18.1 "Практика маркетинговых исследований"— пример применения дискрими-

нантного анализа в международных маркетинговых исследованиях [17], а врезка 18.2

"Практика маркетинговых исследований" представляет собой исследование этических про-

блем в маркетинге [18].

Врезка 18.1. Практика маркетинговых исследований

Навстречу пожеланиям клиентов

В настоящее время все больше компьютерных компаний акцентируют внимание на про-

граммах оказания услуг потребителям, а не на характеристиках и возможностях компьюте-

ров. Компания Hewlett-Packard усвоила этот урок, работая на рынках Европы. Исследование,

Глава 18. Дискриминантный анализ 707

проведенное на европейском рынке, выявило, что требования клиентов в отношении оказы-

ваемых услуг различаются в зависимости от возраста потребителя. Изучение целевых групп

показало, что потребители старше 40 лет испытывают технические трудности при работе на

компьютере и поэтому как никто другой нуждаются в программах поддержки. С другой сто-

роны, молодые потребители должным образом оценивали технические новинки, которые

вносились в компьютер по их желанию. В ходе маркетинговых исследований определены

факторы, приводящие к различиям этих двух возрастных групп. Маркетологи выполнили

д искрим и нантный анализ для двух групп, в котором в качестве групп были удовлетворен-

ные и неудовлетворенные клиенты, а несколькими независимыми переменными являлись

следующие; техническая информация, легкость в обращении, разнообразие и масштаб про-

грамм оказания услуг для клиентов и т.д. Результаты подтвердили, что переменная

"разнообразие и масштаб программ оказания услуг для клиентов" — действительно сильный

дифференцирующий фактор. Это было главным результатом исследования, поскольку те-

перь компания Hewlett-Packard могла лучше удовлетворять желания неудовлетворенных

клиентов, делая акцент больше на обслуживании потребителей, а не на технических деталях.

В результате компания Hewlett-Packard успешно провела в жизнь три программы услуг: про-

грамму обратной связи с клиентами, программу опросов по удовлетворению желаний потре-

бителей и программу тотального контроля качества. Эти усилия способствовали полной

удовлетворенности клиентов компьютерами и услугами.

Врезка 18.2. Практика маркетинговых исследований

С помощью дискриминантного анализа можно разобраться в вопросах этики

Для определения важных переменных, которые позволяют спрогнозировать этичное и

неэтичное поведение, маркетологи использовали дискриминантный анализ. Предваритель-

ное исследование показало, что на принятие этических решений влияют следующие пере-

менные: отношение к этике, позиция руководства, наличие или отсутствие Этического ко-

декса и размер организации.

Для определения наилучших предикторов нравственного поведения провели опрос 149

фирм, в котором попросили указать, как ведет себя фирма в каждой из 18-ти различных си-

туаций. Из этих 18-ти ситуаций 9 были связаны с маркетинговыми видами деятельности,

Эти виды деятельности включали: использование вводящих в заблуждение презентаций то-

вара; принятие подарков для приоритетного обслуживания; калькуляция цен, заниженная

по сравнению с фактической оплатой наличными и тому подобное. Основываясь на этих де-

вяти пунктах, фирмы разбиты на две группы: "непрактикующие (такие методы)" и

"практикующие (такие методы)".

Проверка переменных, влияющих на классификацию, показала, что переменные

"отношение к этике" и ''размер компании"— наилучшие предикторы нравственного пове-

дения. Выявлено, что более мелкие фирмы демонстрируют более этическое поведение в

сфере маркетинга.

ИСПОЛЬЗОВАНИЕ INTERNET И КОМПЬЮТЕРА

В SPSS процедуру DISCRIMINANT используют для выполнения дискриминантного ана-

лиза. Это общая программа для дискриминантного анализа для двух групп или множественно-

го дискриминантного анализа. Кроме того, с ее помощью можно выполнить прямой или по-

шаговый метод.

В программе SAS для выполнения дискриминантного анализа для двух групп или множе-

ственного дискриминантного анализа можно использовать процедуру DISCRIM. Если допу-

щение о многомерном нормальном распределении не выполняется, то можно использовать

708 Часть III. Сбор, подготовка и анализ данных

процедуру NEIGHBOR. В этой процедуре для классификации наблюдений используют непа-

раметрическое правило "ближайших соседей". Программа CANDISC выполняет канонический

дискриминантный анализ и связана с анализом основных компонентов и канонической кор-

реляцией. Процедуру STEPDISC можно использовать для выполнения пошагового дискрими-

нантного анализа.

В программном пакете BMDP для выполнения пошагового д искри ми нантного анализа

можно использовать программу Р7М. Но она не дает нормированные коэффициенты дискри-

минантной функции [19].

В Minitab дискриминантный анализ можно выполнить с помощью функции

Stats>Multivariate>Discrimmate Analysis. Она позволяет вычислить как линейный, так и квад-

ратный дискриминантный анализ при разбиении (классификации) наблюдений на две или

больше групп. Дискриминантный анализ недоступен в Excel (версия 7.0 для PC).

Как и во множественном регрессионном анализе, использование дискриминантно-

го анализа первоначально заключалось в предсказании и определении сравнительной

важности независимых переменных. Главное отличие этих двух методов в том, что в

рамках множественной регрессии используют зависимую переменную, выраженную в

интервальной или относительной шкале, а в дискриминантном — категориальную за-

висимую переменную. В то время как множественный регрессионный анализ можно

использовать для определения степени покупательского интереса к данному товару,

дискриминантный анализ только установит принадлежность человека к группе поку-

пателей или непокупателей.

Один из вопросов для исследователя заключается в том, использовать "естественные

группы'1 или "искусственно созданные". Например, если вас интересует возраст респонден-

тов, то вы часто собираете данные по возрастным категориям, а не используете фактический

возраст респондентов. В этом случае используемые категории определят результат анализа, в

котором они должны выступать как зависимая переменная. Объединяя людей в усреднен-

ные возрастные группы, вы можете увидеть различия между ними. Взгляд на детальные

данные позволит вам сделать определенные выводы о создании больших по размеру групп

респондентов, исходя из любого частного показателя. В другой ситуации вы можете также

собрать данные о том, проживает респондент один в квартире или с кем-то. Для описания

условий проживания естественно использовать номинальные категории, поскольку трудно

подобрать показатели, измеряемые по интервальной шкале. Если группы выбраны пра-

вильно, то это вселяет уверенность в качестве результатов.

В ходе проведенного Burke маркетингового исследования использования торговой марки

получена следующая классификационная матрица. Каждому респонденту задали вопрос:

старается ли он покупать товары определенной торговой марки? Далее попытались разли-

чить респондентов, исходя из их оценок выгод, которые приносит обладание данным това-

ром. Каждый респондент рассматривался с точки зрения того, придерживаются они покупок

товара определенной торговой марки или нет. Из всей выборки 30% (60 человек) ответили,

что они не стремятся купить товар определенной торговой марки, а 70% {202 человека) —

стремятся. Обычно при непропорциональном распределении групп среди населения ожи-

дают, что большая по размеру группа будет предсказана с большей точностью по сравнению

с меньшей. Об этом свидетельствует тот факт, что если использовать для прогноза случай-

ный выбор, то к первой группе (приверженцев торговой марки) будет отнесено 49% (0,7 *

0,7), а ко второй 9% (0,3 * 0,3). Процент неверно классифицированных респондентов соста-

вит 42% от всего числа (0,3 * 0,7 + 0,7 * 0,3). Эта модель классифицирует меньшую группу

(неприверженцев торговой марки) менее точно, чем группу приверженцев, но все равно

точнее, чем при отнесении респондентов к группе методом случайного выбора.

Кроме того, маркетологи выполнили перекрестную проверку с помощью программы

SPSS. В этой программе дискриминантную модель пересчитывают столько раз, сколько рее-!

пондентов в выборке. Каждый пересчет исключает одного респондента, и модель использу- |

Глава 18. Дискриминантный анализ 709

ется для отнесения его к определенной группе. Если нет возможности использовать боль-

шую проверочную выборку, то целесообразно выполнять перекрестную проверку для надеж-

ности расчета, поскольку в перекрестной проверке изучают каждого респондента по очереди.

В этой ситуации перекрестная проверка приводит почти к такому же уровню точности, как и

полная модель. Обратите внимание, что перекрестная проверка дает больше ошибок при

предсказании респондентов меньшей группы.

Результат, полученный стандартным методом, иногда не подходит к альтернативным

способам, с помощью которых менеджмент может пожелать интерпретировать модель в све-

те подразумеваемого использования результатов. Например, руководство спрашивает: "Если

бы вы должны были предсказать, что данный респондент относится к группе непривержен-

цев торговой марки, то какова ожидаемая вероятность того, что вы правы?" В этой ситуации

(используя перекрестную проверку) специалисты фирмы Burke могли бы сказать: "Мы

вправе ожидать, что предсказанное число респондентов, соответствующих группе

"неприверженцы торговой марки", составило около 18% от всего числа опрошенных [(33 +

15)/262 = 0,18]/' При этой проверке следует ожидать, что будет верно отнесено примерно

69% респондентов (33/48 = 0,69). Результат, полученный стандартным путем, сразу не по-

казывают руководству. Возвращаясь к методу случайного выбора, фирма Burke могла бы

сказать руководителям: "Метод случайного отбора оценил бы количество неприверженцев

торговой марки в 30%, и эта цифра была бы верна только на 43%" (т.е. доля выборки слу-

чайно отнесенной к группе "неприверженцы торговой марки" равна 0,3 * 0,7 + 0,3 * 0,3 =

0,30; доля верно классифицированных респондентов составляет 0,3 * 0,3/0,3 *0,7 = 43%).

Но, увидев только процент верно классифицированных респондентов, нельзя оценить всю

картину целиком.

Результаты классификации

Предсказанная групповая принадлежность

Придерживаетесь ли Нет Да Итог

торговой марки

Исходный Количество Нет 35 25 60

Да 15 187 202

% Нет 58,3 41,7 100,0

Да 7,4 92,6 100,0

Полученный с помощью Количество Нет 33 27 60

перекрестной проверки3

Да 15 187 202

% Нет 55,0 45,0 100,0

Да 7,4 92,6 100,0

Примечание, а. Перекрестная проверка выполнена только для случаев анализируемой выборки. При перекрестной провер-

ке каждый случай классифицировали с помощью функций, выведенных на основе всех случаев, а не этого одного случая.

34,7% от всех случаев в исходной группе классифицировано верно.

34,0% от всех случаев, для которых выполнена перекрестная проверка, классифицировано верно.

РЕЗЮМЕ

Дискриминантный анализ целесообразно использовать, когда зависимая переменная явля-

ется категориальной, а предикторы (независимые переменные) — интервальными. Если зави-

симая переменная имеет две категории, то используемый метод известен как дискриминант-

ный анализ для двух групп. Если анализируют три или больше групп, то метод называют мно-

жественным дискриминантным анализом.

710 Часть III. Сбор, подготовка и анализ данных

Процедура дискриминантного анализа состоит из пяти шагов. Первый шаг — формули-

рование проблемы, требует определения целей, зависимой и независимых переменных. Вы-

борку делят на две части. Анализируемую выборку используют для вычисления дискрими-

нантной функции; проверочную— для проверки достоверности модели. Второй шаг— оп-

ределение функции, включает выведение такой линейной комбинации предикторов

(дискрнминантных функций), чтобы группы максимально возможно различались между

собой значениями предикторов.

Определение статистической значимости представляет собой третий шаг. Она включает

проверку нулевой гипотезы о том, что в совокупности средние всех дискриминантных функ-

ций во всех группах равны между собой. Если нулевую гипотезу отклоняют, то имеет смысл

интерпретировать результаты.

Четвертый шаг — интерпретация дискриминантных весов или коэффициентов аналогична

такой же стадии во множественном регрессионном анализе. При данной мультиколлинеарности в

предсказанных переменных не существует однозначной меры относительной важности предикто-

ров в дискриминации ими групп. Однако некоторое представление об относительной важности

переменных можно получить, изучив абсолютные значения нормированных коэффициентов

дискриминантной функции и структуру корреляций или дискриминантных нагрузок. Эти ко-

эффициенты линейной корреляции между каждым предиктором и дискриминантной функцией

представляют дисперсию, которую предиктор делит вместе с функцией. Другим средством интер-

претации результатов дискриминантного анализа является разработка характеристической струк-

туры для каждой группы, исходя из групповых средних для предикторов.

Пятый шаг — проверка достоверности. Она включает разработку классификационной мат-

рицы. Дискриминантные веса, определенные с помощью анализируемой выборки, умножают

на значения независимых переменных в проверочной выборке, чтобы получить дискрими-

нантные показатели для случаев в этой выборке. Затем случаи распределяют по группам, исхо-

дя из дискриминантных показателей и соответствующего правила принятия решения. Опреде-

ляют процент верно классифицированных случаев и сравнивают его с процентом случаев, ко-

торое можно ожидать на основе классификации методом случайного выбора.

Для оценки коэффициентов существует два известных подхода. Прямой метод включает

оценку дискриминантной функции при одновременном введении всех предикторов. Альтер-

нативный ему пошаговый метод включает последовательное введение предсказанных пере-

менных, исходя из их способности дискриминировать группы.

Во множественном д искри ми нантном анализе, если имеется G групп и k предикторов,

можно оценить (G - 1) и меньше, чем (G - 1) или k дискриминантных функций. Первая

функция имеет самое высокое значение отношения межгрупповой суммы квадратов к внутри-

группововой сумме квадратов. Вторая функция, некоррелирующая с первой, имеет второе по

величине собственное значение и т.д.

ОСНОВНЫЕ ТЕРМИНЫ И ПОНЯТИЯ

• /"-статистики и их значимость (/'-values

and their significance)

• анализируемая выборка (analysis sample)

• групповые средние (grouped means)

• групповые стандартные отклонения

(group standard deviations)

• дискриминантная функция (discriminant

function)

• дискриминантный анализ (discriminant

analysis)

дискриминантный анализ для двух групп

(two-group discriminant analysis)

дискриминантный показатель

(discriminant score)

каноническая корреляция (canonical correlation)

классификационная матрица

(classification matrix)

коэффицент 1 Уилкса {Wilks's 1)

коэффициент результативности (hit ratio)

Глава 18. Дискриминантный анализ 711

коэффициенты д искри минантной функ-

ции (discriminant function coefficients)

метод Махаланобиса (Mahalanobis procedure)

множественный дискриминантный ана-

лиз (multiple discriminant analysis)

модель дискриминантного анализа

(discriminant analysis model)

нормированные коэффициенты дискри-

минантной функции (standardized discriminant

function coefficients)

общая корреляционная матрица (total

correlation matrix)

объединенная внутри групповая корреля-

ционная матрица (pooled within-group

correlation matrix)

пошаговый дискриминантный анализ

(stepwise discriminant analysis)




Поделиться с друзьями:


Дата добавления: 2015-05-09; Просмотров: 302; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.