Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Часть III. Сбор, подготовка и анализ данных 9 страница




Таблица 15.4. Использование Internet в зависимости от пола

Пол

Использование Internet Мужчины Женщины

Мало 33,3% 66,7%

Много 66,7% 33,3%

Итого 100,0% 100,0%

Таблица 15.5. Пол человека в зависимости от использования Internet

Использование Internet

Поп Мало Много Итого

Мужчины 33,3% 66,7% 100,0%

Женщины 66,6% 33,3% 100,0%

Какая из этих двух таблиц полезнее? Ответ на данный вопрос зависит от того, какая пере-

менная рассматривается как независимая, а какая как зависимая [9]. Общее правило, которое

необходимо соблюдать, гласит —проценты необходимо вычислять для каждой категории неза-

висимой переменной (так, чтобы суммарное значение категорий зависимой переменной при-

менительно к каждой категории независимой переменной давало 100%). В нашем анализе пол

можно рассматривать как независимую переменную, использование Internet — как зависимую,

570 Часть III. Сбор, подготовка и анализ данных

а правильный способ вычисления процентов показан в табл. 15.4. Заметим, что мужчины

больше используют Internet, чем женщины. Это видно из того, что 66,7%, активно пользую-

щихся Internet, составляют мужчины, тогда как на долю женщин в этой категории приходится

всего лишь 33,3%.

Вычисление процентов в направлении зависимой переменной через независимую, как по-

казано в табл. 15.5, бессмысленно. Табл. 15.5 подразумевает, что интенсивное пользование

Internet — причина того, что такими людьми являются мужчины. Это последнее утверждение

неправдоподобно. Однако, возможно, что связь между пользованием Internet и полом человека

опосредована третьей переменной, например возрастом или доходом. Поэтому необходимо

проверить влияние третьей переменной.

Три переменные

Часто введение третьей переменной позволяет маркетологу четче уяснить природу исходной

связи между двумя переменными. Как показано на рис. 15.7, третья переменная может привес-

ти к четырем возможностям.

1. Уточнить связь, наблюдаемую между двумя исходными переменными.

2. Указать на отсутствие связи между двумя переменными, хотя первоначально связь наблю-

далась, Другими словами, третья переменная покажет, что исходная связь между двумя пе-

ременными была ложной.

3. Показать некоторую связь между двумя переменными, хотя первоначально она не наблю-

далась. В этом случае третья переменная показывает скрытую связь между первыми двумя

переменными.

4. Не показать никаких изменений в первоначальной связи [10].

Две исходные переменные

Отсутствие связи

Уточненная

связь между двумя

Отсутствие связи между

\ \

Исходная структура

Рис. 15.7. Введение третьей переменной в кросс-табуляцию

Эти возможности объясняются на примерах, в основе которых лежит выборка в тысячу рес-

пондентов.

Уточнение исходной связи. В результате изучения связи между покупкой модной одежды и

семейным положением получены данные, приведенные в табл. 15.6.

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 571

Таблица 15.6. Покупка модной одежды в зависимости от семейного положения

Семейное положение

Покупка модной одежды Женат (замужем) Не женат (не замужем)

Много

Мало

Итого

Число респондентов

31%

69%

100%

52%

48%

100%

Респондентов поделили на две категории покупателей модной одежды: много покупающие

и мало покупающие. Семейное положение тоже имело две категории: женат (замужем) либо не

женат (не замужем). Как видно из табл. 15.6, в категорию лиц, покупающих много модной

одежды, попали 52% несемейных респондентов и только 31% семейных. Перед тем как заклю-

чить, что респонденты, не имеющие семьи, покупают больше модной одежды, чем имеющие

семью, в анализ была введена третья переменная — пол.

'^^^^•^•••••^••••••^•••••••••••••••^Н Таблица 15.7. Связь покупки модной одежды с семейным положением

Покупка модной одежды

Много

Мало

Итого

Число респондентов

Женат

35%

65%

100%

Мужской

Не женат

40%

60%

!00%

Пол

Замужем

25%

75%

100%

Женский

Не замужем

60%

40%

100%

Пол респондентов вводился в качестве третьей переменной на основании результатов

предшествующего маркетингового исследования. Связь между покупкой модной одежды и се-

мейным положением пересмотрена в свете третьей переменной, как показано в табл. 15.7. Что

касается женщин, то из них 60% незамужних попали в категорию покупающих больше модной

одежды по сравнению с 25% замужних женщин, С другой стороны, для мужчин эта разница в

процентах не так велика: 40% холостых и 35% женатых попали в категорию покупателей, при-

обретающих много модной одежды. Следовательно, третья переменная, уточнила связь между

семейным положением и покупкой модной одежды (начальными переменными). Вероятность

попадания в категорию покупателей, приобретающих много модной одежды, выше для несе-

мейных респондентов по сравнению с семейными, причем она выше для женщин.

Исходная связь между двумя переменными ложна. Маркетолог проводит исследование для

рекламного агентства, разрабатывающего рекламу для автомобилей стоимостью свыше 30 тысяч

долларов. Он попытался проанализировать факторы, влияющие на владение дорогими автомо-

билями (табл. 15.8).

Таблица 15.8. Зависимость владения дорогами автомобилями от образовательного уровня

Наличие дорогого автомобиля Выпускник колледжа

Образование

Без степени колледжа

Да

Нет

Итого

Число респондентов

32%

68%

100%

21%

79%

100%

572 Часть 111. Сбор, подготовка и анализ данных

Из таблицы видно, что 32% выпускников колледжа имеют дорогой автомобиль, в то время

как среди не окончивших колледж дорогим автомобилем владеют только 21%. Исследователь

убежден, что уровень образования влияет на приобретение дорогого автомобиля. Решив, что на

его покупку влияет и доход, исследователь перепроверил связь между образованием и наличи-

ем дорогого автомобиля в свете уровня доходов. Результаты приведены в табл. 15.9.

„Таблица 15.9 Влияние образования и уровня дохода на наличие дорогого автомобиля

Доход

Низкий Высокий

Наличие дорогого автомобиля Образование Образованно

Колледж Нет Колледж Нет

Да

Нет

Итого:

Число респондентов

20%

80%

100%

20%

80%

100%

4D:-b

60%

100%

40%

60%

100%

Заметим, что процент тех, кто имеют дорогой автомобиль, среди окончивших колледж или

не окончивших его одинаков для каждой из групп, разбитых по доходу. Если данные по груп-

пам с высокими и низкими доходами проверить отдельно, то связь между образованием и на-

личием дорогого автомобиля исчезает, а это значит, что первоначально наблюдаемая связь ме-

жду этими двумя переменными была ложной.

Третья переменная показывает подавленную связь между первыми двумя переменными.

Маркетолог, исследуюший сферу туристических поездок за границу, предположил, что на же-

лание путешествовать влияет возраст. Однако таблица сопряженности двух переменных

(табл. 15.10) не выявила никакой связи. Когда в качестве третьей переменной ввели пол, полу-

чили данные, представленные втабл. 15.11.

I Таблица 15,10. Зависимость желания совершить туристическую поездку за границу от;

возраста

Возраст

Желание совершить туристическую поездку за границу До 45 лет 45 и старше

Да 50% 50%

Нет. 50% 50%

Итого 100% 100%

Число респондентов 500 500

| Таблица 15.11. Связь между желанием совершить туристическую поездку за границу,

| возрастом и полом

Пол

Желание совершить путешествие за границу Мужчины Женщины

До 45 лет 45 и старше До 45 лет 45 и старше

Да

Нет

Итого

Число респондентов

60%

40%

100%

40%

60%

100%

35%

65%

100%

65%

35%

100%

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 573

Среди мужчин до 45 лет 60% изъявили желание отправиться в турпоездку заграницу, а по-

сле 45 лет — всего лишь 40%. Обратная ситуация наблюдалась для женщин: в возрасте до 45 лет

желающих отправиться посмотреть мир оказалось 35%, а после 45 лет — 65%. Поскольку связь

между желанием путешествовать и возрастом различна для мужчин и женшин и с противопо-

ложной направленностью, связь между этими двумя переменными была скрыта, пока данные

не учитывали переменную "пол", как это сделано в табл. 15.10. Но при проверке влияния пола,

как показано в табл. 15.11, проигнорированная связь между желанием путешествовать и воз-

растом была обнаружена для отдельных категорий: мужчин и женшин.

Никаких изменении в первоначальной связи. В некоторых случаях третья переменная не из-

меняет первоначально наблюдаемую связь, независимо от того, были ли исходные переменные

взаимосвязаны. Это означает, что третья переменная никак не влияет на связь между двумя

первыми переменными. Рассмотрим кросс-табуляцию двух переменных: размер семьи и часто-

ту посещения ресторанов быстрого питания, представленную в табл. 15.12.

Таблица 15.12. Связь частоты посещения ресторанов быстрого питания с размером

семьи

Частота посещения ресторана быстрого питания

Большая

Маленькая

Итого

Число респондентов

Небольшая

65%

35%

100%

Размер семьи

Большая

65%

35%

100%

Респондентов разделили (используя медиану) на две равные по размеру категории по 500

респондентов в каждой: небольшая и большая семья, Не наблюдалось никакой связи, Затем по

этому же принципу респондентов разделили на категории: семьи с большим и малым доходом.

При введении в анализ третьей переменной получили табл. 15,13. И снова не наблюдалось ни-

какой связи.

Таблица 15.13. Связь частоты посещения ресторанов быстрого питания с размером

семьи и уровнем дохода

Доход

Семьи с низким доходом Семьи с высоким доходом

Частота посещения ресторанов быстрого питания Малая Большая Малая Большая

Большая

Маленькая

Итого

Число респондентов

65%

35%

100%

65%

35%

100%

65%

35%

100%

65%

35%

100%

Общие комментарии по поводу кросс-табуляции

Можно построить таблицу сопряженности больше, чем для трех переменных, но интер-

претация полученных результатов достаточно сложная. Кроме того, поскольку число ячеек

многократно увеличится, проблематично оставить необходимое количество респондентов

или случаев в каждой ячейке. Как правило, чтобы вычислить статистику в каждой ячейке,

должно быть, по крайней мере, пять наблюдений. Таким образом, кросс-табуляция — не-

эффективный способ проверки связей для ситуаций с несколькими переменными, она рас-

574 Часть III. Сбор, подготовка и анализ данных

сматривает просто связь между переменными, а не причинность. Чтобы изучить причинно-

следственную связь, необходимо провести соответствующее причинно-следственное иссле-

дование (см. главу 7).

СТАТИСТИКИ ТАБЛИЦ СОПРЯЖЕННОСТИ

ПРИЗНАКОВ

Мы рассмотрим статистики, обычно используемые для оценки статистической значимости

и тесноты связи переменных, содержащихся в таблице сопряженности. Статистическая значи-

мость наблюдаемой связи обычно измеряется критерием хи-квадрат. Теснота связи важна с

практической точки зрения. Обычно она имеет значение, если связь статистически значимая.

Тесноту связи можно измерить коэффициентом корреляции фи, коэффициентом сопряжен-

ности признаков, У- коэффициентом Крамера и коэффициентом "лямбда". Эти статистики

ниже описаны детальнее.

Критерий хи-квадрат

Критерий хи-квадрат (chi-square statistic, x!) используют для проверки статистической зна-

чимости наблюдаемой связи в таблице сопряженности признаков.

Критерий хи-квадрат (chi-square statistic, %2)

Критерий, используемый для проверки статистической значимости наблюдаемых связей в

таблицах сопряженности признаков. Он помогает определить наличие или отсутствие сис-

тематической связи между двумя переменными.

Он помогает определить наличие или отсутствие систематической связи между двумя пере-

менными. В данном случае нулевая гипотеза Яп утверждает, что между двумя переменными не

существует никакой связи. Проверка нулевой гипотезы выполняется вычислением частот рас-

пределения признаков анализируемых переменных в ячейках таблицы, которые можно было

бы ожидать, если бы не существовало зависимости между переменными, и при данных итого-

вых числах в каждом ряду и колонке. Затем для вычисления значения х: эти ожидаемые часто-

ты, обозначаемые /е, сравнивают с фактически наблюдаемыми частотами распределения при-

знаков/о, соответствующими ячейкам таблицы. Чем больше разница между ожидаемыми и

фактическими частотами, тем выше значение статистики. Предположим, что таблица сопря-

женности имеет г рядов и с колонок, а случайная выборка состоит из п наблюдений. Тогда

ожидаемую частоту для каждой ячейки вычислим по следующей формуле:

е пгпс

J, = - '

Л

где п, — итоговое число в ряду, пг — итоговое число в колонке, л — полный размер выборки.

Для данных табл. 15.3 ожидаемая частота распределения признаков для ячеек, расположен-

ных слева направо и сверху вниз, выглядит так:

ч -., -*

30 30

= 7,50; 15X15.7.50.

30 30

Тогда значение %~ вычисляют следующим образом:

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 575

Для данных табл. 15.3 значение #2 вычислили по формуле:

, (5-7,5)'; (10-7,5)* t (10-7,5)г

| (5-7.5)2

7,5 7,5 7,5 7,5

= 0,833 + 0,833+0,833 + 0,833

= 3,333

Чтобы определить, существует ли между переменными систематическая связь, определяют

вероятность получения значения х2, равного или большего, чем рассчитанное из таблицы со-

пряженности. Важной характеристикой критерия %2 является число степеней свободы (df). Б

обшем случае оно равно числу наблюдений за вычетом числа ограничений, необходимых для

вычисления статистического показателя. Для критерия хи-квадрат таблицы сопряженности

число степеней свободы равно произведению количества рядов (г) минус единица на количе-

ство колонок (с) минус единица, т.е. df =(г-1)х(с-1) [11]. Нулевая гипотеза (Я0) об отсутст-

вии зависимости между двумя переменными должна быть отклонена только тогда, когда полу-

ченное значение х2 больше, чем критическое значение х2 распределения с соответствующим

числом степеней свободы, как это показано на рис. 15.8.

Не отклонять нулевую;

гипотезу Н0 Отклонить нулевую

гипотезу Н0

Критическое значение '1,

Рис. 15.8. Проверка зависимости между переменными

с помощью критерия у}

Распределение х2 (chi-square distribution) представляет собой асимметричное распределение,

форма которого зависит исключительно от числа степеней свободы [12]. С ростом числа степе-

ней свободы распределение хи-квадрат становится более симметричным. Данные табл. 3 в Ста-

тистическом приложении дают представление о величине хг Для различных степеней свободы.

В этой таблице значение вверху каждой колонки указывает область в верхней части (правая

сторона на рис. 15,8) распределения хи-квадрат. Например, для одной степени свободы и

а = 0,05 значение х2 равно 3,841. Это означает, что для одной степени свободы вероятность пре-

вышения значения хд, равного 3,841, составляет 0,05. Другими словами, при уровне значимо-

сти, равном 0,05, и числе степеней свободы, равном единице, критическое значение статисти-

ки х2 равно 3,841.

Распределение х2 (Chi-square distribution)

Асимметричное распределение, форма которого зависит исключительно от числа степеней

свободы. С ростом числа степеней свободы хи-квадрат распределение более симметрично,

Для таблицы сопряженности (табл. 15.3) число степеней свободы равно (2 — 1) х (2 — 1) = 1.

Вычисленное значение х2 — 3,333. Так как оно меньше критического значения, равного 3,841,

нулевую гипотезу об отсутствии связей между переменными нельзя отклонить. Это означает,

что связь между переменными не является статистически значимой при уровне значимости,

равном 0,05.

576 Часть lit. Сбор, подготовка и анализ данных

Статистику хи-квадрат также можно использовать в проверках степени согласия, чтобы оп-

ределить, согласуется ли определенная модель с наблюдаемыми данными. Эти проверки вы-

полняют вычислением значимости (уровня статистической значимости) выборочных отклоне-

ний от предполагаемых теоретических (ожидаемых) распределений, а также можно выполнить

как на основе таблиц сопряженности, так и на основе таблиц распределения частот

(одномерная табуляция). Расчет %2 и определение ее уровня статистической значимости вы-

полняется изложенным выше способом.

Значение •£ следует вычислять только для числовых данных. Если данные представлены в

виде процентов, то сначала их необходимо перевести в абсолютные единицы или числа. Кроме

того, допущение, лежащее в основе проверки с помощью критерия у?, заключается в том, что

наблюдения проведены независимо. В качестве общего правила стоит запомнить, что проверку

по критерию хи-квадрат нельзя выполнять, если ожидаемые или теоретические частоты в лю-

бой из ячеек меньше пяти. Если число наблюдений в любой ячейке меньше десяти, или если

таблица имеет два рядка и две колонки (таблица 2 х 2), то необходимо использовать поправоч-

ный коэффициент [13]. С поправочным коэффициентом значение х1 равно 2,133, что не явля-

ется значимым при уровне значимости, равном 0,05. Для таблицы размером 2 x 2, статистику

хи-квадрат называют фи-коэффициентом.

Фи-коэффициент

Фн-коэффициент (phi coefficient, ф) используют для измерения тесноты связи в особом слу-

чае — при анализе таблицы с двумя рядками и двумя колонками (таблица 2 х 2).

Фи-коэффициент (phi coefficient, ф)

Мера тесноты связи переменных для конкретного вида таблицы: с двумя рядками и двумя

колонками (таблица 2 х 2).

Фи-коэффициент пропорционален корню квадратному из j;2. Для выборки размером п эту

статистику находят по формуле:

Фи-квадрат принимает значение, равное 0, если связь отсутствует, на что также указывает и

значение хи-квадрат, равное 0. При сильной связи между переменными фи-коэффициент

имеет значение 1 и все наблюдения находятся на главной или второстепенной диагонали. (В

некоторых компьютерных программах фи-коэффициент принимает значение —1, а не +1, ко-

гда наблюдается отрицательная связь.) В нашем случае фи-коэффициент равен:

Таким образом, связь не очень сильна. В более общем случае при наличии таблицы любого

размера тесноту связи можно оценить коэффициентом сопряженности признаков.

Коэффициент сопряженности признаков

Фи-коэффициент применяют только к таблице 2 х 2, а коэффициент сопряженности

признаков С (contingency coefficient) используют для оценки тесноты связи в таблицах лю-

бого размера.

Коэффициент сопряженности признаков (contingency coefficient)

Мера тесноты связи в таблицах любого размера.

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 577

Коэффициент сопряженности признаков связан с х1 следующим образом:

I у1

f-i ___ I /V

Vr+«

Значения коэффициента сопряженности находятся в диапазоне от 0 до 1. При отсутствии

связи он равен нулю (т.е. переменные статистически независимы), но своего максимального

значения (1) он никогда не достигает. Максимальное значение коэффициента сопряженности

зависит от размера таблицы (числа рядков и колонок). Поэтому он используется только для

сравнения таблиц одинакового размера. Значение коэффициента сопряженности для табл. 15.3

следующее:

3,333+ 30

Это значение коэффициента сопряженности указывает на слабую связь. Другой статистикой,

которую можно вычислить для любой таблицы, является К-козффициент Крамера (Cramer).

И-коэффициент Крамера

К-коэффициент Крамера (Cramer's V) — это модифицированная версия коэффициента кор-

реляции фи (0), которую используют в таблицах, больших по размеру, чем 2x2.

V-коэффициент Крамера (Cramer's V)

Мера тесноты связи, используемая в таблицах, больших по размеру, чем 2 x 2.

Если для таблиц, больших, чем 2 x 2, вычисляют фи-коэффициент, то он не имеет верхней

границы. К-коэффициент Крамера получают корректировкой фи-коэффициента или по числу

рядов, или по числу колонок в таблице. Причем из двух значений выбирают меньшее. Коррек-

тировку осуществляют так, что значения К-коэффициента лежат в диапазоне от 0 до 1. Большее

значение К-коэффициента указывает на более сильную связь, но не указывает, как связаны пе-

ременные. Для таблицы с г рядами и с колонками связь между К-коэффициентом Крамера и

фи-коэффициентом выражается следующим образом:

Значение V-коэффициент Крамера для табл. 15.3 равно:

Таким образом, связь не очень сильна. В этом случае V = ф. Так всегда происходит для таб-

лицы 2x2. Другой обычно рассчитываемой статистикой является коэффициент "лямбда".

Коэффициент "лямбда1

Коэффициент "лямбда" используется в том случае, когда переменные измерены с помо-

щью номинальной шкалы. Асимметрический коэффициент "лямбда" (asymmetric lambda) по-

казывает выраженное в процентах улучшение при прогнозировании значения зависимой пе-

ременной при данном значении независимой переменной,

I—

Асимметрический коэффициент "лямбда" (asymmetric lambda)

Мера выраженного в процентах улучшения прогнозирования значения зависимой перемен-

ной при данном значении независимой переменной. Значения коэффициента "лямбда" ле-

жат в пределах от 0 до 1.

578 Часть III. Сбор, подготовка и анализ данных

Значения коэффициента "лямбда" лежат в пределах от 0 до 1. Значение "лямбда", равное О,

означает, что никакого улучшения в прогнозировании не наблюдается. Значение 1 указывает

на то, что прогноз может быть сделан без ошибки. Это происходит тогда, когда каждая катего-

рия независимой переменной связана с одной категорией зависимой переменной.

Асимметрический коэффициент "лямбда" подсчитывают для каждой из зависимых пере-

менных. Также рассчитывают симметричный коэффициент "лямбда" (symmetric lambda) —

средним значением двух асимметричных значений.

I Симметричный коэффициент "лямбда" (symmetric lambda)

Симметричный коэффициент "лямбда" не дает предположения о том, какая из переменных

зависимая. Он измеряет общее улучшение прогнозирования, когда прогноз уже сделан в

обоих направлениях.

Симметричный коэффициент "лямбда" не делает предположения о том, какая из пере-

менных зависимая. Он измеряет общее улучшение, прогнозирования, когда прогноз уже

выполнен в обоих направлениях [14]. Значение асимметричного коэффициента "лямбда" в

табл. 15.3, если в качестве зависимой переменной взять использование Internet, равно 0,333.

Это указывает на то, что знание пола увеличивает нашу возможность прогнозирования на

0,333, т.е. имеет место улучшение прогнозирования на 0,33%. Симметричный коэффициент

"лямбда" также равен 0,33%.

Другие статистики

Обратите внимание, что при вычислении значения у.2 переменные должны быть изме-

рены по номинальной шкале. Для измерения связи между двумя порядковыми перемен-

ными применяют другие статистики, такие как may bt may с и гамма. Все эти статистики

используют информацию об упорядочении категорий переменных, рассматривая каждую

возможную пару случаев в таблице, чтобы определить, имеет ли первая переменная тот же

относительный порядок расположения (ранг), что и вторая (конкордатное, согласованное

расположение), или их расположения (ранги) имеют обратный порядок (несогласованное

расположение), или их ранги совпадают (связанные ранги). Эти статистики отличаются

только способом обработки рангов. Как тау Ь, так и тау Ь, корректируют по числу связан-

ных рангов. Тау Ь (tau b) больше всего подходит для квадратных таблиц, в которых коли-

чество рядов и колонок равно.

Тау b (tau b)

Вычисляемая статистика, которая измеряет связь между двумя порядковыми переменными.

Она вычисляется с учетом числа связанных рангов, и ее лучше использовать для квадратных

таблиц.

Значения этой статистики лежат в пределах от +1 до —1. Таким образом, можно определить

направление (положительное или отрицательное) и силу (насколько близко данное значение

находится к 1) связи. Для прямоугольной таблицы, в которой количество рядов отличается от

количества колонок, следует использовать тау с (tau с).

Тау с (tau с)

Вычисляемая статистика, измеряющая связь между двумя порядковыми переменными. Она

вычисляется с учетом числа связанных рангов, и ее лучше использовать, когда таблица пе-

ременных не квадратна, а прямоугольна.

Статистика "гамма" (gamma) не учитывает ни связанные ранги, ни размер таблицы. Зна-

чения гаммы также лежат в пределах от +1 до —1 и обычно имеет большее числовое значе-

ние, чем тау b и тау с.

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 579

Статистика "гамма" (gamma)

Вычисляемая статистика, измеряющая связь между двумя порядковыми переменными. Она

не делает поправку на связанные ранги.

Данные табл. 15.3, где пол— номинальная переменная, не обрабатывают с помощью по-

рядковых статистик. Все изложенные выше статистики можно оценить соответствующими

компьютерными программами для кросс-табуляции. Другие статистики для измерения тесно-

ты связи, а именно: смешанный момент корреляции и неметрическая корреляция, обсуждают-

ся в главе 17.

ПРАКТИКА ПРОВЕДЕНИЯ КРОСС-ТАБУЛЯЦИИ

На практике проведение кросс-табуляции полезно вести по следующим этапам.

1. Проверьте нулевую гипотезу о том, что отсутствует связь между переменными, используя

критерий хи-квадрат. Если вам не удалось отклонить нулевую гипотезу, то связь между пе-

ременными отсутствует.

2. Если нулевая гипотеза Н„ отклонена, то определите тесноту связи, используя подходящие

статистики (фи-коэффициент, коэффициент сопряженности, К-коэффициент Крамера,

коэффициент "лямбда" или другие статистики).

3. Если нулевая гипотеза Н0 отклонена, то поясните характер связи, вычислив проценты в

направлении независимой переменной через зависимую переменную.

4. Используйте в качестве проверяемых статистик тау Ь, тау с или "гамму" для обработки

порядковых, а не номинальных переменных. Если нулевая гипотеза Н0 отклонена, то оп-

ределите тесноту связи, используя величину и направление связи, а также учитывая знак

проверяемой статистики.

ПРОВЕРКА ГИПОТЕЗ О РАЗЛИЧИЯХ

В предыдущем разделе проверялись гипотезы о связях между переменными. Теперь мы

сделаем акцент на проверке гипотез о различиях. Классификация процедур проверки гипотез о




Поделиться с друзьями:


Дата добавления: 2015-05-09; Просмотров: 352; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.221 сек.