Коэффициент хи-квадрат

Оказывается, что сформулировать ответ на вопрос "Что такое зависимость между ответами на два вопроса анкеты?" удается довольно просто - от обратного. То есть, "зависимость - есть отсутствие независимости". Этот, на первый взгляд, абсолютно не конструктивный ответ, сильно продвигает нас вперед, поскольку в теории вероятностей существует строгий подход к определению независимости двух событий.

Два события считаются независимыми в том случае, если вероятность того, что они произойдут ОДНОВРЕМЕННО равна произведению вероятностей того, что произойдет каждое из них.

Поясним последнюю фразу примером. Пусть мы одновременно бросаем две монеты. В случае, когда обе монеты "правильные" (не деформированные, или неизменные специально), вероятность выпадения "орла" на каждой из них одинакова и равна 1/2. Можно сказать, что в случае отсутствия зависимости между бросаниями двух монет, вероятность одновременного выпадения "орлов" на обеих монетах равна произведению вероятностей выпадению "орла" на каждой из монет, иными словами - 1/2 * 1/2 = 1/4. Таким образом, мы можем провести большую серию опытов, и в том случае, если частота совместного выпадения двух "орлов" сильно отличается от 1/4, мы можем говорить об отсутствии независимости, т.е. о наличии зависимости между бросанием двух монет.

Перейдем на почву социологии. Если в массиве данных социологического исследования оказалось 1/2 мужчин и 1/3 лиц с высшим образованием, то в случае отсутствия зависимости между полом и образованием, мужчин с высшим образованием в массиве должно быть 1/2 * 1/3 = 1/6. Поскольку массив данных уже собран, можно легко подсчитать, какая же в действительности в нашем массиве доля мужчин с высшим образованием (сделать это можно с помощью команды CROSSTABS - см. предыдущий раздел), и, если эта доля сильно отличается от 1/6, то можно говорить, что гипотеза о независимости между полом и наличием высшего образования не подтверждается.

Назовем то количество респондентов, которое должно быть в клетке таблицы в случае независимости двух событий ОЖИДАЕМОЙ ЧАСТОТОЙ. То есть, если мы опросили 1000 респондентов, среди которых оказалось 1/2 мужчин и 1/3 лиц с высшим образованием, то в случае независимости пола и образования ожидаемая частота в клетке «мужчины с высшим образованием» составит: 1/2 x 1/3 x 1000=166,7.

В меню Cells команды CROSSTABS (рисунок 2.4) присутствует окно «Expected». Если выбрать это окно, то в клетках таблицы будут напечатаны ожидаемые частоты, то есть количества респондентов, которые должны были бы быть в клетках таблицы в случае независимости переменных. На таблице 2.4 представлена таблица для переменных Q10 и Q12, в клетках которой представлены реальные частоты (окно Observed меню Cells) и ожидаемые частоты (окно Expected меню Cells).

Таблица 2.4

Таблица сопряженности переменных

Q10 и Q12, содержащая реальные и ожидаемые частоты

	КАК БЫ ВЫ ОЦЕНИЛИ ЭКОНОМИЧЕСКОЕ ПОЛОЖЕНИЕ РОССИИ?	Всего
1 Благополучная, спокойная
2 Напряженная	3 Критическая, взрывоопасная	4 Затрудн. ответить
КАК БЫ ВЫ ОЦЕНИЛИ В НАСТОЯЩЕЕ ВРЕМЯ МАТЕРИАЛЬНОЕ ПОЛОЖЕНИЕ ВАШЕЙ СЕМЬИ?
1 Хорошее, очень хорошее	Count
Expected Count
2,2	35,6	73,6	12,5	124,0
2 Среднее
Count
Expected Count
23,3	374,3	773,0	131,4	1302,0
3 Плохое, очень плохое
Count
Expected Count
17,0	274,0	565,8	96,2	953,0
4 Затрудн.ответить
Count
Expected Count
,5	8,0	16,6	2,8	28,0
Всего
Count
Expected Count
43,0	692,0	1429,0	243,0	2407,0

Как показывает таблица 2.4 реальные частоты (”Count”) и ожидаемые частоты (”Expected Count”) различаются во всех клетках. Следовательно, мы, как кажется, можем сделать вывод о том, что модель независимости переменных Q10 и Q12 не подтверждается.

Однако в простоте механизма получения такого важного вывода кроется определенная опасность. Ведь мы имеем дело со статистическими данными. Может быть, те расхождения между реальными и ожидаемыми частотами носят случайный характер?

Механизм проверки гипотезы о независимости переменных несколько сложнее. Во-первых, вычисляется степень суммарного расхождения реальных и ожидаемых частот. При этом необходимо иметь ввиду два обстоятельства. Если суммировать просто разности этих частот, то, с учетом того, что эти разности имеют различные знаки, общая сумма будет равна нулю. Для того, чтобы элиминировать это обстоятельство предлагается суммировать квадраты разностей. Вторым обстоятельством является следующее. Например, в клетке (1,1) таблицы 2.4 квадрат разности частот составит (12-2,2)² = 96,04, а в клетке (2,3) – (666-773)²= 11449. Таким образом, клетка (1,1) даст гораздо меньший вклад в общую сумму, чем клетка (2,3). При этом реальные и ожидаемые частоты в клетке (1,1) различаются более чем 5 раз, а в клетке (2,3) – лишь приблизительно на 20%. Следовательно, если рассматривать сумму квадратов разностей реальных и ожидаемых частот как показатель их (частот) расхождения, то оказывается, что клетки с относительно меньшим расхождением могут давать больший вклад в значение этого показателя. Чтобы преодолеть эту несообразность предлагается складывать не абсолютные, а относительные расхождения частот.

Вычисляемый таким образом показатель, фиксирующий степень расхождения реальных и ожидаемых частот носит название коэффициента χ² (хи-квадрат). Выражение (2.1) дает его точную формулу.

где O_i – наблюдаемые частоты; E_i – ожидаемые частоты; n – число клеток в таблице.

Таким образом, используя формулу (2.1), вычисляя коэффициент χ²для таблицы 2.4, определяем, что он составляет 195.

Полученный результат, однако, не сильно приближает нас к поставленной цели – выяснению того, зависимы, или независимы между собой переменные Q10 и Q12. Действительно, мы не знаем, величина коэффициента χ²=195 это большое или маленькое расхождение ожидаемых и наблюдаемых частот? Конечно, если бы мы получили χ²=0, то можно было бы однозначно говорить о точном совпадении этих частот, и, следовательно, о том, что модель независимости двух анализируемых переменных точно описывает реальные данные. А если χ² >0, то можем ли мы найти какое-то точное значение Z, когда могли бы сказать: «Если χ² < Z, то этот χ² маленький, можно считать, что отклонение наблюдаемых и ожидаемых частот незначительно и данные не противоречат модели независимости»?

Замечательность работы Карла Пирсона не столько в том, что он придумал коэффициент χ², сколько в том, что он нашел теоретическое распределение этого коэффициента. Что дает нам знание такого теоретического распределения?

<== предыдущая лекция	\|	следующая лекция ==>
Коэффициенты связи для номинальных переменных	\|	Наличие теоретического закона распределения коэффициента позволяет нам сказать с какой вероятностью возможно определенное значение этого коэффициента

Поделиться с друзьями:

Дата добавления: 2014-01-07; Просмотров: 987; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.012 сек.