Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Коэффициент хи-квадрат

Оказывается, что сформулировать ответ на вопрос "Что такое зависимость между ответами на два вопроса анкеты?" удается довольно просто - от обратного. То есть, "зависимость - есть отсутствие независимости". Этот, на первый взгляд, абсолютно не конструктивный ответ, сильно продвигает нас вперед, поскольку в теории вероятностей существует строгий подход к определению независимости двух событий.

Два события считаются независимыми в том случае, если вероятность того, что они произойдут ОДНОВРЕМЕННО равна произведению вероятностей того, что произойдет каждое из них.

Поясним последнюю фразу примером. Пусть мы одновременно бросаем две монеты. В случае, когда обе монеты "правильные" (не деформированные, или неизменные специально), вероятность выпадения "орла" на каждой из них одинакова и равна 1/2. Можно сказать, что в случае отсутствия зависимости между бросаниями двух монет, вероятность одновременного выпадения "орлов" на обеих монетах равна произведению вероятностей выпадению "орла" на каждой из монет, иными словами - 1/2 * 1/2 = 1/4. Таким образом, мы можем провести большую серию опытов, и в том случае, если частота совместного выпадения двух "орлов" сильно отличается от 1/4, мы можем говорить об отсутствии независимости, т.е. о наличии зависимости между бросанием двух монет.

Перейдем на почву социологии. Если в массиве данных социологического исследования оказалось 1/2 мужчин и 1/3 лиц с высшим образованием, то в случае отсутствия зависимости между полом и образованием, мужчин с высшим образованием в массиве должно быть 1/2 * 1/3 = 1/6. Поскольку массив данных уже собран, можно легко подсчитать, какая же в действительности в нашем массиве доля мужчин с высшим образованием (сделать это можно с помощью команды CROSSTABS - см. предыдущий раздел), и, если эта доля сильно отличается от 1/6, то можно говорить, что гипотеза о независимости между полом и наличием высшего образования не подтверждается.

Назовем то количество респондентов, которое должно быть в клетке таблицы в случае независимости двух событий ОЖИДАЕМОЙ ЧАСТОТОЙ. То есть, если мы опросили 1000 респондентов, среди которых оказалось 1/2 мужчин и 1/3 лиц с высшим образованием, то в случае независимости пола и образования ожидаемая частота в клетке «мужчины с высшим образованием» составит: 1/2 x 1/3 x 1000=166,7.

В меню Cells команды CROSSTABS (рисунок 2.4) присутствует окно «Expected». Если выбрать это окно, то в клетках таблицы будут напечатаны ожидаемые частоты, то есть количества респондентов, которые должны были бы быть в клетках таблицы в случае независимости переменных. На таблице 2.4 представлена таблица для переменных Q10 и Q12, в клетках которой представлены реальные частоты (окно Observed меню Cells) и ожидаемые частоты (окно Expected меню Cells).

Таблица 2.4

Таблица сопряженности переменных

Q10 и Q12, содержащая реальные и ожидаемые частоты

 

 

 

 

 

 

 

 

 

 

 

 

  КАК БЫ ВЫ ОЦЕНИЛИ ЭКОНОМИЧЕСКОЕ ПОЛОЖЕНИЕ РОССИИ? Всего
1 Благополучная, спокойная
2 Напряженная 3 Критическая, взрывоопасная 4 Затрудн. ответить
КАК БЫ ВЫ ОЦЕНИЛИ В НАСТОЯЩЕЕ ВРЕМЯ МАТЕРИАЛЬНОЕ ПОЛОЖЕНИЕ ВАШЕЙ СЕМЬИ?
1 Хорошее, очень хорошее Count          
Expected Count
2,2 35,6 73,6 12,5 124,0
2 Среднее
Count          
Expected Count
23,3 374,3 773,0 131,4 1302,0
3 Плохое, очень плохое
Count          
Expected Count
17,0 274,0 565,8 96,2 953,0
4 Затрудн.ответить
Count          
Expected Count
,5 8,0 16,6 2,8 28,0
Всего
Count          
Expected Count
43,0 692,0 1429,0 243,0 2407,0

Как показывает таблица 2.4 реальные частоты (”Count”) и ожидаемые частоты (”Expected Count”) различаются во всех клетках. Следовательно, мы, как кажется, можем сделать вывод о том, что модель независимости переменных Q10 и Q12 не подтверждается.

Однако в простоте механизма получения такого важного вывода кроется определенная опасность. Ведь мы имеем дело со статистическими данными. Может быть, те расхождения между реальными и ожидаемыми частотами носят случайный характер?

Механизм проверки гипотезы о независимости переменных несколько сложнее. Во-первых, вычисляется степень суммарного расхождения реальных и ожидаемых частот. При этом необходимо иметь ввиду два обстоятельства. Если суммировать просто разности этих частот, то, с учетом того, что эти разности имеют различные знаки, общая сумма будет равна нулю. Для того, чтобы элиминировать это обстоятельство предлагается суммировать квадраты разностей. Вторым обстоятельством является следующее. Например, в клетке (1,1) таблицы 2.4 квадрат разности частот составит (12-2,2)2 = 96,04, а в клетке (2,3) – (666-773)2= 11449. Таким образом, клетка (1,1) даст гораздо меньший вклад в общую сумму, чем клетка (2,3). При этом реальные и ожидаемые частоты в клетке (1,1) различаются более чем 5 раз, а в клетке (2,3) – лишь приблизительно на 20%. Следовательно, если рассматривать сумму квадратов разностей реальных и ожидаемых частот как показатель их (частот) расхождения, то оказывается, что клетки с относительно меньшим расхождением могут давать больший вклад в значение этого показателя. Чтобы преодолеть эту несообразность предлагается складывать не абсолютные, а относительные расхождения частот.

Вычисляемый таким образом показатель, фиксирующий степень расхождения реальных и ожидаемых частот носит название коэффициента χ2 (хи-квадрат). Выражение (2.1) дает его точную формулу.

где Oi – наблюдаемые частоты; Ei – ожидаемые частоты; n – число клеток в таблице.

Таким образом, используя формулу (2.1), вычисляя коэффициент χ2 для таблицы 2.4, определяем, что он составляет 195.

Полученный результат, однако, не сильно приближает нас к поставленной цели – выяснению того, зависимы, или независимы между собой переменные Q10 и Q12. Действительно, мы не знаем, величина коэффициента χ2=195 это большое или маленькое расхождение ожидаемых и наблюдаемых частот? Конечно, если бы мы получили χ2=0, то можно было бы однозначно говорить о точном совпадении этих частот, и, следовательно, о том, что модель независимости двух анализируемых переменных точно описывает реальные данные. А если χ2 >0, то можем ли мы найти какое-то точное значение Z, когда могли бы сказать: «Если χ2 < Z, то этот χ2 маленький, можно считать, что отклонение наблюдаемых и ожидаемых частот незначительно и данные не противоречат модели независимости»?

Замечательность работы Карла Пирсона не столько в том, что он придумал коэффициент χ2, сколько в том, что он нашел теоретическое распределение этого коэффициента. Что дает нам знание такого теоретического распределения?

<== предыдущая лекция | следующая лекция ==>
Коэффициенты связи для номинальных переменных | Наличие теоретического закона распределения коэффициента позволяет нам сказать с какой вероятностью возможно определенное значение этого коэффициента
Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 1023; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.007 сек.