КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Коэффициент хи-квадрат
Оказывается, что сформулировать ответ на вопрос "Что такое зависимость между ответами на два вопроса анкеты?" удается довольно просто - от обратного. То есть, "зависимость - есть отсутствие независимости". Этот, на первый взгляд, абсолютно не конструктивный ответ, сильно продвигает нас вперед, поскольку в теории вероятностей существует строгий подход к определению независимости двух событий. Два события считаются независимыми в том случае, если вероятность того, что они произойдут ОДНОВРЕМЕННО равна произведению вероятностей того, что произойдет каждое из них. Поясним последнюю фразу примером. Пусть мы одновременно бросаем две монеты. В случае, когда обе монеты "правильные" (не деформированные, или неизменные специально), вероятность выпадения "орла" на каждой из них одинакова и равна 1/2. Можно сказать, что в случае отсутствия зависимости между бросаниями двух монет, вероятность одновременного выпадения "орлов" на обеих монетах равна произведению вероятностей выпадению "орла" на каждой из монет, иными словами - 1/2 * 1/2 = 1/4. Таким образом, мы можем провести большую серию опытов, и в том случае, если частота совместного выпадения двух "орлов" сильно отличается от 1/4, мы можем говорить об отсутствии независимости, т.е. о наличии зависимости между бросанием двух монет. Перейдем на почву социологии. Если в массиве данных социологического исследования оказалось 1/2 мужчин и 1/3 лиц с высшим образованием, то в случае отсутствия зависимости между полом и образованием, мужчин с высшим образованием в массиве должно быть 1/2 * 1/3 = 1/6. Поскольку массив данных уже собран, можно легко подсчитать, какая же в действительности в нашем массиве доля мужчин с высшим образованием (сделать это можно с помощью команды CROSSTABS - см. предыдущий раздел), и, если эта доля сильно отличается от 1/6, то можно говорить, что гипотеза о независимости между полом и наличием высшего образования не подтверждается. Назовем то количество респондентов, которое должно быть в клетке таблицы в случае независимости двух событий ОЖИДАЕМОЙ ЧАСТОТОЙ. То есть, если мы опросили 1000 респондентов, среди которых оказалось 1/2 мужчин и 1/3 лиц с высшим образованием, то в случае независимости пола и образования ожидаемая частота в клетке «мужчины с высшим образованием» составит: 1/2 x 1/3 x 1000=166,7. В меню Cells команды CROSSTABS (рисунок 2.4) присутствует окно «Expected». Если выбрать это окно, то в клетках таблицы будут напечатаны ожидаемые частоты, то есть количества респондентов, которые должны были бы быть в клетках таблицы в случае независимости переменных. На таблице 2.4 представлена таблица для переменных Q10 и Q12, в клетках которой представлены реальные частоты (окно Observed меню Cells) и ожидаемые частоты (окно Expected меню Cells). Таблица 2.4 Таблица сопряженности переменных Q10 и Q12, содержащая реальные и ожидаемые частоты
Как показывает таблица 2.4 реальные частоты (”Count”) и ожидаемые частоты (”Expected Count”) различаются во всех клетках. Следовательно, мы, как кажется, можем сделать вывод о том, что модель независимости переменных Q10 и Q12 не подтверждается. Однако в простоте механизма получения такого важного вывода кроется определенная опасность. Ведь мы имеем дело со статистическими данными. Может быть, те расхождения между реальными и ожидаемыми частотами носят случайный характер? Механизм проверки гипотезы о независимости переменных несколько сложнее. Во-первых, вычисляется степень суммарного расхождения реальных и ожидаемых частот. При этом необходимо иметь ввиду два обстоятельства. Если суммировать просто разности этих частот, то, с учетом того, что эти разности имеют различные знаки, общая сумма будет равна нулю. Для того, чтобы элиминировать это обстоятельство предлагается суммировать квадраты разностей. Вторым обстоятельством является следующее. Например, в клетке (1,1) таблицы 2.4 квадрат разности частот составит (12-2,2)2 = 96,04, а в клетке (2,3) – (666-773)2= 11449. Таким образом, клетка (1,1) даст гораздо меньший вклад в общую сумму, чем клетка (2,3). При этом реальные и ожидаемые частоты в клетке (1,1) различаются более чем 5 раз, а в клетке (2,3) – лишь приблизительно на 20%. Следовательно, если рассматривать сумму квадратов разностей реальных и ожидаемых частот как показатель их (частот) расхождения, то оказывается, что клетки с относительно меньшим расхождением могут давать больший вклад в значение этого показателя. Чтобы преодолеть эту несообразность предлагается складывать не абсолютные, а относительные расхождения частот. Вычисляемый таким образом показатель, фиксирующий степень расхождения реальных и ожидаемых частот носит название коэффициента χ2 (хи-квадрат). Выражение (2.1) дает его точную формулу. где Oi – наблюдаемые частоты; Ei – ожидаемые частоты; n – число клеток в таблице. Таким образом, используя формулу (2.1), вычисляя коэффициент χ2 для таблицы 2.4, определяем, что он составляет 195. Полученный результат, однако, не сильно приближает нас к поставленной цели – выяснению того, зависимы, или независимы между собой переменные Q10 и Q12. Действительно, мы не знаем, величина коэффициента χ2=195 это большое или маленькое расхождение ожидаемых и наблюдаемых частот? Конечно, если бы мы получили χ2=0, то можно было бы однозначно говорить о точном совпадении этих частот, и, следовательно, о том, что модель независимости двух анализируемых переменных точно описывает реальные данные. А если χ2 >0, то можем ли мы найти какое-то точное значение Z, когда могли бы сказать: «Если χ2 < Z, то этот χ2 маленький, можно считать, что отклонение наблюдаемых и ожидаемых частот незначительно и данные не противоречат модели независимости»? Замечательность работы Карла Пирсона не столько в том, что он придумал коэффициент χ2, сколько в том, что он нашел теоретическое распределение этого коэффициента. Что дает нам знание такого теоретического распределения? |
|
|
Дата добавления: 2014-01-07; Просмотров: 1023; Нарушение авторских прав?; Мы поможем в написании вашей работы!
Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет