КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Часть III. Сбор, подготовка и анализ данных 10 страница
различиях представлена на рис. 15.9. Методы, показанные на рис. 15.9, согласуются с классификацией одномерных методов, пред- ставленных на рис. 14.6. Главное различие в том, что методы на рис. 14.6 также применимы к не- скольким выборкам (больше двух) и таким образом связаны с однофакторным дисперсионным анализом (ANOVA) и ранговым дисперсионным анализом Краскера—Уоллеса (K-W ANOVA) (глава 14), тогда как методы на рис, 15.9 ограничены двумя выборками. Процедуры проверки ги- потез можно в общем виде классифицировать на параметрические и непараметрические, исходя из шкалы измерения переменных. Параметрические методы проверки гипотез (parametric tests) предполагают, что изучаемые переменные измерены с помощью интервальной шкалы. Параметрические методы проверки гипотез (parametric tests) Предполагают, что изучаемые переменные измерены с помощью интервальной шкалы. Непараметрические методы проверки гипотез (nonparametric tests) предполагают, что пере- менные измерены с помощью номинальной или порядковой шкал. Непараметрические методы проверки гипотез (nonparametric tests) Предполагают, что переменные измерены с помощью номинальной или порядковой шкал. 580 Часть III. Сбор, подготовка и анализ данных Проверка гипотезы Параметрические методы проверки Непараметрические методы проверки аметрические-данные) (-критерий z- критерий Г Независимые Двухгрупповой t - критерий I- критерий Парные выборки Парный (- критерий Критерий хи-квадрат Критерий Колмогорова- Смирнова Критерий серий Биномиальный критерий Критерий хи-каадрат Критерий Манна-Уитни Медианы Критерий Колмогорова- Смирнова Парные выборки Критерий знаков Критерий Вилшксона Критерий МакНемара
Критерий хи-квадрат Рис. 15.9. Проверка гипотез о различиях Дальнейшая классификация проводится в зависимости от количества выборок: одна, две или больше. Как объяснялось в главе 14, число выборок определяют, исходя из метода даль- нейшей обработки данных для анализа, а не из того, как были собраны данные. Выборки неза- висимы в том случае, если взяты случайным образом из различных генеральных совокупностей. Для анализа данные, принадлежащие различным группам респондентов, например мужчинам и женщинам, обычно обрабатывают как независимые выборки. С другой стороны, выборки являются парными (связанными), когда данные двух выборок имеют отношение к одной и той же группе респондентов. Наиболее популярный параметрический критерий для проверки гипотез о равенстве сред- них заключается в расчете значений /-статистики. Проверка на основе /-критерия выполняется относительно среднего значения одной или двух выборок. В случае двух выборок они могут быть независимыми или парными. Непараметрические методы проверки, основанные на на- блюдениях, взятых из одной выборки, включают критерий Колмогорова-Смирнова, критерий хи-квадрат, критерий серий и биномиальный критерий. В случае двух независимых выборок для проверки гипотез относительно среднего значения используют {/-критерий Манна—Уитни (Mann—Whitney), медианный критерий и двухвыборочный критерий Колмогорова—Смирнова. Эти критерии— непараметрические копии ^-критерия для двух групп. Для парных выборок непараметрические критерии включают критерий Вилкоксона парных сравнений и критерий знаков. Эти тесты — копии парного / -критерия. Как параметрическими, так и непараметри- ческими методами оценивают гипотезы, относящиеся к более, чем двум выборкам. Эти крите- рии рассматриваются в следующих главах. Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 581
ПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ Использование параметрических критериев позволяет сделать статистический вывод отно- сительно среднего значения генеральной совокупности. Обычно для этой цели используют t-критерий (t-test). В основе критерия лежит /-статистика Стьюдента (Student). Т-критерий (t-test) Одномерный метод проверки гипотез, использующий t-распределение. Применяется, если стандартное отклонение неизвестно и размер выборки мал. Т-статистика (t-statistic) подразумевает, что переменная нормально распределена, среднее известно (или предполагается, что оно должно быть известно) и дисперсия генеральной сово- купности определена по данным выборки. Т-статистика {t-statistic) Статистика, подразумевающая, что переменная имеет колоколоподобное распределение, среднее известно (или предполагается, что известно) и дисперсия генеральной совокупно- сти определена поданным выборки. Примем, что случайная переменная Анормально распределена, со средним ц и неизвестной дисперсией генеральной совокупности о"2, которая оценивается с помощью выборочной дис- персии s2. Вспомним, что стандартное отклонение выборочного среднего X определяется как s-f = j/V". Тогда / = (X -,u)/s- является/-распределенным с л-1 степенями свободы. Т-распределение (t-distribution) по внешнему виду аналогично нормальному распределе- нию. Графики обоих распределений симметричны и имеют колоколообразную форму. Однако по сравнению с нормальным распределением в распределении Стьюдента хвостовые части гра- фика по площади больше, а центральная часть по площади — меньше. Это связано с тем, что дисперсия совокупности ет2 неизвестна, и ее оценивают во выборочной дисперсии s:. Т-распределение (t-statistic) Симметричное колоколоподобное распределение, используемое для проверки выборок не- большого размера (п < 30). При данной неопределенности в значении s: наблюдаемые значения / -статистики более изменчивы, чем значения г-статистики. Однако с ростом числа степеней свободы распределе- ние приближается к нормальному. Фактически, для выборок большого размера (120 и больше) t~ распределение и нормальное распределение практически не отличаются. В табл. 4 Статисти- ческого приложения даны избранные процентили /-распределения.
Процедура проверки гипотезы в случае использования в качестве метода проверки (-критерия состоит из следующих этапов. 1. Сформулировать нулевую (Н0) и альтернативную (Я,)гипотезы. 2. Выбрать соответствующую формулу для вычисления /-статистики. 3. Выбрать уровень значимости а для проверки нулевой гипотезы И0. Обычно выбирают уро- вень значимости а, равный 0,05. 4. Взять одну или две выборки и для каждой вычислить значение средней и стандартное от- клонение. 5. Вычислить значение t -статистики, приняв, что нулевая гипотеза ffa верна. 582 Часть III. Сбор, подготовка и анализ данных 6. Вычислить число степеней свободы и оценить вероятность получения большего значения статистики из табл. 4 Статистического приложения. (Альтернативно, вычислить критиче- ское значение / -статистики). 7. Если вероятность, рассчитанная на этапе 6 меньше, чем уровень значимости Иа, выбран- ный на этапе 3, то отклонить нулевую гипотезу Нй. Если значение вероятности больше, то Н0 не отклонять. (Альтернативно, если значение, вычисленной на этапе 5 /-статистики, больше критического значения, определенного на этапе 6, то отклонить нулевую гипотезу Я0. Если вычисленное значение меньше критического значения, то Я0 не следует откло- нять). Неудачная попытка отклонить нулевую гипотезу необязательно подразумевает, что Я0 верна. Это только означает, что истинное положение несущественно (статистически не- значимо) отличается от положения, утверждаемого Я0. 8. Выразить полученный результат с точки зрения решения проблемы маркетингового ис- следования. Мы проиллюстрируем общую процедуру проверки гипотез с помощью /-критерия в после- дующих разделах главы, начав с рассмотрения одной выборки. Одна выборка В маркетинговом исследовании аналитика часто интересует утверждение о сотноше- нии одной переменной по сравнению с известной или заданной величиной. Примерами таких утверждений являются: доля рынка для нового товара превышает 15%; по крайней мере 65% потребителей понравится новая упаковка; 80% дилеров предпочтут новую поли-
тику ценообразования. Эти утверждения сформулируем с точки зрения нулевой гипотезы, которую затем проверим, используя статистический критерии для одной выборки, такой как /- или г-критерий. Если маркетолог использует /-критерий для проверки значения средней, его интересует, совпадает ли значение генеральной средней со значением, зада- ваемым в утверждении нулевой гипотезы (Я0). Для данных табл. 15.2 предположим, что мы хотим проверить гипотезу о том, что среднее значение степени знакомства с Internet превышает 4,0 (балла) — нейтральное значение по семибалльной шкале. Выберем уровень значимости, равный а = 0,05. Сформулируем гипотезы: Я0:ц<4,0 Я0:ц>4,0 (х-,} 5,385 0,297 О, ЗУ.' Число степеней свободы для /-статистики, используемой для проверки гипотезы в отноше- нии среднего значения, равно п ~ 1. В нашем случае п — 1 = 29 — 1 или 28. Из табл. 4 Статисти- ческого приложения находим, что вероятность получения более высокого значения, чем 2,471, меньше 0,05. {Альтернативно, критическое значение /-статистики для 28 степеней свободы и уровня значимости 0,05 равно 1,7011, что меньше рассчитанного значения, равного 2,471). Следовательно, нулевую гипотезу отклоняют. Степень знакомства с Internet превышает 4,0, Обратите внимание, что если нам известно стандартное отклонение генеральной совокуп- ности, и оно, допустим, равно 1,5, а, значит мы используем его, а не определенное на основа- нии выборки, то лучше использовать z-критерий (z-test). Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 583 Z-критерий (z-test) Одномерный метод проверки гипотезы, использующий стандартное нормальное рас- пределение. В нашем случае значение г-статистики было бы равно: где _ 1.5 _ 15 _02?9 ~Viif7 — г V29 5,385 (4/724-4,0) 0/724 0,279 0,279 Из табл. 2 Статистического приложения вероятность получить более высокое значение ста- тистики г, чем 2,595, меньше 0,05. (Альтернативно, критическое значение г-статистики для односторонней проверки при уровне значимости 0,05 равно 1,645, что меньше полученного значения, равного 2,595). Следовательно, нулевую гипотезу отклоняют и получают тот же ре- зультат, что и при проверке гипотезы с помощью /-критерия. Процедура проверки нулевой гипотезы относительно доли уже проиллюстрирована в этой главе, когда мы знакомились с теорией проверки гипотезы. Две независимые выборки Иногда гипотезы в маркетинге связаны с параметрами, взятыми из двух разных генеральных совокупностей; например, пользователи и непользователи торговой марки по-разному восприни- мают данную торговую марку; люди с высокими доходами больше тратят на развлечения по срав- нению с лицами, имеющими низкий доход; доля приверженцев данной торговой марки в сег- менте 1 больше их доли в сегменте 2. Выборки, взятые случайным образом из разных изучаемых совокупностей, называют независимыми выборками (independent samples). Как и для одной выбор- ки, проверка гипотез может проводиться относительно значений средних или долей. Независимые выборки (independent samples) Две выборки, экспериментально не связанные между собой. Измерения, проведенные в од- ной выборке, не оказывают влияния на значения переменных в другой. Средние. В случае проверки средних для двух независимых выборок гипотезы имеют сле- дующий вид: Я = = i Из двух совокупностей берут выборки и вычисляют значения средних и дисперсий, исходя из размеров выборок, равных соответственно п, и п2. Если окажется, что обе рассматриваемые совокупности имеют одинаковые значения дисперсий, то значение объединенной дисперсии, рассчитанное из двух дисперсий выборок, равно: m + ni-2 Стандартное отклонение проверяемой статистики рассчитывается по формуле: 584 Часть III. Сбор, подготовка и анализ данных Соответствующее значение /-статистики вычислим по формуле: Число степеней свободы в нашем случае равно (п,+ п2— 2). Если две генеральные совокупности имеют разные значения дисперсий, то точное значение f-статистики нельзя подсчитать из-за различия в выборочных средних. Вместо этого аппрок- симируем значения ^-статистики. Число степеней свободы в этом случае обычно не будет це- лым числом, но приемлемо точное значение вероятности можно получить округлением до ближайшего целого числа [17]. Если неизвестно, равны ли дисперсии двух совокупностей, то для проверки выборочной дисперсии используем F-критерий, или критерий Фишера (F-test). В этом случае гипотезы имеют вид: F-критерий, или критерий Фишера (F-test) Статистический критерий для проверки равенства двух дисперсий из двух совокупностей. F-статистику (F-statistic) вычисляют как отношение выборочных дисперсий по формуле: F(ni-0>:-.)=^T' где п, — размер выборки 1; пг — размер выборки 2; «[ -1 — степени свободы для выборки 1; «, -1 — степени свободы для выборки 2; $,2 — выборочная дисперсия для выборки 1; Si — выборочная дисперсия для выборки 2. F-статистика (F-statistic) F-статистика представляет собой отношение двух выборочных дисперсий. Как видно, критическое значение F-распределения (F-distribution) зависит от значений числа степеней свободы: в числителе и в знаменателе. F-распределение (F-distribution) Распределение частот, зависящее от значений степеней свободы: числа степеней свободы в числителе и знаменателе. Критическое значение f-статистики для различных степеней свободы в числителе и знамена- теле дано в табл. 5 Статистического приложения. Если вероятность F-статистики выше уровня значимости а, то Н0 не отклоняют и используют /-критерий, в основе которого лежит оценка объ- единенной дисперсии. С другой стороны, если вероятность f-cra-racTHKH меньше или равна а, то ЯцОтклоняют и используют /-критерий, в основе которого лежит оценка отдельных дисперсий. Предположим, что с помощью данных табл. 15.1 мы хотим определить, действительно ли интен- сивность использования Internet мужчинами отличается от использования Internet женщинами. Для этого выполним /-критерий для двух независимых выборок. Результаты приведены втабл. 15.14. Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 585 Таблица 15.14. Т-критерий двух независимых выборок Итоговые статистики Число случаев Среднее Стандартное отклонение Мужчины Женщины F-статнстика 15,507 9,333 3,867 4,0 1,68 F-критернй для проверки равенства дисперсий Двусторонняя вероятность 0,000 t-критерий Предполагается равенство дисперсий Не предполагается равенство дисперсий t-статнстика Степени Двусторонняя t-статистика Степени Двусторонняя свободы вероятность свободы вероятность 4,492 28 0,000 4,492 18,014 0,000 Обратите внимание, что /"-критерий имеет вероятность меньше 0,05. В соответствии с этим нулевую гипотезу Я0 отклоняют. В данном случае следовало бы использовать /-критерий, в основе которого лежит утверждение "Предполагается, что дисперсии не равны". Значение / равно 4,492 и с учетом 18,014 степеней свободы это дает значение вероятности, равное 0,000, которое меньше уровня значимости, равного 0,05. Следовательно, нулевую гипотезу о равенстве средних отклоня- ют. Так как среднее значение степени использования Internet для мужчин (пол — 1) равно 9,333, а для женщин (пол — 2) — 3,867, то мужчины пользуются Internet значительно больше по сравне- нию с женщинами. Мы также показываемоценивание с помощью /-критерия для равных диспер- сий, поскольку большинство компьютерных программ автоматически выполняет /-критерий обоими способами. Применение /-критерия рассмотрим в следующем примере. ПРИМЕР. Маркетологи пытаются установить связь между мобильностью лиц пожилого возраста и приверженностью к определенному универмагу В исследовании выборки 789 американских респондентов 65 лет и старше маркетологи попытались определить связь недостаточной мобильности людей с выбором универмага. Главный вопрос данного исследования связан с различиями в физических требованиях, предъявляемых лицами пожилого возраста, зависимыми от других (требующими помощи при передвижении) и уверенными в своих силах, т.е. действительно ли две группы лиц по- жилого возраста выдвигают разные требования, чтобы добраться до магазина? Детальный анализ физических требований, выполненный на основе проверки двух независимых выбо- рок с помощью /-критерия (таблица ниже), показал, что зависимые лица, вероятнее всего, ищут магазины, которые предлагают доставку товаров на дом или прием заказов по телефо- ну, а также магазины, в которые они могут добраться. Они также предпочитают ряд близко- расположенных магазинов [18]. Различия в физических требованиях между зависимыми и уверенными в своих силах пожилыми людьми Среднее' Уверенные в своих силах Зависимые пожилые Вероятность для пожилые люди люди (-критерия Доставка домой Заказы по телефону Доставка (человека) в универмаг 1,787 2,030 2,188 2,000 2,335 3,098 0,023 0,003 0,000 586 Часть III. Сбор, подготовка и анализ данных Близость парковки 4,001 4,095 0,305 Расположение (магазина) рядом с домом 3,177 3,325 0,137 Ряд магазинов, расположенных близко 3,456 3,681 0,023 один от другого "Измерения проведены по пятибалльной шкале: "не важно" присвоено 1 балл, "очень важно" — 5 баллов. В этом примере мы проверили различие между средними. Аналогичную проверку можно выполнить для различия долей для двух независимых выборок. Доли. Рассмотрим ситуацию для долей двух независимых выборок, данные для которой приведены в табл. 15.1, где дано количество мужчин и женщин, использующих Internet для приобретения товаров. Одинаковы ли доли людей, использующих Internet для приобретения товаров, среди мужчин и женщин? Нулевая и альтернативная гипотезы имеют вид: Я0:*,=*, Н2:п^ Лг Для одной выборки используют г-критерий. Однако в этом случае статистику, лежащую в основе критерия, вычисляют по формуле: р — Р Z-L\ О. 5Ъ-Ъ Здесь числитель представляет собой разность долей в двух выборках Р1 и Р2 Знаменатель — это стандартная ошибка разности двух долей, вычисляемая по формуле: где Выбран уровень значимости а = 0,05. С учетом данных табл. 15.15 тест-статистику можно вычислить следующим образом: Р} -Д =(1Ш5)-(б/15) = 0,733-0,400 = 0,333 (15x0,733+15x0,400) P=i Ц ^ L = 0,567 (15 + 15) *«. =.|0,567хО,43зГ-1 + ^1 =0,181 , 0,181 При двусторонней проверке область справа от критического значения равна а/2 или 0,025. Следовательно, критическое значение тест-статистики равно 1,96. Так как вычисленное значе- ние меньше, чем критическое, нулевую гипотезу нельзя отклонить. Таким образом, различие в долях пользователей (0,733) для мужчин и (0,400) для женщин не считается статистически зна- чимым. Обратите внимание, хотя различие довольно существенное, оно статистически незна- чимое из-за небольшого размера выборки (по 15 человек в каждой группе). Парные выборки Во многих маркетинговых исследованиях наблюдения для двух групп не берут из незави- симых выборок. В таком случае наблюдения называют парными или связанными выборками (paired samples), поскольку два набора наблюдений относятся к одним и тем же респондентам. Глава 15, Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 587 Парные или связанные выборки (paired samples) В проверке гипотез наблюдения называют парными, если два набора наблюдений относятся к одним и тем же респондентам. Выборга респондентов может оценивать две конкурирующие торговые марки, выявляя от- носительную важность двух характеристик (атрибутов) продукта, или оценивать стоимость тор- говой марки в разное время (сезон). Различие, возникающее в этой ситуации, проверяют с по- мощью t-критерия парных выборок (paired samples t-test). t-критерий парных выборок (paired samples t-test) Критерий для различий средних значений парных выборок. Чтобы вычислить значение /-критерия для парных выборок, вводят переменную разности, обозначаемую D, и вычисляют ее среднее и дисперсию. После этого вычисляют /-статистику. Чис- ло степеней свободы равно п — 1, где п — число пар. Соответствующие формулы имеют вид: где В примере с пользователями Internet (см. табл. 15.1) этот критерий используют для опреде- ления отношения респондентов к Internet и к Internet-технологиям. Полученные данные при- ведены втабл. 15.15. Таблица 15.15. t-критерий парных выборок Переменная Количество случаев Среднее Отношение к Internet 30 5,167 Отношение к Internet- 30 4,100 технологии Различие отношений к Internet и Internet-технологиям Стандартное отклонение 1,234 1,398 Стандартная ошибка 0,225 0,255 Разность Стандартное Стандартная Корреляция Двусторонняя Т-статис- Степени Двусторонняя средних отклонение ошибка вероятность тика свободы вероятность 1,067 0,828 0,1511 0,609 O.OOQ 7,059 29 0,000 Среднее значение отношения респондентов к Internet равно 5,167, а к Internet-технологиям — 4,10. Разность средних между этими переменными равна 1,067 со стандартным отклонением 0,828 и стандартной ошибкой 0,1511. Поэтому значение /-статистики равно (1,067/0,1511) = 7,06 с числом степеней свободы, равным 30 — I = 29 и значением вероятности, меньшим 0,001. Следовательно, респонденты более благосклонно относятся к Internet, чем к Internet- технологиям в целом. В качестве другого примера рассмотрим определение относительной эф- фективности 15-секундной телевизионной рекламы по сравнению с 30-секундной. 588 Часть III. Сбор, подготовка и анализ данных ПРИМЕР. Подсчет секунд Для выяснения относительной эффективности 15-секундной телевизионной рекламы по сравнению с 30-секундной провели опрос 83 директоров по работе с масс-медиа круп- нейших в Канаде рекламных агентств. Используя пятибалльную шкалу (1 — отлично, 5 — плохо) респонденты оценивали эффективность 15- и 30-секундной рекламы по следующим показателям; осведомленность о торговой марке, главная запоминающаяся идея, убедитель- ность и способность к эмоциональной передаче. Данные таблицы свидетельствуют, что по всем показателям респонденты выше оценили 30-секундную рекламу. Среднее значение рейтинга 15- и 30-секундной рекламы по четырем переменным Осведомленность о Главная запоминающаяся Убедительность Эмоциональность торговой марке идея 2,5 1,9 2,7 2,0 3,7 2,1 4,3 1,9 Парные проверки показали, что эти различия статистически значимы, и 15-секундная I телереклама оценена как менее эффективная [19]. , |т.||Ш.|иШ|ШШ|И|,|ИЦ, „ I пптпп:пплл-:лт- ' V ' lllll.ll..l..llllilLmmiimiiii»ii,»..i. i 1 и, „,„„„,, ft Разность в долях для парных выборок можно проверить, используя критерий Мак-Немара или критерий хи-квадрат, как это показано в следующем разделе, посвященном непараметри- ческим методам проверки. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ПРОВЕРКИ ГИПОТЕЗ Данные методы используют в том случае, когда маркетологи имеют дело с независимыми неметрическими переменными. Аналогично параметрическим методам проверки, непарамет- рические критерии применяют для проверки переменных из одной выборки, двух независи- мых или двух взаимосвязанных выборок. Одна выборка Иногда исследователь хочет проверить, попадают ли значения конкретной переменной под определенный тип закона распределения, например нормального распределения, равномерно- го или распределения Пуассона. Знание закона распределения необходимо для нахождения ве- роятностей, соответствующих известным значениям переменной или для нахождения значе- ний переменной, соответствующих известным вероятностям (см. Приложение 12.А). Критерий согласия Колмогорова-Смирнова для одной выборки (Kolmogorov—Smirnov (К—S) one-sample test) как раз и является критерием степени согласия теоретической кривой распределения с эм- пирическими данными. Критерий согласия Колмогорова-Смирнова для одной выборки (Kolmogorov-Smirnov (K-S) one-sample test) Непараметрический метод проверки степени согласия эмпирической функции распределе- ния переменной с определенным теоретическим законом распределения. Критерий Колмогорова-Смирнова сравнивает эмпирическую функцию распределения пе- ременной с определенным теоретическим законом распределением. В наших дальнейших рас- суждениях А,- обозначает кумулятивную частость для каждой категории теоретического (предполагаемого) распределения, а О,— сравниваемое значение выборочной частости. Крите- Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 589 рий К-С основан на максимальном значении абсолютной разности между А; и О,. Значение критерия вычисляют по формуле: К = Мах\А, - О; Решение об отклонении нулевой гипотезы основано на значении К. Чем больше значение К, тем больше уверенности, что нулевая гипотеза Я^неверна. При а = 0,05 критическое значе- ние Кцпя больших выборок (свыше 35 наблюдений) задается формулой l,36vn [20]. Альтерна- тивно, К можно преобразовать в нормально распределенную ^-статистику и определить свя- занную с ней вероятность. Предположим, что в рамках примера по степени использования Internet мы хотели бы уз- нать, действительно ли собранные данные подчиняются нормальному распределению. Резуль- таты проверки с помощью критерия согласия К—С, представлены в табл. 15.16. I Таблица 15.16. Критерий К-С для проверки нормального закона распределения дан* • ных (для одной выборки) в примере по изучению степени использования Internet Проверка распределения - Нормальное Среднее 6,600 Стандартное отклонение 4,296 Случаи (количество) 30 Самые большие значения разностей Абсолютное Положительное Отрицательное K-S z-статистика Двусторонняя вероятность р 0,222 0,222 -0,142 1,217 0,103 Самая большая по абсолютной величине разность между наблюдаемым и нормальным распределением равна К = 0,222. Хотя размер нашей выборки только 30 (меньше, чем 35), мы можем использовать приближенную формулу, и критическое значение для К равно 1.3бл/30 =0,248. Так как вычисленное значение К меньше критического, то нулевая гипотеза не может быть отклонена. Альтернативно, из данных табл. 15.16 видно, что вероятность по- явления наблюдаемого значения К, равного 0,222, определенная с помощью нормализован- ной г-статистики, равна 0,103. Поскольку это значение больше, чем уровень значимости 0,05, то нулевую гипотезу нельзя отклонить. Мы пришли к аналогичному выводу. Следова- тельно, распределение степени использования Internet несущественно отклоняется от нор- мального распределения. Как уже упоминалось, в отношении одной переменной из одной выборки можно выпол- нять проверку гипотезы по критерию хи-квадрат. В этом плане он также является критерием согласия. Он проверяет, действительно ли существует статистически значимая разница между
Дата добавления: 2015-05-09; Просмотров: 317; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |