КАТЕГОРИИ:

Главная
Случайная страница
Познавательное
Новые статьи
Контакты
Заказать работу

Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Часть III. Сбор, подготовка и анализ данных 10 страница

⇐ Предыдущая 1 234 5 6 7 8 9 Следующая ⇒

различиях представлена на рис. 15.9.

Методы, показанные на рис. 15.9, согласуются с классификацией одномерных методов, пред-

ставленных на рис. 14.6. Главное различие в том, что методы на рис. 14.6 также применимы к не-

скольким выборкам (больше двух) и таким образом связаны с однофакторным дисперсионным

анализом (ANOVA) и ранговым дисперсионным анализом Краскера—Уоллеса (K-W ANOVA)

(глава 14), тогда как методы на рис, 15.9 ограничены двумя выборками. Процедуры проверки ги-

потез можно в общем виде классифицировать на параметрические и непараметрические, исходя

из шкалы измерения переменных. Параметрические методы проверки гипотез (parametric tests)

предполагают, что изучаемые переменные измерены с помощью интервальной шкалы.

Параметрические методы проверки гипотез (parametric tests)

Предполагают, что изучаемые переменные измерены с помощью интервальной шкалы.

Непараметрические методы проверки гипотез (nonparametric tests) предполагают, что пере-

менные измерены с помощью номинальной или порядковой шкал.

Непараметрические методы проверки гипотез (nonparametric tests)

Предполагают, что переменные измерены с помощью номинальной или порядковой шкал.

580 Часть III. Сбор, подготовка и анализ данных

Проверка гипотезы

Параметрические

методы проверки

Непараметрические

методы проверки

аметрические-данные)

(-критерий

z- критерий

Независимые

Двухгрупповой

t - критерий

I- критерий

Парные

выборки

Парный

(- критерий

Критерий хи-квадрат

Критерий Колмогорова-

Смирнова

Критерий серий

Биномиальный критерий

Критерий хи-каадрат

Критерий Манна-Уитни

Медианы

Критерий Колмогорова-

Смирнова

Парные

выборки

Критерий знаков

Критерий Вилшксона

Критерий МакНемара

Критерий хи-квадрат

Рис. 15.9. Проверка гипотез о различиях

Дальнейшая классификация проводится в зависимости от количества выборок: одна, две

или больше. Как объяснялось в главе 14, число выборок определяют, исходя из метода даль-

нейшей обработки данных для анализа, а не из того, как были собраны данные. Выборки неза-

висимы в том случае, если взяты случайным образом из различных генеральных совокупностей.

Для анализа данные, принадлежащие различным группам респондентов, например мужчинам

и женщинам, обычно обрабатывают как независимые выборки. С другой стороны, выборки

являются парными (связанными), когда данные двух выборок имеют отношение к одной и той

же группе респондентов.

Наиболее популярный параметрический критерий для проверки гипотез о равенстве сред-

них заключается в расчете значений /-статистики. Проверка на основе /-критерия выполняется

относительно среднего значения одной или двух выборок. В случае двух выборок они могут

быть независимыми или парными. Непараметрические методы проверки, основанные на на-

блюдениях, взятых из одной выборки, включают критерий Колмогорова-Смирнова, критерий

хи-квадрат, критерий серий и биномиальный критерий. В случае двух независимых выборок

для проверки гипотез относительно среднего значения используют {/-критерий Манна—Уитни

(Mann—Whitney), медианный критерий и двухвыборочный критерий Колмогорова—Смирнова.

Эти критерии— непараметрические копии ^-критерия для двух групп. Для парных выборок

непараметрические критерии включают критерий Вилкоксона парных сравнений и критерий

знаков. Эти тесты — копии парного / -критерия. Как параметрическими, так и непараметри-

ческими методами оценивают гипотезы, относящиеся к более, чем двум выборкам. Эти крите-

рии рассматриваются в следующих главах.

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 581

ПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ

Использование параметрических критериев позволяет сделать статистический вывод отно-

сительно среднего значения генеральной совокупности. Обычно для этой цели используют

t-критерий (t-test). В основе критерия лежит /-статистика Стьюдента (Student).

Т-критерий (t-test)

Одномерный метод проверки гипотез, использующий t-распределение. Применяется, если

стандартное отклонение неизвестно и размер выборки мал.

Т-статистика (t-statistic) подразумевает, что переменная нормально распределена, среднее

известно (или предполагается, что оно должно быть известно) и дисперсия генеральной сово-

купности определена по данным выборки.

Т-статистика {t-statistic)

Статистика, подразумевающая, что переменная имеет колоколоподобное распределение,

среднее известно (или предполагается, что известно) и дисперсия генеральной совокупно-

сти определена поданным выборки.

Примем, что случайная переменная Анормально распределена, со средним ц и неизвестной

дисперсией генеральной совокупности о"2, которая оценивается с помощью выборочной дис-

персии s2. Вспомним, что стандартное отклонение выборочного среднего X определяется как

s-f = j/V". Тогда / = (X -,u)/s- является/-распределенным с л-1 степенями свободы.

Т-распределение (t-distribution) по внешнему виду аналогично нормальному распределе-

нию. Графики обоих распределений симметричны и имеют колоколообразную форму. Однако

по сравнению с нормальным распределением в распределении Стьюдента хвостовые части гра-

фика по площади больше, а центральная часть по площади — меньше. Это связано с тем, что

дисперсия совокупности ет2 неизвестна, и ее оценивают во выборочной дисперсии s:.

Т-распределение (t-statistic)

Симметричное колоколоподобное распределение, используемое для проверки выборок не-

большого размера (п < 30).

При данной неопределенности в значении s: наблюдаемые значения / -статистики более

изменчивы, чем значения г-статистики. Однако с ростом числа степеней свободы распределе-

ние приближается к нормальному. Фактически, для выборок большого размера (120 и больше)

t~ распределение и нормальное распределение практически не отличаются. В табл. 4 Статисти-

ческого приложения даны избранные процентили /-распределения.

Процедура проверки гипотезы в случае использования в качестве метода проверки

(-критерия состоит из следующих этапов.

1. Сформулировать нулевую (Н0) и альтернативную (Я,)гипотезы.

2. Выбрать соответствующую формулу для вычисления /-статистики.

3. Выбрать уровень значимости а для проверки нулевой гипотезы И0. Обычно выбирают уро-

вень значимости а, равный 0,05.

4. Взять одну или две выборки и для каждой вычислить значение средней и стандартное от-

клонение.

5. Вычислить значение t -статистики, приняв, что нулевая гипотеза ffa верна.

582 Часть III. Сбор, подготовка и анализ данных

6. Вычислить число степеней свободы и оценить вероятность получения большего значения

статистики из табл. 4 Статистического приложения. (Альтернативно, вычислить критиче-

ское значение / -статистики).

7. Если вероятность, рассчитанная на этапе 6 меньше, чем уровень значимости Иа, выбран-

ный на этапе 3, то отклонить нулевую гипотезу Нй. Если значение вероятности больше, то

Н0 не отклонять. (Альтернативно, если значение, вычисленной на этапе 5 /-статистики,

больше критического значения, определенного на этапе 6, то отклонить нулевую гипотезу

Я0. Если вычисленное значение меньше критического значения, то Я0 не следует откло-

нять). Неудачная попытка отклонить нулевую гипотезу необязательно подразумевает, что

Я0 верна. Это только означает, что истинное положение несущественно (статистически не-

значимо) отличается от положения, утверждаемого Я0.

8. Выразить полученный результат с точки зрения решения проблемы маркетингового ис-

следования.

Мы проиллюстрируем общую процедуру проверки гипотез с помощью /-критерия в после-

дующих разделах главы, начав с рассмотрения одной выборки.

Одна выборка

В маркетинговом исследовании аналитика часто интересует утверждение о сотноше-

нии одной переменной по сравнению с известной или заданной величиной. Примерами

таких утверждений являются: доля рынка для нового товара превышает 15%; по крайней

мере 65% потребителей понравится новая упаковка; 80% дилеров предпочтут новую поли-

тику ценообразования. Эти утверждения сформулируем с точки зрения нулевой гипотезы,

которую затем проверим, используя статистический критерии для одной выборки, такой

как /- или г-критерий. Если маркетолог использует /-критерий для проверки значения

средней, его интересует, совпадает ли значение генеральной средней со значением, зада-

ваемым в утверждении нулевой гипотезы (Я0). Для данных табл. 15.2 предположим, что

мы хотим проверить гипотезу о том, что среднее значение степени знакомства с Internet

превышает 4,0 (балла) — нейтральное значение по семибалльной шкале. Выберем уровень

значимости, равный а = 0,05. Сформулируем гипотезы:

Я0:ц<4,0

Я0:ц>4,0

(х-,}

5,385

0,297 О, ЗУ.'

Число степеней свободы для /-статистики, используемой для проверки гипотезы в отноше-

нии среднего значения, равно п ~ 1. В нашем случае п — 1 = 29 — 1 или 28. Из табл. 4 Статисти-

ческого приложения находим, что вероятность получения более высокого значения, чем 2,471,

меньше 0,05. {Альтернативно, критическое значение /-статистики для 28 степеней свободы и

уровня значимости 0,05 равно 1,7011, что меньше рассчитанного значения, равного 2,471).

Следовательно, нулевую гипотезу отклоняют. Степень знакомства с Internet превышает 4,0,

Обратите внимание, что если нам известно стандартное отклонение генеральной совокуп-

ности, и оно, допустим, равно 1,5, а, значит мы используем его, а не определенное на основа-

нии выборки, то лучше использовать z-критерий (z-test).

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 583

Z-критерий (z-test)

Одномерный метод проверки гипотезы, использующий стандартное нормальное рас-

пределение.

В нашем случае значение г-статистики было бы равно:

где

_ 1.5 _ 15 _02?9 ~Viif7 — г

V29 5,385

(4/724-4,0) 0/724

0,279 0,279

Из табл. 2 Статистического приложения вероятность получить более высокое значение ста-

тистики г, чем 2,595, меньше 0,05. (Альтернативно, критическое значение г-статистики для

односторонней проверки при уровне значимости 0,05 равно 1,645, что меньше полученного

значения, равного 2,595). Следовательно, нулевую гипотезу отклоняют и получают тот же ре-

зультат, что и при проверке гипотезы с помощью /-критерия.

Процедура проверки нулевой гипотезы относительно доли уже проиллюстрирована в этой

главе, когда мы знакомились с теорией проверки гипотезы.

Две независимые выборки

Иногда гипотезы в маркетинге связаны с параметрами, взятыми из двух разных генеральных

совокупностей; например, пользователи и непользователи торговой марки по-разному восприни-

мают данную торговую марку; люди с высокими доходами больше тратят на развлечения по срав-

нению с лицами, имеющими низкий доход; доля приверженцев данной торговой марки в сег-

менте 1 больше их доли в сегменте 2. Выборки, взятые случайным образом из разных изучаемых

совокупностей, называют независимыми выборками (independent samples). Как и для одной выбор-

ки, проверка гипотез может проводиться относительно значений средних или долей.

Независимые выборки (independent samples)

Две выборки, экспериментально не связанные между собой. Измерения, проведенные в од-

ной выборке, не оказывают влияния на значения переменных в другой.

Средние. В случае проверки средних для двух независимых выборок гипотезы имеют сле-

дующий вид:

Я = = i

Из двух совокупностей берут выборки и вычисляют значения средних и дисперсий, исходя

из размеров выборок, равных соответственно п, и п2. Если окажется, что обе рассматриваемые

совокупности имеют одинаковые значения дисперсий, то значение объединенной дисперсии,

рассчитанное из двух дисперсий выборок, равно:

m + ni-2

Стандартное отклонение проверяемой статистики рассчитывается по формуле:

584 Часть III. Сбор, подготовка и анализ данных

Соответствующее значение /-статистики вычислим по формуле:

Число степеней свободы в нашем случае равно (п,+ п2— 2).

Если две генеральные совокупности имеют разные значения дисперсий, то точное значение

f-статистики нельзя подсчитать из-за различия в выборочных средних. Вместо этого аппрок-

симируем значения ^-статистики. Число степеней свободы в этом случае обычно не будет це-

лым числом, но приемлемо точное значение вероятности можно получить округлением до

ближайшего целого числа [17].

Если неизвестно, равны ли дисперсии двух совокупностей, то для проверки выборочной

дисперсии используем F-критерий, или критерий Фишера (F-test). В этом случае гипотезы

имеют вид:

F-критерий, или критерий Фишера (F-test)

Статистический критерий для проверки равенства двух дисперсий из двух совокупностей.

F-статистику (F-statistic) вычисляют как отношение выборочных дисперсий по формуле:

F(ni-0>:-.)=^T'

где

п, — размер выборки 1;

пг — размер выборки 2;

«[ -1 — степени свободы для выборки 1;

«, -1 — степени свободы для выборки 2;

$,2 — выборочная дисперсия для выборки 1;

Si — выборочная дисперсия для выборки 2.

F-статистика (F-statistic)

F-статистика представляет собой отношение двух выборочных дисперсий.

Как видно, критическое значение F-распределения (F-distribution) зависит от значений

числа степеней свободы: в числителе и в знаменателе.

F-распределение (F-distribution)

Распределение частот, зависящее от значений степеней свободы: числа степеней свободы в

числителе и знаменателе.

Критическое значение f-статистики для различных степеней свободы в числителе и знамена-

теле дано в табл. 5 Статистического приложения. Если вероятность F-статистики выше уровня

значимости а, то Н0 не отклоняют и используют /-критерий, в основе которого лежит оценка объ-

единенной дисперсии. С другой стороны, если вероятность f-cra-racTHKH меньше или равна а, то

ЯцОтклоняют и используют /-критерий, в основе которого лежит оценка отдельных дисперсий.

Предположим, что с помощью данных табл. 15.1 мы хотим определить, действительно ли интен-

сивность использования Internet мужчинами отличается от использования Internet женщинами. Для

этого выполним /-критерий для двух независимых выборок. Результаты приведены втабл. 15.14.

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 585

Таблица 15.14. Т-критерий двух независимых выборок

Итоговые статистики

Число случаев Среднее Стандартное отклонение

Мужчины

Женщины

F-статнстика

15,507

9,333

3,867

4,0

1,68

F-критернй для проверки равенства дисперсий

Двусторонняя вероятность

0,000

t-критерий

Предполагается равенство дисперсий Не предполагается равенство дисперсий

t-статнстика Степени Двусторонняя t-статистика Степени Двусторонняя

свободы вероятность свободы вероятность

4,492 28 0,000 4,492 18,014 0,000

Обратите внимание, что /"-критерий имеет вероятность меньше 0,05. В соответствии с этим

нулевую гипотезу Я0 отклоняют. В данном случае следовало бы использовать /-критерий, в основе

которого лежит утверждение "Предполагается, что дисперсии не равны". Значение / равно 4,492 и

с учетом 18,014 степеней свободы это дает значение вероятности, равное 0,000, которое меньше

уровня значимости, равного 0,05. Следовательно, нулевую гипотезу о равенстве средних отклоня-

ют. Так как среднее значение степени использования Internet для мужчин (пол — 1) равно 9,333, а

для женщин (пол — 2) — 3,867, то мужчины пользуются Internet значительно больше по сравне-

нию с женщинами. Мы также показываемоценивание с помощью /-критерия для равных диспер-

сий, поскольку большинство компьютерных программ автоматически выполняет /-критерий

обоими способами. Применение /-критерия рассмотрим в следующем примере.

ПРИМЕР. Маркетологи пытаются установить связь между мобильностью лиц

пожилого возраста и приверженностью к определенному универмагу

В исследовании выборки 789 американских респондентов 65 лет и старше маркетологи

попытались определить связь недостаточной мобильности людей с выбором универмага.

Главный вопрос данного исследования связан с различиями в физических требованиях,

предъявляемых лицами пожилого возраста, зависимыми от других (требующими помощи

при передвижении) и уверенными в своих силах, т.е. действительно ли две группы лиц по-

жилого возраста выдвигают разные требования, чтобы добраться до магазина? Детальный

анализ физических требований, выполненный на основе проверки двух независимых выбо-

рок с помощью /-критерия (таблица ниже), показал, что зависимые лица, вероятнее всего,

ищут магазины, которые предлагают доставку товаров на дом или прием заказов по телефо-

ну, а также магазины, в которые они могут добраться. Они также предпочитают ряд близко-

расположенных магазинов [18].

Различия в физических требованиях между зависимыми и уверенными в своих силах пожилыми

людьми

Среднее'

Уверенные в своих силах Зависимые пожилые Вероятность для

пожилые люди люди (-критерия

Доставка домой

Заказы по телефону

Доставка (человека) в универмаг

1,787

2,030

2,188

2,000

2,335

3,098

0,023

0,003

0,000

586 Часть III. Сбор, подготовка и анализ данных

Близость парковки 4,001 4,095 0,305

Расположение (магазина) рядом с домом 3,177 3,325 0,137

Ряд магазинов, расположенных близко 3,456 3,681 0,023

один от другого

"Измерения проведены по пятибалльной шкале: "не важно" присвоено 1 балл, "очень важно" — 5 баллов.

В этом примере мы проверили различие между средними. Аналогичную проверку можно

выполнить для различия долей для двух независимых выборок.

Доли. Рассмотрим ситуацию для долей двух независимых выборок, данные для которой

приведены в табл. 15.1, где дано количество мужчин и женщин, использующих Internet для

приобретения товаров. Одинаковы ли доли людей, использующих Internet для приобретения

товаров, среди мужчин и женщин? Нулевая и альтернативная гипотезы имеют вид:

Я0:*,=*,

Н2:п^ Лг

Для одной выборки используют г-критерий. Однако в этом случае статистику, лежащую в

основе критерия, вычисляют по формуле:

р — Р

Z-L\ О.

5Ъ-Ъ

Здесь числитель представляет собой разность долей в двух выборках Р1 и Р2 Знаменатель —

это стандартная ошибка разности двух долей, вычисляемая по формуле:

где

Выбран уровень значимости а = 0,05. С учетом данных табл. 15.15 тест-статистику можно

вычислить следующим образом:

Р} -Д =(1Ш5)-(б/15) = 0,733-0,400 = 0,333

(15x0,733+15x0,400)

P=i Ц ^ L = 0,567

(15 + 15)

*«. =.|0,567хО,43зГ-1 + ^1 =0,181

0,181

При двусторонней проверке область справа от критического значения равна а/2 или 0,025.

Следовательно, критическое значение тест-статистики равно 1,96. Так как вычисленное значе-

ние меньше, чем критическое, нулевую гипотезу нельзя отклонить. Таким образом, различие в

долях пользователей (0,733) для мужчин и (0,400) для женщин не считается статистически зна-

чимым. Обратите внимание, хотя различие довольно существенное, оно статистически незна-

чимое из-за небольшого размера выборки (по 15 человек в каждой группе).

Парные выборки

Во многих маркетинговых исследованиях наблюдения для двух групп не берут из незави-

симых выборок. В таком случае наблюдения называют парными или связанными выборками

(paired samples), поскольку два набора наблюдений относятся к одним и тем же респондентам.

Глава 15, Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 587

Парные или связанные выборки (paired samples)

В проверке гипотез наблюдения называют парными, если два набора наблюдений относятся

к одним и тем же респондентам.

Выборга респондентов может оценивать две конкурирующие торговые марки, выявляя от-

носительную важность двух характеристик (атрибутов) продукта, или оценивать стоимость тор-

говой марки в разное время (сезон). Различие, возникающее в этой ситуации, проверяют с по-

мощью t-критерия парных выборок (paired samples t-test).

t-критерий парных выборок (paired samples t-test)

Критерий для различий средних значений парных выборок.

Чтобы вычислить значение /-критерия для парных выборок, вводят переменную разности,

обозначаемую D, и вычисляют ее среднее и дисперсию. После этого вычисляют /-статистику. Чис-

ло степеней свободы равно п — 1, где п — число пар. Соответствующие формулы имеют вид:

где

В примере с пользователями Internet (см. табл. 15.1) этот критерий используют для опреде-

ления отношения респондентов к Internet и к Internet-технологиям. Полученные данные при-

ведены втабл. 15.15.

Таблица 15.15. t-критерий парных выборок

Переменная Количество случаев Среднее

Отношение к Internet 30 5,167

Отношение к Internet- 30 4,100

технологии

Различие отношений к Internet и Internet-технологиям

Стандартное

отклонение

1,234

1,398

Стандартная ошибка

0,225

0,255

Разность Стандартное Стандартная Корреляция Двусторонняя Т-статис- Степени Двусторонняя

средних отклонение ошибка вероятность тика свободы вероятность

1,067 0,828 0,1511 0,609 O.OOQ 7,059 29 0,000

Среднее значение отношения респондентов к Internet равно 5,167, а к Internet-технологиям —

4,10. Разность средних между этими переменными равна 1,067 со стандартным отклонением

0,828 и стандартной ошибкой 0,1511. Поэтому значение /-статистики равно (1,067/0,1511) =

7,06 с числом степеней свободы, равным 30 — I = 29 и значением вероятности, меньшим 0,001.

Следовательно, респонденты более благосклонно относятся к Internet, чем к Internet-

технологиям в целом. В качестве другого примера рассмотрим определение относительной эф-

фективности 15-секундной телевизионной рекламы по сравнению с 30-секундной.

588 Часть III. Сбор, подготовка и анализ данных

ПРИМЕР. Подсчет секунд

Для выяснения относительной эффективности 15-секундной телевизионной рекламы

по сравнению с 30-секундной провели опрос 83 директоров по работе с масс-медиа круп-

нейших в Канаде рекламных агентств. Используя пятибалльную шкалу (1 — отлично, 5 —

плохо) респонденты оценивали эффективность 15- и 30-секундной рекламы по следующим

показателям; осведомленность о торговой марке, главная запоминающаяся идея, убедитель-

ность и способность к эмоциональной передаче. Данные таблицы свидетельствуют, что по

всем показателям респонденты выше оценили 30-секундную рекламу.

Среднее значение рейтинга 15- и 30-секундной рекламы по четырем переменным

Осведомленность о Главная запоминающаяся Убедительность Эмоциональность

торговой марке идея

2,5

1,9

2,7

2,0

3,7

2,1

4,3

1,9

Парные проверки показали, что эти различия статистически значимы, и 15-секундная I

телереклама оценена как менее эффективная [19].

, |т.||Ш.|иШ|ШШ|И|,|ИЦ, „ I пптпп:пплл-:лт- ' V ' lllll.ll..l..llllilLmmiimiiii»ii,»..i. i 1 и, „,„„„,, ft

Разность в долях для парных выборок можно проверить, используя критерий Мак-Немара

или критерий хи-квадрат, как это показано в следующем разделе, посвященном непараметри-

ческим методам проверки.

НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ

ПРОВЕРКИ ГИПОТЕЗ

Данные методы используют в том случае, когда маркетологи имеют дело с независимыми

неметрическими переменными. Аналогично параметрическим методам проверки, непарамет-

рические критерии применяют для проверки переменных из одной выборки, двух независи-

мых или двух взаимосвязанных выборок.

Одна выборка

Иногда исследователь хочет проверить, попадают ли значения конкретной переменной под

определенный тип закона распределения, например нормального распределения, равномерно-

го или распределения Пуассона. Знание закона распределения необходимо для нахождения ве-

роятностей, соответствующих известным значениям переменной или для нахождения значе-

ний переменной, соответствующих известным вероятностям (см. Приложение 12.А). Критерий

согласия Колмогорова-Смирнова для одной выборки (Kolmogorov—Smirnov (К—S) one-sample

test) как раз и является критерием степени согласия теоретической кривой распределения с эм-

пирическими данными.

Критерий согласия Колмогорова-Смирнова для одной выборки

(Kolmogorov-Smirnov (K-S) one-sample test)

Непараметрический метод проверки степени согласия эмпирической функции распределе-

ния переменной с определенным теоретическим законом распределения.

Критерий Колмогорова-Смирнова сравнивает эмпирическую функцию распределения пе-

ременной с определенным теоретическим законом распределением. В наших дальнейших рас-

суждениях А,- обозначает кумулятивную частость для каждой категории теоретического

(предполагаемого) распределения, а О,— сравниваемое значение выборочной частости. Крите-

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 589

рий К-С основан на максимальном значении абсолютной разности между А; и О,. Значение

критерия вычисляют по формуле:

К = Мах\А, - О;

Решение об отклонении нулевой гипотезы основано на значении К. Чем больше значение

К, тем больше уверенности, что нулевая гипотеза Я^неверна. При а = 0,05 критическое значе-

ние Кцпя больших выборок (свыше 35 наблюдений) задается формулой l,36vn [20]. Альтерна-

тивно, К можно преобразовать в нормально распределенную ^-статистику и определить свя-

занную с ней вероятность.

Предположим, что в рамках примера по степени использования Internet мы хотели бы уз-

нать, действительно ли собранные данные подчиняются нормальному распределению. Резуль-

таты проверки с помощью критерия согласия К—С, представлены в табл. 15.16.

I Таблица 15.16. Критерий К-С для проверки нормального закона распределения дан*

• ных (для одной выборки) в примере по изучению степени использования Internet

Проверка распределения - Нормальное

Среднее 6,600

Стандартное отклонение 4,296

Случаи (количество) 30

Самые большие значения разностей

Абсолютное Положительное Отрицательное K-S z-статистика Двусторонняя

вероятность р

0,222 0,222 -0,142 1,217 0,103

Самая большая по абсолютной величине разность между наблюдаемым и нормальным

распределением равна К = 0,222. Хотя размер нашей выборки только 30 (меньше, чем 35),

мы можем использовать приближенную формулу, и критическое значение для К равно

1.3бл/30 =0,248. Так как вычисленное значение К меньше критического, то нулевая гипотеза

не может быть отклонена. Альтернативно, из данных табл. 15.16 видно, что вероятность по-

явления наблюдаемого значения К, равного 0,222, определенная с помощью нормализован-

ной г-статистики, равна 0,103. Поскольку это значение больше, чем уровень значимости

0,05, то нулевую гипотезу нельзя отклонить. Мы пришли к аналогичному выводу. Следова-

тельно, распределение степени использования Internet несущественно отклоняется от нор-

мального распределения.

Как уже упоминалось, в отношении одной переменной из одной выборки можно выпол-

нять проверку гипотезы по критерию хи-квадрат. В этом плане он также является критерием

согласия. Он проверяет, действительно ли существует статистически значимая разница между

⇐ Предыдущая 1 234 5 6 7 8 9 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2015-05-09; Просмотров: 317; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.219 сек.