Критерии Фишера и Стьюдента

⇐ Предыдущая 6 7 8 91011 12 13 14 15 Следующая ⇒

Критерий Фишера для двух выборок оценивает нулевую гипотезу о равенстве дисперсий, а критерий Стьюдента - гипотезу о равенстве выборочных средних.

Остановимся более подробно на критерии Стьюдента и рассмотрим t-критерий для независимых и зависимых выборок.

t-критерий для независимых выборок

Цель, предположения. t- критерий является наиболее часто используемым методом обнаружения различия между средними двух выборок. Например, t- критерий можно использовать для сравнения средних показателей группы пациентов, принимавших определенное лекарство, с контрольной группой, где принималось безвредное лекарство. Теоретически, t- критерий может применяться, даже если размеры выборок очень небольшие (например, 10; некоторые исследователи утверждают, что можно исследовать выборки меньшего размера), и если переменные нормально распределены (внутри групп), а дисперсии наблюдений в группах не слишком различны. Предположение о нормальности можно проверить, исследуя распределение (например, визуально с помощью гистограммы) или применяя какой-либо критерий нормальности. Равенство дисперсий в двух группах можно проверить с помощью F критерия или использовать более устойчивый критерий Левена. Если условия применимости t -критерия не выполнены, следует использовать непараметрические альтернативы t -критерия.

p-уровень значимости t- критерия равен вероятности ошибочно отвергнуть гипотезу о равенстве средних двух выборок, когда в действительности эта гипотеза имеет место. Иными словами, он равен вероятности ошибки принять гипотезу о неравенстве средних, когда в действительности средние равны. Некоторые исследователи предлагают, в случае, когда рассматриваются отличия только в одном направлении (например, рассматривается альтернатива: среднее в первой группе больше (меньше), чем среднее во второй), использовать одностороннее t- распределение и делить р-уровень двустороннего t-критерия пополам. Другие предлагают всегда работать со стандартным двусторонним t-критерием.

Расположение данных. Чтобы применить t- критерий для независимых выборок, требуется, по крайней мере, одна независимая (группирующая) переменная (например, Пол: мужчина/женщина) и одна зависимая переменная (например, тестовое значение некоторого показателя, кровяное давление, число лейкоцитов и т.д.). С помощью специальных значений независимой переменной (эти значения называются кодами, например, мужчина и женщина) данные разбиваются на две группы. Приведем пример оценки данных с помощью t -критерия из учебника по статистике, сравнивающего среднее значение лейкоцитов в крови для мужчин и женщин.

	ПОЛ	Число лейкоцитов в крови
наблюдение 1 наблюдение 2 наблюдение 3 наблюдение 4 наблюдение 5	мужчина мужчина мужчина женщина женщина	111 110 109 102 104
	среднее число лейкоцитов в крови для мужчин = 110, для женщин = 103

Графики t-критериев. Анализ данных с помощью t- критерия, сравнения средних и меры отклонения от среднего в группах можно производить с помощью диаграмм размаха (см. график ниже).

Эти графики позволяют визуально оценить степень зависимости между группирующей и зависимой переменными.

t-критерий для зависимых выборок

Внутригрупповая вариация. Степень различия между средними в двух группах зависит от внутригрупповой вариации (дисперсии) переменных. В зависимости от того, насколько различны эти значения для каждой группы, "грубая разность" между групповыми средними показывает более сильную или более слабую степень зависимости между независимой (группирующей) и зависимой переменными. Например, если среднее число лейкоцитов равнялось 102 для мужчин и 104 для женщин, то разность внутригрупповых средних только на величину 2 будет чрезвычайно важной, когда все значения числа лейкоцитов мужчин лежат в интервале от 101 до 103, а все значения числа лейкоцитов в крови женщин - в интервале 103 - 105. В этом случае можно довольно хорошо предсказать число лейкоцитов в крови (значение зависимой переменной) исходя из пола субъекта (независимой переменной). Однако если та же разность 2 получена из сильно разбросанных данных (например, изменяющихся в пределах от 0 до 200), то этой разностью вполне можно пренебречь. Таким образом, можно сказать, что уменьшение внутригрупповой вариации увеличивает чувствительность критерия.

Цель. t- критерий для зависимых выборок очень полезен в тех довольно часто возникающих на практике ситуациях, когда важный источник внутригрупповой вариации (или ошибки) может быть легко определен и исключен из анализа. Например, это относится к экспериментам, в которых две сравниваемые группы основываются на одной и той же совокупности наблюдений (субъектов), которые тестировались дважды (например, до и после лечения, до и после тренинга). В подобных экспериментах значительная часть внутригрупповой изменчивости (вариации) в обеих группах может быть объяснена индивидуальными различиями субъектов. Заметим, что на самом деле, такая ситуация не слишком отличается от той, когда сравниваемые группы совершенно независимы, где индивидуальные отличия также вносят вклад в дисперсию ошибки. Однако в случае независимых выборок, вы ничего не сможете поделать с этим, т.к. не сможете определить (или "удалить") часть вариации, связанную с индивидуальными различиями субъектов. Если та же самая выборка тестируется дважды, то можно легко исключить эту часть вариации. Вместо исследования каждой группы отдельно и анализа исходных значений, можно рассматривать просто разности между двумя измерениями (например, "до " и "после ") для каждого субъекта. Вычитая первые значения из вторых (для каждого субъекта) и анализируя затем только эти "чистые (парные) разности", вы исключите ту часть вариации, которая является результатом различия в исходных уровнях индивидуумов. Именно так и проводятся вычисления в t -критерии для зависимых выборок. В сравнении с t -критерием для независимых выборок, такой подход дает всегда "лучший" результат (критерий становится более чувствительным).

Теоретические предположения t -критерия для независимых выборок относятся также к критерию для зависимых выборок. Это означает, что попарные разности должны быть нормально распределены. Если это не выполняется, то можно воспользоваться одним из альтернативных непараметрических критериев.

Расположение данных. Вы можете применять t- критерий для зависимых выборок к любой паре переменных в наборе данных. Заметим, применение этого критерия мало оправдано, если значения двух переменных несопоставимы. Например, если вы сравниваете среднее число лейкоцитов в крови в выборке пациентов до и после лечения, но используете различные методы вычисления количественного показателя или другие единицы во втором измерении, то высоко значимые значения t -критерия могут быть получены искусственно, именно за счет изменения единиц измерения. Следующий набор данных может быть проанализирован с помощью t -критерия для зависимых выборок.

	Число лейкоцитов в крови до	Число лейкоцитов в крови после
наблюдение 1 наблюдение 2 наблюдение 3 наблюдение 4 наблюдение 5...	111.9 109 143 101 80...	113 110 144 102 80.9...
	средняя разность между числом лейкоцитов "до" и "после" = 1

Средняя разность между показателями в двух столбцах относительно мала (d=1) по сравнению с разбросом данных (от 80 до 143, в первой выборке). Тем не менее t -критерийдля зависимых выборок использует только парные разности, "игнорируя" исходные численные значения и их вариацию. Таким образом, величина этой разности 1 будет сравниваться не с разбросом исходных значений, а с разбросом индивидуальных разностей, который относительно мал: 0.2 (от 0.9 в наблюдении 5 до 1.1 в наблюдении 1). В этой ситуации разность 1 очень большая и может привести к значимому t- значению. Матрицы t-критериев. t -критерий для зависимых выборок может быть вычислен для списков переменных и просмотрен далее как матрица. Пропущенные данные при этом обрабатываются либо построчно, либо попарно, точно так же как при вычислении корреляционных матриц. Все те предостережения, которые относились к использованию этих методов обработки пропусков при вычислении матриц коэффициентов корреляций, остаются в силе при вычислении матриц t -критериев. Именно, возможно: появление артефактов (искусственных результатов) из-за попарного удаления пропусков в t- критерии и возникновение чисто "случайно" значимых результатов.

Глава 4. Непараметрические критерии

Во многих случаях становится необходимым использование статистических процедур, позволяющих обрабатывать данные "низкого качества" из выборок малого объема с переменными, про распределение которых мало что или вообще ничего не известно. Непараметрические методы [10] как раз и разработаны для тех ситуаций, достаточно часто возникающих на практике, когда исследователь ничего не знает о параметрах исследуемой популяции (отсюда и название методов - непараметрические). Говоря более специальным языком, непараметрические методы не основываются на оценке параметров (таких как среднее или стандартное отклонение) при описании выборочного распределения интересующей величины. Поэтому эти методы иногда также называются свободными от параметров или свободно распределенными.

⇐ Предыдущая 6 7 8 91011 12 13 14 15 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2014-12-26; Просмотров: 6215; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2025) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.007 сек.