КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Проверка статистических гипотез
12.1. Основные понятия. Проверка гипотез о параметрах нормально распределенной генеральной совокупности.
Во многих случаях результаты наблюдений используются для проверки предположений (гипотез) относительно тех или иных свойств распределения генеральной совокупности. Пусть X - наблюдаемая дискретная или непрерывная случайная величина. Статистической гипотезой H называется предположение относительно параметров или вида распределения случайной величины X. Статистическая гипотеза Н называется простой, если она однозначно определяет распределение случайной величины X; в противном случае гипотеза Н называется сложной. Так, простой гипотезой является предположение о том, что случайная величина X распределена по нормальному закону N (n,0). если же высказывается предположение, что случайная величина X имеет нормальное распределение N (m,1), где а ≤ m ≤ b, то это сложная гипотеза. Примером сложной гипотезы является также предположение о том, что непрерывная случайная величина X с вероятностью 1/3 принимает значение из интервала (l,5); в этом случае распределение случайной величины X может быть любым из класса непрерывных распределений. Бывает, что распределение случайной величины X известно, и по выборке наблюдений необходимо проверить предположения о значении параметров этого распределения. Такие гипотезы называются параметрическими. Рассмотрим проверку параметрических гипотез. Проверяемая гипотеза называется нулевой гипотезой и обозначается Н 0. Наряду с гипотезой Н 0 рассматривают одну из альтернативных (конкурирующих) гипотез Н 1. Так, если проверяется гипотеза о равенстве параметра θ некоторому заданному значению θ0, т. е. Н 0: θ = θ 0, то в качестве альтернативной гипотезы можно рассмотреть одну из следующих гипотез: Н 1 (1): θ > θ 0; Н 1(2): θ < θ 0; Н 1 (3): θ ≠ θ 0; Н 1(4): θ = θ 0, где θ 1 - заданное значение, θ 1 ≠ θ 0. Выбор альтернативной гипотезы определяется конкретной формулировкой задачи. Правило, по которому принимается решение принять или отклонить гипотезу Н 0, называется критерием K. Так как решение принимается на основе выборки наблюдений случайной величины X, необходимо выбрать подходящую статистику, называемую в этом случае статистикой Z критерия K. При проверке простой параметрической гипотезы Н 0: θ = θ 0в качестве статистики критерия выбирают ту же статистику, что и для оценки параметра θ, т.е. . Проверка статистической гипотезы основывается на принципе, в соответствии с которым маловероятные события считаются невозможными, а события, имеющие большую вероятность, считаются достоверными. Этот принцип реализуют так: перед анализом выборки фиксируется некоторая малая вероятность а, называемая уровнем значимости; пусть V — множество значений статистики Z, a - такое подмножество, что при условии истинности гипотезы Н 0 вероятность попадания статистики критерия в Vk равна α, т.е. P[Z Î Vk/H0]= α. Обозначим zB выборочное значение статистики Z, вычисленное по выборке наблюдений. Критерий формулируется следующим образом: отклонить гипотезу H0, если zk Î Vk; принять гипотезу H0, если zBÎV\Vk. Критерий, основанный на использовании заранее заданного уровня значимости, называют критерием значимости. Множество Vk всех значений статистики критерия Z, при которых принимается решение отклонить гипотезу H0, называется критической областью; область V\Vk называется областью принятия гипотезы H0. Уровень значимости α определяет «размер» критической области Vk. Положение критической области на множестве значений статистики Z зависит от формулировки альтернативной гипотезы Н 1. Например, если проверяется гипотеза Н 1: θ = θ 0, а альтернативная гипотеза Н 1, формулируется как Н 1: θ > θ 0 (θ < θ 0), то критическая область размещается на правом (левом) «хвосте» распределения статистики Z, т. е. имеет вид неравенства Z > z1-α (Z< zα), где z1-α и zα - квантили распределения статистики Z при условии, что верна гипотеза H0. В этом случае критерий называется односторонним, соответственно правосторонним и левосторонним.
Рис. 15. Если альтернативная гипотеза формулируется как Н 1: θ ≠ θ 0, то критическая область размещается на обоих «хвостах» распределения Z, т.е. определяется совокупностью неравенств Z <zα/2 и Z > z1-α/2; в этом случае критерий называется двусторонним. На рисунке 15 показано расположение критической области Vk для различных альтернативных гипотез. Здесь fz(z/H0) -плотность распределения статистики Z критерия при условии, что верна гипотеза H0,V\Vk- область принятия гипотезы, P[ZÎV\Vk] = 1 -α. Проверка параметрической статистической гипотезы при помощи критерия значимости состоит из следующих этапов: 1) сформулировать проверяемую (H0) и альтернативную (Н 1) гипотезы; 2) назначить уровень значимости α; 3) выбрать статистику Z критерия для проверки гипотезы H0; 4) определить выборочное распределение статистики Z при условии, что верна гипотеза H0; 5) в зависимости от формулировки альтернативной гипотезы определить критическую область Vk одним из неравенств Z <zα и Z > z1-α; или совокупностью неравенств Z <zα/2 и Z > z1-α/2; 6) получить выборку наблюдений и вычислить выборочное значение zB статистики критерия; 7) принять статистическое решение: если zB Î VK, то отклонить гипотезу Н0 как не согласующуюся с результатами наблюдений; если zB ÎV\VK, то принять гипотезу Н0, т. е. считать, что гипотеза Н0 не противоречит результатам наблюдений. Замечание. Как правило на этапах 4) - 7) используют статистику, квантили которой табулированы: статистику с нормальным распределением N(0, 1 ), статистику Стьюдента, статистику или статистику Фишера. Однако интерпретацию решения и вычисление вероятностей ошибок, допускаемых при проверке гипотез, удобно проводить для статистики, являющейся непосредственной оценкой параметра θ, т. е. статистики . Пример 50. По паспортным данным автомобильного двигателя расход топлива на 100 км пробега составляет 10 л. В результате изменения конструкции двигателя ожидается, что расход топлива уменьшится. Для проверки проводятся испытания 25 случайно отобранных автомобилей с модернизированным двигателем, причем выборочное среднее расходов топлива на 100 км пробега по результатам испытаний составило = 9,3 л. Предполагается, что выборка расходов топлива получена из нормально распределенной генеральной совокупности со средним т и дисперсией σ 2 = 4 л2. Используя критерий значимости, проверить гипотезу, утверждающую, что изменение конструкции двигателя не повлияло на расход топлива. Решение. Проверяется гипотеза о среднем (m) нормально распределенной генеральной совокупности. Проверку гипотезы проведем по этапам: 1) проверяемая гипотеза Н0:т = 10, альтернативная гипотеза Н 1: т < 10; 2) выберем уровень значимости α = 0,05; 3) в качестве статистики критерия используем оценку математического ожидания - выборочное среднее ; 4) так как выборка получена из нормально распределенной генеральной совокупности, выборочное среднее также имеет нормальное распределение с дисперсией . При условии, что верна гипотеза Н0, математическое ожидание этого распределения равно 10. Нормированная статистика критерия имеет нормальное распределение N (0,1). 5) альтернативная гипотеза Н 1: т < 10предполагает уменьшение расхода топлива, следовательно, нужно использовать односторонний критерий. Критическая область определяется неравенством U <иа. По таблице приложений П1 находим u0,05=-u0,95=-1,645; 6) выборочное значение нормированной статистики критерия равно . 7) статистическое решение: так как выборочное значение статистки критерия принадлежит критической области, гипотеза Н0 отклоняется: следует считать, что изменение конструкции Граница критической области для исходной статистики X критерия может быть получена из соотношения , откуда получаем = 9,342, т. е. критическая область для статистики X определяется неравенством < 9,342.
12.2. Ошибки первого и второго рода
Следует помнить, что статистическое решение может быть ошибочным. При этом различают ошибки первого и второго рода. Ошибкой первого рода называют ошибку, состоящую в том, что гипотеза Н0 отклоняется, в то время как она верна. Вероятность ошибки первого рода равна вероятности попадания статистики критерия в критическую область при условии, что верна гипотеза Н0, т. е. равна уровню значимости α: P[Z Î VK/ Н0 ]= α. В рассмотренном выше примере 50 вероятность ошибки первого рода равна 0,05. Ошибка второго рода происходит в том случае, если гипотеза Н 0 принимается, но в действительности верна альтернативная гипотеза Н 1. Вероятность ошибки второго рода β можно вычислить (при простой альтернативной гипотезе Н 1) по формуле β = P[ZÎV\VK/ H 1].
Пример 51. В условиях примера 50 предполагаем, что наряду с гипотезой Н 0: т = 10 л рассматривается альтернативная гипотеза Н 1: т = 9л. В качестве статистики критерия снова возьмем выборочное среднее . Предположим, что критическая область задана следующим неравенством < 9,44 л. Найти вероятности ошибок первого и второго рода для критерия с такой критической областью. Решение. Найдем вероятность ошибки первого рода. Статистика критерия при условии, что верна гипотеза Н 0: т = 10, имеет нормальное распределение . Используя таблицу приложений (П1), находим . Полученный результат означает, что принятый критерий классифицирует ~8% автомобилей, имеющих расход 10 л на 100 км пробега, как автомобили, имеющие меньший расход топлива. При условии, что верна гипотеза Н 1: т = 9, статистика X имеет нормальное распределение . Вероятность ошибки второго рода в этом случае равна .
Рис. 16. Итак, в соответствии с принятым критерием 13,6% автомобилей, имеющих расход топлива 9 л на 100 км пробега, классифицируются как автомобили, имеющие расход 10 л. Вероятности ошибок первого и второго рода показаны в виде заштрихованных площадей под кривыми плотностей распределения статистики критерия на рис. 16. При заданной вероятности α ошибки первого рода вероятность ошибки второго рода может быть уменьшена путем увеличения объема выборки. Если при этом вероятность ошибки второго рода не должна превышать заданного значения β, то минимальный объем выборки п можно найти из решения системы P[z<=VK/H0] = α, P=P[ZÎV\VK/ Н 1 ]≤β. Аналитическое решение такой системы возможно в простейших случаях. Пример 52. Какой минимальный объем выборки п следует взять в условиях примера 50, чтобы при проверке гипотезы Н 0: т = 10 л против альтернативной гипотезы Н 1: т = 9 л ошибка первого рода была равна α = 0,01, а ошибка второго рода не превышала 0,1? Какова критическая область в этом случае? Решение. Так как в альтернативной гипотезе Н 1 предполагается меньшее значение параметра т, то критическая область VK определяется неравенством < . По условию задачи имеем , . Запишем систему следующим образом: , . Исключая , получим, что n ≥ 53. Подставляя наименьшее значение п в первое уравнение системы, найдем границу критической области: . Следовательно, критическая область VK определяется неравенством < 9,361. Проверка статистических гипотез с использованием критериев значимости может быть проведена на основе доверительных интервалов. При этом одностороннему критерию значимости соответствует односторонний доверительный интервал, а двустороннему критерию значимости - двусторонний доверительный интервал. Гипотеза Н 0 принимается, если значение θ0 накрывается соответствующим доверительным интервалом; в противном случае гипотеза Н 0 отклоняется. Если проверяется гипотеза Н0: θ1= θ2, то рассматривается доверительный интервал для разности θ1- θ2. Гипотеза Н0 принимается, если доверительный интервал для разности параметров θ1- θ2 накрывает нулевое значение. Исключение составляет проверка гипотезы о равенстве дисперсий Н0: так как доверительный интервал строится для отношения дисперсий, то гипотеза Н0 в этом случае принимается, если доверительный интервал накрывает значение, равное единице. Пример 53. В условиях примера 50 проверить гипотезу Н0: т = 10 л при альтернативной гипотезе Н 1: т < 10 л на уровне значимости α = 0,05, используя доверительный интервал для параметра т. Решение. Найдем границу т2 левостороннего доверительного интервала (-∞, т2) для параметра т при доверительной вероятности 1- α = 0,95. Используя выборочное среднее = 9,3 и начение квантили u 0,95 = 1,645, получим . Так как значение т = 10 не накрывается интервалом (-∞;9,958), то гипотезу Н0 следует отклонить, что совпадает с результатом, полученным при решении примера 50.
12.3. Критерии значимости для проверки гипотез Таблица 6
Дата добавления: 2014-11-20; Просмотров: 854; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |