Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Проверка статистических гипотез




 

12.1. Основные понятия. Проверка гипотез о параметрах

нормально распределенной генеральной совокупности.

 

Во многих случаях результаты наблюдений используются для проверки предположений (гипотез) относительно тех или иных свойств распределения генеральной совокупности.

Пусть X - наблюдаемая дискретная или непрерывная слу­чайная величина. Статистической гипотезой H называется пред­положение относительно параметров или вида распределения слу­чайной величины X. Статистическая гипотеза Н называется про­стой, если она однозначно определяет распределение случайной величины X; в противном случае гипотеза Н называется сложной. Так, простой гипотезой является предположение о том, что слу­чайная величина X распределена по нормальному закону N (n,0).

если же высказывается предположение, что случайная величина X имеет нормальное распределение N (m,1), где аmb, то это сложная гипотеза. Примером сложной гипотезы является также предположение о том, что непрерывная случайная величина X с вероятностью 1/3 принимает значение из интервала (l,5); в этом случае распределение случайной величины X может быть любым из класса непрерывных распределений.

Бывает, что распределение случайной величины X известно, и по выборке наблюдений необходимо проверить предположения о значении параметров этого распределения. Такие гипотезы на­зываются параметрическими. Рассмотрим проверку параметриче­ских гипотез.

Проверяемая гипотеза называется нулевой гипотезой и обо­значается Н 0. Наряду с гипотезой Н 0 рассматривают одну из аль­тернативных (конкурирующих) гипотез Н 1. Так, если проверяется гипотеза о равенстве параметра θ некоторому заданному значе­нию θ0, т. е. Н 0: θ = θ 0, то в качестве альтернативной гипотезы можно рассмотреть одну из следующих гипотез: Н 1 (1): θ > θ 0; Н 1(2): θ < θ 0; Н 1 (3): θθ 0; Н 1(4): θ = θ 0, где θ 1 - заданное значение, θ 1θ 0. Выбор альтернативной гипотезы определяется конкретной формулировкой задачи.

Правило, по которому принимается решение принять или отклонить гипотезу Н 0, называется критерием K. Так как реше­ние принимается на основе выборки наблюдений случайной величины X, необходимо выбрать подходящую статистику, называе­мую в этом случае статистикой Z критерия K. При проверке простой параметрической гипотезы Н 0: θ = θ 0в качестве стати­стики критерия выбирают ту же статистику, что и для оценки па­раметра θ, т.е. .

Проверка статистической гипотезы основывается на прин­ципе, в соответствии с которым маловероятные события считают­ся невозможными, а события, имеющие большую вероятность, считаются достоверными. Этот принцип реализуют так: перед анализом выборки фиксируется некоторая малая вероятность а, называемая уровнем значимости; пусть V — множество значений статистики Z, a - такое подмножество, что при условии истинности гипотезы Н 0 вероятность попадания статистики кри­терия в Vk равна α, т.е. P[Z Î Vk/H0]= α.

Обозначим zB выборочное значение статистики Z, вычис­ленное по выборке наблюдений. Критерий формулируется сле­дующим образом: отклонить гипотезу H0, если zk Î Vk; принять

гипотезу H0, если zBÎV\Vk. Критерий, основанный на исполь­зовании заранее заданного уровня значимости, называют крите­рием значимости. Множество Vk всех значений статистики критерия Z, при которых принимается решение отклонить гипотезу H0, называется критической областью; область V\Vk называется областью принятия гипотезы H0.

Уровень значимости α определяет «размер» критической области Vk. Положение критической области на множестве значений статистики Z зависит от формулировки альтернативной гипотезы Н 1. Например, если проверяется гипотеза Н 1: θ = θ 0, а альтернативная гипотеза Н 1, формулируется как Н 1: θ > θ 0 (θ < θ 0), то критическая область размещается на пра­вом (левом) «хвосте» распределения статистики Z, т. е. имеет вид неравенства Z > z1-α (Z< zα), где z1-α и zα - квантили распреде­ления статистики Z при условии, что верна гипотеза H0. В этом случае критерий называется односторонним, соответственно пра­восторонним и левосторонним.

 

Рис. 15.

Если альтернативная гипотеза формулируется как Н 1: θθ 0, то критическая область размещается на обоих «хво­стах» распределения Z, т.е. определяется совокупностью нера­венств Z <zα/2 и Z > z1-α/2; в этом случае критерий называется двусторонним.

На рисунке 15 показано расположение критической области Vk для различных альтернативных гипотез. Здесь fz(z/H0) -плотность распределения статистики Z критерия при условии, что верна гипотеза H0,V\Vk- область принятия гипотезы, P[ZÎV\Vk] = 1 -α.

Проверка параметрической статистической гипотезы при помощи критерия значимости состоит из следующих этапов:

1) сформулировать проверяемую (H0) и альтернативную (Н 1) гипотезы;

2) назначить уровень значимости α;

3) выбрать статистику Z критерия для проверки гипотезы H0;

4) определить выборочное распределение статистики Z при условии, что верна гипотеза H0;

5) в зависимости от формулировки альтернативной гипо­тезы определить критическую область Vk одним из неравенств Z <zα и Z > z1-α; или совокупностью неравенств Z <zα/2 и Z > z1-α/2;

6) получить выборку наблюдений и вычислить выбороч­ное значение zB статистики критерия;

7) принять статистическое решение:

если zB Î VK, то отклонить гипотезу Н0 как не согласую­щуюся с результатами наблюдений;

если zB ÎV\VK, то принять гипотезу Н0, т. е. считать, что гипотеза Н0 не противоречит результатам наблюдений.

Замечание. Как правило на этапах 4) - 7) используют стати­стику, квантили которой табулированы: статистику с нормальным распределением N(0, 1 ), статистику Стьюдента, статистику или статистику Фишера. Однако интерпретацию решения и вы­числение вероятностей ошибок, допускаемых при проверке гипо­тез, удобно проводить для статистики, являющейся непосредст­венной оценкой параметра θ, т. е. статистики .

Пример 50. По паспортным данным автомобильного двига­теля расход топлива на 100 км пробега составляет 10 л. В резуль­тате изменения конструкции двигателя ожидается, что расход то­плива уменьшится. Для проверки проводятся испытания 25 слу­чайно отобранных автомобилей с модернизированным двигате­лем, причем выборочное среднее расходов топлива на 100 км пробега по результатам испытаний составило = 9,3 л. Предпола­гается, что выборка расходов топлива получена из нормально распределенной генеральной совокупности со средним т и дис­персией σ 2 = 4 л2. Используя критерий значимости, проверить гипотезу, утверждающую, что изменение конструкции двигателя не повлияло на расход топлива.

Решение. Проверяется гипотеза о среднем (m) нормально распределенной генеральной совокупности. Проверку гипотезы проведем по этапам:

1) проверяемая гипотеза Н0 = 10, альтернативная ги­потеза Н 1: т < 10;

2) выберем уровень значимости α = 0,05;

3) в качестве статистики критерия используем оценку ма­тематического ожидания - выборочное среднее ;

4) так как выборка получена из нормально распределен­ной генеральной совокупности, выборочное среднее также имеет нормальное распределение с дисперсией . При условии, что верна гипотеза Н0, математическое ожидание этого распре­деления равно 10. Нормированная статистика критерия имеет нормальное распределение N (0,1).

5) альтернативная гипотеза Н 1: т < 10предполагает уменьшение расхода топлива, следовательно, нужно использовать односторонний критерий. Критическая область определяется не­равенством U <иа. По таблице приложений П1 находим u0,05=-u0,95=-1,645;

6) выборочное значение нормированной статистики критерия равно .

7) статистическое решение: так как выборочное значение статистки критерия принадлежит критической области, гипотеза Н0 отклоняется: следует считать, что изменение конструкции
двигателя привело к уменьшению расхода топлива.

Граница критической области для исходной статистики X критерия может быть получена из соотношения , откуда получаем = 9,342, т. е. критическая область для статистики X определяется неравенством < 9,342.

 

12.2. Ошибки первого и второго рода

 

Следует помнить, что статистическое решение может быть ошибочным. При этом различают ошибки первого и второго рода.

Ошибкой первого рода называют ошибку, состоящую в том, что гипотеза Н0 отклоняется, в то время как она верна. Вероят­ность ошибки первого рода равна вероятности попадания статистики критерия в критическую область при условии, что верна гипотеза Н0, т. е. равна уровню значимости α: P[Z Î VK/ Н0 ]= α.

В рассмотренном выше примере 50 вероятность ошибки первого рода равна 0,05.

Ошибка второго рода происходит в том случае, если гипо­теза Н 0 принимается, но в действительности верна альтернатив­ная гипотеза Н 1. Вероятность ошибки второго рода β можно вы­числить (при простой альтернативной гипотезе Н 1) по формуле β = P[ZÎV\VK/ H 1].

 

Пример 51. В условиях примера 50 предполагаем, что на­ряду с гипотезой Н 0: т = 10 л рассматривается альтернативная гипотеза Н 1: т = 9л. В качестве статистики критерия снова возь­мем выборочное среднее . Предположим, что критическая об­ласть задана следующим неравенством < 9,44 л. Найти вероят­ности ошибок первого и второго рода для критерия с такой кри­тической областью.

Решение. Найдем вероятность ошибки первого рода. Стати­стика критерия при условии, что верна гипотеза Н 0: т = 10, имеет нормальное распределение . Используя табли­цу приложений (П1), находим

.

Полученный результат означает, что принятый критерий классифицирует ~8% автомобилей, имеющих расход 10 л на 100 км пробега, как автомобили, имеющие меньший расход топлива.

При условии, что верна гипотеза Н 1: т = 9, статистика X имеет нормальное распределение . Вероятность ошибки второго рода в этом случае равна

.

 

 

 

Рис. 16.

Итак, в соответствии с принятым критерием 13,6% автомобилей, имеющих расход топлива 9 л на 100 км пробега, классифицируются как автомобили, имеющие расход 10 л. Вероятности ошибок первого и второго рода показаны в виде заштрихованных площадей под кри­выми плотностей распределения статистики критерия на рис. 16.

При заданной вероятности α ошибки первого рода вероят­ность ошибки второго рода может быть уменьшена путем увели­чения объема выборки. Если при этом вероятность ошибки второ­го рода не должна превышать заданного значения β, то мини­мальный объем выборки п можно найти из решения системы P[z<=VK/H0] = α, P=P[ZÎV\VK/ Н 1 ]≤β.

Аналитическое решение такой системы возможно в про­стейших случаях.

Пример 52. Какой минимальный объем выборки п следует взять в условиях примера 50, чтобы при проверке гипотезы Н 0: т = 10 л против альтернативной гипотезы Н 1: т = 9 л ошиб­ка первого рода была равна α = 0,01, а ошибка второго рода не превышала 0,1? Какова критическая область в этом случае?

Решение. Так как в альтернативной гипотезе Н 1 предпола­гается меньшее значение параметра т, то критическая область VK определяется неравенством < . По условию задачи имеем

,

.

Запишем систему следующим образом:

,

.

Исключая , получим, что n ≥ 53. Подставляя наименьшее значение п в первое уравнение системы, найдем границу критиче­ской области: .

Следовательно, критическая область VK определяется нера­венством < 9,361.

Проверка статистических гипотез с использованием крите­риев значимости может быть проведена на основе доверительных интервалов. При этом одностороннему критерию значимости со­ответствует односторонний доверительный интервал, а двусто­роннему критерию значимости - двусторонний доверительный интервал. Гипотеза Н 0 принимается, если значение θ0 накрыва­ется соответствующим доверительным интервалом; в противном случае гипотеза Н 0 отклоняется.

Если проверяется гипотеза Н0: θ1= θ2, то рассматривается доверительный интервал для разности θ1- θ2. Гипотеза Н0 при­нимается, если доверительный интервал для разности параметров θ1- θ2 накрывает нулевое значение. Исключение составляет про­верка гипотезы о равенстве дисперсий Н0: так как дове­рительный интервал строится для отношения дисперсий, то гипо­теза Н0 в этом случае принимается, если доверительный интервал накрывает значение, равное единице.

Пример 53. В условиях примера 50 проверить гипотезу Н0: т = 10 л при альтернативной гипотезе Н 1: т < 10 л на уровне значимости α = 0,05, используя доверительный интервал для па­раметра т.

Решение. Найдем границу т2 левостороннего доверитель­ного интервала (-∞, т2) для параметра т при доверительной ве­роятности 1- α = 0,95. Используя выборочное среднее = 9,3 и начение квантили u 0,95 = 1,645, получим

.

Так как значение т = 10 не накрывается интервалом (-∞;9,958), то гипотезу Н0 следует отклонить, что совпадает с результатом, полученным при решении примера 50.

 

 


12.3. Критерии значимости для проверки гипотез

Таблица 6




Поделиться с друзьями:


Дата добавления: 2014-11-20; Просмотров: 826; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.