Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Критерии значимости. Критерий согласия Пирсона. Регрессионный анализ




 

Пусть случайная величина имеет нормальное распределение и из генеральной совокупности извлечена выборка , то есть известна одна из реализаций случайной выборки . Рассмотрим для этого случая различные критерии значимости.

1. Критерии значимости для основной гипотезы при известном значении дисперсии . Для проверки гипотезы . при заданном уровне значимости можно выбрать одну из следующих альтернативных гипотез: , , . При истинной гипотезе статистика

имеет стандартное (нормированное) нормальное распределение .

Тогда в соответствии с правилами принятия основной гипотезы , изложенными в п. 6.8, области , и , где , , , – квантили распределения , являются критическими для соответствующих альтернативных гипотез , или . Отсюда если для данной выборки оказалось, что

,

,

или

,

то принимается гипотеза для соответствующих альтернативных гипотез , или . В противном случае основная гипотеза отвергается с уровнем значимости как не согласующаяся с опытом, но принимается соответствующая альтернативная гипотеза .

2. Критерии значимости для основной гипотезы при неизвестном значении дисперсии . В этом случае в качестве статистики используют случайную величину

,

где , которая, если верна гипотеза , имеет - распределение Стьюдента с числом степеней свободы , где – объем выборки.

Если альтернативная гипотеза имеет вид , то используем левостороннюю критическую область, которая удовлетворяет следующему условию:

.

Если альтернативная гипотеза имеет вид , то используем правостороннюю критическую область

.

И, наконец, при альтернативной гипотезе используем двустороннюю критическую область

.

В этих неравенствах – выборочное значение статистики ; , , , – квантили распределения Стьюдента; – уровень значимости.

3. Критерии значимости для основной гипотезы при известном значении математического ожидания. Выберем статистику

,

где, по прежнему, – объем случайной выборки ; . Случайная величина имеет - распределение с степенями свободы. Отсюда, если альтернативная гипотеза имеет вид , то применяем левостороннюю критическую область

.

Если альтернативная гипотеза имеет вид , то используем правостороннюю критическую область

.

В случае же альтернативной гипотезы применяем двустороннюю критическую область

.

Здесь – выборочное значение статистики ; , , , – квантили - распределения; – уровень значимости.

4. Критерии значимости для основной гипотезы при неизвестном значении математического ожидания. Воспользуемся статистикой , где – объем случайной выборки ; . Если гипотеза верна, то случайная величина имеет - распределение с степенями свободы.

Если альтернативная гипотеза имеет вид , находим левостороннюю критическую область

.

При альтернативной гипотезе находим правостороннюю критическую область

.

При альтернативной гипотезе находим двустороннюю критическую область

.

Рассмотрим теперь задачу проверки гипотезы о равенстве двух математических ожиданий. Эта задача имеет важное практическое значение, поскольку выборочное среднее одной выборки может отличаться от выборочного среднего другой выборки из одной и той же генеральной совокупности.

Пусть и – две случайные выборки из генеральных совокупностей и соответственно, имеющие нормальный закон распределения. Пусть дисперсии случайных величин и известны и равны соответственно и . Проверим нулевую гипотезу о равенстве математических ожиданий случайных величин и , то есть гипотезу . В этом случае альтернативная гипотеза означает, что .

Наилучшие оценки математических ожиданий и равны выборочным средним и , причем случайные величины и имеют нормальные распределения и соответственно. Так как ничего не известно о математических ожиданиях и , то для проверки гипотезы можно использовать статистики и . Из независимости выборок следует независимость и выборочных средних и . Кроме того, случайная величина имеет нормальное распределение вероятностей, причем . Если гипотеза верна, то . Отсюда следует, что случайная величина

имеет нормальное распределение .

Пусть – уровень значимости. Тогда область

определяет двустороннюю критическую область для гипотезы в случае выбора альтернативной гипотезы . Учитывая, что , неравенство, определяющее область принятия гипотезы для двустороннего критерия, можно записать в виде

.

Критерий согласия, как было отмечено в п. 6.8, – это критерий, с помощью которого проверяют гипотезу о том, что генеральная совокупность имеет распределение предполагаемого типа. Имеется несколько критериев согласия: хи-квадрат, Колмогорова – Смирнова, и др.

Критерий (Пирсона) является универсальным. Он применим для проверки любого вида распределения. Критерий позволяет выполнить проверку гипотезы о соответствии опытного закона распределения предполагаемому не только в случаях, когда последний известен полностью, но и тогда, когда параметры предполагаемого закона распределения определяются на основании опытных данных.

Пусть – выборка объема наблюдений случайной величины . Проверим гипотезу , утверждающую, что имеет функцию распределения .

Проверка гипотезы при помощи критерия осуществляется по следующей схеме.

1) По выборке наблюдений находят точечные оценки неизвестных параметров предполагаемого закона распределения случайной величины .

2) Область возможных значений случайной величины разбивается на непересекающихся интервалов , в случае, когда – непрерывная случайная величина, или групп, состоящих из отдельных значений, для дискретной случайной величины .

3) Исходя из предполагаемого закона распределения случайной величины , находят теоретическую вероятность того, что значение принадлежит интервалу , то есть, , при этом , , где – число элементов выборки, принадлежащих интервалу (эмпирическая частота попадания в -й интервал).

4) Вычисляют выборочное значение статистики критерия по формуле

.

Близость относительных частот к вероятности свидетельствует в пользу основной гипотезы , заметные различия отвергают гипотезу .

5) Определяют число степеней свободы распределения по формуле

,

где – число параметров предполагаемого закона распределения.

6) Зная число и задавая уровень значимости , определяют критическое значение :

,

где – квантиль распределения Пирсона (- распределения).

7) Гипотеза согласуется с результатами наблюдений на уровне значимости , если

.

Если же , то гипотеза о виде функции распределения отклоняется с уровнем значимости .

Замечание. В практических задачах интервалы , выбираются таким образом, чтобы число элементов выборки, попавших в эти интервала, было не маленьким (, ). Если в некоторых интервалах это условие не выполняется, то их следует объединить с соседними.

Во время статистических наблюдений для каждого объекта в ряде случаев можно измерить значения нескольких признаков. Таким образом, получается многомерная выборка. Если многомерную выборку обработать по значениям отдельного признака, то получится обычная обработка одномерной выборки. Смысл обработки многомерных выборок состоит в том, чтобы установить связи между признаками. Будем рассматривать двумерные выборки.

Две случайные величины могут быть связаны либо функциональной зависимостью (каждому значению одной величины соответствует определенное значение другой величины), либо зависимостью другого рода, называемой статистической, либо быть независимыми.

Статистической (стохастической) называют зависимость, при которой изменение одной величины вызывает изменение распределения другой величины.

В частности, статистическая зависимость проявляется в том, что одна из величин зависит не только от данной второй, но и от ряда случайных факторов, или когда среди условий, от которых зависят и та и другая величины, имеются общие для них обеих условия; в этом случае статистическую зависимость называют корреляционной. Зависимости такого рода можно описать, например, при помощи корреляционной таблицы.

Регрессия (от лат. regressio – обратное движение) – зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. При регрессионной связи одному и тому же значению могут соответствовать в зависимости от случая различные значения величины . Если при каждом значении наблюдается значений случайной величины , то зависимость средних арифметических

от является регрессией в статистическом понимании этого термина. Примером такого рода зависимостей служит, в частности, зависимость средних диаметров сосен от их высот.

Изучение регрессии основано на том, что случайные величины и с заданным совместным распределением вероятностей связаны вероятностной зависимостью: при каждом фиксированном значении величина является случайной величиной с определенным (зависящим от значения x) условным распределением вероятностей. Регрессия величины на определяется условным математическим ожиданием , вычисленным при условии, что :

.

Аналогично определяется регрессия на

.

Эти функции называются функциями регрессии или модельными функциями регрессии соответственно на и на .

Уравнения

,

называются уравнениями регрессии соответственно на и на . Линии, определяемые этими уравнениями, называются модельными линиями регрессии. Они вводятся только для непрерывных случайных величин.

Точность, с которой уравнение регрессии на отражает изменение в среднем при изменении , измеряется условной дисперсией величины , вычисленной для каждого значения :

.

Линии регрессии обладают следующим свойством: среди всех действительных функций минимум математического ожидания достигается для функции , то есть регрессия на дает наилучшее, в указанном смысле, представление величины по величине . Это свойство используется для прогноза по : если непосредственно наблюдается лишь компонента вектора , то в качестве прогнозируемого значения используют величину .

Если при всех значениях , то можно с достоверностью утверждать, что и связаны строгой функциональной зависимостью. Если ни при каком значении и не зависит от , то говорят, что регрессия на отсутствует. Аналогичным образом определяется регрессия на .

Задача регрессионного анализа состоит в том, чтобы по результатам наблюдений:

1) установить форму зависимости. Как правило, эта форма становится известной по опытным данным (на рис. 6.11.1 показаны три разные формы зависимости), где точками отмечены значения выборок (измерений);

2) определить функции регрессии. Процесс нахождения функции регрессии называется выравниванием отдельных значений зависимой переменной;

3) построить статистические оценки неизвестных параметров, входящих в уравнение регрессии;

4) проверить статистические гипотезы о регрессии;

5) проверить адекватность модели результатам наблюдений.

Рассмотрим линейную регрессию, то есть будем искать функцию регрессии в самом простом – линейном виде

,

называемую регрессионной прямой или прямой регрессии.

Для определения этой функции, то есть коэффициентов , воспользуемся методом наименьших квадратов.

Пусть – наблюдаемые (выборочные) значения, а – значение , вычисленное из уравнения регрессии. Тогда величина есть отклонение значения от элемента выборки.

По методу наименьших квадратов неизвестные параметры и прямой регрессии определяют исходя из требования, состоящего в том, чтобы сумма квадратов отклонений была минимальной, то есть из условия минимизации функции:

.

Для нахождения минимума этой функции запишем частные производные

, .

Приравняв частные производные и нулю (необходимые условия минимума функции), получим систему линейных алгебраических уравнений для определения коэффициентов и :

Отсюда

; .

Значения и доставляют минимум функции . Прямая , для которой сумма квадратов достигает наименьшего значения, называется прямой выборочной регрессии.

Если требуется по экспериментальным данным получить линейное уравнение регрессии на , то в уравнении регрессии надо поменять местами переменные и . При этом получим уравнение , где и вычисляются по формулам:

; .

Замечание. Регрессионные прямые и различны. Первая прямая получается в результате решения задачи о минимизации суммы квадратов отклонений по вертикали, а вторая – при решении задачи о минимизации суммы квадратов отклонений по горизонтали.

 




Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 1251; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.