Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Лекция 2. Обоснование критериев проверки

СТАТИСТИЧЕСКИХ ГИПОТЕЗ (ЗНАЧИМОСТИ РЕГРЕССИИ)

 

Вернемся теперь к обоснованию критериев проверки значимости найденных по методу наименьших квадратов (МНК) параметров модели регрессии (и вообще методов проверки статистических гипотез). После того, как найдено уравнение линейной регрессии, производится оценка значимости как уравнения в целом, так и отдельных его параметров. Оценка значимости уравнения регрессии в целом может выполняться с помощью различных критериев. Достаточно распространенным и эффективным является применение F- критерия Фишера. При этом выдвигается нулевая гипотеза. Но, что коэффициент регрессии равен нулю, т.е. b =0, и, следовательно, фактор х не оказывает влияния на результат у. Непосредственному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения у на две части - «объясненную» и «необъясненную»:

 

(2.1)

 

Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения у вызвана влиянием множества факторов.

Условно разделим всю совокупность причин на две группы: изучаемый фактор х и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси ОХ и у=у. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов. Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, т.е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию.

Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результату. Это равносильно тому, что коэффициент детерминации будет приближаться к единице. Любая сумма квадратов отклонений связана с числом степеней свободы, т.е. числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности лис числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из п возможных [(у1-у),(у2-у),..(уп-у)] требуется для образования данной суммы квадратов. Так, для общей суммы квадратов ∑ (у-у)2 требуется (п-1) независимых отклонений, т.к. по совокупности из п единиц после расчета среднего уровня свободно варьируют лишь (п-1) число отклонений. При расчете объясненной или факторной суммы квадратов ∑ (у-у)2 используются теоретические (расчетные) значения результативного признака у*, найденные по линии регрессии: у(х)=а+bх.

Вернемся теперь к разложению общей суммы квадратов отклонений результативного фактора от среднего этой величины. Эта сумма содержит две уже определенные выше части: сумму квадратов отклонений, объясненную регрессией и другую сумму, которая называется остаточная сумма квадратов отклонений. С таким разложением связан анализ дисперсии, который прямо отвечает на принципиальный вопрос: как оценить значимость уравнения регрессии в целом и его отдельных параметров? Оно же в значительной мере и определяет смысл этого вопроса. Для оценки значимости уравнения регрессии в целом используется критерий Фишера (F-критерий). Согласно подходу, предложенному Фишером, выдвигается нулевая гипотеза : коэффициент регрессии равен нулю, т.е. величина b=0. Это означает, что фактор х не оказывает влияния на результат у.

Вспомним, что практически всегда полученные в результате статистического исследования точки не ложатся точно на линию регрессии. Они рассеяны, будучи удалены более или менее сильно от линии регрессии. Такое рассеяние обусловлено влиянием прочих, отличных от объясняющего фактора х, факторов, не учитываемых в уравнении регрессии. При расчете объясненной, или факторной суммы квадратов отклонений используются теоретические значения результативного признака, найденные по линии регрессии.

Для заданного набора значений переменных у и х расчетное значение среднего величины у является в линейной регрессии функцией только одного параметра – коэффициента регрессии. В соответствии с этим факторная сумма квадратов отклонений имеет число степеней свободы, равное 1. А число степеней свободы остаточной суммы квадратов отклонений при линейной регрессии равно n-2.

Следовательно разделив каждую сумму квадратов отклонений в исходном разложении на свое число степеней свободы получаем средний квадрат отклонений (дисперсию на одну степень свободы). Далее разделив факторную дисперсию на одну степень свободы на остаточную дисперсию на одну степень свободы получаем критерий для проверки нулевой гипотезы так называемое F-отношение, или одноименный критерий. Именно, при справедливости нулевой гипотезы факторная и остаточная дисперсии оказываются просто равны друг другу.

Для отклонения нулевой гипотезы, т.е. принятия противоположной гипотезы, которая выражает факт значимости (наличия) исследуемой зависимости, а не просто случайного совпадения факторов, имитирующего зависимость, которая фактически не существует необходимо использовать таблицы критических значений указанного отношения. По таблицам выясняют критическую (пороговую) величину критерия Фишера. Она называется также теоретической. Затем проверяют сравнивая ее с вычисленным по данным наблюдений соответствующим эмпирическим (фактическим) значением критерия, превосходит ли фактическая величина отношения критическую величину из таблиц.

Более подробно это делается так. Выбирают данный уровень вероятности наличия нулевой гипотезы и находят по таблицам критическое значение F-критерия, при котором еще может происходить случайное расхождение дисперсий на 1 степень свободы, т.е. максимальное такое значение. Затем вычисленное значение отношения F-признается достоверным (т.е. выражающим различие фактической и остаточной дисперсий), если это отношение больше табличного. Тогда нулевая гипотеза отклоняется (неверно, что отсутствуют признаки связи) и напротив приходим к заключению, что связь имеется и является существенной (носит неслучайный, значимый характер).

В случае, если величина отношения оказывается меньше табличного, то вероятность нулевой гипотезы оказывается выше заданного уровня (который выбирался изначально) и нулевая гипотеза не может быть отклонена без заметной опасности получить неверный вывод о наличии связи. Соответственно уравнение регрессии считается при этом незначимым.

Сама величина F-критерия связана с коэффициентом детерминации. Помимо оценки значимости уравнения регрессии в целом оценивают также значимость отдельных параметров уравнения регрессии. При этом определяют стандартную ошибку коэффициента регрессии с помощью эмпирического фактического среднеквадратичного отклонения и эмпирической дисперсии на одну степень свободы. После этого используют распределение Стьюдента для проверки существенности коэффициента регрессии для расчета его доверительных интервалов.

Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента выполняется посредством сопоставления значений этих величин и величины стандартной ошибки. Величина ошибки параметров линейной регрессии и коэффициента корреляции определяется по следующим формулам:

(2.2)

и

, (2.3)

где S – среднеквадратичное остаточное выборочное отклонение, rxy – коэффициент корреляции. Соответственно величина стандартной ошибки, предсказываемой по линии регрессии, дается формулой:

(2.4)

Соответствующие отношения значений величин коэффициентов регрессии и корреляции к их стандартной ошибке образуют так называемую t-статистику, а сравнение соответствующего табличного (критического) значения ее и ее фактического значения позволяет принять или отвергнуть нулевую гипотезу. Нo далее для расчета доверительного интервала находится предельная ошибка для каждого показателя как произведение табличного значения статистики t на среднюю случайную ошибку соответствующего показателя. По сути, чуть иначе мы уже фактически записали ее только что выше. Затем получают границы доверительных интервалов: нижнюю границу вычитанием из соответствующих коэффициентов (фактически средних) соответствующей предельной ошибки, а верхнюю границу – сложением (прибавлением).

В линейной регрессии ∑ (yx-y)2=b2 ∑(x-x)2. В этом нетрудно убедиться, обратившись к формуле линейного коэффициента корреляции: r ху=bitσх/σу r2xy=b2itσ2x/σ2y, где σ2y- общая дисперсия признака у; b2itσ2x - дисперсия признака у обусловленная фактором х. Соответственно сумма квадратов отклонений, обусловленных линейной регрессией, составит: σ∑ (yx-y)2=b2∑(x-x)2.

Поскольку при заданном объеме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. Рассмотрим содержательную сторону расчетного значения признака у т.е. ух. Величина ух определяется по уравнению линейной регрессии: ух=а+bх.

Параметр а можно определить, как а=у-bх. Подставив выражение параметра а в линейную модель, получим: yx=y-bx+bx=y-b(x-x).

При заданном наборе переменных у и х расчетное значение ух является в линейной регрессии функцией только одного параметра - коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет (п-2). Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т.е. (п-1). Итак, имеем два равенства: для сумм и для числа степеней свободы. А это в свою очередь возвращает нас опять к сопоставимым дисперсиям на одну степень свободы, отношение которых и дает критерий Фишера.

Аналогично отношению Фишера отношение величин параметров уравнения или корреляционного коэффициента к величине стандартной ошибки соответствующих коэффициентов образует критерий Стьюдента для проверки значимости этих величин. Далее также используются таблицы распределения Стьюдента и сравнение расчетных (фактических) значений с критическими (табличными).

Однако, более того, проверка гипотез о значимости коэффициентов регрессии и корреляции в нашем простейшем случае равносильна проверке гипотезы о существенности линейного уравнения регрессии по Фишеру (квадрат т-критерия Стьюдента равен критерию Фишера). Все описанное выше справедливо пока величина коэффициента корреляции не близка к 1. Если величина коэффициента корреляции близка к 1, то распределение его оценок отличается от нормального распределения или от распределения Стьюдента. В этом случае согласно Фишеру для оценки существенности коэффициента корреляции вводят новую переменную z для которой:

Z= (½)ln{(1+r)/(1-r)} (2.5)

Эта новая переменная z изменяется в неограниченных пределах от – бесконечности до + бесконечности и распределена уже весьма близко к нормальному закону. Для этой величины имеются рассчитанные таблицы. И поэтому удобно использовать ее для проверки значимости коэффициента корреляции в указанном случае.

 

<== предыдущая лекция | следующая лекция ==>
Построение модели множественной регрессии | Лекция 3. Нелинейная регрессия
Поделиться с друзьями:


Дата добавления: 2014-01-20; Просмотров: 1013; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.024 сек.