КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Линейной регрессии и корреляции
После того, как найдено уравнение линейной регрессии (3), проводится оценка значимости как уравнения в целом, так и отдельных его параметров. Оценка значимости уравнения регрессии в целом дается с помощью F- критерия Фишера. При этом выдвигается нулевая гипотеза о том, что коэффициент регрессии равен нулю и, следовательно, фактор х не оказывает влияния на результат y. Перед расчетом критерия проводятся анализ дисперсии. Можно показать, что общая сумма квадратов отклонений (СКО) y от среднего значения раскладывается на две части – объясненную и необъясненную: (13) или, соответственно: Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной. В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю. Однако на практике в правой части (13) присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y. Это равносильно тому, что коэффициент детерминации будет приближаться к единице. Число степеней свободы. (df-degrees of freedom)- это число независимо варьируемых значений признака. Для общей СКО требуется (n-1) независимых отклонений, т.к. что позволяет свободно варьировать (n-1) значений, а последнее n-е отклонение определяется из общей суммы, равной нулю. Поэтому Факторную СКО можно выразить так: Эта СКО зависит только от одного параметра b, -поскольку выражение под знаком суммы к значениям результативного признака не относится. Следовательно, факторная СКО имеет одну степень свободы, и Для определения воспользуемся аналогией с балансовым равенством (11). Так же, как и в равенстве (11), можно записать равенство и между числами степеней свободы: (14) Таким образом, можем записать: Из этого баланса определяем, что = n-2. Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы:
Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим - критерий для проверки нулевой гипотезы, которая в данном случае записывается как (18) Если справедлива, то дисперсии не отличаются друг от друга. Для необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F при разных уровнях существенности и различных числах степеней свободы. Табличное значение F- критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. При нахождении табличного значения F- критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы – числителя (она равна единице) и знаменателя, равная n-2. Вычисленное значение F признается достоверным (отличным от единицы), если оно больше табличного т.е. Fфактич>Fтабл(α;1;n-2). В этом случае отклоняется и делается вывод о существенности превышения Dфакт над Dостат.,т.е. о существенности статистической связи между y и x. Если , то вероятность выше заданного уровня (например, 0,05), и эта гипотеза не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи между y и x. Уравнение регрессии считается статистически незначимым, не отклоняется. В рассмотренном примере: - это общая СКО. - это факторная СКО.
- остаточная СКО. ;;; ; .
На любом уровне значимости , и можно сделать вывод о значимости уравнения регрессии. Статистическая связь между y и x доказана. Величина F- критерия связана с коэффициентом детерминации. , (19) В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. Стандартная ошибка коэффициента регрессии определяется по формуле: , (20) - остаточная дисперсия на одну степень свободы (то же, что и Dостат). В рассмотренном примере Величина стандартной ошибки совместно с t - распределением Стьюдента при n-2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов. Величина коэффициента регрессии сравнивается с его стандартной ошибкой; определяется фактическое значение t - критерия Стьюдента , (21) которое затем сравнивается с табличным значением при определенном уровне значимости α и числе степеней свободы (n-2). Здесь проверяется нулевая гипотеза в виде Н0:b=0, также предполагающая несущественность статистической связи между y и х, но только учитывающая значение b, а не соотношение между факторной и остаточной дисперсиями в общем балансе дисперсии результативного признака. Однако общий смысл гипотез один и тот же: проверка наличия статистической связи между y и х или её отсутствия. Если tb>tтабл( α ;n-2), то гипотеза Н0:b=0 должна быть отклонена, а статистическая связь y с х считается установленной. В случае tb<tтабл( α ;n-2) нулевая гипотеза не может быть отклонена, и влияние х на y признается несущественным. В рассмотренном примере Для двустороннего α=0,05 и n-2 =5 tтабл=2,57, tb>tтабл, поэтому гипотезу о несущественности b следует отклонить. Существует связь между и : Отсюда следует, что
. Доверительный интервал для b определяется как
где - рассчитанное (оцененное) по МНК значение коэффициента регрессии. 95%-ные границы в примере составят: т.е. Это означает, что с вероятностью 0,95 истинное значение b находится в указанном интервале. Коэффициент регрессии имеет четкую экономическую интерпретацию, поэтому доверительные границы интервала не должны содержать противоречивых результатов, например, Они не должны включать нуль. Стандартная ошибка параметра определяется по формуле: (24) Процедура оценивания существенности a не отличается от таковой для параметра b. При этом фактическое значение t -критерия вычисляется по формуле: (25) Процедура проверки значимости линейного коэффициента корреляции отличается от процедур, приведенных выше. Это объясняется тем, что r как случайная величина распределена по нормальному закону лишь при большом числе наблюдений и малых значениях | r |. В этом случае гипотеза об отсутствии корреляционной связи между y и х H0:r=0 проверяется на основе статистики , (26) которая при справедливости H0 приблизительно распределена по закону Стьюдента с (n-2) степенями свободы. Если , то гипотеза H0 отвергается с вероятностью ошибиться, не превышающей α. Из (19) видно, что в парной линейной регрессии . Кроме того, , поэтому . Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии. Однако при малых выборках и значениях r, близких к , следует учитывать, что распределение r как случайной величины отличается от нормального, и построение доверительных интервалов для r не может быть выполнено стандартным способом. В этом случае вообще легко прийти к противоречию, заключающемуся в том, что доверительный интервал будет содержать значения, превышающие единицу. Чтобы обойти это затруднение, используется так называемое z-преобразование Фишера: , (27) которое дает нормально распределенную величину z, значения которой при изменении r от –1 до +1 изменяются от -∞ до +∞. Стандартная ошибка этой величины равна: (28) Для величины z имеются таблицы, в которых приведены её значения для соответствующих значений r. Для z выдвигается нуль-гипотеза H0:z=0, состоящая в том, что корреляция отсутствует. В этом случае значения статистики , (29) которая распределена по закону Стьюдента с (n-2) степенями свободы, не превышает табличного на соответствующем уровне значимости. Для каждого значения z можно вычислить критические значения r. Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Если вычисленное значение r превышает по абсолютной величине табличное, то данное значение r считается существенным. В противном случае фактическое значение несущественно.
Дата добавления: 2014-01-04; Просмотров: 377; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |