Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Тестирование выполнения допущений метода наименьших квадратов в модели линейной регрессии




А

А а

J

Ъ Ъ

t = i = . ■yjVarb Sb

Для ^-статистики проверяется гипотеза о равенстве ее нулю. t = О будет означать b = 0.

При оценке коэффициента линейной регрессии можно исполь­зовать следующее грубое правило. Если стандартная ошибка коэф­фициента больше его модуля (|^|< 1), то он не может быть при­знан «хорошим», значимым, поскольку доверительная вероятность при двусторонней альтернативной гипотезе составляет менее при­близительно 0,7. Если стандартная ошибка меньше модуля коэф­фициента, но больше его половины (1 < 1 1 \ < 2), то данная оценка коэффициента может рассматриваться как более или менее значи­мая (доверительная вероятность от 0,7 до 0,95). Значение t от 2 до 3 свидетельствует о наличии весьма значимой связи (доверительная вероятность от 0,95 до 0,99), |^|> 3 означает практически стопро­центное подтверждение ее наличия. Несомненно, в каждом случае определенную роль играет количество наблюдений: чем их больше, тем надежнее при прочих равных условиях выводы о наличии свя­зи и тем меньше граница доверительного интервала для данного числа степеней свободы и уровня значимости. Однако эти различия существенны лишь для малых п, а при п > 10 сформулированные правила приблизительно верны.

Для осуществления проверки значимости оценок коэффициен­тов регрессии нужно решить, будет ли она односторонней или дву­сторонней. Выбор определяется теоретическим обоснованием моде­ли связи зависимой и независимой переменных. При этом односто­ронняя проверка предполагает, что характер связи между X и Y однозначен: либо связь отрицательна, либо положительна, но не то и другое одновременно. При двусторонней проверке исходят из предположения, что связь между X и Y может быть как положи­тельной, так и отрицательной.

С помощью рассчитанных стандартных отклонений и значений ^-статистики можно определить доверительный интервал значений а и р с заданной доверительной вероятностью. Предполагаемые значения а и (3 будут находиться в рамках этого интервала, если


же нет, то придется отвергнуть предположение, выдвинутое относи­тельно величины а и (3:

b-SbxtHpT<p<b + SbxtHpl„, a~Sax /крит< a<а + Sbx /крит

Как и в случае парной линейной регрессии, для анализа стати­стической значимости полученных оценок коэффициентов множе­ственной линейной регрессии необходимо оценить дисперсию и стандартные отклонения коэффициентов щ.

В общем случае дисперсия коэффициента щ Vara]- определяется по формуле:

,2 _Yj?t*Zjj
zz -
п-т-1

Varn =Si

где Sa стандартное отклонение величин af, Zjj диагональные элементы матрицы (XTX)'U, m число независимых переменных в модели. Отсюда для проверки гипотезы о величине каждого из ко­эффициентов рассчитываются, как и в случае парной линейной регрессии, ^-статистики коэффициентов:

t = — = -

■JVai% Sb

ть

характеризующиеся распределением Стьюдента с п-пг-1 степенями свободы.

Доверительные интервалы определяются аналогично случаю с парной регрессией.

Для оценки степени соответствия линии регрессии выборочным данным обычно применяется коэффициент детерминации R:

я2 cHR idr - g

R == ^тг


или


2 сно Yk - r;) 2 OCHS^ - U



Общая сумма квадратов отклонений (ОСК) — это сумма квад-ратов разностей между выборочными (наблюдаемыми) значениями зависимой переменной У; и средней из наблюдений в выборке Уср.

Сумма квадратов отклонений, объяснимая регрессией (СКР), — это сумма квадратов разностей между прогнозируемыми на основе найденного уравнения регрессии значениями Y ′ и средней из наблю-дений в выборке Уср.

Остаточная сумма квадратов (СКО) — это сумма квадратов разностей между выборочными (наблюдаемыми) значениями У; и рассчитанными на основе найденного уравнения регрессии Y ′.

Коэффициент детерминации принимает значения от 0, когда факторы X не оказывают никакого влияния на зависимую перемен-ную, до 1, когда изменения зависимой переменной Y полностью объяснимы влиянием факторов модели.

Однако в многофакторной регрессии коэффициент детермина-ции корректируют с учетом числа независимых переменных, рас­считывают скорректированный R2 -R2:


R2 =1-(1-tf2)-


п-1

п-т


где п — число наблюдений; т — число независимых переменных. Коэффициент детерминации является R2 случайной величиной, поскольку Y — случайная переменная. Критерий проверки значи-мости R2 имеет F -распределение. Это распределение обладает дву-мя степенями свободы: одно значение в числителе критерия про-верки (обозначается v 1), второе — в знаменателе (v2). В критерии проверки для R2 числителю соответствует степень свободы 1 и зна-менателю — п - 2 степеней свободы. Сам критерий проверки для R2 рассчитывается так:


1-R2

F = R2 ÷

п-2 Для скорректированного R2 критерий проверки вычисляется

так:

R2 п-к
1-R2 к-1

F

 


где п — число наблюдений; k — число независимых переменных в уравнении регрессии. Этот критерий проверки имеет F -рac-пределение со степенями свободы v{ = k - 1 и v2 = n - k.

Также для множественной регрессии имеет смысл рассчитать частные коэффициенты детерминации dx и dx. Но перед этим требуется определить парные коэффициенты корреляции между переменными модели: r vv, r w, r vv и т. д. Их рассчитывают для оп-

ул 1 ул 2 2

ределения тесноты связи между переменными модели, на основе значения парных коэффициентов корреляции можно принять ре­шение о включении или невключении факторной переменной в итоговую редакцию модели. Парные линейные коэффициенты кор­реляции определяются на основе формулы:

Ыср -*ср.Уср
Г =,

где ах и а у — среднеквадратические отклонения выборочных зна­чений показателей х и у, для которых рассчитывается коэффициент корреляции, от выборочной средней. Величина среднеквадратиче-ского отклонения выборочного значения какого-либо показателя (например, х), как вы помните из курса статистики, равна квадрат­ному корню из его дисперсии:

2_ \ Ц{Х - Х с у 2

п

О" ZZ

Коэффициент множественной корреляции для оценки зависи­мости результирующей переменной от факторных в парной регрес­сии рассчитывается по следующей формуле:


Ух 1 х 2


=


 

1-

гух1 ух2 2 *"yx 1 "yx2f"ух1х 2

ГХ 1 Х2


Этот коэффициент колеблется в пределах от 0 до 1 (колебания значений переменной Y абсолютно не зависят или полностью зави­сят от изменения значений факторов X), чем его значение ближе к 1, тем полнее учтены все факторы, влияющие на Y.


В общем случае формула коэффициента множественной кор­реляции выглядит так:

1 ско v оск

Частные коэффициенты детерминации в многофакторных мо­делях служат для анализа тесноты связи между результативной и одной из факторных переменных при неизменном значении ос­тальных факторов. Они показывают, на сколько в процентном со­отношении изменится значение зависимой переменной при измене­нии данного фактора и неизменных прочих:


dx, = Гух, Х а1


 

X
J

а

у

где г — парный коэффициент корреляции факторной переменной / и зависимой переменной Y; а/ — оценка соответствующего коэф­фициента регрессии при данном факторе в уравнении регрессии; ах. и а у — среднеквадратические отклонения значений рассматри­ваемого фактора и У.

Частные коэффициенты корреляции используются для измере­ния тесноты связи между данным фактором и зависимой перемен­ной модели при неизменных прочих факторах:

гуххПРИ одном неизменном факторе х2 — коэффициент частной корреляции первого порядка;

гУхххПРИ ДВУХ неизменных факторах х2 и х3 — коэффи­циент частной корреляции второго порядка;

rvv v — при неизменном действии всех факторов, вклю-

ух 1 х 2 ... хт г г-* т г

ченных в уравнение регрессии — коэффициент частной корреля­ции - 1)-го порядка.

Коэффициенты парной корреляции называют коэффициентами нулевого порядка.

Частные коэффициенты корреляции можно рассчитать в соот­ветствии со следующей формулой:


ух 1 ■x1x2.xi-1xi+1...xm


 


1- Уел... *... *

1-R2 1

yx...xi -1 xi+1...xm



где R 2 rr r r — множественный коэффициент детерминации всего
комплекса из от факторов с У; Rvr — показатель детер-

i х- yx 1 x2...xi -1 xi+ 1 ...xm ^

минации, но для модели, не включающей фактор X;.

Помимо этого, коэффициенты частной корреляции более высо­ких порядков можно определить через коэффициенты более низких порядков по формуле:

yx1-x1x2...xm -1 ухт 1 х2...хт -1 xixm-x1x2...xm -1 ух11х2...хт

J(1-?2 rr r)x(1- r r2r rr r)

V -^Лт'Л 1 Л 2. Лт -1 xixm'x 1 x2.xm-1


При двух факторах и i = 1 данная формула примет вид:

Гух 1 2

Гух1 - Гух2 Х Гх1х2

у(1-гД)х(1-г^Х2)


При двух факторах и г = 2 данная формула будет выглядеть:

^ух2 - Гух1 Х ^X2

^ух 2 -X 1

J(1- r,2r)x(1- r 2r)

V -Ух 1 Х 1 Х 2 '

Помимо этих показателей, влияние отдельных факторов на ре­зультирующую переменную в многофакторных моделях может быть охарактеризовано с помощью частных коэффициентов эластичности, определяемых по формуле:

Xjcn

эг = а,■ х ср -,

Уср

где xj ср — среднее значение соответствующей факторной переменной; г/ср _ среднее значение результирующей переменной; щ — коэффи­циент при данном факторе в уравнении регрессии. Они показывают, на сколько процентов изменится величина результирующей перемен­ной при изменении данного фактора на 1% и неизменных прочих.

Чтобы осуществить проверку модели на выполнение допущений метода наименьших квадратов, необходимо проверить модель на:


гетероскедастичность: является ли распределение остат­ков, ошибок регрессии постоянным (гомоскедастичным), или же нет;

автокорреляцию, являются ли значения остатков, ошибок независимыми, или имеет место явление автокорреляции остатков;

мультиколлинеарность: являются ли независимые пере­менные некоррелированными.

Существует большое число тестов для проверки на гетероскеда­стичность: тест ранговой корреляции Спирмена, тест Глейзера, тест Голдфелда-Квандта, Бреуша-Пагана31 и др. Одним из наиболее по­пулярных тестов является тест Голдфелда-Квандта. Как правило, его применяют, если есть предположение о прямой зависимости диспер­сии ошибки от величины некоторой независимой переменной моде­ли. Для этого надо действовать по следующему алгоритму:

1) все наблюдения упорядочиваются по величине независимой переменной, относительно которой есть подозрение на гетероскеда­стичность;

2) остатки в этой упорядоченной совокупности делят на две равные группы, при чем находящиеся посредине между ними d на­блюдений исключаются из рассмотрения (d обычно равно около 1А от общего количества наблюдений);

3) рассчитываются две независимые регрессии по первой и вто­рой группе, количество наблюдений в которых составляет n/2 - d/2 (при этом должно быть n/2 - d/2 > k + 1, где k — число независи­мых переменных), и находятся соответствующие остатки для первой и для второй регрессии Â{ и Â 2;

4) если предположение о прямой зависимости дисперсии ошиб­ки от величины данной независимой переменной верно, то в первой группе сумма квадратов остатков (а значит, и их дисперсия) будет меньше, чем во второй; затем рассчитывают критерий Голдфел­да-Квандта. в случае предположения прямой пропорционально­сти между величиной дисперсии отклонений и значением незави-

31 См., например: Доугерти К. Введение в эконометрику: Пер. с англ. М.: ИНФРА-М, 1999. С. 206-208; Терри Дж. Уоршем, Кейт Паррамоу. Количественные методы в финансах: Учеб. пособие для вузов: Пер. с англ. / Под ред. М. Р. Ефимо­вой. М.: Финансы: ЮНИТИ, 1999. С. 286-287; Магнус Я. Р., Катышев П. К, Пере-сецкий А. А. Эконометрика. Начальный курс: Учеб. пособие. 2-е изд., испр. М.: Дело, 1998. С. 112-113; Эконометрика: Учеб. / Под ред. И. И. Елисеевой. М.: Финансы и статистика, 2001. С. 155-169.


симой переменной сумму квадратов остатков во второй группе де­лят на сумму квадратов остатков в первой. Рассчитанный критерий имеет F -распределение с п/2 - d/2-k и п/2 - d/2 - к степенями свободы. В случае обратной пропорциональности дисперсии откло­нений значению независимой переменной сумму квадратов остатков в первой группе делят на сумму квадратов остатков во второй, рас­пределение критерия также имеет вид F -распределения с теми же степенями свободы.

В случае наличия гетероскедастичности остатков для опреде­ления параметров регрессии применяется обобщенный метод наименьших квадратов (Generalized Least Squares, GLS). Он применяется к преобразованным данным и позволяет получать оценки, которые не только обладают свойством несмещенности, но имеют наименьшие выборочные дисперсии.

Автокорреляция (сериальная корреляция) — явление зависи­мости величины остатков друг от друга, поскольку текущие значе­ния Y находятся под влиянием величины прошлых значений. Авто­корреляция может появиться из-за недоучета (опущения) перемен­ных, неверной формы функции, оценивающей зависимость резуль­тирующей переменной от факторных (например, линейная модель, в то время как она должна быть нелинейной) и т. п. Особенно под­вержены автокорреляции данные временных рядов показателей.

Зависимость между остатками описывается также с помощью уравнения регрессии:

где остаток е; находится под влиянием величины остатка предыду­щего наблюдения ем и какого-либо текущего значения случайной переменной zt. Эта форма функции называется авторегрессионой функцией первого порядка (АР (1)), т. к. только один предшест­вующий период учтен при оценивании зависимости остатков.

В случае, когда предполагается зависимость текущего остатка от величин остатков двух и более предшествующих периодов, авто-регрессионые функции имеют следующий вид:

6; =PS;_1 +PS;_2 +... + P&j_s + Z;.

Регрессионная модель позволяет получить несмещенную оцен­ку с наименьшей дисперсией тогда, когда остатки независимы друг


от друга. Когда существует автокорреляция остатков, то коэффици­енты регрессии не смещены, но стандартные ошибки будут недо­оценены, и проверки коэффициентов регрессии будут ненадежны.

Для проверки на наличие автокорреляции остатков в модели можно построить график зависимости остатков от времени и опре­делить автокорреляцию визуально либо воспользоваться критерием Дарбина-Уотсона:




Поделиться с друзьями:


Дата добавления: 2014-12-17; Просмотров: 1252; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.