КАТЕГОРИИ:

Главная
Случайная страница
Познавательное
Новые статьи
Контакты
Заказать работу

Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Тестирование выполнения допущений метода наименьших квадратов в модели линейной регрессии

⇐ Предыдущая 20 21 22 232425 26 27 28 29 Следующая ⇒

А а

Ъ Ъ

t = i = —. ■yjVar_b S_b

Для ^-статистики проверяется гипотеза о равенстве ее нулю. t = О будет означать b = 0.

При оценке коэффициента линейной регрессии можно использовать следующее грубое правило. Если стандартная ошибка коэффициента больше его модуля (|^|< 1), то он не может быть признан «хорошим», значимым, поскольку доверительная вероятность при двусторонней альтернативной гипотезе составляет менее приблизительно 0,7. Если стандартная ошибка меньше модуля коэффициента, но больше его половины (1 < 1 1 \ < 2), то данная оценка коэффициента может рассматриваться как более или менее значимая (доверительная вероятность от 0,7 до 0,95). Значение t от 2 до 3 свидетельствует о наличии весьма значимой связи (доверительная вероятность от 0,95 до 0,99), |^|> 3 означает практически стопроцентное подтверждение ее наличия. Несомненно, в каждом случае определенную роль играет количество наблюдений: чем их больше, тем надежнее при прочих равных условиях выводы о наличии связи и тем меньше граница доверительного интервала для данного числа степеней свободы и уровня значимости. Однако эти различия существенны лишь для малых п, а при п > 10 сформулированные правила приблизительно верны.

Для осуществления проверки значимости оценок коэффициентов регрессии нужно решить, будет ли она односторонней или двусторонней. Выбор определяется теоретическим обоснованием модели связи зависимой и независимой переменных. При этом односторонняя проверка предполагает, что характер связи между X и Y однозначен: либо связь отрицательна, либо положительна, но не то и другое одновременно. При двусторонней проверке исходят из предположения, что связь между X и Y может быть как положительной, так и отрицательной.

С помощью рассчитанных стандартных отклонений и значений ^-статистики можно определить доверительный интервал значений а и р с заданной доверительной вероятностью. Предполагаемые значения а и (3 будут находиться в рамках этого интервала, если

же нет, то придется отвергнуть предположение, выдвинутое относительно величины а и (3:

b-S_bxt_Hp„_T<p<b + S_bxt_Hpl„, a~S_ax /_крит< a<а + S_bx /_крит

Как и в случае парной линейной регрессии, для анализа статистической значимости полученных оценок коэффициентов множественной линейной регрессии необходимо оценить дисперсию и стандартные отклонения коэффициентов щ.

В общем случае дисперсия коэффициента щ Var_a]- определяется по формуле:

,2 _Yj?t*Zjj

zz -

п-т-1

Var_n =Si

где S_a — стандартное отклонение величин af, Zjj — диагональные элементы матрицы (X^TX)'^U, m — число независимых переменных в модели. Отсюда для проверки гипотезы о величине каждого из коэффициентов рассчитываются, как и в случае парной линейной регрессии, ^-статистики коэффициентов:

t = — = -

■JVai% S_b

т_ь

характеризующиеся распределением Стьюдента с п-пг-1 степенями свободы.

Доверительные интервалы определяются аналогично случаю с парной регрессией.

Для оценки степени соответствия линии регрессии выборочным данным обычно применяется коэффициент детерминации R:

_я2 cHR idr - g

R == ^л ^тг

или

₂ сно Yk - r;) ² ^OCHS^ - U

Общая сумма квадратов отклонений (ОСК) — это сумма квад-ратов разностей между выборочными (наблюдаемыми) значениями зависимой переменной У; и средней из наблюдений в выборке У_ср.

Сумма квадратов отклонений, объяснимая регрессией (СКР), — это сумма квадратов разностей между прогнозируемыми на основе найденного уравнения регрессии значениями Y ′ и средней из наблю-дений в выборке У_ср.

Остаточная сумма квадратов (СКО) — это сумма квадратов разностей между выборочными (наблюдаемыми) значениями У; и рассчитанными на основе найденного уравнения регрессии Y ′.

Коэффициент детерминации принимает значения от 0, когда факторы X не оказывают никакого влияния на зависимую перемен-ную, до 1, когда изменения зависимой переменной Y полностью объяснимы влиянием факторов модели.

Однако в многофакторной регрессии коэффициент детермина-ции корректируют с учетом числа независимых переменных, рассчитывают скорректированный R² -R²:

R²′ =1-(1-tf²)-

п-1

п-т

где п — число наблюдений; т — число независимых переменных. Коэффициент детерминации является R² случайной величиной, поскольку Y — случайная переменная. Критерий проверки значи-мости R² имеет F -распределение. Это распределение обладает дву-мя степенями свободы: одно значение в числителе критерия про-верки (обозначается v ₁), второе — в знаменателе (v₂). В критерии проверки для R² числителю соответствует степень свободы 1 и зна-менателю — п - 2 степеней свободы. Сам критерий проверки для R² рассчитывается так:

1-R²

F = R² ÷

п-2 Для скорректированного R² критерий проверки вычисляется

так:

R² п-к

1-R² к-1

где п — число наблюдений; k — число независимых переменных в уравнении регрессии. Этот критерий проверки имеет F -рac-пределение со степенями свободы v_{ = k - 1 и v₂ = n - k.

Также для множественной регрессии имеет смысл рассчитать частные коэффициенты детерминации d_x и d_x. Но перед этим требуется определить парные коэффициенты корреляции между переменными модели: r _vv, r _w, r _vv и т. д. Их рассчитывают для оп-

ул ₁ ул ₂ ^л ₂

ределения тесноты связи между переменными модели, на основе значения парных коэффициентов корреляции можно принять решение о включении или невключении факторной переменной в итоговую редакцию модели. Парные линейные коэффициенты корреляции определяются на основе формулы:

Ыср -*ср.Уср
Г =,

где а_х и а у — среднеквадратические отклонения выборочных значений показателей х и у, для которых рассчитывается коэффициент корреляции, от выборочной средней. Величина среднеквадратиче-ского отклонения выборочного значения какого-либо показателя (например, х), как вы помните из курса статистики, равна квадратному корню из его дисперсии:

2_ \ Ц{^Х - ^Х с у ²

О" ZZ

Коэффициент множественной корреляции для оценки зависимости результирующей переменной от факторных в парной регрессии рассчитывается по следующей формуле:

У^х ₁ ^х 2

^гух₁ ух₂ 2 *"yx ₁ "yx₂^f"ух₁х ₂

^ГХ ₁ Х₂

Этот коэффициент колеблется в пределах от 0 до 1 (колебания значений переменной Y абсолютно не зависят или полностью зависят от изменения значений факторов X), чем его значение ближе к 1, тем полнее учтены все факторы, влияющие на Y.

В общем случае формула коэффициента множественной корреляции выглядит так:

1 ско v оск

Частные коэффициенты детерминации в многофакторных моделях служат для анализа тесноты связи между результативной и одной из факторных переменных при неизменном значении остальных факторов. Они показывают, на сколько в процентном соотношении изменится значение зависимой переменной при изменении данного фактора и неизменных прочих:

dx, = ^Гух, ^Х ^а1

X

J

а

у

где г — парный коэффициент корреляции факторной переменной / и зависимой переменной Y; а/ — оценка соответствующего коэффициента регрессии при данном факторе в уравнении регрессии; а_х. и а у — среднеквадратические отклонения значений рассматриваемого фактора и У.

Частные коэффициенты корреляции используются для измерения тесноты связи между данным фактором и зависимой переменной модели при неизменных прочих факторах:

— ^гухх — ^ПР^И одном неизменном факторе х₂ — коэффициент частной корреляции первого порядка;

— ^г_Уххх — ^ПР^И Д^ВУ^Х неизменных факторах х₂ и х₃ — коэффициент частной корреляции второго порядка;

— r „_vv _v — при неизменном действии всех факторов, вклю-

ух ₁ х ₂ ... х_т г г-* т г

ченных в уравнение регрессии — коэффициент частной корреляции (т - 1)-го порядка.

Коэффициенты парной корреляции называют коэффициентами нулевого порядка.

Частные коэффициенты корреляции можно рассчитать в соответствии со следующей формулой:

ух ₁ ■x₁x₂.x_i-₁x_i+1...x_m

1- Уел... *... *

1-R2 ₁

yx...x_i _-1 x_i+1...x_m

где R ² _rr _r _r — множественный коэффициент детерминации всего
комплекса из от факторов с У; R_vr — показатель детер-

i х- yx ₁ x₂...x_i _-1 x_i+ ₁ ...x_m ^

минации, но для модели, не включающей фактор X;.

Помимо этого, коэффициенты частной корреляции более высоких порядков можно определить через коэффициенты более низких порядков по формуле:

yx₁-x₁x₂...x_m _-1 ух_т-х ₁ х₂...х_т _-1 x_ix_m-x₁x₂...x_m _-1 ух₁-х₁х₂...х_т

J(1-?² _rr _r)x(1- r _r²_r _rr _r)

V -^^Лт'^Л 1 ^Л 2. ^Лт -1 xixm'^x ₁ x2.xm-1

При двух факторах и i = 1 данная формула примет вид:

^Гух ₁ -х₂

^Гух₁ - ^Гух₂ ^Х ^Гх₁х₂

у(1-гД)х(1-г^_Х2)

При двух факторах и г = 2 данная формула будет выглядеть:

^ух₂ - ^Гух₁ ^Х ^X₂

^ух ₂ -X ₁

J(1- r,²_r)x(1- r ²_r)

V -У^х 1 ^Х 1 ^Х 2 '

Помимо этих показателей, влияние отдельных факторов на результирующую переменную в многофакторных моделях может быть охарактеризовано с помощью частных коэффициентов эластичности, определяемых по формуле:

^Xjcn

э_г = а,■ х — ^ср -,

Уср

где x_j _ср — среднее значение соответствующей факторной переменной; г/_ср _ среднее значение результирующей переменной; щ — коэффициент при данном факторе в уравнении регрессии. Они показывают, на сколько процентов изменится величина результирующей переменной при изменении данного фактора на 1% и неизменных прочих.

Чтобы осуществить проверку модели на выполнение допущений метода наименьших квадратов, необходимо проверить модель на:

— гетероскедастичность: является ли распределение остатков, ошибок регрессии постоянным (гомоскедастичным), или же нет;

— автокорреляцию, являются ли значения остатков, ошибок независимыми, или имеет место явление автокорреляции остатков;

— мультиколлинеарность: являются ли независимые переменные некоррелированными.

Существует большое число тестов для проверки на гетероскедастичность: тест ранговой корреляции Спирмена, тест Глейзера, тест Голдфелда-Квандта, Бреуша-Пагана³¹ и др. Одним из наиболее популярных тестов является тест Голдфелда-Квандта. Как правило, его применяют, если есть предположение о прямой зависимости дисперсии ошибки от величины некоторой независимой переменной модели. Для этого надо действовать по следующему алгоритму:

1) все наблюдения упорядочиваются по величине независимой переменной, относительно которой есть подозрение на гетероскедастичность;

2) остатки в этой упорядоченной совокупности делят на две равные группы, при чем находящиеся посредине между ними d наблюдений исключаются из рассмотрения (d обычно равно около ¹А от общего количества наблюдений);

3) рассчитываются две независимые регрессии по первой и второй группе, количество наблюдений в которых составляет n/2 - d/2 (при этом должно быть n/2 - d/2 > k + 1, где k — число независимых переменных), и находятся соответствующие остатки для первой и для второй регрессии Â_{ и Â ₂;

4) если предположение о прямой зависимости дисперсии ошибки от величины данной независимой переменной верно, то в первой группе сумма квадратов остатков (а значит, и их дисперсия) будет меньше, чем во второй; затем рассчитывают критерий Голдфелда-Квандта. в случае предположения прямой пропорциональности между величиной дисперсии отклонений и значением незави-

³¹ См., например: Доугерти К. Введение в эконометрику: Пер. с англ. М.: ИНФРА-М, 1999. С. 206-208; Терри Дж. Уоршем, Кейт Паррамоу. Количественные методы в финансах: Учеб. пособие для вузов: Пер. с англ. / Под ред. М. Р. Ефимовой. М.: Финансы: ЮНИТИ, 1999. С. 286-287; Магнус Я. Р., Катышев П. К, Пере-сецкий А. А. Эконометрика. Начальный курс: Учеб. пособие. 2-е изд., испр. М.: Дело, 1998. С. 112-113; Эконометрика: Учеб. / Под ред. И. И. Елисеевой. М.: Финансы и статистика, 2001. С. 155-169.

симой переменной сумму квадратов остатков во второй группе делят на сумму квадратов остатков в первой. Рассчитанный критерий имеет F -распределение с п/2 - d/2-k и п/2 - d/2 - к степенями свободы. В случае обратной пропорциональности дисперсии отклонений значению независимой переменной сумму квадратов остатков в первой группе делят на сумму квадратов остатков во второй, распределение критерия также имеет вид F -распределения с теми же степенями свободы.

В случае наличия гетероскедастичности остатков для определения параметров регрессии применяется обобщенный метод наименьших квадратов (Generalized Least Squares, GLS). Он применяется к преобразованным данным и позволяет получать оценки, которые не только обладают свойством несмещенности, но имеют наименьшие выборочные дисперсии.

Автокорреляция (сериальная корреляция) — явление зависимости величины остатков друг от друга, поскольку текущие значения Y находятся под влиянием величины прошлых значений. Автокорреляция может появиться из-за недоучета (опущения) переменных, неверной формы функции, оценивающей зависимость результирующей переменной от факторных (например, линейная модель, в то время как она должна быть нелинейной) и т. п. Особенно подвержены автокорреляции данные временных рядов показателей.

Зависимость между остатками описывается также с помощью уравнения регрессии:

где остаток е; находится под влиянием величины остатка предыдущего наблюдения е_м и какого-либо текущего значения случайной переменной z_t. Эта форма функции называется авторегрессионой функцией первого порядка (АР (1)), т. к. только один предшествующий период учтен при оценивании зависимости остатков.

В случае, когда предполагается зависимость текущего остатка от величин остатков двух и более предшествующих периодов, авто-регрессионые функции имеют следующий вид:

6; =PS;_₁ +PS;_₂ +... + P&j__s + Z;.

Регрессионная модель позволяет получить несмещенную оценку с наименьшей дисперсией тогда, когда остатки независимы друг

от друга. Когда существует автокорреляция остатков, то коэффициенты регрессии не смещены, но стандартные ошибки будут недооценены, и проверки коэффициентов регрессии будут ненадежны.

Для проверки на наличие автокорреляции остатков в модели можно построить график зависимости остатков от времени и определить автокорреляцию визуально либо воспользоваться критерием Дарбина-Уотсона:

⇐ Предыдущая 20 21 22 232425 26 27 28 29 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2014-12-17; Просмотров: 1252; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.008 сек.