КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Тестирование выполнения допущений метода наименьших квадратов в модели линейной регрессии
А А а J Ъ Ъ t = Для ^-статистики проверяется гипотеза о равенстве ее нулю. t = О будет означать b = 0. При оценке коэффициента линейной регрессии можно использовать следующее грубое правило. Если стандартная ошибка коэффициента больше его модуля (|^|< 1), то он не может быть признан «хорошим», значимым, поскольку доверительная вероятность при двусторонней альтернативной гипотезе составляет менее приблизительно 0,7. Если стандартная ошибка меньше модуля коэффициента, но больше его половины (1 < 1 1 \ < 2), то данная оценка коэффициента может рассматриваться как более или менее значимая (доверительная вероятность от 0,7 до 0,95). Значение t от 2 до 3 свидетельствует о наличии весьма значимой связи (доверительная вероятность от 0,95 до 0,99), |^|> 3 означает практически стопроцентное подтверждение ее наличия. Несомненно, в каждом случае определенную роль играет количество наблюдений: чем их больше, тем надежнее при прочих равных условиях выводы о наличии связи и тем меньше граница доверительного интервала для данного числа степеней свободы и уровня значимости. Однако эти различия существенны лишь для малых п, а при п > 10 сформулированные правила приблизительно верны. Для осуществления проверки значимости оценок коэффициентов регрессии нужно решить, будет ли она односторонней или двусторонней. Выбор определяется теоретическим обоснованием модели связи зависимой и независимой переменных. При этом односторонняя проверка предполагает, что характер связи между X и Y однозначен: либо связь отрицательна, либо положительна, но не то и другое одновременно. При двусторонней проверке исходят из предположения, что связь между X и Y может быть как положительной, так и отрицательной. С помощью рассчитанных стандартных отклонений и значений ^-статистики можно определить доверительный интервал значений а и р с заданной доверительной вероятностью. Предполагаемые значения а и (3 будут находиться в рамках этого интервала, если же нет, то придется отвергнуть предположение, выдвинутое относительно величины а и (3: b-SbxtHp„T<p<b + SbxtHpl„, a~Sax /крит< a<а + Sbx /крит Как и в случае парной линейной регрессии, для анализа статистической значимости полученных оценок коэффициентов множественной линейной регрессии необходимо оценить дисперсию и стандартные отклонения коэффициентов щ. В общем случае дисперсия коэффициента щ Vara]- определяется по формуле:
Varn =Si где Sa — стандартное отклонение величин af, Zjj — диагональные элементы матрицы (XTX)'U, m — число независимых переменных в модели. Отсюда для проверки гипотезы о величине каждого из коэффициентов рассчитываются, как и в случае парной линейной регрессии, ^-статистики коэффициентов: t = — = - ■JVai% Sb ть характеризующиеся распределением Стьюдента с п-пг-1 степенями свободы. Доверительные интервалы определяются аналогично случаю с парной регрессией. Для оценки степени соответствия линии регрессии выборочным данным обычно применяется коэффициент детерминации R: я2 cHR idr - g R == ^л ^тг или 2 сно Yk - r;) 2 OCHS^ - U Общая сумма квадратов отклонений (ОСК) — это сумма квад-ратов разностей между выборочными (наблюдаемыми) значениями зависимой переменной У; и средней из наблюдений в выборке Уср. Сумма квадратов отклонений, объяснимая регрессией (СКР), — это сумма квадратов разностей между прогнозируемыми на основе найденного уравнения регрессии значениями Y ′ и средней из наблю-дений в выборке Уср. Остаточная сумма квадратов (СКО) — это сумма квадратов разностей между выборочными (наблюдаемыми) значениями У; и рассчитанными на основе найденного уравнения регрессии Y ′. Коэффициент детерминации принимает значения от 0, когда факторы X не оказывают никакого влияния на зависимую перемен-ную, до 1, когда изменения зависимой переменной Y полностью объяснимы влиянием факторов модели. Однако в многофакторной регрессии коэффициент детермина-ции корректируют с учетом числа независимых переменных, рассчитывают скорректированный R2 -R2: R2′ =1-(1-tf2)- п-1 п-т где п — число наблюдений; т — число независимых переменных. Коэффициент детерминации является R2 случайной величиной, поскольку Y — случайная переменная. Критерий проверки значи-мости R2 имеет F -распределение. Это распределение обладает дву-мя степенями свободы: одно значение в числителе критерия про-верки (обозначается v 1), второе — в знаменателе (v2). В критерии проверки для R2 числителю соответствует степень свободы 1 и зна-менателю — п - 2 степеней свободы. Сам критерий проверки для R2 рассчитывается так:
F = R2 ÷ п-2 Для скорректированного R2 критерий проверки вычисляется так:
F
где п — число наблюдений; k — число независимых переменных в уравнении регрессии. Этот критерий проверки имеет F -рac-пределение со степенями свободы v{ = k - 1 и v2 = n - k. Также для множественной регрессии имеет смысл рассчитать частные коэффициенты детерминации dx и dx. Но перед этим требуется определить парные коэффициенты корреляции между переменными модели: r vv, r w, r vv и т. д. Их рассчитывают для оп- ул 1 ул 2 ^л 2 ределения тесноты связи между переменными модели, на основе значения парных коэффициентов корреляции можно принять решение о включении или невключении факторной переменной в итоговую редакцию модели. Парные линейные коэффициенты корреляции определяются на основе формулы: Ыср -*ср.Уср где ах и а у — среднеквадратические отклонения выборочных значений показателей х и у, для которых рассчитывается коэффициент корреляции, от выборочной средней. Величина среднеквадратиче-ского отклонения выборочного значения какого-либо показателя (например, х), как вы помните из курса статистики, равна квадратному корню из его дисперсии: 2_ \ Ц{Х - Х с у 2
О" ZZ Коэффициент множественной корреляции для оценки зависимости результирующей переменной от факторных в парной регрессии рассчитывается по следующей формуле: Ух 1 х 2 =
гух1 ух2 2 *"yx 1 "yx2f"ух1х 2 ГХ 1 Х2 Этот коэффициент колеблется в пределах от 0 до 1 (колебания значений переменной Y абсолютно не зависят или полностью зависят от изменения значений факторов X), чем его значение ближе к 1, тем полнее учтены все факторы, влияющие на Y. В общем случае формула коэффициента множественной корреляции выглядит так: 1 ско v оск Частные коэффициенты детерминации в многофакторных моделях служат для анализа тесноты связи между результативной и одной из факторных переменных при неизменном значении остальных факторов. Они показывают, на сколько в процентном соотношении изменится значение зависимой переменной при изменении данного фактора и неизменных прочих: dx, = Гух, Х а1
а
где г — парный коэффициент корреляции факторной переменной / и зависимой переменной Y; а/ — оценка соответствующего коэффициента регрессии при данном факторе в уравнении регрессии; ах. и а у — среднеквадратические отклонения значений рассматриваемого фактора и У. Частные коэффициенты корреляции используются для измерения тесноты связи между данным фактором и зависимой переменной модели при неизменных прочих факторах: — гухх — ПРИ одном неизменном факторе х2 — коэффициент частной корреляции первого порядка; — гУххх — ПРИ ДВУХ неизменных факторах х2 и х3 — коэффициент частной корреляции второго порядка; — r „vv v — при неизменном действии всех факторов, вклю- ух 1 х 2 ... хт г г-* т г ченных в уравнение регрессии — коэффициент частной корреляции (т - 1)-го порядка. Коэффициенты парной корреляции называют коэффициентами нулевого порядка. Частные коэффициенты корреляции можно рассчитать в соответствии со следующей формулой: ух 1 ■x1x2.xi-1xi+1...xm
1- Уел... *... * 1-R2 1 yx...xi -1 xi+1...xm где R 2 rr r r — множественный коэффициент детерминации всего i х- yx 1 x2...xi -1 xi+ 1 ...xm ^ минации, но для модели, не включающей фактор X;. Помимо этого, коэффициенты частной корреляции более высоких порядков можно определить через коэффициенты более низких порядков по формуле: yx1-x1x2...xm -1 ухт-х 1 х2...хт -1 xixm-x1x2...xm -1 ух1-х1х2...хт J(1-?2 rr r)x(1- r r2r rr r) V -^Лт'Л 1 Л 2. Лт -1 xixm'x 1 x2.xm-1 При двух факторах и i = 1 данная формула примет вид:
Гух1 - Гух2 Х Гх1х2 у(1-гД)х(1-г^Х2) При двух факторах и г = 2 данная формула будет выглядеть: ^ух2 - Гух1 Х ^X2 ^ух 2 -X 1 J(1- r,2r)x(1- r 2r) V -Ух 1 Х 1 Х 2 ' Помимо этих показателей, влияние отдельных факторов на результирующую переменную в многофакторных моделях может быть охарактеризовано с помощью частных коэффициентов эластичности, определяемых по формуле: Xjcn эг = а,■ х — ср -, Уср где xj ср — среднее значение соответствующей факторной переменной; г/ср _ среднее значение результирующей переменной; щ — коэффициент при данном факторе в уравнении регрессии. Они показывают, на сколько процентов изменится величина результирующей переменной при изменении данного фактора на 1% и неизменных прочих. Чтобы осуществить проверку модели на выполнение допущений метода наименьших квадратов, необходимо проверить модель на: — гетероскедастичность: является ли распределение остатков, ошибок регрессии постоянным (гомоскедастичным), или же нет; — автокорреляцию, являются ли значения остатков, ошибок независимыми, или имеет место явление автокорреляции остатков; — мультиколлинеарность: являются ли независимые переменные некоррелированными. Существует большое число тестов для проверки на гетероскедастичность: тест ранговой корреляции Спирмена, тест Глейзера, тест Голдфелда-Квандта, Бреуша-Пагана31 и др. Одним из наиболее популярных тестов является тест Голдфелда-Квандта. Как правило, его применяют, если есть предположение о прямой зависимости дисперсии ошибки от величины некоторой независимой переменной модели. Для этого надо действовать по следующему алгоритму: 1) все наблюдения упорядочиваются по величине независимой переменной, относительно которой есть подозрение на гетероскедастичность; 2) остатки в этой упорядоченной совокупности делят на две равные группы, при чем находящиеся посредине между ними d наблюдений исключаются из рассмотрения (d обычно равно около 1А от общего количества наблюдений); 3) рассчитываются две независимые регрессии по первой и второй группе, количество наблюдений в которых составляет n/2 - d/2 (при этом должно быть n/2 - d/2 > k + 1, где k — число независимых переменных), и находятся соответствующие остатки для первой и для второй регрессии Â{ и Â 2; 4) если предположение о прямой зависимости дисперсии ошибки от величины данной независимой переменной верно, то в первой группе сумма квадратов остатков (а значит, и их дисперсия) будет меньше, чем во второй; затем рассчитывают критерий Голдфелда-Квандта. в случае предположения прямой пропорциональности между величиной дисперсии отклонений и значением незави- 31 См., например: Доугерти К. Введение в эконометрику: Пер. с англ. М.: ИНФРА-М, 1999. С. 206-208; Терри Дж. Уоршем, Кейт Паррамоу. Количественные методы в финансах: Учеб. пособие для вузов: Пер. с англ. / Под ред. М. Р. Ефимовой. М.: Финансы: ЮНИТИ, 1999. С. 286-287; Магнус Я. Р., Катышев П. К, Пере-сецкий А. А. Эконометрика. Начальный курс: Учеб. пособие. 2-е изд., испр. М.: Дело, 1998. С. 112-113; Эконометрика: Учеб. / Под ред. И. И. Елисеевой. М.: Финансы и статистика, 2001. С. 155-169. симой переменной сумму квадратов остатков во второй группе делят на сумму квадратов остатков в первой. Рассчитанный критерий имеет F -распределение с п/2 - d/2-k и п/2 - d/2 - к степенями свободы. В случае обратной пропорциональности дисперсии отклонений значению независимой переменной сумму квадратов остатков в первой группе делят на сумму квадратов остатков во второй, распределение критерия также имеет вид F -распределения с теми же степенями свободы. В случае наличия гетероскедастичности остатков для определения параметров регрессии применяется обобщенный метод наименьших квадратов (Generalized Least Squares, GLS). Он применяется к преобразованным данным и позволяет получать оценки, которые не только обладают свойством несмещенности, но имеют наименьшие выборочные дисперсии. Автокорреляция (сериальная корреляция) — явление зависимости величины остатков друг от друга, поскольку текущие значения Y находятся под влиянием величины прошлых значений. Автокорреляция может появиться из-за недоучета (опущения) переменных, неверной формы функции, оценивающей зависимость результирующей переменной от факторных (например, линейная модель, в то время как она должна быть нелинейной) и т. п. Особенно подвержены автокорреляции данные временных рядов показателей. Зависимость между остатками описывается также с помощью уравнения регрессии: где остаток е; находится под влиянием величины остатка предыдущего наблюдения ем и какого-либо текущего значения случайной переменной zt. Эта форма функции называется авторегрессионой функцией первого порядка (АР (1)), т. к. только один предшествующий период учтен при оценивании зависимости остатков. В случае, когда предполагается зависимость текущего остатка от величин остатков двух и более предшествующих периодов, авто-регрессионые функции имеют следующий вид: 6; =PS;_1 +PS;_2 +... + P&j_s + Z;. Регрессионная модель позволяет получить несмещенную оценку с наименьшей дисперсией тогда, когда остатки независимы друг от друга. Когда существует автокорреляция остатков, то коэффициенты регрессии не смещены, но стандартные ошибки будут недооценены, и проверки коэффициентов регрессии будут ненадежны. Для проверки на наличие автокорреляции остатков в модели можно построить график зависимости остатков от времени и определить автокорреляцию визуально либо воспользоваться критерием Дарбина-Уотсона:
Дата добавления: 2014-12-17; Просмотров: 1289; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |