Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Предпосылки метода наименьших квадратов




Предпосылки регрессионного анализа и способы статистической проверки их соблюдения.

При оценке параметров уравнения регрессии применяется метод наименьших квадратов (МНК). При этом делаются определенные предпосылки относительно случайной составляющей ε. В модели

случайная составляющая ε представляет собой не наблюдаемые величины. После того, как произведена оценка параметров модели, беря разность фактических и теоретических значений результативного признака y, можно определить оценки случайной составляющей, . Поскольку они не есть реальные случайные остатки, их можно считать некоторой выборочной реализацией неизвестного остатка заданного уравнения, т.е. εi. При изменении спецификации модели, добавлении в нее новых наблюдений, выборочные оценки остатков εi могут меняться. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений εi, т.е. остаточных величин.

В предыдущих разделах мы останавливались на формальных проверках статистической достоверности коэффициентов регрессии и корреляции с помощью t -критерия Стьюдента, F -критерия Фишера и Z -преобразования (для коэффициентов корреляции). При использовании этих критериев делаются предположения относительно поведения остатков εi. Остатки представляют собой независимые случайные величины, их среднее значение равно 0; они имеют одинаковую (постоянную) дисперсию и подчиняются нормальному распределению.

Статистические проверки параметров регрессии, показателей корреляции основаны на непроверяемых предпосылках распределения случайной составляющей εi. Они носят лишь предварительный характер. После построения уравнения регрессии проводится проверка наличия у оценок εi (случайных остатков) тех свойств, которые предполагались. Связано это с тем, что оценки параметров регрессии должны отвечать определенным критериям. Они должны быть несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют чрезвычайно важное практическое значение в использовании результатов регрессии и корреляции.

Коэффициенты регрессии, найденные, исходя из системы нормальных уравнений, представляют собой выборочные оценки характеристики силы связи. Их несмещенность является желательным свойством, так как только в этом случае они могут иметь практическую значимость. Несмещенность оценки означает, что математическое ожидание остатков выборки равно нулю. Следовательно, при большом числе выборочных оцениваний остатки не будут накапливаться и найденный параметр регрессии bi можно рассматривать как среднее значение из возможного большого количества несмещенных оценок. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным исследованиям.

Для практических целей важна не только несмещенность, но и эффективность оценок. Оценки считаются эффективными, если они характеризуются наименьшей дисперсией. Поэтому несмещенность оценки должна дополняться минимальной дисперсией. В практических исследованиях это означает возможность перехода от точечного оценивания к интервальному.

Степень реалистичности доверительных интервалов параметров регрессии обеспечивается, если оценки будут не только несмещенными и эффективными, но и состоятельными. Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки. Больший жизненный интерес представляют те результаты регрессии, для которых доверительный интервал ожидаемого значения параметра регрессии bi имеет предел значений вероятности, равный 1. Иными словами, вероятность получения оценки на заданном расстоянии от истинного значения параметра близка к 1.

Указанные критерии оценок (несмещенность, состоятельность, эффективность) обязательно учитываются при разных способах оценивания. Метод наименьших квадратов строит оценки регрессии на основе минимизации суммы квадратов остатков. Поэтому очень важно исследовать "поведение" остаточных величин регрессии εi. Условия, необходимые для получения несмещенных, состоятельных и эффективных оценок представляют собой предпосылки МНК, соблюдение которых желательно для получения достоверных результатов регрессии.

Исследования остатков εi предполагает проверку наличия следующих предпосылок МНК:

1. Случайный характер остатков;

2. Нулевая средняя величина остатков, независящая от xi;

3. Гомоскедастичность - дисперсия каждого отклонения εi одинакова для всех значений x;

4. Отсутствие автокорреляции остатков. Значения остатков εi распределены независимо друг от друга;

5. Остатки подчиняются нормальному распределению.

В тех случаях, когда все пять предпосылок выполняются, рассматриваемая модель называется классической нормальной линейной регрессионной моделью (Classical Normal Linear Regression model) Если распределение случайных остатков εi не соответствует некоторым предпосылкам МНК, то следует корректировать модель.

Прежде всего, проверяется случайный характер остатков εi - первая предпосылка МНК.

С этой целью строится график зависимости остатков εi от теоретических значений результативного признака:

 
 

Если на графике получена "горизонтальная полоса", то остатки εi представляют собой случайные величины и МНК оправдан, теоретичеcкие значения хорошо аппроксимируют фактические значения y. Возможны следующие случаи: если график зависимости εi от оказался одним из следующих рисунков: а, б или в, то:

· остатки εi не случайны (рис 1.8 (а));

· остатки εi не имеют постоянной дисперсии (рис. 1.8 (в));

· остатки εi носят систематический характер (рис 1.8 (б)), (в данном случае отрицательные значения εi соответствуют низким значениям , а положительные – высоким).

Во всех случаях, отраженных на рисунках а, б и в, необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии до тех пор, пока остатки εi не будут случайными величинами.

В модели предполагается, что математическое ожидание случайной составляющей εi равно нулю, т.е. M(εi)=0. Иными словами, вторая предпосылка МНК относительно нулевой средней величины остатков означает, что

 

Вместе с тем, несмещенность оценок коэффициентов регрессии, полученных МНК, зависит от независимости случайных остатков и величин x, что также исследуется в рамках соблюдения второй предпосылки МНК. С этой целью наряду с изложенным графиком зависимости остатков ε от теоретических значений результативного признака строится график зависимости случайных остатков ε от факторов, включенных в регрессию xi:

 

 

 


Если остатки на графике расположены в виде горизонтальной полосы (как в представленном рисунке), то они не зависимы от значений xj. Если же график показывает наличие зависимости εi и xj, то модель не адекватна. Причины неадекватности могут быть разные. Возможно, что нарушена третья предпосылка МНК и дисперсия остатков не постоянна для каждого значения фактора xj. Может быть неправильна спецификация модели и в нее необходимо ввести дополнительные члены от xj, например, xj2, или преобразовать значения y. Скопление точек в определенных участках значений фактора xj говорит о наличии систематической погрешности модели.

Корреляция случайных остатков с факторными признаками позволяет проводить корректировку модели, в частности, использовать кусочно-линейные модели5.

Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев: t, F. Вместе с тем, оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т.е. при нарушении пятой предпосылки МНК.

Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок.

В соответствии с предпосылкой 3 требуется, чтобы дисперсия остатки была гомоскедастичной. Это значит, что для каждого значения фактора xj остатки εi имеют одинаковую дисперсию . Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность. Наличие гетероскедастичности можно наглядно видеть из поля корреляции:

Рисунок a изображает ситуацию, когда дисперсия остатков растет по мере увеличения x. Рисунок б показывает, что дисперсия остатки достигает максимальной величины при средних значениях переменной x и уменьшается при минимальных и максимальных значения фактора x. Рисунок в иллюстрирует максимальную дисперсию при малых значениях x и однородность дисперсии по мере увеличения значений фактора.

 

 

 
 

 

 


Гомоскедастичность остатков означает, что дисперсия остатков εi одинакова для каждого значения x. Используя трехмерное изображение, получим следующие графики, иллюстрирующие гомо- и гетероскедастичность.

 
 

Рис.1.11 показывает, что для каждого значения xi распределения остатков εi одинаковы в отличие от рис.1.12, где диапазон варьирования остатков меняется с переходом от одного значения xi к другому. Соответственно, на рис.1.12 демонстрируется неодинаковая дисперсия εi при разных значениях xi.

Наличие гомоскедастичности или гетероскедастичности можно видеть и по рассмотренному выше графику зависимости остатков εi от теоретических значений результативного признака . Так для рис.1.8 а зависимость остатков от может представить график на рис. 1.13.:

Соответственно, для зависимости, изображенной на полях корреляции рис.1.8. б и 1.8. в, гетероскедастичность остатков может быть представлена также следующими графиками на рисунках 1.14 и 1.15.

 

Для множественной регрессии данный вид графиков является наиболее приемлемым визуальным способом изучения гомо- и гетероскедастичности.

 

 

Наличие гетероскедастичности может в отдельных случаях привести к смещенности оценок коэффициентов регрессии, хотя несмещенность оценок коэффициентов регрессии в основном зависит от соблюдения второй предпосылки МНК, т.е. независимости остатков и величин факторов. Гетероскедастичность будет сказываться на уменьшении эффективности оценок bi. В частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии , предполагающей единую дисперсию остатки для любых значений фактора.

Сумма квадратов отклонений для зависимости

при наличии гетероскедастичности должна иметь вид:

При минимизации это суммы квадратов отдельные ее слагаемые взвешиваются: наблюдениям с наибольшей дисперсией придается пропорционально меньший вес. Иными словами, вклад каждого сочетания xi с yi в сумму квадратов остатков должен быть дисконтирован, чтобы учесть систематическое влияние неоднородных элементов Ki.

Задача состоит в том, чтобы определить величину Ki и внести поправку в исходные переменные. С этой целью рекомендуется использовать обобщенный метод наименьших квадратов6, который эквивалентен обыкновенному МНК, примененному к преобразованным данным. Чтобы убедиться в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят эмпирическое ее подтверждение.

При построении регрессионных моделей чрезвычайно важно соблюдение четвертой предпосылки МНК отсутствие автокорреляции остатков, т.е. значения остатков e распределены независимо друг от друга. Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Коэффициент корреляции между εi и εj, где εi - остатки текущих наблюдений, εj - остатки предыдущих наблюдений (например, j = i- 1), может быть определен как

,

т.е. по обычной формуле линейного коэффициента корреляции. Если этот коэффициент окажется существенно отличным от нуля, то остатки автокоррелированы и функция плотности и вероятности F (e) зависит от j -ой точки наблюдения и от распределения значений остатков в других точках наблюдения.

Для регрессионных моделей по статической информации автокорреляция остатков может быть подсчитана, если наблюдения упорядочены по фактору x, как это имеет место в табл.1.5. Коэффициент автокорреляции остатков может быть найден по следующим рядам данных:

Таблица 1.5

Расчет коэффициента автокорреляции остатков для уравнения

    17,0 21,1 42,8 56,4 71,3 90,3 97,1 -1,0 7,9 -4,8 -7,4 -2,3 14,7 -7,1 - -1 7,9 -4,8 -7,4 -2,3 14,7 - -7,9 -37,92 35,52 17,02 -33,81 -104,37
        7,1 -131,46

 

Учитывая, что

;

получим: , что при 4 степенях свободы и уровне значимости 0,05 явно не значимо , а F – отношение < 1 и

демонстрирует отсутствие автокорреляции остатков.

Отсутствие автокорреляции остаточных величин обеспечивает состоятельность и эффективность оценок коэффициентов регрессии. Особенно актуально соблюдение данной предпосылки МНК при построении регрессионных моделей по рядам динамики, где в виду наличия тенденции последующие уровни динамического ряда, как правило, зависят от своих предыдущих уровней.

Наряду с предпосылками МНК как метода оценивания параметров регрессии, при построении регрессионных моделей должны соблюдаться определенные требования относительно переменных, включаемых в модель. Они были рассмотрены ранее при решении проблемы отбора факторов. Это, прежде всего, требование относительно числа факторов модели по заданному объему наблюдений (соотношение 1 к 6 - 7), иначе параметры регрессии оказываются статистически незначимыми. В общем виде применение МНК возможно, если число наблюдений n превышает число оцениваемых параметров m, т.е. система нормальных уравнений имеет решение только тогда, когда n > m.

Чрезвычайно важным является и требование относительно матрицы исследуемых факторов. Она должна быть свободна от мультиколлинеарности. В множественной регрессии предполагается, что матрица факторов представляет собой невырожденную матрицу, определитель которой отличен от нуля. Наличие мультиколлинеарности может исказить правильную экономическую интерпретацию параметров регрессии.

При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии, которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии.




Поделиться с друзьями:


Дата добавления: 2015-06-30; Просмотров: 2962; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.036 сек.