Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Парные коэффициенты корреляции

Коэффициенты корреляция

Включаемые во множественную регрессию факторы должны объяснить вариацию зависимой переменной. Насыщение модели лишними факторами приводит к статистической незначимости параметров регрессии по t -критерию Стьюдента. Несмотря на то, что теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно проводится в две стадии: на первой отбираются факторы исходя из сути проблемы; на второй – на основе матрицы показателей корреляции и определения t -статистики для параметров регрессии.

Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменных явно коллинеарны, т.е. находятся между собой в линейной зависимости, если rxixj ³ 0,7.

Поскольку одним из условий построения уравнения множественной регрессии является независимость действия факторов, т.е. Rxixj = 0, коллинеарность факторов нарушает это условие. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Пример 3.2. При изучении зависимости y = f (x, z, v) матрица парных коэффициентов корреляции оказалась следующей:

 

  y x z v
y        
x 0,8      
z 0,7 0,8    
v 0,6 0,5 0,2  

 

Очевидно, что факторы x и z дублируют друг друга. В анализ целесообразно включить фактор z, а не x, так как корреляция z, с результатом y слабее, чем корреляция фактора x с y (ryz < ryx), но зато слабее межфакторная корреляция rzv < rxv . Поэтому в данном случае в уравнение множественной регрессии включаются факторы z, и v.

По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы всегда будут действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности.

Для оценки факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.

Если бы факторы не коррелировали между собой, то матрицы парных коэффициентов корреляции между ними была бы единичной, поскольку все недиагональные элементы rxixj (xi ¹ xj) были бы равны нулю. Так, для уравнения, включающего три объясняющих переменных,

y = a + b 1 × x 1 + b 2 × x 2 + b 3 × x3 + e,

матрица коэффициентов корреляции между факторами имела бы определитель, равный единице

,

поскольку rx1x1 = rx2x2 = rx3x3 = 1 и rx1x2 = rx1x3 = rx2x3 = 0.

Если же между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю

.

Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение коэффициента множественной детерминации к единице, тем сильна проявляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов R 2 x 1ï x 2 x 3… xp; R 2 x 2ï x 1 x 3… xp и т.п., можно выделить переменные, ответственные за мультиколлинеарность, следовательно, можно решать проблему отбора факторов, оставляя в уравнении факторы с минимальной величиной коэффициента множественной детерминации.

Имеется ряд подходов преодоления сильной межфакторной корреляции. Самый простой из них состоит в исключении из модели одного или нескольких факторов. Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если y = f (x 1, x 2, x 3). то можно построить следующее совмещенное уравнение:

y = a + b 1 × x 1 + b 2 × x 2 + b 3 × x 3 + b 12 × x 1 × x 2 + b 13 × x 1 × x 3 + b 23 × x 2 × x 3 + e.

Рассматриваемое уравнение включает эффект взаимодействия первого порядка. Можно включать в модель и взаимодействие более высоких порядков, если будет доказана его статистическая значимость, например включение взаимодействия второго порядка b 123 × x 1× x 2 × x 3 и т.д. Как правила, взаимодействие третьего и более высоких порядков оказывается статистически незначимым; совмещенные уравнения регрессии ограничиваются взаимодействием первого и второго порядков. Но и оно может оказаться несущественным. Тогда нецелесообразно включать в модель взаимодействие всех факторов и всех порядков. Так, если анализ совмещенного уравнения показал значимость только взаимодействия факторов x 1×и x 3, то уравнение будет иметь вид:

y = a + b 1 × x 1 + b 2 × x 2 + b 3 × x 3 + b 13 × x 1 × x 3 + e.

Взаимодействие факторов x 1×и x 3 означает, что на разных уровнях фактора x 3 влияние фактора x 1×на y будет неодинаково, т.е. оно зависит от значений фактора x 3.

Наиболее широкое применение получили следующие методы отбора факторов и построения уравнения множественной регрессии:

– метод исключения;

– метод включения;

– шаговый регрессионный анализ.

На первый взгляд может показаться, что матрица парных коэффициентов корреляции играет главную роль в отборе факторов. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать вопрос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результатом. Матрица частных коэффициентов корреляции наиболее широко используется в процедуре отсева факторов.

Отсев факторов можно проводить и по t -критерию Стьюдента для коэффициентов регрессии: из уравнения исключаются факторы с величиной t -критерия меньше табличного. Так, например, уравнение регрессии составило:

y = 25 + 5 x 1 + 3 x 2 + 4 x 3 + e.

(4,0) (1,3) (6,0)

В скобках приведены фактические значения t -критерия для соответствующих коэффициентов регрессии, как правило, при t < 2 коэффициент регрессии незначим и, следовательно, рассматриваемый фактор не должен присутствовать в регрессионной модели. В данном случае – это фактор x 2.

При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной вариации очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F -критерий меньше табличного значения.

Как было показано выше, ранжирование факторов, участвующих в множественной линейной регрессии, может быть проведено через стандартизованные коэффициенты регрессии (b -коэффициенты). Эту же цель можно достичь с помощью частных коэффициентов корреляции для линейных связей. При нелинейной взаимосвязи исследуемых признаков эту функцию выполняют частные индексы детерминации. Кроме того, частные показатели корреляции широко используются при отборе факторов: целесообразность включения того или иного фактора в модель доказывается величиной показателя частной корреляции.

<== предыдущая лекция | следующая лекция ==>
Частные уравнения регрессии | Частные коэффициенты корреляции
Поделиться с друзьями:


Дата добавления: 2014-01-03; Просмотров: 2094; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.014 сек.