Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Выбор факторов для регрессионного анализа




Количественная оценка взаимосвязей финансовых показателей компаний

1) Корреляционный анализ данных, включая проверку теста Фаррара-Глоубера на мультиколлинеарность факторов

В таблице 2 представлена матрица коэффициентов парной корреляции для всех переменных, участвующих в рассмотрении. Матрица получена с помощью инструмента Корреляция из пакета Анализ данных в Excel.

Таблица 2. Матрица коэффициентов парной корреляции

  ВП ДЗ ДО ЗП КО ОА ОС ПП ЧП
ВП                  
ДЗ 0.703153371                
ДО 0.619431723 0.71108883              
ЗП 0.2070804 0.21370578 0.191246031            
КО 0.871662071 0.76551489 0.760730624 0.26099803          
ОА 0.627521351 0.90941562 0.687285976 0.21551821 0.686887605        
ОС 0.885439784 0.6582235 0.632196987 0.11272433 0.760361993 0.559891192      
ПП 0.937332888 0.62493307 0.626141923 0.11415721 0.795978755 0.538184606 0.84546545    
ЧП 0.847732155 0.56665776 0.642293296 0.12581203 0.776315119 0.528740023 0.7231916 0.895976804  

 

Визуальный анализ матрицы позволяет установить:

1) ЧП имеет довольно высокие парные корреляции со всеми переменными, кроме переменной ЗП (далее ее не будем рассматривать), что вполне объяснимо, так как предприятия отрасли «Связь» имеют специфическую продукцию;

2) большинство переменных анализа демонстрируют довольно высокие парные корреляции, что обуславливает необходимость проверки факторов на наличие между ними мультиколлинеарности. Тем более, что одним из условий классической регрессионной модели является предположение о независимости объясняющих переменных.

Для выявления мультиколлинеарности факторов выполним тест Фаррара-Глоубера по факторам ВП, ДЗ, ДО, КО, ОА, ОС, ПП.

Проверка теста Фаррара-Глоубера на мультиколлинеарность факторов включает несколько этапов, реализация которых представлена ниже.

1) Проверка наличия мультиколлинеарности всего массива переменных

· Построим матрицу межфакторных корреляций R (таблица 3) и найдем её определитель с помощью функции МОПРЕД.

Таблица 3. Матрица межфакторных корреляций R

Переменная ВП ДЗ ДО КО ОА ОС ПП
ВП 1.00 0.70 0.62 0.87 0.63 0.89 0.94
ДЗ 0.70 1.00 0.71 0.77 0.91 0.66 0.62
ДО 0.62 0.71 1.00 0.76 0.69 0.63 0.63
КО 0.87 0.77 0.76 1.00 0.69 0.76 0.80
ОА 0.63 0.91 0.69 0.69 1.00 0.56 0.54
ОС 0.89 0.66 0.63 0.76 0.56 1.00 0.85
ПП 0.94 0.62 0.63 0.80 0.54 0.85 1.00

 

Определитель матрицы R стремится к нулю, что позволяет сделать предположение об общей мультиколлинеарности факторов. Подтвердим это предположение оценкой статистики Фаррара-Глоубера.

· Вычислим наблюдаемое значение статистики Фаррара – Глоубера по формуле:

,

где n = 109 – количество наблюдений (компаний); k = 7 – количество факторов (переменных анализа).

Фактическое значение этого критерия сравниваем с табличным значением критерия с степенью свободы и уровне значимости α=0,05. Табличное значение можно найти с помощью функции ХИ2ОБР [10]. ХИ2.ОБР.ПХ(0,05; 21).

Так как (953,87>32,67), то в массиве объясняющих переменных существует мультиколлинеарность.

2) Проверка наличия мультиколлинеарности каждой переменной с другими переменными.

· Вычислим обратную матрицу с помощью функции Excel МОБР (таблица 4).

Таблица 4. Обратная матрица

 

21.37 1.10 4.33 -7.73 -3.10 -5.52 -10.95
1.10 7.78 0.14 -1.86 -5.67 -1.30 -0.35
4.33 0.14 3.61 -2.85 -1.40 -1.39 -2.21
-7.73 -1.86 -2.85 7.49 1.28 1.63 2.16
-3.10 -5.67 -1.40 1.28 6.55 1.29 1.68
-5.52 -1.30 -1.39 1.63 1.29 5.42 0.28
-10.95 -0.35 -2.21 2.16 1.68 0.28 10.00

 

· Вычисление F-критериев , где – диагональные элементы матрицы (таблица 5).

 

Таблица 5. Значения F-критериев[11]

F1 (ВП) F2 (ДЗ) F3 (ДО) F4 (КО) F5 (ОА) F6 (ОС) F7 (ПП)
293.9661352 97.8124237 37.70943742 93.6206699 80.04703672 63.80765146 129.863357

· Фактические значения F- критериев сравниваются с табличным значением при n1= 7 и n2 = n - k – 1=109-7-1=101 степенях свободы и уровне значимости α=0.05, где k – количество факторов.

· Так как все значения F-критериев больше табличного, то все исследуемые независимые переменные мультиколлинеарны с другими. Больше других влияет на общую мультиколлинеарность факторов фактор ВП, меньше – фактор ДО.

 

3 ) Проверка наличия мультиколлинеарности каждой пары переменных

● Вычислим частные коэффициенты корреляции по формуле , где – элементы матрицы . Матрицу коэффициентов частной корреляции , можно получить с помощью программ VSTAT, SPSS (таблица 6).

Таблица 6. Матрица коэффициентов частных корреляций

Переменная ВП ДЗ ДО КО ОА ОС ПП
ВП              
ДЗ -0.09            
ДО -0.49 -0.03          
КО 0.61 0.24 0.55        
ОА 0.26 0.79 0.29 -0.18      
ОС 0.51 0.20 0.31 -0.26 -0.22    
ПП 0.75 0.04 0.37 -0.25 -0.21 -0.04  

● Вычисление t -критериев по формуле (таблица 7).

Таблица 7. t-критерии для коэффициентов частной корреляции[12]

Переменная ВП ДЗ ДО КО ОА ОС ПП
ВП              
ДЗ -0.86            
ДО -5.69 -0.26          
КО 7.75 2.52 6.59        
ОА 2.73 13.12 3.02 -1.87      
ОС 6.01 2.05 3.32 -2.66 -2.24    
ПП 11.35 0.40 3.97 -2.60 -2.14 -0.38  

 

Фактические значения t-критериев сравниваются с табличным значением при степенях свободы (n - k – 1)=109-7-1=101 и уровне значимости α=0,05.

Из таблиц 6 и 7 видно, что две пары факторов ОА и ДЗ, ПП и ВП имеют высокую статистически значимую частную корреляцию, то есть являются мультиколлинеарными. Для того, чтобы избавиться от мультиколлинеарности, можно исключить одну из переменных коллинеарной пары. В паре ПП и ВП оставляем ПП, так как у нее меньше связи с другими факторами; в паре ОА и ДЗ оставим ОА, во-первых, с экономической точки зрения, а, во-вторых, так как у нее меньше значение F-критерия и, значит, она меньше влияет на общую мультиколлинеарность факторов.

Таким образом, в результате проверки теста Фаррара-Глоубера остается пять факторов: ДО, КО, ОА, ОС, ПП.

Завершая процедуры корреляционного анализа, целесообразно посмотреть частные корреляции выбранных факторов с результатом ЧП. В последнем столбце таблицы 8 представлены значения t-критерия для столбца ЧП.

Таблица 8. Матрица коэффициентов частной корреляции с результатом ЧП

Переменная ДО КО ОА ОС ПП ЧП t-критерий (
ДО 1.00 0.34 0.34 0.12 -0.12 0.16 1.63
КО 0.34 1.00 0.28 0.17 0.15 0.17 1.75
ОА 0.34 0.28 1.00 0.07 -0.04 -0.02 -0.24
ОС 0.12 0.17 0.07 1.00 0.59 -0.24 -2.49
ПП -0.12 0.15 -0.04 0.59 1.00 0.71 10.27
ЧП 0.16 0.17 -0.02 -0.24 0.71 1.00  

 

Из таблицы 8 видно, что межфакторные частные корреляции слабые, а переменная ЧП имеет высокую и одновременно статистически значимую частную корреляцию только с фактором ПП.

Уточнение набора факторов, наиболее подходящих для регрессионного анализа, осуществим другими методами отбора.

 

2) Пошаговый отбор факторов методом исключения из модели статистически незначимых переменных

В соответствии с общим подходом, пошаговый отбор следует начинать с включения в модель всех имеющихся факторов, то есть в нашем случае с восьмифакторной регрессии. Но мы не будем включать в модель факторы из заранее известных коллинеарных пар (в связи с наличием коллинеарности ранее были исключены из рассмотрения ВП и ДЗ), а также фактор ЗП, имеющий слабую связь с ЧП. Таким образом, пошаговый отбор факторов начнем с пятифакторного уравнения. Фрагмент пятифакторного регрессионного анализа представлен на рисунке 2.

    tтабл(0.05;109-5-1=103)= 1.98326409
  Коэффициенты Стандартная ошибка t-статистика
Y-пересечение -2067.779334 16246.6282 -0.127274368
ОС -0.040553788 0.016198212 -2.503596652
ПП 0.649466697 0.062951463 10.31694366
ДО 0.033862469 0.02067002 1.638240731
КО 0.049965808 0.028431981 1.75738047
ОА -0.006074787 0.025402164 -0.239144461

 

Рисунок 2. Фрагмент пятифакторного регрессионного анализа

Статистически незначимыми () оказались три фактора (на рисунке 1 они выделены жирным шрифтом). На следующем этапе пошагового отбора удаляем статистически незначимый фактор с наименьшим значением t-критерия, то есть фактор ОА (на рисунке 2 выделен цветом).

Аналогично поступаем до тех пор, пока не получим уравнение, в котором все факторы окажутся статистически значимыми. Этапы получения такого уравнения, то есть фрагменты соответствующих регрессионных анализов, представлены на рисунках 3, 4.

    t табл(0.05;109-4-1=104)= 1.983037471
  Коэффициенты Стандартная ошибка t-статистика
Y-пересечение -3255.832024 15398.16512 -0.211442857
ОС -0.040859333 0.016074384 -2.541891019
ПП 0.650673211 0.062463899 10.41678825
ДО 0.032173752 0.019338145 1.663745481
КО 0.048029464 0.027130844 1.770290058

Рисунок 3. Фрагмент четырехфакторного регрессионного анализа

 

    tтабл(0,05;109-3-1=105)= 1.982815217
  Коэффициенты Стандартная ошибка t-статистика
Y-пересечение -4456.711199 15510.19708 -0.28734072
ОС -0.037629315 0.016090498 -2.338604743
ПП 0.647303561 0.062954486 10.28208794
КО 0.071691944 0.023297943 3.07717916

Рисунок 4. Фрагмент трехфакторного регрессионного анализа

Из рисунка 3 видно, что уравнение с тремя факторами ОС, ПП и КО обладает статистически значимыми коэффициентами перед факторами (в нем незначим только свободный член), а, значит, и сами эти факторы статистически значимы.

Таким образом, в результате пошагового отбора получено трехфакторное уравнение регрессии, все коэффициенты которого (кроме свободного члена) значимы при 5%-ном уровне значимости, вида

,

где YЧП, – ОС, – ПП, – КО.

3) Проверка теста на «длинную» и «короткую» регрессии

По результатам пунктов 1) и 2) возникает необходимость выбора из двух регрессий: «длинной» – с тремя факторами (ОС, ПП и КО) и «короткой» – с одним фактором (ПП).

Воспользуемся тестом на «длинную» и «короткую» регрессии. Этот тест используется для отбора наиболее существенных объясняющих переменных. Иногда переход от большего числа исходных показателей анализируемой системы к меньшему числу наиболее информативных факторов может быть объяснен дублированием информации, из-за сильно взаимосвязанных факторов. Стремление к построению более простой модели приводит к идее уменьшения размерности модели без потери её качества. Для этого используют тест проверки «длинной» и «короткой» регрессий.

Рассмотрим две модели регрессии:

yi= β 0 + β 1 xi1 +…+ β k xik+ε i (длинную)

yi= β 0 + β 1 xi1 +…+ β k xik-q+εi (короткую)

Предположим, что модель не зависит от последних q объясняющих переменных и их можно исключить из модели. Это соответствует гипотезе

H0: β k-q+1 = β k-q+2…= β k =0,

т.е. последние q коэффициентов равны нулю.

Алгоритм проверки следующий:

o Построить по МНК длинную регрессию по всем факторам и найти для неё сумму квадратов остатков – .

o Построить по МНК короткую регрессию по первым факторам и найти для неё сумму квадратов остатков – .

o Вычислить F -статистику

o Если Fнабл>Fтабл (α, v1=q, v2=n-k-1), гипотеза отвергается (выбираем длинную регрессию), в противном случае – выбираем короткую регрессию.

На основании данных нашего примера сравним две модели: «длинную» (с факторами , , ) и «короткую» (только с фактором ).

1) Построим длинную регрессию по трем факторам , , и найдем для неё сумму квадратов остатков – (рисунок 5).

Дисперсионный анализ    
  df SS MS
Регрессия   1.04794E+13 3.49313E+12
Остаток   2.25564E+12  
Итого   1.2735E+13  
       
  Коэффициенты Стандартная ошибка t-статистика
Y-пересечение -4456.711199 15510.19708 -0.28734072
ОС -0.037629315 0.016090498 -2.338604743
ПП 0.647303561 0.062954486 10.28208794
КО 0.071691944 0.023297943 3.07717916

Рисунок 5. Фрагмент регрессионного анализа для длинной (трехфакторной) регрессии

2) Построим короткую регрессию по одному фактору и найдем для неё сумму квадратов остатков – (рисунок 6).

 

Дисперсионный анализ    
  df SS MS
Регрессия   1.02234E+13 1.02234E+13
Остаток   2.51168E+12  
Итого   1.2735E+13  
       
  Коэффициенты Стандартная ошибка t-статистика
Y-пересечение 1286.42961 15643.62168 0.08223349
ПП 0.658080318 0.031533476 20.86925995

 

Рисунок 6. Фрагмент регрессионного анализа для короткой (однофакторной) регрессии

3) Вычислим F -статистику

 

,

4) Так как , отдаем предпочтение длинной регрессии

 

.

 




Поделиться с друзьями:


Дата добавления: 2014-11-20; Просмотров: 1641; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.047 сек.