Исходные данные для построения уравнений регрессии

№/№	y	x₁	x₂	№/№	y	x₁	x₂
	48,01	0,91	46,08		36,26	0,90	40,06
	38,18	0,76	45,18		32,07	0,52	57,91
	38,7	0,82	41,76		32,83	0,66	43,86
	46,72	0,88	50,94		35,16	0,58	58,62
	41,58	0,88	43,54		44,56	0,99	44,39
	36,89	0,89	38,8		59,16	1,63	35,77
	34,54	0,87	39,22		67,99	1,95	35,96
	42,86	0,94	42,74		53,73	1,27	40,99
	38,97	0,91	41,2		52,39	1,55	33,05
	43,22	1,07	39,35		36,1	1,15	30,68
	28,19	0,69	34,38		32,67	0,94	34,26
	38,65	0,74	48,98	Σ	959,43	22,5	967,72

Можно попробовать включить в уравнение регрессии второй фактор x₂ и проанализировать получившийся результат. При построении уравнений множественной регрессии возникает много дополнительных сложностей по сравнению с процессом построения уравнений парной регрессии. Сами системы нормальных уравнений для вычисления параметров регрессии включают больше уравнений и неизвестных, но кроме того, возникает дополнительная проблема отбора тех факторных переменных, которые целесообразно включить в уравнений множественной регрессии.

На лекции №1 мы уже говорили о проблеме мультиколлинеарности и о том, что в уравнение множественной регрессии нельзя включать факторы, между которыми существует линейная статистическая зависимость (корреляционная связь), измеряемая с помощью коэффициента парной корреляции. Но, может быть, в уравнение регрессии достаточно включить только единственный фактор, а включение дополнительного фактора будет лишним? Попытаемся оценить это с помощью расчета коэффициента детерминации.

Этот показатель рассчитывается как отношение двух дисперсий (дисперсии расчетных значений и дисперсии фактических значений результативной переменной y) и показывает, какая часть вариации результативного признака может быть объяснена влиянием факторного признака.

Проведя расчеты, основанные на одних и тех же исходных данных, для нескольких типов функций, мы можем из них выбрать такую, которая дает наибольшее значение R² и, следовательно, в большей степени, чем другие функции, объясняет вариацию результативного признака. Коэффициент детерминации рассчитывается по формуле:

(3.1)

где в числителе - дисперсия расчетных, а в знаменателе – дисперсия фактических значений изучаемого признака.

Действительно, при расчете R² для одних и тех же данных, но разных функций знаменатель выражения (3.1) остается неизменным, а числитель показывает ту часть вариации результативного признака, которая учитывается выбранной функцией. Чем больше R², т. е. чем больше числитель, тем больше изменение факторного признака объясняет изменение результативного признака и тем, следовательно, лучше уравнение регрессии, лучше выбор функции.

Рассчитаем коэффициент детерминации для уравнения у = 17,8 + 24,5x, полученного в примере, рассмотренном на предыдущей лекции. Вычисляем R², воспользовавшись формулой (3.1) и данными табл. 3.1.

Вначале построим вспомогательную таблицу для определения ошибки аппроксимации и дисперсий фактических и расчетных значений признака (табл. 3.2).

Таблица 3.2

Вспомогательная таблица для расчета ошибки аппроксимации и индекса детерминации для уравнения у = 17,8 + 24,5x

y y_x y-y_x (y-y_x)² (y-y_ср)² (y_x-y_ср)²

48,01 40,04 7,97 63,48 39,64 2,79

38,18 36,37 1,81 3,28 12,49 28,57

38,70 37,84 0,86 0,74 9,09 15,02

46,72 39,31 7,41 54,94 25,06 5,79

41,58 39,31 2,27 5,16 0,02 5,79

36,89 39,55 -2,66 7,09 23,27 4,67

34,54 39,06 -4,52 20,46 51,47 7,03

42,86 40,78 2,08 4,34 1,31 0,88

38,97 40,04 -1,07 1,15 7,53 2,79

43,22 43,96 -0,74 0,55 2,27 5,05

28,19 34,65 -6,46 41,79 182,91 49,84

38,65 35,88 2,77 7,68 9,39 34,05

36,26 39,80 -3,54 12,52 29,75 3,67

32,07 30,49 1,58 2,49 93,01 125,96

32,83 33,92 -1,09 1,19 78,93 60,75

35,16 31,96 3,20 10,24 42,96 95,13

44,56 42,00 2,56 6,54 8,10 0,08

59,16 57,68 1,48 2,20 304,35 254,77

67,99 65,51 2,48 6,14 690,41 566,36

53,73 48,86 4,87 23,72 144,38 51,05

52,39 55,72 -3,33 11,07 113,97 196,06

36,10 45,92 -9,82 96,44 31,52 17,69

32,67 40,78 -8,11 65,73 81,80 0,88

959,43 959,43 0,00 448,93 1983,62 1534,69

Используя суммы, рассчитанные в последней (итоговой) строке таблицы 3.2, для расчета ошибки аппроксимации и индекса детерминации, получаем:

R ² = 0,774 = 77,4% (3.2)

σ² = 4,42 (3.3)

Итак, уравнение регрессии примерно на 77 % объясняет колебания сбора хлеба на душу. Это немало, но, по-видимому, можно улучшить модель введением в нее еще одного фактора.

Одной из дополнительных проблем, возникающих при построении уравнений множественной регрессии, является проблема отбора факторов, которые целесообразно включать в модель. Если известны данные о множестве самых различных факторов, каждый из которых может оказать то или иное влияние на результирующий показатель, обычно отбирают 2-3 фактора по результатам анализа мультиколлинеарности.

В рассмотренном ранее примере известны данные только о двух факторах, которые могут быть включены в модель. Поэтому далее мы рассмотрим построение уравнения двухфакторной линейной регрессии, включив в уравнение, кроме фактора x₁ дополнительный фактор x₂ – урожайность зерна.

<== предыдущая лекция	\|	следующая лекция ==>
	\|	Й учебный вопрос. Построение уравнения двухфакторной линейной регрессии

Поделиться с друзьями:

Дата добавления: 2014-01-05; Просмотров: 718; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.084 сек.