Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Часть III. Сбор, подготовка и анализ данных 3 страница




917-(12)(9.333)(«83)

1350-(12)(9,333)

a = F-£? = 6,583~(0,5897)(9,333) = 1,0793

Обратите внимание, что эти коэффициенты вычислены из исходных (не преобразованных)

данных. Если данные нормированы, то вычисление нормированных коэффициентов не вызо-

вет затруднений.

Нормированный коэффициент регрессии

Нормирование (standartization) представляет собой процедуру, посредством которой исход-

ные данные преобразуют в новые переменные со значением средней, равным нулю, и диспер-

сией, равной 1 (глава 14). После нормирования данных, отрезок, отсекаемый на оси OY, при-

нимает значение 0. Нормированный коэффициент регрессии обозначают как "бета"-

коэффициент или взвешенный "бета "-коэффициент. В этом случае угловой коэффициент рег-

рессии YnoX, обозначаемый йч„ тот же, что и угловой коэффициент регрессии А" по Y, обозна-

чаемый Byv Более того, каждый из этих коэффициентов регрессии равен простому (линейному)

коэффициенту корреляции между Хи Y;

°ух= *V= '' гзу

Существует простая связь между нормированным и ненормированным коэффициентами

регрессии:

Для регрессии, показатели которой представлены в табл. 17.2, значение "бета" -коэффициента

оценивается как 0,9361.

654 Часть III. Сбор, подготовка и анализ данных

Таблица 17.2. Парная регрессия

Коэффициент корреляции Я

Коэффициент детерминации R2

Скорректированный И2

Стандартная ошибка

0,93608

0,87624

0,86387

1,22329

Дисперсионный анализ

Степени свободы Сумма квадратов Средний квадрат

Регрессия I

Остаток 10

F = 70,80266 Значимость F равна 0,000

105,95222

14,96444

105,95222

1,49644

Переменная

Переменные в уравнении

5ЕЬ Бета, р Т Значимость Т

Продолжительность 0,58972

(Константа) 1,07932

0,07008

0,74335

0,93608 8,414

1,452

0,0000

0,1772

Поскольку параметры определены, можно проверить их значимость.

Проверка значимости

Статистическую значимость линейной связи между А" и У можно проверить, исследовав

гипотезы:

JSfcft-O

Я,: А* О

Нулевая гипотеза предполагает, что между Хи. Уне существует линейной зависимости. Аль-

тернативная гипотеза утверждает, что между X и К существует зависимость, либо положитель-

ная, либо отрицательная. Обычно проводят двустороннюю проверку. Можно использовать /-

статистику с п — 2 степенями свободы, где

Ъ

~SEb

SEh обозначает стандартное отклонение Ь, и этот показатель называют стандартной ошибкой

коэффициента регрессии b [10]. (-распределение обсуждалось в главе 15.

Используя компьютерную программу (например SPSS) и данные табл. 17.1, регрессия от-

ношения к городу от длительности проживания в нем даст результаты, представленные в

табл. 17.2. Величина отрезка а, отсекаемого на оси OY, равна 1,0793, угловой коэффициент

(наклон кривой) b равен 0,5897. Следовательно, вычисленное (теоретическое) уравнение рег-

рессии иметь вид

Отношение (Y) = 1,0793 + 0,5897 (длительность проживания)

Стандартная ошибка, или стандартное отклонение b определено как 0,07008, и значение /-

статистики равно: / = 0,5897/0,0701 = 8,414 с п - 2 = 10 степенями свободы. Из табл. 4 Стати-

стического приложения видно, что критическое значение ^-статистики с 10 степенями свободы

и уровнем значимости а = 0,05 равно 2,228 для двусторонней проверки. Поскольку вычислен-

ное значение /-статистики больше критического значения, то нулевую гипотезу отклоняют.

Следовательно, между отношением к городу и длительностью проживания в нем существует

статистически значимая линейная зависимость. Положительный знак углового коэффициента

указывает на то, что эта связь положительная (прямо пропорциональная). Другими словами,

чем дольше человек живет в городе, тем лучше он к нему относится.

Глава 17. Корреляция и регрессия 655

Теснота и значимость связи

Соответствующий статистический вывод включает определение тесноты и значимости

связи между Yvi X. Тесноту связи измеряют коэффициентом детерминации г2. В парной регрес-

сии i2 представляет собой квадрат линейного коэффициента корреляции. Коэффициент г2 из-

меняется от 0 до 1. Он показывает долю от полной вариации Y, которая обусловлена вариацией

переменной ЛГ, Разложение полной вариации переменной Y аналогично разложению полной

вариации в дисперсионном анализе (глава 16). Как показано на рис. 17.5, полная вариация SSy

раскладывается на вариацию, которую можно объяснить, исходя из линии регрессии SSpeipecctta,

и вариацию ошибки или остаточную вариацию, SSouai6KU или SSa 'встатвчная'

1./Остаточная вариация,

У SSres

1 Объяснимая вариация,

J S5r.g

Рис. 17.5 Разложение полной вариации в парной регрессии

SSy —

где

Тесноту связи вычислим следующим образом;

2 _ - регресси

2 SS,. —

Чтобы проиллюстрировать определение г2, рассмотрим снова влияние продолжительности

проживания в городе на отношение к нему. Из ранее сделанных вычислений коэффициента

парной корреляции видно, что

Теоретическое значение У; можно определить на основании уравнения регрессии

Отношение (Y.) = 1,0793 + 0,5897 (длительность проживания)

Для первого наблюдения в табл. 17.1 это значение равно

656 Часть III. Сбор, подготовка и анализ данных

(Yt)= 1,0793 + 0,5897 x 10 = 6,9763

Для каждого последующего наблюдения теоретические значения будут следующими (в по-

рядке расположения): 8,1557; 8,1557; 3,4381; 8,1557; 4,6175; 5,7969; 2,2587; 11,6939; 6,3866;

11,1042; 2,2587. Следовательно,

Юреп*»- = 5Х^ ~^)2 = <6'9763 - 6,5833)2 + (8,1557 - 6,5833)2.

(8,1557 - 6,5833)2 + (3,4381 - 6,5833)2

+ (8,1557 - 6,5833)2 + (4,6175 - 6,5833)2

+ (5,7969 - 6,5833)2 + (2,2587 - 6,5833)2

+ (11,6939 - 6,5833)2 + (6,6866 - 6,5833)2

+ (11,1042 - 6,5833)2 + (2,2587 - 6,5833)2

= 0,1544 + 2,4724 + 2,4724 + 9,8922 + 2,4724

+ 3,8643 + 0,6184+18,7021+21,1182

+ 0,0387 + 20,4385 + 18,7021 = 105,9522

^ктаточная = £(Г' -^У = (6 - 6,9763): + (9 - 8,1557)2+ (8 - 8,1557)2

I=L

+ (3 - 3,4381)2 + (8 - 8,1557):+ (4-4,б175)2

+ (5 - 5,7969)3 + (2 - 2,2587)2 + (11-11,6939)г

+ (9 - 6,3866)2 + (10 - 11.1042)2 + (2 - 2,2587)г = 14,9644

Видно, что SSy = SS^p,,^ + 55'к.тввм,,р|вя. Кроме того,

SS 105 9524 регрессии IV-Л-'^А.^.-, onzn

Г = = = и.й/О2

SS, 120,9168

Другой равноценной проверкой значимости линейной зависимости между X и Y

(значимости Ь) является проверка значимости коэффициента детерминации. В этом случае ги-

потезы имеют следующий вид:

Соответствующей статистикой, лежащей в основе критерия, является /-"-статистика:

SS /in -2)

которая подчиняется F- распределению с 1 и п - 2 степенями свободы, /-"-критерий представля-

ет собой обобщенную форму /-критерия (см. главу 15). Если случайная переменная подчиняет-

ся /-распределению с п-степенями свободы, то значения t2 подчиняются F- распределению с 1 и

л-степенями свободы. Следовательно, /-"-критерий для проверки значимости коэффициента

детерминации эквивалентен проверке следующих гипотез:

или

/4: /з=0

Я,:р/0

Из табл. 17.2 видно, что

105 - шз.

= - -

(105.9522 + 14,9644)

это равно ранее рассчитанному значению. Вычисленное значение /-"-статистики равно:

F. - ^^ _ = 70,8027

(105,9522 + 14,9644)

с 1 и 10 степенями свободы, Вычисленное значение /•'-статистики превышает критическое зна-

чение, равное 4,96 (определено по табл. 5 Статистического приложения). Следовательно, зави-

Глава 17. Корреляция и регрессия 657

симость статистически значима при уровне значимости а = 0,05, подтверждая результаты про-

верки с помощью /-критерия. Если зависимость между Хи У статистически значима, то имеет

смысл вычислить значения Y, исходя из значений А", и оценить точность предсказания.

Точность предсказания

Чтобы оценить точность предсказанных (теоретических) значений У, полезно вычислить

стандартную ошибку оценки уравнения регрессии SEE. Эта статистика представляет собой

стандартное отклонение фактических значений У от предсказанных значений У:

Г?^

rt-2

или, в более общем виде, при наличии k независимых переменных

SEE можно интерпретировать как вид среднего значения остатка или среднюю ошибку

предсказания Y, исходя из уравнения регрессии [11].

Могут иметь место два случая предсказания. Исследователь хочет предсказать среднее зна-

чение /для всех вариантов с заданным значением X, скажем Х0, или значение У для одного

случая. В обеих ситуациях предсказанное значение одно и то же, обозначаемое У и равное

Y=a+bX0

Однако стандартная ошибка для этих ситуаций разная, хотя в обеих ситуациях она является

функцией SEE. Для больших выборок стандартная ошибка предсказания среднего значения У

равна SEEI-fn, а ошибка предсказания отдельного значения Уравна SEE. Следовательно,

построение доверительных интервалов (см. главу 12) для предсказанных значений варьи-

рует в зависимости от того, необходимо ли предсказать единственное значение наблюде-

ния или среднее значение.

Для данных табл. 17.2 SEE вычисляют по формуле

/14^9644

SEE= Г ' =1,22329

\(12-2)

Последние две стадии выполнения парного регрессионного анализа, а именно, анализ ос-

таточного члена и модель перекрестной проверки, мы рассмотрим ниже, а сейчас вернемся к

предпосылкам, лежащим в основе регрессионной модели.

Предпосылки регрессионного анализа

Регрессионная модель при оценке параметров и проверке значимости (рис. 17.4) исходит из

ряда допущений.

1. Ошибочный член уравнения регрессии (остаточный компонент) подчиняется закону нор-

мального распределения. Для каждого определенного значения X распределение У нор-

мальное [12].

2. Средние значения всех этих нормальных распределений У, при заданном X, лежат на пря-

мой линии с угловым коэффициентом Ь.

3. Среднее значение ошибочного члена равно 0.

4. Дисперсия ошибочного члена постоянна. Эта дисперсия не зависит от значений, при-

нятых X.

5. Между ошибочными членами автокорреляция отсутствует. Другими словами, значения

ошибочных величин независимы между собой.

658 Часть III. Сбор, подготовка и анализ данных

То. в какой степени модель должна соответствовать этим допущениям, можно понять из

анализа остаточных членов, который рассматривается в разделе, посвященном множественной

регрессии [13].

МНОЖЕСТВЕННАЯ РЕГРЕССИЯ

Множественная регрессия (multiple regression) включает одну зависимую переменную и две

или больше независимых.

Множественная регрессия (multiple regression)

Статистический метод, с помощью которого можно вывести математическую зависимость

между двумя или больше независимыми переменными и зависимой переменной, выра-

женной с помощью интервальной или относительной шкалы.

Вопросы, аналогичные тем, для ответа на которые маркетологи используют парную регрес-

сию, также можно решить с помощью множественной регрессии. Только в этом случае иссле-

дователи имеют дело с дополнительными независимыми переменными.

• Можно ли вариацию объема продаж объяснить с точки зрения расходов на рекламу, цен

и уровня каналов распределения?

• Может ли вариация доли рынка зависеть от количества торгового персонала, расходов на

рекламу и бюджета на продвижение товара?

• Определяется ли восприятие потребителей качества товара их восприятием цены,

имиджа торговой марки и характеристик товара?

С помощью множественной регрессии можно ответить на следующие дополнительные

вопросы.

• Какую долю вариации объема продаж можно объяснить расходами на рекламу, ценами

и уровнем каналов распределения?

• Чему равен вклад расходов на рекламу в объяснении вариации объема продаж при кон-

тролируемых переменных — уровнях цен и распределения?

• Какие объемы продаж можно ожидать, исходя из данных уровней расходов на рекламу,

цен или уровня распределения?

ПРИМЕР. Всемирные торговые марки — местная реклама

Европейцы хорошо относятся к товарам из других стран, но когда дело доходит до рекла-

мы, они предпочитают местную рекламу. Опрос, проведенный компанией Yankelovich and

Partners и ее филиалами, показывает, что в Европе самой любимой рекламой потребитель-

ских товаров является реклама местных торговых марок, несмотря даже на то, что сами по-

требители предпочитают покупать зарубежные фирменные товары. Респонденты во Фран-

ции, Германии и Великобритании назвали Coca-Cola в качестве наиболее часто покупаемо-

го безалкогольного напитка. Однако самой любимой коммерческой рекламой французы

назвали рекламу известной местной марки — воды Perrier. Аналогично, в Германии люби-

мой рекламой оказалась реклама немецкого безалкогольного пива Clausthaler. Однако в Ве-

ликобритании наиболее предпочитаемым безалкогольным напитком оказалась Coca-Cola, и

наиболее предпочитаемой рекламой также оказалась реклама Coca-Cola. В свете этих фактов

встал важный вопрос — способствует ли реклама товара его покупке? Увеличивает ли

реклама вероятность покупки товара или она просто поддерживает определенный уровень

признания товара? В этой ситуации можно построить регрессионную модель, в которой

1 зависимая переменная представляет собой вероятность покупки товара, а независимыми

переменными являются оценки отношения к товару и оценки рекламы. Чтобы оценить

I любой значимый вклад в вариацию покупки товара, следует построить отдельные модели с

Глава 17. Корреляция и регрессия 659

наличием и без наличия переменной — реклама, Чтобы выявить любой значимый вклад

обоих переменных— характеристик товара и рекламы, можно также выполнить отдельные

проверки с помощью /-критерия. Результаты укажут, в какой степени реклама влияет на

принятие решения о покупке товара [14].

Общая форма модели множественной регрессии (multiple regression model) имеет вид:

Г Модель множественной регрессии (multiple regression model)

Уравнение, используемое дли объяснения результатов множественного регрессионного ана-

лиза.

Модель оценивают следующим уравнением:

У = a+b,X,+b2X2+b3X3+...btXt

Как и раньше, коэффициент а представляет собой отрезок, отсекаемый на оси OY, но ко-

эффициенты Ь являются теперь частными коэффициентами регрессии. Здесь мы использу-

ем на основании метода наименьших квадратов критерий, который оценивает параметры та-

ким образом, чтобы минимизировать суммарную ошибку SSKai_. Этот процесс также макси-

мизирует корреляцию между фактическими значениями Y и предсказанными значениями

У. Все предпосылки, которые используются в парной регрессии, применимы и для множе-

ственной регрессии. Мы дадим определения нескольким статистикам, а затем опишем про-

цедуру выполнения множественного регрессионного анализа [15].

СТАТИСТИКИ, СВЯЗАННЫЕ СО МНОЖЕСТВЕННОЙ

РЕГРЕССИЕЙ

Большинство статистик и статистических терминов, описанных при рассмотрении парной

регрессии, также применимы и во множественной регрессии. Дополнительно используют сле-

дующие статистики.

Скорректированный коэффициент множественной детерминации R2. Коэффициент множест-

венной детерминации R2 корректируют с учетом числа независимых переменных и размера

выборки, чтобы снизить влияние зависимости коэффициента детерминации от количества пе-

ременных. После введения нескольких первых переменных дополнительные независимые пе-

ременные не так сильно влияют на коэффициент детерминации.

Коэффициент множественной детерминации R2. Тесноту связи между переменными при

множественной регрессии измеряют, возводя в квадрат коэффициент множественной

корреляции.

/'-критерий. Используется для проверки нулевой гипотезы о том, что коэффициент множе-

ственной детерминации в совокупности R'cot. равен нулю. Это эквивалентно проверке нулевой

гипотезы Нй: (Зд = fi, = fl2 =/?,... = /3t = 0. Статистика, лежащая в основе критерия для проверки

гипотезы, подчиняется /''-распределению с k и (п — k — 1) степенями свободы.

Частный F-критерий. Значимость частного коэффициента регрессии Д переменной Х-, мож-

но проверить, используя приростную /^статистику. Она основана на приращении в объясняе-

мой сумме квадратов, полученном добавлением независимой переменной Х{ в уравнение рег-

рессии после исключения всех других независимых переменных.

Частный коэффициент регрессии. Частный коэффициент регрессии А, обозначает изменение

в предсказанном значении Y при изменении X, на единицу, когда другие независимые пере-

менные от Х2 до Xk остаются неизменными.

660 Часть III. Сбор, подготовка и анализ данных

ВЫПОЛНЕНИЕ МНОЖЕСТВЕННОГО

РЕГРЕССИОННОГО АНАЛИЗА

Стадии, входящие в процедуру выполнения множественного регрессионного анализа, ана-

логичны рассмотренным для двумерного регрессионного анализа. При обсуждении мы обра-

тим особое внимание на частные коэффициенты регрессии, тесноту связи, проверку значимо-

сти и анализ остаточных членов.

Частные коэффициенты регрессии

Чтобы понять значение частного коэффициента регрессии, расмотрим случай с двумя неза-

висимыми переменными:

Y = а+Ь,Х2+Ь2Х2

Во-первых, отметим, что величина частного коэффициента регрессии независимой пере-

менной, в основном, отличается от коэффициента двумерной регрессии той же переменной.

Другими словами, частный коэффициент регрессии Ь, отличается от коэффициента регрессии

Ь, полученного при установлении зависимости Утолько от переменной X,. Это происходит по-

тому, что X, и Х2 обычно взаимосвязаны. В парной регрессии Х2 не принимают во внимание, и

любое изменение вариации в Y, за которую совместно отвечают X, и Х2, относят на счет X,. Од-

нако в случае нескольких независимых переменных это несправедливо.

Интерпретация частного коэффициента регрессии Ь, заключается в том, что он представляет

ожидаемое изменение величины У, когда А^ изменяется на единицу, а,^ остается постоянной, т.е.

управляемой (контролируемой) переменной. В отличие от этого, Ь2 представляет ожидаемое изме-

нение Упри изменении Хг на единицу, когда X, остается постоянной. Поэтому названия Ь,нЬ2 —

частные коэффициенты регрессии, соответствуют действительности. Кроме того, результаты со-

вместного влиняия X, и Х2 на У суммируются. Иначе говоря, если каждую из переменных X, и Х2

изменить на единицу, то ожидаемое изменение значения Убудет равно (Ь, + 6,).

Логически, зависимость между коэффициентом парной регрессии и частным коэффициен-

том регрессии можно проиллюстрировать следующим образом. Предположим, что мы исключили

эффект от влияния Х2изХ,. Это можно сделать, установив регрессию X, по X? Иначе говоря, мож-

но воспользоваться уравнением Х{ = а + ЬХ2 и вычислить остаточный член Хг = (X,Х1). Тогда

частный коэффициент регрессии Ь, станет равным коэффициенту парной регрессии Ь, полу-

ченному из уравнения Y = а + ЬХГ. Таким образом, частный коэффициент регрессии Ь, равен

коэффициенту парной регрессии Ь между переменной Уи остаточным значением переменной

Х„ не учитывая эффекта от влияния переменной X,. Частный коэффициент регрессии Ь2 ин-

терпретируем аналогично.

Распространение этого примера на случай с k переменными не вызывает затруднений. Ча-

стный коэффициент регрессии Ь, представляет ожидаемое изменение У, когда X, изменяется на

единицу, а переменные от Х2 до Xk остаются неизменными. Это можно интерпретировать как

коэффициент парной регрессии А для регрессии переменной У от остаточных значений пере-

менной X, при исключенных эффектах переменных от Х2цоХ^.

"Бета"-коэффициенты являются частными коэффициентами регрессии, полученными по-

сле того, как перед оценкой уравнения регрессии, все переменные (У, Х}, Х2,... Xk,} нормирова-

ны с получением их среднего значения, равного нулю, и дисперсии, равной 1. Связь между

нормированным и ненормированным коэффициентами та же, что и рассмотренная ранее;

К - "I —

Глава 17. Корреляция и регрессия 661

Отрезок, отсекаемый на оси OY, и частный коэффициент регрессии определяют решением

системы уравнений, выведенной дифференцированием и приравниванием к нулю частных

производных. Поскольку эти коэффициенты можно вычислить с помощью разных компью-

терных программ, мы не будем вдаваться в детали. Однако стоит отметить, что уравнения

нельзя решить, если размер выборки л меньше или равен числу независимых переменных k;

или одна независимая переменная тесно связана с другой.

Предположим, что при объяснении зависимости отношения к городу от длительности

проживания в нем, мы сейчас введем вторую переменную— погодные условия. Данные, полу-

ченные от 12 респондентов и касающиеся отношения к городу, длительности проживания в

нем и погодных условий, приведены в табл. 17.1. Результаты множественного регрессионного

анализа даны в табл. 17.3. Значение частного коэффициента регрессии для переменной X,

(длительность проживания), равное 0,4811, теперь отличается от значения, полученного в ана-

лизе парной регрессии. Соответствующий "бета"-коэфициент равен 0,7636. Частный коэффи-

циент регрессии для переменной Х2 (погодные условия) равен 0,2887 с "бета"-коэффициентом,

равным, 0,3138.

Теоретическое уравнение регрессии имеет вид:

(Y) = 0,33732 + 0,48108 X, + 0,28865 Х2

или

отношение к городу = 0,33732 + 0,48108 (длительность проживания) + 0,28865 (погодные

условия)

Коэффициент множественной корреляции

Коэффициент детерминации Вг

Скорректированный R2

Стандартная ошибка уравнения регрессии

Дисперсионный анализ

Степени свободы

Регрессия 2

Остаток 9

F = 77,29364 Значимость F = 0,0000

Переменные в уравнении

Переменная b S£u

Погодные условия 0,28865 0,08608

Длительность 0,48108 0,05895

(Константа) 0,33732 0,56736

0,97210

0,94498

0,93276

0,65974

Сумма квадратов Средний квадрат

114,26425 57,13213

6,65241 0,73916

Бега, р Т Значимость Т

0,31382 3,353 0,0085

0,76363 8,160 0,0000

0,595 0,5668

Это уравнение можно использовать для разных целей, включая предсказание отношения к

городу при заданных длительности проживания в нем и отношения респондента к погодным

условиям региона.

662 Часть III. Сбор, подготовка и анализ данных

Теснота связи

Степень тесноты связи определим, используя соответствующие показатели связи между

переменными. Полную вариацию можно разложить (как и для парной регрессии) следую-

щим образом:

где

Тесноту связи измеряют, возводя в квадрат коэффициент множественной корреляции, по-

лучая коэффициент множественной детерминации R2

Коэффициент множественной корреляции R можно рассматривать как линейный коэф-

фициент корреляции г между Y и Y. Следует сделать несколько замечаний относительно

определения R*. Коэффициент множественной детерминации R2 не может быть меньше, чем

самое высокое значение г2 любой отдельной независимой переменной с зависимой перемен-

ной. Значение R2 больше, когда корреляция между независимыми переменными слабее. Ес-

ли независимые переменные статистически независимы (не коррелированы), то значение R2

представляет собой сумму коэффициентов парной детерминации каждой независимой пе-

ременной с зависимой переменной. Значение R2 не может уменьшаться при добавлении не-

зависимых переменных в уравнение регрессии. Однако снижение влияния зависимости ко-

эффициента детерминации от количества переменных устанавливается таким образом, что

после введения нескольких первых переменных дополнительные независимые переменные

не вносят такой большой вклад в значение коэффициента детерминации [16]. Поэтому R2

корректируют с учетом числа независимых переменных и размера выборки, используя сле-

дующую формулу:

*(!-**)

Скорректированный R = R -- s - -

n-k-l

Для данных регрессии, приведенных в табл. 17.3, значение R2 равно

"4.2643

(114,2643 + 6,6524)

Это значение выше, чем значение г1, равное 0,8762, полученное для парной регрессии. Зна-

чение г2 парной регрессии представляет собой квадрат простого коэффициента корреляции ме-

жду отношением к городу и длительностью проживания в нем. Значение R2, полученное в

множественной регрессии, также выше, чем квадрат простого коэффициента корреляции меж-

ду отношением к городу и отношением к погодным условиям (которое определено как 0,5379),

Скорректированный коэффициент детерминации Допределен следующим образом:

0,9450-2(1,0-0,9450)

Скорректированный R~ = - * - - = 0,932

12-2-1

Обратите внимание, что значение скорректированного коэффициента детерминации R2

близко к значению обычного коэффициента детерминации R2\\ их значение больше, чем у ко-

эффициента детерминации г для парной регрессии. Это означает, что добавление второй неза-

Глава 17. Корреляция и регрессия 663

висимой переменной — погодные условия, вносит определенный вклад в вариацию перемен-

ной — отношение к городу.

Проверка значимости

Проверка значимости включает проверку значимости общего уравнения регрессии и кон-

кретных частных коэффициентов регрессии. Нулевая гипотеза для проверки общего уравнения

гласит, что коэффициент множественной детерминации для генеральной совокупности

Л' '„„шут равен нулю:

Это эквивалентно следующей нулевой гипотезе

Общую проверку можно выполнить, используя F-

9? /t J.J _ / Л р = Е£ =

R2lk

~ (\~R2]/(n~k-\Y

которая имеет /-распределение с k и (п — k — 1) степенями свободы [17]. Результаты проверки

даны в табл. 17.3

f = 114.2643/2

6,6524/9

которая является значимой при а = 0,05.

Если общую нулевую гипотезу отклоняют, то один или несколько частных коэффициентов

регрессии в совокупности имеют значение, отличное от нуля. Чтобы определить, какие из кон-

кретных коэффициентов Д отличны от нуля, выполним дополнительные проверки. Проверку

значимости Д выполним тем же способом, что и в случае парной регрессии, т.е. используя t-

статистику. Значимость частного коэффициента для переменной — погодные условия — мож-

но выполнить с помощью уравнения

,= * = 0.2887 =эз;з

SE,, 0,08608

которое подчиняется /-распределению с (п — k — 1) степенями свободы. Этот коэффициент ста-

тистически значим при уровне значимости а = 0,05. Значимость коэффициента для перемен-

ной — длительность проживания, проверяют аналогичным образом и находят, что он стати-

стически значимый. Следовательно, обе переменные: погодные условия и длительность про-




Поделиться с друзьями:


Дата добавления: 2015-05-09; Просмотров: 334; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.012 сек.