Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Регрессионный анализ




Упражнения

Число ясных дней Количество посетителей музея Количество посетителей парка

     
     
     
     
     
     

Необходимо определить, существует ли взаимосвязь между состоянием погоды и посещаемостью музеев и парков.

Решение. Для выполнения корреляционного анализа введите в диапазон А1:С3исходные данные (рис. 1.21).

Затем в меню Сервис выберите пункт Анализ данных и далее укажите строку Корреляция. В появившемся диалоговом окне укажите Входной интервал В1:G3. Укажите, что данные рассматриваются по строкам.Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите А4 (рис. 1.20). Нажмите кнопку ОК.


 


  A B C D E F G
  Ясные дни            
  Посещаемость музея            
  Посещаемость парка            

Рис. 1.21. Исходные данные из примера 1.14

  Строка 1 Строка 2 Строка 3
Строка 1      
Строка 2 -0,921    
Строка 3 0,974 -0,919  
       

Рис. 1.22. Результаты вычисления корреляционной матрицы из примера 1.14

Результаты анализа. В выходном диапазоне получаем корреляционную матрицу (рис. 1.22).

Интерпретация результатов. Из таблицы видно, что корреляция между со­стоянием погоды и посещаемостью музея равна -0,92, а между состоянием по­годы и посещаемостью парка −0,97, между посещаемостью парка и музея − r=-0,92.

Таким образом, в результате анализа выявлены зависимости: сильная степень об­ратной линейной взаимосвязи между посещаемостью музея и количеством сол­нечных дней (r =-0,92) и практически линейная (очень сильная прямая) связь между посещаемостью парка и состоянием погоды (r = 0,97). Между посещаемостью музея и парка имеется сильная обратная взаимосвязь (r= -0,92).

Подразумевается, что в пустых клетках в правой верхней половине таблицы нахо­дятся те же коэффициенты корреляции, что и в нижней левой (симметрично рас­положенные относительно диагонали).

20. Определите, имеется ли взаимосвязь между рождаемостью и смертностью (ко­личество на 1000 человек) в Санкт-Петербурге:

 

 

Годы Рождаемость Смертность
  9,3 12,5
  7,4 13,5
  6,6 17,4
  7,1 17,2
  7,0 15,9
  6,6 14,2

21. Определите, имеется ли взаимосвязь между годовым уровнем инфляции (%), ставкой рефинансирования (%) и курсом доллара (руб./$), по следующим дан­ным ежегодных наблюдений:

Уровень инфляции Ставка рефинансирования Курс $

84 85 6,3

45 55 14

56 65 20

34 40 28

23 28 29

При исследовании взаимосвязей между выборками помимо корреляции различают также и регрессию. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных. Соответственно, наряду с корреляционным анализом еще одним инструментом -изучения стохастических зависимостей является регрессионный анализ.

Регрессионный анализ устанавливает формы зависимости между случайной величиной Y (зависимой) и значениями одной или нескольких переменных величин (независимых), причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров. В ходе регрессионного анализа на основании выборочных данных находят оценки этих параметров, определяются статистические ошибки оценок или границы доверитель интервалов и проверяется соответствие (адекватность) принятой математической модели экспериментальным данным.

В линейном регрессионном анализе связь между случайными величинами предполагается линейной. В самом простом случае в линейной регрессионной модели имеются две переменные X и Y. И требуется по п парам наблюдений (X1,Y1), 2, Y2),…,(Хn Yn) построить (подобрать) прямую линию, называемую линией регрессии, которая «наилучшим образом» приближает наблюдаемые значения. Yравнение этой линии Y = аХ + b является регрессионным уравнением. С помощью_ регрессионного уравнения можно предсказать ожидаемое значение зависимости личины Y0, соответствующее заданному значению независимой переменной Х0.

Таким образом, можно сказать, что линейный регрессионный анализ заключало в подборе графика и его уравнения для набора наблюдений. В регрессионном анализе все признаки (переменные), входящие в уравнение, должны иметь непрерывную, а не дискретную природу.

В случае, когда рассматривается зависимость между одной зависимой переменной

Y и несколькими независимыми Хи Х2,..., Хn, говорят о множественной линейной

регрессии. В этом случае регрессионное уравнение имеет вид

Y = а0 + a1 X1 + а2Х2 +... + апХn

где а1, а2,..., аn − требующие определения коэффициенты при независимых переменных Х1, Х2,...,Хп а0 − константа.Мерой эффективности регрессионной модели является коэффициент детермина­ции R2 (R-квадрат). Коэффициент детерминации (R-квадрат) определяет, с какой степенью точности полученное регрессионное уравнение описывает (аппроксими­рует) исходные данные.

Исследуется также значимость регрессионной модели с помощью F-критерия (Фи­шера). Если величина F-критерия значима (р < 0,05), то регрессионная модель яв­ляется значимой.

Достоверность отличия коэффициентов a0, а1, а2, аn от нуля проверяется с по­мощью критерия Стьюдента. В случаях, когда р > 0,05, коэффициент может считаться нулевым, а это означает, что влияние соответствующей независимой пере­менной на зависимую переменную недостоверно, и эта независимая переменная может быть исключена из уравнения.

В MS «MS Excel» экспериментальные данные аппроксимируются линейным уравнени­ем до 16 порядка: У= а0 + a1X1 + а2Х2 +... + аnХn,

где Y− зависимая переменная, X1,...,Хn − независимые переменные, а0, а1,..., аn − искомые коэффициенты регрессии.

Для получения коэффициентов регрессии используется процедура Регрессия из пакета анализа. Кроме того, могут быть использованы функция Л ИНЕЙН для полу­чения параметров регрессионного уравнения и функция ТЕНДЕНЦИЯ для получе­ния предсказанных значений Y в требуемых точках (см. раздел «Несколько неза­висимых переменных» главы 3).

Для реализации процедуры Регрессия необходимо:

О выполнить команду «Сервис» → «Анализ данных»;

О в появившемся диалоговом окне Анализ данных в списке Инструменты анализа выбрать строку Регрессия, указав курсором мыши и щелкнув левой кнопкой мыши. Затем нажать кнопку 0К;

О в появившемся диалоговом окне задать Входной интервал Y, то есть ввести ссыл­ку на диапазон анализируемых зависимых данных, содержащий один столбец данных. Для этого следует навести указатель мыши на верхнюю ячейку столб­ца зависимых данных, нажать левую кнопку мыши и, не отпуская ее, протянуть указатель мыши к нижней ячейке, содержащей анализируемые данные, затем отпустить левую кнопку мыши;

О указать Входной интервал X, то есть ввести ссылку на диапазон независимых данных, содержащий до 16 столбцов анализируемых данных. Для этого следует навести указатель мыши на поле ввода Входной интервал X и щелкнуть левой кнопкой мыши, затем навести указатель мыши на верхнюю левую ячейку диа­пазона независимых данных, нажать левую кнопку мыши и, не отпуская ее, протянуть указатель мыши к нижней правой ячейке, содержащей анализируе­мые данные, затем отпустить левую кнопку мыши;

О указать выходной диапазон, то есть ввести ссылку на ячейки, в которые будут выведены результаты анализа. Для этого следует поставить переключатель в положение Выходной интервал (навести указатель мыши и щелкнуть левой кнопкой), далее навести указатель мыши на правое поле ввода Выходной интервал и щелкнуть левой кнопкой мыши, затем указатель мыши навести на левую верх­нюю ячейку выходного диапазона и щелкнуть левой кнопкой мыши (рис. 1.23). Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные;

 

 

 


 

 


Рис. 1.23. Пример заполнения диалогового окна Регрессия

О если необходимо визуально проверить отличие экспериментальных точек от предсказанных по регрессионной модели, следует установить флажок в поле График подбора;

О нажать кнопку ОК.

Результаты анализа. Выходной диапазон будет включать в себя результаты дис­персионного анализа, коэффициенты регрессии, стандартную погрешность вычис­ления Y, среднеквадратичные отклонения, число наблюдений, стандартные погреш­ности для коэффициентов.

Интерпретация результатов. Значения коэффициентов регрессии находятся в столбце Коэффициенты и соответствуют:

О Y-пересечение − a0

О переменная X1а1

О переменная Х2а2 и т. д.

В столбце Р-Значение приводится достоверность отличия соответствующих коэффициентов от нуля. В случаях, когда Р > 0,05, коэффициент может считаться ну­левым, что означает, что соответствующая независимая переменная практически не влияет на зависимую переменную.

Приводимое значение R-квадрат (коэффициент детерминации) определяет, с ка­кой степенью точности полученное регрессионное уравнение аппроксимирует исходные данные. Если R-квадрат > 0,95, говорят о высокой точности аппроксимации (модель хорошо описывает явление). Если R-квадрат лежит в диапазоне от 0,8 до 0,95, говорят об удовлетворительной аппроксимации (модель в целом адекват­на описываемому явлению). Если R-квадрат < 0,6, принято считать, что точность аппроксимации недостаточна и модель требует улучшения (введения новых неза­висимых переменных, учета нелинейностей и т. д.).

Пример 1.15. В отделе снабжения гостиницы имеется информация об изменении стоимости стирального порошка за длительный период времени. Сопоставляя его с изменениями курса доллара за этот же период времени, можно построить рег­рессионное уравнение. Ниже приведены стоимость пачки стирального порошка (в руб.) и соответствующий курс доллара (руб./USD).

N Порошок Курс

 

    6,3
     
     
     
     
     
     
    29,3

Необходимо на основании этих данных построить регрессионное уравнение, по­зволяющее по курсу доллара определять предполагаемую стоимость пачки сти­рального порошка.

Решение

1. Введите данные в рабочую таблицу: стоимость пачки порошка − в диапазон А1:А8; курс доллара в диапазон В1:В8 (заметим, что знаку запятой, отделяющей целую часть от дробной, соответствует «запятая»).

2. В пункте меню Сервис выберите строку Анализ данных и далее укажите курсо­ром мыши на строку Регрессия.

3. В появившемся диалоговом окне (рис. 1.23) задайте Входной интервал Y. Для этого наведите указатель мыши на верхнюю ячейку столбца зависимых данных (А1), нажмите левую кнопку мыши и, не отпуская ее, протяните указатель мыши к нижней ячейке (А8), затем отпустите левую кнопку мыши. (Обратите внима­ние, что зависимые данные − это те данные, которые предполагается вычис­лять.)

4. Так же укажите Входной интервал X, то есть введите ссылку на диапазон неза­висимых данных В1:В8. (Независимые данные − это те данные, которые будут измеряться или наблюдаться.)

5. Установите флажок в поле График подбора.

6. Далее укажите выходной диапазон. Для этого поставьте переключатель в поло­жение Выходной интервал (наведите указатель мыши и щелкните левой кноп­кой), затем наведите указатель мыши на правое поле ввода Выходной интервал и, щелкнув левой кнопкой мыши, указатель мыши наведите, на левую верхнюю ячейку выходного диапазона (С1). Щелкните левой кнопкой мыши (рис. 1.1) Нажмите кнопку ОК.

Результаты анализа. В выходном диапазоне появятся следующие результаты и (рис. 1.24).

 

 

Регрессионная статистика
Множественный R 0,996
R-квадрат 0,992
Нормированный R-квадрат 0,990
Стандартная ошибка 0,651
Наблюдения 8,000

 

  df SS MS F Значимость F
Регрессия 1,000 317,33 317,33 748,5832 1,575E-07
Остаток 6,000 2,5434 0,4239    
Итого 7,000 319,875      

 

  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95%
Y-пересечение -0,8309 0,5763 -1,4417 0,1994 -2,2411
Переменная X 1 0,8466 0,0309 27,3602 1,58Е-07 0,77089

 

  Верхние 95% Нижние 95,0% Верхние 95,0%
Y-пересечение 0,5793 -2,2411 0,5793
Переменная X 1 0,9223 0,7708 0,9223

 

Рис. 1.24. Результаты анализа и график соответствия экспериментальных точек и предсказанных по регрессионной модели из примера 1.15

Интерпретация результатов. В таблице Дисперсионный анализ оценивается общее качество полученной модели: ее достоверность по уровню значимости критерияФишера − р, который должен быть меньше, чем 0,05 (строка Регрессия, столба Значимость F, в примере – 1,575Е-07 (0,0000001575), то есть р = 0,0000001575 и модель значима) и степень точности описания моделью процесса − R- квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере R -квадрат = 0,992) Поскольку R -квадрат > 0,95, можно говорить о высокой точности аппроксимации (модель хорошо описывает явление (рис. 1.24)).

Далее необходимо определить значения коэффициентов модели. Они определяются из таблицы в столбце Коэффициенты − в строке Y-пересечение приводится свободный член; в строках соответствующих переменных приводятся значения коэффициентов при этих переменных. В столбце р-значение приводится достоверность отличия соответствующих коэффициентов от нуля. В случаях, когда р > 0,05, ко­эффициент может считаться нулевым. Это означает, что соответствующая незави­симая переменная практически не влияет на зависимую переменную и коэффици­ент может быть убран из уравнения.

Отсюда выражение для определения стоимости пачки порошка в рублях будет иметь следующий вид: -0,83 + 0,847*(Курс доллара, руб./USD).

Полученная модель с высокой точностью позволяет определять стоимость пачки стирального порошка (R2 = 99,2%).

Воспользовавшись полученным уравнением, можно рассчитать ожидаемую сто­имость пачки стирального порошка при изменениях курса доллара. Например, для расчета при курсе доллара 35 руб./USD необходимо поставить табличный курсор в любую свободную ячейку (А10); ввести с клавиатуры знак =, щелкнуть указате­лем мыши по ячейке D17, ввести с клавиатуры знак +, щелкнуть по ячейке D18, ввести с клавиатуры знак * и число 35. В результате в ячейке А10 будет получена ожидаемая стоимость пачки порошка − 28,8 руб.

Пример 1.16. Построить регрессионную модель для предсказания изменений уров­ня заболеваемости органов дыхания (Y) в зависимости от содержания в воздухе двуокиси углерода (X 1,) и степени запыленности 2). В таблице приведены дан­ные наблюдений в течение 29 месяцев.

 

X1 Х2 Y
1,0 1,3  
1,0 1,3  
1,1 1,4  
1,1 1,4  
1,1 1,5  
1,1 1,5  
1,0 1,4  
1,0 1,5  
1,2 1,6  
1,2 1,7  
0,6 1,0  
0,6 1,0  
0,7 1,1  
0,7 1,15  
0,75 1,2  
0,7 1,2  
0,7 1,3  
0,7 1,3  
0,8 1,4  
0,8 1,4  
0,78 1,5  
0,80 1,5  
0,78 1,5  
0,78 1,6  
0,80 1,7  
0,80 1,8  
0,75 1,8  
0,78 1,9  
0,75 1,9  



Поделиться с друзьями:


Дата добавления: 2015-06-29; Просмотров: 1516; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.031 сек.