Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Линейная и нелинейная регрессия

Парный регрессионный анализ

Регрессионный анализ является одним из основных методов в эконометрике. Его суть заключается в выявлении зависимости между различными явлениями и показателями. Обычно такие зависимости являются статистическими. Их особенность заключается в том, что закономерность событий и явлений проявляется лишь в массе наблюдений. Кроме того статистические связи помимо основной математической составляющей учитывают и случайную составляющую, которая оказывает значительное влияние на уровень явления или показателя. Статистические связи заключаются в том, что при изменении значения факторного признака меняется распределение результативного признака, т.е. разным значениям переменной х соответствуют разные распределения переменной у (у – результативный признак, х – факторный).

Корреляционный и регрессионный анализы являются статистическими методами, подробно изучаемыми в эконометрике. Корреляционная связь – частный случай статистической связи, при котором разным значениям переменной х соответствуют разные средние значения переменной у. Корреляционную связь можно определять как между количественными, так и между качественными показателями. Изучение связи между количественными показателями называется регрессионным анализом. Если изучается связь между двумя переменными, одну из которых можно рассматривать как х, а другую как у, то такой анализ называют парным регрессионным. В ходе проведения регрессионного анализа подбирают математическую функцию y=f(x), которая наиболее лучшим образом соответствует исходным данным, т.е. обеспечивает наилучшую аппроксимацию поля корреляции. Поле корреляции – график, изображающий зависимость между х и у. По его форме можно судить о том, какая математическая зависимость больше подходит к исходным данным.

Математическое описание зависимости средних изменений переменной у под влиянием переменной х называется уравнением парной регрессии. Чаще всего используется линейное уравнение парной регрессии (по математическому уравнению прямой линии yx=a0+a1x, где a0 – свободный член уравнения регрессии – как правило, отражает влияние случайных факторов, a1 – коэффициент регрессии, который показывает, на сколько единиц в среднем изменится переменная у при изменении переменной х на одну единицу). Считается, что сила воздействия х на у постоянна при любых значениях х. Знак при коэффициенте регрессии a1 соответствует направлению зависимости между у и х: если a1>0, то зависимость прямая, если a1<0, то зависимость обратная. Если в исходных данных имеется нулевое значение х, то показатель a0 будет отражать среднее значение у при х=0.

Если зависимость между х и у нелинейная, то используют следующие уравнения регрессии:

yx=a0+a1x+a2x2 парабола второго порядка;

yx=a0 - степенная функция;

yx= a0+ a1/x – гипербола и т.д.

Все нелинейные уравнения приводят к линейному виду (линеаризуют) путем замены переменных или логарифмирования.

Параметры линейного уравнения находят с помощью метода наименьших квадратов (МНК). Его суть заключается в обеспечении минимума между фактическим значением у и значением у, полученным по уравнению, т.е.

,

где yi – фактические значения у;

– значения, рассчитанные по уравнению.

Если вместо подставить его уравнение, то получится следующее условие МНК:

 

Т.е. должна быть обеспечена минимальность суммы квадратов отклонений фактических значений переменной у от ее теоретических значений, рассчитанных на основе уравнения регрессии.

Для определения параметров a0 и а1, при которых f(a0,a1) примет минимальное значение, приравняем к нулю первые производные (частные) от этой функции:

 

 

Для нахождения минимума эти производные необходимо приравнять к нулю, т.е. получим систему уравнений:

 

Разделив оба уравнения на 2 и умножив на n, получим преобразованную систему уравнений:

 

Разделив обе части системы на n, получим систему нормальных уравнений в виде:

 

Тогда можно выразить следующим образом:

 

А будет равно:

 

Коэффициент b1 называют выборочным коэффициентом регрессии у по х. b1 показывает, на сколько единиц в среднем изменяется переменная у при увеличении переменной х на единицу. также может быть найден по следующей формуле исходя из условия, что - выборочный корреляционный момент или ковариация, а - выборочная дисперсия переменной х. Тогда.

Графическое изображение линии регрессии пройдет через точку с координатами (), что следует из условия.

Пример. По данным таблицы найти уравнение регрессии y по х, определить коэффициент регрессии, сделать вывод.

В таблице 1 дана информация о производительности труда одного рабочего (в кг) и мощности оборудования (в кг) по данным, характеризующим процесс производства по десяти предприятиям.


 

Таблица 1

Расчетные данные для определения параметров математических функций

 

 

 

664/10=66,4; 908/10=90,8;

68/10=6,8; 94/10=9,4; ()2=9,42=88,36.

Подставим полученные значения в формулу для расчета b1:

b1= = = 1,016.

b0= = 6,8-1,016*9,4 = -2,75.

Уравнение регрессии примет вид:

-2,75+1,016 х.

Значение b1 показывает, что в среднем при увеличении мощности оборудования на 1 кг в единицу времени производительность увеличится на 1,016 кг.

При оценке корреляционной зависимости необходимо оценивать ее тесноту. Измерителем тесноты связи является выборочный коэффициент корреляции r. Он определяется как, где,.

r показывает, на сколько величин изменится в среднем у, когда х увеличится на одну величину.

Чем теснее зависимость, тем ближе расположены точки на поле корреляции к линии регрессии.

Коэффициент r может изменяться в пределах от -1 до 1, и его знак показывает направление связи. При отрицательном r связь обратная, при положительном – прямая. Чем ближе r по модулю к 1, тем теснее связь. Обычно используют следующую шкалу: при r=0 связь отсутствует, 0,1< r <0,3 – связь несущественная, 0,3< r <0,5 – связь слабая, 0,5< r <0,7 – связь средняя (умеренная), 0,7< r <1 – тесная связь. Причем при =1 говорят, что связь полностью соответствует функциональной зависимости и все точки лежат точно на линии регрессии.

Помимо указанной формулы r существуют еще 3 ее модификации:

;

;

.

Рассчитаем по данным нашего примера коэффициент корреляции между мощностью оборудования и производительностью рабочего. Рассчитаем значение r по формуле:

r=.

66,4; 6,8; 9,4.

1,56.

Определим. Для этого составим таблицу 2.

Таблица 2

Расчетные данные для определения параметров математических функций

 

 

=33,6/10 = 3,36.

r= = 0,47.

Таким образом, связь прямая, теснота связи слабая.

Следующим этапом анализа является проверка значимости полученного уравнения регрессии, которая заключается в установлении, соответствует ли математическая модель, выражающая зависимость между переменными х и у фактическим данным и достаточно ли включено в нее переменных для описания у.

Проверка значимости уравнения регрессии проводится на основе дисперсионного анализа, суть которого заключается в том, что всегда соблюдается правило сложения дисперсии, т.е. σ= +, где σ – общая дисперсия,, – дисперсия, обусловленная регрессией и остаточная дисперсия соответственно.

Схему дисперсионного анализа можно представить в таблице 3.

Таблица 3

Схема дисперсионного анализа

Компоненты дисперсии Сумма квадратов Число степеней свободы Средние квадраты
1. Регрессия   m-1  
2. Остаточная   n-m  
3. Общая   n-1  

Где - фактические значения у;

- значения у, рассчитанные по уравнению регрессии;

n – общее количество исходных данных;

m – количество переменных, включенных в модель.

Остаточная дисперсия показывает воздействие неучтенных случайных факторов и ошибок. Для оценки практической значимости рассчитывают F-критерий Фишера. Этот критерий показывает, насколько точно регрессия оценивает изменение у. Он определяется по следующим формулам:

1. В случае нелинейной зависимости:

Полученное значение F сравнивается с табличным при заданном уровне α и числе степеней свободы k1=m-1, k2=n-m.

2. В случае линейной зависимости:

Значимость уравнения парной линейной регрессии можно также провести через оценку коэффициента регрессии а1. Эта оценка проводится с помощью t-критерия Стьюдента:

 

Полученное значение t должно быть по модулю больше критического значения, определенного по таблице. Табличное значение определяется при уровне значимости 1-α и числе степеней свободы n-2.

Для парной линейной модели проверить значимость можно как с помощью F-критерия, так и с помощью t-критерия. Для них существует взаимоотношение: F=t2.

Часто требуется оценить значимость самого коэффициента корреляции r. При этом исходят из условия, что когда связь отсутствует, выполняется равенство:

 

Следовательно, если коэффициент r значимый, то t, определенный по данной формуле, должен быть больше t, найденного по таблице.

Определим для нашего примера все указанные критерии значимости.

Для начала определим показатели из таблицы дисперсионного анализа:

σ=(5-6,8)2+(10-6,8)2+(10-6,8)2+(7-6,8)2+(5-6,8)2+(6-6,8)2+(6-6,8)2+(5-6,8)2+(6-6,8)2+(8-6,8)2=33,6.

σе=.

Определим, т.е. теоретические значения у, рассчитанные по уравнению регрессии:

-2,75+1,016 х.

Подставляя вместо х его конкретные значения, получим:

=5,378; =8,426; =9,442; =6,394; =5,378; =5,378; =6,394; =6,394; =5,378; =9,442;

σе==(5-5,378)2+(10-8,426)2+(10-9,442)2+(7-6,394)2+(5-5,378)2+(6-5,378)2+(6-6,394)2+(5-6,394)2+(6-5,378)2+(8-9,442)2=8,39.

Согласно правилу сложений дисперсий:

σ =σе+ σR; σR= σ- σe=33,6-8,39=25,21.

Определим F-критерий Фишера:

F= =24,04.

Табличное F при уровне значимости α=0,05 и количестве степеней свободы k1=m-1=2-1=1 и k2=n-2=10-2=8:

Fтабл=5,32.

Так как F расчетное > F табличное, то полученное уравнение регрессии можно считать значимым.

Проверим значимость уравнения через t-критерий Стьюдента:

t =.

S2= =3,73, S=1,93.

t= =2,6.

Также сравним полученное t с табличным.

tтабл=2,3.

Так как t расчетное > t табличное, то уравнение регрессии можно считать значимым.

Также существует оценка адекватности регрессионной модели (мера качества уравнения регрессии). Она играет существенную роль, если по уравнению выполняется прогноз.

Выражением качества уравнения регрессии является коэффициент детерминации, который определяется по формуле:

R2= σR/ σ=1- σe/ σ.

Величина R2 показывает, какая доля вариации переменной у вызвана влиянием переменной х. Коэффициент R2 изменяется в пределах от 0 до 1. Чем ближе он к 1, тем выше качество регрессии.

В нашем случае: R2=25,21/33,6=0,75.

Таким образом, изменение производительности труда (у) на 75% обусловлено влиянием изменения мощности оборудования.

В случае парной линейной регрессии: R2=r2.

Корреляционная зависимость может выявляться не только между количественными переменными, но и между качественными. Единственным условием является, чтобы эти качественные переменные были ординальными (порядковыми). Для этого переменные ранжируют по степени выраженности измеряемого показателя, т.е. присваивают ранг от 1,… и определяют тесноту ранговой корреляции. Она определяется с помощью коэффициента ранговой корреляции Спирмена:

 

где, - ранги объекта i по переменным х и у;

n – число наблюдений.

изменяется в пределах от -1 до 1. Знак показывает направление связи. Если =1, то это свидетельствует о наличии полной связи между х и у.

Часто при ранжировании бывает так, что два и более объекта абсолютно равнозначны, тогда им присваивают средний ранг. Например:

n Значение х Ранг
А    
Б    
В    
Г    

(1+2+3)/3=2.

При проверке значимости коэффициента определяют t-критерий Стьюдента:

 

Если t расчетное > t табличное, то критерий Спирмена является значимым.

Пример. Имеются результаты тестирования 10 студентов по 2 дисциплинам А и Б. На основе полученных баллов были проставлены ранги. Вычислить коэффициент Спирмена и оценить его значимость при α=0,05.

Таблица 4

 

 

Проверим значимость:

 

Согласно таблицам при α=0,05 и k=n-2=8 tтабл=2,3. Так как t расчетное > t табличное, то коэффициент является значимым.

Само значение =0,763 свидетельствует о наличии между дисциплинами А и Б прямой достаточно тесной связи.

 

<== предыдущая лекция | следующая лекция ==>
Задатки и способности | Множественный регрессионный анализ
Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 10407; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.