Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Тема. Парна лінійна регресія




Лекція 2-3.

1. Види зв’язків між величинами. Рівняння регресії.

2. Кореляційна та регресійна залежність.

3. Метод найменших квадратів (МНК) для парної регресії.

4. Оцінка дисперсії збурень.

5. Коефіцієнт кореляції та детермінації.

6. Поняття про ступені вільності. Перевірка моделі на адекватність за критерієм Фішера.

7.Прогнозування.

1. Розрізняють функціональний та стохастичний зв’язки між залежними змінними.

Функціональний зв'язок передбачає, що кожному значенню незалежної (однієї або декількох) змінної X відповідає єдине значення залежної змінної Y. Функціональна форма зв'язку зазвичай виражається формулою і здебільшого використовується у природничих науках.

Стохастичний зв’язок виявляється як узгоджена зміна двох чи більше ознак. С тохастичний (імовірнісний) зв’язок полягає в тому, що одна випадкова величина реагує на зміну іншої випадкової величини шляхом зміни свого закону розподілу.

Поняття стохастичного зв’язку є узагальненням поняття функціонального зв’язку.

Частинним випадком стохастичного зв’язку є статистичний зв'язок. Він характеризується тим, що результативна ознака не повністю визначається факторними ознаками. Цей уплив визначається тільки в загальному, в середньому, проте в окремих випадках можуть бути отримані результати, які навіть суперечать установленому зв’язкові.

Наприклад, продуктивність праці тим вища, що більший стаж працівника. Але нема підстав уважати, що тут існує взаємно однозначна відповідність, тобто малоймовірно, що різні працівники з однаковим стажем роботи покажуть однакову продуктивність праці. Розбіжності в показниках рівня продуктивності праці можна пояснити тим, що продуктивність праці визначається не тільки стажем роботи, але й іншими факторами, які не взято до уваги, такими, наприклад, як якість обладнання, освіта, вік тощо. Отже, різні працівники з однаковим стажем X працюють з різними продуктивностями Y. Але середня продуктивність праці, здобута на основі великої кількості спостережень, загалом зростатиме зі збільшенням стажу роботи працівника. Це є приклад статистичного звязку між величинами.

2. Статистичні зв’язки поділяються на кореляційні та регресійні. Цей поділ ґрунтується на тому, що фактор X може мати різний характер – бути випадковим або невипадковим (детермінованим).

Залежність між однією випадковою величиною і умовним середнім значенням іншої випадкової величини називають кореляційною залежністю. Отже, в цьому випадку обидва взаємопов’язані явища описуються випадковими величинами.

Рівняння, яке описує кореляційну залежність, називають рівнянням регресії.

На практиці дуже поширені ситуації, коли змінну X можна вважати не стохастичною, контрольованою дослідником. При цьому кожному невипадковому значенню X відповідає деякий генеральний розподіл величини Y. Спостережувані значення змінної Y розглядають як вибіркові значення з цього розподілу. Зв'язок між величинами в цьому випадку називають регресійним.

Регресійні зв’язки виражають залежність між випадковими і невипадковими величинами.

Кореляційне поле – це діаграма, на якій зображено сукупність значень двох ознак. Цю діаграму також називають діаграмою розсіювання.

Кореляцію двох змінних називають парною, а кореляцію більше ніж двох змінних – множинною.

Якщо із збільшенням змінної X змінна Y у середньому також збільшиться, то кажуть, що між змінними існує додатний зв'язок (додатна кореляція), а якщо зі збільшенням X змінна Y у середньому зменшується, то маємо від’ємний зв'язок (від’ємну кореляція).

Якщо зв'язок між X та Y відсутній, то маємо нульову кореляцію.

Зв'язок між залежною й незалежною змінними найчастіше зображають у вигляді рівняння регресії. Такі моделі, з одного боку, дають змогу зясувати інтенсивність упливу фактора на залежну змінну. З другого боку – і це головне, - ті моделі застосовують у прогностичних дослідженнях.

У випадку парної регресії наочною формою подання інформації отриманої в результаті обстеження вибірки з генеральної сукупності, є діаграма розсіювання – сукупність точок (xi,,yi), зображених на площині. Ці вибіркові дані, а також теоретичні знання про взаємозв’язки між економічними показниками, є важливими джерелами аналізу, на основі яких можна робити припущення щодо форми залежності між X та Y.

Припустимо, що діаграма розсіювання має вигляд:

 
 

 

 


Тоді природно припустити (висловити гіпотезу), що змінні X та Y у генеральній сукупності пов’язані лінійною залежністю, яку можна подати у вигляді:

Y=а01 X+ (1)

Де X та Y – спостережувані дані, а0, а1 – невідомі параметри (коефіцієнти) регресії, - випадкові величини (збурення), яка описує відхилення від істинної регресії.

Величини описує вплив невідомих та неврахованих факторів вимірювань, а також уплив відомих факторів, що не піддаються вимірюванням (надмірна схильність до заощадження чи витрачання грошей, уподобання тощо). Слід пам’ятати що - не спостережувана величина.

Для окремого спостереження, і -го за номером, рівняння (1) набуває вигляду

. (2)

Збурення називають також помилками або регресійними залишками.

Для того, щоб модель (1) можна було використати на практиці, потрібно мати значення параметрів а0, а1. Однак істинні їхні значення не можна дістати, оскільки для їх пошуку ми маємо вибіркові дані. Тому здобуті значення параметрів будуть статистичними оцінками істинних (але невідомих) параметрів.

Означення. Оцінка (статистична) – це наближене значення шуканої величини, отримане на основі вибіркового спостереження, яке забезпечує можливість прийняття обґрунтованих рішень про невідомі параметри генеральної сукупності.

Нехай шуканий параметр генеральної сукупності - В. На вибіркової сукупності знаходимо значення вибіркової характеристики В.

Припустимо, що за вибіркою об’єму n знайдена оцінка В1.

Повторимо дослід, тобто з генеральної сукупності виберемо ще одну вибірку також об’єму і за її даними знайдемо оцінку В2.

Повторюючи дослід багато раз, отримаємо числа В1, В2,…, Вk., які в загальному відрізняються між собою.

Таким чином оцінку В можна розглядати як випадкову величину а числа В1, В2,…, Вk, як її можливі значення.

Означення. Статистична оцінка В параметра В називається незміщеною, якщо М(В)= В. У протилежному випадку оцінку називають зміщеною.

Означення. Ефективною називають ту з незміщених оцінок, яка має найменшу дисперсію, тобто ефективна оцінка – це найкраща з поміж незміщених оцінок.

Означення. Обгрунтованою називають статистичну оцінку, яка при n→∞ прямує по імовірності до значення параметра, який оцінюється.

Обгрунтована оцінка означає, що чим більша чисельність вибірки тим більша ймовірність, що помилка оцінки не перевищить скільки завгодно малої величини.

Розрізняють точкове та інтервальне оцінювання.

В результаті перевірки гіпотези, може бути прийняте неправильне рішення, тобто можуть бути допущені помилки. Помилки бувають 1-го та 2-го роду.

Помилка 1-го роду полягає в тому, що буде відкинута правильна гіпотеза.

Помилка 2-го роду полягає в тому, що буде прийнята неправильна гіпотеза. Ймовірність зробити помилку 1-го роду прийнято позначати α .

3. Класичний підхід до оцінювання параметрів а0, а1 моделі базується на звичайному методі найменших квадратів (МНК). Суть методу найменших квадратів полягає в мінімізації суми квадратів відхилень фактичних (спостережених) значень пояснюваної (залежної) змінної від розрахованих (за моделлю) значень цієї змінної.

Розглянемо приклад простої економетричної моделі, де потрібно кількісно оцінити зв'язок між витратами на споживання та доходами сімї. Спочатку потрібно сформувати сукупність спостережень, яка характеризується витратами на споживання і доходами сімей.

Відкладемо кожну пару спостережень у системі координат, де величина витрат на споживання відкладається на осі ординат, а доходів – на осі абсцис. У результаті отримаємо кореляційне поле точок.

 

 
 

 

 


На підставі гіпотези про лінійність звязку між витратами і доходами сімей через кореляційне поле точок можна провести безліч прямих ліній, які різняться між собою параметрами а0, а1.

Різницю між фактичним значенням yi результативної ознаки і її розрахунковим значенням yi називають відхиленням:

. (3)

Введемо функцію – суму квадратів відхилень

, (4)

де n – число спостережень.

Найкращою вирівняною прямою буде така пряма, яка мінімізує суму квадратів відхилень. Ця умова запишеться так

(5)

З необхідної умови екстремуму функції - рівності нулеві перших частинних похідних – отримуємо систему рівнянь

(6)

Звідки (7)

 

Розвяжемо цю систему за правилом Крамера. Маємо

,

.

Звідки

=()/ (8)

=/. (9)

Отримані оцінки коефіцієнтів регресії можна записати в компактнішій формі, поділивши чисельник і знаменник рівності (9) на n2, маємо

=/

=, де рискою над змінною позначено її середнє значення. Поділивши перше рівняння системи (7) на n отримаємо

+= або +. (10)

Звідки знаходимо оцінку другого параметра =.

Таким чином, ми знайшли формули для визначення невідомих параметрів ,, і можемо записати рівняння регресії (економетричну модель):

. (11)

4. Дисперсію не можна визначити, тому що саму величину не можна спостерігати. Оцінками реалізацій випадкових величин є відхилення . Тому природно оцінку невідомої дисперсії подати у термінах спостережуваних помилок . Зрозуміло, що цю оцінку слід будувати на основі суми квадратів відхилень .Спочатку розглянемо таку найпростішу оцінку дисперсії :

Виявляється, що є зміщеною оцінкою , тобто М ().

Справді, маємо:

 

 

5. Після того, як модель побудовано, її потрібно всебічно і ретельно проаналізувати, перевірити на адекватність реальній дійсності. Тобто, чи справді змінна Y лінійно залежить від зміни X, а не відбувається під впливом випадкових факторів. Характеристикою, що показує, якою мірою фактор X визначає показник Y, є коефіцієнт детермінації. Спочатку розглянемо питання про декомпозицію (розбиття на частини) дисперсії результативної ознаки Y.

 
 

 


Розглянемо декомпозицію відхилень фактичних значень від теоретичних . Як зрозуміло з рисунка такі відхилення можна записати у вигляді:

(12)

=+ (13)

Різницю називають загальним відхиленням.

Різницю називають і відхиленням, яке можна пояснити на основі регресії, оскільки цю величину для заданого xi можна знайти маючи тільки регресійну пряму.

Різницю е= називають не пояснюваним відхиленням, оскільки його не можна пояснити, виходячи з регресійної прямої.

Піднесемо обидві частини рівності (13) до квадрата і проведемо підсумовування за всіма значеннями змінної:

=+2+(14)

Неважко показати, що середній доданок дорівнює нулеві. Справді

==

=+=0

Оскільки суми, що фігурують, - це ліві частини нормальної системи. Отже

=+ (15)

Або в позначеннях, які прийняті в економетриці

TSS= ESS + RSS (16)

Загальна сума квадратів TSS = (total sum of squares).

Сума квадратів помилок ESS =(error sum of squares).

Сума квадратів, що пояснює регресію RSS =(regression sum of squares).

Поділивши обидві частини рівності (16) на TSS отримаємо




Поделиться с друзьями:


Дата добавления: 2014-01-11; Просмотров: 2342; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.049 сек.