Етапи кореляційно-регресійного аналізу

⇐ Предыдущая 37 38 39 404142 43 44 45 Следующая ⇒

На рис. 8.1 приведена технологічна схема послідовності етапів кореляційно-регресійного аналізу в умовах вживання Excel.

Нульовий етап - це збір даних. Як в будівництві нульовий цикл забезпечує фундамент майбутньої будівлі, так в кореляційно-регресійному аналізі вирішальну роль грає якість даних. Збір даних створює фундамент прогнозам. Тому є ряд вимог і правил, яких слід дотримуватись при зборі даних.

Рис. 8.1. Етапи кореляційно-регресійного аналізу

Дані мають бути спостережуваними, тобто отриманими в результаті виміру, а не розрахунку. Спостереження слід спланувати.

Скільки необхідно даних для здобуття кращого рівняння? На думку одних статистиків даних необхідно в 4-6 разів більше, ніж число чинників, вплив яких хочуть виразити математично, на думку інших - в 7-8 разів більше числа чинників. Є і інші думки у бік збільшення кількості даних: "число спостережень повинно бути не менше чим в 5 - 6, а краще - не менше чим в 10 разів більше числа чинників, тоді закон великих чисел, діючи в повну силу, забезпечує ефективне погашення випадкових відхилень від закономірного характеру зв'язку ознак" [24].

Чим більше неоднакових (що не повторюються) даних, і чим вони однорідні, тим краще вийде рівняння, якщо зв'язки істотні. Підозрілі дані можуть бути викликані помилками спостережень і експериментів. Наприклад, дані про розміри заробітку робітників заводу виражені тризначними числами, але виявлене одне п'ятизначне і одне однозначне числа - для спрощення аналізу до початку рішення такі дані рекомендується відкидати (виключати з масиву).

Після підготовки даних починається їх обробка.

Перший етап - кореляційний аналіз. Його мета - визначити характер зв'язку (пряма, зворотна) і силу зв'язку (зв'язок відсутній, зв'язок слабкий, помірний, помітний, сильний, вельми сильний, повний зв'язок). Кореляційний аналіз створює інформацію про характер і міру вираженості зв'язку (коефіцієнт кореляції), який використовується для відбору істотних чинників, а також для планування ефективної послідовності розрахунку параметрів регресійних рівнянь. При одному чиннику обчислюють коефіцієнт кореляції, а за наявності декількох чинників будують кореляційну матрицю, з якої з'ясовують два види зв'язків: (1) зв'язки залежної змінної з незалежними, (2) зв'язки між самими незалежними.

Розгляд матриці дозволяє, по-перше, виявити чинники, що дійсно впливають на досліджувану залежну змінну, і збудувати (ранжувати) їх за убуванням зв'язку; по-друге, мінімізувати число чинників в моделі, виключивши частину чинників, які сильно або функціонально пов'язані з іншими чинниками (йдеться про зв'язки незалежних змінних між собою).

Відомо, що найбільш надійними на практиці бувають одно- і двохфакторні моделі.

Якщо буде виявлено, що два чинники мають сильний або повний зв'язок між собою, то в регресійне рівняння досить буде включити один з них. Чому?

Приклад з економічної практики: у одне регресійне рівняння не можна одночасно включати змінні "Кількість працівників" і "Продуктивність праці" як незалежні (оскільки показник продуктивності праці отримують діленням вироблення працівників на їх кількість) - тут має місце повний зв'язок. Аналогічно будуть зв'язані також показники прибутку і витрат, оскільки прибуток обчислюють відніманням витрат з доходів. Виключення однієї з кожної пари названих змінних підвищить значущість рівняння в цілому; при цьому виключати слід показник, отриманий не спостереженням (виміром або рахунком), а обчисленням. Грамотні фахівці, що добре знають зв'язки показників, проблеми такого роду усувають ще на етапі збору і підготовки даних. Якщо ж дані зібрані безладно, без попереднього плану, модель виявляється обмеженою і практично мало надійною.

Другий етап - розрахунок параметрів і побудова регресійних моделей. Тут прагнуть відшукати найбільш точну міру виявленого зв'язку, для того, щоб можна було прогнозувати, передбачати значення залежної величини, якщо будуть відомі значення незалежних величин

Цей захід узагальнено виражають математичною моделлю лінійної множинної регресійної залежності:

Y=a₀+b₁X₁+b₂X₂+…+b_nXn.

ЕОМ обчислює параметри моделі: вільний член a₀ (константа, або пересічення) і коефіцієнти (коефіцієнти регресії). Величину b називають відгуком, а - чинниками або предикторами.

Здійснення другого етапу сильно залежить від висновків, які отримані при аналізі кореляційної матриці. Можна значно прискорити проведення регресійного аналізу і понизити витрати на дослідження, якщо прийняти правильну стратегію пошуку найкращого рівняння. Для цього необхідно знати основні і найбільш ефективні методи пошуку найкращого рівняння (розглядаються далі окремим пунктом).

Після здобуття кожного варіанту рівняння обов'язковою процедурою є оцінка його статистичної значущості, оскільки головна мета - отримати рівняння найвищої значущості, тому другий етап кореляційно-регресійного аналізу нерозривно пов'язаний з третім. Проте у зв'язку з тим, що розрахунки виконує ЕОМ, а рішення на основі оцінки значущості рівняння приймає дослідник (прийняти або відкинути рівняння), умовно можна виділити третій етап цієї людино-машинної технології як інтелектуальний немашинний етап, для якого майже всі дані за оцінкою значущості рівняння готує ЕОМ.

На третьому етапі з'ясовують статистичну значущість, тобто придатність постульованої моделі для використання її в цілях передбачення значень відгуку. При цьому програма вже розрахувала по моделі теоретичні значення для раніше спостережних значень залежної величини і обчислила відхилення теоретичних значень від спостережуваних значень. На основі цього програма побудувала також ряд графіків, в т.ч. графік підбірки (він ілюструє, наскільки добре підібрана лінія регресії до спостережних даних) і графік залишків. Дослідник повинен розглянути ці графіки. У залишках не повинно спостерігатися закономірності, тобто кореляції з якими-небудь значеннями (якщо вона є, то, в модель не включений якийсь чинник, що закономірно діє, але не відомий, прихований, про який немає даних). Для оцінки якості отриманої моделі програма обчислила також цілий ряд коефіцієнтів, які зобов'язаний розглянути дослідник, порівнюючи їх з відомими статистичними критеріями і оцінюючи модель з точки зору здорового глузду.

На цьому етапі виключно важливу роль відіграють коефіцієнт детермінації R² і F-критерій значущості регресії.

R Squared (R²) - коефіцієнт детермінації - це квадрат множинного коефіцієнта кореляції між спостережуваним значенням Y і його теоретичним значенням, обчисленим на основі моделі з певним набором чинників. Коефіцієнт детермінації вимірює дійсність моделі. Він може приймати значення від 0 до 1. Ця величина особливо корисна для порівняння ряду різних моделей і вибору найкращої моделі.

R² є частка варіації прогнозної (теоретичної) величини Y відносно спостережних значень Y, пояснена за рахунок включених в модель чинників. Дуже добре, якщо R² > = 80%. Інша частка теоретичних значень Y залежить від інших, чинників, що не брали участь в моделі. Завдання дослідника - знаходити чинники, збільшуючі R², і давати пояснення варіацій прогнозу, аби отримати ідеальне рівняння. Проте, коефіцієнт R² саме більше може досягти величини 1 (або 100%), коли всі значення чинників різні. А якщо в даних є досліди, що повторюються, то величина R² не може досягти 1, яка б добра не була модель. Тому дублікати даних слід видаляти з вихідної таблиці до початку розрахунку регресії. Деякі програмні пакети автоматично видаляють дублікат, залишаючи лише унікальні дані. Повторення однакових даних знижує надійність оцінок моделі. R² = 1 лише при повній згоді експериментальних (спостережних) і теоретичних (розрахункових) даних, тобто коли теоретичні значення точно збігаються із спостережуваними. Проте це вважається вельми маловірогідним випадком.

Засобами регресійного аналізу, в т.ч. EXCEL, обчислюється F -критерій значущості регресії для рівняння в цілому. Це розраховане за даними спостереження значення F_p (F розрахунковий, спостережний) слід порівнювати з відповідним критичним значенням F_K (F критичний, табличний). F_K дослідник вибирає з публікуємих статистичних таблиць на заданому рівні вірогідності (на тому, на якому обчислювалися параметри моделі, наприклад, 95%).

Якщо спостережне значення F_p виявиться менше критичного значення F_K, то рівняння не можна вважати значимим. У іншій термінології про це ж може бути сказано: не знехтувана нуль-гіпотеза відносно значущості всіх коефіцієнтів регресії в постульованій моделі, тобто коефіцієнти практично дорівнюють нулю.

На четвертому етапі кореляційно-регресійного дослідження, якщо отримана модель статистично значима, її застосовують для прогнозування (передбачення), управління або пояснення.

Якщо ж виявлена незначущість, то модель відкидають, передбачаючи, що достеменною виявиться якась інша форма зв'язку, який треба пошукати. Наприклад, з самого початку роботи (як би за умовчанням) будувалася і перевірялася лінійна регресійна модель. Незначущість її служить підставою для того, щоб відкинути лише лінійну форму моделі. Можливо, що більш відповідною буде нелінійна форма моделі.

⇐ Предыдущая 37 38 39 404142 43 44 45 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2017-02-01; Просмотров: 70; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.012 сек.