Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Подготовка к выполнению лабораторной работы




Статистические методы анализа связи

Методические указания выполнению лабораторной работы №3

 

Задание 1.

1. Выбрать и теоретически обосновать три пары взаимосвязанных признаков.

2. Построить для каждой пары корреляционное поле.

3. Построить для каждой из пар аналитическую равноинтервальную или равнонаполненную группировку.

4. Построить эмпирическую регрессию и отобразить ее на корреляционном поле (для трех пар признаков).

5. Проверить теорему о разложении дисперсии, рассчитать эмпирический коэффициент детерминации, эмпирическое корреляционное отношение.

6. Интерпретировать результаты эмпирической регрессии.

7. Построить комбинационную группировку для каждой из трех пар признаков, сделать выводы.

8. Построить уравнения парной линейной регрессии и отобразить ее на корреляционном поле (для трех пар признаков).

9. Провести корреляционный анализ.

10. Сделать выводы.

Задание 2.

1. Выбрать и теоретически обосновать признаки для построения множественной регрессии (результативный и, как минимум, два факторных)

2. Построить уравнение множественной линейной регрессии.

3. Измерить тесноту связи.

4. Улучшить регрессионную модель путем удаления из модели факторов, не имеющих значимого влияния на результат.

5. Сделать выводы.

 

1. По учебнику изучить темы:

- Теорема о разложении дисперсии

- Эмпирическая регрессия

- Дисперсионный анализ

- Аналитическая регрессия

2. Уметь рассчитывать различные виды дисперсии и коэффициент детерминации и интерпретировать полученные значения.

3. Уметь строить эмпирическую регрессию.

4. Уметь рассчитывать параметры линейного уравнения регрессии и оценивать тесноту связи.

5. Уметь рассчитывать параметры уравнения множественной линейной регрессии и оценивать тесноту связи.

6. Подготовить три пары взаимосвязанных признаков и признак, связанный одновременно с двумя и более признаками (предполагаемую связь обосновать теоретически).

 

Выполнение задания 1 в ППП MS Excel

Изучение взаимосвязей предполагает разделение всех признаков на две группы: факторные, которые влияют на остальные признаки, и результативные, которые изменяются под этим влиянием.

Статистическая (стохастическая) связь – это связь между признаками, при которой для каждого значения признака-фактора Х признак-результат Y может в определенных пределах принимать любые значения с некоторыми вероятностями.

Корреляционная связь - частный случай статистической связи, при которой с изменением значения признака-фактора Х закономерно изменяется среднее значение признака-результата Y.

Эмпирический анализ связи заключается в построении группировок (аналитической или комбинационной) и графиков: корреляционного поля и эмпирической линии регрессии. Результаты эмпирического анализа дополняются дисперсионным и корреляционным анализом.

Аналитический анализ связи предполагает нахождение уравнения регрессии, описывающего корреляционную зависимость между признаком-результатом y и признаками факторами (одним или несколькими). При построении уравнения регрессии y = f (x) нужно определить вид уравнения (вид функциональной связи) и оценить параметры регрессии по имеющимся данным наблюдений y, x.

Регрессия зависимость среднего значения какой-либо случайной величины от одной или нескольких независимых величин.

Наиболее часто для описания статистической связи признаков используется линейное уравнение регрессии. Наиболее распространенным методом оценки параметров уравнения регрессии является метод наименьших квадратов (МНК).

1. Корреляционное поле

Корреляционное поле – точечный график, построенный в прямоугольной системе координат. Число точек равно числу единиц в совокупности. Каждая точка соответствует единице совокупности (рис. 3).

Для построения корреляционного поля выбираем ВСТАВКА и из разновидностей диаграмм MS Excel – ТОЧЕЧНАЯ. Каждая точка имеет координаты по оси абсцисс – значение признака-фактора Х, а по оси ординат – значение признака-результата Y у данной единицы совокупности.

Рис. 3. Корреляционное поле

2. Аналитическая группировка

Аналитическая группировка заключается в разбиении качественно однородной совокупности на группы по факторному признаку и подсчете соответственно этим группам среднего значения результативного признака с целью выявления между ними взаимосвязи и определения ее направления.

Факторный признак желательно группировать равноинтервально или равнонаполненно.

Систематический рост или снижение среднего значения результативного признака в результате возрастания значений факторного свидетельствует о наличии между ними прямой или обратной связи соответственно. Бессистемное изменение среднего значения результирующего признака свидетельствует об отсутствии связи с данным фактором.

Таблица 6. Аналитическая группировка

Численность персонала, чел X Середина интервала Частота nj Выручка, млн. у.е./год yi Среднее значение выручки, млн. у.е./год
Границы интервала
нижняя верхняя
       
70, 50, 79, 61, 53, 58, 67, 80

 

64,75
    46,5  
123, 94, 146, 100, 159, 158, 180, 163

 

140,38
       
165, 175, 203, 198, 220, 248, 273, 268

 

218,75
    81,5  
274, 278, 274, 330, 293, 347, 352, 386

 

316,75
       
413, 500, 400, 482, 456, 480, 421, 650

 

475,25
Итого     -  

Аналитическая группировка для признаков численность персонала (X) и выручка (Y) представлена в табл. 6.

3. Эмпирическая линия регрессии

Для построения эмпирической линии регрессии (рис. 4) требуются данные аналитической группировки (табл. 6). Число точек эмпирической линии регрессии равно числу групп (5).

Рис. 4. Корреляционное поле и эмпирическая линия регрессии

Для построения эмпирической линии регрессии выбираем ВСТАВКА и из разновидностей диаграмм MS Excel – ТОЧЕЧНАЯ (с прямыми отрезками). Координаты точек: по оси абсцисс – середина интервала в группе фактора X, а по оси ординат – среднее значение результата Y в группе.

4. Теорема о разложении дисперсии, эмпирический коэффициент детерминации, эмпирическое корреляционное отношение.

Общая дисперсия характеризует вариацию признака, как результат влияния всех факторов. Выделяем из них какой-то один (признак-фактор) и разбиваем изучаемую совокупность на группы, положив данный фактор в основу группировки (см. результаты аналитической группировки).

По теореме о разложении дисперсии общая дисперсия признака-результата может быть разложена на составляющие: межгрупповую, (характеризует часть вариации, обусловленную влиянием фактора, положенного в основу группировки) и внутригрупповую, (характеризует часть вариации, происходящую под влиянием прочих факторов) дисперсии:

где

- общее среднее значение признака-результата;

- среднее значение признака-результата внутри j -ой группы;

- множество единиц наблюдения в j -ой группе.

Таблица 7. Разложение дисперсии

Интервал X Частота nj Выручка, млн. у.е./год yi Среднее значение выручки, млн. у.е./год
20-40  
70, 50, 79, 61, 53, 58, 67, 80

 

64,75 254683,85
27,56; 217,56; 203,06; 14,06; 138,06; 45,56; 5,06; 232,56

 

40-53  
123, 94, 146, 100, 159, 158, 180, 163

 

140,38 84542,72
301,89; 2150,64; 31,64; 1630,14; 346,89; 310,64; 1570,14; 511,89

 

53-73  
165, 175, 203, 198, 220, 248, 273, 268

 

218,75 4772,65
2889,06; 1914,06; 248,06; 430,56; 1,56; 855,56; 2943,06; 2425,56

 

73-90  
274, 278, 274, 330, 293, 347, 352, 386

 

316,75 43306,25
1827,56; 1501,56; 1827,56; 175,56; 564,06; 915,06; 1242,56; 4795,56

 

90-100  
413, 500, 400, 482, 456, 480, 421, 650

 

475,25 430870,45 3875,06; 612,56; 5662,56; 45,56; 370,56; 22,56; 2943,06; 30537,56
Итого   -   818175,90 76363,88

Расчет характеристик (см. табл. 7):

Общая дисперсия (найдена для исходного ряда значений признака «Выручка» с помощью функции ДИСПР):

Межгрупповая дисперсия:

Средняя из внутригрупповых дисперсий:

Количественная характеристика тесноты связи состоит в расчете следующих показателей:эмпирического коэффициента детерминации и эмпирического корреляционного отношения.

Эмпирический коэффициент детерминации или эмпирическое дисперсионное отношение, r2 - показатель, характеризующий процент (долю) вариации признака-результата, обусловленную признаком-фактором. Рассчитывается по данным аналитической группировки, как отношение межгрупповой дисперсии признака-результата (dy2) к общей дисперсии признака-результата (sy2):

.

Эмпирическое корреляционное отношение, r - показатель тесноты связи, рассчитываемый как корень из эмпирического коэффициента детерминации. Область допустимых значений эмпирического корреляционного отношения от 0 до +1. При достаточно тесной связи между признаками эмпирический коэффициент детерминации стремится к 1. При слабой связи – к нулю.

Расчет характеристик:

Эмпирический коэффициент детерминации:

Эмпирическое корреляционное отношение:

5. Комбинационная группировка

Комбинационная группировка заключается в последовательном разделении групп факторного признака на подгруппы результативного и подсчете частот соответственно этим группам и подгруппам с целью детальной оценки зависимости между признаками и направления этой связи. Желательно, чтобы интервалы формируемых групп были равными или равнонаполненными.

Анализируются максимальные по столбцам или по строкам частоты. Если они располагаются вдоль диагонали от левого верхнего угла к правому нижнему, то связь между признаками прямая и близкая к линейной. Если вдоль противоположной диагонали (от правого верхнего угла к левому нижнему), то связь обратная и близкая к линейной. Если же расположение максимальных частот хаотично, связи между признаками нет.

Результаты комбинационной группировки для признаков численность персонала (x) и выручка (y) приведены в табл. 8.

Таблица 8. Комбинационная группировка

Интервал y     Интервал x 50-80 80-165 165-273 273-390 390-650 ИТОГО
20-40            
40-53            
43-73            
73-90            
90-100            
ИТОГО            

6. Парная линейная регрессия

До расчета параметров регрессии необходимо определиться с формы связи. Линейная связь отображается прямой линией; криволинейная отображается кривой (параболой, гиперболой и т.п.). Методы выявления формы связи:

- графический (вид корреляционного поля и эмпирической линии регрессии);

- опыт предыдущих аналогичных исследований;

- перебор всевозможных видов функций и выбор наилучшей по показателю качества.

Линейная однофакторная регрессия имеет вид:

M (yx = xi)= b 0+ b 1· x i,

где M (yx = xi) – условное мат. ожидание зависимой переменной y при значении независимой переменной х равном хi;

b 0, b 1 – параметры (коэффициенты) уравнения регрессии.

Наиболее распространенный метод оценки параметров регрессии - метод наименьших квадратов (МНК). Согласно МНК параметры регрессии подбираются так, чтобы сумма квадратов отклонений фактических значений результативного признака – yi от расчетных (теоретических) значений – f (xi) (рассчитанных по уравнению регрессии) была минимальна. МНК не предполагает какого-либо группирования. Все расчеты производятся по исходным столбцам анализируемых признаков.

В результате получаем систему нормальных уравнений, которая для случая линейной регрессии примет вид:

Решение данной системы:

Оценка параметра b 1 может быть определена через коэффициент корреляции (см. пункт «Корреляционный анализ»):

.

Знак коэффициента регрессии b 1 указывает направление связи: если b 1>0 - связь прямая, если b 1<0 - связь обратная. Величина b 1 показывает, на сколько единиц изменится в среднем признак-результат y при изменении признака-фактора х на 1 единицу своего измерения.

Формально значение параметра b 0 – среднее значение признака-результата y при нулевом значении признака-фактора х. Если признак-фактор не может быть равен нулю, то параметр b 0 не интерпретируется.

Для построения уравнения регрессии можно воспользоваться Пакетом анализа: вкладка Данные – Анализ данных – Регрессия. Если данного пакета нет, надо предварительно выполнить следующие действия: вкладка ФайлПараметры – Надстройки – Пакет анализа (отметить флажком). В окне Регрессия:

Входной интервал Х – это столбец значений признака-фактора;

Входной интервал Y – это столбец значений признака-результата;

Выходной интервал – левая верхняя ячейка для будущих результатов.

Результаты расчета MS Excel:

Таблица 9. «Вывод итогов»

Регрессионная статистика
Множественный R 0,94891
R-квадрат 0,90044
Нормированный R-квадрат 0,89782
Стандартная ошибка 48,41183
Наблюдения  

 

  Коэффициенты Стандартная ошибка
Y-пересечение -129,10481 21,49081247
Переменная x1 5,798751 0,312794302

Расчет параметров линейной регрессии (см. табл. 10):

Рассчитав значения коэффициентов регрессии, получаем линейное уравнение: f (xi) = -129.105 + 5.799· хi.

Подставив в данное уравнение регрессии значения признака-фактора, получаем столбец регрессионных (теоретических) значений результата (f (xi) в табл. 10). При правильном расчете параметров уравнения регрессии .

Таблица 10. Расчет параметров линейной регрессии

x y xy f(xi) y- f(xi) [y- f(xi)]2
        -13,13 83,13 6910,56
        4,27 45,73 2091,56
        15,86 63,14 3986,16
        439,17 40,83 1666,86
        450,77 -29,77 886,27
        450,77 199,23 39692,48
ИТОГО         0,00 89060,79
СРЗНАЧ 64,20 243,18 19084,48 243,18 0,00 2226,52
ДИСПР 598,86 22363,49   20136,97 2226,52  

Для графического отображения линейной регрессии выбираем ВСТАВКА и из разновидностей диаграмм MS Excel – ТОЧЕЧНАЯ (с прямыми отрезками без маркеров). Координаты точек: по оси абсцисс – значения признака-фактора, по оси ординат – соответствующие фактору регрессионные значения признака-результата (т.к. регрессия линейна, достаточно двух точек).

Рис. 5. Корреляционное поле и линейная парная регрессия

Для графического построения линейной регрессии (рис. 5) можно воспользоваться на диаграмме функцией добавления линии тренда. Строим корреляционное поле (см. пункт 1, рис. 3). На любой точке корреляционного поля – щелчок правой кнопки (или, активировав окно диаграммы, через вкладку Работа с диаграммамиМакет) – Добавить линию трендаЛинейная (отметить) – Показывать уравнение на диаграмме (отметить) – Поместить на диаграмме величину достоверности аппроксимации (отметить).

7. Корреляционный анализ

После построения уравнения регрессии следует оценить его качество, т.е. адекватность уравнения регрессии данным наблюдений (степень близости рассчитанных по данному уравнению значений признака-результата f (x) к фактическим значениям y). Для этого используется ряд показателей.

Коэффициент Фехнера, Кф - показатель тесноты линейной связи:

,




Поделиться с друзьями:


Дата добавления: 2014-12-24; Просмотров: 1562; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.05 сек.