Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Где С/Н – число совпадений/несовпадений знаков отклонений Х от своего среднего значения и Y от своего среднего значения




Значения данного показателя изменяются в пределах от -1 до +1. Если |Кф|→1, связь близка к линейной функциональной. Если |Кф|→0, признаки X и Y взаимно независимы. Если Кф<0, связь между признаками обратная. Если Кф>0, связь прямая. Равенство нулю означает отсутствие только линейной связи.

Ковариация, cov (X,Y) – показатель совместной вариации признаков:

.

Это размерный показатель; его единицы измерения равны произведению единиц измерения Х на единицы измерения Y.

Коэффициент линейной парной корреляции, rx,y – показатель степени тесноты линейной связи:

.

Это безразмерный показатель. Область допустимых значений - от -1 до +1. Если | rx,y |→1, связь близка к линейной функциональной. Если признаки Х и Y взаимно независимы, то | rx,y |→0. Если rx,y >0, зависимость прямая, если rx,y <0 - обратная.

Признаки могут быть связаны тесной нелинейной связью. Если r -| r |>0,1, то связь, скорее, нелинейная, если меньше – скорее, линейная.

Расчет данных показателей может быть осуществлен с использованием функций СЧЕТЕСЛИМН, КОВАРИАЦИЯ, КОРРЕЛ. Вызываем необходимую функцию (из категории «Статистические»):

= СЧЕТЕСЛИМН (Диапазон_условия1;Условие1; Диапазон_условия2;Условие2…)

где Диапазон_условия1; Диапазон_условия2 – столбцы значений отклонений признака-фактора и признака-результата от своих средних соответственно;

Условие1; Условие2 - условия в форме числа, выражения, которые определяют, какие ячейки требуется учитывать.

Функция возвращает число совпадений значений, удовлетворяющих условию, поэтому может быть использована для расчета коэффициента Фехнера: сначала подсчитываются совпадения значений>0, затем - <0, после чего суммируются, образуя общее число совпадений знаков отклонений. Число несовпадений равно разности числа наблюдений и числа совпадений.

= КОВАРИАЦИЯ (массив1;массив2)

где массив1;массив2… – числовые аргументы, для которых вычисляется ковариация (столбцы значений признака-фактора и признака-результата).

= КОРРЕЛ (массив1;массив2)

где массив1;массив2… – числовые аргументы, для которых вычисляется ковариация (столбцы значений признака-фактора и признака-результата).

Результаты расчета MS Excel:

(млн. у.е./год)·чел

Расчет показателей (см. табл. 10):

Ковариация:

Коэффициент линейной корреляции (сравнить с Множественный R в табл. 9):

МНК не предполагает какого-либо группирования, однако и в данном случае можно поставить задачу разложения общей дисперсии на объясненную и остаточную.

На основе этого разложения рассчитывается теоретический коэффициент детерминации, R2yx как отношение объясненной уравнением дисперсии признака-результата - d2, к общей дисперсии признака-результата s2y:

,

где – объясненная уравнением регрессии дисперсия y;

s2y - общая (полная) дисперсия y.

Или:

,

где - остаточная дисперсия y.

Этот показатель характеризует долю вариации результативного признака y, объясняемую уравнением связи, в общей вариации y. Коэффициент детерминации R 2 yx принимает значения от 0 до 1. Чем ближе R 2 yx к 0, тем слабее связь между признаками, чем ближе к 1, тем сильнее. Величина 1- R 2 yx характеризует долю дисперсии y, вызванную влиянием прочих неучтенных в уравнении факторов и ошибками измерений. При парной линейной регрессии R 2 yx = r 2 yx.

Средняя квадратическая ошибка уравнения регрессии, se - это среднее квадратическое отклонение наблюдаемых значений результативного признака от теоретических значений, рассчитанных по модели:

где h – число параметров в модели регрессии (в линейной парной регрессии. h = 2).

Если se окажется меньше sy, то использование модели регрессии является целесообразным.

Средняя ошибка аппроксимации, А:

Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Ошибка аппроксимации меньше 7% говорит о хорошем качестве модели.

Выбор вида уравнения регрессии (вида функции) обычно осуществляется методом сравнения величины показателя адекватности, рассчитанного при разных видах зависимости. Если показатели адекватности оказываются примерно одинаковыми для нескольких функций, то предпочтение отдается более простым видам функций.

Расчет данных показателей может быть осуществлен с использованием функций ДИСПР и СТОШYX. Вызываем необходимую функцию (из категории «Статистические»):

= СТОШYX (известные_значения_y; известные_ значения_x)

где известные_значения_y; известные_значения_x – столбцы значений признака-результата и признака-фактора, для которых вычисляется средняя квадратическая ошибка уравнения регрессии.

Расчет характеристик (см. табл. 10):

8. Проверка значимости уравнения регрессии

Для оценки значимости уравнения регрессии используют статистические методы проверки гипотез.

Для проверки гипотезы о надежности уравнения регрессии используют F-статистику:

,

где n - число наблюдений;

h – число оцениваемых параметров (в случае парной линейной регрессии h =2);

R2y(x1,...,xm) - коэффициент детерминации.

Для поиска критического значения - Fкр пользуются таблицами распределения Фишера-Снедоккора, задаваясь уровнем значимости a (обычно 0,05) и двумя числами степеней свободы k 1= h -1 и k 2= n-h.

Далее сравниваются рассчитанное значение, F набл, и критическое, F кр(a; k 1; k 2):

если F набл< F кр(a; k 1; k 2), то гипотезу о незначимости уравнения регрессии не отвергают;

если F набл> F кр(a; k 1; k2), то гипотезу отвергают и принимают альтернативную - о статистической значимости уравнения регрессии с вероятностью (1- a).

Значение F-статистики можно найти в Дисперсионном анализе таблицы «Вывод итогов», воспользовавшись построением регрессии через Пакет анализа (см. пункт 6).

Таблица 11. «Вывод итогов». Дисперсионный анализ.

Дисперсионный анализ
  df SS MS F Значимость F
Регрессия   805478,981 805478,981 343,68 0,0000
Остаток   89060,794 2343,705    
Итого   894539,775      

Результаты расчета MS Excel (см. табл. 11):

 

Выполнение задания 2 в ППП MS Excel

Линейная множественная регрессия имеет вид:

где Y – признак-результат;

X 1, X 2,..., Xm – признаки-факторы;

a, b1, …, bm – коэффициенты регрессии;

u – случайная составляющая.

Параметры множественной регрессии могут быть определены по МНК через построение системы нормальных уравнений.

Сложность анализа многофакторной регрессии в том, что взаимосвязь между результатом и набором факторов надо исследовать на фоне взаимосвязей факторов между собой. Для возможности такого анализа переходят от регрессии в естественных масштабах к регрессии в стандартных масштабах.

Уравнение регрессии в стандартном масштабе связывает стандартизованные значения признаков-факторов и признака-результата:

, ;

где Хji - значение переменной Хji в i -ом наблюдении.

При этом: и stx 2 =sty 2=1, а , .

Линейная связь между переменными в естественном масштабе трансформируется в линейное соотношение в стандартных масштабах:

,

где b j – параметры уравнения регрессии в стандартном масштабе.

Корреляционная матрица – это квадратная матрица размером (m +1; m +1). Ее размер определяется числом признаков, участвующих в анализе: m признаков-факторов и один признак-результат, а элементами являются соответствующие парные коэффициенты корреляции.

1. Корреляционная матрица

Корреляционную матрицу можно получить, рассчитав парные коэффициенты корреляции (см. пункт 7 задания1) или с помощью Пакета анализа: вкладка Данные – Анализ данных –– Корреляция. В окне Корреляция:

Входной интервал – это столбцы значений признака-результата и признаков-факторов (выделить единым массивом);

Группирование - по столбцам (ставим метку);

Выходной интервал – левая верхняя ячейка для будущих результатов.

Корреляционная матрица для признаков выручка (Y), численность персонала (Х1), число отправленных туристов (Х2) представлена в табл. 12.

Таблица 12. Корреляционная матрица

  Y Х1 Х2
Y      
Х1 0,948915    
Х2 0,73794 0,73142  

Коэффициенты в табл. 12 показывают тесноту связи между признаками попарно. Их необходимо сравнить друг с другом по абсолютной величине, обратив особое внимание на межфакторные связи. Если межфакторная связь сильнее, чем связь фактора с результатом, такой фактор следует исключить из уравнения регрессии, т.к. это свидетельствует о сильной коллинеарности (взаимосвязи) факторов. Для качественной регрессионной модели недопустим уровень коллинеарности, превышающий 0,8.

2. b - коэффциенты

Данные корреляционной матрицы используются для определения b - коэффциентов. Последние могут оцениваться с помощью МНК путем решения системы нормальных уравнений:

rx1y = b 1+ rx1x2b 2 +…+ rx1xmbm

rx2y= rx2x1b 1+ b 2+…+ rx2xmbm

rxmy= rxmx1b 1+ rxmx2b 2+…+ bm

Расчет характеристик:

b – коэффициенты показывают, на какую часть своего среднего квадратического отклонения изменится признак-результат Y с изменением соответствующего фактора Хj на величину своего среднего квадратического отклонения (sхj) при неизменном влиянии прочих факторов, входящих в уравнение.

b – коэффициенты интерпретируются как показатели прямого (непосредственного) влияния j -ого фактора (Xj) на результат (Y). Косвенное влияние измеряется величиной:

,

где m – число факторов в модели.

Таким образом, коэффициент линейной парной корреляции фактора (Xj) и результата (Y), rxj,y, характеризует полное влияние j -ого фактора на результат, которое равно сумме прямого и косвенного влияний:

.

3. Двухфакторная линейная регрессия

Параметры bj могут быть определены через b - коэффициенты:

, j=1;m; .

Коэффициент регрессии bj при факторе Хj измеряет среднее по совокупности отклонение признака-результата от его средней величины при отклонении признака-фактора Хj на единицу, при условии, что все прочие факторы модели не изменяются (зафиксированы на своих средних уровнях).

Для построения уравнения регрессии можно воспользоваться Пакетом анализа: вкладка Данные – Анализ данных – Регрессия. В окне Регрессия:

Входной интервал Х – это столбцы значений признаков-факторов (выделить единым массивом);

Входной интервал Y – это столбец значений признака-результата;

Выходной интервал – левая верхняя ячейка для будущих результатов.

 

 

Результаты расчета MS Excel:

Таблица 13. «Вывод итогов»

 

Регрессионная статистика
Множественный R 0,951095
R-квадрат 0,904581
Нормированный R-квадрат 0,899423
Стандартная ошибка 48,03045
Наблюдения  

 

 

Дисперсионный анализ
  df SS MS F Значимость F
Регрессия   809183,6 404591,8 175,3815 0,0000
Остаток   85356,19 2306,924    
Итого   894539,8      

 

 

  Коэффициенты Стандартная ошибка
Y-пересечение -119,85 22,53753
Переменная x1 5,376951 0,455078
Переменная х2 0,012999 0,010258

 

Расчет параметров линейной двухфакторной регрессии (см.табл.14):

 

 

 

Таблица 14. Расчет параметров линейной двухфакторной регрессии

Y X1 X2 f (Х12) y- f (Х12) [y- f (Х12) ]2
        11,36 38,64 1493,12
        50,73 2,27 5,13
        52,03 5,97 35,58
        445,91 36,09 1302,42
        411,58 88,42 7817,86
        456,84 193,16 37309,94
ИТОГО         0,00 85356,19
СРЗНАЧ 243,175 64,200 1371,250 243,175 0,00 2133,905
СКО 149,544 24,472 1085,645      
ДИСП 22363,494 598,860 1178625,938 20229,590 2133,905  

 

Рассчитав значения коэффициентов регрессии, получаем уравнение: f (Х12) = -119.85 + 5.37· х1 + 0.013· х2

Подставив в данное уравнение регрессии значения признаков-факторов, получаем столбец регрессионных (теоретических) значений результата (f (Х12) в табл. 14).

4. Корреляционный анализ

После построения уравнения регрессии следует оценить его качество, для чего используется ряд показателей.

Коэффициент множественной детерминации, R2y(x1,...,xm ) – это теоретический коэффициент детерминации для случая множественной регрессии. По аналогии с парной линейной регрессией он определяется, как отношение дисперсии признака-результата, объясненной уравнением множественной регрессии – d 2, к общей дисперсии признака-результата – s2 y. Область допустимых значений R2y(x1,...,xm) от нуля до единицы. Данный показатель характеризует долю вариации признака-результата, объясненную уравнением регрессии, т.е. признаками-факторами в общей вариации признака-результата. Для линейного уравнения регрессии:

.

Коэффициент множественной корреляции, Ry(x1,...,xm) - рассчитывается как корень из коэффициента множественной детерминации:

.

Данный показатель аналогичен линейному парному коэффициенту корреляции - rx,y, используемому в парном регрессионном анализе, но Ry(x1,...,xm) принимает значения от нуля до единицы, следовательно, не может служить характеристикой направления связи. Чем плотнее фактические значения Yi располагаются относительно линии регрессии, тем меньше остаточная дисперсия и, следовательно, больше величина Ry(x1,...,xm ). Таким образом, при значении Ry(x1,...,xm ) близком к единице уравнение регрессии лучше описывает фактические данные, и факторы сильнее влияют на результат; при значении Ry(x1,...,xm ) близком к 0 уравнение регрессии плохо описывает фактические данные и факторы оказывают слабое воздействие на результат.

Коэффициенты множественной детерминации и корреляции характеризуют совместное влияние всех факторов на результат.

Расчет показателей (см. табл. 14 и пункт 2):

Коэффициент множественной детерминации (сравнить с R-квадрат в табл. 13):

Коэффициент линейной корреляции (сравнить с Множественный R в табл. 13):

5. Проверка значимости уравнения регрессии

Для проверки гипотезы о надежности уравнения регрессии используют F-статистику (см. пункт 8 задания1).

Значение F-статистики можно найти в Дисперсионном анализе табл. 13.

Результаты расчета MS Excel (см. табл. 13):

Для улучшения модели необходимо сравнить между собой несколько вариантов регрессионной модели с различным числом факторов. Предпочтительнее та модель, которая при том же значении коэффициента детерминации имеет меньшее количество факторов, включенных в нее. При этом сравниваются нормированные R-квадрат, которые дают скорректированную оценку коэффициентов детерминации для моделей с различным числом факторов.

Можно сравнить парную линейную регрессию и двухфакторную.

Результаты расчета MS Excel (см. табл. 9 и 13):

Нормированные R-квадрат:

Сравнение разных регрессионных моделей дополняется проверкой значимости отдельных коэффициентов уравнения, которую можно сделать по значению t-статистики.

Для поиска критического значения - tкр пользуются таблицами распределения Стьюдента, задаваясь уровнем значимости a (обычно 0,05) и числом степеней свободы k = n-h.

Далее сравниваются рассчитанное значение, t набл, и критическое, t кр(a; k):

если t набл < t кр(a; k), то гипотезу о незначимости данного коэффициента регрессии не отвергают;

если t набл > t кр(a; k), то гипотезу отвергают и принимают альтернативную - о статистической значимости данного коэффициента регрессии с вероятностью (1- a).

Значение t-статистики можно найти в последней части таблицы «Вывод итогов», воспользовавшись построением регрессии через Пакет анализа (см. пункт 6 задания1).

 

Таблица 15. «Вывод итогов». t-критерий

  Коэффициенты t-статистика Р-значение
Y-пересечение -119,85 -5,317811 0,000005
Переменная x1 5,376951 11,815445 0,000000
Переменная х2 0,012999 1,267226 0,212993

Результаты расчета MS Excel (см. табл. 15):


Список литературы

1. Ватник П.А. Статистические метода анализа зависимостей: Текст лекций. – СПб:СПбГИЭУ, 2006. – 92 с.

2. Заварина Е.С., Чобану К.Г. Основы региональной статистики/ Издательство: Финансы и статистика, 2009 г. 416 с.

3. Елисеева И. И., Юзбашев М. М. Общая теория статистики: учебник /Под ред. И.И. Елисеевой. – 5-е изд., перераб. и доп. – М.: Финансы и статистика, 2008.-656 с.

4. Елисеева И.И. Практикум по общей теории статистики/ И.И.Елисеева, Н.А. Флуд, М.М. Юзбашев; Под ред. И.И. Елисеевой.- М.: Финансы и статистика, 2008.- 512 с.

5. Маличенко И.П., Бортник Е.М., Лугинин О.Е. Социально-экономическая статистика с решением типовых задач. Серия: Зачет и экзамен. Издательство: Феникс, 2010 г. 384 с.

6. Очкин О.А., Уварова Г.Г. Статистика в системе госуда рственного и муниципального управления/ Серия: Учебный курс Издательства: Феникс, ИКЦ "МарТ", Издательский центр "МарТ" 2009 г. 384 с.

7. Рогатных Е.Б. Элементарная статистика. Теоретические основы и практические задания /Серия: Учебник для вузов Издательство: Экзамен 2009 г.160 с.

8. Статистика. Социально-экономическая статистика./А.В. Вангородская, А.М. Грушко, Г.В. Карпова, И.Н. Нименья, А.Л. Сидоров, А.Э. Сулейманкадиева. Учебное пособие. СПб., СПбГИЭУ, 2010. 256 с.

9. Б. С. Эверитт. Большой словарь по статистике/ The Cambrige Dictionary of Statistics Издательство: Проспект 2010 г. 736 с.

 

 


 

Приложение 1. Исходные данные

 

Выручка, тыс. у.е./год Численность персонала, чел. Число отправленных туристов, чел./год
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     

 

 




Поделиться с друзьями:


Дата добавления: 2014-12-24; Просмотров: 625; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.085 сек.