Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Тема: «Корреляционно – регрессионный анализ»




1. Виды и формы взаимосвязи между явлениями

2. Статистические методы моделирования связи.

3. Непараметрические коэффициенты связи.

1. Виды и формы взаимосвязи между явлениями

Современная наука исходит из взаимосвязей всех явлений природы и общества. Объем продукции предприятия связан с численностью работников, стоимостью производственных признаков и еще многими признаками.

Невозможно управлять явлениями, прогнозировать их развитие без изучения характера силы и других особенностей связей. Поэтому методы исследования, измерения связей составляют чрезвычайно важную часть методологии научного исследования, в том числе и статистического.

Различают два типа связи между различными явлениями и их признаками: функциональную или жестко детерминированную, с одной стороны, и статистическую, или стохастически детерминированную, с другой.

Функциональной называют связь, при которой определенному значению факторного признака соответствует одно значение результативного признака. Функциональная зависимость с одинаковой силой проявляется у всех единиц совокупности. Функциональная связь двух величин возможна лишь при условии, что вторая из них зависит только от первой. В реальной природе таких связей нет, они являются лишь абстракциями полезными и необходимыми при анализе явлений, но упрощающими реальность. Функциональная связь нередко используется в целях прогнозирования.

Стахостически детерминированная связь не имеет ограничений и условий, присущей функциональной связи. Если с изменением значений одной из переменных вторая может в определенных пределах принимать любые значения с некоторыми вероятностями, но ее среднее значение изменяются по определенному закону, связь является статистической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков. Корреляционные связи обнаруживаются не в единичных случаях, а в массе и требуют для своего исследования массовых наблюдений.

Корреляционная связь между признаками может возникнуть разными путями. Первый (важнейшей) путь – причинная зависимость результативного признака (его вариации) от факторного признака. Например, признак х – оценка плодородности почв, признак у – урожайность сельскохозяйственной культуры. Здесь совершенно ясно логически, какой признак выступает, как независимая переменная (фактор), а какой – как зависимая переменная (результат)

Второй путь - сопряженность, возникающая при наличии общей причины. Известен классический пример, приведенный крупнейшим статистиком России начала ХХ в. А.А. Чупровым: если в качестве признака х взять число пожарных команд в городе, а за признак у – сумму убытков в городе от пожаров, то между признаками у и х в совокупности городов России судействовала прямая корреляция; в среднем, чем больше пожарников в городе, тем больше убытков и от пожаров. Уж не занимались ли пожарники поджигательством из – зим боязни потерять работу. Но дело в другом. Данную корреляцию нельзя интерпретировать как связь причины и следствия; оба признака следствия общей причины города. Вполне логично, что в крупных городах больше пожарных частей, но больше и пожаров, и убытков от них за год, чем в малых городах.

Третий путь возникновения корреляции взаимосвязь признаков, каждый из которых и причина и следствие. Такова, например, корреляция между уровнями производительности труда рабочих и уровнем оплаты 1 ч труда(тарифной ставки). С одной стороны, уровень зарплаты – следствие производительности труда: чем она выше, тем выше и оплата. Но с другой стороны, установленные тарифные ставки и расценки играют стимулирующую роль: при правильной системе оплаты они выступают в качестве фактора, от которого зависит производительность труда. В такой системе признаков допустимы обе постановки задачи; каждый признак может выступать в роли независимой переменной.

В зависимости от направления действия функциональные и стохастические связи делят на прямые и обратные. При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. В случае обратной связи значения результативного признака изменяются под воздействием факторного в противоположном направлении по сравнению с изменением факторного признака.

По аналитическому выражению выделяют связи прямолинейные и нелинейные. С возрастанием величины факторного признака происходит равномерное возрастание (или убывание) величин результативного признака. Математически такая связь представлена уравнением прямой, а графически прямой линией. Отсюда ее более кроткое название – линейная вязь.

При криволинейных связях с возрастанием значения факторного признака возрастание (или убывание) результативного признака происходит неравномерно, или направление его меняется на обратное. Выражаются такие связи кривыми линиями (гиперболой, параболой и т.д.)

Корреляционные связи в зависимости от количества признаков, включенных в модель, делят на парные и множественные.

Парная (однофакторная) связь – это связь между одним признаком – фактором и одним результативным признаком. Множественная (многофакторная) связь - это связь между несколькими факторными признаками и результативным признакам (факторы действуют комплексно, т.е. одновременно и во взаимосвязи). Например, корреляционная связь между производительностью труда и уровнем организации труда, автоматизации производства, квалификации рабочих и другими факторными признаками.

2. Статистические методы моделирования связи.

Для изучения функциональных связей применяется балансовый и индексный методы. В статистике широко используют балансовые построения, как метод анализа связей и пропорций в экономике.

Для исследования корреляционных связей широко используется метод составления двух параллельных рядов, метод аналитических группировок, корреляционно-регрессионный анализ.

Метод составления двух параллельных рядов заключается в сопоставлении значений факторного и результативного признака. Для этого значения факторных признаков располагают в возрастающем или убывающем порядке. Параллельно записывают значения результативных признаков. Путем сопоставления, таким образом, рядов значений выявляют существование связи и ее направление.

Пример: Проанализируем методом приведения параллельных данных зависимость успеваемости (балл в сессию) студентов по предмету «Теория статистики» от пропущенных ими семинаров в первом семестре:

Номер студента Балл в сессию, у Количество пропущенных семинаров, х Приведенные параллельные данные
х у
         
         
         
         
         
         
         
         
         
         

Мы видим, что с количеством пропущенных семинаров их успеваемость имела тенденцию к снижению и можно сделать, вывод, что связь между этими признаками обратная.

Метод аналитических группировок. Чтобы выявить зависимость с помощью этого метода, нужно провести группировку единиц совокупности по факторному признаку и для каждой группы вычислить среднее значение результативного признака. Сопоставляя затем изменения результативного признака по мере изменения факторного признака можно выявить направление, характер и тесноту связи между ними. Однако, метод группировок не позволяет определить форму влияния факторных признаков на результативный.

Корреляционно - регрессионный анализ решает следующие задачи:

Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками. Теснота связи между признаками предполагает определение меры соответствия вариации результативного признака от одного (при изучение парной зависимости) или нескольких (множественных факторов)

Задачами регрессионного анализа являются выбор типа модели (формы связи), установление степени влияния независимых переменных на зависимую и определение расчётных значений зависимой переменной (функции регрессии).

Решение всех названных задач приводит к необходимости комплексного использования этих методов.

При парной регрессии связь между признаками можно увидеть, если построить график, отложив на оси абсцисс значения факторного признака (х), на оси ординат – значения результативного признака. Нанеся на график точки, соответствующие значениям х и у, можно получить корреляционное поле, благодаря которому по характеру расположения точек можно судить о направлении и силе связи. Если точки беспорядочно разбросаны по всему полю, это говорит об отсутствии зависимости между двумя признаками. Если они концентрируются вокруг оси, идущей от нижнего левого угла в верхний правый, то имеется прямая зависимость между варьирующими признаками. Если точки концентрируются вокруг оси, идущей от верхнего левого угла в нижний правый, то существует обратная зависимость.

 

Аналитическая связь между двумя признаками (парная регрессия) описывается следующими уравнениями:

По форме зависимости различают:

линейную регрессию, которая выражается уравнением прямой (линейной функции) вида: ух = а0 + а{х;

нелинейную регрессию, которая выражается уравнениями вида:

параболическая функция — ух = а0+ а,х + а2х2;

гиперболическая — у = а0 + а1

а1- коэффициент регрессии, который показывает насколько изменяется у при изменение х на единицу.

ао – коэффициент, который характеризует влияние всех остальных факторов, кроме рассматриваемого.

В уравнениях регрессии показывает ао показывает усредненное влияния на результативный признак неучтенных (не выделенных для исследования) факторов; параметр а1 (а в уравнение параболы и а2) – коэффициент регрессии показывает, насколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.

По направлению связи различают:

1) прямую регрессию (положительную), возникающую при условии, если с увеличением или уменьшением независимой величины значения зависимой также соответственно увеличиваются или уменьшаются;

2) обратную (отрицательную) регрессию, появляющуюся при условии, что с увеличением или уменьшением независимой величины зависимая соответственно уменьшается или увеличивается. Так, с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.

Оценка параметров уравнения регрессии осуществляется методом наименьших квадратов. Метод заключается в минимизации суммы квадраов отклонений эмпирических значений результативного признака от теоретических, полученных по выбранному уравнению регрессии.

Система нормальных уравнений для нахождения параметров линейной регрессии методом наименьших квадратов примет следующий вид:

Определить тип уравнения можно, исследуя зависимость графически. Однако существуют более общие указания, позволяющие выявить уравнения связи, не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о том, что связь между ними линейная. Если факторный признак увеличивается в арифметической прогрессии, а результативный значительно быстрей, то используется связь параболистическая или степенная. Также на современном этапе использование современной вычислительной техники облегчает определение типа выбора уравнения.

После расчетов коэффициентов регрессии рассчитывается коэффициент эластичности.

,

Коэффициент показывает на сколько % изменяется у при изменение х на один процент.

Корреляционный и регрессионный анализ обычно (особенно в условиях так называемого малого и среднего бизнеса) проводится для ограниченной по объёму совокупности. Поэтому показатели регрессии и корреляции – параметры уравнения регрессии, коэффициенты корреляции и детерминации могут быть искажены действием случайных факторов. Чтобы проверить, насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом стечения случайных обстоятельств, необходимо проверить адекватность построенных статистических моделей.

Значимость коэффициентов простой линейной регрессии (применительно к совокупностям, у которых n<30) осуществляют с помощью t-критерия Стьюдента. При этом вычисляют расчетные (фактические) значения t-критерия:

 
 

Измерение тесноты и направления связи является важной задачей изучения и количественного измерения взаимосвязи социально экономических явлений.

Проверка адекватности регрессионной модели может быть дополнена корреляционным анализом. Для этого необходимо определить тесноту корреляционной связи между переменными х и у.

При линейной зависимости теснота связи характеризуется линейным коэффициентом корреляции по формуле:

Линейный коэффициент корреляции имеет большое значение при исследовании социально-экономических явлений и процессов, распределение которых близко к нормальному. Он показывает, в каких случаях из 100 при изменении х изменяется у.

Линейный коэффициент корреляции изменяется в пределах от – 1 до +1. Отрицательные значения указывают на обратную связь, положительные на прямую. При r = 0 линейная связь отсутствует. Чем ближе коэффициент корреляции по абсолютной величине к единице, тем теснее связь между признаками. И, наконец, при r = ±1 – связь функциональная.

По степени тесноты связи различают количественные критерии оценки тесноты связи:

Величина коэффициента корреляции Характер связи
До ±0,3 Практически отсутствует
±0,3 - ±0,5 Слабая
±0,5 - ±0,7 Умеренная
±0,7 -±1,0 Сильная

Пример: Оценить тесноту связи между объемом производства и балансовой прибыли.

Объем производства, млн. руб. Балансовая прибыль, млн. руб. х´у
  6,1   18,3 2,0449 1,69
  6,0     2,3409 5,29
  7,2   43,2 0,1089 2,89
  7,4   14,8 0,0169 5,29
  6,8   27,2 0,5329 0,09
  7,4   22,2 0,0169 1,69
  9,1   72,8 2,4649 13,69
  8,5     0,9409 2,89
  8,6     1,1449 0,49
  8,2   32,8 0,4489 0,09
  75,3   337,3 10,061 34,1

Связь между признаками сильная и прямая.

Квадрат линейного коэффициента корреляции r2 называется линейным коэффициентом детерминации. Из определения коэффициента детерминации очевидно, что его числовое значение всегда заключено в пределах от 0 до 1, то есть 0 ≤ r2 ≤ 1. Степень тесноты связи полностью соответствует теоретическому корреляционному отношению, которое является более универсальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции.

Факт совпадений и несовпадений значений теоретического корреляционного отношения η и линейного коэффициента корреляции r используется для оценки формы связи.

Выше отмечалось, что посредством теоретического корреляционного отношения измеряется теснота связи любой формы, а с помощью линейного коэффициента корреляции – только прямолинейной. Следовательно, значения η и r совпадают только при наличии прямолинейной связи. Несовпадение этих величин свидетельствует, что связь между изучаемыми признаками не прямолинейная, а криволинейная. Установлено, что если разность квадратов η и r не превышает 0,1, то гипотезу о прямолинейной форме связи можно считать подтвержденной.

Теснота корреляционной связи, как и любой другой, может быть измерена эмпирическим корреляционным отношением ηэ , когда δ2 (межгрупповая дисперсия) характеризует отклонения групповых средних результативного признака от общей средней: .

где: - эмпирическое корреляционное отношение;

- общая дисперсия зависимого признака;

- межгрупповая дисперсия зависимого признака.

Говоря о корреляционном отношении как о показателе измерения тесноты зависимости, следует отличать от эмпирического корреляционного отношения – теоретическое.

Теоретическое корреляционное отношение η представляет собой относительную величину, получающуюся в результате сравнения среднего квадратического отклонения выровненных значений результативного признака, то есть рассчитанных по уравнению регрессии, со средним квадратическим отношением эмпирических (фактических) значений результативности признака σ:

Теоретическое корреляционное отношение по формулам:

где

где: - теоретическое корреляционное отношение; – общая дисперсия зависимого признака

по несгруппированным данным;

– остаточная дисперсия;

– теоретическое значение;

- простая средняя арифметическая эмпирического ряда;

– численность совокупности.

Как видно из вышеприведенных формул корреляционное отношение может находиться от 0 до 1. Чем ближе корреляционное отношение к 1, тем связь между признаками теснее. Теоретическое корреляционное отношение показывает качество теоретической линии (чем ближе к 1 тем выше качество).

Подкоренное выражение корреляционного выражения представляет собой коэффициент детерминации (мера определенности, причинности). Коэффициент детерминации показывает долю вариации результативного признака под влиянием вариации признака-фактора.

Теоретическое корреляционное выражение применяется для измерения тесноты связи при линейной и криволинейной зависимостях между результативным и факторным признаком.

Изучение связи между тремя и более связанными между собой признаками носит название множественной регрессии. При исследовании зависимостей методами множественной регрессии требуется определить аналитическое выражение связи между результативным признаком (У) и множеством факторных признаков (х1, х2,..хп).

Построение моделей множественной регрессии включает следующие этапы:

· Выбор формы связи (уравнение регрессии);

· Отбор факторных признаков;

· Обеспечение достаточного объема совокупности для получения реальных оценок.

3. Непараметрические коэффициенты связи.

Ванализе социально-экономических явлений часто приходится прибегать к различным условным оценкам с помощью рангов, а взаимосвязь между отдельными признаками измерять с помощью непараметрических коэффициентов связи.

Ранг - это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Если отдельные значения признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным средней арифметической от соответствующих номеров мест, которые определяют. Данные ранги называются связными.

Среди не параметрических методов оценки тесноты связи наибольшее значение имеют ранговые коэффициенты Спирмена (р) и Кендалла (т). Эти коэффициенты могут быть использованы для определения тесноты связи, как между количественными, так и между качественными признаками при условии, если их значения будут упорядочены или проранжированы по степени убывания или возрастания признака.

Коэффициент корреляции рангов (коэффициент Спирмена) рас­считывается по формуле (для случая, когда нет связных рангов):

где: - коэффициент корреляции рангов Спирмена;

– разность между расчетными рангами в двух рядах;

– численность совокупности.

Расчет данного коэффициента выполняется в следующей последовательности:1. Совокупность ранжируется и.т.д.

Коэффициент Спирмена принимает любые значения в интервале [-1; 1].

Пример 2.

х Ранги х у Ранги у d2 P Q
Фактический Расчетный Фактический Расчетный
            1,5 0,25    
  6,1         3,5 2,25    
  6,8         8,5 30,25    
  7,2         5,5 2,25    
  7,4   5,5     1,5      
  7,4   5,5     3,5      
  8,2         5,5 2,25    
  8,5                
  8,6         8,5 0,25    
  9,1                
    Итого         58,5    

Ранговый коэффициент Кендалла может также использоваться для измерения взаимосвязи между качественными и количественными признаками, характеризующими однородные объекты и ранжированные по одному принципу.

где: - коэффициент Кендалла;

– сумма значений рангов, расположенных

выше соответствующего порядкового номера ранга;

– сумма значений рангов, расположенных

ниже соответствующего порядкового номера ранга;

– численность совокупности.

Расчет данного коэффициента выполняется в следующей последовательности:

1) значения х ранжируются в порядке возрастания;

2) значения у располагаются в порядке, соответствующим значениям х;

3) для каждого ранга у определяется число следующих за ним значений рангов, превышающих его величину. Суммируя таким образом числа, определяют величину Р как меру соответствия последовательности рангов по х и у. Она учитывается со знаком плюс.

4) Для каждого ранга у определяется число следующих за ним рангов, меньше его величины суммарная величина фиксируется со знаком минус.

Простейшем показателем тесноты связи между двумя признаками х и у является коэффициент Фехнера. В основе расчета лежит принцип составления не абсолютных значений признаков х и у, а их отклонение от среднего уровня.

Соотношение пар совпадений или не совпадений знаков отклонений и позволяет судить о наличии и степени тесноты связи между х и у.

где: - коэффициент Фехнера;

- число совпадений знаков;

- число несовпадений знаков.

Коэффициент Фехнера может принимать как положительные, так и отрицательные значения в пределах от -1 до + 1.

 




Поделиться с друзьями:


Дата добавления: 2015-07-02; Просмотров: 916; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.071 сек.