Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Оценка тесноты линейной и нелинейной связи




 

Одним из основных методов статистического анализа взаимозависимости показателей является корреляционный анализ. При проведении корреляционного анализа предполагают, что данные наблюдений можно считать случайными и выбранными из генеральной совокупности, распределенной по нормальному закону. С помощью корреляционного анализа оценивают не только тесноту связи между показателями, но и решаются задачи отбора факторов, оказывающих наиболее существенное влияние на зависимый признак, обнаружение ранее неизвестных причинных связей. Корреляционный анализ не выявляет причину связей между показателями, но устанавливает количественную меру этих связей и подтверждает достоверность суждений о наличии связи.

При проведении корреляционного анализа вся совокупность данных рассматривается как множество переменных (факторов), каждая из которых содержит n наблюдений.

Основными средствами анализа являются парные коэффициенты корреляции, частные коэффициенты корреляции и множественные коэффициенты корреляции. Коэффициенты не имеют размерности, следовательно, сопоставимы для различных статистических показателей.

Парный коэффициент корреляции характеризует тесноту линейной зависимости между двумя переменными на фоне действия всех остальных показателей, входящих в модель.

При изучении взаимосвязи между двумя переменными их обычно обозначают X и Y. Для двух переменных и коэффициент парной корреляции определяется по формуле:

,

где - оценки дисперсий величин X и Y. Эти оценки характеризуют степень разброса значений вокруг своего среднего значения соответственно, или вариабельность (изменчивость) этих переменных на множестве наблюдений.

Оценки дисперсий определяются по формуле:

, .

Величина парного коэффициента корреляции лежит в пределах от -1 до +1. Если корреляция между случайными величинами положительная, то при возрастании одной случайной величины другая величина имеет тенденцию в среднем возрастать. Если корреляция между случайными величинами отрицательная, то при возрастании одной случайной величины другая величина имеет тенденцию в среднем убывать.

Чем ближе коэффициент корреляции к ±1, чем сильнее зависимость между переменными. Близость абсолютной величины коэффициента корреляции к нулю не означает, что переменные статистически независимы, а лишь указывает на отсутствие линейной связи между ними, что не отрицает возможность существования иной формы зависимости между переменными.

В практике статистического анализа встречаются случаи ложной (или бессмысленной) корреляции, когда высокое значение коэффициента корреляции обнаруживает существование достаточно сильной зависимости признаков, в действительности не имеющих причинной связи между собой. Классический пример ложной корреляции приведен в 20 веке известным российским статистиком А.А. Чупровым: если в качестве независимой переменной взять число пожарных команд в городе, а в качестве зависимой переменной сумму убытков от пожаров за год, то между ними есть корреляционная зависимость, т.е. чем больше пожарных машин, тем больше сумма убытков. На самом деле здесь нет причинно-следственной связи, а лишь следствия общей причины – величины города.

Обычно ложные корреляции получают при измерении зависимости временных рядов двух показателей, не связанных причинной зависимостью. Примерами ложных корреляций может служить совпадение тенденции роста потребительских цен и роста потребительских доходов в постоянных ценах и т.п. В этом случае тенденции процессов совпадают при отсутствии между показателями логически обоснованной взаимосвязи. Одним из путей выявления ложной корреляции является содержательный анализ проблемы. В дальнейшем будем полагать, что между изучаемыми переменными существует причинная связь и, следовательно, применение корреляционного анализа имеет логическое основание.

Поскольку оценка тесноты связи с помощью коэффициента корреляции проводится, как правило, на основе ограниченной информации об изучаемом явлении, то возникает вопрос: насколько правомерно наше заключение по выборочным данным о наличии корреляционной связи в той генеральной совокупности, из которой была извлечена выборка?

В связи с этим возникает необходимость оценки значимости линейного коэффициента корреляции, позволяющая распространить выводы по результатам выборки на генеральную совокупность. В зависимости от объема выборочной совокупности предлагаются различные методы оценки существенности линейного коэффициента корреляции.

При малых выборках оценка значимости коэффициента корреляции выполняется с использованием t -критерия Стьюдента. Проверяется гипотеза равенства нулю коэффициента корреляции Н0: ρ=0. При этом фактическое (наблюдаемое) значение t -критерия Стьюдента определяется по формуле:

.

Найденное по этой формуле сравнивается с критическим значением t -критерия, которое выбирается из таблицы значений t -критерия Стьюдента с учетом заданного уровня значимости α и числа степеней свободы (n-2). Если , то полученное значение коэффициента корреляции признается значимым, т.е. нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается с вероятностью ошибки α. Таким образом делается вывод, что между исследуемыми переменными есть тесная статистическая взаимосвязь.

Если совокупность данных состоит из переменной и m независимых переменных (факторов) Х, каждая из которых содержит n наблюдений, то исходные данные для анализа можно записать в матричном виде:

.

На основании данных, содержащихся в этой матрице, вычисляется матрица коэффициентов парной корреляции R:

,

Матрица является симметричной относительно главной диагонали. Анализ матрицы парной корреляции используется при построении моделей множественной регрессии.

Пример 7.1. В таблице приведены данные, характеризующие деятельность предприятия. Построить матрицу коэффициентов парной корреляции R. Оценить силу связи между объясняемой переменной и объясняющими переменными при уровне значимости α=0,05.

Период Прибыль от реализации продукции в % от общего объема прибыли, Доля продажи в общем объеме продаж в %, Отпускная цена продукции в руб., Коэффициент издержек на единицу продукции,
  10,6 10,9 10,8 11,1 12,7 13,2 13,8 14,7 15,8 15,4 20,1 20,6 18,9 18,4 17,3 19,6 20,1 26,1 26,5 24,2 24,4   32,3 30,2 38,6 28,7 39,5 40,3 47,6 48,4 40,8 46,7 48,6 48,7

 

Для проведения корреляционного анализа используем стандартную офисную программу EXCEL. Для построения корреляционной матрицы воспользуемся инструментом КОРРЕЛЯЦИЯ настройки ПАКЕТ АНАЛИЗА (рис.7.2), запуск которого осуществляется следующим образом:

СервисАнализ данныхКорреляцияОК.

 

Рис.7.2. Использование инструмента КОРРЕЛЯЦИЯ.

 

В диалоговом окне КОРРЕЛЯЦИЯ в поле Входной интервал необходимо ввести диапазон ячеек, содержащих исходные данные. Исходные данные для корреляционного анализа должны располагаться в смежных диапазонах ячеек. Флажок Метки в первой строке – устанавливается в активное состояние, если выделены и заголовки столбцов. На рис. 7.3. показана экранная форма вычисления матрицы коэффициентов парной корреляции с помощью инструмента КОРРЕЛЯЦИЯ.

Рис. 7.3. Вычисление матрицы коэффициентов парной корреляции с помощью инструмента КОРРЕЛЯЦИЯ

 

Результатом работы инструмента КОРРЕЛЯЦИЯ является таблица, содержащая рассчитанные линейные коэффициенты корреляции (рис.7.4.).

 

Рис. 7.4. Матрица коэффициентов парной корреляции

 

Результаты расчета в EXCEL приведены в таблице 7.1.

Таблица 7.1.

Матрица парных корреляций

Переменная Y X1 X2 X3
Y   0,612 0,918 0,847
X1 0,612   0,731 0,257
X2 0,918 0,731   0,755
X3 0,847 0,257 0,755  

 

Оценку значимости коэффициентов корреляции выполним с использованием t -критерия Стьюдента:

.

Для коэффициента корреляции : .

Табличное значение критерия Стьюдента при уровне значимости α=0,05 и числе степеней свободы 10 равно 2,228. Так как , то полученное значение коэффициента корреляции признается значимым. Таким образом, делаем вывод, что между прибылью от реализации продукции и долей продаж существует статистическая взаимосвязь.

Аналогично проводим оценку значимости cилы связи между остальными переменными.

Для коэффициента корреляции : . Делаем вывод, что между прибылью от реализации продукции и отпускной ценой продукции существует статистическая взаимосвязь.

Для коэффициента корреляции : . Делаем вывод, что между прибылью от реализации продукции и коэффициентом издержек существует статистическая взаимосвязь.

Однако одной корреляционной матрицей полностью описать зависимости между величинами нельзя. В связи с этим в многомерном корреляционном анализе рассматриваются еще две задачи:

1. Определение тесноты связи между двумя величинами при фиксировании или исключении влияния остальных величин;

2. Определение тесноты связи одной случайной величины с совокупностью остальных величин, включенных в анализ.

Эти задачи решаются соответственно с помощью коэффициентов частной корреляции и множественной корреляции.

Если рассматриваемые случайные величины коррелируют друг с другом, то на величине коэффициента парной корреляции частично сказывается влияние других величин. В связи с этим возникает необходимость исследования частной корреляции между величинами при исключении влияния других случайных величин.

Частный коэффициент корреляции характеризует тесноту линейной зависимости между двумя переменными при исключении влияния всех остальных показателей, входящих в модель.

Выборочный частный коэффициент корреляции вычисляется по формуле:

,

где - алгебраические дополнения к соответствующим элементам матрицы R. , где - минор, определитель матрицы, получаемый из матрицы R, путем вычеркивания j -й строки и k -го столбца. Частный коэффициент корреляции, так же как и парный коэффициент корреляции, изменяется в пределах от -1 до +1. Значимость частного коэффициента корреляции, так же как и парного коэффициента, проверяется по t -критерию Стьюдента:

,

где m – число фиксируемых факторов.

Решение второй задачи (определение тесноты связи одной случайной величины с совокупностью остальных величин, включенных в анализ) осуществляется с помощью коэффициента множественной корреляции.

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной (зависимой) и остальными, входящими в модель. Чем выше значение коэффициента множественной корреляции, тем сильнее связь зависимой переменной с объясняющими переменными.

Выборочный коэффициент множественной корреляции определяется по формуле:

,

где | R | - определитель корреляционной матрицы R, - алгебраическое дополнение элемента той же матрицы R.

Коэффициентом детерминации R2 называется квадрат множественного коэффициента корреляции. Он характеризует долю дисперсии результативной переменной, обусловленной влиянием всех остальных переменных, входящих в модель.

Величина множественного коэффициент корреляции и коэффициента детерминации лежит в пределах от 0 до 1.

Проверка значимости коэффициента множественной корреляции (коэффициента детерминации) осуществляется по F -критерию Фишера. Проверяется гипотеза равенства нулю множественного коэффициента корреляции Н0: . При этом фактическое (наблюдаемое) значение F - критерия Фишера определяется по формуле:

,

где n – число наблюдений;

p – количество параметров модели.

Найденное по этой формуле сравнивается с табличным значением F- критерия, которое выбирается из таблицы значений F - критерия Фишера с учетом заданного уровня значимости α и степенями свободы . Если , то коэффициент R2 значимо отличается от нуля.

Если между переменными существует нелинейная зависимость, то использовать коэффициент корреляции в качестве характеристики тесноты связи не имеет смысла. В этом случае для измерения тесноты связи можно воспользоваться таким показателем, как индекс корреляции (эмпирическое корреляционное отношение). Как показатель тесноты связи эмпирическое корреляционное отношение имеет более универсальный характер, поскольку может использоваться в случае линейной и нелинейной зависимости между показателями, а факторный признак может быть не только количественным, а ранговым и даже номинальным.

Корреляционное отношение определяется как отношение межгрупповой дисперсии к общей дисперсии:

,

где - межгрупповая дисперсия;

- общая дисперсия.

Дисперсии определяются по формулам:

, ,

где k – число групп;

- среднее значение результативного признака в j – группе;

- общая средняя результативного признака;

- число наблюдений в j –ой группе, , .

Применение корреляционного отношения возможно, если характер выборочных данных (количество, плотность расположение на диаграмме рассеивания) допускает, во-первых, их группирование по оси объясняющей переменной, и, во-вторых, возможность подсчета частных математических ожиданий внутри каждого интервала группирования.

Для определения эмпирического корреляционного отношения совокупность значений результативного признака разбивается на отдельные группы по определенному факторному признаку. Для каждой из этих групп вычисляются соответствующие групповые средние результативного признака. Взаимосвязь между факторным признаком и результативным проявляется в том, что с изменением факторного признака систематически возрастает или убывает среднее значение результативного признака. Например, группируя предприятия, производящие одну и ту же продукцию по техническому уровню производства (по уровню фондовооруженности) и вычислив для каждой группы среднюю выработку на одного работающего, можно установить наличие связи между названными факторами. Изменение групповых средних от группы к группе свидетельствует о наличии связи результативного признака с факторным признаком, а примерное равенство групповых средних – об отсутствии связи.

Величина корреляционного отношения принимает значения от 0 до 1. Близость ее к нулю говорит об отсутствии связи, близость к единице о тесной связи. В случае линейной связи величина эмпирического корреляционного отношения равна коэффициенту корреляции. Эмпирическое корреляционное отношение не может быть меньше коэффициента корреляции, что позволяет использовать величину разницу в качестве меры отклонения регрессионной зависимости от линейного вида.

Пример 7.2. По корреляционной матрице примера 7.1 построить матрицу коэффициентов частных корреляций. Проверить значимость частных коэффициентов при уровне значимости α=0,1.

Определим частный коэффициент корреляции :

,

,

,

,

.

Определим частный коэффициент корреляции :

,

,

,

,

.

Аналогично определяем остальные коэффициенты частных корреляций, результаты расчета приведены в таблице 7.2.

Таблица 7.2.

Матрица частных корреляций

Переменная Y X1 X2 X3
Y   0,282 0,435 0,609
X1 0,282   0,609 -0,673
X2 0,435 0,609   0,349
X3 0,609 -0,673 0,349  

 

Оценку значимости коэффициентов корреляции выполним с использованием t -критерия Стьюдента:

Для коэффициента частной корреляции : .

Табличное значение критерия Стьюдента при уровне значимости α=0,1 и числе степеней свободы 8 равно 1,860. Так как , то полученное значение коэффициента частной корреляции признается незначимым.

Для коэффициента частной корреляции : . Так как , то полученное значение коэффициента частной корреляции признается незначимым.

Для коэффициента частной корреляции : . Так как , то полученное значение коэффициента корреляции признается значимым.

Аналогично проводим оценку значимости между остальными переменными.

Пример 7.3. По корреляционной матрице примера 7.1 вычислить множественный коэффициент корреляции и при уровне значимости α=0,05 оценить его значимость.

Выборочный коэффициент множественной корреляции определяется по формуле:

,

где | R | - определитель корреляционной матрицы R, - алгебраическое дополнение элемента той же матрицы R.

Определитель корреляционной матрицы R равен:

.

 

.

Проверка значимости коэффициента множественной корреляции проведем по F -критерию Фишера. Наблюдаемое значение F - критерия Фишера равно:

,

Табличное значение F- критерия при уровне значимости α=0,05 и числе степеней свободы . Так как , то связь статистически значима.

 

 




Поделиться с друзьями:


Дата добавления: 2014-10-22; Просмотров: 4987; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.084 сек.