Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Корреляционный анализ

Тема 4. Корреляционный и регрессионный анализ

Различные явления и показатели в нашей жизни не являются независимыми, а связаны между собой (цена товара и спрос на него, рост человека и его вес и.т.д.).

Эта зависимость может быть строго функциональной (детермированной) и статистической.

Зависимость между и называется функциональной, когда каждому значению одного признака соответствует одно единственное значение другого признака. (Примером такой однозначной зависимости может служить зависимость площади круга от радиуса).

В реальной действительности чаще встречается иная связь между явлениями, когда каждому значению одного признака могут соответствовать несколько значений другого (например, связь между возрастом детей и их ростом).

Форма связи, при которой один или несколько взаимосвязанных показателей (факторов) оказывают влияние на другой показатель (результат) не однозначно, а с определенной долей вероятности, называется статистической. В частности, если при изменении одной из величин изменяется среднее значение другой, то в этом случае статистическую зависимость называют корреляционной.

В зависимости от числа факторов, включаемых в модель, различают парную корреляцию (связь двух переменных) и множественную (зависимость результата от нескольких факторов).

Мы будем рассматривать парную корреляцию (зависимость изучаемого признака от одного признака ).

Корреляционный анализ состоит в определении направления, формы и степени связи (тесноты) между двумя случайными признаками и . В случае, если изучается связь двух признаков, то речь идёт о парной корреляции.

По направлению линейная корреляция бывает положительной (прямой), если при увеличении значений одной переменной увеличивается значение другой, и отрицательной (обратной), если при увеличении значений одной переменной, уменьшается значение другой.

По форме корреляционная связь может быть линейной (прямолинейной), когда изменение значений одного признака приводит к равномерному изменению другого (математически описывается уравнением прямой ), и криволинейной, когда изменение значений одного признака приводит к неодинаковым изменениям другого (математически она описывается уравнениями кривых линий, например гиперболы , параболы и т.д.).

Наиболее простым, приближенным способом выявления корреляционной связи является графический.

При небольшом объеме выборки экспериментальные данные представляют в виде двух рядов связанных между собой значений и . Если каждую пару представить точкой на плоскости , то получится так называемое корреляционное поле (рис.1).

Если корреляционное поле представляет собой эллипс, ось которого расположена слева направо и снизу вверх (рис.1в), то можно полагать, что между признаками существует линейная положительная связь.

Если корреляционное поле вытянуто вдоль оси слева направо и сверху вниз (рис.1г), то можно полагать наличие линейной отрицательной связи.

В случае же если точки наблюдений располагаются на плоскости хаотично, т.е корреляционное поле образует круг (рис.1а), то это свидетельствует об отсутствии связи между признаками.

На рис.1б представлена строгая линейная функциональная связь.

Под теснотой связи между двумя величинами понимают степень сопряженности между ними, которая обнаруживается с изменением изучаемых величин. Если каждому заданному значению соответствуют близкие друг другу значения , то связь считается тесной (сильной); если же значения сильно разбросаны, то связь считается менее тесной. При тесной корреляционной связи корреляционное поле представляет собой более или менее сжатый эллипс.

Количественным критерием направления и тесноты линейной связи является коэффициент линейной корреляции.

Коэффициенты корреляции, определяемый по выборочным данным, называются выборочным коэффициентом корреляции, который вычисляется по формуле:

где , - текущие значения признаков и ; и - средние арифметические значения признаков; - среднее арифметическое произведений вариант, и - средние квадратические отклонения этих признаков; - объём выборки.

 

 
 

Для вычисления коэффициента корреляции достаточно принять предположение о линейной связи между случайными признаками. Тогда вычисленный коэффициент корреляции и будет мерой этой линейной связи.

Коэффициент линейной корреляции принимает значения от −1 в случае строгой линейной отрицательной связи, до +1 в случае строгой линейной положительной связи (т.е. ). Близость коэффициента корреляции к 0 свидетельствует об отсутствии линейной связи между признаками, но не об отсутствии связи между ними вообще.

Коэффициенту корреляции можно дать наглядную графическую интерпретацию.

Если , то между признаками существует линейная функциональная зависимость вида , что означает полную корреляцию признаков. При , прямая имеет положительный наклон по отношению к оси , при - отрицательный (рис. 1б).

Если , точки находятся в области ограниченной линией, напоминающей эллипс. Чем ближе коэффициент корреляции к , тем уже эллипс и тем теснее точки сосредоточены вблизи прямой линии. При говорят о положительной корреляции. В этом случае значения имеют тенденцию к возрастанию с увеличением (рис.1в). При говорят об отрицательной корреляции; значения имеют тенденцию к уменьшению с ростом (рис.1г).

Если , то точки располагаются в области, ограниченной окружностью. Это означает, что между случайными признаками и отсутствует корреляция, и такие признаки называются некоррелированными (рис.1а).

Также коэффициент линейной корреляции может быть близок (равен) нулю, когда между признаками есть связь, но она нелинейная (рис.2).

 

При оценке тесноты связи можно использовать следующую условную таблицу:

Теснота связи Величина коэффициента корреляции при наличии
прямой связи (+) обратной связи (−)
Связь отсутствует
Связь слабая
Связь умеренная
Связь сильная
Полная функциональная

 

Пример 1. В таблице приведены значения абсолютной поверхности тела , и его массы , кг у пловцов-перворазрядников.

1,86 1,76 1,74 1,80 1,68 1,81 1,71 1,80
               

Определить тесноту взаимосвязи между заданными признаками.

Решение. Заметим вначале, что объем выборки . Представим ряды значений графически.

Из рисунка видно, что точки сосредоточены в области, очерченной вытянутым эллипсом, поэтому можно предположить наличие сильной положительной линейной связи между показателями.

Для определения тесноты взаимосвязи воспользуемся коэффициентом линейной корреляции. Для сокращения расчетов будем постепенно формировать таблицу.

 
 

  1,86   0,09   0,36 0,0081  
  1,76   -0,01 -1 0,01 0,0001  
  1,74   -0,03 -2 0,06 0,0009  
  1,80   0,03   0,06 0,0009  
  1,68   -0,09 -5 0,45 0,0081  
  1,81   0,04   0,04 0,0016  
  1,71   -0,06 -2 0,12 0,0036  
  1,80   0,03   0,09 0,0009  
S 14,16       1,19 0,0242  

 

1. Вычислим средние арифметические значения обоих признаков:

, .

2. Найдем отклонения от средних арифметических и и занесем их в 4-й и 5-й столбцы таблицы.

3. Умножим на и сложим полученные произведения (последняя строка в 6-м столбце).

4. Возведем отклонения в квадрат и сложим (последняя строка в 7-м и 8-м столбцах).

5. Найдем средние квадратические отклонения, пользуясь формулой:

, .

6. Исходя из формулы коэффициента, получим:

.

7. Вывод: полученный коэффициент корреляции указывает на сильную линейную связь между абсолютной поверхностью тела и его массой. Эта связь положительная и означает, что увеличение абсолютной поверхности тела приводит к увеличению его массы и наоборот.

 

Встречаются задачи, в которых коэффициент линейной корреляции не применим. Это такие задачи, в которых значения признаков не распределены по нормальному закону. Например, такой признак, как место, занятое в данном соревновании, не распределен по нормальному закону. В таких случаях применяют ранговый коэффициент корреляции Спирмена:

,

где - объем выборки; - разность рангов обоих признаков.

Напомним, что номер признака (в данном примере - место в соревновании) называется рангом.

 

Пример 2. Определить тесноту взаимосвязи между результатами, показанными легкоатлетами в беге на 100 м, и местом, занятым ими же в соревновании по тройному прыжку. Данные приведены в табл.

Результат на 100м (х,с) 10,7 10,6 10,7 10,5 10,9 10,4 10,3 10,7 10,7
Место в тр.прыжке (у)                  

 

Решение. При решении этой задачи лучше все вычисления постепенно заносить в таблицу.

1. Результаты в беге ранжируем, то есть располагаем их в порядке возрастания:

10,3; 10,4; 10,5; 10,6; 10,7; 10,7; 10,7; 10,7; 10,9.

Для тех результатов, которые повторяются несколько раз, ранг берем как среднее рангов этих результатов. Результат 10,7 повторяется четыре раза, занимая в ряду ранги 5, 6, 7, 8. Тогда

.

  10,7   6,5   1,5 2,25
  10,6   4,0   2,0 4,00
  10,7   6,5   0,5 0,25
  10,5   3,0   -1,0 1,00
  10,9   9,0   6,0 36,00
  10,4   2,0   -5,0 25,00
  10,3   1,0   -8,0 64,00
  10,7   6,5   -1,5 2,25
  10,7   6,5   5,5 30,25
S            

Для ранг - это занятое место, поэтому , и 5-й столбец таблицы повторяет 3-й столбец.

2. Находим разность рангов: (предпоследний столбец).

3. Разность рангов возводим в квадрат и суммируем: .

4. Находим: .

5. Вывод: между исследуемыми признаками существует средне-выраженная отрицательная зависимость, показывающая, что при уменьшении признака (времени бега на 100 м) результат прыжка в длину увеличивается.

 

<== предыдущая лекция | следующая лекция ==>
Тема 3. Статистическая проверка гипотез | Оценка достоверности коэффициента корреляции
Поделиться с друзьями:


Дата добавления: 2014-01-04; Просмотров: 684; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.044 сек.