КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Коэффициенты корреляции
7.3.1. Коэффициенты корреляции и детерминации. Можно количественно определить тесноту связи между факторами и ее направленность (прямую или обратную), вычислив: 1) если нужно определить носящую линейный характер взаимосвязь между двумя факторами, — парный коэффициент корреляции: в 7.3.2 и 7.3.3 рассмотрены операции вычисления парного линейного коэффициента корреляции по Бравэ–Пирсону (r) и парного рангового коэффициента корреляции по Спирмену (r); 2) если мы хотим определить взаимосвязь между двумя факторами, но зависимость эта явно нелинейная — то корреляционное отношение; 3) если мы хотим, определить связь между одним фактором и некоторой совокупностью других факторов — то множественный коэффициент корреляции (или, что то же самое, «коэффициент множественной корреляции»); 4) если мы хотим выявить изолированно связь одного фактора только с конкретным другим, входящим в группу факторов, воздействующих на первый, для чего приходится считать влияние всех остальных факторов неизменным — то частный (парциальный) коэффициент корреляции. Любой коэффициент корреляции (r, r) не может по абсолютной величине превышать 1, то есть –1 < r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 — корреляции нет вообще. Знак при коэффициенте корреляции определяет направленность связи: знак «+» (либо отсутствие знака) означает, что связь прямая (положительная), знак «–» — что связь обратная (отрицательная). К тесноте связи знак никакого отношения не имеет Коэффициент корреляции характеризует статистическую взаимосвязь. Но часто нужно определить другого типа зависимость, а именно: каков вклад некоторого фактора в формирование другого связанного с ним фактора. Такого рода зависимость с некоторой долей условности характеризуется коэффициентом детерминации (D), определяемым по формуле D = r2´100% (где r — коэффициент корреляции по Бравэ–Пирсону, см. 7.3.2). Если измерения проводились в шкале порядка (шкале рангов), то с некоторым ущербом для достоверности можно вместо значения r подставить в формулу значение r (коэффициента корреляции по Спирмену, см. 7.3.3). Например, если мы получили как характеристику зависимости фактора Б от фактора А коэффициент корреляции r = 0,8 или r = –0,8, то D = 0,82´100% = 64%, то есть около 2 ½ 3. Следовательно, вклад фактора А и его изменений в формирование фактора Б составляет примерно 2 ½ 3 от суммарного вклада всех вообще факторов. 7.3.2. Коэффициент корреляции по Бравэ-Пирсону. Процедуру вычисления коэффициента корреляции по Бравэ–Пирсону (r) можно применять только в тех случаях, когда связь рассматривается на базе выборок, имеющих нормальное распределение частот (нормальное распределение) и полученных измерениями в шкалах интервалов или отношений. Расчетная формула этого коэффициента корреляции: å (x i – )(y i – ) r =. n×sx×sy
Что показывает коэффициент корреляции? Во-первых, знак при коэффициенте корреляции показывает направленность связи, а именно: знак «–» свидетельствует о том, что связь обратная, или отрицательная (имеет место тенденция: с убыванием значений одного фактора соответствующие значения другого фактора растут, а с возрастанием — убывают), а отсутствие знака или знак «+» свидетельствуют о прямой, или положительной связи (имеет место тенденция: с увеличением значений одного фактора увеличиваются и значения другого, а с уменьшением — уменьшаются). Во-вторых, абсолютная (не зависящая от знака) величина коэффициента корреляции говорит о тесноте (силе) связи. Принято считать (в достаточной мере условно): при значениях r < 0,3 корреляция очень слабая, нередко ее просто не принимают в расчет, при 0,3 £ r < 5 корреляция слабая, при 0,5 £ r < 0,7) — средняя, при 0,7 £ r £ 0,9) — сильная и, наконец, при r > 0,9 — очень сильная. В нашем случае (r» 0,83) связь обратная (отрицательная) и сильная. Напомним: значения коэффициента корреляции могут находиться в интервале от –1 до +1. Выход значения r за эти пределы свидетельствует о том, что в расчетах допущена ошибка. Если r = 1, то это значит, что связь не статистическая, а функциональная — чего в спорте, биологии, медицине практически не бывает. Хотя при небольшом количестве измерений случай ный подбор значений, дающий картину функциональной связи, возможен, но такой случай тем менее вероятен, чем больше объем сопоставляемых выборок (n), то есть количество пар сравниваемых измерений. Расчетная таблица (табл. 7,1)строится соответственно формуле. Таблица 7.1. Расчетная таблица для вычисления по Бравэ–Пирсону
Поскольку s х = ï ï = ï ï» 0,42, а s y = ï ï» 0,32, r» –1,24 ï (11´0,42´0,32) » –1,24 ï 1,48 » –0,83. Иными словами, нужно очень твердо знать, что коэффициент корреляции не может по абсолютной величине превосходить 1,0. Это нередко позволяет избежать грубейших ошибок, точнее — найти и исправить допущенные при подсчетах ошибки. 7.3.3. Коэффициент корреляции по Спирмену. Как уже было сказано, применять коэффициент корреляции по Бравэ–Пирсону (r) можно только в тех случаях, когда анализируемые факторы по распределению частот близки к нормальному и значения вариант получены измерениями обязательно в шкале отношений или в шкале интервалов, что бывает, если они выражены физическими единицами. В остальных случаях находят коэффициент корреляции по Спирмену (r). Впрочем, этот коэффициент можно применять и в случаях, когда разрешено (и желательно!) применять коэффициент корреляции по Бравэ-Пирсону. Но следует иметь в виду, что процедура определения коэффициента по Бравэ-Пирсону обладает большей мощностью («разрешающей способностью»), поэтому r более информативен, чем r. Даже при большом n отклонение r может быть порядка ±10%. Таблица 7.2 Расчетная формула коэффици- xi yi Rx Ry |dR| dR2 ента корреляции по Спирмену 13,2 4,75 8,5 3,0 5,5 30,25 r = 1 – [6 ådR2 ï n(n2 –1)]. Вос 13,5 4,70 11,0 2,0 9,0 81,00 пользуемся нашим примером 12,7 5,10 4,5 6,5 2,0 4,00 для расчета r, но построим 12,5 5,40 3,0 9,0 6,0 36,00 иную таблицу (табл.7.2). 13,0 5,10 6,0 6,5 0,5 0,25 Подставим значения: 13,2 5,00 8,5 4,5 4,0 16,00 r = 1– [6´423 ½ 11(121-1)] = 13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9. 13,4 4,65 10,0 1,0 9,0 81,00 Мы видим: r оказался немного 12,4 5,60 2,0 11,0 9,0 81,00 больше, чем r, но это разли- 12,3 5,50 1,0 10,0 9,0 81,00 чие не очень велико. Ведь при 12,7 5,20 4,5 8,0 3,5 12,25 таком малом n значения r и r ådR2= 423 очень уж приблизительны, мало достоверны, их действительное значение может колебаться в широких пределах, поэтому различие r и r в 0,1 малосущественно. Обычно r рассматривают как аналог r, но только менее точный. Знаки при r и r показывает направленность связи. 7.3.4. Применение и проверка достоверности коэффициентов корреляции. Определение степени корреляционной зависимости между факторами необходимо для управления развитием нужного нам фактора: для этого приходится влиять на другие факторы, существенно влияющие на него, и нужно знать меру их действенности. Знать про взаимосвязь факторов нужно для разработки или выбора готовых тестов: информативность теста определяется корреляцией его результатов с проявлениями интересующего нас признака или свойства. Без знания корреляций невозможны любые формы отбора. Выше было отмечено, что в спортивной и вообще педагогической, медицинской и даже экономической и социологической практике большой интерес представляет определение того вклада, который один фактор вносит в формирование другого. Это связано с тем, что помимо рассматриваемого фактора-причины на целевой (интересующий нас) фактор действуют, давая каждый тот или иной вклад в него, и другие. Считается, что мерой вклада каждого фактора-причины может служить коэффициент детерминации Di = r2´100%. Так, например, если r = 0,6, т.е. связь между факторами А и Б средняя, то D = 0,62´100% = 36%. Зная, таким образом, что вклад фактора А в формирование фактора Б приблизительно 1 ½ 3, можно, например уделять целенаправленному развитию этого фактора приблизительно 1 ½ 3 тренировочного времени. Если же коэффициент корреляции r = 0,4, то D = r2 100% =16%, или примерно 1 ½ 6 — в два с лишним раза меньше, и уделять его развитию по этой логике следует соответственно лишь 1 ½ 6 часть тренировочного времени. Величины Di для разных существенных факторов дают приблизительное представление о количественном взаимоотношении их влияний на интересующий нас целевой фактор, ради совершенствования которого мы, собственно, и работаем над другими факторами (например, прыгун в длину с разбега работает над повышением скорости своего спринтерского бега, так как оно является тем фактором, который дает самый значительный вклад в формирование результата в прыжках). Напомним, что определяя D можно вместо r поставить r, хотя, конечно, точность определения оказывается ниже. На основе выборочного (рассчитанного по выборочным данным) коэффициента корреляции нельзя делать вывод о достоверности факта наличия связи между рассматриваемыми факторами вообще. Для того, чтобы сделать такой вывод с той или иной степенью обоснованности, используют стандартные критерии значимости корреляции. Их применение предполагает линейную зависимость между факторами и нормальное распределение частот в каждом из них (имея в виду не выборочное, а генеральное их представление). Можно, например, применить t-критерии Стьюдента. Его рас- четная формула: tp = [k2(n –2) ô (1–r2)]–2, где k — исследуемый выборочный коэффициент корреляции, a n — объем сопоставляемых выборок. Полученное расчетное значение t-критерия (tр)сравнивают с табличным при выбранном нами уровне значимости и числе степеней свободы n = n – 2. Чтобы избавиться от расчетной работы, можно воспользоваться специальной таблицей критических значений выборочных коэффициентов корреляции (см. выше), соответствующих наличию достоверной связи между факторами (с учетом n и a).
Таблица 7.3. Граничные значений достоверности выборочного коэффициента корреляции
Число степеней свободы при определении коэффициентов корреляции принимают равным 2 (т.е. n = 2) Указанные в табл. 7.3 значения имеют нижней границей доверительного интервала истинного коэффициента корреляции 0, то есть при таких значениях нельзя утверждать, что корреляция вообще имеет место. При значении выборочного коэффициента корреляции выше указанного в таблице можно при соответствующем уровне значимости считать, что истинный коэффициент корреляции не равен нулю. Но ответ на вопрос, есть ли реальная связь между рассматриваемыми факторами, оставляет место для другого вопроса: в каком интервале лежит истинное значение коэффициента корреляции, каким он может быть на самом деле, при бесконечно большом n? Этот интервал для любого конкретного значения r и n сопоставляемых факторов можно рассчитать, но удобнее пользоваться системой графиков (номограммой), где каждая пара кривых, построенная для не которого указанного над ними n, соответствует границам интервала.
Рис. 7.4. Доверительные границы выборочного коэффициента корреляции (a = 0,05). Каждая кривая соответствует указанному над ней n. Обратясь к номограмме на рис. 7.4, можно определить интервал значений истинного коэффициента корреляции для вычисленных значений выборочного коэффициента корреляции при a = 0,05. 7.3.5. Корреляционные отношения. Если парная корреляция нелинейна, нельзя вычислять коэффициент корреляции, определяют корреляционные отношения. Обязательное требование: признаки должны быть измерены в шкале отношений или в шкале интервалов. Можно вычислять корреляционную зависимость фактора X от фактора Y и корреляционную зависимость фактора Y от фактора X — они различаются. При небольшом объеме n рассматриваемых выборок, представляющих факторы, для вычисления корреляционных отношений можно пользоваться формулами: корреляционное отношение h x½y = ; корреляционное отношение hy ½x = . Здесь и — средние арифметические выборок X и Y, и — внутриклассовые средние арифметические. Tо есть — среднее арифметическое тех значений в выборке фактора Х, с которыми сопряжены одинаковые значения в выборке фактора Y (например, если в факторе X имеются значения 4, 6, и 5, с которыми в выборке фактора Y сопряжены 3 варианты с одинаковым значением 9, то = (4+6+5) ½ 3 = 5). Соответственно — среднее арифметическое тех значений в выборке фактора Y, с которыми сопряжены одинаковые значения в выборке фактора Х. Приведем пример и проведем расчет: Х: 75 77 78 76 80 79 83 82; Y: 42 42 43 43 43 44 44 45. Таблица 7.4 Расчетная таблица
Следовательно, h y½x = » 0,63. 7.3.6. Частные и множественный коэффициенты корреляции. Чтобы оценить зависимость между 2-мя факторами, вычисляя коэффициенты корреляции, мы как бы по умолчанию предполагаем, что никакие другие факторы на эту зависимость никакого воздействия не оказывают. В реальности дело обстоит не так. Так, на зависимость между весом и ростом очень существенно влияют калорийность питания, величина систематической физической нагрузки, наследственность и др. Когда нужно при оценке связи между 2-мя факторами учесть существенное влияние других факторов и в то же время как бы изолироваться от них, считая их неизменными, вычисляют частные (иначе — парциальные) коэффициенты корреляции. Пример: нужно оценить парные зависимости между 3-мя существенно действующими факторами X, Y и Z. Обозначим r XY(Z) частный (парциальный) коэффициент корреляции между факторами X и Y (при этом величину фактора Z считаем неизменной), r ZX(Y) — частный коэффициент корреляции между факторами Z и X (при неизменном значении фактора Y), r YZ(X) — частный коэффициент корреляции между факторами Y и Z (при неизменном значении фактора X). Используя вычисленные простые парные (по Бравэ-Пирсону) коэффициенты корреляции r XY, r XZ и r YZ, м ожно вычислить частные (парциальные) коэффициенты корреляции по формулам: rXY – r XZ´ r YZ r XZ – r XY´ r ZY r ZY–rZX´ r YZ r XY(Z)=; r XZ(Y)=; r ZY(Х)= Ö(1– r 2XZ)(1– r 2YZ) Ö(1– r 2XY)(1– r 2ZY) Ö(1– r 2ZX)(1– r 2YX) И частные коэффициенты корреляции могут принимать значения от –1 до +1. Возведя их в квадрат, получают соответствующие частные коэффициенты детерминации, называемые также частными мерами определенности (умножив на 100, выразим в %%). Частные коэффициенты корреляции больше или меньше отличаются от простых (полных) парных коэффициентов, что зависит от силы влияния на них 3-го фактора (как бы неизменного). Нулевая гипотеза (Н0), то есть гипотеза об отсутствии связи (зависимости) между факторами X и Y, проверяется (при общем количество признаков k) вычислением t-критерия по формуле: t Р= r XY(Z) ´ (n –k)1 ½ 2´ (1– r 2XY(Z)) –1 ½ 2. Если t Р < t an, гипотеза принимается (считаем, что зависимости нет), если же t Р ³ t an — гипотеза опровергается, то есть считается, что зависимость действительно имеет место. t an берется по таблице t -критерия Стьюдента, причем k — количество учитываемых факторов (в нашем примере 3), число степеней свободы n = n – 3. Другие частные коэффициенты корреляции проверяют аналогично (в формулу вместо r XY(Z) подставляют соответственно r XZ(Y) или r ZY(X)). Таблица 7.5 Исходные данные
Приведем пример вычисления частного коэффициента корреляции. Здесь фактор X — возраст, фактор Y — количество подтягиваний на перекладине, Z — количество подходов к выполнению подтягивания в течение предшествовавшего месяца (данные сведены в табл. 7.4). Расчет парных коэффициентов корреляции по Бравэ-Пирсону дает значения: r XY = 0,25; r XZ = 0,71; r YZ = 0,71. Тогда частный коэффициент корреляции 0,25 – 0,71´0,71 0,25 – 0,50 r XY(Z) = @ @ – 0,5. Ö (1 – 0,712)(1 – 0,712) Ö (1 – 0,5)(1 – 0,5) Для оценки зависимости фактора Х от совместного действия нескольких факторов (здесь факторы Y и Z), вычисляют значения простых парных коэффициентов корреляции и, используя их, вычисляют множественный коэффициент корреляции r X(YZ): Ö r 2XY + r 2XZ – 2 r XY ´ r XZ ´ r YZ r X(YZ) =. Ö 1 – r 2YZ 7.2.7. Коэффициент ассоциации. Нередко требуется количественно оценить зависимость между качественными признаками, т.е. такими признаками, которые нельзя представить (охарактеризовать) количественно, которые неизмеримы. Например, стоит задача выяснить, существует ли зависимость между спортивной специализацией занимающихся и такими личностными свойствами, как интравертность (направленность личности на явления собственного субъективного мира) и экстравертность (направленность личности на мир внешних объектов). Условные обозначения представим в табл. 7.6. Таблица 7.6.
Очевидно, что числами, имеющимися в нашем распоряжении, здесь могут быть только частоты распределений. В таком случае вычисляют коэффициент ассоциации (другое название «коэффициент сопряженности»). Рассмотрим простейший случай: связь между двумя парами признаков, при этом вычисленный коэффициент сопряженности называют тетрахорическим (см. табл.). Таблица 7.7.
Вычисления производим по формуле: ad – bc 100 – 225 –123 r A = = @ @ –0,176. Ö (a + b)(c + d)(a + c)(b + d) Ö 35´20´35´20 700 Результат говорит о том, что то ли занятия гимнастикой формируют интравертность, то ли в гимнастику приходят преимущественно интраверты, в то время как в спортивных играх обратная ситуация. Но, поскольку значение коэффициента невелико, следует проверить нулевую гипотезу, для чего используют c2-критерий Пирсона. Его расчетное значение опре деляют по формуле c2Р = n´ r A. В рассматриваемом нами примере c2Р = 55 ´ 0,176 = 9,682. Поскольку при числе степеней свободы n = 1 и при a = 0,01 табличное (критическое) значение c2an= 6,63 < c2Р , можно утверждать, что нулевая гипотеза отвергается, то есть зависимость достоверна при р < 0,01. Вычисление коэффициентов ассоциации (коэффициентов сопряжения) при большем количестве признаков связано с расчетами по аналогичной матрице соответствующего порядка.
Дата добавления: 2015-04-30; Просмотров: 7552; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |