Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Лекция 4. Корреляционный анализ

 

Понятие о корреляции. В ряде случаев важно знать какова зависимость между вариацией двух или нескольких признаков, изменяются ли два признака самостоятельно, независимо друг от друга, или вариация одного признака связана с вариацией другого.

Существуют две категории связей (зависимостей) между признаками: функциональные и корреляционные (статистические).

При функциональных зависимостях каждому значению одной переменной величины соответствует определенное значение другой переменной. Например, между радиусом окружности (R) и длиной окружности (С) существует функциональная зависимость, выражаемая формулой:

С=2πR

При корреляционных связях численному значению одной переменной соответствует множество значений другой переменной. Например, между количеством внесеннных удобрений и урожайностью существует бесспорная зависимость. Но это не значит что определенному количеству удобрений соответствует определенная величина урожая, ему соотвествует несколько величин урожая.

Таким образом, корреляционная связь проявляется лишь в среднем для всей совокупности наблюдений.

В биологии чаще всего встречаются корреляционные зависимости, но не функциональные. Изучение корреляций имеет большое практическое значение.

Типы корреляций. При положительной корреляции зависимость между признаками прямая: при увеличении одного признака увеличивается и другой. При отрицательной корреляции зависимость между признаками обратная: при увеличении одного признака, другой уменьшается.

Кроме того, различают прямолинейную и криволинейную корреляции. При прямолинейной корреляции одинаковым приращениям одного признака соответствуют одинаковые приращения другого признака. При криволинейной корреляции одинаковым приращениям одного признака соответствуют разные приращения другого признака.

Для предварительного анализа типа корреляций обычно строят корреляционные решетки (рис.1).

Коэффициент корреляции. Поскольку признаки могут измеряться в разных единицах, для оценки сопряженности их варьирования прибегают к нормированному отклонению (t) – отклонению отдельных вариант от среднего, выраженному в числе сигм.

Оказалось, что мерой связи может быть среднее произведение нормированных отклонений двух признаков:

Это среднее произведение обладает двумя ценными свойствами:

1) среднее произведение нормированных отклонений двух признаков варьирует от 0 до 1; при полном отсутствии связи между признаками это произведение равно 0, при функциональной связи между признаками это произведение равно 1;

2) знак произведения будет разным в зависимости от типа связи: положительный знак соотвествует прямой корреляции, отрицательный - обратной.

 

Рис.1. Распределение вариант в корреляционных решетках при корреляциях, отличающихся по знаку и величине

 

Это среднее произведение двух нормированных отклонений и получило название - коэффициент корреляции:

где xi – значение вариант одного признака; – среднее арифметическое одного признака; yi – значение вариант другого признака; - среднее арифметическое другого признака; σx – среднее квадратическое отклонение одного признака; σy – среднее квадратическое отклонение другого признака; N – объем выборки.

Приведенная формула является смысловой. Рабочая формула для вычисления коэффициента корреляции будет следующей:

Коэффициент детерминации представляет собой квадрат коэффициента корреляции:

Он отображает долю вариации, которая объясняется сопряженностью вариации между анализируемыми признаками.

Например, если r=0,7, то r2=0,49, то есть, 49% изменчивости одного признака объясняются изменчивостью другого признака.

Следовательно, в тех случаях когда «r» ниже 0,7 корреляции следует считать средними или ниже средней величины. В случае, если r>0,7 корреляцию средует считать высокой.

Оценка достоверности выборочного коэффициента корреляции.

Достоверность коэффициента корреляции можно оценивать тремя способами:

1) по значению коэффициента «t». В совокупностях, объем которых больше 100, коэффициент «t» вычисляется по формуле:

Если t≥tst нулевая гипотеза о том, что корреляция отсутствует, отвергается.

При меньших объемах выборок коэффициент «t» вычисляется по формуле:

2) другим способом оценки достоверности коэффициента корреляции является обращение к специальной таблице, где показаны критические значения коэффициентов корреляции при различном числе степеней свободы (df=N-2). Если эмпирический коэффициент корреляции оказался больше критического корреляция считается достоверной при определенном уровне значимости;

3) третьим способом оценки достоверности является перевод значения «r» в «z». Дело в том, что распределение коэффициента «r» в значительной степени отклоняется от нормального. Величина же «z» распределена почти нормально.

 

 

Перевод «r» в «z» осуществляется по специальной таблице. Средняя ошибка для «z» вычисляется по формуле:

Затем вычисляется коэффициент «t» по формуле:

Если значение коэффициента «t» меньше стандартного корреляция не доказана.

Определение достоверности разницы между «r». С помощью числа «z» можно определить достоверность разницы между двумя коэффициентами корреляции:

При t>tst нулевая гипотеза об отсутствии различий отбрасывается.

Доверительный интервал коэффициента корреляции генеральной совокупности. Если достоверность выборочного коэффициента корреляции доказана, с помощью его средней ошибки можно определить доверительный интервал коэффициента корреляции генеральной совокупности (ρ).

Для этого вначале определяют доверительный интервал для «z» (это деляется из-за того, что распределение величин «r» асимметрично):

Затем переводят «z» в «r» и получают окончательный доверительный интервал.

Корреляционное отношение. Коэффициент корреляции оценивает только прямолинейную компоненту связи между признаками. На самом деле большинство связей в биологии в той или иной степени криволинейны. Корреляционное отношение (η) измеряет как прямолинейную, так и криволинейную зависимости.

Если η=r, то связь прямолинейная (линейная). Чем больше «η» превышает «r», тем сильнее выражена криволинейность (нелинейность) связи.

В отличие от коэффициента корреляции для пары признаков рассчитываются два корреляционных отношения: одно отражает зависимость признака «у» от признака «х» - ηу/х; другое отражает зависимость признака «х» от признака «у» - ηх/у. Чем сильнее связь и чем ближе она к прямолинейной тем меньше разница между ηу/х и ηх/у.

Другое отличие от коэффициента корреляции состоит в том, корреляционное отношение принимает значения не от -1 до +1, а от 0 до +1. При этом форму связи следует определять по внешнему виду корреляционной решетки.

Корреляционное отношение есть частное от деления среднего квадратического отклонения, которое характеризует вариацию первого признака обусловленную его зависимостью от второго признака (σу/х) на среднее квадратическое отклонение общей изменчивости первого признака (σу):

 

Оценку достоверности корреляционного отношения рекомендуется проводить по его квадрату, используя критерий Фишера:

Где:

k - число классов в вариационном ряду

N – объем выборки (число пар наблюдений)

Теоретическое значение F берется при:

df1=k-1

df2=N-k

Если эмпирическое значение F больше F05 корреляционное отношение достоверно.

Критерии нелинейности связи. Абсолютно прямолинейная связь в биологии такая же редкость, как и строго нормальное распределение признака. На практике небольшие отклонения связи от линейной можно не принимать в расчет и использовать линейные методы, облегчающие анализ связи между признаками.

Важно, однако, не переступить тот порог, по достижении которого отклонение связи от линейной становится существенным. Для этого и применяют критерии нелинейности связи. Обычно используют два таких критерия:

1) критерий Блэкмана (B):

где:

N – объем выборки

η2 – большее из двух корреляционных отношений

r – коэффициент корреляции

 

2) критерий Фишера (F):

где:

kx – число классов в ряду признака «х»

N – объем выборки

ηу/х2 – одно их корреляционных отношений

Рассчитанное значение F сравнивается по обычным правилам со стандартным значением при числах степеней свободы:

df1= kx-2

df2=N-kx

Критерий Фишера считается более точным.

Корреляция и причинность. Если корреляция доказана, то это значит, что существует сопряженность в вариации признаков. Но из этого факта нельзя делать вывод о наличии причинной зависимости между изучаемыми признаками.

Иногда корреляция между признаками может возникнуть в силу чисто случайных причин, связанных с подбором материала для изучения.

Можно обнаружить корреляцию между признаками в силу того, что один из взятых признаков является частью другого признака или оба они являются частями какого-то третьего признака.

Множественная и частная корреляция. Множественная корреляция – зависимость изменения величины признака «х» от одновременного изменения нескольких других признаков: «y», «z» и т.п.

Пусть три признака «x», «y» и «z» коррелируют друг с другом. Их коэффициенты простой корреляции равны: rxy, rxz и ryz.

Частная корреляция – оценка связи между признаками «х» и «y», исключив при этом влияние третьего признака, например «z».

Частная корреляция широко применяется в биологии для элиминации из корреляций между теми или иными показателями, например, влияния возраста.

Формулы для вычислений:

Точка в подстрочных индексах обозначает признак, влияние которого нужно исключить из корреляционной связи других двух признаков.

Этот же метод применяется и для элиминации 2 величин при 4 переменных:

Ошибка разности между средними арифметическими при наличии корреляции. Если доказано наличие корреляционной связи между сравниваемыми выборочными совокупностями, ошибка разности вычисляется поформуле:

То есть, ошибка разности между средними при наличии корреляции будет несколько меньше.

Непараметрические критерии оценки корреляции. Применяются для оценки корреляции признаков, которые выражены либо в любой шкале, как правило, номинальной или порядковой, а также интервальной, если неизвестен закон распределения случайной величины.

К таким критериям относятся: коэффициент корреляции Чупрова, коэффициент ранговой корреляции Спирмена.

Коэффициент корреляции Чупрова. Применяется для оценки степени сопряженности качественных признаков, выраженных в номинальной шкале. Каждый из признаков может иметь несколько модальностей (состояний). Вначале строится корреляционная решетка. Затем для каждого эмпирического значения частоты встречаемости рассчитывается теоретическое значение при отсутствии корреляции между признаками. В итоге для оценки достоверности данного коэффициента используется критерий хи-квадрат.

где «а» число модальностей первого признака, «b» - число модальноей второго признака.

Если:

корреляция считается достоверной (нулевая гипотеза отбрасывается) и рассчитывается значение rсh.

Коэффициент ранговой корреляции Спирмена. Применяется для оценки сопряженности признаков, которые выражены в порядковой или интегральной шкалах.

Вначале значения признаков переводят в ранги. Коэффициент корреляции Спирмена определяют по формуле

,

где R1 и R2 – ранги двух признаков у i -го объекта; N – число изучаемых объектов.

Коэффициент корреляции Спирмена нормирован в пределах от -1 до +1. Достоверность этого показателя определяют по формуле:

,

где t – расчетный критерий Стьюдента, который необходимо сравнить с табличным на определенном уровне значимости, при числе степеней свободы df=N –2.

Если t > tst, то сопряженность двух признаков достоверна (нулевая гипотеза об отсутствии связи отбрасывается).

<== предыдущая лекция | следующая лекция ==>
Менде 9-лекцияга келеди | Этиология. Патанатомия, клиника (стадии)
Поделиться с друзьями:


Дата добавления: 2014-01-11; Просмотров: 6904; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.047 сек.