КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Понятие о статистической и корреляционной связи
Различают два типа связей между различными явлениями и их признаками: функциональную или жестко детерминированную, с одной стороны, и статистическую или стохастически детерминированную - с другой. Строго определить различие этих двух типов связи можно тогда, когда они получают математическую формулировку. Для простоты будем говорить о связи двух явлений или двух признаков, математически отображаемой в форме уравнения связи двух переменных. Если с изменением значения одной из переменных вторая изменяется строго определенным образом, т.е. значению одной переменной соответствует одно или несколько точно заданных значений другой переменной, связь между ними является функциональной. Нередко говорят о строгом соответствии лишь одного значения второй из переменных каждому значению первой из них, но это неверно. Например, связь между x и y является строго функциональной если y=(x; но значению x=4 соответствует не одно, а два значения; y1=2 и y2=-2. Уравнения более высоких степеней могут иметь несколько корней, связь разумеется остается функциональной. Функциональная связь двух величин возможна лишь при условии, что вторая из них зависит только от первой и ни от чего более. В реальной природе таких связей нет; они являются лишь абстракциями, полезными и необходимыми при анализе явлений, но упрощающими реальность. Функциональная зависимость данной величины y от многих факторов x1, x2,... xk возможна только в том случае, если величина y всегда зависит только от переменного набора факторов x1, x2,... xk и ни от чего больше. Между тем все явления и процессы реального мира связаны между собой, и нет такого конечного числа переменных k, которые абсолютно полно определяли бы собой зависимую величину y. Следовательно, множественная функциональная зависимость переменных есть тоже абстракция, упрощающая реальность. Однако в науке успешно используют представление связей как функциональных не только в аналитических целях, но нередко и в целях прогнозирования. Это возможно потому, что в некоторых простых системах интересующая нас переменная зависит в основном (скажем на 99% или даже на 99.99%) от немоногих других переменных или только от одной переменной. То есть связь в такой несложной системе является хотя и не абсолютно функциональной, но практически очень близкой к таковой. Так, например, длина года (период обращения Земли вокруг Солнца) почти функционально зависит только от массы Солнца и расстояния Земли от него. На самом деле она зависит в очень слабой степени и от масс, и расстояния других планет от Земли, но вносимые ими (и тем более в миллионы раз более далекими звездами) искажения функциональной связи для всех практических целей, кроме космонавтики, пренебрежимо малы. Стохастически детерминированная связь не имеет ограничений и условий, присущих функциональной связи. Если с изменением значения одной переменной вторая может в определенных приделах принимать любые значения с вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону - связь является статистической. Иными словами, при статистической связи разным значениям одной переменной соответствуют разные распределения значений другой переменной. В настоящее время наука не знает более широкого определения связи. Все связи, которые могут быть измерены и выражены численно, подходят под определение “статистической связи”, в том числе и функциональные. Последние представляют собой частный случай статистических связей, когда значениям одной переменной соответствуют “распределения” значений второй, состоящие из одного или нескольких значений и имеющие вероятность, равную единице. Корреляционной связью называют важнейший частный случай статистической связи, состоящий в том, что различным значениям одной переменной соответствуют различные средние значения другой. С изменением значения x закономерным образом изменяется среднее значение признака y; в то время как в каждом отдельном случае значение признака y (с различными степенями вероятности) может принимать множество различных значений. Если же с изменением значения признака x среднее значение признака y не изменяется закономерным образом, но закономерно изменяется другая статистическая характеристика (показатели вариации, асимметрии, эксцесса и т.п.), то связь является не корреляционной, а статистической. Статистическая связь между двумя признаками (переменными величинами) предполагает, что каждый из них имеет случайную вариацию индивидуальных значений относительно средней величины. Если же такую вариацию имеет лишь один из признаков, а значения другого являются строго детерминированными, то говорят лишь о регрессии, но не о статистической (тем более корреляционной) связи. Например, при анализе динамических рядов можно измерять регрессию уровней ряда урожайности (имеющих случайную изменчивость) на номера лет. Но нельзя говорить о корреляции между ними и применять показатели корреляции с соответствующей им интерпретацией. Само слово корреляция ввел в употребление в статистику английский биолог и статистик Френсис Гальтон в конце XIX века. Тогда оно писалось как “corelation” (соответствие), но не просто “связь” (relation), а “как бы связь”, т.е. связь, но не в привычной функциональной форме. В науке вообще, а именно в палеонтологии, термин “корреляция” применял еще раньше, в конце XYIIIв знаменитый французский палеонтолог Жорж Кювье. Он ввел даже “закон корреляции” частей и органов животных. “Закон корреляции” помогает восстановить по найденным в раскопках черепу, костям и т.д. облик всего животного и его место в системе: если череп с рогами, то это было травоядное животное, а его конечностями были копыта; если же лапа с когтями - то хищное животное без рогов, но с крупными клыками. Корреляционная связь между признаками может возникать различными путями. Важнейший путь - причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, признак x - балл оценки плодородия почв, признак y - урожайность сельскохозяйственной культуры. Здесь совершенно ясно логически, какой признак является независимой переменной (фактор) x, какой - зависимой переменной (результат) y. Совершенно иная интерпретация нужна при изучении корреляционной связи между двумя следствиями одной причины. Известен классический пример, приведенный крупнейшим статистиком России начала XXв А.А. Чупровым: если в качестве признака x взять число пожарных команд в городе, а за признак y - сумму убытков за год в городе от пожаров, то между признаками x и y в совокупности городов России существенная прямая корреляция; в среднем, чем больше пожарников в городе, тем больше и убытков от пожаров. Уж не занимались ли поджигательством из боязни потерять работу? Но дело в другом. Данную корреляцию нельзя интерпретировать как связь причины и следствия; оба признака - следствия общей причины - размера города. Вполне логично, что в крупных городах больше пожарных частей, но и больше пожаров, и убытков от них за год, чем в мелких городах. Третий путь возникновения корреляции - взаимосвязь признаков, каждый из которых и причина и следствие. Такова, например, корреляция между уровнями производительности труда рабочих и уровнем оплаты 1 часа труда (тарифной сетки). С одной стороны, уровень зарплаты - следствие производительности труда: чем она выше, тем выше и оплата. Но с другой стороны, установленные расценки играют стимулирующую роль: при правильной системе оплаты они выступают в качестве фактора, от которого зависит производительность труда. В такой системе признаков допустимы обе постановки задачи; каждый признак может выступать и в роли независимой переменной x, и в качестве зависимой переменной y.
Условия применения и ограничения корреляционно-регрессионного метода. Поскольку корреляционная связь является статистической, первым условием возможности ее изучения является общее условие всякого статистической исследования: наличие данных по достаточно большой совокупности явлений. По отдельным явлениям можно получить совершенно неправильное представление о связи признаков, ибо в каждом отдельном явлении значения признаков кроме закономерной составляющей имеют случайное отклонение (вариацию). Например, сравнивая знания биологии студента-химика и студента-биолога можно обнаружить, что знания первого обширнее. Но если сравнивать всех студентов факультетов, то окажется, что знания студентов-биологов все-таки немножко больше. Какое именно число наблюдений достаточно для анализа корреляционной и вообще статистической связи, зависит от цели анализа, требуемой точности и надежности параметров связи, от числа факторов с которыми корреляция изучается. Обычно считают, что число наблюдений должно быть не менее чем в 5-6 раз, а лучше не менее чем в 10 раз больше числа факторов. Еще лучше если число наблюдений в несколько десятков или в сотни раз больше числа факторов, тогда закон больших чисел, действуя в полную силу, обеспечивает эффективное взаимопогашение случайных отклонений от закономерного характера связи признаков. Вторым условием закономерного проявления корреляционной связи служит условие, обеспечивающее надежное выражение закономерности в средней величине. Кроме уже указанного большого числа единиц совокупности для этого необходима достаточно качественная однородность совокупности. Нарушение этого условия может извратить параметры корреляции. Например, наблюдается прямая зависимость между численностью животных и площадью на которой она подсчитывалась. Однако, есть колониальные животные и есть одиночные и, если исследовать зависимость между общим числом животных всех видов и площадью, то получится совершенно другая зависимость. Иногда как условие корреляционного анализа выдвигают необходимость подчинения распределения совокупности по результативному и факторным признакам нормальному закону распределения вероятностей. Это условие связано с применением метода наименьших квадратов при расчете параметров корреляции: только при нормальном распределении метод наименьших квадратов дает оценку параметров, отвечающую принципам максимального правдоподобия. На практике эта предпосылка чаще всего выполняется приближенно, но и тогда метод наименьших квадратов дает неплохие результаты. Однако при значительном отклонении распределений признаков от нормального закона нельзя оценивать надежность выборочного коэффициента корреляции, используя параметры нормального распределения вероятности или распределения Стьюдента. Еще одним спорным вопросом является допустимость применения корреляционного анализа к функционально связанным признакам. Безусловно нельзя проводить корреляционный анализ в тех случаях когда заведомо известно, что между параметрами существует жестко детерминированная связь. Например, число бабочек и число крыльев у них. Однако, полезно проводить корреляционный анализ если уровень зависимости параметров обычно жестко детерминированных, может в ряде случаев принимать другую форму. Корреляционно-регрессионный анализ учитывает межфакторные связи, следовательно дает нам более полное измерение роли каждого фактора: прямое, непосредственное его влияние на результативный признак; косвенное влияние фактора через влияние его на другие факторы; влияние всех факторов на результативный признак. Если связь между факторами несущественна, можно ограничиться индексным анализом. В противном случае его полезно дополнить корреляционно-регрессионным измерением влияния факторов, даже если они функционально связаны с результативным признаком.
Задачи корреляционно-регрессионного анализа и моделирования В соответствии с сущностью корреляционной связи ее изучение имеет две цели: 1) измерение параметров уравнения, выражающего связь средних величин зависимой переменной со значениями независимой переменной (зависимость средних величин результативного признака от значений одного или нескольких факторных признаков); 2) измерение тесноты связи двух (или большего числа) признаков между собой. Вторая задача специфична для статистических связей, а первая разработана для функциональных связей и является общей. Основным методом решения задачи нахождения параметров уравнения связи является метод наименьших квадратов, разработанный К.Ф.Гауссом. Он состоит в минимизации суммы квадратов отклонений фактически измеренных значений зависимой переменной y от ее значений, вычисленных по уравнению связи с факторным признаком (многими признаками) x. Для измерения тесноты связи применяется несколько показателей. При парной связи теснота связи измеряется прежде всего корреляционным отношением. Квадрат корреляционного отношения - это отношение межгрупповой дисперсии результативного признака, которая выражает влияние различий группировочного признака на среднюю величину результативного признака, к общей дисперсии результативного признака, выражающей влияние на него всех причин и условий. Квадрат корреляционного отношения называется коэффициентом детерминации. , где yj - индивидуальные значения результативного признака, f - частота в j-й группе. Данное уравнение применяется при расчете показателя тесноты связи по аналитической группировке. Обычно же для расчета корреляционного отношения по уравнению связи (уравнению парной и множественной регрессии) применяется формула. . Сумма квадратов в числителе - это объясненная связью с фактором x дисперсия результативного признака y. Она вычисляется по индивидуальным данным, полученным для каждой единицы совокупности на основе уравнения регрессии. Если уравнение выбрано неверно или сделана ошибка при расчете его параметров, то сумма квадратов в числителе может оказаться больше чем в знаменателе, и отношение утратит тот смысл, который должно иметь, а именно какова доля общей вариации результативного признака, объяснимая на основе выбранного уравнения связи его с факторным признаком (признаками). Чтобы избежать ошибочного результата, лучше вычислять корреляционное отношение по другой формуле: , не столь наглядно выявляющий сущность показателя, но зато полностью гарантирующий от возможного искажения. Dобщая=Dобъяснена уравнением регрессии +Dостаточная Уравнение корреляционной связи измеряет зависимость между вариацией результативного признака и вариацией факторного признака. Меры тесноты связи измеряют долю вариации результативного признака, которая связана корреляционно с вариацией факторного признака. Интерпретировать корреляционные показатели строго следует лишь в терминах вариации (различий в пространстве) отклонений от средней величины. Если же задача исследования состоит в измерении связи не между вариацией двух признаков в совокупности, а между измерениями признаков объекта во времени, то метод корреляциооно-регрессионного анализа требует значительного изменения. Из вышеприведенного определения об интерпретации показателей корреляции следует, что нельзя трактовать корреляцию признаков как связь их уровней. Это ясно хотя бы из такого примера: Если бы все студенты, которые ходят на лекции, учились бы только на пятерки, то вариация этого признака равнялась бы нулю, а следовательно успеваемость абсолютно не могла бы влиять на посещаемость. Параметры корреляции между успеваемостью и посещаемостью всегда будут равняться нулю. Но ведь и в этом случае уровень знаний зависел бы от числа лекций - он был бы тем выше, чем больше лекций. Итак, строго говоря, метод корреляциооно-регрессионного анализа не может объяснить роли факторных признаков в создании результативного признака. Это очень серьезное ограничение метода, о котором не следует забывать. Следующий общий вопрос - это вопрос о “чистоте” измерения влияния каждого признака. Группировка совокупности по одному факторному признаку может отразить влияние именно данного признака на результативный признак при условии, что все другие факторы не связаны с изучаемым, а случайные отклонения и ошибки взаимопогасились в большой совокупности. Если же изучаемый фактор связан с другими факторами, влияющими на результативный признак, будет получена не “чистая” характеристика влияния только одного фактора, а сложный комплекс, состоящий как из непосредственного влияния фактора, так и из его косвенных влияний, через его связь с другими факторами и их влияние на результативный признак. Данное положение полностью относится и к парной корреляционной связи. Главным достоинством корреляционно-регрессионного метода заключается в возможности разделить влияние комплекса факторных признаков, анализировать различные стороны сложной системы взаимосвязей. Корреляционный метод при объеме совокупности около 100 единиц позволяет вести анализ системы с 8-10 факторами и разделить их влияние. Необходимо сказать и о других задачах применения метода, имеющих не формально математических, а содержательный характер. 1. Задача выделения важнейших факторов, влияющих на результативный признак (т.е. на вариацию его значений в совокупности). Эта задача решается в основном на базе мер тесноты связи факторов с результативным признаком. 2. Задача прогнозирования возможных значений результативного признака при задаваемых значениях факторных признаков. Такая задача решается путем подстановки ожидаемых, или планируемых, или возможных значений факторных признаков в уравнение связи и вычисления ожидаемых значений результативного признака. Приходится решать и обратную задачу: вычисление необходимых значений факторных признаков для обеспечения планового или желаемого значения результативного признака. Эта задача обычно не имеет одного решения. При решении каждой из названных задач нужно учитывать особенности и ограничения корреляционного метода. Всякий раз необходимо специально обосновывать возможность причинной интерпретации уравнения как объясняющего связь между вариацией фактора и результата. Трудно обеспечить раздельную оценку влияния каждого из факторов. В этом отношении корреляционные методы глубоко противоречивы. С одной стороны, их идеал - измерения чистого влияния каждого фактора. С другой стороны, такое измерение возможно при отсутствии связи между факторами и случайной вариации признаков. А тогда связь является функциональной, и корреляционные методы анализа излишни. В реальных системах связь всегда имеет статистический характер, и тогда идеал методов корреляции становится недостижимым. Но это не значит, что подобные методы не нужны. Это означает недостижимость абсолютной истины в познании реальных связей. Всякая научная истина - относительна. Вычисление и интерпретация параметров парной линейной корреляции Простейшей системой корреляционной связи является линейная связь между двумя признаками - парная линейная корреляция. Практическое ее значение в том, что есть системы, в которых среди всех факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей. Есть такие системы связей, при изучении которых необходимо предпочесть парную корреляцию.
Измерение связи неколичественных параметров. Корреляционно-регрессионный метод применим только к количественным признакам. Однако задача измерения связи ставится перед статистикой и по отношению к таким признакам как пол, семейное положение, т.е. признакам не имеющим количественного выражения. Учеными ряда стран за последние 100 лет разработано несколько методов измерения связи таких признаков. Описательные признаки - обычно альтернативные признаки, при которых каждый имеет по две разновидности. Например, больные могут выздороветь, а могут не выздороветь, признак есть (нет). В тех случаях, когда находящиеся в связи явления представлены описательными величинами, коэффициент корреляции находят по следующей формуле. , где a,b,c,d - количество случаев отдельных комбинаций разновидностей исследуемых явлений. При вычислении коэффициента корреляции знаменатель формулы всегда имеет положительный знак. Знак перед r зависит от того, какое из произведений больше ad или bc. Для того, чтобы легче вычислить коэффициент корреляции пользуются так называемой четырехпольной таблицей. В первом столбце этой таблице наносят обе разновидности одного явления - Х1 и Х2, а в первой строке - обе разновидности второго -Y1 и Y2. При этом X1 и Y2 обозначают положительные разновидности, а X2 и Y1 - отрицательные. В указанных выше примерах под положительными разновидностями подразумевают выздоровевших, получивших отравление. При таком состоянии четырехпольная таблица принимает следующий вид:
Пример 1. Имеются следующие данные о вакцинации против гриппа и заболеваемости гриппом во время эпидемии:
Требуется определить размер связи между проведенной вакцинацией и заболеваемостью. r=-0.6. Коэффициент корреляции показывает обратную связь: вакцинированные реже болеют, чем не вакцинированные. Независимо то того, что каждый из описательных признаков, несмотря на разницу в численности его разновидностей, можно свести к альтернативному - только с двумя разновидностями, довольно часто в практике в возникает необходимость работать с описательными признаками более двух разновидностей. В таких случаях необходимо при вычислении коэффициента корреляции составлять так называемую корреляционную таблицу (где X1,X2,...Xn - обозначают разновидность одного признака, а Y1, Y2... Yn - разновидности другого). При наличии такой схемы коэффициент корреляции находят по формуле: , где (2 - коэффициент связи, m- число разновидностей явления Х; n - число разновидностей явления Y.
Пример 2. Опрошены жители 130 населенных пунктов в отношении жилищных и бытовых условий и о заболеваемости туберкулезом.
Вычисление коэффициента корреляции проходит через следующие этапы работы: 1. Каждую из наблюдаемых частот отдельных комбинаций разновидностей наблюдаемых признаков возводят в квадрат. 2. Полученные квадраты делят на суммы всех частот соответствующего столбца 3. Складывают полученные частные каждой строки 4. Полученные таким образом частоты делят на общее количество соответствующей разновидности признака Х. 5. Полученные частные складывают 6. Находят коэффициент (2, вычитая из итога единицу; 7. Находят (2 коэффициент связи =0.875-(4-1)(4-1)/130=0.806 8. Находят коэффициент корреляции. В нашем случае коэффициент корреляции равен 0.77, что указывает на довольно тесную связь между изучаемыми явлениями. Данный метод пригоден также и для экспрессной оценки связи между количественными (например, возраст) и качественными (например, брак) параметрами. Конечно, расчет параметров на основе группировки является приближенным: реальные значения признаков заменяются серединами интервалов. Не учитывается неравномерность изменения частот внутри интервалов. Казалось бы с появлением ЭВМ этот метод должен отмереть. Однако для больших совокупностей в десятки и сотни тысяч единиц большинство программ ввиду ограничений на объем оперативной памяти непригодно. Да и сам процесс занесения в память ЭВМ сотни тысяч чисел занял бы столь громадное время, что выигрыш во времени расчета на ЭВМ был бы многократно превышен. Таким образом, иногда трудоемкость расчета с помощью группировки и простого калькулятора оказывается намного меньше, чем с помощью ЭВМ, а степень точности достаточна для большинства задач анализа связи. В случае, когда параметры измеряются количественно, теснота парной линейной корреляционной связи может быть измерена корреляционным отношением h: . Кроме того, при линейной форме уравнения применяется и другой показатель тесноты связи - коэффициент корреляции rxy. Этот показатель представляет собой стандартизованный коэффициент регрессии, т.е. коэффициент выраженный не в абсолютных единицах измерения признаков, а в долях среднего квадратического отклонения результирующего признака: Коэффициент корреляции был предложен английским статистиком Пирсоном. Его интерпретация такова: отклонение признака-фактора от его среднего значения на величину своего среднего квадратичного отклонения в среднем по совокупности приводит к отклонению признака-результата от своего среднего значения на Rxy его среднего квадратичного отклонения. В отличие от коэффициента регрессии b коэффициент корреляции не зависит от принятых единиц измерения параметров, а стало быть он сравним для любых признаков. Для интерпретации коэффициента корреляции необходимо знать область его существования 0£|r|£1. Как ясно из формулы, минимальное, именно нулевое значение коэффициента корреляции может быть достигнуто, если положительные и отрицательные произведения отклонений признаков от их средних величин в числителе уравновесят друг друга. Это свидетельствовало бы о полном отсутствии связи, но вероятность такого абсолютно точного взаимопогашения абсолютно мала для любой реальной, но бесконечно большой совокупности. Поэтому и при отсутствии реальной связи коэффициент корреляции на практике не равен 0. Максимально тесная связь - это связь функциональная, когда каждое индивидуальное значение результативного признака может быть однозначно поставлено в соответствие к фактору (например, y=cx, где с - константа).
Дата добавления: 2014-01-05; Просмотров: 1390; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |