КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Коэффициент корреляции и его оценка
Статистической называют зависимость между двумя случайными величинами если изменение одной, влечёт за собой изменение закона распределения другой величины.
Корреляционной зависимостью одной случайной величины от другой СВ называется функциональная зависимость условного среднего первой СВ от наблюдаемых значений второй СВ. Под условным средним случайной величины Y, при условии, что СВ X=x, `yx понимают среднее арифметическое, наблюдаемых значений СВ Y при условии X=x. `yx = 1/n å yi при условии Х=х.
{ 1.Ŷx = f(x). 2.Χŷ = f(y) Корреляция бывает линейной, степенной, экспоненциальной.
Основные задачи теории корреляции: 1. Определить корреляционную зависимость между изучаемыми признаками, с целью обоснованного прогноза. Другими словами, определить (оценить) уравнения регрессии, или, как говорят, установить формы связи между случайными величинами (количественными признаками генеральной совокупности). Если количественные признаки количественные признаки Х и Y распределены по совместному нормальному закону, то корреляционная зависимость обязательно будет линейной. 2. Оценка «тесноты» корреляционной зависимости по выборочному коэффициенту корреляции. Данные наблюдений при изучении двумерного признака оформляют в виде таблицы с двумя входами, которую называют корреляционной таблицей. Анализ статистических связей между порядковыми переменными сводится к статистическому анализу различных упорядочений (ранжировок) одного и того же конечного множества объектов и осуществляется с помощью методов ранговой корреляции. В зависимости от типа изучаемой ситуации (шкала измерения анализируемого свойства не известна исследователю или отсутствует вовсе; существуют косвенные или частные количественные показатели, в соответствии со значениями которых можно определять место каждого объекта в общем ряду всех объектов, упорядоченных по анализируемому основному свойству) процесс упорядочения объектов производится либо с привлечением экспертов, либо формализованно — с помощью перехода от исходного ряда наблюдений косвенного количественного признака к соответствующему вариационному ряду.
Исходные статистические данные для проведения рангового корреляционного анализа представлены таблицей (матрицей) рангов статистически обследованных объектов размеpa n X (p + 1) (число объектов на число анализируемых переменных). При формировании матрицы рангов допускаются случаи неразличимости двух или нескольких объектов по изучаемому свойству («объединенные» ранги).
II. Регрессионный анализ. Простая и линейная регрессия Предыдущий вопрос посвящен описанию математического аппарата, привлекаемого для реализации 3-го этапа статистического исследования зависимостей, на котором исследователь пытается проанализировать структуру связей между рассматриваемыми переменными и измерить степень их тесноты. После того как он убедится в наличии статистически значимых связей между анализируемыми переменными, он приступает к выявлению и математическому описанию конкретного вида интересующих его зависимостей: подбирает класс функций, в рамках которого будет вести свой дальнейший анализ (этап 4); производит, если это необходимо, отбор наиболее информативных предсказывающих переменных (этап 5); вычисляет оценки для неизвестных значений параметров, участвующих в записи уравнения искомой зависимости (этап 6); анализирует точность полученного уравнения связи (этап 7). Этапы 4—7 и составляют содержание регрессионного анализа. Но прежде чем переходить к изложению методов, составляющих аппарат регрессионного анализа, необходимо ввести и прокомментировать ряд основных понятий и определений. Условным средним ` ух называется среднее арифметическое наблюдавшихся значений случайной величины Y, соответствующих X = х. Очевидно, что ух = f(x), это уравнение называют выборочным уравнением регрессии Y по х. Условным средним ` ху называется среднее арифметическое наблюдавшихся значений случайной величины X, соответствующих Y = у. Очевидно, что ху =j(у), это уравнение называют выборочным уравнением регрессии X по у, а ее график – выборочной линией регрессии X по у. Условные средние` ух и ` ху, которые находят по выборке, принимают в качестве оценок условных математических ожиданий ту(х) и тк(у).
Если обе линии регрессии Y по х и X по у - прямые, то корреляционную зависимость называют линейной (линейная корреляция). Это бывает в том случае, если количественные признаки случайных величин X и Y, распределены по совместному нормальному закону. То есть: ` ух =кх + b ` ху =cy + d где: к = ryx – коэффициент регрессии Y по Х, c = rxy – коэффициент регрессии Х по Y. ryx = rxysy/sx; rxy = rxysx/sy; ryx·ryx = rxy².
Эмпирические уравнения регрессии имеют вид: ` ух = ` у + rxysy/sx (х – х) ` хy = ` x + rxysx/sy (y – y)
Нахождение выборочных уравнений регрессии – одна из главных задач теории корреляции (регрессивного анализа), когда двумерный признак распределён по нормальному закону.
Для нормально распределенного случайного вектора (Х,Y) теоретические уравнения регрессии линейные:
x- тy = rxy sx/ sy (y-my),(2) где тx = M (X); тy = M (Y); sx = Ö D(X); sy = Ö D(Y) rxy - коэффициент корреляции, Cov (X;Y) rxy= (3) sx sy
где Cov (X;Y) = M (Xº Yº) = Kв; Xº= X-mx; Yº= Y-my.
III. Ранговые корреляционные статистики. Устойчивость оценки
Если гху > 0, то линии регрессии наклонены вправо, если гху < 0 - влево. Если | rxv | = 1, то линии регрессии сливаются в одну линию, а cлучайные величины X и Y связаны между собой линейной функциональней зависимостью Y = аХ + b (а и b Î r). Если гху= 0, то линии регрессии проходят параллельно осям координат, в этом случае X к Y некоррелированы, в частности так будет всегда, когда X и Y - независимы; обратное заключение сделать нельзя, так как случайные величины X и Y могут быть cвязаны некоторой нелинейной функциональной зависимостью, а коэффициент корреляции гху = 0.
Таким образом, величина коэффициента корреляции характеризует, насколько близка связь между случайными величинами X и Y к линейной зависимости, если гху < 0,4, то считают, что линейной корреляционной зависимости нет. Выборочные уравнения прямых регрессий, найденные методом наименьших квадратов, имеют вид: sв(y) yx – `y = rв (x - `x) (4) sв(x)
sв(x) `xy – `x = rв (y - `y) (5) sв(y) где `x - оценка математического ожидания случайной величины X (выборочная средняя X); `y - оценка M(Y) (выборочная средняя Y). sв(x) = Ö D в (x), sв(x) = Ö D в (y), где D в (x) – выборочная дисперсия (оценка D (X)), D в (y) выборочная дисперсия (оценка D (Y)), rв - выборочный коэффициент корреляции (оценка коэффициента корреляции), причем rв = xy - `x `y sв(x) sв(y)
где xy = 1/nå nij xi yj, (ij) п - объем выборки; nij - частота наблюдавшегося значения (хi, уj) случайного вектора (X, Y) å nij xi yj - n `x `y или rв = (i,j) (6) nsв(x) sв(y)
Выборочный коэффициент корреляции также служит для характеристики линейной связи между X и Y. Пример:
Координаты (X; Y) падения ракеты есть нормальный случайный вектор. Результаты 100 испытаний записаны в корреляционной таблице (табл. 3.2). Таблица 3.2.
Задача: 1. Рассчитать для каждого значения случайной величины X соответствующую среднюю у х, результат записать в виде таблицы 3.3.
Таблица 3.3
2. Изобразить точки (xy;ух) = 1,n на поле корреляции (прямоугольная система координат, на которой отмечены значения изучаемого случайного вектора) и соединить их отрезками прямой, получим ломаную линию, которую называют опытной линией регрессии Y по х.
Замечание. Если бы была возможность неограниченного увеличения объема выборки, то влияние всех факторов, кроме X, на изменение Y взаимно погашалось бы, и в пределе опытная линия регрессии перешла бы в плавную линию, представляющую собой теоретическую линию регрессии. Аналогично могла бы быть построена опытная линия регрессии X по у.
3. Найти выборочный коэффициент корреляции, по его величине сделать вывод о том, можно ли опытную линию регрессии заменить прямой линией регрессии.
4. Найти выборочное уравнение прямой линии регрессии У по х. преобразовать его к виду у = kx ±в, построить на поле корреляции. Решение. 1. Найдем опытную линию регрессии Y no х ` y20 = 16,0 ` y25 = 16-6 + 26-8 = 21,57» 21,6 ` y30 = 26-10 + 36-32 + 46-4» 34,7 ` y35 = 36 3 + 46 12 + 56»44,8 ` y40 = 36-9+46-6 + 56-5» 44,0 Таблица 3.3а
Построим опытную линию регрессии на поле корреляции (рис.3.12).
Дата добавления: 2014-12-29; Просмотров: 1418; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |