Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Линейная корреляция




Предположим, что мы располагаем выборкой данных о какой-то группе объектов. Пусть эти объекты обладают общими родовыми особенностями (примерно одинаковы). Пусть, к тому же, у каждого из объектов можно количественно измерить, как минимум, два каких-либо параметра. При этих обстоятельствах открывается возможность для подсчета линейной корреляции между двумя (или более) признаками, присущими этим объектам.

Требования и ограничения. Необходимо иметь в виду, что сопоставляемые характеристики должны быть, во-первых, внутренне присущи объектам и, во-вторых, быть количественно-измеряемыми. Ввиду того, что расчет линейной корреляции проводится с использованием средних значений и дисперсий, следует также помнить, что эта процедура требует нормальности распределения признака. Также следует помнить, что никакая корреляция вообще не устанавливает зависимости одного обстоятельства от другого, а лишь является мерой совместной вариации двух величин. И, наконец, линейная корреляция потому и называется линейной, что способна дать ответ о взаимосвязи изменений того и иного свойства объекта только тогда, когда возрастание-убывание значения признака происходит по линейному закону.

 

В качестве числовой характеристики вероятностной связи используют коэффициенты корреляции.

Коэффициент корреляции – это количественная мера силы и направления вероятностной взаимосвязи двух переменных

 

 

Эту формулу можно также записать в виде:

 

 

Коэффициент корреляции принимает значения в диапазоне от — 1 до +1. Показателем силы связи является абсолютная величина коэффициента корреляции.

 

значение r, ± 0,16-0,20 0,21-0,30 0,31-0,40 0,41-60 0,61-0,80 0,81-0,90 0,91-1
связь плохая слабая умеренная средняя высокая очень высокая полная

 

Направление связи определяется знаком коэффициента корреляции. Если возрастанию значений одной переменной соответствует возрастание значений другой переменной, то взаимосвязь называется прямой (положительной); если возрастанию значений одной переменной соответствует убывание значений другой переменной, то взаимосвязь является обратной (отрицательной).На практике связь между двумя переменными, если она есть, является вероятностной и графически выглядит как облако рассеивания эллипсоидной формы. Этот эллипсоид, однако, можно представить (аппроксимировать) в виде прямой линии, или линии регрессии.

«линия регрессии»–линия наилучшей подгонки под экспериментальные точки

Линия регрессии это прямая, построенная методом наименьших квадратов: сумма квадратов расстояний (вычисленных по оси y) от каждой точки графика рассеивания до этой прямой является минимальной:

 

где — фактическое i -значение y, — оценка i -значения y при помощи уравнения регрессии

Уравнение регрессии имеет вид: ,

где — коэффициент регрессии, задающий угол наклона линии регрессии;

— свободный член, определяющий точку ее пересечения c осью y.

Коэффициент регрессии и свободный член теоретически можно определить с помощью метода наименьших квадратов, но этот процесс, естественно, можно переложить на компьютер.

Таким образом, если на некоторой выборке измерены две переменные, которые коррелируют друг с другом, то, вычислив коэффициенты регрессии, мы получаем возможность предсказания неизвестных значений одной переменной (y – «зависимая переменная») по известным значениям другой переменной (x – «независимая переменная»).

Понятно, что наиболее точным предсказание будет, если | r xy| = 1. Тогда каждому значению x будет соответствовать только одно значение y, а все ошибки оценки будут равны 0 (все точки на графике рассеивания будут лежать на прямой регрессии).

Если же r xy = 0, то a1 = 0 и у i= a 0(= у ср), т. е. при любом x оценка переменной y будет равна ее среднему значению и предсказательная ценность регрессии ничтожна.

Следует отметить, что на коэффициент линейной корреляции влияют выбросы (экстремально большие или малые значения признака) так как величина этого коэффициента прямо пропорциональна отклонению значения переменной от среднего.

Способ борьбы с выбросами: «чистка» данных. Можно для каждой переменной установить определенное ограничение на диапазон ее изменчивости. Например, исключаете наблюдения, которые выходят за пределы диапазона xcр±2σ или.xcр±3σ.

Основные причины обязательного присутствия в регрессионных моделях случайного отклонения следующие.

· Неполнота учета объясняющих переменных. Любая эконометрическая модель упрощает реальную ситуацию. Например, спрос на товар определяется его ценой, а также ценой на товары-заменители, ценой на дополняющие товары, доходом потребителей, их количеством, традициями, погодой и т.д. При этом заранее неизвестно, какими факторами можно пренебречь, а по некоторым невозможно получить данные.

· Неправильный выбор формулы уравнения регрессии. Для парной регрессии выбор формулы обычно осуществляется по графическому изображению статистических данных в виде точек в декартовой системе координат, которое называется диаграммой рассеивания.

· Агрегирование переменных. Отдельные факторы могут оказаться сложной комбинацией более простых переменных.

· Ошибки измерений.

· Непредсказуемость человеческого фактора.

 




Поделиться с друзьями:


Дата добавления: 2014-12-07; Просмотров: 1344; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.