Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Парная корреляция. Уравнение регрессии. Линия регрессии




Часто при проведении маркетингового исследования нас интересует связь между двумя метрическими переменными, как, например, в следующих ситуациях.

Насколько сильно связан объем продаж с затратами на рекламу?

Существует ли связь между долей рынка фирмы и численностью ее торгового персонала?

Связано ли восприятие качества товаров потребителями с их восприятием цены?

В таких ситуациях наиболее широко используемой статистикой является коэффициент парной Корреляции, (commercial units moment Correlation r), который характеризует степень тесноты связи между двумя метрическими (измеряемыми с помощью интервальной или относительной шкал) переменными, скажем, Х и Y. Этот коэффициент используют, чтобы определить, существует ли между переменными линейная зависимость. Он показывает степень, в которой вариация одной переменной X связана с вариацией другой переменной Y, т.е. меру зависимости между переменными Х и Y.

Коэффициент парной Корреляции, г (commercial units moment Correlation r)

Статистический показатель, характеризующий степень тесноты связи между двумя метрическими переменными.

Поскольку этот коэффициент первоначально предложил Карл Пирсон, его также называют коэффициентом Корреляции Пирсона. Кроме того, он известен как простой коэффициент Корреляции, линейный коэффициент Корреляции или просто коэффициент Корреляции.

В этих уравнениях X и Y обозначают выборочные средние, а — соответствующие стандартные отклонения; COV представляет собой ковариацию (covari-апсе) между Х и Y, т.е. меру зависимости Xи Y.

Ковариация может быть как положительной, так и отрицательной. Деление на SxS приводит к нормированному виду, так что коэффициент Корреляции г находится в пределах от -1 до +1. Обратите внимание, что коэффициент Корреляции никак не связан с единицами измерения, в которых выражены переменные.

Предположим, что исследователь хочет выяснить, зависит ли отношение респондента к местожительству от длительности его проживания в этом городе. Отношение выражают в 11- балльной шкале (1 — не нравится город, 11 — очень нравится город), а продолжительность проживания измеряют количеством лет, которые респондент прожил в этом городе.

В этом примере г = 0,9361, что близко к 1. Это означает, что отношение респондента к своему городу сильно зависит от времени проживания в нем. Более того, положительный знак г указывает на прямую связь (прямо пропорциональную): чем дольше респондент проживает в городе, тем больше он ему нравится, и наоборот.

Поскольку коэффициент Корреляции показывает меру, в которой вариация значений одной переменной зависит от вариации другой, можно выразить через разложение полной вариации.

Следовательно, г2 показывает, какая доля вариации одной переменной обусловлена вариацией другой. И г, и г2 являются симметричными показателями связи между переменными. Иначе говоря, корреляция между Х и Y та же, что и корреляция между Y и X. Корреляция не зависит от того, какая из переменных взята в качестве зависимой, а какая — в качестве независимой. Коэффициент Корреляции является мерой линейной зависимости, и он не предназначен для измерения силы связи в случае нелинейной зависимости. Таким образом, г = 0 просто означает отсутствие линейной зависимости между Х и Y. Это не означает, что Х и Y не взаимосвязаны. Между ними может существовать нелинейная зависимость, которую нельзя определить с помощью коэффициента Корреляции г.

Если коэффициент Корреляции вычисляют не для выборки, а для всей генеральной совокупности, то он обозначается греческой буквой р (ро). Коэффициент г — это оценка р. Обратите внимание, что расчет г предполагает, что X и Y- метрические переменные, кривые распределения которых имеют одинаковую форму. Если эти допущения не удовлетворяются, то значение г уменьшается и р получается недооцененным. В маркетинговых исследованиях данные, полученные с использованием относительной шкалы при небольшом количестве категорий, могут не быть строго интервальными.

Регрессио́нный (линейный) анализ — статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Ложная корреляция), а не причинно-следственные отношения.

[править]Цели регрессионного анализа

1. Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами(независимыми переменными)

2. Предсказание значения зависимой переменной с помощью независимой(-ых)

3. Определение вклада отдельных независимых переменных в вариацию зависимой

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

[править]Математическое определение регрессии

Строго регрессионную зависимость можно определить следующим образом. Пусть , — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений определено условное математическое ожидание

(уравнение линейной регрессии в общем виде),

то функция называется регрессией величины Y по величинам , а её график — линией регрессии по , или уравнением регрессии.

Зависимость от проявляется в изменении средних значений Y при изменении . Хотя при каждом фиксированном наборе значений величина остаётся случайной величиной с определённым рассеянием.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении , используется средняя величина дисперсии Y при разных наборах значений (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).

[править]Метод наименьших квадратов (расчёт коэффициентов)

На практике линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

(M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда .

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:

Условие минимума функции невязки:

Полученная система является системой линейных уравнений с неизвестными

Если представить свободные члены левой части уравнений матрицей

а коэффициенты при неизвестных в правой части матрицей

то получаем матричное уравнение: , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса−Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators) − наилучшие линейные несмещенные оценки.

[править]Интерпретация параметров регрессии

Параметры являются частными коэффициентами корреляции; интерпретируется как доля дисперсии Y, объяснённая , при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.

Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида , , свидетельствующее о наличии взаимодействий между признаками , и т. д (см. Мультиколлинеарность).

Линейная регрессия является статистическим инструментом, используемым для прогнозирования будущих цен исходя из прошлых данных, и обычно применяется, чтобы определить, когда цены являются перегретыми. Используется метод наименьшего квадрата для построения «наиболее подходящей» прямой линии через ряд точек ценовых значений. Ценовыми точками, используемыми в качестве входных данных, может быть любое из следующих значений: открытие, закрытие, максимум, минимум, (максимум+минимум)/2, (максимум+минимум+закрытие)/3, (открытие+максимум+минимум+закрытие)/4, % изменения или (открытие+закрытие)/2. Эти данные могут быть предварительно произвольно сглажены перед построением наиболее подходящей линии. Если сглаживание не желательно, то просто выбирается период сглаживания равный 1.

Вычисление

Для того, чтобы определить лучшую линию, соответствующую ряду ценовых точек, используется метод наименьшего квадрата.

Стандартное отклонение вычисляется следующим образом:
- Суммируются квадраты разницы между ценой и линией Линейной регрессии.
- Порлученная сумма делится на число баров в диапазоне регрессионного ряда данных.
- Вычисляется квадратный корень от полученного результата, что дает стандартное отклонение.





Поделиться с друзьями:


Дата добавления: 2015-05-09; Просмотров: 878; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.076 сек.