Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Регрессионные модели: этапы построения и анализа




Сущность линии регрессии и основные модели корреляционной связи.

Математическое уравнение, которое оценивает линию простой (парной) линейной регрессии:

Y=a+bx.

x называется независимой переменной или предиктором.

Y – зависимая переменная или переменная отклика. Это значение, которое мы ожидаем для y (в среднем), если мы знаем величину x, т.е. это «предсказанное значение y»

a – свободный член (пересечение) линии оценки; это значение Y, когда x=0 (Рис.1).

b – угловой коэффициент или градиент оценённой линии; она представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем x на одну единицу.

a и b называют коэффициентами регрессии оценённой линии, хотя этот термин часто используют только для b.

Парнуюлинейную регрессию можно расширить, включив в нее более одной независимой переменной; в этом случае она известна как множественная регрессия.

Описание

Регрессией в теории вероятностей и математической статистике принято называть зависимость среднего значения какой-либо величины y от некоторой другой величины или от нескольких величин хi.

Парной регрессией называется модель, выражающая зависимость среднего значения зависимой переменной y от одной независимой переменной х:

y=f(x)+ε,

где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак–фактор).

Парная регрессия применяется, если имеется доминирующий фактор, обуславливающий большую долю изменения изучаемой объясняемой переменной, который и используется в качестве объясняющей переменной.

Множественной регрессией называют модель, выражающую зависимость среднего значения зависимой переменной y от нескольких независимых переменных х1,х2,…,хp, т.е.:

y=f(x1,x2,...,xp).

Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать одновременное влияние нескольких факторов.

Этапы построения регрессионной модели

Разработка модели и исследование с ее помощью процессов функ­ционирования систем и процессов в общем случае должны выполняться в следующей последовательности:

· предварительное исследование сути проблемы;

· формирование перечня факторов и их логический анализ;

· планирование и организация наблюдений с целью сбора статистических исходных данных;

· первичная обработка статистических данных;

· определение вида (спецификация) функции регрессии;

· оценка функции регрессии;

· отбор главных факторов;

· проверка адекватности регрессионной модели;

· смысловая интерпретация полученной модели;

· решение конкретных прикладных задач с помощью модели (например, прогнозирование).

Предварительное исследование сути проблемы. Целью этого этапа является вербальное (словесное) описание сути проблемы. В соответствии с целью работы по располагаемым материалам устанавливаются: компоненты процессов, подсистемы систем, их общие взаимосвязи, механизмы функционирования систем, объекты и периоды исследования. Изучается опыт решения аналогичных задач, формулируются предварительные гипотезы о зависимости тех или иных переменных (критериев, показателей, параметров).

Формирование перечня факторов и их логический анализ. Целью этого этапа является предварительное определение разумного числа исследуемых переменных и их классификация на зависимые и объясняющие (функции и аргументы).

Сбор исходных данных и их первичная обработка. Целью этого этапа является формирование достаточных (по объему и номенклатуре) исходных данных. Статистическая обработка сводится, в основном, к исключению из данных статистических "выбросов" и статистическое сглаживание данных.

Исходная информация может быть собрана в следующих видах:

· динамические (временные) ряды;

· пространственная информация (данные о нескольких объек­тах в одинаковые моменты времени);

· временная информация (данные об одном объекте в разные моменты вре­мени);

· различные варианты комбинации информации.

Объем выборок зависит от числа факторов, включаемых в модель. Для получения статистически значимой модели потребный объем выборки nmin определяется по формуле:

 

nmin ≥ (5…8)∙(m + n),

 

где: m - число факторов, включаемых в модель;

n - число свободных членов в уравнении модели.

Спецификация функции регрессии. Целью этого этапа является конкретное формулирование гипотезы о форме регрессионной связи (ли­нейная, нелинейная, прямая, обратная, простая или множественная).

Оценка функции регрессии. Целью этого этапа является определе­ние числовых значений параметров (коэффициентов) регрессии, показате­лей, характеризующих "качество" построенной регрессионной модели.

Отбор главных факторов. Целью этого этапа является совершенствование регрессионной модели в направлении уменьшения числа факторов. Большое число факторов делает модель громоздкой, неудобной для применения, затрудняет исследование влияния отдельных факторов. С другой стороны, - слишком малое число факторов может привести к ошибкам (к недопустимому "загрублению") результатов моделирования. В этой связи очевидна необходимость включения в окончательный вариант регрессионной модели лишь рационального набора факторов. Часто эту задачу решают с помощью различных вариантов факторного анализа (например, методом главных компонент МГК).

Более простой способ выявления и устранения избыточности факторов состоит в оценке мультиколлинеарности(чем больше мультиколлинеарность, тем больше избыточность) и в последующем использовании метода исключения переменных.

Метод исключения переменных заключается в том, что высококоррелированные объясняющие переменные (факторы) устраняются из регрессии последовательно в несколько этапов, после чего она заново оценивается:

1. Отбор переменных, подлежащих исключению, производится с помощью коэффициентов парной корреляции. Опыт показывает, что если │ rij │≥ 0.7, то одну из переменных можно исключить (rij - коэффициент парной корреляции между факторами xi и xj).

2. Отбор переменных продолжают, анализируя тесноту взаимосвязи факторов x с зависимой переменной y. Для анализа тесноты взаимосвязи x и y используют значения коэффициента парной корреляции между фактором и функцией (rxi y). Факторы xi, для которых rxi y ≈ 0, то есть мало связанные с y, подлежат исключению.

3. На следующем этапе отбор факторов проводят, анализируя коэффициенты β факторов. Коэффициент β показывает, на сколько "сигм" (СКО) изменяется функция с изменением соответствующего аргумента на одну "сигму" при фиксированном значении остальных аргументов

βk = ak ∙(σx k / σy),

 

где: βk - коэффициент β k -го фактора;

σx k - СКО k -го фактора;

σy - СКО функции;

ak - коэффициент регрессии при k -ом факторе.

Из двух факторов может быть исключен тот, который имеет меньшее значение β.

4. Дальнейший отбор факторов проводится путем проверки коэффициентов регрессии ak на статистическую значимость (например, с помощью t - критерия Стьюдента). Расчет критерия Стьюдента tk (для k -го фактора) выполняется по формуле:

tk = ak / Sa k, (3.2)

 

где: ak - коэффициент регрессии при k -ом факторе;

Sa k - стандартное отклонение оценки параметра ak.

Значение tk, рассчитанное по (3.2), сравнивают с табличным значением критерия tf,α, найденным по таблице квантилей t -распределения (для этого предварительно задаются величиной уровня значимости α и определяют число степеней свободы

 

f = n - m - 1,

 

где: n - число наблюдений в исходном статистическом ряде;

m - количество факторов в модели).

Если tk < t f,α, то k -ый фактор не оказывает существенного влияния на y, в связи с чем, он может быть исключен из модели.

Проверка адекватности регрессионной модели. Целью этого этапа является проверка качества окончательного варианта регрессионной модели. Данный этап включает:

· оценку значимости коэффициента детерминации D;

· вычисление средней ошибки аппроксимации Е.

Оценка значимости коэффициента детерминации необходима для ответа на вопрос: оказывают ли выбранные факторы достаточное влияние на y? Для оценки значимости используется F -статистика Фишера:

 

F = [ D ∙(n - m - 1)] / [ m ∙(1 - D)], (3.3)

где: D -коэффициент множественной детерминации, D = R2 (здесь R коэффициент множественной корреляции);

n - число наблюдений в исходном статистическом ряде;

m - количество факторов в модели.

Значение F, рассчитанное по (3.3), сравнивают с табличным значением Ff1,f2,α, найденным по таблице квантилей F -распределения Фишера (для этого предварительно задаются величиной уровня значимости α и определяют число степеней свободы

 

f1 = m; f2 = n - m - 1,

 

где: n - число наблюдений в исходном статистическом ряде;

m - количество факторов в модели).

Если F > Ff1,f2,α , то включенные в регрессию факторы достаточно полно объясняют зависимую переменную y, что позволяет говорить о значимости самой регрессии (модели).

Вычисление средней ошибки аппроксимации позволяет проверить качество подбора теоретического уравнения. Средняя ошибка аппроксимации регрессии определяется по формуле:

 

n

E = {{∑[(y i - y i т) / y i т ]} / n } ∙100 %,

i = 1

где: n - число наблюдений в исходном статистическом ряде;

yi - значения зависимой переменной, полученные в i -ом наблюдении (в i -ой точке исходного статистического ряда);

yi т - значения зависимой переменной, рассчитанные с помощью регрессии для i -ой точки.

Смысловая интерпретация полученной модели. Целью этого этапа является осмысление функциональных возможностей полученной регрессионной модели. На тестовых примерах проверяется корректность исходных гипотез (сформулированных на первом этапе), составляется предварительный план решения (на основе полученной модели) ряда конкретных исследовательских задач, например, - задач прогнозирования.

 

46. Применение корреляционно – регрессионных моделей в анализе и прогнозе.

Корреляционный анализ является одним из методов статистического анализа взаимосвязи нескольких признаков.

Он определяется как метод, применяемый тогда, когда данные наблюдения можно считать случайными и выбранными из генеральной совокупности, распределенной по многомерному нормальному закону. Основная задача корреляционного анализа (являющаяся основной и в регрессионном анализе) состоит в оценке уравнения регрессии.

Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).

2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.

3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным признаком и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определить «полезность» факторных признаков при построении уравнений множественной регрессии. Величина коэффициентов корреляции служит также оценкой соответствия уравнению регрессии выявленным причинно-следственным связям.

Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму. И корреляция, и регрессия служат для установления соотношений между явлениями и для определения наличия или отсутствия связи между ними.

 




Поделиться с друзьями:


Дата добавления: 2014-12-24; Просмотров: 6582; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.033 сек.