Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Оценка статистической значимости модели




Расчет параметров и построение регрессионных моделей

Корреляционный анализ

Его цель - определить характер связи (прямая, обратная) и силу связи (связь отсутствует, связь слабая, умеренная, заметная, сильная, весьма сильная, полная связь). Корреляционный анализ создает информацию о характере и степени выраженности связи (коэффициент корреляции), которая используется для отбора существенных факторов, а также для планирования эффективной последовательности расчета параметров регрессионных уравнений. При одном факторе вычисляют коэффициент корреляции, а при наличии нескольких факторов строят корреляционную матрицу, из которой выясняют два вида связей: (1) связи зависимой переменной с независимыми, (2) связи между самими независимыми.

Рассмотрение матрицы позволяет, во первых, выявить факторы, действительно влияющие на исследуемую зависимую переменную, и выстроить (ранжировать) их по убыванию связи; во-вторых, минимизировать число факторов в модели, исключив часть факторов, которые сильно или функционально связаны с другими факторами (речь идет о связях независимых переменных между собой).

Известно, что наиболее надежными на практике бывают одно- и двухфакторные модели.

Если будет обнаружено, что два фактора имеют сильную или полную связь между собой, то в регрессионное уравнение достаточно будет включить один из них.

Здесь стремятся отыскать наиболее точную меру выявленной связи, для того чтобы можно было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин Х1, Х2,.... Х n

Эту меру обобщенно выражают математической моделью линейной множественной регрессионной зависимости:

Y = a0 + b1Х1 + b2Х2 +... +bnXn

ЭВМ вычисляет параметры модели: свободный член а0 (константа, или пересечение) и коэффициенты bп (коэффициенты регрессии). Величину у называют откликом, а Х1, Х2,..., Хп - факторами или предикторами.

 

После получения каждого варианта уравнения обязательной процедурой является оценка его статистической значимости, поскольку главная цель - получить уравнение наивысшей значимости. Однако в связи с тем, что расчеты выполняет ЭВМ, а решение на основе оценки значимости уравнения принимает исследователь (принять или отбросить уравнение), условно можно выделить третий этап этой человеко-машинной технологии как интеллектуальный немашинный этап, для которого почти все данные по оценке значимости уравнения подготавливает ЭВМ.

Статистическую значимость, т. е. пригодность постулируемой модели для использования ее в целях предсказания значений отклика. Для оценки качества полученной модели программа вычислила также целый ряд коэффициентов, которые обязан рассмотреть исследователь, сравнивая их с известными статистическими критериями и оценивая модель с точки зрения здравого смысла.

На этом этапе исключительно важную роль играют коэффициент детерминации и F-критерий значимости регрессии.

R Squared (R2) - коэффициент детерминации - это квадрат множественного коэффициента корреляции между наблюдаемым значением Y и его теоретическим значением, вычисленным на основе модели с определенным набором факторов. Коэффициент детерминации измеряет действительность модели. Он может принимать значения от 0 до 1. Эта величина особенно полезна для сравнения ряда различных моделей и выбора наилучшей модели.

R2 есть доля вариации прогнозной (теоретической) величины Y относительно наблюденных значений Y, объясненная за счет включенных в модель факторов. Очень хорошо, если R2>= 80%. Остальная доля теоретических значений У зависит от других, не участвовавших в модели факторов. Задача исследователя - находить факторы, увеличивающие R2, к давать объяснение вариаций прогноза, чтобы получить идеальное уравнение. Однако, коэффициент R2 самое большее может достигнуть величины 1 (или 100%), когда все значения факторов различны. А если в данных есть повторяющиеся опыты, то величина R2 не может достигнуть 1, как бы хороша ни была модель. Поэтому дубликаты данных следует удалять из исходной таблицы до начала расчета регрессии. Некоторые программные пакеты автоматически удаляют дубликат, оставляя лишь уникальные данные. Повторение одинаковых данных снижает надежность оценок модели. R2 = 1 лишь при полном согласии экспериментальных (наблюденных) и теоретических (расчетных) данных, т. е. когда теоретические значения точно совпадают с наблюдаемыми. Однако это считается весьма маловероятным случаем.

Средствами регрессионного анализа, в т.ч. Excel, вычисляется F-критерий значимости регрессиидля уравнения в целом. Это рассчитанное по наблюденным данным значение Fp (F расчетный, наблюденный) следует сравнивать с соответствующим критическим значением Fк, (F критический, табличный) (см. приложение А). Fк исследователь выбирает из публикуемых статистических таблиц на заданном уровне вероятности (на том, на каком вычислялись параметры модели, например, 95%).

Если наблюденное значение Fp окажется меньше критического значения Fк, то уравнение нельзя считать значимым. В иной терминологии об этом же может быть сказано: не отвергнута нуль-гипотеза относительно значимости всех коэффициентов регрессии в постулируемой модели, т. е. коэффициенты практически равны нулю.

Электронная технология корреляционно-регрессионного анализа становится абсолютно бесполезной, если расчетные данные будут толковаться не вполне правильно.

Если полученная модель статистически значима, ее применяют для прогнозирования (предсказания), управления или объяснения.

Если же обнаружена незначимость, то модель отвергают, предполагая, что истинной окажется какая-то другая форма связи, которую надо поискать.

 




Поделиться с друзьями:


Дата добавления: 2014-12-07; Просмотров: 4098; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.