КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Суть и этапы регрессионного анализа
Стандартных методов Excel Идентификация характеристик технологических объектов с использованием Идентификация характеристик технологических объектов Средства идентификации и оптимизации
Идентификация технологического объекта представляет собой получение (уточнение) по экспериментальным данным модели объекта, работоспособной для всех эксплуатационных режимов. Для решения задач идентификации может быть использована многочисленная группа методов, в частности, регрессионный анализ (РА), корреляционный анализ (КА), дисперсионный анализ (ДА), диаграмма рассеяния (ДР), проверки статистических гипотез (ПСГ) и др. Каждый из этих методов имеет свои разновидности. Например, в методе РА выделяют случаи линейного и нелинейного РА, одномерного и многомерного РА. Метод ДА подразделяется на однофакторный, двухфакторный, трехфакторный и т. д. Каждый метод эффективен для решения определенной группы задач. Так, при анализе существенности влияния факторов на выходной показатель при большом числе факторов и значительном изменении Q удобно использовать метод диаграмм рассеяния, если же число факторов невелико и колебания Q незначительны, то эффективнее метод ДА. При решении задачи идентификации моделей важное значение имеет точность определения значений входных переменных Х. Если ошибками в определении Х можно пренебречь, то можно использовать методы РА, если же значения Х рассматриваются как случайные величины, то применяются методы КА. Методы ПСГ используются в различных задачах, связанных с анализом случайных величин (идентификация закона распределения случайной величины, проверка существенности различий между параметрами распределения), построением доверительных интервалов, оценкой степени согласованности мнений экспертов и др.
Регрессионный анализ заключается в определении аналитического выражения связи зависимой случайной величины Y (называемой также результативным признаком) с независимыми случайными величинами X1, X2,…Xm (называемыми также факторами). Форма связи результативного признака Y с факторами X1, X2,…Xm получила название уравнения регрессии. В зависимости от типа выбранного уравнения различают линейную и нелинейную регрессии (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т. д.). В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессии. Если исследуется связь между двумя признаками (результативным и факторным), то регрессия называется парной, если между тремя и более признаками – множественной (многофакторной) регрессией. При изучении регрессии следует придерживаться определенной последовательности этапов: 1. Задание аналитической формы уравнения регрессии и определение параметров регрессии. 2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии. 3. Проверка статической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов.
Основное содержание этапов регрессионного анализа Основное содержание выделенных этапов рассмотрим на примере множественной линейной регрессии, реализованной в режиме «Регрессия» надстройки Пакет анализа Microsoft Excel. Этап 1. Уравнение линейной множественной регрессии имеет вид
, (4.1) где – теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии; – значения факторных признаков; – параметры уравнения (коэффициенты регрессии). Параметры уравнения регрессии могут быть определены с помощью метода наименьших квадратов (именно этот метод используется в Microsoft Excel). Сущность данного метода заключается в нахождении параметров модели (ai), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии, т. е. . (4.2) Рассматривая S в качестве функции параметров ai и проводя математические преобразования (дифференцирование), получаем систему нормальных уравнений с m неизвестными (по числу параметров ai): (4.3) где n – число наблюдений; m – число факторов в уравнении регрессии. Решив систему уравнений, находим значения параметров ai, являющихся коэффициентами искомого теоретического уравнения регрессии. Этап 2. Для определения величины степени стохастической взаимосвязи результативного признака Y и факторов X необходимо знать следующие дисперсии: – общую дисперсию результативного признака Y, отображающую влияние как основных, так и остаточных факторов: , (4.4) где – среднее значение результативного признака Y; – факторную дисперсию результативного признака Y, отображающую влияние только основных факторов: ; (4.5) – остаточную дисперсию результативного признака Y, отображающую влияние только остаточных факторов: . (4.6) При корреляционной связи результативного признака и факторов выполняется соотношение , при этом . (4.7) Для анализа общего качества уравнения линейной многофакторной регрессии используют обычно множественный коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции R. Множественный коэффициент детерминации рассчитывается по формуле (4.8) и определяет долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель. Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, возникает вопрос об адекватности построенного уравнения генеральным данным. Для этого проводится проверка статической значимости коэффициента детерминации R2 на основе F -критерия Фишера: , (4.9) где n – число наблюдений; m – число факторов в уравнении регрессии. Примечание. Если в уравнении регрессии свободный член а0 = 0, то числитель n–m– 1 следует увеличить на 1, т. е. он будет равен n–m.
В математической статистике доказывается, что если гипотеза H0: R2 = 0 выполняется, то величина F имеет F -распределение с k = m и l = n – m – 1 числом степеней свободы, т. е. . (4.10) Гипотеза H0: R2 = 0 о не значимости коэффициента детерминации R2 отвергается, если . При значениях R2 > 0,7 считается, что вариация результативного признака Y обусловлена в основном влиянием включенных в регрессионную модель факторов X. Этап 3. Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, т. е. значения данных коэффициентов будут меньше их стандартной ошибки. В этом случае такие коэффициенты должны быть исключены из уравнения регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации R2 включает в себя так же и проверку значимости каждого коэффициента регрессии. Значимость коэффициентов регрессии проверяется с помощью t -критерия Стьюдента:
, (4.11) где – стандартное значение ошибки для коэффициента регрессии . В математической статистике доказывается, что если гипотеза H0: ai = 0 выполняется, то величина t имеет распределение Стьюдента с k = n-m-1 числом степеней свободы, т. е. . (4.12) Гипотеза H0: ai = 0 о незначимости коэффициента регрессии отвергается, если . Кроме того, зная значение tкр, можно найти границы доверительных интервалов для коэффициентов регрессии: (4.13)
Для работы с регрессией открываем вкладку Сервис –> Анализ данных –> Регрессия (см. рис. 4.24.).
Рис. 4.24
В диалоговом окне Регрессия задаются следующие параметры: 1. Входной интервал по Y – вводится ссылка на ячейки, содержащие данные по результативному признаку. Диапазон должен состоять из одного столбца. 2. Входной интервал X – вводится ссылка на ячейки, содержащие факторные признаки. Максимальное число входных диапазонов (столбцов) равно 16. 3. Флажок Метки – устанавливается в активное состояние, если первая строка (столбец) во входном диапазоне содержит заголовки. Если заголовки отсутствуют, флажок следует деактивировать. В этом случае будут автоматически созданы стандартные названия для данных выходного диапазона. 4. Уровень надежности – установите данный флажок в активное состояние, если в поле, расположенном напротив флажка, необходимо ввести уровень надежности отличный от уровня 95%, применяемого по умолчанию. Установленный уровень надежности используется для проверки значимости коэффициента детерминации R2 и коэффициентов регрессии аi. (Уровень надежности оставляем по умолчанию 95 %). 5. Константа-ноль – установите данный флажок в активное состояние, если требуется, чтобы линия регрессии прошла через начало координат (т. е. а0 = 0). 6. Выходной интервал/Новый рабочий лист/Новая рабочая книга. В положении Выходной интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона. Размер выходного диапазона будет определен автоматически, и на экране появится сообщение в случае возможного наложения выходного диапазона на исходные данные. В положении Новый рабочий лист открывается новый лист, в который, начиная с ячейки А1, вставляются результаты анализа. Если необходимо задать имя открываемого нового рабочего листа, введите его имя в поле, расположенное напротив соответствующего положения переключателя. В положении Новая рабочая книга открывается новая Книга, на первом листе которой, начиная с ячейки А1, вставляются результаты анализа.
Вывод результатов: В первой таблице сгенерированы результаты по регрессионной статистике. Эти результаты соответствуют следующим статистическим показателям: 2. R-квадрат – коэффициенту детерминации R2; 3. Стандартная ошибка – остаточному стандартному отклонению ; (4.14) – Наблюдения – числу наблюдений n.
В следующей таблице сгенерированы результаты дисперсионного анализа, которые используются для проверки значимости коэффициента детерминации R2. 1. Столбец df – число степеней свободы. Для строки Регрессия число степеней свободы определяется количеством факторных признаков m в уравнении регрессии . Для строки Остаток число степеней свободы определяется числом наблюдений n и количеством переменных в уравнении регрессии . Для строки Итого число степеней свободы определяется суммой . 2. Столбец SS – сумма квадратов отклонений. Для строки Регрессия – это сумма квадратов отклонений теоретических данных от среднего: . (4.15) Для строки Остаток – это сумма квадратов отклонений эмпирических данных от теоретических: . (4.16) Для строки Итого – это сумма квадратов отклонений эмпирических данных от среднего: или . (4.17) 3. Столбец MS – дисперсии, рассчитываемые по формуле . (4.18) Для строки Регрессия – это факторная дисперсия . Для строки Остаток – это остаточная дисперсия . 4. Столбец Значимость F – значение уровня значимости, соответствующее вычисленному значению Fp. В последней таблице сгенерированы значения коэффициентов регрессии ai и их статические оценки. 1. Коэффициенты – значения коэффициентов ai. 2. Стандартная ошибка – стандартные ошибки коэффициентов ai. (4.19) 4. Р-значение – значения уровней значимости, соответствующие вычисленным значениям tp. 5. Нижние 95% и Верхние 95% – соответственно нижние и верхние границы доверительных интервалов для коэффициентов регрессии ai.
Дата добавления: 2014-12-29; Просмотров: 2711; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |