Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Суть и этапы регрессионного анализа




Стандартных методов Excel

Идентификация характеристик технологических объектов с использованием

Идентификация характеристик технологических объектов

Средства идентификации и оптимизации

 

 

Идентификация технологического объекта представляет собой получение (уточнение) по экспериментальным данным модели объекта, работоспособной для всех эксплуатационных режимов. Для решения задач идентификации может быть использована многочисленная группа методов, в частности, регрессионный анализ (РА), корреляционный анализ (КА), дисперсионный анализ (ДА), диаграмма рассеяния (ДР), проверки статистических гипотез (ПСГ) и др. Каждый из этих методов имеет свои разновидности. Например, в методе РА выделяют случаи линейного и нелинейного РА, одномерного и многомерного РА. Метод ДА подразделяется на однофакторный, двухфакторный, трехфакторный и т. д. Каждый метод эффективен для решения определенной группы задач. Так, при анализе существенности влияния факторов на выходной показатель при большом числе факторов и значительном изменении Q удобно использовать метод диаграмм рассеяния, если же число факторов невелико и колебания Q незначительны, то эффективнее метод ДА.

При решении задачи идентификации моделей важное значение имеет точность определения значений входных переменных Х. Если ошибками в определении Х можно пренебречь, то можно использовать методы РА, если же значения Х рассматриваются как случайные величины, то применяются методы КА. Методы ПСГ используются в различных задачах, связанных с анализом случайных величин (идентификация закона распределения случайной величины, проверка существенности различий между параметрами распределения), построением доверительных интервалов, оценкой степени согласованности мнений экспертов и др.

 

 

Регрессионный анализ заключается в определении аналитического выражения связи зависимой случайной величины Y (называемой также результативным признаком) с независимыми случайными величинами X1, X2,…Xm (называемыми также факторами).

Форма связи результативного признака Y с факторами X1, X2,…Xm получила название уравнения регрессии. В зависимости от типа выбранного уравнения различают линейную и нелинейную регрессии (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т. д.).

В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессии. Если исследуется связь между двумя признаками (результативным и факторным), то регрессия называется парной, если между тремя и более признаками – множественной (многофакторной) регрессией.

При изучении регрессии следует придерживаться определенной последовательности этапов:

1. Задание аналитической формы уравнения регрессии и определение параметров регрессии.

2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии.

3. Проверка статической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов.

 

Основное содержание этапов регрессионного анализа

Основное содержание выделенных этапов рассмотрим на примере множественной линейной регрессии, реализованной в режиме «Регрессия» надстройки Пакет анализа Microsoft Excel.

Этап 1. Уравнение линейной множественной регрессии имеет вид

 

, (4.1)

где – теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии;

– значения факторных признаков;

– параметры уравнения (коэффициенты регрессии).

Параметры уравнения регрессии могут быть определены с помощью метода наименьших квадратов (именно этот метод используется в Microsoft Excel). Сущность данного метода заключается в нахождении параметров модели (ai), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии, т. е.

. (4.2)

Рассматривая S в качестве функции параметров ai и проводя математические преобразования (дифференцирование), получаем систему нормальных уравнений с m неизвестными (по числу параметров ai):

(4.3)

где n – число наблюдений;

m – число факторов в уравнении регрессии.

Решив систему уравнений, находим значения параметров ai, являющихся коэффициентами искомого теоретического уравнения регрессии.

Этап 2. Для определения величины степени стохастической взаимосвязи результативного признака Y и факторов X необходимо знать следующие дисперсии:

общую дисперсию результативного признака Y, отображающую влияние как основных, так и остаточных факторов:

, (4.4)

где – среднее значение результативного признака Y;

факторную дисперсию результативного признака Y, отображающую влияние только основных факторов:

; (4.5)

остаточную дисперсию результативного признака Y, отображающую влияние только остаточных факторов:

. (4.6)

При корреляционной связи результативного признака и факторов выполняется соотношение

, при этом . (4.7)

Для анализа общего качества уравнения линейной многофакторной регрессии используют обычно множественный коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции R. Множественный коэффициент детерминации рассчитывается по формуле

(4.8)

и определяет долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель.

Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, возникает вопрос об адекватности построенного уравнения генеральным данным. Для этого проводится проверка статической значимости коэффициента детерминации R2 на основе F -критерия Фишера:

, (4.9)

где n – число наблюдений;

m – число факторов в уравнении регрессии.

Примечание. Если в уравнении регрессии свободный член а0 = 0, то числитель n–m– 1 следует увеличить на 1, т. е. он будет равен n–m.

 

В математической статистике доказывается, что если гипотеза H0: R2 = 0 выполняется, то величина F имеет F -распределение с k = m и l = n – m – 1 числом степеней свободы, т. е.

. (4.10)

Гипотеза H0: R2 = 0 о не значимости коэффициента детерминации R2 отвергается, если .

При значениях R2 > 0,7 считается, что вариация результативного признака Y обусловлена в основном влиянием включенных в регрессионную модель факторов X.

Этап 3. Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, т. е. значения данных коэффициентов будут меньше их стандартной ошибки. В этом случае такие коэффициенты должны быть исключены из уравнения регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации R2 включает в себя так же и проверку значимости каждого коэффициента регрессии.

Значимость коэффициентов регрессии проверяется с помощью t -критерия Стьюдента:

 

, (4.11)

где – стандартное значение ошибки для коэффициента регрессии .

В математической статистике доказывается, что если гипотеза H0: ai = 0 выполняется, то величина t имеет распределение Стьюдента с k = n-m-1 числом степеней свободы, т. е.

. (4.12)

Гипотеза H0: ai = 0 о незначимости коэффициента регрессии отвергается, если .

Кроме того, зная значение tкр, можно найти границы доверительных интервалов для коэффициентов регрессии:

(4.13)

 

 

Для работы с регрессией открываем вкладку Сервис –> Анализ данных –> Регрессия (см. рис. 4.24.).

 

 

Рис. 4.24

 

В диалоговом окне Регрессия задаются следующие параметры:

1. Входной интервал по Y – вводится ссылка на ячейки, содержащие данные по результативному признаку. Диапазон должен состоять из одного столбца.

2. Входной интервал X – вводится ссылка на ячейки, содержащие факторные признаки. Максимальное число входных диапазонов (столбцов) равно 16.

3. Флажок Метки – устанавливается в активное состояние, если первая строка (столбец) во входном диапазоне содержит заголовки. Если заголовки отсутствуют, флажок следует деактивировать. В этом случае будут автоматически созданы стандартные названия для данных выходного диапазона.

4. Уровень надежности – установите данный флажок в активное состояние, если в поле, расположенном напротив флажка, необходимо ввести уровень надежности отличный от уровня 95%, применяемого по умолчанию. Установленный уровень надежности используется для проверки значимости коэффициента детерминации R2 и коэффициентов регрессии аi. (Уровень надежности оставляем по умолчанию 95 %).

5. Константа-ноль – установите данный флажок в активное состояние, если требуется, чтобы линия регрессии прошла через начало координат (т. е. а0 = 0).

6. Выходной интервал/Новый рабочий лист/Новая рабочая книга.

В положении Выходной интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона. Размер выходного диапазона будет определен автоматически, и на экране появится сообщение в случае возможного наложения выходного диапазона на исходные данные.

В положении Новый рабочий лист открывается новый лист, в который, начиная с ячейки А1, вставляются результаты анализа. Если необходимо задать имя открываемого нового рабочего листа, введите его имя в поле, расположенное напротив соответствующего положения переключателя.

В положении Новая рабочая книга открывается новая Книга, на первом листе которой, начиная с ячейки А1, вставляются результаты анализа.

 

 

Вывод результатов:

В первой таблице сгенерированы результаты по регрессионной статистике. Эти результаты соответствуют следующим статистическим показателям:
1. Множественный R – коэффициенту корреляции R;

2. R-квадрат – коэффициенту детерминации R2;

3. Стандартная ошибка – остаточному стандартному отклонению

; (4.14)

Наблюдения – числу наблюдений n.

 

В следующей таблице сгенерированы результаты дисперсионного анализа, которые используются для проверки значимости коэффициента детерминации R2.

1. Столбец df – число степеней свободы.

Для строки Регрессия число степеней свободы определяется количеством факторных признаков m в уравнении регрессии .

Для строки Остаток число степеней свободы определяется числом наблюдений n и количеством переменных в уравнении регрессии .

Для строки Итого число степеней свободы определяется суммой .

2. Столбец SS – сумма квадратов отклонений.

Для строки Регрессия – это сумма квадратов отклонений теоретических данных от среднего:

. (4.15)

Для строки Остаток – это сумма квадратов отклонений эмпирических данных от теоретических:

. (4.16)

Для строки Итого – это сумма квадратов отклонений эмпирических данных от среднего:

или . (4.17)

3. Столбец MS – дисперсии, рассчитываемые по формуле

. (4.18)

Для строки Регрессия – это факторная дисперсия .

Для строки Остаток – это остаточная дисперсия .

4. Столбец Значимость F – значение уровня значимости, соответствующее вычисленному значению Fp.

В последней таблице сгенерированы значения коэффициентов регрессии ai и их статические оценки.

1. Коэффициенты – значения коэффициентов ai.

2. Стандартная ошибка – стандартные ошибки коэффициентов ai.
3. t-статистика – расчетные значения t -критерия, вычисляемые по формуле

(4.19)

4. Р-значение – значения уровней значимости, соответствующие вычисленным значениям tp.

5. Нижние 95% и Верхние 95% – соответственно нижние и верхние границы доверительных интервалов для коэффициентов регрессии ai.




Поделиться с друзьями:


Дата добавления: 2014-12-29; Просмотров: 2655; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.05 сек.