КАТЕГОРИИ:

Главная
Случайная страница
Познавательное
Новые статьи
Контакты
Заказать работу

Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Суть и этапы регрессионного анализа

⇐ Предыдущая 74 75 76 777879 80 81 82 83 Следующая ⇒

Стандартных методов Excel

Идентификация характеристик технологических объектов с использованием

Идентификация характеристик технологических объектов

Средства идентификации и оптимизации

Идентификация технологического объекта представляет собой получение (уточнение) по экспериментальным данным модели объекта, работоспособной для всех эксплуатационных режимов. Для решения задач идентификации может быть использована многочисленная группа методов, в частности, регрессионный анализ (РА), корреляционный анализ (КА), дисперсионный анализ (ДА), диаграмма рассеяния (ДР), проверки статистических гипотез (ПСГ) и др. Каждый из этих методов имеет свои разновидности. Например, в методе РА выделяют случаи линейного и нелинейного РА, одномерного и многомерного РА. Метод ДА подразделяется на однофакторный, двухфакторный, трехфакторный и т. д. Каждый метод эффективен для решения определенной группы задач. Так, при анализе существенности влияния факторов на выходной показатель при большом числе факторов и значительном изменении Q удобно использовать метод диаграмм рассеяния, если же число факторов невелико и колебания Q незначительны, то эффективнее метод ДА.

При решении задачи идентификации моделей важное значение имеет точность определения значений входных переменных Х. Если ошибками в определении Х можно пренебречь, то можно использовать методы РА, если же значения Х рассматриваются как случайные величины, то применяются методы КА. Методы ПСГ используются в различных задачах, связанных с анализом случайных величин (идентификация закона распределения случайной величины, проверка существенности различий между параметрами распределения), построением доверительных интервалов, оценкой степени согласованности мнений экспертов и др.

Регрессионный анализ заключается в определении аналитического выражения связи зависимой случайной величины Y (называемой также результативным признаком) с независимыми случайными величинами X₁, X₂,…X_m (называемыми также факторами).

Форма связи результативного признака Y с факторами X₁, X₂,…X_m получила название уравнения регрессии. В зависимости от типа выбранного уравнения различают линейную и нелинейную регрессии (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т. д.).

В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессии. Если исследуется связь между двумя признаками (результативным и факторным), то регрессия называется парной, если между тремя и более признаками – множественной (многофакторной) регрессией.

При изучении регрессии следует придерживаться определенной последовательности этапов:

1. Задание аналитической формы уравнения регрессии и определение параметров регрессии.

2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии.

3. Проверка статической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов.

Основное содержание этапов регрессионного анализа

Основное содержание выделенных этапов рассмотрим на примере множественной линейной регрессии, реализованной в режиме «Регрессия» надстройки Пакет анализа Microsoft Excel.

Этап 1. Уравнение линейной множественной регрессии имеет вид

, (4.1)

где – теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии;

– значения факторных признаков;

– параметры уравнения (коэффициенты регрессии).

Параметры уравнения регрессии могут быть определены с помощью метода наименьших квадратов (именно этот метод используется в Microsoft Excel). Сущность данного метода заключается в нахождении параметров модели (a_i), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии, т. е.

. (4.2)

Рассматривая S в качестве функции параметров a_i и проводя математические преобразования (дифференцирование), получаем систему нормальных уравнений с m неизвестными (по числу параметров a_i):

(4.3)

где n – число наблюдений;

m – число факторов в уравнении регрессии.

Решив систему уравнений, находим значения параметров a_i, являющихся коэффициентами искомого теоретического уравнения регрессии.

Этап 2. Для определения величины степени стохастической взаимосвязи результативного признака Y и факторов X необходимо знать следующие дисперсии:

– общую дисперсию результативного признака Y, отображающую влияние как основных, так и остаточных факторов:

, (4.4)

где – среднее значение результативного признака Y;

– факторную дисперсию результативного признака Y, отображающую влияние только основных факторов:

; (4.5)

– остаточную дисперсию результативного признака Y, отображающую влияние только остаточных факторов:

. (4.6)

При корреляционной связи результативного признака и факторов выполняется соотношение

, при этом . (4.7)

Для анализа общего качества уравнения линейной многофакторной регрессии используют обычно множественный коэффициент детерминации R², называемый также квадратом коэффициента множественной корреляции R. Множественный коэффициент детерминации рассчитывается по формуле

(4.8)

и определяет долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель.

Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, возникает вопрос об адекватности построенного уравнения генеральным данным. Для этого проводится проверка статической значимости коэффициента детерминации R² на основе F -критерия Фишера:

, (4.9)

где n – число наблюдений;

m – число факторов в уравнении регрессии.

Примечание. Если в уравнении регрессии свободный член а₀ = 0, то числитель n–m– 1 следует увеличить на 1, т. е. он будет равен n–m.

В математической статистике доказывается, что если гипотеза H₀: R² = 0 выполняется, то величина F имеет F -распределение с k = m и l = n – m – 1 числом степеней свободы, т. е.

. (4.10)

Гипотеза H₀: R² = 0 о не значимости коэффициента детерминации R² отвергается, если .

При значениях R² > 0,7 считается, что вариация результативного признака Y обусловлена в основном влиянием включенных в регрессионную модель факторов X.

Этап 3. Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, т. е. значения данных коэффициентов будут меньше их стандартной ошибки. В этом случае такие коэффициенты должны быть исключены из уравнения регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации R² включает в себя так же и проверку значимости каждого коэффициента регрессии.

Значимость коэффициентов регрессии проверяется с помощью t -критерия Стьюдента:

, (4.11)

где – стандартное значение ошибки для коэффициента регрессии .

В математической статистике доказывается, что если гипотеза H₀: a_i = 0 выполняется, то величина t имеет распределение Стьюдента с k = n-m-1 числом степеней свободы, т. е.

. (4.12)

Гипотеза H₀: a_i = 0 о незначимости коэффициента регрессии отвергается, если .

Кроме того, зная значение t_кр, можно найти границы доверительных интервалов для коэффициентов регрессии:

(4.13)

Для работы с регрессией открываем вкладку Сервис –> Анализ данных –> Регрессия (см. рис. 4.24.).

Рис. 4.24

В диалоговом окне Регрессия задаются следующие параметры:

1. Входной интервал по Y – вводится ссылка на ячейки, содержащие данные по результативному признаку. Диапазон должен состоять из одного столбца.

2. Входной интервал X – вводится ссылка на ячейки, содержащие факторные признаки. Максимальное число входных диапазонов (столбцов) равно 16.

3. Флажок Метки – устанавливается в активное состояние, если первая строка (столбец) во входном диапазоне содержит заголовки. Если заголовки отсутствуют, флажок следует деактивировать. В этом случае будут автоматически созданы стандартные названия для данных выходного диапазона.

4. Уровень надежности – установите данный флажок в активное состояние, если в поле, расположенном напротив флажка, необходимо ввести уровень надежности отличный от уровня 95%, применяемого по умолчанию. Установленный уровень надежности используется для проверки значимости коэффициента детерминации R² и коэффициентов регрессии а_i. (Уровень надежности оставляем по умолчанию 95 %).

5. Константа-ноль – установите данный флажок в активное состояние, если требуется, чтобы линия регрессии прошла через начало координат (т. е. а₀ = 0).

6. Выходной интервал/Новый рабочий лист/Новая рабочая книга.

В положении Выходной интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона. Размер выходного диапазона будет определен автоматически, и на экране появится сообщение в случае возможного наложения выходного диапазона на исходные данные.

В положении Новый рабочий лист открывается новый лист, в который, начиная с ячейки А1, вставляются результаты анализа. Если необходимо задать имя открываемого нового рабочего листа, введите его имя в поле, расположенное напротив соответствующего положения переключателя.

В положении Новая рабочая книга открывается новая Книга, на первом листе которой, начиная с ячейки А1, вставляются результаты анализа.

Вывод результатов:

В первой таблице сгенерированы результаты по регрессионной статистике. Эти результаты соответствуют следующим статистическим показателям:
1. Множественный R – коэффициенту корреляции R;

2. R-квадрат – коэффициенту детерминации R²;

3. Стандартная ошибка – остаточному стандартному отклонению

; (4.14)

– Наблюдения – числу наблюдений n.

В следующей таблице сгенерированы результаты дисперсионного анализа, которые используются для проверки значимости коэффициента детерминации R².

1. Столбец df – число степеней свободы.

Для строки Регрессия число степеней свободы определяется количеством факторных признаков m в уравнении регрессии .

Для строки Остаток число степеней свободы определяется числом наблюдений n и количеством переменных в уравнении регрессии .

Для строки Итого число степеней свободы определяется суммой .

2. Столбец SS – сумма квадратов отклонений.

Для строки Регрессия – это сумма квадратов отклонений теоретических данных от среднего:

. (4.15)

Для строки Остаток – это сумма квадратов отклонений эмпирических данных от теоретических:

. (4.16)

Для строки Итого – это сумма квадратов отклонений эмпирических данных от среднего:

или . (4.17)

3. Столбец MS – дисперсии, рассчитываемые по формуле

. (4.18)

Для строки Регрессия – это факторная дисперсия .

Для строки Остаток – это остаточная дисперсия .

4. Столбец Значимость F – значение уровня значимости, соответствующее вычисленному значению F_p.

В последней таблице сгенерированы значения коэффициентов регрессии a_i и их статические оценки.

1. Коэффициенты – значения коэффициентов a_i.

2. Стандартная ошибка – стандартные ошибки коэффициентов a_i. 3. t-статистика – расчетные значения t -критерия, вычисляемые по формуле

(4.19)

4. Р-значение – значения уровней значимости, соответствующие вычисленным значениям t_p.

5. Нижние 95% и Верхние 95% – соответственно нижние и верхние границы доверительных интервалов для коэффициентов регрессии a_i.

⇐ Предыдущая 74 75 76 777879 80 81 82 83 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2014-12-29; Просмотров: 2711; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2026) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.013 сек.