Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Линейная регрессия

Общий принцип. Простейший способ аппроксимации по МНК произвольных данных sk - с помощью полинома первой степени, т.е. функции вида y(t) = a+bt, которую обычно называют линией регрессии. С учетом дискретности данных по точкам tk, для функции остаточных ошибок имеем:

s(a, b) =[(a+b tk) - sk]2.

Для вычисления оценок коэффициентов дифференцируем функцию остаточных ошибок по аргументам a и b, приравниваем полученные уравнения нулю и формируем два нормальных уравнения системы:

2((a+b tk)-sk) º a1 + btksk = 0,

2((a+b tk)-sk) tk º atk + btk2sk tk = 0,

Решение данной системы уравнений в явной форме для К-отсчетов:

b = [Ktk sktksk] / [Ktk2 – (tk)2] = (- ) / (- ).

a = [sk – btk] /K = - b

Полученные значения коэффициентов используем в уравнении регрессии y(t) = a+bt. Прямая (s – ) = b (t - ) называется линией регрессии s по t. Для получения линии регрессии t по s, (t - ) = b (s – ), аргумент b в этой формуле заменяется на значение b = (- ) / (- ).

По аналогичной методике вычисляются коэффициенты и любых других видов регрессии, отличаясь только громоздкостью соответствующих выражений.

Реализация в Mathcad. Линейная регрессия в системе Mathcad выполняется по векторам аргумента Х и отсчетов Y функциями:

Ø intercept(X,Y) – вычисляет параметр а, смещение линии регрессии по вертикали;

Ø slope(X,Y) – вычисляет параметр b, угловой коэффициент линии регрессии.

Расположение отсчетов по аргументу Х произвольное. Функцией corr(X,Y) дополнительно можно вычислить коэффициент корреляции Пирсона. Чем он ближе к 1, тем точнее обрабатываемые данные соответствуют линейной зависимости.

Пример выполнения линейной регрессии приведен на рис. 15.2.1.

Рис. 15.2.1.

15.3. полиномиальная регрессия [25]

Одномерная полиномиальная регрессия с произвольной степенью n полинома и с произвольными координатами отсчетов в Mathcad выполняется функциями:

Ø regress(X,Y,n) – вычисляет вектор S для функции interp(…), в составе которого находятся коэффициенты ki полинома n-й степени;

Ø interp(S,X,Y,x) – возвращает значения функции аппроксимации по координатам х.

Функция interp(…) реализует вычисления по формуле:

f(x) = k0 + k1 x1 + k2 x2 + … + kn xnki xi.

Значения коэффициентов ki могут быть извлечены из вектора S функцией

submatrix(S, 3, length(S), 0, 0).

На рис. 15.3.1 приведен пример полиномиальной регрессии с использованием полиномов 2, 3 и 8-й степени. Степень полинома обычно устанавливают не более 4-6 с последовательным повышением степени, контролируя среднеквадратическое отклонение функции аппроксимации от фактических данных. Нетрудно заметить, что по мере повышения степени полинома функция аппроксимации приближается к фактическим данным, а при степени полинома, равной количеству отсчетов минус 1, вообще превращается в функцию интерполяции данных, что не соответствует задачам регрессии.

Рис. 15.3.1. Одномерная полиномиальная регрессия.

Зональная регрессия. Функция regress по всей совокупности точек создает один аппроксимирующий полином. При больших координатных интервалах с большим количеством отсчетов и достаточно сложной динамике изменения данных рекомендуется применять последовательную локальную регрессию отрезками полиномов малых степеней. В Mathcad это выполняется отрезками полиномов второй степени функцией

Рис. 15.3.2.

loess(X, Y, span),

которая формирует специальный вектор S для функции interp(S,X,Y,x). Аргумент span > 0 в этой функции (порядка 0.1-2) определяет размер локальной области и подбирается с учетом характера данных и необходимой степени их сглаживания (чем больше span, тем больше степень сглаживания данных).

На рис. 15.3.2 приведен пример вычисления регрессии модельной кривой (отрезка синусоиды) в сумме с шумами. Вычисления выполнены для двух значений span с определением среднеквадратического приближения к базовой кривой. При моделировании каких-либо случайных процессов и сигналов на высоком уровне шумов по минимуму среднеквадратического приближения может определяться оптимальное значение параметра span.

15.4. нелинейная регрессия [25]

Линейное суммирование произвольных функций. В Mathcad имеется возможность выполнения регрессии с приближением к функции общего вида в виде весовой суммы функций fn(x):

f(x, Kn) = K1 f1(x) + K2 f2(x) + … + KN fN(x),

при этом сами функции fn(x) могут быть любого, в том числе нелинейного типа. С одной стороны, это резко повышает возможности аналитического отображения функций регрессии. Но, с другой стороны, это требует от пользователя определенных навыков аппроксимации экспериментальных данных комбинациями достаточно простых функций.

Рис. 15.4.1. Обобщенная регрессия.

Реализуется обобщенная регрессия по векторам X, Y и f функцией

Ø linfit(X,Y,f),

которая вычисляет значения коэффициентов Kn. Вектор f должен содержать символьную запись функций fn(x). Координаты xk в векторе Х могут быть любыми, но расположенными в порядке возрастания значений х (с соответствующими отсчетами значений yk в векторе Y). Пример выполнения регрессии приведен на рис. 15.4.1. Числовые параметры функций f1-f3 подбирались по минимуму среднеквадратического отклонения.

Рис. 15.4.2.

Регрессия общего типа. Второй вид нелинейной регрессии реализуется путем подбора параметров ki к заданной функции аппроксимации с использованием функции

genfit(X,Y,S,F),

которая возвращает коэффициенты ki, обеспечивающие минимальную среднюю квадратическую погрешность приближения функции регрессии к входным данным (векторы Х и Y координат и отсчетов). Символьное выражение функции регрессии и символьные выражения ее производных по параметрам ki записываются в вектор F. Вектор S содержит начальные значения коэффициентов ki для решения системы нелинейных уравнений итерационным методом. Пример использования метода приведен на рис. 15.4.2.

Типовые функции регрессии Mathcad. Для простых типовых формул аппроксимации предусмотрен ряд функций регрессии, в которых параметры функций подбираются программой Mathcad самостоятельно. К ним относятся следующие функции:

è expfit(X,Y,S) – возвращает вектор, содержащий коэффициенты a, b и c экспоненциальной функции y(x) = a·exp(b·x)+c. В вектор S вводятся начальные значения коэффициентов a, b и c первого приближения. Для ориентировки по форме аппроксимационных функций и задания соответствующих начальных значений коэффициентов на рисунках слева приводится вид функций при постоянных значениях коэффициентов a и c.

è lgsfit(X,Y,S) – то же, для выражения y(x) = a/(1+c·exp(b·x)).

 

 

è pwrfit(X,Y,S) – то же, для выражения y(x) = a·xb+c.

è sinfit(X,Y,S) – то же, для выражения y(x) = a·sin(x+b)+c. Подбирает коэффициенты для синусоидальной функции регрессии. Рисунок синусоиды общеизвестен.

è logfit(X,Y) – то же, для выражения y(x)=a ln(x+b)+c. Задания начального приближения не требуется.

è medfit(X,Y) – то же, для выражения y(x) = a+b·x, т.е. для функции линейной регрессии. Задания начального приближения также не требуется. График – прямая линия.

 

Рис. 15.4.3.

На рис. 15.4.3 приведен пример реализации синусоидальной регрессии модельного массива данных по базовой синусоиде в сопоставлении с зональной регрессией полиномом второй степени. Как можно видеть из сопоставления методов по средним квадратическим приближениям к базовой кривой и к исходным данным, известность функции математического ожидания для статистических данных с ее использованием в качестве базовой для функции регрессии дает возможность с более высокой точностью определять параметры регрессии в целом по всей совокупности данных, хотя при этом кривая регрессии не отражает локальных особенностей фактических отсчетов данной реализации. Это имеет место и для всех других методов с заданием функций регрессии.

<== предыдущая лекция | следующая лекция ==>
Постановка задачи регрессии | Сглаживание данных
Поделиться с друзьями:


Дата добавления: 2014-01-04; Просмотров: 1401; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.011 сек.