КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Основные теоретические сведения 1 страница
ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ В общем случае регрессия – функциональная зависимость между объясняющими переменными Хj и объясняемой переменной Y, которая строится с целью прогнозирования среднего значения Y при заданных значениях Хj =xj, Различают уравнения регрессии I и II рода. Уравнением регрессии первого рода называют уравнение вида:
Если уравнение (1.1) представляет собой уравнение связи двух случайных величин Y и Х, то это уравнение представляет собой уравнение парной регрессии. В предположении нормального распределения случайной величины (Y, Х) парную регрессию называют линейной парной регрессией, т.к. в этом случае условное математическое ожидание (1.1) представляет собой уравнение прямой линии Y = M (Y / x) = Для точного описания уравнения регрессии необходимо знать условный закон распределения зависимой переменной Y при условии, что переменная Х примет значение х. В связи с тем, что реальные значения переменной Y не всегда совпадают с ее средним значением M (Y / x), то в уравнение регрессии вводится случайная составляющая Y* = M (Y / x) +
или для конкретных наблюдений (у i, x i):
Уравнение (1.4) называют теоретической линейной моделью. Возмущения 1. Математическое ожидание возмущения
или
2. Дисперсия возмущения
3. Возмущения
4. Возмущения Обычно исследователь имеет дело с исходными данными выборки объемом n, где каждое наблюдение – есть точка (Y, Х) в (m +1) – мерном пространстве. Здесь m – число объясняющих переменных. В случае парной регрессии имеется выборка объемом n двумерной случайной величины (Y, Х). Уравнением регрессии второго рода называют эмпирическое уравнение регрессии, которое строится на основе данных выборки. Рассматривается парная линейная регрессия, когда уравнение регрессии второго рода имеет вид
С учетом уравнения (1.3) эмпирическую линейную модель связи переменных Y и Х запишем в виде: yi = b 0 + b 1 xi + ei, (1.6)
где Построение уравнения регрессии начинается с построения корреляционного поля, представляющего собой графическую зависимость в виде точек случайной величины (Y, Х) на плоскости y 0 x. По расположению эмпирических точек делается вывод о наличии линейной корреляционной зависимости между переменными Y и Х. Дальнейшее построение уравнения регрессии сводится к оценке ее параметров, используя метод наименьших квадратов (МНК). В этом случае неизвестные параметры b 0 и b 1 выбираются так, чтобы сумма квадратов отклонений эмпирических значений yi от значений
Применение МНК обусловлено тем, что он позволяет получить несмещенные оценки с минимальной дисперсией, в условиях, когда В результате операции МНК оценка выборочного коэффициента регрессии b 1 определяется выражением: b 1 = Cov (X, Y) / а коэффициента b 0: b 0 = где
Точность оценок коэффициентов линейного уравнения регрессии первого рода характеризуется их выборочными дисперсиями, которые вычисляются по формулам:
Здесь S 2 – дисперсия регрессии – оценка дисперсии Проверка качества уравнения регрессии осуществляется по ряду позиций. 1. Оценка статистической значимости коэффициентов регрессии заключается в проверке основной гипотезы Н 0 о значимости отличия коэффициентов b 0 и b 1 от нуля. С этой целью используется критерий Стьюдента. Вычисляются 2. Интервальные оценки коэффициентов уравнения регрессии. Так как объем выборки ограничен, то b 0 и b 1 – случайные величины, поэтому желательно найти доверительные интервалы для истинных значений
которая имеет t – распределение Стьюдента с
с надежностью р = 1- 3. Проверка значимости уравнения регрессии в целом. Позволяет установить, соответствует ли математическая модель экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных для описания зависимой переменной. Проверка значимости уравнения регрессии производится на основе дисперсионного анализа. Мерой общего качества уравнения регрессии является коэффициент детерминации R2: R 2 = 1 - Выражение (1.11) вытекает из соотношения:
где
Из соотношений (1.11) и (1.12) следует, что коэффициент детерминации R 2 есть не что иное, как:
R 2 =
Таким образом, коэффициент детерминации можно вычислить по (1.11) или по (1.13). Основная цель использования уравнения регрессии - прогноз значений зависимой переменной. Здесь речь идет о возможных значениях Yр при определенных значениях объясняющей переменной Хр. Так как задача решается в условиях неопределенности то прогноз удобнее всего давать на основе интервальных оценок, построенных с заданной надежностью Причем здесь возможно два подхода: 1) предсказание среднего значения, т.е. M (Y / Х = xр); 2) предсказание индивидуальных значений Y / Х = xр. Интервальный прогноз для среднего значения вычисляется следующим образом:
где Интервальный прогноз для индивидуального значения вычисляется по формуле:
1.2. Реализация задания на компьютере с помощью ППП Ехсеl
С целью повышения эффективности решения задачи необходимо воспользоваться возможностями ППП Ехсеl. Для этого требуется инициировать опцию Мастер функций. В основном будет востребована категория Статистические и некоторые функции из категорий Математические и Ссылки и массивы. Перечень этих функций и краткое описание представлены в Приложении «Стандартные функции». ВНИМАНИЕ! Каждый студент должен выполнить индивидуальное задание с использованием компьютера в двух вариантах: 1) Реализовать формулы (1.1) – (1.15) с помощью ППП Ехсеl. 2) Использовать «комплексные» функции, выходом которых являются не только коэффициенты регрессии, но и дополнительная регрессионная статистика (среднеквадратические отклонения, коэффициент детерминации и т.д.). 1) Реализация регрессионных формул (1.1) – (1.15). В начале необходимо воспользоваться Мастером диаграмм, выбрать тип Точечная и нанести значения выборки на корреляционное поле (рис. 1.1). По расположению точек на графике сделать предварительный анализ о возможной линейной зависимости между переменными. С помощью функций ППП Ехсеl определить оценки коэффициентов регрессии b 0, b 1, реализуя формулы (1.7), (1.8), например По соответствующим формулам вычисляются дисперсии
Рис. 1.1.
Примерный вид реализации задачи на компьютере представлен на рис.1.2. Для графической иллюстрации приближения корреляционной функции Параметры линейной регрессии можно рассчитать и сразу. Для этого в Ехсеl существуют функции Наклон и Отрезок. Функция Наклон служит для определения углового коэффициента связи (b 1), а функция Отрезок – для определения свободного члена уравнения (b 0). В качестве аргументов этих функций вводятся массивы Х и Y. Кроме перечисленных возможностей существует еще и следующая возможность. Построим график по имеющимся данным. Чтобы ось Х отражала фактические данные, выберем тип диаграммы Точечная. На построенной диаграмме выделим график функции, щелкнув по ней левой кнопкой мыши. Затем нажмем правую кнопку мыши, выведем контекстное зависимое меню, в котором выберем опцию Добавить линию тренда. В панели линии тренда во вкладке Тип надо выбрать тип функции (по умолчанию выбирается Линейная). Во вкладке Параметры введем название тренда (теоретической кривой) и установим флажки «Показывать уравнение на диаграмме» и «Поместить на диаграмму величину достоверности аппроксимации (R^2)». В результате появится график вида (рис.1.4.).
Рис.1.2.
Рис.1.3.
Рис.1.4.
2) Использование «Комплексных» функций. Одной из таких функций является встроенная статистическая функция ЛИНЕЙН (описание функции и ее аргументов приведено в приложении «Стандартные функции»). Дополнительная регрессионная статистика (в случае ее инициализации) будет выводиться в порядке, указанном в следующей схеме:
Для данных из вышерассмотренного примера результат вычисления функции ЛИНЕЙН представлен на рис.1.5.
Рис.1.5. Примечание. Функция ЛИНЕЙН должна быть введена, как формула массива в интервал с необходимым количеством строк и столбцов. Перед использованием функции ЛИНЕЙН выделяем ячейку (1,1) (1-ая строка, 1-ый столбец) массива, в который будет занесен результат вычисления функции, затем инициализируем Мастер функций, выбираем категорию Статистические и функцию Линейн. Щелкните по кнопке ОК. После заполнения аргументов в ячейке (1,1) появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, выделите массив нужной размерности, включая и ячейку (1,1) (в нашем примере 5 – строк, 2 – столбца), нажмите на клавишу <F2>, а затем – на комбинацию клавиш <CTRL>+<SHIFT>+<ENTER>. Для лучшей наглядности можно нужные значения из этой таблицы выбирать индивидуально и размещать в нужных форматах документа. Для этого можно воспользоваться функцией ИНДЕКС из категории Ссылки и массивы. Выделите ячейку, в которую хотите поместить отдельный элемент массива и введите формулу, например: Индекс (Линейн (Y; Х; Истина; Истина); 1; 2).
Дата добавления: 2014-11-29; Просмотров: 440; Нарушение авторских прав?; Мы поможем в написании вашей работы! |