КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Интервальные оценки параметров линейной регрессии
Поскольку статистика, используемая для оценки того или иного параметра, является случайной величиной, она может принимать произвольные значения, сколько угодно далекие от истинного значения оцениваемого параметра. Состоятельность статистики гарантирует лишь, что большие уклонения реализации этой случайной величины от оцениваемого параметра имеют малую вероятность, исчезающую при неограниченном возрастании объема выборки. При этом вероятность того, что истинное значение параметра в точности совпадет с наблюдаемым значением статистики, равна 0. Интервальной оценкой параметра q генеральной совокупности с доверительной вероятностью g называется пара случайных величин, и , для которых имеет место неравенство при . Если такие случайные величины найдены, то интервал считается интервальной оценкой параметра q с доверительной вероятностью g. Подчеркнем, что в качестве достоверной оценки параметра q можно, как правило, указать только всю числовую прямую. Даже для значений параметра g,близких к единице (для этих значений доверительный интервал обычно довольно велик, а прогноз относительно значения параметра q расплывчат), имеется возможность ошибки, то есть того, что на самом деле параметр q не принадлежит интервалу . Вероятность этой ошибки равна 1- g. Примером интервальной оценки математического ожидания генеральной совокупности в случае, когда среднее квадратичное уклонение известно и равно s, является доверительной интервал вида , где tg – решение уравнения . Здесь – функция Лапласа. Рассмотрим общую ситуацию. Предположим, что известно распределение некоторой состоятельной несмещенной статистики параметра q генеральной совокупности. Если p (x) – плотность этого распределения, то вероятность уклонения статистики от его математического ожидания q можно найти по формуле Рассмотрим, для простоты, распределения, симметричные относительно математического ожидания. Интервальную оценку параметра q также будем искать симметричной относительно значения . Величина tg, удовлетворяющая соотношению , является функцией параметра g и называется критической точкой распределения. В частности, для распределений, симметричных относительно математического ожидания, вероятность события будет заведомо не больше 1- g. Интервал называется доверительным интервалом параметраq с доверительной вероятностью g. В данном случае g есть вероятность события, что реализации случайных функций и удовлетворяют неравенству . Часто говорят, что g – это вероятность того, что интервал “накроет” q. Особую роль в построении интервальных оценок параметров линейной регрессии играет распределение c 2 и распределение Стьюдента. Пусть x 1, …, xn – n независимых нормально распределенных случайных величин с математическим ожиданием 0 средним квадратичным уклонением 1. Рассмотрим случайную величину . Закон распределения этой случайной величины называется распределением c 2 с n степенями свободы. В курсе теории вероятности доказывается, что функция плотности распределения этой случайной величины имеет вид Среднее значение случайной величины, распределенной по закону c 2, равно n, а дисперсия 2 n. p (x)
n -2 x Замечательным фактом является следующее утверждение. Если n случайных величин x 1, …, xn удовлетворяют k независимым линейным соотношениям вида c 0 + c 1 x 1 + … + cnxn = 0 (и, следовательно, среди них имеется n - k независимых случайных величин, а остальные линейно выражаются через них), то случайная величина , по–прежнему, имеет распределение c 2, но уже с n - k степенями свободы. Критической точкой распределения c2 с числом степеней свободы n с уровнем значимости a называют решение уравнения Û Û Решение этого интегрального уравнения обозначается и приводится во всех статистических таблицах. Приведем для справки команды, с помощью которых можно получить значения при разных значениях параметров a, n в таких программах, как EXCEL, MATHCAD и MAPLE.
> with(stats):statevalf[icdf,chisquare[n]](1-a); (Maple) qchisq(1-a,n)(MathCad) =хи2обр(a;n) (Excel) В частности, . Пусть x 0, x 1, …, xn – независимые нормально распределенные случайные величины с нулевым математическим ожиданием и одинаковым средним квадратичным уклонением s. Рассмотрим случайную величину . Распределение этой случайной величины называется распределением Стьюдента с n степенями свободы. Функция плотности распределения этой случайной величины имеет вид . Среднее значение случайной величины, распределенной по закону Стьюдента с n степенями свободы равно 0, а дисперсия . Нетрудно проверить, что при n ®¥ функция плотности распределения случайной величины t (n) стремится к функции плотности нормального закона N(0,1). Считается, что уже при n > 30 функция плотности практически неотличима от функции . Если n случайных величин x 1, …, xn удовлетворяют k независимым линейным соотношениям вида a 0 + a 1 x 1 + … + anxn = 0, то случайная величина t (n) имеет распределение Стьюдента с n - k степенями свободы. Критической точкой (двустороннего) распределения Cтьюдента с числом степеней свободы n с доверительной вероятностью g называют решение уравнения Û Решение этого интегрального уравнения обозначается и приводится во всех статистических таблицах. Приводим для справки команды, с помощью которых можно получить значения при разных значениях параметров g и n с использованием программ EXCEL, MATHCAD и MAPLE. > with(stats):statevalf[icdf,studentst[n]](); (Maple) qt(,n)(MathCad) =стьюдраспобр(1- g;n) (Excel) В частности, . Наша задача – предъявить интервальные оценки для параметров и линейной регрессии, а также оценку среднего квадратичного уклонения s случайной величины e в предположениях классической нормальной модели. Для этого требуется изучить закон распределения статистик , , . Рассмотрим подробно распределение старшего коэффициента b 1. В лекции 1 было получено соотношение . Здесь – независимые, одинаково распределенные случайные величины, распределенные по нормальному закону с нулевым математическим ожиданием и постоянным средним квадратичным уклонением s (нам неизвестным). При этом M[ b 1]= a 1, Из курса теории вероятностей известно, что произвольная линейная комбинация независимых нормально распределенных случайных величин распределена нормально. Следовательно, в предположениях классической линейной регрессионной модели, статистика b 1 распределена нормально с параметрами a 1, . Отсюда сразу следует, что статистика также распределена по нормальному закону с параметрами ,
. К сожалению, параметр s нам неизвестен, и мы лишь можем оценить его при помощи статистики s 2. Определим закон распределения статистики s 2. По определению остаточной суммы квадратов, имеем , где . Из явного вида функций , , следует, что случайные величины выражаются в виде линейных комбинаций независимых нормально распределенных случайных величин , …, , следовательно, все также являются нормально распределенными случайными величинами. В лекции 1 были выведены формулы M [ ei ]=0 и D [ ei ]= . При достаточно больших значениях N можно считать, что все D [ ei ] одинаковы и равны s 2. Следовательно, с точностью до постоянного множителя, случайная величина s 2 распределена по закону c2. Вопрос лишь в том, какое количество независимых линейных соотношений имеется между величинами e 1, …, eN, или, иными словами, сколько степеней свободы имеет величина s 2? Вспомним, что для вывода формул для статистик b 0 и b 1 мы использовали принцип наименьших квадратов Гаусса, и, конкретно, два уравнения, Таким образом, функции e 1, …, eN удовлетворяют двум независимым линейным уравнениям. Следовательно, число степеней свободы статистики s 2равно N -2: . С учетом соотношений , , отсюда следует, что случайные величины , асимптотически, при N ®¥, распределены по закону Стьюдента с числом степеней свободы, равным N - 2. Формулы для интервальных оценок параметров b 1, b 0. Если доверительная вероятность интервала равна g, то ,
. Для доверительного интервала параметра s случайной величины e получаем выражение . Действительно, поскольку , вероятность события (для положительных чисел A и B) равна , где F (t) – интегральная функция распределения случайной величины c2 с N -2 степенями свободы. В частности, по определению критической точки распределения c2, получаем . Следовательно, Таким образом, интервал “накроет” значение s с вероятностью g, что и требовалось.
Дата добавления: 2014-12-16; Просмотров: 1524; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |