КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Dummy – переменные, фиктивные переменные
Включение в модель несущественных параметров. Спецификация модели
Под спецификацией понимают выбор параметров регрессии Рассмотрим два случая: 1) Исключение. В модель не включали существенные параметры. Тогда оценивается модель, где z - часть существенных параметров. Мы оцениваем
Найдем математическое ожидание полученной оценки Получаем смещенные оценки, т.е. оценка не такая хорошая, но можно показать, что ее дисперсия будет меньше. Пусть истинная модель: Выписывая оценку коэффициентов b в оцениваемой модели, можно показать, что
оценка несмещенная, но дисперсия Следствие: выбирая из двух зол наименьшее, лучше не включать часть существенных параметров, чем включить несущественные.
Как правило, независимые переменные в регрессионных моделях имеют непрерывные области распределения. Однако некоторые переменные могут иметь всего два или дискретное множество значений, например: пол, уровень образования, рейтинг, оценка и т.д. Например: рассмотрим в качестве зависимой переменной Хотим в модель включить новую бинарную переменную, отвечающую за наличие или отсутствие высшего образования. Тогда необходимо включить в модель новую переменную d (d=1, если t-ый рабочий имеет высшее образование; d=0, если не имеет)
и рассмотреть новую модель
Тогда средняя заработная плата для людей без высшего образования = Т.е. коэффициент Замечание: качественное различие можно формализовать с помощью любой переменной, принимающей два значения, а не обязательно 0 и1. Но тогда интегрируемость коэффициента Замечание: если включающаяся в модель dummy переменная имеет не два, а несколько значений, то в принципе можно было бы ввести дискретную переменную, принимающую такое же количество значений, но тогда, во-первых, затрудняется интерпретация, во-вторых, подразумевается одинаковое различие между состояниями признака. Поэтому вводят несколько бинарных переменных. Пример: пусть оценивается стоимость мобильного телефона. В качестве дискретного признака выступает вид телефона:
Вводятся 4 бинарных переменных
Мы не включили в модель Интерпретация коэффициентов: Средняя стоимость телефона слим: Замечание: если рассматривается ситуация, когда бинарная переменная описывает не все возможные варианты, то в модель включаются все переменные. Пример: если рассматривается вторичный рынок квартир в Москве, то зависимая переменная – это стоимость 1 кв.м. В качестве одного из факторов используют количество комнат и включают в модель 4 новые переменные следующего вида:
В модель включаются все 4 переменные, т.к. в базе данных по квартирам присутствуют и многокомнатные квартиры, т.е. больше четырех комнат.
Дата добавления: 2013-12-13; Просмотров: 955; Нарушение авторских прав?; Мы поможем в написании вашей работы! |