Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Dummy – переменные, фиктивные переменные

Включение в модель несущественных параметров.

Спецификация модели

 

Под спецификацией понимают выбор параметров регрессии. Т.к. на практике исследуется приближенная модель, рассмотрим соотношение между МНК-оценками параметров выбранной и истинной модели.

Рассмотрим два случая:

1) Исключение. В модель не включали существенные параметры. Тогда оценивается модель,

где z - часть существенных параметров.

Мы оцениваем

- истинная оценка

Найдем математическое ожидание полученной оценки

Получаем смещенные оценки, т.е. оценка не такая хорошая, но можно показать, что ее дисперсия будет меньше.

Пусть истинная модель: , а оценивается модель:

Выписывая оценку коэффициентов b в оцениваемой модели, можно показать, что

оценка несмещенная, но дисперсия , где – матрица, зависящая от z, т.е. дисперсия оценки увеличивается от включения в модель несущественных параметров.

Следствие: выбирая из двух зол наименьшее, лучше не включать часть существенных параметров, чем включить несущественные.

 

 

Как правило, независимые переменные в регрессионных моделях имеют непрерывные области распределения. Однако некоторые переменные могут иметь всего два или дискретное множество значений, например: пол, уровень образования, рейтинг, оценка и т.д.

Например: рассмотрим в качестве зависимой переменной – заработная плата, а - набор объясняющих переменных.

Хотим в модель включить новую бинарную переменную, отвечающую за наличие или отсутствие высшего образования. Тогда необходимо включить в модель новую переменную d (d=1, если t-ый рабочий имеет высшее образование; d=0, если не имеет)

и рассмотреть новую модель

Тогда средняя заработная плата для людей без высшего образования = ; с высшим образованием =

Т.е. коэффициент интерпретируется как среднее изменение з/п при переходе из одной категории в другую при неизменных остальных параметрах. Т.е. люди с высшим образованием получают на рублей больше. Если коэффициент перед незначим, т.е. его р>0,05, то различий в з/п между категориями нет.

Замечание: качественное различие можно формализовать с помощью любой переменной, принимающей два значения, а не обязательно 0 и1. Но тогда интегрируемость коэффициента усложняется.

Замечание: если включающаяся в модель dummy переменная имеет не два, а несколько значений, то в принципе можно было бы ввести дискретную переменную, принимающую такое же количество значений, но тогда, во-первых, затрудняется интерпретация, во-вторых, подразумевается одинаковое различие между состояниями признака. Поэтому вводят несколько бинарных переменных.

Пример: пусть оценивается стоимость мобильного телефона. В качестве дискретного признака выступает вид телефона:

Вводятся 4 бинарных переменных

, если телефон обычный; , в остальных случаях

, если телефон слим; , в остальных случаях

, если телефон раскладушка; , в остальных случаях

, если телефон вертушка; , в остальных случаях

 

Мы не включили в модель, т.к. тогда для любой строки выполнялось бы , т.е. регрессоры были бы линейно зависимы, т.е. мы не смогли бы получить МНК-оценку параметров, т.к. не смогли бы обратить матрицу.

Интерпретация коэффициентов:

Средняя стоимость телефона слим: , раскладушка: , вертушка:

Замечание: если рассматривается ситуация, когда бинарная переменная описывает не все возможные варианты, то в модель включаются все переменные.

Пример: если рассматривается вторичный рынок квартир в Москве, то зависимая переменная – это стоимость 1 кв.м. В качестве одного из факторов используют количество комнат и включают в модель 4 новые переменные следующего вида:

, если одна комната; , если нет

, если две комнаты; , если нет

, если три комнаты; , если нет

, если четыре комнаты; , если нет

 

В модель включаются все 4 переменные, т.к. в базе данных по квартирам присутствуют и многокомнатные квартиры, т.е. больше четырех комнат.

 

<== предыдущая лекция | следующая лекция ==>
Модель множественной регрессии | Прогнозирование
Поделиться с друзьями:


Дата добавления: 2013-12-13; Просмотров: 903; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.017 сек.