Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Понятие линии регрессии. Определение коэффициента связи между интервальными переменными




 

Здесь мы на условном примере разберем простую и часто повторяющуюся ситуацию.

Известно, что мужчины, выйдя на пенсию, какое-то время продолжают деятельную жизнь. Они не уходят совсем с работы, оставаясь на половине или четверти ставки, либо начинают строить баньку в саду, пристраивать веранду к садовому дому и т. д. И тем не менее все-таки можно предположить, что чем больше лет проходит после выхода на пенсию, тем большую часть времени мужчины засиживаются перед телевизором.

Обратим внимание на то, что эта гипотеза не является чем-то само собой разумеющимся. Возможны альтернативные предположения: человек может начать больше внимания уделять своему здоровью и вместо сидения перед телевизором увлечься продолжительными прогулками на свежем воздухе, начать заниматься оздоровительной гимнастикой, ходить в бассейн, приступить к выполнению давнишней мечты перечитать всего Ги де Мопассана и т. д.

Вспомним, что одно из требований, предъявляемых к гипотезам, состоит в том, что они должны быть фальсифицируемыми[34]. То есть наши предположения должны быть такими, чтобы конкретными фактами можно либо подтвердить их, либо опровергнуть. Предположение о увеличении количества часов для просмотра телепередач соответствует требованию фальсифицируемости, так как реальные факты могут это предположение и не подтвердить.

Итак, выдвинем гипотезу, что имеется положительная зависимость типа «Чем больше А, тем больше В» между количеством лет, прошедших после выхода на пенсию, и количеством часов, проводимых перед телевизором в течение суток.

Для проверки гипотезы мы проводим социологическое исследование[35]. Отбираем на основе таблицы случайных чисел несколько микрорайонов города. Составляем список проживающих в этих микрорайонах мужчин пенсионного возраста. Из этого списка на основе таблицы случайных чисел отбираем 20 человек с таким расчетом, чтобы среди них были мужчины, находящиеся на пенсии от 1 года до 10 лет.

Проводим с этими 20 респондентами интервью[36] относительно того, как они провели два последних полных дня. И анализируя результаты интервью, выясняем, сколько часов в сумме в эти два дня каждый мужчина провел, сидя перед телевизором. Наконец, эти часы делим на два, чтобы узнать средние цифры за день[37].

Результаты интервью представляем в виде табл. 17.1 и графика (рис. 17.1). В них независимой переменной X соответствует число лет, прошедших после выхода на пенсию, а зависимой переменной Y соответствует количество часов, потраченных на просмотр телепередач в течение суток.

 

Таблица 17.1

 

                                       
X                                        
Y   4,5 3,5                                  

 

 

Рис. 17.1. Время, затрачиваемое на просмотр телепередач, при различных количествах лет, прошедших после выхода на пенсию

 

Если мы присмотримся к графику, то, несмотря на кажущийся хаос расположения точек, можем заметить тенденцию, состоящую в том, что с увеличением количества лет, прошедших после выхода на пенсию, действительно возрастает число часов, уделяемых просмотру телепередач.

Но нам недостаточно увидеть тенденцию, нам нужно выполнить две задачи.

Первая состоит в том, чтобы количественно измерить зависимость между обеими переменными. Вторая состоит в том, чтобы выяснить, является ли эта зависимость статистически значимой.

Обратим внимание на то, что речь идет о связи между интервальными переменными. Но что значит в данном случае измерить связь? Поясним на примере из физики.

Допустим, некий велосипедист движется с постоянной скоростью, и вот эту скорость нам хотелось бы измерить. Скорость есть расстояние, проходимое в единицу времени. Таким образом, выяснив, какой путь преодолевает велосипедист, например, в одну секунду, мы узнаем скорость его передвижения. Мы решаем построить график движения велосипедиста в виде прямой линии, откладывая на абсциссе время в секундах, а на ординате – пройденный путь в метрах, (рис. 17.2).

 

Рис. 17.2. График, выражающий зависимость между временем движения и преодоленным велосипедистом расстоянием

 

Из полузабытого школьного курса алгебры вспомним, что уравнение прямой выглядит следующим образом: Y = аX + в. Здесь а характеризует угол наклона прямой относительно абсциссы, в – место пересечения прямой с ординатой.

Угол наклона прямой и будет соответствовать скорости движения велосипедиста, она у нас равна 3 м/сек. Прямая пересекается с ординатой в точке, соответствующей 2 м. Строим уравнение, соответствующее графику движения нашего велосипедиста: Y = 3 X + 2.

Опираясь на это уравнение, можно предсказать, что на 4-й секунде движения наш велосипедист одолеет 14 метров с момента начала нашего хронометража. В самом деле, подставляя в уравнение 4 вместо X, получаем как раз 14 метров: 3 х 4 + 2 = 14. А на 100-й секунде путь окажется равным 302 м (3 х 100 + 2).

Получается, что если мы найдем уравнение типа Y = аX + в, которое соответствовало бы прямой, выражающей связь между количеством лет после выхода на пенсию и количеством часов, уделяемых просмотру телепередач, то мы измерим зависимость между обеими переменными. В литературе прямая, которая отражает общую направленность всей совокупности точек, называется линией регрессии.

Чтобы найти искомое уравнение, нужно определить параметры а и в.

Не вникая в тонкости соответствующих математических соображений, сразу дадим формулу, по которой определяется величина параметра а.

Здесь и – средние арифметические соответствующих переменных. Строим табл. 17.2, в которой определяем все элементы формулы сначала по отдельности.

Таблица 17.2

 

    -4,5 20,25   -2,25 10,125
    -4,5 20,25 4,5 -0,75 3,375
    -3,5 12,25 3,5 -1,75 6,125
    -2,5 6,25   -0,25 0,625
    -2,5 6,25   -1,25 3,125
    -2,5 6,25   -0,25 0,625
    -1,5 2,25   -0,25 0,375
    -1,5 2,25   -1,25 1,875
    -1,5 2,25   0,75 -1,125
    -0,5 0,25   -0,25 0,125
    0,5 0,25   -0,25 -0,125
    0,5 0,25   1,75 0,875
    1,5 2,25   -0,25 -0,375
    1,5 2,25   0,75 1,125
    2,5 6,25   1,75 4,375
    2,5 6,25   0,75 1,875
    3,5 12,25   -0,25 -0,875
    3,5 12,25   0,75 2,625
    4,5 20,25   1,75 7,875
    4,5 20,25   0,75 3,375
  S = 110   S = 161 S = 105   S = 46
  = 5,5     = 5,25    

 

Подставляя в формулу получившиеся суммы из табл. 17.2, получаем число, соответствующее параметру а.

а = 46: 161 = 0,286.

Для определения в подставляем в уравнение Y = аX + в вместо X и Y их средние арифметические 5,5 и 5,25 из таблицы, а вместо а подставляем 0,286. Получаем уравнение: 5,25 = 0,286х5,5 + в. В таком случае, в = 3,68 (5,25 – 0,286х5,5 = 5,25 – 1,57).

Теперь строим уравнение линии регрессии: Y = 0,286 X + 3,68.

Помещаем в график (рис. 17. 1) линию регрессии, соответствующую полученному уравнению, и получаем график на рис. 17.3.

 

 

Рис. 17.3. Линия, выражающая общую тенденцию связи между количеством лет после выхода на пенсию и количеством часов, уделяемых просмотру телепередач

 

Итак, связь между нашими переменными выражается коэффициентом 0,286, а наглядно изображается прямой линией на графике (рис. 17.3).

Знак плюс при коэффициенте говорит о том, что линия направлена снизу вверх направо. Это совпадает с направлением нашей прямой.

Коэффициент а может меняться от −1 до +1. Чем он ближе к +1, тем круче наклон результирующей прямой снизу вверх вправо. Отрицательный знак при коэффициенте означает наклон кривой сверху вниз вправо. Коэффициент, равный нулю, означает отсутствие связи, ему соответствует прямая, параллельная абсциссе.

 




Поделиться с друзьями:


Дата добавления: 2014-12-27; Просмотров: 453; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.012 сек.