Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Коэффициент корреляции Пирсона




Тема 7

Исследователей часто интересует, как связаны между собой две переменные в данной группе лиц (классы, школы, нации и т.д.). Например, имеют ли ученики, научившиеся читать раньше других, тенденцию к более высокой успеваемости в шестом классе? Наблюдаются ли в больших классах мéньшие успехи в приобретении знаний за семестр, чем в небольших классах? Связана ли средняя продолжительность работы педагогов в школе непосредственно со средней заработной платой? Очевидно, для ответа на такие вопросы мы должны провести наблюдения по каждой переменной для группы объектов (типичных представителей, которыми могут быть классы, школы, районы и т.д.). Данные, собранные для ответа на один из подобных вопросов, могут выглядеть, как в приведенной ниже таблице 7.1.

 

Таблица 7.1

№ учащегося Оценка IQ (Х) Стенфорда – Бине Необработанная оценка теста успеваемости по химии (Y)
     

 

В этом примере переменными, которые изучались у 12 школьников, были оценки IQ, определённые с помощью Шкалы интеллекта Стенфорда – Бине в шестом классе, и успеваемость по химии в средней школе, оцененная на основе теста, состоящего из 35 вопросов.

Связь между двумя переменными можно выразить графически диаграммой рассеивания. Диаграмма рассеивания для данных примера показана на рисунке 7.1.

На диаграмме рассеивания каждый ученик изображается точкой. Точка, или метка, располагается в месте пересечения прямых линий, проведенных через оценку IQ перпендикулярно оси Х и через оценку теста по химии перпендикулярно оси Y для каждого ученика. Диаграмма на рисунке 7.1 показывает слабую положительную связь Х и Y. Однако мы пока не имеем обобщенной меры этой связи.

Надо поставить общий вопрос о более точном смысле термина «связь». Существует ли соответствие большого значения Х большим или малым значениям тех же объектов по Y или систематического распределения по парам с большими и малыми значениями не наблюдается?

Положение объекта относительно остальных в выборке по Х и Y, определяемое средними двух распределений, проявляется в величинах и знаках отклонений и соответственно. Если объект имеет высокий уровень по обеим переменным, как, например, учащийся 11 в вышеприведенном примере, то произведение ·будет большим и положительным. Аналогично, если он относительно низок как по Х, так и по Y, то для него также будет большим и положительным (поскольку произведение двух отрицательных чисел положительно).

 

Рис. 7.1 – Диаграмма рассеивания, показывающая связь IQ (Х) с успеваемостью по химии (Y) для 12 школьников

 

Если Х и Y в основном связаны прямо (большие значения с большими, а малые – с малыми), то большинство произведений будет положительным: следовательно, сумма этих произведений для всех объектов [то есть ] будет большой и положительной.

Если Х и Y имеют обратную связь (большое Х встречается с малым Y и наоборот), то многие объекты с положительными значениями будут тяготеть к отрицательным значениям , а отрицательные – к положительным . В этом случае произведения будут, как правило, отрицательными. Следовательно,

будет отрицательной, когда Х и Y связаны обратной зависимостью.

Если Х и Y не имеют систематической связи (большие Х сочетаются с малыми Y столь же часто, как и с большими Y, и то же самое справедливо для малых Х), то среди объектов с большими положительными значениями у некоторых будут положительные, а у других – отрицательные. При образовании произведений одни сомножители станут положительными, а другие – отрицательными. Сумма произведений

должна приблизительно балансировать положительные и отрицательные члены и поэтому должна быть довольно близкой к нулю.

Таким образом, мы имеем величину , которая велика и положительна, когда Х и Y сильно связаны прямой зависимостью, близка к нулю в случае отсутствия связи между Х и Y и велика и отрицательна, когда Х и Y сильно связаны обратной зависимостью. Однако эта сумма произведений отклонений всё ещё не является адекватной обобщенной мерой связи. Прежде всего, её величина зависит от числа пар значений, участвующих в подсчёте. Так как мы можем пожелать сравнить степень связи между Х и Y в двух выборках разного объёма, то надо уметь измерять связь независимо от объёма групп. Простое усреднение позволяет достигнуть этого. Два средних значения для выборок разного объема сравниваются в терминах центров группирования данных, а простые суммы для двух выборок не сопоставляются. Вот почему мы берём среднее, если хотим, чтобы статистика не зависела от объёма выборки. Однако, по той же причине, по которой получилась в результате деления суммы квадратов отклонений на n – 1, а не на n, нам следует разделить

на n – 1.

Величина является мерой связи Х и Y и называется ковариацией Х и Y. Ковариация Х и Y обозначается через :

(7.1)

Заметим, что ковариация Х с самим собой – это просто дисперсия Х:

Ковариация является вполне удовлетворительной мерой связи во многих задачах физики и техники. (Действительно, физики называют пресловутый бихевиористский «коэффициент корреляции», который часто встречается в зарубежных дидактических и психологических исследованиях, «безразмерной ковариацией»). И она представляет собой адекватную меру в той же степени, в какой шкала (среднее и дисперсия) переменных не является произвольной и имеет некоторый смысл. Многие переменные, с которыми мы имеем дело, измеряются в произвольных шкалах: среднее и дисперсию можно сделать любыми, какими вздумается, поскольку нас обычно интересует только взаимоположение объектов в группе. Это, в частности, верно для обработки психологических и педагогических данных.

Вычитание значений Х и Y из соответствующих средних сделало независимым от средних. Чтобы избавить меру связи от влияния стандартных отклонений двух групп значений, надо только разделить на и . В результате получим искомую меру связи Х и Y. Она называется коэффициентом корреляциипроизведением моментов – Пирсона и обозначается :

. (7.2)

Обозначение r происходит от слова регрессия. На первоначальном этапе применения этого коэффициента Фрэнсисом Гальтоном и Карлом Пирсоном (1857–1936) он играл важную роль в исследовании связей физических характеристик людей, исследовании, которое вначале было направлено на изучение регрессии физических изменений от одного поколения к другому.

Формула для вычисления

Уравнение (7.2) определяет , но неудобно для вычислений. Теперь мы найдём выражение, более удобное для вычисления . Начнём с

. (7.3)

Заметьте, что 1 / (n – 1) можно выделить в качестве сомножителя из двух членов знаменателя уравнения (7.3) (из каждого члена) и сократить с 1 / (n – 1) в числителе. Напоминаем также, что члены знаменателя уравнения (7.3) можно объединить под знаком радикала.

. (7.4)

Простые преобразования приводят к следующей формуле для :

, (7.5)

которую можно ещё более упростить, образуя расчётную формулу

. (7.6)

Пример вычисления

Для иллюстрации вычисления по уравнениям (7.5) и (7.6) здесь будут использованы некоторые данные теста на определение общих и специальных способностей. Исследователь изучает связь двух типов умственных способностей учеников неполной средней школы: абстрактное мышление и вербальное мышление. Разработаны два теста: для измерения склонности к абстрактному мышлению (Х) и к вербальному мышлению (Y). Оба теста были предложены 40 школьникам младшего класса неполной средней школы в одном городе штата Иллинойс с 30 000 жителей. Результаты 40 учащихся представлены в табл. 7.2. В каждом тесте было 50 вопросов, а результатом служило число правильных ответов. Диаграмма рассеивания двумерных данных (поле корреляции) табл. 7.2 представлена на рис. 7.2. В табл. 7.3 приводятся промежуточные и окончательные вычисления по формулам(7.5) и (7.6).

Таблица 7.2

Исходные оценки по тесту, состоящему из 50 вопросов и измеряющему способность к абстрактному и вербальному мышлению у 40 школьников неполной средней школы в Иллинойсе

 

Ученики Х Абстрактное мышление Y Вербальное мышление Ученики Х Абстрактное мышление Y Вербальное мышление
1 Линда Дж. 2 Пегги И. 3 Диана Л. 4 Констанция Л. 5 Уильям П. 6 Роджер Д. 7 Каролина Е. 8 Труди Р. 9 Питер А. 10 Дэвид Е. 11 Черил Дж. 12 Джорджия С. 13 Ирма Дж. 14 Рональд Л. 15 Памела Дж. 16 Эдвард Б. 17 Роза Л. 18 Карина М. 19 Роджер У. 20 Ричард Т.     21 Мартин Т. 22 Шерон Л. 23 Юлия Е. 24 Натали Дж. 25 Мериджин К. 26 Ларри Н. 27 Майкл Б. 28 Карлин М. 29 Скотт С. 30 Зигрид К. 31 Жан У. 32 Роджер Б. 33 Ричард Х. 34 Бонита Дж. 35 Рекс Н. 36 Ричард С. 37 Морис Д. 38 Уоррен У. 39 Джек Дж. 40 Стенли Л.    

 

Таблица 7.3

Пример вычисления по данным таблицы 7.2

Промежуточные вычисления Окончательные вычисления
n = 40 Уравнение (7.5): Уравнение (7.6):

 

Окончательные вычисления в правой части табл. 7.3 приводят к = 0,67 и по уравнению (7.5) и по уравнению (7.6). В пределах ошибки округления обе формулы всегда дадут в результате одну и ту же величину. Таким образом, оказывается, что существует сильная прямая связь между способностями к абстрактному и вербальному мышлению, измеренная по двум тестам.

 

Рис. 7.2 – Диаграмма рассеивания 40 пар результатов теста из табл. 7.2

Область изменения

Хотя это и затруднительно доказать, но никогда не может принять значение ни меньше –1, ни больше + 1.

Таблица 7.4

Интерпретация значений

Величина Описание линейной связи Диаграмма рассеивания
+1,00     Около +0,50     0,00   Около –0,50   –1,00   Строгая прямая связь     Слабая прямая связь     Нет связи (то есть ковариация Х и Y = 0)     Слабая обратная связь   Строгая обратная связь  

 

В таблице 7.4 перечислены различные значения с иллюстрациями типа линейной связи, которая существует между Х и Y для данных значений .




Поделиться с друзьями:


Дата добавления: 2014-10-22; Просмотров: 879; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.007 сек.