КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Лекция. Измерение связей неколичественных переменных
Методы корреляционного и регрессионного анализа предназначены для количественных переменных, т. е. переменных, измеренных на интервальной шкале. В практических задачах асе чаще требуется измерение связей неколичественных переменных, измеренных на номинальных и порядковых шкалах. Это вызвано повышением внимания к изучению социальных процессов, где велика доля нечисловой информации. Кроме того, актуализировалось понятие «коммерческая тайна». Так, при опросах менеджеров фирм об объеме расчетов с поставщиками, соотношении дебиторской и кредиторской задолженности респонденты предпочитают не давать точные количественные ответы, а указывать на изменение ситуации: улучшилось, ухудшилось, осталось без изменения; Повысилась, понизилась, сохранилась на прежнем уровне и т. д. Развитие конкурентных рынков способствовало разработке методик Построения рейтингов фирм, банков, учебных заведений и т. д. Рейтинг — по сути порядковая переменная, и для изучения зависимости рейтинга от каких-либо характеристик должны использоваться меры связи, предназначенные для порядковых переменных. При этом единицам совокупности присваиваются ранги по разным признакам, т.е. порядковые номера единиц совокупности в ранжированном ряду. Связь между ними определяется коэффициентом корреляции рангов. Наиболее распространенными мерами связей между грядковыми переменными являются коэффициенты корреляции рангов Спирмена и Кендэлла (названные по фамилиям английских ученых, разработавших эти меры связи). Формула коэффициента корреляции рангов Спирмена основана на формуле коэффициента парной корреляции: где — ранг i‑й единицы совокупности по переменной х; - средний ранг по переменной х; —ранг i-й единицы совокупности по переменной у; -средний ранг по переменной у.
Очевидно, что коэффициент ранговой корреляции изменяется так же как и коэффициент парной корреляции, в интервале от -1 до 1 (по абсолютной величине —[0,1]). Путем преобразований приведенной формулы Ч. Спирмен получил выражение коэффициента ранговой корреляции, которое обычно используется: где - разность рангов по переменным х и у для i-й единицы совокупности; n— число наблюдений. Иногда коэффициент ранговой корреляции обозначается греческой буквой ρ. Пример. Пять фирм, производящих молочные продукты, проранжированы по рангам, соответствующим оценке покупателями качества их продукции. Параллельно получены ранги этих фирм по результатам опросов магазинов розничной торговли. Получены следующие результаты (таблица 1). Таблица 1 ‑ Расчет коэффициента ранговой корреляции
. В данном случае связь умеренная: оценки покупателей не слишком коррелируют с оценками продавцов. Измерим ту же корреляцию с помощью коэффициента Кендэлла τ: , где s — фактическая сумма рангов; 1/2n·(n-1)—максимальная сумма рангов. По данным примера: s = (3 - 1) + (3 - 0) + (0 - 2) + (0 - 1) = 2 s рассчитывается по рангам у. Для каждого ранга определяется число рангов выше данного и вычитается число рангов ниже данного. И так для всех единиц. В результате , т. е. коэффициент τ дал еще более строгую оценку измеряемой связи. При большом числе наблюдений и нетесных связях примерно в 2,5 раза больше τ. Рассмотрим, как изучается связь между номинальными переменными. Здесь значения переменных не участвуют в измерении связи. Вся информация о наличии или отсутствии связи содержится лишь в частотах появления сочетаний признаков х и у. Основой изучения связи номинальных переменных служит таблица сопряженности — двумерное распределение единиц совокупности по переменным х и у (таблица 2).
Таблица 2 - Таблица сопряженности
В итоговых частотах точкой обозначено суммирование по одному из подстрочных значков. Частоты, стоящие в клетках таблицы, называются клеточными частотами. Именно по их значениям судят о наличии и тесноте связи. Если единицы совокупности концентрируются в диагональных клетках таблицы, то налицо наличие связи; если же такой концентрации не наблюдается — связи может не быть. Факт наличия связи устанавливается с помощью критерия χ2: , где -фактическая клеточная частота, т. е. число единиц с i-м значением признака х и Как известно, вероятность двух независимых событий равна произведению их вероятностей: . Для того чтобы от вероятностей (частостей) перейти к частотам, вероятность нужно умножить на п. Получаем формулу теоретической клеточной частоты: , т. е. итог по строке нужно умножить на итог по столбцу и разделить на общее число данных. Сумма теоретических частот во всех клетках таблицы равна общему числу наблюдений п. Сумма теоретических частот по строкам и столбцам таблицы равна соответственно и . Таким образом, теоретические частоты — это перераспределение исходных данных в предположении, что связь между переменными х и у отсутствует. Величина χ2 показывает, насколько велико расхождение фактических частот с теми, которые были бы, если бы х и у были независимыми. Такое расхождение так или иначе всегда будет, поэтому существует таблица критических значений критерия χ2, которая содержит предельно возможное значение χ2 отвергает предположение о независимости переменных. Распределение χ2 зависит от числа степеней свободы и уровне значимости α. Число степеней свободы определяется следующим образом:
d.f. = mp– m– p+ 1 = (m– 1)(p– 1), где т - число категорий переменной х, или число строк таблицы сопряженности; р - число категорий переменной у, или число столбцов таблицы сопряженности; тр - число клеток таблицы сопряженности. Уровень значимости - это вероятность отклонить гипотезу о независимости переменных при условии, что она верна. Обычно уровень значимости принимается равным α = 0,05 или 0,01 (5% или 1%). Вычисленное по вышеуказанной формуле значение χ2(χ2табл.) сравнивается с критическим (табличным) значением χ2 при данном числе степеней свободы и принятом уровне значимости (χ2α.d.f.). Если χ2факт. > χ2α.d.f., то делается вывод о наличии связи признаков х и у, и, наоборот, если χ2факт. ≤ χ2α.d.f., то гипотеза о независимости х и у не отклоняется, т.е. наличие связи не может считаться доказанным. Пример. При анализе работы фирмы, оказывающей сантехнические услуги как компаниям, так и индивидуальным заказчикам, возникла необходимость оценить, нет ли связи между типом клиента и качеством обслуживания. С этой целью была построена следующая таблица сопряженности (таблица 3). Таблица 3 - Соотношение типа клиента и качества обслуживания
Анализируя данные табл. 7.12, видим, что среди обслуженных компаний лишь 10,7 % высказали претензии к качеству обслуживания, тогда как из индивидуальных заказчиков доля тех, кого не устроило качество работ, составила 24,3 %. Чтобы удостовериться, что связь между типом клиента и качеством обслуживания существует, вычислим значения. Для этого рассчитаем теоретические частоты, которые запишем в клетках таблицы в правом верхнем углу. ; ; ; . Учитывая, что мы имеем дело с таблицей 2x2 (четырехклеточной) можно было бы не вычислять и , а получить их как разность и .
Поскольку теоретические клеточные частоты — рассчитанные величины, они могут быть нецелыми числами. Сумма всех теоретических Частот равна n = 633, итоги по строкам и столбцам таблицы равны итоговым частотам. Табличное значение χ2 при числе степеней свободы d.f.= (2 - 1)(2 - 1) = 1 и уровне значимости α = 0,05 (т. е, при 95% доверительной вероятности) составляет 3,84. χ2факт.> χ2табл., следовательно, наличие связи может считаться доказанным: действительно, тип клиента сказывается на качестве обслуживания. После того как связь установлена, приступают к ее измерению, χ2 не является мерой связи. Его величина зависит от объема совокупности, числа строк и столбцов таблицы. 0≤ χ2≤∞, т. е. значение может быть сколь угодно большим. Измерение тесноты связи производят с помощью коэффициентов взаимной сопряженности. Все они основаны на нормировании χ2: погашении зависимости от числа наблюдений и размерности таблицы.) Все эти меры связи изменяются в интервале [0.1]. Коэффициент взаимной сопряженности К. Пирсона: , где . Этот коэффициент не принимает во внимание число категорий для переменных х и у. Более совершенным является коэффициент сопряженности А. А. Чупрова: . Этот коэффициент в случае, если таблица не квадратная, никогда не достигает 1. Модификацией этого коэффициента является коэффициент взаимной сопряженности Г. Крамера: , т. е. в знаменателе подкоренного выражения берется минимальная из величин: число строк без единицы либо число столбцов без единицы. Для квадратных таблиц C=T. По данным примера: .
Тогда P = 0,147; T = C = 0,147. Если таблица сопряженности не является четырехклеточной, то P>(T, C).
Для таблиц 2x2 разработаны специальные меры связи. Основные из них — коэффициент ассоциации и коэффициент контингенции. Коэффициент ассоциации равен: Коэффициент контингенции дал значительно более высокую оценку тесноты связи. . По данным примера: . Недостаток этого коэффициента в том, что если хотя бы одна из клеточных частот равна нулю, то коэффициент контингенции становится равным единице. Таким образом, для каждого уровня измерения переменных разработаны соответствующие меры связи.
Значение t-критерия Стьюдента при уровне значимости 0,10, 0,05, 0,01
Значение χ2 - критерия Пирсона при уровне значимости 0,10, 0,05, 0,01
Критические значения коэффициентов корреляции для уровней значимости 0,05, 0,01
Для простой корреляции d.f. на 2 меньше, чем число пар вариантов; в случае частной корреляции необходимо также вычесть число исключаемых переменных.
Дата добавления: 2014-01-04; Просмотров: 2014; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |