Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Анализ порядковых переменных




 

При порядковом уровне измерения мы имеем больше информации, так как позиции упорядочены, т. е. проранжированы. Поэтому, с одной стороны, можно при желании, конечно, использовать понятие моды. Рассмотрим данные табл. 13.3. Очевидно, что модой здесь будет строка «Скорее положительно, чем отрицательно», так как ей соответствует наибольшее количество случаев – 430. Но, с другой стороны, упорядоченность позиций позволяет использовать более сложные понятия, такие, как медиана и дисперсия, обозначим их Ме и δ.

Медиана − значение (строка), выражающее среднюю тенденцию для порядковых переменных. Чтобы пояснить, как определяется медиана, обратимся к табл. 13.3.

Таблица 13.3

 

Как Вы сегодня оцениваете состояние медицинского обслуживания? Абс. числа Кумуляты
1. Положительно    
2. Скорее положительно, чем отрицательно    
3. Скорее отрицательно, чем положительно    
4. Отрицательно    

 

Здесь мы имеем упорядоченное распределение значений переменной: от «Положительно» через промежуточные значения до «Отрицательно».

Чтобы узнать медиану, нужно в каждую строку, двигаясь сверху (или, наоборот, снизу) вписывать сумму числовых значений предыдущих строк плюс числовое значение данной строки. Такая сумма с нарастанием называется кумулятой (накоплением). На табл. 13.3 кумуляты (они показаны в третьем столбце) определяются через движение от верхней строки вниз. Нам нужно определить строку, кумулята которой включает 50%. Это строка и будет медианой.

В нашем примере 50% выборки равны 571, так как вся выборка равна 1142. Число 571 входит в кумуляту третьей строки (949), которая, следовательно, является медианой. Итак, медианой в данном случае является значение «Скорее отрицательно, чем положительно»[25].

Теперь по аналогии с номинальным распределением мы должны выяснить, насколько медиана репрезентативна, в данном случае – насколько близко вокруг медианы группируются остальные значения переменной. Для этого нужно определить дисперсию распределения.

Мы делим всю выборку на шаги, их называют квантили (от слова «квант» – порция). Величина квантиля, вообще говоря, зависит от нашего выбора. Эти шаги-квантили могут быть равны 20% выборки (квинтельный шаг), или 25% (квартильный шаг), или 10% (децильный шаг), или 1% (персентильный шаг).

Общее правило таково: дисперсия равна разности между номером строки предпоследнего шага и номером строки первого шага. Запишем правило в виде формулы:

δ = q n-1q 1.

 

Здесь q – номер строки.

Возьмем в качестве шага 20% выборки. Вся выборка в таком случае исчерпывается в пять шагов. Первый шаг равен 228,4 (20% от 1142). Это число входит во вторую строку. Предпоследний, четвертый шаг равен 913,6 (80% от 1142), ему соответствует третья строка. Определяем дисперсию: 3 – 2 = 1.

Малая величина дисперсии говорит о том, что значения переменной достаточно близко группируются вокруг медианы и, следовательно, медиана репрезентативна.

Предположим теперь несколько иное распределение значений порядковой переменной (табл. 13.4).

Таблица 13.4

 

Как Вы сегодня оцениваете состояние медицинского обслуживания? Абс. числа   Кумуляты
1. Положительно    
2. 2. Скорее положительно, чем отрицательно    
3. 3. Скорее отрицательно, чем положительно    
4. Отрицательно    

 

Здесь медиане будет соответствовать снова третья строка, то есть значение переменной «Скорее отрицательно, чем положительно».

Но первому шагу (228,4) будет соответствовать уже первая строка, а предпоследнему шагу (913,6) будет соответствовать четвертая строка. Дисперсия теперь равна 3 (4 – 1).

Большая дисперсия означает, что медиана не очень репрезентативна.

И действительно, мы видим, что основные числовые показатели (430 и 390) теперь не группируются вокруг медианы, они рассредоточены в крайних значениях переменной: первой и последней строках.

Попробуем выяснить, как должно выглядеть распределение переменной при нулевой дисперсии. В этом случае и первый и предпоследний шаги должны содержаться в одной строке.

Пусть это будет вторая строка. Это означает, что числовое значение первой строки должно быть меньше 228,4, а кумулята второй строки должна быть больше или равна 913,6. Строим соответствующую табл. 13.5.

 

Таблица 13.5

 

Как Вы сегодня оцениваете состояние медицинского обслуживания? Абс. числа Кумуляты
1. Положительно    
2. Скорее положительно, чем отрицательно    
3. Скорее отрицательно, чем положительно    
4. Отрицательно    

 

Мы видим, что при нулевой дисперсии вторая строка, которая одновременно соответствует медиане, сосредоточивает в себе подавляющее большинство значений переменной – около 80%.

Посмотрим теперь, как изменятся дисперсии, если мы выберем шаг в 25% выборки. Теперь должно быть всего четыре шага. Вернемся к табл. 13.3. Здесь первый шаг равен 285,5 (25% от 1142). Он снова оказывается во второй строке. Предпоследний, третий шаг равен 856,5 (75% от 1142). Он тоже оказывается в третьей строке. Дисперсия тоже равна 1.

В табл. 13.4 первый шаг в 25% оказывается в первой строке, а предпоследний шаг – в четвертой строке. Дисперсия равна 3 (4 – 1). Получается, что в табл. 13.4 медиана тоже менее репрезентативна, чем в табл. 13.3.

Выясним, чему будут равны дисперсии при децильном шаге, то есть 10% от выборки. Здесь вся выборка исчерпывается в 10 шагов.

В табл. 13.3 первый шаг будет равен 114,2 (10% от 1142), ему соответствует первая строка, предпоследний шаг будет равен 1027,8 (90% от 1142), ему соответствует четвертая строка. Дисперсия будет равна 3 (4 – 1).

В табл. 13.4 первому шагу будет соответствовать первая строка, предпоследнему шагу будет соответствовать четвертая строка. Дисперсия будет снова равна 3 (4 – 1).

Итак, можно считать, что в общем и целом медиана табл. 13.3 репрезентативней медианы табл. 13.4, хотя обе медианы находятся в одной и той же строке.

Рассмотрим случай, когда значений переменной больше 4. Допустим, мы заинтересовались распределением работников различного уровня квалификации в случайной выборке из 100 любителей подледного лова. Здесь мы имеем пять значений порядковой переменной (см. табл. 13.6).

Начинаем с определения медианы. Исследуя столбец с кумулятами, обнаруживаем, что 50% выборки, так сказать, экватор, находится между второй и третьей строками. Действительно, двигаясь сверху, мы набираем 50% выборки во второй строке, а двигаясь снизу (четвертый столбец), получаем 50% выборки в третьей строке. Это означает, что медианой будут одновременно значения переменной «Рабочий средней квалификации» и «Рабочий высокой квалификации».

 

Таблица 13.6

 

Любители подледного лова Абс. числа Кумуляты сверху Кумуляты снизу
1. Рабочие низкой квалификации      
2. Рабочие средней квалификации      
3. Рабочие высокой квалификации      
4. Инженеры среднего звена      
5. Инженеры высшего звена      

 

Определяем дисперсию при шаге 20%. Первый шаг соответствует числу 20, которое входит в числовое значение первой строки. Предпоследний шаг соответствует числу 80, которое входит в кумуляту четвертой строки. Дисперсия равна 3 (4 – 1).

Получается, что наиболее типичной фигурой среди любителей подледного лова является рабочий средней или высокой квалификации, причем типичность этой фигуры не так уж велика ввиду большой дисперсии.

Определим дисперсию при шаге 10%. Первый шаг соответствует числу 10, которое входит в числовой значение первой строки. Предпоследний шаг соответствует числу 90, которое входит в кумуляту пятой строки. Дисперсия равна 4 (5 – 1).

Следует заметить, что при больших дисперсиях, так как медиана является мало репрезентативной, распределение лучше рассматривать по аналогии с номинальным уровнем.

Например, в последнем случае можно принять в качестве моды значение переменной «Рабочий низкой квалификации» с коэффициентом вариации 0,7 (1 – 30/100).

Или в случае табл. 13.4, где тоже большая дисперсия, можно определить в качестве моды значение переменной «Положительно» с коэффициентом вариации 0,62 (1 – 430/1142) или рассматривать распределение как бимодальное (моды – первая и последняя строки).

 

 




Поделиться с друзьями:


Дата добавления: 2014-12-27; Просмотров: 1153; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.015 сек.