Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Сравнение двух экспериментальных распределений




На практике значительно чаще встречаются задачи, в кото­рых необходимо сравнивать не теоретическое распределение с эмпирическим, а два и более эмпирических распределения меж­ду собой. Ниже будут рассмотрены типичные варианты задач, предусматривающих сравнение экспериментальных распределе­ний (данных) и способы их решения с использованием крите­рия хи -квадрат.

В этих задачах с помощью критерия хи -квадрат проводится оценка однородности двух и более независимых выборок и таким образом проверяется гипотеза об отсутствии различий между двумя и более эмпирическими (экспериментальными) распреде­лениями.

Исходные данные двух эмпирических распределений для сравнения между собой могут быть представлены разными спо­собами. Наиболее простой из этих способов: так называемая «че­тырехпольная таблица». Она используется в тех случаях, когда в первой выборке имеются два значения (числа) и во второй вы­борке также два значения (числа). Критерий хи -квадрат позволя­ет также сравнивать между собой три, четыре и большее число эмпирических величин. Для расчетов во всех этих случаях исполь­зуются различные модификации формулы , что позволяет существенно облегчить процесс вычисления.

Начнем изучение сравнения двух эмпирических распределе­ний с самого простого случая — использования четырехпольной таблицы.

Задача 3. Одина­ков ли уровень подготовленности учащихся в двух школах, если в первой школе из 100 чело­век поступили в вуз 82 человека и во второй школе из 87 человек поступили в вуз 44?

Решение. Условия задачи можно представить в виде четы­рехпольной таблицы 8.6 ячейки которой, обозна­чаются обычно как А, В, С и D:

Таблица 5.

  Школа 1 Школа 2
Число поступивших в вуз А 82 В 44
Число не поступивших в вуз С 18 D 43
Сумма    

 

Согласно данным, представленным в таблице 5, в нашем случае имеется четыре эмпирические частоты, это соответствен­но 82, 44, 18 и 43. Для того чтобы можно было использовать формулу , необходимо для каждой из этих эмпирических ча­стот найти соответственные «теоретические» частоты.

Из таблицы 5 следует, что 18 и 43 человека из первой и второй школ соответственно не поступили в вуз. Относительно этих величин подсчитывается величина Р. Это так называемая доля признака, или частота. В данном случае признаком явилось то, что выпускники не поступили в вуз. Величина Р подсчитыва­ется по формуле (8.5) следующим образом:

.

Величина Р позволяет рассчитать «теоретические» частоты для третьей строчки таблицы 8.6, которые обозначим как и .

Эти частоты показывают, сколько учащихся из первой и второй школ не должны были поступить в вуз. Они подсчитывается сле­дующим образом:

для первой школы

для второй школы

 

Иными словами, из первой школы не должны были посту­пить в вуз 33 человека, а из второй 28,71. (Для большей точности вычислений по методу хи -квадрат желательно не округлять ре­зультаты вычислений, а сохранять сотые и даже тысячные зна­чения после запятой). Исходя из вновь полученных «теоретичес­ких» частот — 33 и 28,71, мы можем произвести расчет того, сколько учащихся должны были бы теперь поступить в вуз из первой и второй школ. Обозначим эти частоты как для первой и для второй школ, получим соответственно:

для первой школы 100 - 33 == 67

для второй школы 87 - 28,71 = 58,29

Перепишем полученные «теоретические» частоты в новую таблицу 6.

Таблица 6.

  Школа 1 Школа 2
Число учащихся, которые должны были бы поступить в вуз А =67 В =58,29
Число учащихся, которые не должны были бы поступить в вуз С =33 D =28,71
Сумма    

 

Вычислим , из величин табл. 5 вычитаются величины табл. 6:

В данном случае число степеней свободы v = (k -1)•(с-1) подсчитывается как произведение числа столбцов минус 1 на число строк минус 1. Иными словами, v = (2-1)•(2-1)=1, поскольку у нас 2 строки и два столбца. И в соответствии с таб­лицей 12 Приложения 1 находим:

Полученная величина попала в зону значимости. Иными словами, следует принять гипотезу Н 1, о наличии различий меж­ду двумя эмпирическими распределениями. Таким образом, уро­вень подготовленности учащихся в двух школах оказался разным. На основе эмпирических данных мы можем теперь утверждать, что уровень подготовленности учащихся в первой школе суще­ственно выше, чем во второй. Без использования критерия хи- квадрат такого вывода мы сделать бы не могли.

Решим задачу, в которой сравниваются две выборки, имеющие по четыре значения каждая.

Задача 4. В двух школах района выяснялась успешность зна­ния алгебры учащимися десятых классов. Для это­го в обеих школах были случайным образом ото­браны 50 учащихся и с ними проведены конт­рольные работы. Проверялось предположение о том, что существенной разницы в уровне знаний учащимися алгебры в двух школах не существует.

Решение. Результаты контрольных работ представим сразу в виде таблицы:

 

В таблице 7 О 11 — число учащихся первой школы, получив­ших оценку 2 в контрольной работе по алгебре, О 12 — число уча­щихся первой школы, получивших оценку 3 в контрольной ра­боте по алгебре, О 13 число учащихся первой школы, получив­ших оценку 4 в контрольной работе по алгебре и т.д.

Подчеркнем, что «визуальный» анализ данных таблицы 7 по­казывает, что во второй школе число «двоечников» в три раза боль­ше, чем в первой, и, наряду с этим, число «отличников» в два раза меньше, чем в первой школе. Казалось бы, можно сделать вывод о том, что вторая школа показывает существенно худшие результаты, чем первая. Однако подобные утверждения можно делать только на основе статистической обработки экспериментальных данных.

В общем случае для подобных задач подсчет эмпирического значения хи -квадрат осуществляется по формуле (8.7), являю­щейся модификацией формулы (8.2):

.

Подставим данные нашего примера в формулу, получим:

Число степеней свободы в данном случае равно v = (k -1)• (с -1) = (2 - 1) • (4 - 1) = 3. По таблице 12 Приложения 1 находим:

Полученные различия попали в зону незначимости. Иными словами следует принять нулевую гипотезу о сходстве или о том, что уровень знания учащимися алгебры в двух разных шко­лах статистически значимо не отличается между собой. Выше, при простом визуальном анализе экспериментальных данных мы высказывали предположение, что во второй школе успеваемость учащихся по алгебре существенно хуже, чем в первой, однако, критерий хи -квадрат показал, что это далеко не так.

 

Замечание. Число переменных в сравниваемых выборках может быть до­статочно большим. В этом случае целесообразно использовать специальный прием группировки значений по интервалам. Чис­ло интервалов удобнее всего получать, используя таблицу 8.

Таблица 8.

Число значений переменной (от – до) Число интервалов
25 - 40 5 - 6
40 – 60 6 – 8
60 – 100 7 – 10
100 - 200 8 – 12
10 -15

 

 

Рассмотрим задачу, в которой сравниваются две выборки, и в кото­рых значений переменных столь много, что предыдущие спосо­бы сравнения оказываются трудновыполнимыми.

Задача 5. Психолог сравнивает два эмпирических распреде­ления, в каждом из которых было обследовано 200 человек по тесту интеллекта. Вопрос: различа­ются ли между собой эти два распределения?

Решение. Представим эмпирические данные в виде таблицы 8.12, в которой приведены также предварительные расчеты, необходимые для получения .

Для случая равенства числа испытуемых в первой и второй выборках расчет производится по формуле (8.8):

Где f 1 частоты первого распределения, а f 2 — частоты второго. N — число элементов в каждой выборке. В нашем случае в каждой из выборок оно равно 200.

Произведем расчет по формуле (8.8), основываясь на резуль­татах таблицы 8.12:

В данном случае число степеней свободы v = (k - 1 ) ·(с -1 ) = (9 - 1) · (2 - 1) = 8, где k - число интервалов разбиения, а с- чис­ло столбцов. В соответствии с таблицей 12 Приложения 1 находим:

Полученные различия попали в зону неопределенности. Пси­холог может, как принять, так и отклонить гипотезу .

Рассмотрим еще одну аналогичную задачу, в которой число значений в каждой из выборок различно. В этом случае использу­ют другую формулу расчета.

Задача 6. Психолог сравнивает два эмпирических распреде­ления, в каждом из которых было обследовано по тесту интеллекта разное количество испытуе­мых. Вопрос - различаются ли между собой эти два распределения?

Решение. Представим эмпирические данные сразу в виде таб­лицы 8.13, отметив при этом, что число градаций IQ увеличилось, в отличие от таблицы 8.12, до 150.

В таблице 8.13 произведены предварительные расчеты, не­обходимые для вычисления эмпирического значения критерия xu -квадрат при условии разного числа испытуемых в первой и второй выборках. В этом случае расчет производится по форму­ле (8.9):

Где частоты первого распределения, а — частоты второго. N — сумма числа элементов в первой nl и второй п2 выборках. В на­шем случае оно равно 177 = 124 + 53, а сумма уже подсчитана в нижней строчке последнего столбца таблицы 8.13. Осталось произвести расчет по формуле (8.9.)

В данном случае число степеней свободы v = (k - 1) ·(с - 1) = (10 - 1) · (2 - 1) = 9, где k - число интервалов разбиения, а с - число столбцов. В соответствии с таблицей 12 Приложения 1 находим:

Полученная величина эмпирического значения хи -квадрат попала в зону значимости. Иными словами, следует принять ги­потезу о том, что распределения уровней интеллекта в двух неравных по численности выборках статистически значимо отли­чаются между собой.

 




Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 573; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.085 сек.