Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Нормальное распределение

Тема: Нормальное распределение. Вероятность ошибки Р

Лабораторная работа

Взнос за пояс составляет

Прием на практику осуществляется на основе собеседования.

Количество мест ограниченно!

Для тех, кто успешно сдает дан-тесты и желает централизованно получить сертификат, пояс и карточку, сумма взноса составляет:

Ø 370 $ - на 1 Дан,

Ø 470 $ - на 2 Дан,

Ø 570 $ - на 3 Дан.

Если оплата взноса за сертификат, пояс и карточку будет производиться не в установленные Хонбу ВРМОКК сроки, то дополнительно оплачивается комиссия банка за перевод денежных средств в ИКО (не менее 40 $).

Цель: Изучить приёмы проверки соответствия нормальному распределению в программе SPSS (PASW Statistics).

Многочисленные методы, с помощью которых обрабатываются переменные, относящиеся к интервальной шкале, исходят из гипотезы, что их значения подчиняются нормальному распределению. При таком распределении большая часть значений группируется около некоторого среднего значения, по обе стороны от которого частота наблюдений равномерно снижается.

1. Откройте ранее созданные файлы Туризм.sav и Туризм.sрv, выбрав из меню Файл команду Oткрыть.

2. Построим нормальное распределение возраста по данным возраста Age с помощью пункта меню Графика ® команда Устаревшие диалоговые окна ® команда Гистограмма. Установите флажок Вывести нормальную кривую (рис. 1).

Рисунок 1

В результате в файле вывода появится гистограмма с кривой нормального распределения (рис. 2).

Рисунок 2

На диаграмме нанесена кривая нормального распределения (Колокол Гаусса). Реальное распределение в большей или меньшей степени отклоняется от этой идеальной кривой. Выборки, строго подчиняющиеся нормальному распределению, на практике, как правило, не встречаются. Поэтому почти всегда необходимо выяснить, можно ли реальное распределение считать нормальным и насколько значительно заданное распределение отличается от нормального.

Перед применением любого метода, который предполагает существование нормального распределения, наличие последнего нужно проверять в первую очередь. Классическим примером статистического теста, можно назвать t-тест Стьюдента, с помощью которого сравнивают две независимые выборки. Если же данные не подчиняются нормальному распределению, следует использовать соответствующий непараметрический тест, в случае двух независимых выборок – U-тест Манна и Уитни.

3. Если визуальное сравнение реальной гистограммы с кривой нормального распределения кажется недостаточным, можно применить тест Колмогорова-Смирнова. Для этого выберите пункт меню Анализ ® команда Непараметрические критерии ® команда Устаревшие диалоговые окна ® команда Одновыборочный Колмогорова-Смирнова. Убедитесь в том, что выбрана переменная Age и установлен флажок Нормальное распределение.

Результаты теста появятся в окне вывода (рис. 3)

Рисунок 3

Для непосвященного человека результаты теста непонятны. Прежде чем ответить, является распределение нормальным или нет, необходимо рассмотреть еще один важный вопрос - Вероятность ошибки Р.

Если следовать подразделению статистики на описательную и аналитическую, то задача аналитической статистики - предоставить методы, с помощью которых можно было бы объективно выяснить, например, является ли наблюдаемая разница в средних значениях или взаимосвязь (корреляция) выборок случайной или нет.

Например, если сравниваются два средних значения выборок, то можно сформулировать две предварительных гипотезы:

· Гипотеза 0 (нулевая): Наблюдаемые различия между средними значениями выборок находятся в пределах случайных отклонений.

· Гипотеза 1 (альтернативная): Наблюдаемые различия между средними значениями нельзя объяснить случайными отклонениями.

В аналитической статистике разработаны методы вычисления так называемых тестовых (контрольных) величин, которые рассчитываются по определенным формулам на основе данных, содержащихся в выборках или полученных из них характеристик. Эти тестовые величины соответствуют определенным теоретическим распределениям (t- распределению, F-распределению, распределению χ2 и т.д.), которые позволяют вычислить так называемую вероятность ошибки. Вероятность равна проценту ошибки, которую можно допустить, отвергнув нулевую гипотезу и приняв альтернативную.

Вероятность определяется в математике, как величина, находящаяся в диапазоне от 0 до 1. В практической статистике она также часто выражается в процентах. Обычно вероятность обозначается буквой P: 0 < P < 1.

Существует общепринятая терминология, которая относится к доверительным интервалам вероятности. Высказывания, имеющие вероятность ошибки P<=0.05, называются значимыми; высказывания с вероятностью ошибки P<=0.01 – очень значимыми, а высказывания с вероятностью ошибки P<=0.001 – максимально значимыми. В литературе такие ситуации обозначают одной, двумя или тремя звездочками.

Вероятность ошибки Значимость Обозначение
P > 0.05 Не значимая ns
P <= 0.05 Значимая *
P <= 0.01 Очень значимая **
P <= 0.001 Максимально значимая ***

В нашем случае уровень значимости равен 0,819 (в строке Асимпт. знч. (двусторонняя)). Так 0,819>0.05, то принимается Гипотеза 0: распределение возраста является нормальным.

4. Сгенерируем данные, воспользовавшись генератором случайных чисел для проверки этих данных на нормальность распределения. Для этого создайте новый документ Время в магазине.sav (Пуск ® Все программы ® SPSS Inc ® PASW Statistics18 ® опция Ввести данные).

5. Создайте переменную Номер, предварительно включив режим Переменные.

6. Определите параметры переменной: Тип - текстовая, Ширина - 1.

7. Перейдите в режим Данные.

8. Введём значения, скопировав из столбца А файла Время в магазине.xlsx (папка Материалы по статистике).

9. Создайте переменную Время, определив параметры переменной: Тип - числовая, Ширина – 4, Десятичные знаки – 1.

10. Перейдите в режим Данные и выделите первую ячейку столбца Время.

11. Для переменной Время настроим генератор случайных чисел. Для этого выберите пункт меню Преобразовать ® команда Генераторы случайных чисел.

12. В открывшемся окне Генераторы случайных чисел введите параметры согласно рисунку 4.

Рисунок 4

13. Заполним столбец Время данными, сгенерированными с помощью функции RV.NORMAL. Для этого выберите пункт меню Преобразовать ® команда Вычислить переменную…

14. В открывшемся окне Вычислить переменную введите вычисляемую переменную Время, выберите из Группы функций команду Все, из группы Функции и случайные переменные функцию RV.NORMAL. С помощью мыши перетащите эту функцию в окно Числовое выражение. Задайте параметры функции согласно рисунку 5.

Рисунок 5

В результате в режиме Данных появились числовые значения.

15. Создайте новую переменную Пол, задав для неё соответствующие параметры.

16. Скопируйте данные для переменной Пол из столбца В файла Время в магазине.xlsx (папка Материалы по статистике).

17. Отредактируйте скопированные значения, присвоив м (60 значений) для меньших чисел, а значение ж (60 значений) для больших чисел.

18. Удалите данные для переменной Номер.

19. Самостоятельно сгенерируйте данные для переменной Номер, воспользовавшись функцией $CASENUM из группы функций Разные, предварительно изменив тип переменной.

20. Постройте частотное распределение (наименьшее, наибольшее и среднее значения) переменной Время с отображением кривой нормального распределения.

21. Проверим нормальность распределения времени для мужчин и женщин. Для этого выполним расщепление данных пункт меню Данные ® команда Расщепить файл. В открывшемся окне установите параметры согласно рисунку 6. В результате в столбце Пол отобразятся отсортированные данные.

Рисунок 6

21. Выполните тест Колмогорова-Смирнова. Убедитесь в том, что выбрана переменная Время и установлен флажок Нормальное распределение.

В результате в файле вывода получились две таблицы (рис. 7).

Примечание. Ваши результаты не совпадут с результатами рисунка 7, т.к. сгенерированные данные времени будут отличаться.

Рисунок 7

22. Проанализируйте свои полученные данные и убедитесь в том, что распределение времени является нормальным и для мужчин и для женщин. Отформатируйте соответствующие ячейки в полученных таблицах (цвет текста красный, полужирный).

23.

Если р-значение >a, то гипотеза принята В отчете для мужчин и женщин a>0,005 Þраспределение нормальное Þвыборки независимые Þt-критерий Стьюдента для независимых переменных
Отключаем расщепление файла пункт меню Данные ® команда Расщепить файл ® опция Анализировать все наблюдения, группы не создавать.

24. Перекодируем текстовые значения м и ж переменной Пол вчисловые значения 1 и 2 вновь созданной переменной gender. Для этого выберите пункт меню Преобразовать ® команду Перекодировать в другие переменные.

25. В появившемся диалоговом окне Перекодировать в другие переменные перетащите переменную Пол в соответствующую область (1), введите название новой переменной (2) и выберите кнопку (3) (рис. 8).

Рисунок 8

26. Введите в поле Старое значение букву м, в поле Новое значение цифру 1 и нажмите кнопку Добавить (рис. 9). Аналогично перекодируйте букву ж в цифру 2. Затем нажмите кнопки Продолжить ® Изменить ® ОК.

Рисунок 9

27. Выберите режим Данные и убедитесь в том, что появилась новая переменная gender со значениями 1 и 2. Измените для данной переменной параметры Десятичные и Ширина.

28. Вычислим, сколько времени в магазине проводят мужчины и женщины. Для этого воспользуемся Т-критерием. Т-критерий позволяет сравнить среднее для одной переменной, скажем время, проведённое в магазине,, для разных выборок, например, для мужчин и женщин (для метрических шкал подчиняющихся нормальному распределению).

29. Выберите пункт меню Анализ ® команда Сравнение средних ® команда Т-критерий для независимых выборок.

30. В диалоговом окне Т - критерий для независимых выборок выполните следующие действия (рис. 10):

Рисунок 10

· перетащите переменную время в верхнюю область окна, а gender – в нижнюю;

· нажмите кнопку Задать группы и в открывшемся окне введите цифры 1 и 2 (рис. 11) и нажмите кнопку Продолжить.

Рисунок 11

· нажмите ОК.

В результате получим статистические данные для мужчин (1) и для женщин (2) (рис. 12)

Рисунок 12

31. Далее проверяется гипотеза: дисперсии равны или нет.

Знч.= 0,808; 0,808 >a (a=0,05) (рис. 12), значит, гипотеза принимается – дисперсии равны.

Значимость(2-сторонняя) = 0,000 – значимость маленькая, значение < a, значит, гипотеза отвергается, следовательно, различие существенное.

<== предыдущая лекция | следующая лекция ==>
Либо звоните по тел. +7 967 346 04 69 | Минобрнауки России. Анализ полученных результатов Т-критерия
Поделиться с друзьями:


Дата добавления: 2017-01-13; Просмотров: 397; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.012 сек.