Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Статистический эксперимент для оценки значимости и ее прямое вычисление




Что же делать, когда количество наблюдений не позволяет воспользоваться аппроксимацией распределения статистики CHISQ распределением хи-квадрат? В действительности нормальная аппроксимация необходима лишь для того, чтобы можно было вычислить вероятность P{CHISQтеор.>CHISQвыбороч.}. То, что CHISQтеор . имеет распределение хи-квадрат - лишь техническая подробность, связанная с упрощением и ускорением вычислений. То же касается и других статистик значимости (CTAU, BTAU). Современная вычислительная техника позволяет во многих случаях обойтись без использования аппроксимации, вычислить вероятности за счет имитации сбора данных в условиях независимости (метод Монте-Карло) или воспользовавшись непосредственным вычислением вероятности.

В многих процедурах SPSS, в том числе и в Crosstabs, реализованы метод Монте-Карло и прямое вычисление вероятностей.

В методе Монте-Карло проводятся компьютерные эксперименты, в которых многократно случайно перемешиваются данные. В каждом эксперименте вычисляется значение статистики значимости и сравнивается с наблюдаемой ее величиной. Доля случаев, когда статистика превысила наблюдаемое значение, является оценкой уровня значимости. Поскольку оценка вычисляется на основе случайных экспериментов, в дополнеие к оценке уровня значимости выдается его доверительный интервал. Число экспериментов и доверительная вероятность задается заранее.

В методе прямого вычисления рассматривается обобщение гипергеометрического распределения для таблицы сопряженности. Процедура весьма трудоемка и имеет смысл для небольших данных. Заранее задается время счета и, если программа не успела справиться с вычислениями, выдается результат, полученный на основе аппроксимаций.

В диалоговом окне Crosstabs (как, впрочем, и в окнах для других непараметрических процедур) указанные методы включаются с помощью кнопки EXACT.

Пример. Решается вопрос, как связаны "Точка зрения на иностранную помощь" и "Возможность удовлетворить территориальные требований Японии" на выборке, ограниченной жителями Дальнего Востока (276 наблюдений). Для решения используется

CROSSTABS /TABLES=v4 BY v1 /STATISTIC=CHISQ /CELLS= COUNT Row Col /METHOD=MC CIN(99) SAMPLES(10000).

Параметры последней подкоманды, " /METHOD=MC CIN(99) SAMPLES(10000) ", говорят о том, что значимость оценивается методом Монте Карло (MC), будет получен 99% доверительный интервал для оценки наболюдаемой значимости (CIN(99)) с использованием 10000 экспериментов (SAMPLES(10000)).

В результате получаем таблицу 3.8, в которой размещены значимости всех исследуемых статистик. Исследуемые в статистическом эксперименте статистики включают дополнительно обобщение точного теста Фишера (Fisher's Exact Test). Статистика для этого теста имеет вид FI=-2log(g P), где g - константа, зависящая от итоговых частот таблицы, а P - вероятность получить наблюдаемую таблицу в условиях независимости переменных. Статистика FI также имеет асимптотическое распределение хи-квадрат (в условиях гипотезы независимости). Следует заметить, что значимость, вычисленная на основе аппроксимации, выглядит значительно оптимистичнее с точки зрения обнаружения связи, чем при прямых вычислениях, да это и не мудрено - доля клеток, в которых ожидаемая частота меньше 5 равна 56.3%, а минимальная ожидаемая частота равна 0.47.

Опыт показывает, что точный тест на основе прямого вычисления вероятности требует очень много времени. Нашей задаче оказалось недостаточным 25 мин. на персональном компьютере с процессором 200mhz.

Таблица 3.8. Хи-квадрат тесты, оценка значимости методом Монте-Карло.

  Value Df Asymp. Sig. (2-sided) Monte Carlo Sig. (2-sided)
        Sig. 99% Confidence Interval
          Lower Bound Upper Bound
Pearson Chi-Square 21.6   0.010 0.0155 0.012 0.019
Likelihood Ratio 18.9   0.026 0.0327 0.028 0.037
Fisher's Exact Test 19.1     0.0103 0.008 0.013
Linear-by-Linear Association 0.3   0.611 0.6492 0.637 0.661
N of Valid Cases            

a 9 cells (56.3%) have expected count less than 5. The minimum expected count is.47.




Поделиться с друзьями:


Дата добавления: 2014-12-27; Просмотров: 447; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.