Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Тема 11. Выравнивание статистических рядов. критерии согласия




 

Во всяком статистическом распределении неизбежно присутствуют элементы случайности, связанные с тем, что число наблюдений ограничено, что произведены именно те, а не другие опыты, давшие именно те, а не другие результаты. Только при очень большом числе наблюдений эти элементы случайности сглаживаются, и случайное явление обнаруживает в полной мере присущую ему закономерность. На практике мы почти никогда не имеем дела с таким большим числом наблюдений и вынуждены считаться с тем, что любому статистическому распределению свойственны в большей или меньшей мере черты случайности. Поэтому при обработке статистического материала часто приходится решать вопрос о том, как подобрать для данного статистического ряда теоретическую кривую распределения, выражающую лишь существенные черты статистического материала, но не случайности, связанные с недостаточным объемом экспериментальных данных. Такая задача называется задачей выравнивания (сглаживания) статистических рядов.

Задача выравнивания заключается в том, чтобы подобрать теоретическую плавную кривую распределения, с той или иной точки зрения наилучшим образом описывающую данное статистическое распределение.

Задача о наилучшем выравнивании статистических рядов, как и вообще задача о наилучшем аналитическом представлении эмпирических функций, есть задача в значительной мере неопределенная, и решение ее зависит от того, что условиться считать «наилучшим». Например, при сглаживании эмпирических зависимостей очень часто исходят из так называемого принципа или метода наименьших квадратов, считая, что наилучшим приближением к эмпирической зависимости в данном классе функций является такое, при котором сумма квадратов отклонений обращается в минимум. При этом вопрос о том, в каком именно классе функций следует искать наилучшее приближение, решается уже не из математических соображений, а из соображений, связанных с физикой решаемой задачи, с учетом характера полученной эмпирической кривой и степени точности произведенных наблюдений. Часто принципиальный характер функции, выражающий исследуемую зависимость, известен заранее из теоретических соображений, из опыта же требуется получить лишь некоторые численные параметры, входящие в выражение функции.

Аналогично обстоит дело и с задачей выравнивания статистических рядов. Как правило, принципиальный вид теоретической кривой выбирается заранее из соображений, связанных с существом задачи, а в некоторых случаях просто с внешним видом статистического распределения. Аналитическое выражение выбранной кривой распределения зависит от некоторых параметров; задача выравнивания статистического ряда переходит в задачу рационального выбора тех значений параметров, при которых соответствие между статистическим и теоретическим распределениями оказывается наилучшим.

Предположим, например, что исследуемая величина Х есть ошибка измерения, возникающая в результате суммирования воздействий множества независимых элементарных ошибок; тогда из теоретических соображений можно считать, что величина Х подчиняется нормальному закону:

, (*)

и задача выравнивания переходит в задачу о рациональном выборе параметров а и s в выражении (*).

Бывают случаи, когда заранее известно, что величина Х распределяется статистически приблизительно равномерно на некотором интервале; тогда можно поставить задачу о рациональном выборе параметров того закона равномерной плотности

которым можно наилучшим образом заменить (выровнять) заданное статистическое распределение.

Следует при этом иметь в виду, что любая аналитическая функция р (х), с помощью которой выравнивается статистическое распределение, должна обладать основными свойствами плотности распределения:

(**)

Предположим, что, исходя из тех или иных соображений, нами выбрана функция р (х), удовлетворяющая условиям (**), с помощью которой мы хотим выровнять данное статистическое распределение; в выражение этой функции входит несколько параметров a, b, …; требуется подобрать эти параметры так, чтобы функция р (х) наилучшим образом описывала данный статистический материал. Один из методов, применяемых для решения этой задачи, – это метод моментов.

Согласно методу моментов, параметры a, b, … выбираются так, чтобы несколько важнейших числовых характеристик (моментов) теоретического распределения были равны соответствующим статистическим характеристикам. Например, если теоретическая кривая р (х) зависит только от двух параметров a и b, эти параметры выбираются так, чтобы математическое ах и дисперсия D х теоретического распределения совпадали с соответствующими статистическими характеристиками а*х и D* х. Если кривая р (х) зависит от трех параметров, можно подобрать их так, чтобы совпали первые три момента, и т.д. При выравнивании статистических рядов может оказаться полезной специально разработанная система кривых Пирсона, каждая из которых зависит в общем случае от четырех параметров. При выравнивании эти параметры выбираются с тем расчетом, чтобы сохранить первые четыре момента статистического распределения (математическое ожидание, дисперсию, третий и четвертый моменты).

Следует заметить, что при выравнивании статистических рядов нерационально пользоваться моментами порядка выше четвертого, так как точность вычисления моментов резко падает с увеличением их порядка.

Рассмотрим один из вопросов, связанных с проверкой правдоподобия гипотез, а именно – вопрос о согласовании теоретического и статистического распределения.

Допустим, что данное статистическое распределение выровнено с помощью некоторой теоретической кривой р (х). Как бы хорошо ни была подобрана теоретическая кривая, между нею и статистическим распределением неизбежны некоторые расхождения. Естественно возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и связаны с тем, что подобранная нами кривая плохо выравнивает данное статистическое распределение. Для ответа на такой вопрос служат так называемые «критерии согласия».

На основании данного статистического материала нам предстоит проверить гипотезу Н, состоящую в том, что случайная величина Х подчиняется некоторому определенному закону распределения. Этот закон может быть задан в той или иной форме: например, в виде функции распределения F(х) или виде плотности распределения р (х), или же в виде совокупности вероятностей рi, где рi – вероятность того, что величина Х попадет в пределы i -го разряда.

Так как из приведенных форм функция распределения F(х) является наиболее общей и определяет собой любую другую. Будем формулировать гипотезу Н, как состоящую в том, что величина Х имеет функцию распределения F(х).

Для того, чтобы принять или опровергнуть гипотезу Н, рассмотрим некоторую величину U, характеризующую степень расхождения теоретического и статистического распределений. Величина U может быть выбрана разными способами; например, в качестве U можно взять сумму квадратов отклонений теоретических вероятностей рi от соответствующих частот р*i или же сумму тех же квадратов с некоторыми коэффициентами («весами»), или же максимальное отклонение статистической функции распределения F*(х) от теоретической F(х) и т.д. Допустим, что величина U выбрана тем или иным способом. Очевидно, это есть случайная величина. Закон распределения этой случайной величины зависит от закона распределения случайной величины Х, над которой производились опыты, и от числа опытов п. Если гипотеза Н верна, то закон распределения величины U определяется законом распределения величины Х (функцией F(х)) и числом п.

Допустим, что этот закон распределения известен. В результате данной серии опытов обнаружено, что выбранная нами мера расхождения U приняла некоторое значение и. Спрашивается, можно ли объяснить это случайными причинами или же это расхождение слишком велико и указывает на наличие существенной разницы между теоретическим и статистическим распределениями и, следовательно, на непригодность гипотезы Н? Для ответа на этот вопрос предположим, что гипотеза Н верна, и вычислим в этом предположении вероятность того, что за счет случайных причин, связанных с недостаточным объемом опытного материала, мера расхождения U окажется не меньше, чем наблюденное нами в опыте значение и, т.е. вычислим вероятность события:

и.

Если эта вероятность весьма мала, то гипотезу Н следует отвергнуть как мало правдоподобную; если же эта вероятность значительна, следует признать, что экспериментальные данные не противоречат гипотезе Н.

Возникает вопрос о том, каким же способом следует выбирать меру расхождения? Оказывается, что при некоторых способах ее выбора закон распределения величины U обладает весьма простыми свойствами и при достаточно большом п практически не зависит от функции F(х). Именно такими мерами расхождения и пользуются в математической статистике в качестве критериев согласия.

Рассмотрим один из наиболее часто применяемых критериев согласия – «критерий c2» Пирсона.

Предположим, что произведено п независимых опытов, в каждом из которых случайная величина Х приняла определенное значение. Результаты опытов сведены в k разрядов и оформлены в виде статистического ряда:

 

I i х 1; х 2 х 2; х 3 х 3; х 4 х k; х k+1
р*i р*1 р*2 р*3 р * k

 

Требуется проверить, согласуются ли экспериментальные данные с гипотезой о том, что Х имеет данный закон распределения (заданный функцией распределения F(х) или плотностью р (х)). Назовем этот закон распределения «теоретическим».

Зная теоретический закон распределения, можно найти теоретические вероятности попадания случайной величины в каждый из разрядов:

р1, р2, …, рk.

Проверяя согласованность теоретического и статистического распределений, мы будем исходить из расхождений между теоретическими вероятностями рi и наблюденными частотами р*i. Естественно в качестве меры расхождения между теоретическим и статистическим распределениями выбрать сумму квадратов отклонений (р*i –рi), взятых с некоторыми «весами» сi:

.

Коэффициенты сi («веса» разрядов) вводятся потому, что в общем случае отклонения, относящиеся к различным разрядам, нельзя считать равноправными по значимости. Действительно, одно и то же по абсолютной величине отклонение р*i –рi может быть мало значительным, если сама вероятность рi велика, и очень заметным, если она мала. Поэтому естественно «веса» сi взять обратно пропорциональными вероятностям разрядов рi:

Далее возникает вопрос о том, как выбрать коэффициент пропорциональности.

К.Пирсон показал, что если положить , то при больших п закон распределения величины U обладает весьма простыми свойствами: он практически не зависит от функции F(х) и от числа опытов п, а зависит только от числа разрядов k, а именно, этот закон при увеличении п приближается к «распределению c2».

При таком выборе коэффициентов сi мера расхождения обозначается c2:

.

Параметр r, от которого зависит распределение c2, называется числом «степеней свободы» распределения. Оно равно числу разрядов k минус число независимых условий («связей»), наложенных на частоты р*i. Например, и т.д.

По r и c2 с помощью таблиц определяется вероятность того, что величина, имеющая распределение c2 с r степенями свободы, превзойдет данное значение c2. Если эта вероятность весьма мала, гипотеза отбрасывается как неправдоподобная. Если эта вероятность относительна велика, гипотезу можно признать не противоречащей опытным данным.

Насколько мала должна быть вероятность р того, чтобы отбросить или пересмотреть гипотезу, – вопрос неопределенный; он не может быть решен из математических соображений, так же как и вопрос о том, насколько мала должна быть вероятность события для того, чтобы считать его практически невозможным. На практике, если р оказывается меньшим, чем 0,1, рекомендуется проверить эксперимент, если возможно – повторить его и в случае, если заметные расхождения снова появятся, пытаться искать более подходящий для описания статистических данных закон распределения.

Следует особо отметить, что с помощью критерия c2 (или любого другого критерия согласия) можно только в некоторых случаях опровергнуть выбранную гипотезу Н и отбросить ее как явно несогласную с опытными данными; если же вероятность р велика, то этот факт сам по себе ни в коем случае не может считаться доказательством справедливости гипотезы Н, а указывает только на то, что гипотеза не противоречит опытным данным.

С первого взгляда может показаться, что чем больше вероятность р, тем лучше согласованность теоретического и статистического распределений и тем более обоснованным следует считать выбор функции F(х) в качестве закона распределения случайной величины. В действительности это не так. Допустим, например, что оценивая согласие теоретического и статистического распределений по критерию c2, мы получили р =0,99. Это значит, что с вероятностью 0,99 за счет чисто случайных причин при данном числе опытов должны были получиться расхождения большие, чем наблюденные. Мы же получили относительно весьма малые расхождения, которые слишком малы для того, чтобы признать из правдоподобными. Разумнее признать, что столь близкое совпадение теоретического и статистического распределений не является случайным и может быть объяснено определенными причинами, связанными с регистрацией и обработкой опытных данных (в частности, с весьма распространенной на практике «подчисткой» опытных данных, когда некоторые результаты произвольно отбрасываются или несколько изменяются).

Разумеется, все эти соображения применимы только в тех случаях, когда количество опытов п достаточно велико (порядка нескольких сотен) и когда имеет смысл применять сам критерий, основанный на предельном распределении меры расхождения при п ®¥. Заметим, что при пользовании критерием c2 достаточно большим должно быть не только общее число опытов п, но и числа наблюдений тi в отдельных разрядах. На практике рекомендуется иметь в каждом разряде не менее 5 – 10 наблюдений. Если числа наблюдений в отдельных разрядах очень малы (порядка 1 – 2), имеет смысл объединить некоторые разряды.

Основная литература: [1], [2], [3].

Дополнительная литература: [3], [4].

 




Поделиться с друзьями:


Дата добавления: 2014-11-26; Просмотров: 1817; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.025 сек.