Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Аппарат дисперсионного анализа




1. Рассмотрим структуру эффектов однофакторной схемы (2.1.3) (эффект и ошибку ). Для эффекта , согласно (2.1.2), очевидно соотношение

. (2.2.1)

 

Для двух других отклонений справедливы аналогичные соотношения:

, , . (2.2.2)

Рассмотрим сумму квадратов отклонений . Произведя то же самое действие с правой частью (2.1.3), получим

 

.

 

Суммируя почленно, будем иметь

;

.

Суммируя оставшиеся слагаемые, получаем

,

откуда, на основании (2.2.1), (2.2.2), получаем тождественный ноль. Так, приходим к тождеству , или, в принятых обозначениях:

. (2.2.3)

Полученное соотношение (2.2.3) носит название основное уравнение дисперсионного анализа. Каждая из компонент суммы квадратов имеет число степеней свободы, как было показано в п.1.4, равное количеству независимых нормальных СВ (совокупности, из которых получены групповые выборки, априорно полагаются нормальными). Для определения числа степеней свободы существует простое мнемоническое правило:

число степеней свободы = количество слагаемых в связывающей их сумме – количество уравнений.

Для суммы квадратов эффекта имеем слагаемых и одно уравнение (2.2.1). Следовательно, число степеней свободы составит . У суммы квадратов случайной ошибки на слагаемых приходится уравнений (2.2.2) (по количеству групп). Число ее степеней ошибки . И, наконец, для полной суммы на слагаемых приходится одно уравнение (первое (2.2.2)). Таким образом, приходим к следующему очевидному тождеству (используемому в практике дисперсионного анализа в качестве одной из операций проверочного расчета):

.

Таким образом, численной мерой изменчивости отклика служит сумма квадратов отклонений Q, которая, как гласит основное уравнение дисперсионного анализа, может быть представлена в виде суммы парциальных сумм квадратов Q A+ Q e – компонент, характеризующих вклад в полную изменчивость отклика каждого из источников изменчивости. Однако непосредственное сравнение величин Q A и Q e не позволяет сделать обоснованный вывод о том, какой из источников является более значимым (весомым). Поскольку у каждой компоненты свое число степеней свободы, то представляется естественным сравнивать между собой средние квадраты отклонений (на одну степень свободы):

, . (2.2.4)

При этом вполне очевидно, что методика сравнения (оценки значимости эффекта фактора) должна строиться исходя из вероятностного содержания основных исходных допущений (о нормальности и взаимной независимости всех индивидуальных значений). Единственно возможным в данной ситуации представляется использование аппарата дисперсионного анализа, конечно, если сами исходные данные не находятся в явном противоречии с теми самыми исходными допущениями.

2. В предыдущем пункте путем простых рассуждений было установлено, что численной мерой, характеризующей каждый из источников изменчивости, является средний квадрат отклонения и обоснована применимость дисперсионного анализа. Вероятностное содержание исходных допущений при более детальном рассмотрении заключается в наличии всего двух альтернативных гипотез:

· все групповые выборки получены из одной нормальной совокупности;

· (альтернатива) – групповые выборки получены из нормальных совокупностей с одной генеральной дисперсией, но с разными генеральными средними.

По существу, все проблемы дисперсионного анализа, так или иначе, вращаются вокруг этих двух альтернатив. При этом к формулировке гипотезы следует сделать небольшое уточнение:

1) очевидно, что она (вместе с ) вложена в общую гипотезу о нормальности и постоянстве генеральной дисперсии. Сама же эта внешняя гипотеза непосредственно в дисперсионном анализе не проверяется.

2) поскольку и образуют полную группу внутри общей внешней гипотезы, правильнее было бы сказать: «не все генеральные средние групповых выборок равны между собой».

Для уяснения «механизма» использования дисперсионного анализа найдем МО средних квадратов (2.2.4) для каждой из гипотез. Для будем иметь

.

Используя свойство МО (п.1.1), последнее соотношение преобразуем к виду

.

Далее, используя соотношение для дисперсии, получим

Данное тождество было получено применительно к условиям . Очевидно, что оно справедливо и для . Таким образом, приходим к выводу, что является несмещенной оценкой генеральной дисперсии (дисперсии случайной ошибки) .

Теперь найдем МО для :

.

Применяя аналогичную последовательность преобразований и учитывая, что , получаем

. (2.2.5)

Таким образом, можно считать доказанной теорему Фишера, которую в контексте предыдущего изложения можно сформулировать так:

При справедливости гипотезы средние квадраты эффекта и ошибки есть несмещенные оценки генеральной дисперсии ошибки .

Отсюда следует, что отношение средних квадратов есть рассмотренное в п.1.2 дисперсионное отношение Фишера:

. (2.2.6)

Здесь следует сделать следующее замечание. Закону Фишера будет (в рамках ) подчиняться и обратное отношение:

.

Однако практический интерес представляет лишь ситуация , и поскольку исторически сложилась практика оценки правдоподобия по верхней 5% точке, т.е. когда , в литературе дисперсионное отношение фигурирует в виде (2.2.6). Возможно будет уместным замечание более общего характера о том, что в любом прикладном статистическом анализе никогда не следует отождествлять объект исследования с априорными вероятностными схемами, положенными в основу модели. В противном случае, как это не парадоксально звучит, в погоне за точностью можно не только потерять адекватность модели, но и вовсе прийти к абсурдным результатам и выводам. Впрочем, при ближайшем рассмотрении, никакого парадокса здесь нет, и это обстоятельство является естественным следствием специфики стохастических закономерностей.

Для МО при справедливости по аналогии получим:

В последнем выражении общее генеральное среднее находим по правилу суперпозиции (п.1.2):

. (2.2.7)

В результате после элементарных преобразований окончательно получаем

, (2.2.8)

где - парциальная доля группы. Сумму во втором слагаемом (2.2.8) естественно интерпретировать как «дисперсию эффекта фактора»:

. (2.2.9)

Несмещенная оценка этой компоненты дисперсии согласно (2.2.8) будет иметь вид

. (2.2.10)

 

Таким образом, доказана теорема Эрвина о выделении эффекта фактора, и алгоритм дисперсионного анализа в простейшем однофакторном случае заключается в следующем:

1) вычисляются средние квадраты , ;

2) вычисляется их отношение и сравнивается с правой 5% точкой статистики Фишера – с квантилью . Если выполняется условие , то принимается как правдоподобная (генеральные средние групповых выборок равны между собой ~ эффект фактора отсутствует). При этом наилучшей оценкой генеральной дисперсии ошибки будет средневзвешенный средний квадрат:

;

3) если , то более правдоподобной признается альтернативная гипотеза . Соответственно ряд групповых средних признается неоднородным, что эквивалентно значимости эффекта фактора.

3. Изложенные в предыдущем пункте результаты и методика легко обобщаются на случай двух и большего числа факторов. Наибольшую сложность и, соответственно, интерес представляет переход от однофакторной к двухфакторной схеме. Пусть факторы и варьируются на и уровнях соответственно. В каждой из элементарных ячеек содержится индивидуальных значений отклика. В дальнейшем, чтобы избежать громоздких формул, примем непринципиальное ограничение . Каждое индивидуальное значение теперь будет иметь 3 индекса: , где - номер уровня фактора ; - фактора ; - порядковый номер внутри ячейки. Как и в однофакторном случае, средний результат по ячейке дает оценку отклика на пересечении уровней и . Смысл средних по уровням каждого фактора вполне очевиден из их определения:

; .

Точками условимся обозначать индексы, исчезающие при повышении порядка усреднения. Принимая за начало отсчета общий средний результат

,

соотношения для эффектов получим в виде:

 

(2.2.11)

где

Соотношение (2.2.11), являющееся очевидным тождеством, содержит уже 4 источника изменчивости. Принципиальным отличием двухфакторной схемы является наличие третьего слагаемого в (2.2.11) – так называемого взаимодействия факторов. Первые два называются главными эффектами факторов. Последнее, как и в предыдущем случае, ошибка эксперимента. Для лучшего уяснения смысла вновь возникшего феномена – (А × В) - взаимодействия – следует сделать небольшое отступление.

Факторы и априорно независимы. Поэтому термин эффект взаимодействия звучит на первый взгляд несколько странно. Взаимодействие факторов проявляется в том, что при варьировании одного фактора отклик меняется по-разному в зависимости от уровня второго фактора.

Наглядно это можно легко себе представить на простом модельном примере. Пусть - выход продукта, а и соответственно давление и температура в реакторе. Пусть, для простоты, каждый фактор варьируется всего на двух уровнях.

Изобразим графически зависимость , а интерпретируем как параметр.

а б в

Рис. 2.2.1. Схема двухфакторного взаимодействия

 

На рис. 2.2.1 а,б изменяется одинаково (или почти одинаково) на обоих уровнях , что свидетельствует об отсутствии значимого взаимодействия (если и есть, то слабое). В варианте рис. 2.2.1 в картина принципиально иная. Здесь налицо явные признаки значимого взаимодействия. То же самое будет наблюдаться в координатах , когда будет служить параметром.

При большем числе факторов геометрическую интерпретацию дать уже невозможно, но «механизм» взаимодействия будет тем же самым.

Возвращаясь к схеме дисперсионного анализа, возведем обе части (2.2.11) в квадрат и просуммируем по всем , , :

, (2.2.12)

где частичные суммы соответственно равны:

(2.2.13)

Вывод (2.2.12) не содержит ничего принципиально отличающегося от (2.2.3): перекрестные произведения при суммировании обнуляются, а это, в свою очередь, напрямую вытекает из соотношений, аналогичных (2.2.1), (2.2.2). Число степеней свободы каждой частичной суммы определяется, как и в однофакторной схеме: количество слагаемых, входящих в сумму, – количество уравнений – связей. Для при фиксированном получим уравнений. Добавляя к ним оставшиеся уравнений, образующихся при других значениях и фиксированном , получаем уравнений. Таким образом, для взаимодействия число степеней свободы составит:

. (2.2.14)

Для остальных компонент соотношение очевидно, и получаем

. (2.2.15)

Далее, как и в однофакторной схеме, находим средние квадраты отклонений:

. (2.2.16)

Значимость каждого из трех источников контролируемой изменчивости оценивается по величине дисперсионного отно- шения .

4. При увеличении количества факторов соотношения, аналогичные (2.2.11) (2.2.13), остаются справедливыми. Основное отличие заключается в том, что резко возрастает количество взаимодействий высших порядков. В силу коммутативности взаимодействий ~ количество взаимодействий кратности в -факторном эксперименте составит . Парных взаимодействий будет , тройных и т.д. Таким образом, структу-
ра эффектов трехфакторного эксперимента будет содержать три главных эффекта, три парных взаимодействия, одно тройное и ошибку:

(2.2.17)

Частичные суммы квадратов и числа степеней свободы составят соответственно:

Значимость каждого из 7 источников контролируемой изменчивости оценивается точно так же по величине дисперсионного отношения .

5. Одной из важнейших задач дисперсионного анализа является ранжирование значимых источников изменчивости. По завершении процедуры собственно дисперсионного анализа значимыми признаются только те эффекты и взаимодействия, у которых средние квадраты значительно превышают средний квадрат случайной ошибки (), а остальные смешиваются со случайной ошибкой так же, как в однофакторной схеме. При этом в качестве более правдоподобной принимается альтернатива , и несмещенной оценкой соответствующей компоненты дисперсии (парциальной дисперсии) является . В сущности говоря, этот факт есть прямое следствие правила вычисления дисперсии суперпозиции (вероятностной смеси) СВ, рассмотренного в п.1.2. Оценкой дисперсии полной изменчивости будет сумма всех парциальных дисперсий, включая дисперсию случайной ошибки:

 

, (2.2.19)

где . Ранжировать эффекты и взаимодействия, признанные значимыми по результатам эксперимента, целесообразно по величине удельной доли соответствующей парциальной дисперсии:

(2.2.20)

Именно на основании полученного по (2.2.19), (2.2.20) числового ряда и делаются выводы об объекте исследования в знакомой всем формулировке примерно такого содержания: «… продолжительность жизни на 30% определяется чистотой воздушной среды, на 20% - качеством потребляемой питьевой воды и т.д. …».




Поделиться с друзьями:


Дата добавления: 2014-12-26; Просмотров: 938; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.045 сек.