![]() КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Достоверных различий между средними нетСовокупность объектов, из которой отбирается некоторая часть ее членов для изучения, называется генеральной, а отобранная тем или иным способом часть генеральной совокупности называется выборочной совокупностью или выборкой. В случае с ростом генеральной совокупностью является рост всех людей, тогда как те люди, у которых мы смогли измерить рост, называются выборкой из этой совокупности. Очевидно, что это определение справедливо для любой случайной величины. РАСЧЕТ Расчет этих двух величин очень прост и задается следующими двумя формулами:
Чтобы пояснить формулы (3) и (4), представим себе, что мы измеряли рост у 50 человек. Это значит что n=50. Далее складываем все 50 полученных чисел и полученный результат делим на 50. Получаем значение среднего арифметического. Это все расчеты по формуле (3). Расчеты по формуле (4) несколько сложнее. Сначала от всех полученных в результате измерений 50 чисел отнимаем ранее полученную оценку среднего. Получаем 50 значений разности. Потом все 50 разностей возводим в квадрат, после чего все их складываем. Полученный результат делим на 49 (n-1). Из того что получилось, извлекаем квадратный корень. Расчеты среднего арифметического и оценки среднеквадратичного отклонения закончены. Теперь, когда мы имеем оценки среднего и среднеквадратичного отклонения нам необходимо вернуться к формуле (2). Действительно, оценки μ и σ у нас есть, интервал (а,b) задаем сами, осталось взять интеграл... Но здесь нас подстерегает новая неприятность! Неопределенный интеграл такого вида не берется в элементарных функциях. На наше счастье мы имеем дело не с неопределенным интегралом, а с определенным интегралом. Как мы помним из предыдущего курса, определенный интеграл есть число и существует достаточно много численных методов получения этого числа с любой наперед заданной точностью. Применив один из этих методов, мы получим число, которое и будет вероятностью попадания следующего измерения случайной величины в интервал (a,b). Изменив границы интервала и проведя аналогичные расчеты мы получим вероятность попадания случайной величины в этот новый интервал и т.д. Задача вроде бы решена. У нас есть методика расчета вероятности попадания случайной величины в любой наперед заданный интервал. Однако проведение таких расчетов не очень удобно, поскольку требует много вычислений. Можно ли облегчить себе жизнь? Ну, первое, что приходит на ум это рассчитать все значения интеграла для интервалов, изменяющихся с определенным (небольшим шагом) и занести их в таблицу. Тогда можно пользоваться этой таблицей и ничего не считать. Но эта таблица будет верна, только для той случайной величины, для которой она рассчитывалась. Получается, что нам надо создавать бесчисленное количество таблиц для всевозможных случайных величин. Ясно, что здесь тоже надо что-то придумать. Человечество придумало, как обойтись одной таблицей для всех случаев. Для этого от нашей случайной величины X (любой, которую мы изучаем) надо перейти к другой случайной величине Z, используя следующее соотношение: (5) Что же мы получим в результате этой операции? Мы получим новую случайную величину, для которой
Научимся пользоваться этой таблицей. Например рассмотрим число стоящее на пересечении строки, начинающейся с 0,5 и столбца, помеченного цифрой 5. Это число равно 0,7088. Оно показывает, что при следующем испытании вероятность что случайная величина примет значение МЕНЬШЕ 0,5 5 равна 0,7088. Обратите внимание, что номер столбца есть сотый знак заданного нами числа. Теперь поставим задачу так. Как пользуясь таблицей найти вероятность попадание в интервал (z1,z2), ведь это и есть наша основная задача. Если z2 > z1, то искомая вероятность будет равна разности Ф(z2)–Ф(z1). Например, найдем вероятность, что при следующем испытании значение нормированной случайной величины попадет в интервал (0,95; 1,54). Сначала найдем Ф(1,54). Для этого найдем в таблице строку, которая начинается с 1,5, потом двигаемся по этой строке до столбца, помеченного цифрой 4. Там стоит значение Ф(1,54) = 0,9382. Аналогичным образом найдем Ф(0,95) = 0,8289. Тогда искомая вероятность будет равна: Р = 0,9382 – 0,8289 = 0,1093. Для полного решения поставленной задачи осталось ответить только на один вопрос: а что если значения z получатся отрицательные? Ведь в таблице приложения 3 нет отрицательных значений. Ответ на этот вопрос дает следующая формула: Ф(-z) = 1 – Ф(z) (7). Из формулы (7) следует: если z получилось отрицательным, то надо найти значение Ф(z) по таблице считая z положительным, а потом найденное значение отнять от единицы, это и будет ответом. Теперь задача нахождения вероятности попадания случайной величины, распределенной по закону Гаусса, в любой наперед заданный интервал решена полностью Для иллюстрации введенных в рассмотрение понятий разберем следующий пример. Пусть в родильном доме за сутки родилось 20 детей, вес которых с точностью до 0,1 килограмма приведен в таблице 1. Таблица 1 Вес новорожденных в килограммах
Надо рассчитать какова вероятность, что вес первого новорожденного в следующие сутки будет находиться между двумя и тремя килограммами. Итак, в формуле (2) a=2, b=3
Задача 2. Решение первой задачи хотя и важно, но конечно не достаточно для практических целей. Следующей важнейшей задачей статистики является получение ответа на вопрос можно ли считать, что какой-то эффект действительно существует или необходимо признать, что на самом деле эффекта нет, и все, что мы наблюдаем есть игра случая. Под эффектом может подразумеваться все что угодно, например, действительно ли жители Скандинавии выше ростом жителей Африки, действительно ли одно лекарство эффективнее другого, действительно ли физиологические параметры изменяются в процессе адаптации, действительно ли успеваемость в одном классе выше успеваемости в другом и т.д. Очевидно, что все эти задачи нацелены на сравнение двух выборок. Встает вопрос как это сделать. Допустим, мы измеряли рост 10000 жителей Скандинавии и 10000 жителей Африки. Таким образом, мы имеем два набора по 10000 чисел. Ясно, что просто разглядывая эти числа, мы мало чего добьемся. Возникает потребность описать каждый из наборов небольшим количеством производных от них параметров и уже потом сравнивать не сами числа, входящие в тот или иной набор, а эти вновь полученные параметры, характеризующие каждый из наборов. Поскольку вновь полученные параметры описывают сделанную выборку, они получили название «описательные статистики». Описательные статистики можно разделить на несколько групп. Мы будем рассматривать две из них: меры центральной тенденции и меры рассеивания. Меры центральной тенденции характеризуют центральное значение, вокруг которого распределены значения случайной величины. К ним относятся средняя арифметическая (введена в рассмотрение в предыдущем разделе) и медиана. Средняя арифметическая хорошо подходит для описания распределений, близких к нормальным. Если же распределение существенно отличается от нормального (например, имеет очень длинные и широкие хвосты), то в этом случае имеет смысл использовать для оценки "центрального" значения медиану. Как рассчитать среднюю арифметическую мы уже знаем (см. формулу (3) предыдущего раздела). Остановимся на медиане. Медиана распределения какой-либо случайной величины X – это такое число Me, для которого вероятность, что при следующем испытании получиться значение исследуемой случайной величины больше Me равно 1/2. Это означает, что вероятность получить значение меньше или равно Me также равна 1/2. Таким образом, медиана характеризует центр распределения в том смысле, что появление значений больше медианы и меньше медианы равновероятны. Теперь рассмотрим алгоритм, как по значениям выборки оценить медиану. (Обратите внимание на слово «оценить»). Первое, что надо сделать, это отранжировать, т.е. расположить по возрастающей все значения выборки. Если мы проделаем эту процедуру с выборкой, представленной в предыдущем разделе, то мы получим следующую таблицу:
Далее необходимо определить четное или нечетное число значений в выборке. Если число значений нечетное, то медиана равна значению, находящемуся в центре выборки, если число значений четное, то медиана равна полусумме значений, стоящих в центре выборки. В нашем случае число значений в выборке равно 20, т.е. четное. На 10-м месте стоит число 3,3, а на 11 месте также стоит число 3,3. Следовательно, медиана равна: Меры рассеивания характеризуют разброс, с которым случайная величина распределяется вокруг своего центрального значения. К этим мерам относятся дисперсия, среднеквадратичное отклонение (введено в рассмотрение в предыдущем разделе), стандартная ошибка среднего, коэффициент вариации. Если за центральное значение взять среднее арифметическое, то оценку дисперсии можно вычислить по следующей формуле:
Для нашего случая Как видно из сравнения формул (4) и (8) оценка среднеквадратичного отклонения связана с оценкой дисперсии следующим соотношением:
В нашем случае Большое значение в медицине при проведении расчетов играет такая мера разброса как стандартная ошибка среднего (m), поскольку результаты проведенных исследований часто представляются в виде:
Для нашего случая Изложенные выше меры рассеивания (дисперсия, среднеквадратичное отклонение, стандартная ошибка среднего) имеют один недостаток: они дают показатель изменчивости признака в именованных величинах, а не в относительных. Например, для выборки, представленной в Таблице 1, дисперсия будет выражаться в кг2, а среднеквадратичное отклонение и стандартная ошибка в килограммах. Поэтому сопоставление (или сравнение) разноименных признаков по этим параметрам невозможно. Например, если бы мы измеряли не только вес новорожденных, но и их рост, то используя эти меры разброса нельзя было бы ответить на вопрос где изменчивость больше: в случае веса или в случае роста. Для сравнения изменчивости двух разноименных выборок удобно пользоваться коэффициентом изменчивости (вариации) признака, который выражается в относительных величинах, а именно в процентах, и вычисляется по формуле:
В нашем случае Чем больше V, тем более изменчив признак. Значения коэффициента вариации, невыходящие за пределы 10%, принято считать нормальными. Если V>20%, то выборка некомпактна по заданному признаку. Теперь, когда мы ввели в рассмотрение описательные статистики, задачу определить есть эффект или нет эффекта можно свести к вопросу различаются ли какие либо описательные статистики одной выборки от другой. Казалось бы решение вопроса очень простое: посчитай описательные статистики одной и второй выборки и сравни их друг с другом. Однако дело обстоит далеко не так просто. Действительно, если бы мы измеряли вес не 20 новорожденных, а скажем, к примеру, только 19, было бы значение среднего и всех остальных описательных статистик тем же самым? Скорее всего НЕТ! Как говорилось, выше мы же всегда имеем дело с выборкой, а не с генеральной совокупностью, поэтому мы всегда получаем ОЦЕНКИ описательных статистик, а не их истинные значения. Следовательно, для решения поставленной задачи нельзя делать выводы, сравнивая непосредственно сами значения. Как же тогда решить задачу? На помощь приходит понятие доверительного интервала. Идея доверительных интервалов возникает из вопроса: хорошо, мы не знаем точного значения той или иной описательной статистики, но мы хотя бы можем задать интервал, в котором оно находится? Ответ на этот вопрос таков: да мы можем построить интервал, внутри которого содержится точное значение той или иной описательной статистики с наперед заданной вероятностью. Таким образом, мы можем построить доверительный интервал, в котором точное значение описательной статистики содержится с вероятностью, например, 80% или 90%, или 95% или 99% и т.д. Рассмотрим построение доверительного интервала для среднего значения. В этом случае получается следующее соотношение:
В формуле (12) Рассмотрим эту таблицу. Для отыскания нужного нам значения надо, прежде всего, ответить для себя на вопрос: с какой вероятность мы собираемся строить доверительный интервал? В приложении 4 приведена таблица, которая позволяет строить доверительные интервалы с вероятностями 0,95, 0,99 и 0,999. Если мы задаемся, к примеру, вероятностью 0,95, значит, мы будем использовать первый столбец таблицы. Для того чтобы найти в этом столбце нужное нам число, надо найти строку, которая начинается с числа равного n-1, где n – число измерений. В нашем случае n=20, значит, мы ищем строку, начинающуюся с 19. На пересечении выбранного столбца и нужной строки и стоит нужное нам значение. В нашем случае это число равно 2,093. Следовательно, доверительный интервал будет ( Теперь у нас есть все необходимые понятия, для решения задачи «есть эффект или нет». Пусть мы имеем группу мужчин из 20 больных гипертонией одинакового возрастного диапазона и одинаковой тяжести заболевания. Пусть, далее они принимают новый препарат для снижения артериального давления. Необходимо ответить на вопрос: действительно ли данный препарат эффективен. Проведено фоновое (до лечения) суточное мониторированние систолического артериального давления и получены среднесуточные значения для каждого из 20 человек. После применения схемы лечения, опять проведено суточное мониторированние систолического артериального давления и также получены среднесуточные значения для каждого больного. В результате получены значения представленные в Таблице 2. Таблица 2 Среднесуточные значения систолического артериального давления до и после лечения
Алгоритм решения задачи с помощью доверительных интервалов.
Таким образом, можно решить Задачу 2 с помощью построения доверительных интервалов. Однако более часто используется другой подход для решения этой задачи. Он построен на вычислении экспериментального значения распределения Стьюдента и сравнения его с табличным. Для построения этого алгоритма решения задачи 2 надо ввести еще два понятия. Зададимся вопросом можно ли в таблице 2 переставлять экспериментальные данные в столбцах произвольным порядком? Ответ: конечно нет, ведь в таком случае данные, полученные на одном пациенте попадут к другому! Такие выборки называются связанными выборками. В нашем случае они связаны номером пациента. Для таких выборок экспериментальное значение распределения Стьюдента рассчитывается по формуле:
В формуле (13) Как мы уже знаем, табличное значение ( Приведенные выше расчеты справедливы для связанных выборок. Теперь будем решать ту же задачу (действительно ли есть эффект или полученные различия есть не более чем игра случая) для не связанных выборок. Рассмотрим, как проверяется гипотеза о неравенстве средних для несвязанных выборок. В этом случае экспериментальное значение распределения Стьюдента можно рассчитать по формуле:
В формуле (14) В формуле (15) В таблице 3 приведены значения усредненной по всем оценкам успеваемости двух групп студентов в первом семестре. Необходимо определить, можно ли считать, что одна группа училась лучше другой. Очевидно, что в данном случае мы имеем дело с несвязанными выборками. Таблица 3 Осредненная успеваемость студентов двух групп за первый семестр.
Теперь используя формулу (14) рассчитаем экспериментальное значение распределения Стьюдента: Далее находим теоретическое значение распределения Стьюдента для доверительной вероятности 0,95 и числом степеней свободы Следовательно, в нашем случае: Этим заканчивается решение задачи 2. Осталось сделать только два замечания. Замечание 1 состоит в том, что приведенные выше схемы расчетов справедливы в том случае, если обе выборки сделаны из генеральных совокупностей, распределенных по закону Гаусса. Замечание 2. Мы отдаем себе отчет в том, что в настоящее время никто в реальных расчетах считать вручную не будет. Однако для закрепления материала очень полезно провести расчеты с использованием калькулятора. Для этих целей ниже приводится полное решение модельной задачи. Задача Содержание свободного гепарина крови в двух различных возрастных группах принимало следующие значения:
1. Вычислить выборочную среднюю арифметическую, среднеквадратичное отклонение, стандартную ошибку среднего, медиану, коэффициент вариации для каждого ряда и доверительные интервалы для средних. Сравнить средние значения гепарина для двух возрастных групп. Решение: Число измерений в каждом ряду n=10. Выборочная средняя определяется по формуле: Следовательно для первого ряда она равна:
Найдем дисперсию по формуле: Следовательно, для первого ряда выборочная дисперсия равна:
Вычислим стандартную ошибку среднего Для определения медианы (Ме1) по заданным значениям х1i строим вариационный ряд: 4,0 4,1 4,5 5,0 5,1 5,6 5,7 5,9 6,3 6,7
При четном числе вариант медиана определится как среднее арифметическое из двух центральных вариант:
Вычислим коэффициент вариации Рссчитаем 95% доверительный интервал для среднего. В нашем случае число измерений 10, а доверительная вероятность 0,95. Входим в таблицу приложения 4. На пересечении столбца 0,95 и девятой строки стоит число t= 2,262. Следовательно, в нашем случае, Проведя аналогичные расчеты для второго ряда получим: Сравнивая доверительный интервал для среднего первого ряда, с доверительным интервалом для второго ряда, легко увидеть, что они сильно перекрываются. Следовательно, наблюдаемые различия между средними являются случайными и мы должны прийти к заключению, что различий между ними нет. 2. Сравнить средние, используя вычисление экспериментального значения распределения Стьюдента. В данном случае мы имеем дело с не связанными выборками, поэтому для вычисление экспериментального значения будем использовать следующую формулу: Вычислим объединенная оценка среднеквадратичного отклонения двух групп: Тогда Итак, ответ в данном случае, будет выглядеть так:
ГЛАВА 2 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
Дата добавления: 2014-10-15; Просмотров: 491; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |