Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

План лекции. 1.Понятие о разделе математики «математическая статистика»

ТЕМА 18. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАИЧЕСКОЙ СТАТИСТИКИ.

 

Лекция (3 часа)

1.Понятие о разделе математики «математическая статистика».

2.Основные понятия математической статистики.

3.Статистическое распределение выборки дискретной случайной величины.

4.Статистическое распределение выборки непрерывной случайной величины.

5. Мода и медиана.

6.Статистические оценки параметров распределения.

7. Генеральная и выборочная средние.

8. Смещенные и несмещенные оценки параметров.

9. Генеральная и выборочная дисперсии.

10. Точечная и интервальная оценки неизвестного параметра

1.Цель каждой науки - познание общих объективных закономерностей, позволяющих оценить развитие явлений, выбрать пути дальнейших исследований. В основе научных познаний лежит наблюдение. Единичное наблюдение отражает свойства единичного объекта, но не выясняет общего закона. Для выяснения общих закономерностей нужны серии наблюдений. Явления окружающего мира связаны зависимостью, зависят от многих факторов. Все факторы при наблюдении явлений учесть невозможно, чаще учитывают лишь контролируемые факторы. Например, станок со временем теряет настройку, это ведет к ухудшению качества обработки детали (один фактор); инструмент тупится (второй фактор). Для определения времени для переналадки станка проводили наблюдения и выяснили, что качество деталей ухудшается после двух часов работы станка. Для корректного вывода о работе станка надо провести многократные наблюдения. Для обоснованных выводов встают вопросы об организации сбора сведений о работе станка, о числе опытов, об обработке результатов наблюдений. Ответы на эти вопросы дает «математическая статистика». При изучении законов явлений фиксируются факторы, неконтролируемые факторы изменяются в различных наблюдениях, поэтому отмечаются отклонения от известных закономерностей. Наблюдаемые отклонения от закономерностей, как и отклонения, полученные под влиянием неучтенных факторов, являются случайными явлениями. Например, при измерении массы одного и того же объекта каждый раз получаем близкие, но различные значения, так как результат каждого взвешивания содержит случайную погрешность. При систематизации результатов измерений можно обнаружить определенную закономерность. Эта закономерность позволяет предвидеть в среднем результат серии измерений. Поэтому изучаются массовые случайные явления. Математическая статистика - это раздел математики, изучающий методы сбора, систематизации и обработки результатов наблюдений массовых случайных явлений с целью выявления существующих закономерностей. На практике выводы о закономерностях опираются на ограниченное, часто небольшое, число измерений. Для обоснованных общих выводов о закономерностях привлекается теория вероятностей. Оценив неизвестные величины или зависимости между ними по полученным результатам наблюдений, исследователь выдвигает ряд гипотез о том, какой математической моделью можно описать изучаемую закономерность. Затем, используя статистические методы, можно выяснить, какую модель лучше использовать.

2.При изучении однородных объектов выясняется, что каждый из изучаемых однородных объектов обладает некоторым признаком: качественным или количественным. Например, детали, выпускаемые на заводе, обладают и качественным (стандартность детали), и количественным признаками (размер детали). Статистическая совокупность – это множество однородных объектов, обладающих одним и тем же характеристическим признаком. При изучении признака статистической совокупности иногда проводят сплошные обследования, но часто из-за большого числа объектов такое обследование невозможно. Тогда применяется выборочный метод: обследуются объекты, случайно отобранные из статистической совокупности. Генеральная совокупность - это статистическая совокупность, из которой выбираются объекты для исследования. Выборочная совокупность (выборка)- это множество объектов, случайно отобранных из генеральной совокупности. Объем выборки – это число объектов выборки: n. Например, при изучении признака «отношение учащихся школ к спиртному» за генеральную совокупность можно считать учащихся всех школ России, это множество практически обследовать невозможно. Тогда из генеральной совокупности отбирается выборка: учащиеся одной из школ конкретного города, например, выборка объема n =100. Для объективной оценки исследуемого признака необходимо, чтобы выборка правильно представляла пропорции генеральной совокупности, для оценки этого привлекается теория вероятностей. Репрезентативнаявыборка - это выборка объектов из генеральной совокупности, при которой каждый объект имеет одинаковую вероятность включения в выборку. Для включения объектов в выборку существуют способы: а) простой отбор – объекты извлекаются по одному из всей генеральной совокупности; б) типический отбор – объекты извлекаются не из всей генеральной совокупности, а из каждой её «типической» части; например, если детали изготавливаются на нескольких станках, то их отбор идет из множества деталей, изготовляемых на каждом станке; в) механический отбор – генеральную совокупность «механически» делят на столько групп, сколько объектов должно войти в выборку, из каждой группы отбирают по одному объекту; г) серийный отбор – объекты отбирают из генеральной совокупности не по одному, а сериями, их подвергают сплошному обследованию.

3.Для изучения признака случайной величины формируется выборка объектов, проводятся наблюдения и оценка каждого объекта. Оценить численно объект – это означает, что в результате наблюдений с каждым объектом надо сопоставить некоторое число – варианту: , n – выборка, последовательность вариант (), записанных в возрастающем порядке - это вариационный ряд. Варианты – это наблюдаемые числовые значения признака: . Дискретный вариационный ряд – это последовательность наблюдаемых значений , записанных в возрастающем порядке. Частота варианты - это число одинаковых вариант: . Очевидно, (1). Относительная частота варианты - это отношение частоты варианты к объему выборки «:

(2).

Статистическое распределение выборки - это перечисление вариант и соответствующих им частот (или относительных частот) этих вариант. Статистическое распределение для дискретного вариационного ряда задается различными способами: I. Задание статистического распределения в виде таблицы (табл.1):

Табл.1

II. Задание статистического распределения полигоном частот. Для построения полигона частот на оси Ох откладываются значения вариант, на оси Oy - частоты вариант (или относительные частоты). Полученные точки плоскости (или ) соединяются отрезками, полученная ломаная линия –это - полигон частот (Рис. 1).

 

 

 

 

Рис. 1

Если в исследовании признак принимает значения из некоторого числового интервала (признак непрерывный), то строится интервальный вариационный ряд. Непрерывной случайной величиной, которая может принимать любые значения из соответствующего интервала является, например, величина роста комнатного растения. Пусть значения непрерывной случайной величины Х принадлежат некоторому промежутку [a;b]. Для построения интервального вариационного ряда, в котором значение признака меняется непрерывно, необходимо: 1) Заданный промежуток [ a;b ] разбить на «к» элементарных частичных интервалов , (i =1;2;… к), (), концы интервалов можно выбрать следующим образом: (а) для вычисления числа интервалов «k» на промежутке используется формула Стэрджеса (Стюргеса): k=1+3,322lgn, n – выборка; (б) длина частичного интервала вычисляется по формуле: ; (в) при разбиении промежутка [a;b] на интервалы начало промежутка – это число ; начало промежутка совпадает с концом : , , аналогичным способом получаем полуинтервалы: и т. д.; (г) построение полуинтервалов ведется до тех пор, пока начало следующего по порядку полуинтервала не превысит значение правого конца интервала «b». Построенный интервальный вариационный ряд иллюстрируется геометрической фигурой – гистограммой. При построении гистограммы используется приведенный выше алгоритм: (а) промежуток [ a;b ] разбивается на « частичных полуинтервалов; (b) для каждого полуинтервала вычисляется сумма частот вариант, попавших в этот полуинтервал; (с) в полуинтервал включаются варианты такие, для которых (либо ); (d) на ОХ откладываем интервалы варьирования, на этих интервалах, как на основаниях, строим прямоугольники с высотами, равными частотам соответствующего полуинтервала, получим гистограмму. Например, проведен эксперимент по оценке высоты взошедших ростков пшеницы, надо построить гистограмму распределения их высот (n=75) по данным таблицы 2:

                             
                             

Табл.2

(1). Варианты распределены в промежутке [ a;b ]=[3;24]; (2) число «к» интервалов по формуле Стюргеса (Стэрджеса) равно: так как число полуинтервалов не может быть дробным числом, то положим k=8 (частичные промежутки перекрывают заданный промежуток); (3) длина полуинтервалов:: (4) концы полуинтервалов: (а) первый левый конец - , певый правый -, ; (б) второй левый конец - второй правый - , и т.д., составляем таблицу для вычисления частот вариант (табл.3):

Полуинтервалы Сумма частот Частоты
  2+4  
     
  5 +5+7  
  6+7  
  8+10  
  8+4  
  2+2  
     

Табл.3

(в) гистограмма: на оси Ох откладывают полуинтервалы, на Oy – частоты: (рис. 2). Гистограмма показывает, что рассмотренное распределение близко к нормальному (см. кривую Гаусса).

 

Рис. 2.

5. Простейшие характеристики дискретного вариационного ряда, не требующие вычислений – это мода и медиана. Мода – это значение варианты, наиболее часто встречающееся в вариационном ряду: Мо. Например, в распределении (1, табл.4) чаще всего встречается варианта , Мо=7;

       
       

Табл.4.

в распределении (2, табл.5) все значения в выборке встречаются одинаковое число раз, моды нет;

     
     

Табл.5.

в распределении (3, табл.6) частоты расположенных рядом значений вариант () одинаковы и больше частот остальных значений, Мо=, Мо=8;

       
       

Табл.6.

в распределении (4,табл.7) два несмежных значения в выборке () имеют одинаковые частоты, которые больше частот всех остальных вариант; имеются две моды: , выборка бимодальная.

             
             

Табл.7

Медиана – это значение варианты, которое приходится на середину вариационного ряда: Мd. (а) Если выборка нечетная (n=2q-1), то в середине вариационного ряда находится варианта и Мd= . Пусть n =7, - середина выборки, Мd= = 4, например, в выборке

3,4,6, 7, 9,10,11 (n=7) середина =7, Мd=7. (b) Если выборка четная (n=2q), тогда на середину вариационного ряда приходится два значения и , тогда Md=, например, в выборке 3,4,6, 7, 9,10,11,12 (n =8): n=2q =8, q =4, Md=8, Md=8. Иначе: медиана - это то значение варианты, котрое делит вариационный ряд пополам.

6. Пусть генеральная совокупность объектов обладает признаком Х, из совокупности случайно извлекается -ый объект, которому сопоставляется значение признака Х. Как в теории вероятностей: (а) испытание –извлечение объекта из совокупности; (б) случайная величина –признак величины Х; (в) числовое i –ое значение признака Х – это варианта . Если установили, по какому закону распределяется признак Х, то встает задача оценки параметров, характеризующих это распределение, в частности, при нормальном законе распределения оцениваются параметры М(Х) и . В исследовании всегда имеется выборка, значения признака , полученные в результате « наблюдений, через них выражается оцениваемый параметр. С другой стороны, экспериментальные значения признака Х можно рассматривать и как значения разных случайных величин с тем же распределением, что и величина Х, (с теми же числовыми характеристиками М(Х), D(X) и ): (3), значения - это реализации случайных величин . Статистическая оценка неизвестного параметра теоретического распределения - -это функция от наблюдаемых случайных величин. Чтобы не исследовать каждый параметр отдельно, обозначим неизвестный параметр символом «», (для неизвестных параметров нормального распределения: = М(Х), =). Параметр неизвестен, обозначим его статистическую оценку через . При серии опытов на выборке « имеем серию статистических оценок: (а), поэтому оценку можно считать случайной величиной, а (а) – возможными значениями этой случайной величины. Оценка дает приближенное значение параметра с избытком (если каждое больше истинного значения параметра, тогда среднее значение параметра (или математическое ожидание параметра М()) тоже больше истинного значения: ), либо с недостатком. В случае, когда оценка не равна оцениваемому параметру, возникают систематические ошибки. Во избежание ошибок надо потребовать, чтобы математическое ожидание оценки параметра было бы равно самому оцениваемому параметру: Для практической ценности к оценке неизвестного параметра предъявляются три требования: несмещенности оценки, эффективности оценки и её состоятельности. Несмещенная оценка параметра - это такая оценка , если (4), (т.е. математическое ожидание оценки должно совпадать с самой оценкой параметра ). Смещенная оценка параметра - это такая оценка , для которой (5). Не всегда несмещенная оценка неизвестного параметра дает его хорошее приближение: возможные значения могут быть сильно рассеяны вокруг , поэтому дисперсия , показывающая меру рассеяния, может оказаться достаточно большой. Поэтому возникает требование, чтобы отклонение оценки от было минимальным (чтобы дисперсия была мала). Эффективная статистическая оценка - это оценка, имеющая наименьшую возможную дисперсию (при заданной выборке).. Состоятельная статистическая оценка - это оценка, для которой при достаточно большой выборке вероятность совпадения с оцениваемым параметром близка к единице.

7.Если в генеральной совокупности объёма « каждый объект обладает признаком Х, количество признака у каждого объекта: , то генеральная средняя – это среднее арифметическое значений признака Х: ,. Если все значения признака с частотами и вероятностями (а) различны, то (6) или (7); если значения заданы частотами, то (8) или (9). При (вероятность ) получаем:

(10). Из (9) и (10): (11) – это генеральная средняя.

Если вероятность появления признака постоянна (), то

, т.е. - математическое ожидание признака Х - это генеральная средняя этого признака. Выборочная средняя - это среднее арифметическое значений признака Х выборочной совокупности: . Как и с генеральной средней: для различных значений признака - (12); для значений признака Х, заданных частотами : (13). Если выборочные значения

принять за случайные велиичны с теми же характеристиками, то

- выборочная средняя случайная величина, из (3): ,

Из и : (14); параметр оценивается через выборочную среднюю .

8. Генеральная дисперсия – это среднее арифметическое квадратов отклонений значений признака Х генеральной совокупности от генеральной средней: (16) - для различных значений признака случайной величины), (17) – для значений признака, обладающих соответствующими частотами. Например, если генеральная совокупность задана таблицей распределения (табл.8):

 

       
       

Табл.8

то: (1) n =10+2+3+5=20; (2)

(3)

Генеральное среднее квадратическое отклонение этоквадратный корень из генеральной дисперсии:

(18). Рассеяние значений признака вокруг его среднего значения оценивается выборочной дисперсией: ( 1 ) (19) - среднее арифметическое квадратов отклонений значений признака Х от выборочной средней при различных значених признака; (2)(20) – при значениях признака , заданеых соответствующими частотами . Более постая формула для вычисления дисперсии: (21).

Из и получаем выборочную дисперсию:

=(22) - дисперсия выборочной средней равна - ой дисперсии случайной величины Х.

Т.к. (11) и , то

,

т.е. (23). Из то (24).

Если (несмещенная оценка выборочнойдисперсии) и можно доказать, что , то это утверждает, что выборочная дисперсия является смещенной оценкой генеральной дисперсии (для несмещенной верно

).

9.. Оценки неизвестных параметров бывают точечные и интервальные. Точечная оценка это оценка, которая определяется одним числом. Все оценки, которые рассматривались выше, это точечные оценки. Если выборка « небольшая, точечная оценка может существенно отличаться от истинного значения неизвестного параметра и приводить к ошибкам в вычислениях. Поэтому пользуются оценками, определяемыми двумя числами, между которыми заключен неизвестный параметр. Интервальная оценка – это оценка, которая определяется двумя числами – концами интервала. Пусть (статистическая оценка неизвестного параметра - константа) принадлежит некоторому интервалу; тем точнее определит параметр , чем ближе будут находиться друг к другу концы интервала, т.е. чем меньше величина . Иначе, если (25), то чем меньше , тем оценка параметра точнее. Однако оценка статистически не всегда удовлетворяет условию , поэтому говорят о вероятности, с которой оценка попадает в интервал Доверительная вероятность, или надежность, оценки параметра - это вероятность «», с которой выполняется неравенство : (26).

а=М(Х) заключено между числами 3,58 и 3,86.

10. В науке (естествознании, психологии, экономике) для выяснения справедливости какого–то факта высказывают некоторые предположения, которые необходимо проверить, опираясь на серию наблюдений. Для выяснения справедливости высказанного предположения формулируются гипотезы. Статистические гипотезы классифицируют на гипотезы (а) о видах законов распределения и (b) о неизвестных параметрах распределения. Если закон распределения неизвестен, но есть основания предположить, что это закон А, то формулируют гипотезу: генеральная совокупность распределена по закону А. Иногда закон распределения известен, но неизвестны его параметры. Если есть основания предположить, что неизвестный параметр равен определенному значению , то выдвигают гипотезу о равенстве параметра этому значению: . В первом случае в гипотезе идет речь о виде предполагаемого распределения, во втором случае - о предполагаемой величине параметра известного распределения. Статистическая гипотеза - это гипотеза о виде неизвестного распределения или о параметре известного распределения. Например, статистическая гипотеза: генеральная совокупность распределена по нормальному закону. Статистические гипотезы классифицируются по двум основаниям: I: нулевая – альтернативная, II: направленная – ненаправленная. Пусть стоит задача статистической проверки гипотезы о параметре некоторого закона распределения. Если некоторая случайная величина Х зависит от параметра , который пока неизвестен, то задается некоторая функция распределения: и надо сравнить два значения параметра: и . Если значения этих параметров не различаются, то гипотезу о сходстве этих параметров можно записать в виде равенства , откуда (27). Если саму гипотезу обозначить Н, то отсутствие различий в значениях параметра обозначают , это - нулевая гипотеза, гипотезу о том, что или обозначают , это - конкурирующая (альтернативная) гипотеза, т.е. нулевая гипотеза – это гипотеза о сходстве, а альтернативная гипотеза – это гипотеза о различии. Например, если нулевая гипотеза предполагает, что а = М(Х) нормального распределения равно 12, то конкурирующая гипотеза может, в частности, состоять в предположении, что ; кратко это записывается:. Появляется задача проверки гипотезы относительно конкурирующей гипотезы , эта проверка осуществляется на базе выборки объема «n» независимых наблюдений случайной величины Х. Поэтому множество А выборок объема « можно разделить на два непересекающихся подмножества (а) и (b), таких, что проверяемая гипотеза принимается, если выборка попадает в множество , и отвергается, если выборка принадлежит . Множество (а) называется областью допустимых значений, множество (b) - критической областью. Условиями критическая область определяется однозначно.

<== предыдущая лекция | следующая лекция ==>
План лекции. 1.Закон биномиального распределения дискретной случайной величины | Предмет курса
Поделиться с друзьями:


Дата добавления: 2014-01-04; Просмотров: 1623; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.048 сек.