Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Графическое представление информации




Группировка информации в виде таблиц

 

Знакомство с элементами статистики начнем с конкретного примера.

В девятых классах «А» и «Б» измерили рост 50 учеников. Получились следующие результаты:

162, 168, 157, 176, 185, 160, 162, 158, 181, 179,

164, 176, 177, 180, 181, 179, 175, 180, 176, 165,

168, 164, 179, 163, 160, 176, 162, 178, 164, 190,

181, 178, 168, 165, 176, 178, 185, 179, 180, 168,

160, 176, 175, 177, 176, 165, 164, 177, 175, 181.

Данные, собранные в этом списке, являются наиболее полной информацией о проведенном измерении. К сожалению, эта информация трудно «читается». Она не наглядна и занимает много места. А представьте результаты, состоящие не из 50 данных, а из 500, 5000 или из миллионов различных чисел! Например, число и размеры вкладов в Сбербанке России за текущий год или данные о производительности труда на предприятиях какой-нибудь отрасли по всей стране, результаты голосования по всем избирательным пунктам и т. п.

Единственный разумный выход – каким-то образом преобразовать первоначальные данные, получить сравнительно небольшое количество характеристик начальной информации и в дальнейшем оперировать именно с этими, как правило, численными характеристиками. Одна из основных задач статистики как раз и состоит в надлежащей обработке информации. Конечно, у статистики есть много других задач: получение и хранение информации, выработка различных прогнозов, оценка их достоверности и т. д. Ни одна из этих целей не достижима без обработки данных. Поэтому, первое, чем стоит заняться – это статистическими методами обработки информации. Для этого нам будут нужны новые термины, принятые в статистике.

В таблице 3 приведены основные термины статистики. Мы будем использовать термины из первого столбца. Термины из третьего столбца могут встретиться вам в других учебных пособиях или справочниках по статистике.

Таблица 3

Новый термин Простое описание Более научный термин Определение
Общий ряд данных То, откуда выбирают Генеральная совокупность Множество всех в принципе возможных результатов измерения.
Выборка То, что выбрали Статистическая выборка, статистический ряд Множество результатов, реально полученных в данном измерении
Варианта Значение одного из результатов измерения Варианта Одно из значений элементов выборки
Ряд данных Значения всех результатов измерения, перечисленные по порядку Вариационный ряд Упорядоченное множество всех вариант

 

Вернемся к примеру с измерением роста. С некоторым запасом мы можем считать, что рост девятиклассника находится в пределах от 140 до 210 см. Значит, числа 140; 141; 142;...; 208; 209; 210 и образуют общий ряд данных этого измерения. Подчеркнем, что определения в статистике не носят такого же точного характера, как, скажем, определения в геометрии или алгебре. Например, от добавления числа 139 к указанному множеству оно не перестанет быть общим рядом данных. Или же, рост можно было, в принципе, измерять с точностью до миллиметров и тогда общий ряд данных этого измерения давали бы числа 140,0; 140,1; 140,2;...; 209,8; 209,9; 210,0.

Выборка в нашем случае – это данные реального измерения роста, выписанные выше, варианта – это любое из чисел выборки, а ряд данных – все реальные результаты измерения, выписанные в определенном порядке без повторений, например, по возрастанию:

157; 158; 160; 162; 163; 164; 165; 168; 175; 176; 177; 178; 179; 180; 181; 185; 190.

Рассмотрим другие примеры. Допустим, вы записываете номера месяцев рождения своих однокурсников. В таком случае общий ряд данных – это числа от 1 до 12, варианты – это номера месяцев рождения конкретных студентов именно вашей группы, а ряд данных – это все варианты, перечисленные по порядку. В одной группе ряд данных – это 3, 4, 5, 7, 8, 10, 11. В другой группе может получиться другой ряд данных. Например, 1, 2, 5, 6, 8, 9, 11, 12 и т. д.

Пример 2. 30 абитуриентов на четырех вступительных экзаменах набрали в сумме такие количества баллов (оценки на экзаменах выставлялись по пятибалльной системе): 20; 19; 12; 13; 16; 17; 15; 14; 16; 20; 15; 19; 20; 20; 15; 13; 19; 14; 18; 17; 12; 14; 12; 17; 18; 17; 20; 17; 16; 17. Составьте общий ряд данных, выборку из результатов, стоящих на четных местах и соответствующий ряд данных.

Решение. После получения двойки дальнейшие экзамены не сдаются, поэтому сумма баллов не может быть меньше 12 (12 – это 4 «тройки»). Значит, общий ряд данных состоит из чисел 12; 13; 14; 15; 16; 17; 18; 19; 20. Выборка состоит из 15 результатов 19; 13; 17; 14; 20; 19; 20;..., расположенных на четных местах. Ряд данных – это конечная возрастающая последовательность 13; 14; 17; 19; 20.

Перейдем к дальнейшей обработке информации. Составим таблицу из двух строк, в первой из которых будет ряд данных. Каждая варианта из этого ряда какое-то количество раз реально наблюдалась в выборке. Это количество называют кратностью варианты. Вот и поставим во вторую строку кратности соответствующих вариант. Получим таблицу распределения выборки. Вот как она выглядит в примере 1.

 

Варианта           Всего: 5 вариант
Кратность варианты           Сумма = 15 (объем выборки)

 

Если сложить все кратности, то получится количество всех произведенных при выборке измерений – объем выборки. В данном случае объем выборки равен 15.

Далее, при общей оценке данных выборки не очень важно, что, например, варианта 14 имеет кратность 3 из общего объема в 15 данных. Удобнее сказать, что эта варианта составляет или 20% числа всех измерений. Так и поступают, т. е. делят кратности вариант на объем выборки и получают частоты вариант.

.

Частоты всех вариант удобно приписать третьей строкой к уже составленной таблице. Новую трехстрочную таблицу называют таблицей распределения частот выборки. Вот как это выглядит в примере 1. Обратите внимание, что сумма частот равна 1, и так бывает всегда.

 

Варианта           Всего: 5 вариант
Кратность варианты           Сумма = 15 (объем выборки)
Частота варианты Сумма = 1

 

Иногда частоты удобно измерять в процентах от общего объема выборки. Тогда таблицу распределения дополняют еще строкой частот в процентах. Она получается из предыдущей строки умножением на 100%.

 

Итак, выборки удобно задавать с помощью таблиц. Но мы знаем, что и для функций есть табличный способ их задания. Таблицы образуют «мостик», по которому от выборок данных можно перейти к функциям и их графикам.

Отложим по оси абсцисс значения из первой строки таблицы распределения, а по оси ординат – значения из ее второй строки. Построим соответствующие точки в координатной плоскости. Получим графическое изображение имеющейся информации – график распределения выборки. Часто, построенные точки для наглядности соединяют отрезками. То же самое можно сделать, заменив вторую строку таблицы распределения ее третьей строкой. Получится график распределения частот выборки. Термин «график распределения частот выборки» чаще заменяют более кратким – многоугольник частот или полигон частот. Собственно, роlуgоп и переводится как «многоугольник».

Пример 3. Постройте график распределения и многоугольник частот для следующих результатов письменного экзамена по математике:

 

6, 7, 7, 8, 9, 2, 10, 6, 5, 6,
7, 3, 7, 9, 9, 2, 3, 2, 6, 6,
6, 7, 8, 8, 2, 6, 7, 9, 7, 5,
9, 8, 2, 6, 6, 3, 7, 7, 6, 6,

 

Решение. Дана выборка объема 40. Ее ряд данных – 2; 3; 5; 6; 7; 8; 9; 10. Оценка в 2 балла встретилась пять раз. Значит, кратность варианты 2 равна 5. Сделав то же для других оценок, найдем их кратности. Они равны 5; 3; 2; 11; 9; 4; 5; 1. Можно себя проконтролировать, вычислив сумму кратностей всех рассмотренных вариант: 5 + 3 + 2 + 11 + 9 + 4 + + 5 + 1 = 40. Частота появления двух баллов равна 0,125 или 12,5%. Вычислив остальные частоты, составляем таблицу и строим графики (см. рис. 6.1).

 

 

Варианта                 Всего 8 вариант
Кратность варианты                 Сумма = 40
Частота варианты 0,125 0,075 0,05 0,275 0,225 0,1 0,125 0,025 Сумма = 1
Частота (%) варианты 12,5 7,5   27,5 22,5   12,5 2,5 Сумма – 100%

 

 

Рисунок 6.1

По существу, различия этих трех графиков состоят только в выборе единиц измерения и масштаба по оси ординат. Для наглядного оформления (дизайна) информации в каждом конкретном случае приходится выбирать между этими тремя возможностями. Чаще всего в практических приложениях используют многоугольники частот в процентах. Для полноты картины можно было бы приведенные ломаные дополнить еще одной вершиной (4; 0), расположенной на оси абсцисс. Эта вершина соответствует тому, что в данной выборке отсутствует оценка в 4 балла.

Мы видим, что даже для малого объема выборки аккуратное «причесывание» информации – довольно кропотливая вещь. Вот более краткий, но менее точный способ.

Рисунок 6.2

Назовем оценки 2, 3, 4 «плохими», оценки 5, 6, 7 «средними», а оценки 8, 9, 10 «хорошими». Все «плохие» оценки принадлежат отрезку [2; 4], «средние» – отрезку [5; 7], а «хорошие» – отрезку [8; 10] (рис.). Тем самым мы разбили промежуток между самой маленькой и самой большой вариантой на участки и получили интервальный ряд данных: 2 4; 5 –7; 8 – 10.

 

Варианта «Плохая» «Средняя» «Хорошая»

 

Для каждого участка сложим кратности вариант, попавших в него. Получим кратности каждого участка.

 

Варианта «Плохая» «Средняя» «Хорошая»
Кратность варианты      

 

Теперь нарисуем три прямоугольника. Основание первого – это отрезок [2; 4], его площадь равна 8, т. е. равна кратности «плохой» варианты. Аналогично поступим с двумя другими вариантами. Получим столбчатую диаграмму, или гистограмму распределения (рис. 6.3).

 

 

Рисунок 6.3

Поделив высоты столбиков на объем всей выборки, получим другую столбчатую диаграмму – гистограмму распределения частот (рис. 6.4).

 

 

Рисунок 6.4

Как обычно, таблицу можно дополнить и третьей строкой, в которой частоты вариант выражены в процентах:

 

Варианта «Плохая» «Средняя» «Хорошая»
Кратность варианты      
Частота варианты 0,2 0,55 0,25
Частота варианты (%)      

На рисунке 6.5 приведена гистограмма распределения частот в процентах.

С одной стороны, в гистограмме потеряна первоначальная точная информация: мы не знаем, например, сколько именно человек получили 6 баллов. С другой стороны, ответ получается более быстро, и наглядно видна качественная оценка распределения данных. Примерно половина абитуриентов получила «средние» баллы, а «плохиши» и

Рисунок 6.5 «хорошисты с отличниками» поделились почти поровну. Для отчетов по результатам экзаменов такой вид исходной информации – в самый раз

Пример 4. Измерили длины слов (количество букв) в приведенном ниже отрывке из поэмы А. С. Пушкина «Медный всадник». Нужно построить гистограммы распределения кратностей и частот, выбрав интервалы 1 – 3, 4 – 6, 7 – 9 для вариант выборки.

 

«…Ужасен он в окрестной мгле! 6, 2, 1, 9,    
Какая дума на челе! 5, 4, 2,      
Какая сила в нем сокрыта, 5, 4, 1, 3,    
А в сем коне какой огонь! 1, 1, 3, 4, 5,  
Куда ты скачешь, гордый конь, 4, 2, 7, 6,    
И где опустишь ты копыта?...» 1, 3, 8, 2,    

 

Решение. Справа от текста вместо слов построчно записаны их длины. После подсчета составляем таблицу.

 

Длина слова                   Всего 9 вариант
Кратность                   Сумма = 30

 

Для нужных гистограмм составляем таблицу с меньшим числом вариант.

 

Длины слов 1, 2 или 3 4, 5 или 6 7, 8 или 9 Всего 3 варианты
Кратности 5+4+3=12 7+4+3=14 2+1+1=4 Сумма = 30
Частоты (%)   46,66 13,33 Сумма ≈ 100%

 

Осталось нарисовать гистограммы:

 

 

 

 

Рисунок 6.6

 




Поделиться с друзьями:


Дата добавления: 2014-11-16; Просмотров: 1921; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.044 сек.