КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Группировка статистических данных 1 страница
Тема 2
Цель: сформировать знания о методах классификации и систематизации первичных данных и способах расчета обобщающих характеристик объекта исследования. Задачи: раскрыть понятия статистической сводки и группировки, показать этапы их выполнения; обобщить приемы построения группировок, определить значение разных видов группировок для цели систематизации данных; показать основные принципы построения статистических таблиц; раскрыть понятие ряда распределения, представить основные показатели распределения и правила построения графиков. Статистические методы классификации и группировки Статистическая сводка – это процесс обобщения первичных данных о каждой единице исследуемой совокупности, полученных в ходе статистического наблюдения, с целью выявления типичных черт и закономерностей изучаемого явления/процесса в целом. Эта задача реализуется путем подсчета итогов по отдельным частям совокупности (группам) и по совокупности в целом, результатом чего является получение системы статистических показателей. Таким образом, процесс сведения статистических данных разбивается на следующие этапы: 1. группировка статистических данных; 2. расчет системы показателей; 3. табличное и графическое представление результатов. Комплекс вышеописанных операций иногда называют сложной сводкой. При этом под простой сводкой понимается набор операции по подсчету общих итогов. Для корректного проведения всех этапов сводки их должен предварять всесторонний теоретический анализ изучаемого явления/процесса. Массовые явления/процессы, являющиеся предметом изучения статистики, состоят из множества отдельных фактов, каждый из которых обладает как общими признаками, так и широким спектром индивидуальных характеристик. Именно различия свойств отдельных единиц наблюдения обуславливают необходимость их группирования. Как этап построения статистической сводки, группировка является важнейшим и при этом одним из самых сложных статистических методов, определяющим корректность последующих расчетов и выводов. Статистическая группировка – это процесс разбиения множества единиц исследуемой совокупности на части по определенным существенным для них признакам с целью получения качественно однородных (в определенном отношении) групп. Технически процесс группирования статистических данных состоит из следующих этапов: 1. выбор группировочного признака; 2. ранжирование совокупности по выбранному группировочному признаку; 3. определение числа групп; 4. определение величины интервала; 5. распределение единиц совокупности по образованным группам. Группировочный признак, или основание группировки, - это существенный теоретически обоснованный признак, по которому отдельные единицы исследуемой совокупности разбиваются на группы. Выбор основания группировки определяется целью статистического исследования. Существенность признака означает, что он отражает наиболее характерные черты исследуемого явления в конкретных условиях места и времени. Таким образом, группировочный признак может быть выбран только в результате теоретического анализа. Основанием группировки могут служить как качественные, так и количественные признаки. Качественные (атрибутивные) признаки отражают состояние единицы наблюдения (например, пол человека, отрасль экономики, форма собственности предприятия и т.д). Количественные признаки имеют числовое выражение (например, курс валют, возраст человека, денежный доход семьи и т.д.). Количественные признаки, в свою очередь, могут быть дискретными и непрерывными. Дискретные показатели принимают ограниченное число возможных значений, между которыми промежуточных быть не может (например, число детей в семье, число комнат в квартире, число туристических поездок и т.д.). Непрерывные показатели, получаемые обычно в результате измерений и вычислений, могут принимать бесконечное множество значений, т.е. между отдельными значениями непрерывного показателя возможны промежуточные (например, масса продукта, рост человека и т.д.). При этом важно учитывать, что в процессе статистического наблюдения дискретные признаки часто ведут себя как непрерывные и наоборот. Так, дискретный признак «число жителей» в процессе наблюдения и регистрации на определенный момент тут же меняется, поэтому в справочнике приводится усредненная и округленная информация. Или обратная ситуация, когда непрерывный, по сути, признак, результат какой-либо операции, фиксируется на определенный момент. Группировка, в основание которой положен один признак, называется простой. Однако, сложность социально-экономических явлений может потребовать изучения структуры совокупности одновременно по нескольким признакам, взятым в комбинации (например, исследование возрастно-половой структуры населения). Тогда речь идет о сложной группировке. При построении сложной группировки следует учитывать, что с возрастанием числа группировочных признаков резко увеличивается количество групп. Это, в свою очередь, снижает наглядность итоговой группировки и статистическую устойчивость рассчитываемых показателей. Сложные группировки могут быть комбинационными и многомерными. Технически построение комбинационной группировки заключается в последовательном распределении на группы по одному признаку, затем каждой группы на подгруппы по другому признаку и т.д. Как правило, начинают с атрибутивного признака, группы которого качественно различаются между собой. В табл. 2.1 представлена комбинационная группировка населения по полу и возрасту. Из таблицы видно, что при почти одинаковом распределении мужчин и женщин по возрастным группам дошкольного, школьного и трудоспособного возрастов происходит резкое снижение численности мужчин старше трудоспособного возраста по сравнению с женщинами. В основном за счет этой возрастной группы общая численность женского населения превосходит численность мужского. Таблица 2.1 Распределение населения по полу и возрасту в 2008 году1
1) по материалам статистического сборника «Социальное положение и уровень жизни населения России. 2008» Многомерная группировка строится не последовательно, а одновременно по большому числу признаков с целью формирования качественно однородных групп на основе определенной процедуры оценки близости объектов. Классификация - это стандартная или нормативная группировка, которая заключается в разбиении отдельных явлений на группы, классы, разряды, секции, виды и т.д. на основании их сходства и различия. Основными отличительными особенностями классификации являются следующие. Во-первых, основанием классификации является качественный признак. Во-вторых, разбиение на классы носит общепринятый стандартный характер и не зависит от целей исследования. В-третьих, классификации устойчивы, т.е. не изменяются в течение длительного периода времени (изменения происходят лишь с появлением новых классов, разрядов и т.д.). Федеральной службой государственной статистики России (Росстат) ведутся несколько классификаторов (кодированных перечней объектов). Например, макроэкономическая статистика использует классификацию видов экономической деятельности, статистика труда – классификацию профессий и др. После определения основания группировки проводится ранжирование исследуемой статистической совокупности по группировочному признаку, т.е. все единицы наблюдения располагаются по возрастанию или убыванию значений выбранного признака. Число групп определяется следующими факторами: задачами исследования, основанием группировки, численностью совокупности, степенью вариации (изменчивости) признака. В зависимости от цели исследования одна и та же совокупность может быть разбита на разное число групп. Например, группировка студентов по результатам экзаменационной сессии может быть произведена по двум группам, если задача исследования – выявление успевающих и не успевающих по какому-то предмету; по трем группам, если задача состоит в выявлении неуспевающих, получивших «удовлетворительно» и успевающих на «хорошо» и «отлично» и т.д. На число выделенных групп влияет и выбранный группировочный признак. Так, если основанием группировки является качественный признак, то количество групп определяется числом градаций, видов, состояний этого признака. Например, группировка населения по полу (качественный признак) может быть произведена только по двум группам: мужчины и женщины; группировка количества выездов за границу по целям поездки – по пяти группам: служебная, туризм, частная, транзит, обслуживающий персонал и т.д. Группировка, построенная по количественному признаку, может быть дискретной и интервальной. В дискретной группировке каждая группа представляет собой конкретное значение признака, в интервальной – интервал возможных значений. Это деление может не соответствовать характеру группируемого количественного признака (дискретный или непрерывный). Дискретный признак может быть сгруппирован интервально, если число его возможных градаций слишком велико для выделения их всех в отдельные группы. Например, при группировке взрослых людей по размеру обуви понадобилось бы минимум 13 групп (размеры с 33 по 45). В данном случае желательно объединять, например, по два размера в группу, формируя, таким образом, интервальную группировку. Если число возможных значений дискретного признака невелико, то итоговая группировка может быть идеально однородной по данному признаку (например, группировка семей по числу детей). При построении интервальной группировки создаваемые группы будут лишь более-менее однородны. В табл. 2.2 представлена дискретная группировка домашних хозяйств по признаку «число детей». Из таблицы видно, что с ростом количества детей в семье происходит перераспределение доли домашних хозяйств с увеличением числа тех, чьи субъективные оценки своих жилищных условий отрицательны. Одновременно с этим, во всех группах по числу детей более половины домохозяйств характеризуют свои жилищные условия лишь как «удовлетворительные». Таблица 2.2 Распределение домашних хозяйств, имеющих детей в возрасте до 16 лет, по степени удовлетворенности своими жилищными условиями в 2007 г. (в процентах от общего числа домашних хозяйств соответствующей категории)1
1) по материалам статистического сборника «Социальное положение и уровень жизни населения России. 2008»
В табл. 2.3 представлена интервальная группировка легковых автомобилей по признаку «возраст». Из таблицы видно, что за 2006-7 годы произошло незначительное перераспределение доли машин «среднего возраста» в пользу более «молодых» автомобилей. При этом доля «старых» машин осталась практически без изменений, составляя при этом чуть менее половины всего парка. Таблица 2.3 Возрастная структура парка легковых автомобилей в 2006 -2007г. (на конец года, в процентах к итогу) 1
1) по материалам статистического сборника «Социальное положение и уровень жизни населения России. 2008» Определение числа групп для количественного признака зависит от степени однородности статистической совокупности. Если исходная совокупность качественно разнородна, то при построении группировки по количественному признаку границы групп определяются там, где количество переходит в новое качество. Если исследуемая совокупность качественно однородна, то решающее значение для определения количества групп имеют численность совокупности и уровень колеблемости группировочного признака. Итоговым критерием при этом является получение максимально однородных при этом достаточно наполненных групп. Каждая образованная группа должна быть «обеспечена» достаточным количеством наблюдений, так как погашение случайного и выявление общего, существенного для исследуемого явления/процесса происходит лишь при расчетах по достаточно большим группам. Показатели же, исчисленные по малочисленным группам, не будут корректными и устойчивыми. При прочих равных условиях, чем больше степень изменчивости признака, тем больше следует образовывать групп, так как это будет способствовать более точному описанию характера изучаемого объекта/процесса. Однако, слишком большое число групп затрудняет выявление закономерностей и автоматически приводит к тому, что в каждую группу попадет меньшее число наблюдений, что снизит статистическую устойчивость рассчитанных впоследствии показателей. Приемы построения группировок Для определения количества групп могут быть использованы стандартные статистические процедуры. Наиболее распространенная из них основана на использовании формулы американского ученого Стерджесса: где k – число групп (округленное до целого); N – число единиц совокупности. Ограничением формулы Стерджесса является необходимость большого числа наблюдений и близости распределения группировочного признака к нормальному. После определения числа групп формируются интервалы группировки – значения признака, лежащие в определенных границах. Величина интервала – это разница между верхней и нижней границами интервала, т.е. максимальным и минимальным значениями соответственно. Обозначение границ интервалов зависит от характера группируемого признака. Если в основание группировки положен непрерывный признак, то верхняя граница i -го интервала совпадает с нижней границей i+1 -го. Если же группируется дискретный признак, то нижняя граница i+1 -го интервала равна верхней границе i -го плюс 1. В табл. 2.4 представлены границы групп при распределении людей по возрасту. В варианте I возраст понимается как непрерывная величина, а в варианте II – как дискретная. В этом примере в обоих случаях ширина интервалов одинакова и равна 10-ти годам.
Таблица 2.4 Варианты построения групп для признака «возраст»
По наличию границ различают открытые и закрытые интервалы. Открытыми называются интервалы, для которых определена только одна граница: верхняя (если интервал первый) или нижняя (если интервал последний). В закрытых интервалах определены обе границы. Для последующих расчетов величина открытого интервала принимается равной величине интервала, смежного с ним. Так, в варианте I табл. 2.4 величина первого интервала принимается равной величине второго, а последнего – величине предпоследнего, т.е. десяти годам. Таблица 2.5 Группировка операторов диспетчерской по среднему времени обработки заказа (цифры условные)
Если по данному правилу получается, что открытый интервал начинает включать в себя теоретически невозможные значения, то его ширина должна определяться логикой явления/процесса. Например, в табл. 2.5 величина второго интервала равна четырем минутам. В этом случае величина открытого интервала не может быть равна также четырем минутам, так как это означало бы, что нижняя граница первого интервала была бы отрицательна, что применительно к временной характеристике невозможно. Значит, в качестве первого интервала логично принять диапазон от нуля до трех минут. При формировании границ по представленному в варианте I табл. 2.4 типу необходимо определиться, к каким группам относятся единицы наблюдения, значения признака у которых совпадают с граничными. Для этого определяют, какая из границ, нижняя или верхняя, будет формироваться по принципу «включительно», а какая – по принципу «исключительно». Выбранный подход должен быть реализован одинаково для всех интервалов. Для определенности могут также использоваться открытые интервалы. В нашем примере нижняя граница формируется по принципу «включительно», а верхняя, соответственно, - «исключительно». По величине интервала различают равноинтервальные (величина интервала одинакова для всех групп) и неравноинтервальные (величина интервала разнится от группы к группе) группировки. Неравноинтервальные группировки, в свою очередь, подразделяют на прогрессивно возрастающие/убывающие, равнонаполненные, специализированные и произвольные. Если изучаемый признак варьирует в сравнительно узких границах и его распределение более или менее равномерно, то целесообразно строить группировку с равными интервалами. Величина интервала при этом определяется по формуле: где R – размах вариации, ; - максимальное значение группировочного признака; - минимальное значение группировочного признака; k – число групп. При определении размаха вариации важно, чтобы максимальное и/или минимальное значения не были в определенном смысле «аномальными», т.е. сильно отличающимися от смежных с ними значений признака. В противном случае следует определять разницу значений, которые несколько больше минимального и меньше максимального. Если полученное значение величины интервала требует округления, то оно должно производиться в большую, а не в меньшую сторону, иначе часть наблюдений может не попасть и итоговую группировку. Далее определяются границы каждого интервала по следующей схеме:
Например, пусть статистическая совокупность состоит из 40 туристических компаний, показатели выручки которых варьируют от 50 млн. долл. до 650 млн. долл., что является, соответственно, минимальным и максимальным значениями признака. Тогда по формуле Стерджесса получаем: . Величина интервала для построения равноинтервальной группировки определяется следующим образом: (млн.долл.). Таким образом, совокупность компаний будет разделена по показателю выручки на шесть равных групп: [50-150], [150-250], [250-350], [350-450], [450-550], [550-650] (млн. долл.). Хотя группировки с равными интервалами предпочтительнее ввиду простоты их последующей обработки, характер изменения большинства социально-экономических явлений не отвечает требованиям, предъявляемым к равноинтервальной группировке. Если исследуемый признак варьирует значительно и неравномерно, возникает необходимость строить неравноинтервальную группировку. Один из возможных подходов к формированию границ групп основан на использовании арифметической или геометрической прогрессии. Данный подход к определению величины интервалов может быть использован, например, при группировке городов по числу жителей. Невозможность построения равноинтервальной группировки в данном случае связана с большим количеством малонаселенных городов и незначительным числом «городов-миллионников». В этом случае величина интервалов определяется формулами: где - величина i+1 – го интервала; – константа арифметической прогрессии, для возрастающих интервалов , для убывающих интервалов ; q – константа геометрической прогрессии, для возрастающих интервалов , для убывающих интервалов Как правило, при исследовании выручки по результатам деятельности компании любой отрасли «прогрессивный» подход оказывается более целесообразным, чем формирование равных интервалов. Это продиктовано тем, что число малых предприятий с небольшой выручкой значительно превышает число крупных предприятий с высокими показателями. Описанные выше технические способы определения величины интервалов не гарантируют, что не появятся группы малочисленные или вообще «пустые», в которые не попало ни одно наблюдение. Если это произошло, необходимо изменить число групп и/или величины интервалов, так как подобная группировка является некорректной. Для обеспечения статистической устойчивости показателей, исчисляемых для отдельных групп, может использоваться равнонаполненная группировка, в которой число наблюдений в каждой группе примерно одинаковое и определяется по формуле: где N – число единиц совокупности; k – число групп. Если полученное n не целое и/или в совокупности есть повторяющиеся значения признака, то число наблюдений в каждой группе может различаться. При этом надо стремиться к тому, чтобы эти различия были незначительны. Если для реализации задач исследования необходимо устанавливать границы групп там, где количество переходит в новое качество, пользуются специализированными интервалами. Так, в группировке населения по возрасту для оценки трудовых ресурсов границы групп возрастов могут устанавливаться согласно категориям: моложе трудоспособного возраста (до 16 лет), трудоспособный возраст (для женщин с 16 до 54 лет, для мужчин с 16 до 59 лет) и старше трудоспособного возраста (для женщин старше 54 лет, для мужчин старше 59 лет). Границы групп могут определяться и произвольно, когда ни один из вышеописанных методов не дал хороших результатов. Заключительным этапом построения группировки является разделение единиц исследуемой статистической совокупности на группы по выбранному (одному или нескольким) группировочному признаку. Задачи группировки. Типологические, структурные, аналитические и комбинационные группировки Метод группировок позволяет решить следующие задачи: 1. выделение социально-экономических типов явлений; 2. изучение структуры явления и структурных сдвигов в нем; 3. выявление связи и зависимости между явлениями. В зависимости от решаемых задач различают следующие виды группировок: типологическая, структурная, аналитическая группировки. Типологическая группировка – это процесс разбиения изучаемой качественно разнородной совокупности на однородные группы, характеризующие социально-экономические типы явления. Являясь, по сути, классификацией, типологические группировки обычно строятся на первом этапе обобщения первичной статистической информации, которая чаще всего неоднородна. При этом важно понимать, что в зависимости от цели исследования одна и та же совокупность может быть качественно однородной и неоднородной. Например, совокупность промышленных предприятий однородна для целей оценки каких-либо производственных характеристик и неоднородна для оценки налогообложения, так как в последнее зависит от формы собственности, от наличия льгот и т.д. Примерами типологических группировок являются группировки населения по общественным группам, предприятий по форме собственности, видам экономической деятельности и др. Изучение существующих типов социально-экономического явления в динамике позволяет выявить изменения в соотношениях между ними, появление новых типов или отмирание старых. При построении типологической группировки идентификация типов исследуемого социально-экономического явления должна основываться на его всестороннем теоретическом анализе, что зачастую представляет большую сложность из-за нечетких различий между типами. Типологическая группировка может иметь в основе как качественный, так и количественный признак. При этом установление границ интервалов не может быть произвольным, а определяется точками перехода от одного типа к другому, т.е. являются специализированными. Типологическая группировка представлена в табл. 2.6. В данном примере в признаке «форма собственности» выделено пять групп (видов). Анализ показателя среднегодовой численности занятых в динамике позволяет проследить зарождение нового вида явления. Видно, что в 1980 году многих форм собственности не существовало, а, начиная с 1990 года, происходит значительное снижение числа занятых в государственных и муниципальных образованиях при одновременном росте занятых в частной сфере и компаниях, находящихся в иностранной и совместной собственности. Так как при этом общее число занятых снизилось не сильно, можно сделать вывод, что такие изменения произошли вследствие «перехода» занятых из одной сферы в другую. Структурная группировка – это процесс разбиения качественно однородной совокупности на группы, характеризующие структуру изучаемого явления по какому-либо варьирующему признаку. Примерами структурных группировок являются группировки населения по возрасту, месту проживания; предприятий по численности занятых, стоимости основных фондов и др. Таблица 2.6 Среднегодовая численность занятых в экономике по формам собственности (тысяч человек) 1
1) по материалам статистического сборника «Российский статистический ежегодник. 2009»
Дата добавления: 2014-11-29; Просмотров: 745; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |