Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Построить эмпирическую линию регрессии




Сделать выводы.

I На основе структурной группировки построить вариационные частотные и кумулятивны ряды распределения, оформить в таблицы, и изобразить графически

Комбинационную группировку по признаку-фактору и признаку-результату. Сделать выводы.

Аналитическую группировку. Для этого определить признак-результат и признак-фактор, обосновав их выбор. Результаты группировки представить в таблице. Сделать выводы о наличии и направлении взаимосвязи между признаками.

Структурную группировку по обоим признакам. если вариация группировичного признака значительна и его значение для отдельных групп необходимо представить в виде интервалов, то при построении группировки по первому признаку принять число групп равным 5, а по второму признаку - 6. Результаты представить в таблице, сделать выводы.

Таблиц 1

Варианты заданий

Номера вариантов заданий Номер признаков из Приложения Номер наблюдений
1:21 11:31 1:2     1 25 (для вариантов 1 10 и 21 30)   26 50 (для вариантов 11 20; 31 40)
2:22 12:32 1:3
3:23 13:33 1:4
4:24 14:34 1:5
5:25 15:35 2:3
6:26 16:36 2:4
7:27 17:37 2:5
8:28 18:38 3:4
9:29 19:39 3:5
10:30 20:40 4:5

 

2. ОБОБЩАЮЩИЕ ХАРАКТЕРИСТИКИ СОВОКУПНОСТЕЙ

Анализ статистических совокупностей включает в себя: построение рядов рас­пределения; графическое представление распре деления; определение характеристик центра распределения, показателей вариации.

Рядами распределения называют числовые ряды, характеризующие структуру совокупности по некоторому признаку. Ряд распределения может быть получен в результате структурной группировки Ряд распределения образованный по количе­ственному признаку (он называется вариационным рядом), может быть дискретным, если значения признака выражены целыми числами и каждая варианта представлена в вариационном ряде отдельной группой, или интервальным (непрерывным), если значения признака выражены вещественными числами или число вариант признака достаточно велико.

Ряд распределения состоит из следующих элементов:

Хi - варианта - отдельное, возможное значение признака 1= 1.2,., n, где n -число значений признака;

Ni, - частоты - численность отдельных групп соответствующих значений признаков;

N – объём совокупности – общее число элементов совокупности.

А – частность – доля отдельных групп во всех совокупностях.

j - величина интервал;

Если вариационный ряд представлен неравными интервалами, то рассчитывается абсолютная и относительная плотности распределения.

Абсолютная плотность h - это отношение частоты к величине интервала, а отно­сительная плотность И - это отношение частости к величине интервала:

Полученный вариационный ряд оформляется в; де таблицы, где в первой графе указываются варианты (интервалы) значений признака, а в следующих графах час­тота, частость, или, если необходимо, абсолютная или относительная плотность распределения.

Ряд распределения по частоте (частости) в целом характеризует структуру сово­купности по данному признаку. Однако для описания распределения совокупности могут использоваться и кумулятивные ряды, т.е. ряды накопленных частот (или часностей), которые иногда имеют даже некоторые преимущества.

Накопленная чистота (частость) данного значения признака - это число (до­ля) элементов совокупности, индивидуальные значения признака которых не пре­вышают данного...

Обозначим: F(x) — накопленная частота для данного значения х;

G(x),— накопленная частость для данного значения х.

Эти характеристики обладают следующими свойствами:

 

;

 

Рассмотрим интервалы ,

Первым этапом изучения вариационного ряда является его графическое изображение. Способы построения графиков для разных видов рядов распределения различны.

Изображением дискретного ряда распределения является полигон. В системе координат, по оси абсцисс откладываются варианты (xj), по оси ординат — частоты (частости), затем отмечают точки с координатами (xi; fj), которые последовательно соединяются отрезками прямой.

Интервальный ряд распределения изображается графически в виде гистограм­мы. При ее построении на оси абсцисс откладывают интервалы ряда. Над осью абс­цисс строятся прямоугольники, основанием которых является интервал, а высота соответствующая этому интервалу плотность распределения (или частота, частность - если ряд равно интервальный).

Изображением ряда накопленных частот служит кумулята. Накопленные частоты наносятся в системе координат в виде ординат для границ интервалов; соединяя нанесенные точки отрезками прямых, получаем кумуляту

Вторым этапом изучения вариационного ряда является определение характери­стик центра распределения. Характеристика центра распределения представляет со­бой такую величину, которая в некотором отношении характерна для данного рас­пределения и является его центральной величиной

К характеристикам центру распределения относятся: средняя арифметическая, медиана, мода.

Для сгруппированных данных, представленных в вариационном ряду, средняя арифметическая (х) определяется как:

 

 

т.е. в качестве веса при усреднении берется частота Ni соответствующая групповым значениям Xi. Если ряд дискретный, то каждое значение признака представлено. Ес­ли же ряд интервальный, то его нужно превратить в условно дискретный: в качестве группового значения х, для каждого интервала вычисляется его середина.

Медиана (Ме[х]) - что такое значение признака, которое делит объем совокуп­ности пополам в том смысле, что число элементов совокупности с индивидуальны­ми значениями признака, меньшими медианы, равно числу элементов совокупности с индивидуальными значениями больше медианы.

Численное значение медианы можно определить по ряду накопленных частот. Накопленная частота для Ме[х] равна половине объема совокупности (F(Me[x])=N/2); имея ряд накопленных частот, можно вычислить, при каком значе­нии признака накопленная частота равна половине объема совокупности. Для ин­тервального ряда в этом случае определяется только интервал, в котором будет на­ходиться Ме[х], само значение приближенно можно определить как:

где х0- начало интервала, содержащего медиану;

- величина интервала, содержащего медиану;

F(x0) – накопленная частота на начало интервала, содержащего медиану;

N – объём совокупности;

NMe – частота того интервала, в котором расположена медиана.

Мода (Мо[х]) - наиболее часто встречающееся значение признака в совокупно­сти

Для дискретного ряда - это то значение, которому соответствует наибольшая частота распределения. Для интервального ряда в начале определяется интервал, держащий моду – тот, которому соответствует наибольшая плотность распределения. Затем приближенно определяется численное значение моды.

Если ряд равно интервальный, то используется формула.

где х0 - начало интервала, содержащего моду;

- величин, интервала, содержащего моду;

- частота того интервала, и котором расположена мода.

- частота интерната, предшествующего модальному;

-частота интервала, следующего за модальным.

Средняя величина характеризует только уровень, закономерный для данной со­вокупности. В ряде случаев одно и то же численное значение средней может харак­теризовать совершенно различные совокупности. Поэтому для того чтобы судить о типичности средней величины для данной совокупности, ее следует дополнить по­казателями, характеризующими вариацию (колеблемость) признака. Наиболее рас­пространенными из них являются дисперсия, среднее квадратичное отклонение, ко­эффициент вариации

Дисперсия () - это среднее из квадратов отклонений от средней величины, для вариационного ряда она определяется по формуле:

 

Если ряд интервальный, то в качестве варианты (хi), также как при расчете сред­ней, берется середина интервала.

При использовании калькулятора, а также для дискретных рядов распределения более удобной может быть другая формула вычисления дисперсии:

 

Наиболее широко в статистике применяется такой показатель вариации, как среднее квадратичное отклонение (), который представляет собой квадратный корень из дисперсии.

Относительным показателем колеблемости признака в данной совокупности, является коэффициент вариации (V):

Коэффициент вариации позволяет сравнивать вариации различных признаков, а также одноименных признаков в разных совокупностях.


Задание №2

2 Проанализировать вариационные ряды распределения, вычислить для каждого из них:

- среднее арифметическое значение признака;

- медиану и моду:

- среднее квадратичное отклонение:

- коэффициент вариации.

 

3. СТАТИСТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА ВЗАИМОСВЯЗИ

Различают два типа связей между различными явлениями и их признаками, функциональную, т.е. жестко детерминированную, с одной стороны, и корреляци­онную, статистическую - с другой.

При функциональной связи изменение признака-результата полностью обуслов­лено изменением признака-фактора.

При корреляционной связи изменение признака-результата обусловлено влияни­ем признака-фактора не полностью, а лишь в некоторой мере, так как существует еще влияние других причин, многие из которых неизвестны. Особенно это относит­ся к взаимосвязям между социально-экономическими явлениями. Характерной осо­бенностью корреляционной взаимосвязи является то, что она проявляется лишь на совокупности в целом и может не выполняться для отдельных ее элементов. Поэто­му корреляционные зависимости изучаются по эмпирическим данным, полученным при статистическом наблюдении, так как в них отражается совокупное действие всех причин и условий на изучаемый признак.

Если исследуется зависимость признака-результата от одного фактора, то такая корреляционная связь называется парной, если факторов много, то такая корреляци­онная связь называется множественной. В данной контрольной работе рассматрива­ется пример только парной корреляции. При этом признак-результат обозначим у, а признак-фактор - х.

Порядок изучения корреляционной зависимости может быть следующим:

- во-первых, на основе анализа имеющихся данных устанавливается, существу­ет ли какая-либо зависимость между рассматриваемыми признаками;

- во-вторых, устанавливается форма, характер зависимости и мера тесноты свя­зи;

- в-третьих, выявленная взаимосвязь описывается аналитической зависимо­стью.

На первом этапе анализ зависимости осуществляется на основе аналитическом группировки. Так как при выполнении задания по данной теме используются те жеисходные данные, то выводы, полученные в результате аналитической группировки, произведенной при выполнении задания № 1 данной контрольной работы, являются исходными для более глубокого изучения зависимости между признаками.

Так как ряд значений признака-фактора х и относящихся к ним групповых сред­них признаков-результатов у показывает характер зависимости, то таким образом выражает в табличной форме эмпирическую функцию регрессии. Если в системе координат, где по оси (v) указываются значения признака-результата, а по оси (х) -значения признака-фактора, отметить, групповые средние и соединить их прямолинейными отрезками, то полученная ломаная будет графически представлять ту же функцию Эта линия называется эмпирической линией регрессии, которая отражает главную тенденцию рассматриваемой зависимости.

Для измерения тесноты связи применяется несколько показателей. При парной корреляции теснота связи измеряется прежде всего коэффициентом детерминации и корреляционным отношением, основанными на измерении вариации результирую­щего признака и ее составляющих. По теореме о разложении дисперсии:

где - полная дисперсия (вариация) признака-результата;

- внутригрупповая дисперсия;

- межгрупповая дисперсия.

Внутригрупповая дисперсия характеризует ту часть общей дисперсии признака-результата, которая не зависит от изменения величины признака-фактора. Тем са­мым она отражает влияние неучтенных причин вариации признака-результата, то есть показывает степень неопределенности. В корреляционном анализе она называ­ется остаточной дисперсией и определяется по формуле:

,

где - дисперсия признака-результата в пределах отдельной группы по при­знаку-фактору;

Nk - численность отдельной группы.

Межгрупповая дисперсия в корреляционном анализе называется объясненной дисперсией.

Межгрупповая дисперсия отражает ту часть общей дисперсии признака-результата, которая объясняется влиянием рассматриваемого признака-фактора. Она определяется по формуле:

 

где ук – групповое среднее к-й группы.

Коэффициент детерминации определяется как доля объясненной дисперсии в общей дисперсии признака-результата. Он показывает, какая часть обшей вариации признака-результата у объясняется влиянием изучаемого фактора х:

 

Корреляционное отношение определяется как отношение средних квадратич­ных отклонений:

Максимально тесная связь - это связь функциональная, когда каждое значение признака-результата у может быть однозначно определено значением х, при этом остаточная дисперсия равна нулю, а коэффициент детерминации равен 1. Если связь между признаками отсутствует, то объясненная дисперсия равна 0, а следовательно, и коэффициент детерминации ранен 0. Таким образом, чем ближе значение показа­теля к единице, тем сильнее связь между признаками.

При линейной форме зависимости (а именно линейная зависимость между при­знаками предполагается при выполнении задания по этой теме для упрощения рас­четов) для измерения тесноты связи кроме корреляционного отношения использует­ся также другой показатель, который называется коэффициентом корреляции. Он может быть вычислен по следующей формуле:

 

Коэффициент корреляции может быть рассчитан на основе корреляционной таб­лицы по формуле:

 

Коэффициент корреляции может принимать значения от -1 до +1.

Отрицательные значения указывают на наличие обратной (убывающей) линей­ной зависимости, положительные - прямой (возрастающей) линейной зависимости. Если коэффициент корреляции равен нулю, то можно сделать вывод, что линейная связь отсутствует.

Наиболее точный результат при расчете статистических показателей может быть получен на основе обработки исходных данных, однако это значительно увеличива­ет объем вычислений, если объем совокупности значительный. При выполнении контрольной работы точностью расчете можно пожертвовать ради упрощения вы­числений на основе сгруппированных данных, так как целью работы является выра­ботка навыков использования статистических методов. Однако право выбора метода расчета остается за студентом. Так, при расчете коэффициента корреляции расчеты значительно упрощаются, если осуществлять их, используя корреляционную табли­цу. Она строится на основе комбинационной таблицы, полученной при выполнении задания № I.

Следующий этап исследования корреляционной связи заключается в том, чтобы описать зависимость признака-результата от признака - фактора некоторым анали­тическим выражением. Так как исследуемая зависимость является корреляционной, то функция, описывающая зависимость (аналитическое уравнение регрессии) должна быть "ближайшей" к рассматриваемой корреляционной связи. Эта задача решается мм основе метода наименьше квадратов, который позволяет по исходным данным оценить параметры функции, относящейся к заданном) классу. Так, если считать, что связь между исследуемыми признаками - линейная, то нужно опреде­лить параметры линейного уравнения регрессии

на основе системы нормальных уравнений:

Решение системы дает следующие значения параметров:

 

 

Однако определить параметры линейного уравнения регрессии можно по-другому. Существует взаимосвязь между коэффициентом (b) линейного уравнения регрессии и коэффициентом корреляции:

Помня, что средние значения признаков и их средние квадратичные отклонения были определены в предыдущем задании, коэффициент корреляции уже вычислен, можно довольно просто определить значения параметров а и b.

 

Задание №3

С помощью корреляционного анализа изучить связь между признаками, указанными и Вашем варианте. Для этого:




Поделиться с друзьями:


Дата добавления: 2015-08-31; Просмотров: 1534; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.067 сек.