КАТЕГОРИИ:

Главная
Случайная страница
Познавательное
Новые статьи
Контакты
Заказать работу

Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Построить эмпирическую линию регрессии

12 3 Следующая ⇒

Сделать выводы.

I На основе структурной группировки построить вариационные частотные и кумулятивны ряды распределения, оформить в таблицы, и изобразить графически

Комбинационную группировку по признаку-фактору и признаку-результату. Сделать выводы.

Аналитическую группировку. Для этого определить признак-результат и признак-фактор, обосновав их выбор. Результаты группировки представить в таблице. Сделать выводы о наличии и направлении взаимосвязи между признаками.

Структурную группировку по обоим признакам. если вариация группировичного признака значительна и его значение для отдельных групп необходимо представить в виде интервалов, то при построении группировки по первому признаку принять число групп равным 5, а по второму признаку - 6. Результаты представить в таблице, сделать выводы.

Таблиц 1

Варианты заданий

Номера вариантов заданий	Номер признаков из Приложения	Номер наблюдений
1:21	11:31	1:2	1 25 (для вариантов 1 10 и 21 30) 26 50 (для вариантов 11 20; 31 40)
2:22	12:32	1:3
3:23	13:33	1:4
4:24	14:34	1:5
5:25	15:35	2:3
6:26	16:36	2:4
7:27	17:37	2:5
8:28	18:38	3:4
9:29	19:39	3:5
10:30	20:40	4:5

2. ОБОБЩАЮЩИЕ ХАРАКТЕРИСТИКИ СОВОКУПНОСТЕЙ

Анализ статистических совокупностей включает в себя: построение рядов распределения; графическое представление распре деления; определение характеристик центра распределения, показателей вариации.

Рядами распределения называют числовые ряды, характеризующие структуру совокупности по некоторому признаку. Ряд распределения может быть получен в результате структурной группировки Ряд распределения образованный по количественному признаку (он называется вариационным рядом), может быть дискретным, если значения признака выражены целыми числами и каждая варианта представлена в вариационном ряде отдельной группой, или интервальным (непрерывным), если значения признака выражены вещественными числами или число вариант признака достаточно велико.

Ряд распределения состоит из следующих элементов:

Х_i - варианта - отдельное, возможное значение признака 1= 1.2,., n, где n -число значений признака;

N_i, - частоты - численность отдельных групп соответствующих значений признаков;

N – объём совокупности – общее число элементов совокупности.

А – частность – доля отдельных групп во всех совокупностях.

j - величина интервал;

Если вариационный ряд представлен неравными интервалами, то рассчитывается абсолютная и относительная плотности распределения.

Абсолютная плотность h - это отношение частоты к величине интервала, а относительная плотность И - это отношение частости к величине интервала:

Полученный вариационный ряд оформляется в; де таблицы, где в первой графе указываются варианты (интервалы) значений признака, а в следующих графах частота, частость, или, если необходимо, абсолютная или относительная плотность распределения.

Ряд распределения по частоте (частости) в целом характеризует структуру совокупности по данному признаку. Однако для описания распределения совокупности могут использоваться и кумулятивные ряды, т.е. ряды накопленных частот (или часностей), которые иногда имеют даже некоторые преимущества.

Накопленная чистота (частость) данного значения признака - это число (доля) элементов совокупности, индивидуальные значения признака которых не превышают данного...

Обозначим: F(x) — накопленная частота для данного значения х;

G(x),— накопленная частость для данного значения х.

Эти характеристики обладают следующими свойствами:

;

Рассмотрим интервалы ,

Первым этапом изучения вариационного ряда является его графическое изображение. Способы построения графиков для разных видов рядов распределения различны.

Изображением дискретного ряда распределения является полигон. В системе координат, по оси абсцисс откладываются варианты (xj), по оси ординат — частоты (частости), затем отмечают точки с координатами (xi; fj), которые последовательно соединяются отрезками прямой.

Интервальный ряд распределения изображается графически в виде гистограммы. При ее построении на оси абсцисс откладывают интервалы ряда. Над осью абсцисс строятся прямоугольники, основанием которых является интервал, а высота соответствующая этому интервалу плотность распределения (или частота, частность - если ряд равно интервальный).

Изображением ряда накопленных частот служит кумулята. Накопленные частоты наносятся в системе координат в виде ординат для границ интервалов; соединяя нанесенные точки отрезками прямых, получаем кумуляту

Вторым этапом изучения вариационного ряда является определение характеристик центра распределения. Характеристика центра распределения представляет собой такую величину, которая в некотором отношении характерна для данного распределения и является его центральной величиной

К характеристикам центру распределения относятся: средняя арифметическая, медиана, мода.

Для сгруппированных данных, представленных в вариационном ряду, средняя арифметическая (х) определяется как:

т.е. в качестве веса при усреднении берется частота N_i соответствующая групповым значениям Xi. Если ряд дискретный, то каждое значение признака представлено. Если же ряд интервальный, то его нужно превратить в условно дискретный: в качестве группового значения х, для каждого интервала вычисляется его середина.

Медиана (Ме[х]) - что такое значение признака, которое делит объем совокупности пополам в том смысле, что число элементов совокупности с индивидуальными значениями признака, меньшими медианы, равно числу элементов совокупности с индивидуальными значениями больше медианы.

Численное значение медианы можно определить по ряду накопленных частот. Накопленная частота для Ме[х] равна половине объема совокупности (F(Me[x])=N/2); имея ряд накопленных частот, можно вычислить, при каком значении признака накопленная частота равна половине объема совокупности. Для интервального ряда в этом случае определяется только интервал, в котором будет находиться Ме[х], само значение приближенно можно определить как:

где х₀- начало интервала, содержащего медиану;

- величина интервала, содержащего медиану;

F(x₀) – накопленная частота на начало интервала, содержащего медиану;

N – объём совокупности;

N_Me – частота того интервала, в котором расположена медиана.

Мода (Мо[х]) - наиболее часто встречающееся значение признака в совокупности

Для дискретного ряда - это то значение, которому соответствует наибольшая частота распределения. Для интервального ряда в начале определяется интервал, держащий моду – тот, которому соответствует наибольшая плотность распределения. Затем приближенно определяется численное значение моды.

Если ряд равно интервальный, то используется формула.

где х₀ - начало интервала, содержащего моду;

- величин, интервала, содержащего моду;

- частота того интервала, и котором расположена мода.

- частота интерната, предшествующего модальному;

-частота интервала, следующего за модальным.

Средняя величина характеризует только уровень, закономерный для данной совокупности. В ряде случаев одно и то же численное значение средней может характеризовать совершенно различные совокупности. Поэтому для того чтобы судить о типичности средней величины для данной совокупности, ее следует дополнить показателями, характеризующими вариацию (колеблемость) признака. Наиболее распространенными из них являются дисперсия, среднее квадратичное отклонение, коэффициент вариации

Дисперсия () - это среднее из квадратов отклонений от средней величины, для вариационного ряда она определяется по формуле:

Если ряд интервальный, то в качестве варианты (х_i), также как при расчете средней, берется середина интервала.

При использовании калькулятора, а также для дискретных рядов распределения более удобной может быть другая формула вычисления дисперсии:

Наиболее широко в статистике применяется такой показатель вариации, как среднее квадратичное отклонение (), который представляет собой квадратный корень из дисперсии.

Относительным показателем колеблемости признака в данной совокупности, является коэффициент вариации (V):

Коэффициент вариации позволяет сравнивать вариации различных признаков, а также одноименных признаков в разных совокупностях.

Задание №2

2 Проанализировать вариационные ряды распределения, вычислить для каждого из них:

- среднее арифметическое значение признака;

- медиану и моду:

- среднее квадратичное отклонение:

- коэффициент вариации.

3. СТАТИСТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА ВЗАИМОСВЯЗИ

Различают два типа связей между различными явлениями и их признаками, функциональную, т.е. жестко детерминированную, с одной стороны, и корреляционную, статистическую - с другой.

При функциональной связи изменение признака-результата полностью обусловлено изменением признака-фактора.

При корреляционной связи изменение признака-результата обусловлено влиянием признака-фактора не полностью, а лишь в некоторой мере, так как существует еще влияние других причин, многие из которых неизвестны. Особенно это относится к взаимосвязям между социально-экономическими явлениями. Характерной особенностью корреляционной взаимосвязи является то, что она проявляется лишь на совокупности в целом и может не выполняться для отдельных ее элементов. Поэтому корреляционные зависимости изучаются по эмпирическим данным, полученным при статистическом наблюдении, так как в них отражается совокупное действие всех причин и условий на изучаемый признак.

Если исследуется зависимость признака-результата от одного фактора, то такая корреляционная связь называется парной, если факторов много, то такая корреляционная связь называется множественной. В данной контрольной работе рассматривается пример только парной корреляции. При этом признак-результат обозначим у, а признак-фактор - х.

Порядок изучения корреляционной зависимости может быть следующим:

- во-первых, на основе анализа имеющихся данных устанавливается, существует ли какая-либо зависимость между рассматриваемыми признаками;

- во-вторых, устанавливается форма, характер зависимости и мера тесноты связи;

- в-третьих, выявленная взаимосвязь описывается аналитической зависимостью.

На первом этапе анализ зависимости осуществляется на основе аналитическом группировки. Так как при выполнении задания по данной теме используются те жеисходные данные, то выводы, полученные в результате аналитической группировки, произведенной при выполнении задания № 1 данной контрольной работы, являются исходными для более глубокого изучения зависимости между признаками.

Так как ряд значений признака-фактора х и относящихся к ним групповых средних признаков-результатов у показывает характер зависимости, то таким образом выражает в табличной форме эмпирическую функцию регрессии. Если в системе координат, где по оси (v) указываются значения признака-результата, а по оси (х) -значения признака-фактора, отметить, групповые средние и соединить их прямолинейными отрезками, то полученная ломаная будет графически представлять ту же функцию Эта линия называется эмпирической линией регрессии, которая отражает главную тенденцию рассматриваемой зависимости.

Для измерения тесноты связи применяется несколько показателей. При парной корреляции теснота связи измеряется прежде всего коэффициентом детерминации и корреляционным отношением, основанными на измерении вариации результирующего признака и ее составляющих. По теореме о разложении дисперсии:

где - полная дисперсия (вариация) признака-результата;

- внутригрупповая дисперсия;

- межгрупповая дисперсия.

Внутригрупповая дисперсия характеризует ту часть общей дисперсии признака-результата, которая не зависит от изменения величины признака-фактора. Тем самым она отражает влияние неучтенных причин вариации признака-результата, то есть показывает степень неопределенности. В корреляционном анализе она называется остаточной дисперсией и определяется по формуле:

где - дисперсия признака-результата в пределах отдельной группы по признаку-фактору;

N_k - численность отдельной группы.

Межгрупповая дисперсия в корреляционном анализе называется объясненной дисперсией.

Межгрупповая дисперсия отражает ту часть общей дисперсии признака-результата, которая объясняется влиянием рассматриваемого признака-фактора. Она определяется по формуле:

где у_к – групповое среднее к-й группы.

Коэффициент детерминации определяется как доля объясненной дисперсии в общей дисперсии признака-результата. Он показывает, какая часть обшей вариации признака-результата у объясняется влиянием изучаемого фактора х:

Корреляционное отношение определяется как отношение средних квадратичных отклонений:

Максимально тесная связь - это связь функциональная, когда каждое значение признака-результата у может быть однозначно определено значением х, при этом остаточная дисперсия равна нулю, а коэффициент детерминации равен 1. Если связь между признаками отсутствует, то объясненная дисперсия равна 0, а следовательно, и коэффициент детерминации ранен 0. Таким образом, чем ближе значение показателя к единице, тем сильнее связь между признаками.

При линейной форме зависимости (а именно линейная зависимость между признаками предполагается при выполнении задания по этой теме для упрощения расчетов) для измерения тесноты связи кроме корреляционного отношения используется также другой показатель, который называется коэффициентом корреляции. Он может быть вычислен по следующей формуле:

Коэффициент корреляции может быть рассчитан на основе корреляционной таблицы по формуле:

Коэффициент корреляции может принимать значения от -1 до +1.

Отрицательные значения указывают на наличие обратной (убывающей) линейной зависимости, положительные - прямой (возрастающей) линейной зависимости. Если коэффициент корреляции равен нулю, то можно сделать вывод, что линейная связь отсутствует.

Наиболее точный результат при расчете статистических показателей может быть получен на основе обработки исходных данных, однако это значительно увеличивает объем вычислений, если объем совокупности значительный. При выполнении контрольной работы точностью расчете можно пожертвовать ради упрощения вычислений на основе сгруппированных данных, так как целью работы является выработка навыков использования статистических методов. Однако право выбора метода расчета остается за студентом. Так, при расчете коэффициента корреляции расчеты значительно упрощаются, если осуществлять их, используя корреляционную таблицу. Она строится на основе комбинационной таблицы, полученной при выполнении задания № I.

Следующий этап исследования корреляционной связи заключается в том, чтобы описать зависимость признака-результата от признака - фактора некоторым аналитическим выражением. Так как исследуемая зависимость является корреляционной, то функция, описывающая зависимость (аналитическое уравнение регрессии) должна быть "ближайшей" к рассматриваемой корреляционной связи. Эта задача решается мм основе метода наименьше квадратов, который позволяет по исходным данным оценить параметры функции, относящейся к заданном) классу. Так, если считать, что связь между исследуемыми признаками - линейная, то нужно определить параметры линейного уравнения регрессии

на основе системы нормальных уравнений:

Решение системы дает следующие значения параметров:

Однако определить параметры линейного уравнения регрессии можно по-другому. Существует взаимосвязь между коэффициентом (b) линейного уравнения регрессии и коэффициентом корреляции:

Помня, что средние значения признаков и их средние квадратичные отклонения были определены в предыдущем задании, коэффициент корреляции уже вычислен, можно довольно просто определить значения параметров а и b.

Задание №3

С помощью корреляционного анализа изучить связь между признаками, указанными и Вашем варианте. Для этого:

12 3 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2015-08-31; Просмотров: 1546; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.011 сек.