Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Краткие теоретические сведения

Часть 1. Фреймы

Краткие теоретические сведения

 

 




 


 


 


 

 


 

 

3. В отчет включите распечатку web-страницы и текст на языке HTML.

 

 

Контрольные вопросы

 


Часть 2. Таблицы

 

 

 

Корреляционная связь - связь, проявляющаяся не в каждом отдельном случае, а в массе случаев в средних величинах в форме тенденции.

Статистическое исследование корреляционной связи ставит своей конечной целью получение модели зависимости для ее практического использования. Решение этой задачи осуществляется в следующей последовательности.

1. Логический анализ сущности изучаемого явления и причинно-следственных связей. В результате устанавливаются результативный показатель (у) и факторы его изменения, характеризуемые показателями (х1, х2, х3,..., хn). Связь двух признаков (у и х) называется парной корреляцией. Влияние нескольких факторов на результативный признак называется множественной корреляцией.

По общему направлению связи могут быть прямые и обратные. При прямых связях с увеличением признака х увеличивается и признак у, при обратных - с увеличением признака х признак у уменьшается.

2. Сбор первичной информации и проверка ее на однородность и нормальность распределения. Важнейшими условиями правильного применения методов корреляционного анализа являются: достаточное число наблюдений, однородность тех единиц, которые подвергаются изучению, распределение исследуемых признаков-факторов в соответствии с законом нормального распределения.

Для оценки однородности совокупности используется коэффициент вариации по факторным признакам:

Совокупность считается однородной, если коэффициент вариации не превышает 33%.

Проверка нормальности распределения исследуемых факторных признаков может выполняться двумя способами:

1) построить теоретическую кривую нормального распределения и проверить близость теоретического и эмпирического распределений с помощью критерия согласия (см. гл. 3);

2) использовать правило «трех сигм».

Наиболее удобно применение правила «трех сигм»; в этом случае результаты проверки на нормальность распределения следует представлять в табличной форме (табл. 5.1).

Сопоставление данных граф 2 и 3 позволяет судить о наличии или об отсутствии нормальности распределения.

На практике часто встречаются случаи отклонения от этих двух предпосылок (однородности совокупности и нормальности распределения). Однако это не означает, что следует отказаться от применения корреляционного анализа.

3. Исключение из массива первичной информации всех резко выделяющихся (аномальных) единиц по уровню признаков-факторов.

 
 

Исключаются все единицы, у которых уровень признака-фактора не попадает в интервал:

 

 

затем формируется новый массив для последующего анализа.

4. Установление факта наличия и направления корреляционной зависимости между результативным (у) и факторным (х) признаками. Для установления наличия корреляционной связи используется ряд специфических методов: параллельное сопоставление рядов результативного и факторного признака, графическое изображение фактических данных с помощью поля корреляции, построение корреляционной таблицы, построение групповой таблицы.

Сопоставление двух параллельных рядов — простейший метод обнаружения связи. Значения факторного признака располагают в возрастающем порядке в первом ряду; во втором ряду записывают соответствующие значения результативного признака (т.е. значения, относящиеся к той же единице); затем прослеживается направление изменения результативного признака.

Корреляционное поле - точечный график, для построения которого по масштабной оси абсцисс откладываются значения факторного признака х, а по масштабной оси ординат — значения результативного признака у. Каждой единице изучаемой совокупности на графике соответствует одна точка, положение которой определяется величиной двух признаков, характеризующих эту единицу. По расположению точек судят о наличии связи или ее отсутствии. Если точки разбросаны по всему полю -связи нет.

В тех случаях, когда количество единиц, входящих в изучаемую совокупность, относительно велико, возникает необходимость сведения данных в особую таблицу, которая называется корреляционной таблицей. Для построения корреляционной таблицы проводится группировка значений факторного и результативного признака при одинаковом числе групп. В таблице факторный признак х располагают в строках, а результативный признаку — в столбцах (графах) таблицы. В клетки, образованные пересечением строк и столбцов таблицы, записываются частоты повторения данного сочетания значений х и у. Если частоты рас положены в клетках по диагонали из левого верхнего угла в правый нижний угол, то можно предполагать о наличии прямой корреляционной зависимости между признаками. Если частоты расположены в клетках по диагонали справа налево (из правого верхнего угла в левый нижний угол), то предполагают наличие обратной связи.

Основным методом выявления наличия корреляционной связи является метод аналитической группировки и определения групповых средних. Он заключается в том, что все единицы совокупности разбиваются на группы по величине признака-фактора и для каждой группы определяется средняя величина результативного признака. На основе данных аналитической группировки строится график эмпирической линии связи (линии регрессии), вид которой не только позволяет судить о возможном наличии связи, но и дает некоторое представление о форме корреляционной связи. Если эмпирическая линия связи по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи; если эмпирическая линия приближается к какой-либо кривой, то это связано с наличием криволинейной связи.

5. После установления факта наличия связи и ее формы измеряется степень тесноты связи и проводится оценка ее существенности. Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции (r); при любой форме зависимости (линейной и криволинейной) — эмпирическое корреляционное отношение (η).

Для расчета линейного коэффициента корреляции по несгруппированным данным могут быть использованы следующие формулы:

 

 

Линейный коэффициент корреляции может принимать значения в пределах от —1 до +1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак при нем указывает направление связи: знак «+» соответствует прямой зависимости, знак «—» —

обратной.

Если коэффициент корреляции равен нулю, то связи между признаками нет; если он равен единице (с любым знаком), то между признаками существует функциональная связь.

Оценка существенности линейного коэффициента корреляции при большом объеме выборки (свыше 500) проводится с использованием отношения коэффициента корреляции (r) к его средней квадратической ошибке (σr):

 

Если это отношение окажется больше значения t-критерия Стьюдента, определяемого по приложению 6 при числе степеней свободы k = п — 2 и с вероятностью (1 — α), то следует говорить о существенности коэффициента корреляции (α — уровень значимости 0,01 или 0,05).

При недостаточно большом объеме выборки величину средней квадратической ошибки коэффициента корреляции определяют по формуле

 
 

 

 

Полученная величина tрасч сравнивается с табличным значением t-критерия Стьюдента.

В тех случаях, когда r получен по данным малой выборки и близок к единице (r ≥ 0,8), для проверки его существенности целесообразно использовать метод преобразованной корреляции, предложенный Р. Фишером.

Средняя квадратическая ошибка Z'-распределения зависит только от объема выборки и определяется по формуле

По таблице соотношений между r и Z' (приложение 9) находят значение Z', соответствующее рассчитанному коэффициенту корреляции.

Если соотношение Z ' к средней квадратической ошибке ( Z ': σz) окажется больше табличного значения критерия Стьюдента при определенном уровне значимости, то можно говорить о наличии связи между признаками в генеральной совокупности.

Корреляционное отношение определяется по формулам:

 


Вычисление корреляционного отношения требует достаточно большого объема информации, которая должна быть представлена в форме групповой таблицы или в форме корреляционной таблицы, т. е. обязательным условием является группировка данных по признаку-фактору. Изменяется корреляционное отношение от 0 до 1.

При недостаточном количестве данных в выделенных группах к рассчитанной величине корреляционного отношения вносится поправка:

Корреляционное отношение в квадрате (η2) называют коэффициентом детерминации (причинности), он отражает долю факторной дисперсии в общей дисперсии.

В практике могут быть использованы и другие показатели для определения степени тесноты связи.

Элементарной характеристикой степени тесноты связи является коэффициент Фехнера:

 

Коэффициент Фехнера целесообразно использовать для установления факта наличия связи при небольшом объеме исходной информации. Он изменяется в пределах — 1,0 < Кф < + 1,0.

Для определения тесноты связи как между количественными, так и между качественными признаками, при условии, что значения этих признаков могут быть проранжированы по степени убывания или возрастания, используется коэффициент корреляции рангов Спирмена или коэффициент корреляции рангов Кендэла.

Коэффициент корреляции рангов Спирмена определяется по формуле:


Он варьирует в пределах от —1,0 до +1,0.

Ранговый коэффициент обычно исчисляется на основе небольшого объема исходной информации, поэтому необходимо выполнить проверку его существенности. В приложении 7 приводится таблица предельных значений коэффициента корреляции рангов Спирмена при условии верности нулевой гипотезы об отсутствии корреляционной связи при заданном уровне значимости и определенном объеме выборочных данных.

Если полученное значение ρ превышает критическую величину при данном уровне значимости, то нулевая гипотеза может быть отвергнута, т. е. величина ρ не является результатом случайных совпадений рангов.

Коэффициент корреляции рангов Кендэла определяется по формуле

Этот коэффициент изменяется в интервале от —1,0 до +1,0.

Для вычисления т сначала ранжируют ряд значений признака х, располагая их в порядке возрастания, приведя его к ряду натуральных чисел. Затем рассматривают последовательность рангов переменной у; против ранга х записывают соответствующий ему ранг у. Результаты оформляют в табличной форме. Ниже приведен ее пример.

 

На основе приведенных данных рассчитывают коэффициент корреляции рангов.

P = 0 + 0+1+0 + 0 + 0+1 (число рангов, превышающих ранг 7, равно 0, ранг 6 — равно 0, ранг 4 — 1 и т.д.).

Полученный коэффициент означает высокую степень обратной связи.

Для исследования степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативных признаков, может быть использован коэффициент ассоциации Д. Юла или коэффициент контингенции К. Пирсона.

Расчетная таблица в этом случае состоит из четырех ячеек (таблица «четырех полей»), статистическое сказуемое которой схематически может быть представлено в следующем виде (табл. 5.2):

 
 

 

Коэффициент ассоциации исчисляется по формуле


Коэффициент контингенции:

 

Коэффициент контингенции также изменяется от -1 до +1, но всегда его величина для тех же данных меньше коэффициента ассоциации.

Для оценки тесноты связи между альтернативными признаками, принимающими любое число вариантов значений, применяется коэффициент взаимной сопряженности К. Пирсона и коэффициент взаимной сопряженности А. А. Чупрова.

Первичная статистическая информация для исследования этой связи располагается в форме таблицы (табл. 5.3).

 

Коэффициент взаимной сопряженности К. Пирсона определяется по формуле

Показатель ф2 определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки, уменьшенная на единицу:

Коэффициент взаимной сопряженности А. А. Чупрова исчисляется по формуле

Коэффициент взаимной сопряженности Чупрова (К) является более гибким, поскольку он учитывает число образуемых по каждому признаку групп (k1 и k2), поэтому результат является более точным по сравнению с коэффициентом взаимной сопряженности по формуле Пирсона.

Коэффициент взаимной сопряженности изменяется от 0 до 1.

6. После установления достаточной степени тесноты связи выполняется построение модели связи (уравнения регрессии).

Тип модели выбирается на основе сочетания теоретического анализа и исследования эмпирических данных посредством построения эмпирической линии регрессии. Чаще всего используются следующие типы функций:

Для определения численных значений параметров уравнения связи (линии регрессии) используется метод наименьших квадратов и решается система нормальных уравнений.

Для определения параметров а и b уравнения прямолинейной корреляционной связи система нормальных уравнений (для несгруппированных данных) следующая:

Параметры а и b можно определить по следующим формулам:

Для проверки возможности использования линейной функции определяется разность (η2 r2); если она менее 0,1, то считается возможным применение линейной функции. Для решения этой же задачи можно использовать величину ω2, определяемую по формуле

 

Если ω2 окажется меньше табличного значения F-критерия, то нулевая гипотеза о возможности использования в качестве уравнения регрессии линейной функции не опровергается. Значение F-критерия определяется по таблице в зависимости от уровня значимости а = 0,05 (вероятность Р = 0,95) и числа степеней свободы числителя ( k1 = m - 2) и знаменателя ( k2 = n - m) (см. приложение 5).

Для определения параметров гиперболической функции система нормальных уравнений следующая:

Для определения параметров параболы второго порядка система нормальных уравнений такова:

 

 
 

Если это отношение не превышает 10 — 15%, то следует считать, что уравнение регрессии достаточно хорошо отображает изучаемую взаимосвязь.

 

Полученное уравнение регрессии используется для экстраполяции. Однако ее можно применять лишь тогда, когда существенно не изменились условия формирования уровней признаков.

Для результативного признака определяются доверительные границы, в пределах которых с заданной доверительной вероятностью будет находиться теоретическое значение у. Доверительные границы результативного признака у при значении факторного признака х0 определяются следующим образом:

 

7. Изучение множественной корреляционной зависимости начинается с анализа матрицы парных коэффициентов корреляции. Это позволяет произвести отбор факторов, включаемых в модель множественной зависимости.

Матрица имеет следующий вид (табл. 5.4):

Анализ первой строки матрицы позволяет выявить факторы, у которых степень тесноты связи с результативным показателем значительна, а поэтому они могут быть включены в модель. Однако при построении многофакторных моделей должно соблюдаться требование возможно меньшей коррелированности включенных в модель признаков-факторов (отсутствие мультиколлинеарности).

В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:

 

 
 

Если приведенные неравенства (или хотя бы одно из них) не выполняются, то исключается тот фактор xj или хk связь которого с результативным признаком у будет менее тесной.

8. Отобранные факторы включаются в модель множественно зависимости. При этом следует учитывать, что число факторов включаемых в модель, должно быть в 5 — 6 раз меньше, чем число единиц, входящих в совокупность.

Линейное уравнение множественной зависимости имеет еле дующий вид:

Параметры уравнения определяются из системы нормальных уравнений, отвечающей требованиям способа наименьших квадратов.


то система нормальных уравнений следующая:


Если зависимость выражена уравнением

Мерой достоверности уравнения является процентное отношение средней квадратической ошибки уравнения к среднему уровню результативного показателя, так же как в случае парной корреляции.

9. Для измерения степени тесноты связи между изменениями величины результативного признака (у) и изменениями значений факторных признаков определяется коэффициент множественной (совокупной) корреляции (R). Для случая зависимости результативного признака от двух факторных признаков формула совокупного коэффициента корреляции имеет вид:


 



 

При написании определителей использована табл. 5.4.

Величина R2 называется коэффициентом детерминации; она показывает, в какой мере вариация результативного признака обусловлена влиянием признаков-факторов, включенных в уравнение множественной зависимости.

Величина совокупного коэффициента корреляции изменяется в пределах от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов корреляции. Чем ближе он к единице, тем меньше роль неучтенных в модели факторов и тем более оснований считать, что параметры регрессионной модели отражают степень эффективности включенных в нее факторов.

Для оценки существенности (значимости) совокупного коэффициента корреляции используется критерий F-Фишера.

Для этого определяется F-расчетное по следующей формуле:

 



Кроме совокупного коэффициента корреляции познавательное значение имеют частные коэффициенты корреляции, позволяющие установить степень тесноты связи между результативным признаком у и каждым из факторных признаков при исключении искажающего влияния других факторных признаков. Следовательно, коэффициенты частной корреляции отражают степень «чистого» влияния факторного признака на результативный признак. Для их расчета могут быть использованы парные коэффициенты корреляции.

Для случая зависимости результативного признака у от двух признаков-факторов 1 и х2) определяются два коэффициента частной корреляции:

• частный коэффициент корреляции между результативным признаком у и фактором х 1 при элиминировании фактора х2:

• частный коэффициент корреляции между результативным признаком у и фактором х 2 при элиминировании факторах!:

 

Для общего случая частные коэффициенты корреляции определяются по формуле

Величина частного коэффициента корреляции лежит в пределах от 0 до 1, а знак определяется знаком соответствующих параметров регрессии.

Рассчитывая величины частных коэффициентов корреляции, следует иметь в виду, что каждый из них по своей абсолютной величине не может быть больше величины коэффициента множественной (совокупной) корреляции Rух1, х2,…, хk.

10. Для сравнения роли различных факторов в формировании моделируемого показателя определяется коэффициент эластичности (Эj) или β-коэффициент (βj). Частный коэффициент эластичности показывает, на сколько процентов в среднем изменяется результативный признак у с изменением признака-фактора х на 1%, и определяется по формуле

β-коэффициент показывает, на какую часть среднего квадратического отклонения изменится результативный показатель при изменении соответствующего фактора х на величину его среднего квадратического отклонения; его формула имеет вид:

 

<== предыдущая лекция | следующая лекция ==>
Краткие теоретические сведения | Решение типовых задач. 5.1. Имеются экспериментальные данные исследования влияния времени вулканизации на сопротивление резины разрыву (табл
Поделиться с друзьями:


Дата добавления: 2014-01-11; Просмотров: 1102; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.