КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Регрессионный анализ
12.5.1. Общее представление о регрессионном анализе
После установления с помощью корреляционного анализа направления и тесноты связи между переменными величинами следует определить вид ее математической функции. Такая задача решается с помощью регрессионного анализа, который находит эту функцию с некоторой вероятностью по данным статистического наблюдения. Вид функции определяется путем построения и анализа так называемого "уравнения регрессии" , показывающего зависимость среднего значения переменной y от переменных , вектора и вектора параметров (коэффициентов) , где - свободный член уравнения, , - параметры (коэффициенты) факторов . Если уравнение регрессии имеет один фактор, то оно называется "парным", а если более одного - "множественным". Уравнение регрессии сначала задается аналитически или же подбирается графически по расположению фактических данных у. После расчета своих коэффициентов и решения других вопросов оно проверяется по определенным критериям достоверности и при необходимости пересматривается до получения статистически значимого результата.
12.5.2. Определение коэффициентов уравнения регрессии методом наименьших квадратов
Если математический вид уравнения регрессии выбран, то далее определяются его коэффициенты . Существует несколько методов их определения. Самый распространенный - метод наименьших квадратов (МНК), который состоит в сведении к минимуму общей суммы квадратов отклонений фактических наблюдений от теоретических значений путем минимизации функционала:
. (17)
Этот функционал следует продифференцировать по искомым параметрам , приравнять к нулю полученные выражения, упростить их и решить полученную систему дифференциальных уравнений, проверив ее, кроме того, на свою "минимальность" (во избежание "максимальности") по знаку второй производной от функционала F. Решение этой системы не всегда существует и сопряжено со значительными сложностями. Наиболее надежный вариант, когда берется линейная функция . (18)
Тогда после всех математических преобразований по МНК образуется линейная "система нормальных уравнений" (СНУ), содержащая исходные наблюдения переменных и и искомые коэффициенты регрессии :
. (19)
Суммирование переменных x и y производится по наблюдениям , индекс которых под знаками сумм снят ради упрощения. Решение СНУ в (19) можно получить по-разному, используя метод подстановки неизвестных, метод определителей Крамера, итерационный метод Гаусса-Зейделя, метод обратной матрицы и другие методы, а в случае парной регрессии ее решение при получается сразу по методу прямого счета
. (20)
Для многомерного случая факторов наилучшим методом решения СНУ является метод обратной матрицы, который позволяет получить не только наименее трудоемкое решение, но и оценить его на статистическую значимость. Матричная форма СНУ в (19) имеет вид:
, (21)
где - краткие обозначения соответствующих результатов. Матрица исходных факторов , ее расширенная на первый (нулевой) единичный столбец матрица и транспонированная по отношению к матрица имеют вид
.
Единичные элементы и при в двух последних матрицах необходимы для получения первого столбца и первой строки СНУ в (19), представляя собой зарезервированные места для расчета коэффициента . Размерность исходной факторной матрицы X равна , ее расширенной матрицы - , транспонированной матрицы - , матрицы C - , матрицы - , матриц и - . Так как квадратная матрица C в левой части СНУ является симметричной относительно положительных элементов главной диагонали (с левого верхнего угла в правый нижний угол) и ввиду этого невырожденной, то СНУ в (19) имеет единственное решение
. (22)
Это решение дает минимум, а не максимум функционала F в (17), так как его вторые производные, в случае линейной регрессии, - положительные величины, составляя для свободного члена величину и для факторных коэффициентов - удвоенную величину положительных диагональных элементов в матрице С.
12.5.3. Линеаризация нелинейных функций
Наличие единственности решения (21) и относительная легкость его получения обусловливают использование линейного МНК для нелинейных функций. Поэтому до МНК нелинейную функцию стремятся по возможности привести к линейному виду относительно коэффициентов . Для этого используются разные способы - условная замена переменных, тейлоровское разложение сложных функций в полиномный многочлен, логарифмирование и другие приемы линеаризации. Например, мультипликативная степенная функция линеаризируется относительно параметров , путем своего логарифмирования:
а) ;
б) . (23)
Далее в (19) образуется "скорректированная" СНУ, где все исходные данные х и у будут прологарифмированы. Аналогичные "скорректированные" СНУ свойственны некоторым другим функциям. Так, для гиперболической и параболической функций
, (24)
с помощью замены переменных из (19) получают скорректированные СНУ
а) ;
б) . (25)
Все соотношения (19) - (25) основывались на исходных несгруппированных наблюдениях. При наличии аналитической группировки или корреляционной таблицы в случае линейной регрессии можно также скорректировать все ее СНУ путем умножения переменных х и у на частоты и . Образуется "частотная" СНУ. Так, при для парной линейной регрессии и гиперболической регрессии их частотные СНУ имеют вид:
а) ;
б) . (26)
Для многомерного случая наличия более разных факторов частотная СНУ уже непригодна. Надо переходить от двумерной аналитической группировки и двумерной корреляционной таблицы к многомерным группировкам. Однако они себя практически не оправдывают, будучи громоздкими и трудоемкими. Поэтому лучше ограничиться несгруппированной СНУ (19) и действовать по общему алгоритму МНК.
12.5.4. Сравнительные показатели факторного воздействия
Основополагающей в регрессионном анализе является нестандартизованное (натуральное) уравнение регрессии с найденными по МНК коэффициентами , т. е. гиперплоскость
. (27)
Коэффициент (свободный член) - это расстояние гиперплоскости от начала координат. Для парной регрессии при таким расстоянием является линия среднего уровня , когда при образуется . Коэффициенты , при факторах (факторные коэффициенты) - это первые производные уравнения регрессии по переменному фактору . Они показывают, как в среднем изменится переменная y, если изменится на одну единицу своего измерения при постоянстве других регрессионных факторов. Свободный член измеряется в одинаковых с результативной переменной y единицах. Факторные коэффициенты , имеют смешанные единицы, измеряясь в относительных единицах переменной y к фактору . Поэтому сравнивать их между собой нельзя, как и сопоставлять по ним воздействие на у разных факторов. Для этого надо перейти от различных коэффициентов , к безразмерным "стандартизованным" коэффициентам , путем построения "стандартизованного (нормированного)" уравнения регрессии, которое выражает связь между нормированными отклонениями и , переменных y и ,
. (28)
Это уравнение связано с переносом начала координат в точку пересечения средних величин . Безразмерные стандартизованные коэффициенты показывают, на сколько своих нормированных отклонений изменится в среднем переменная y, если фактор изменится на одно свое нормированное отклонение , при постоянстве других регрессионных факторов. Чем больше , тем сильнее это воздействие, и наоборот. Наряду с коэффициентами для факторного сравнения рассчитываются другие показатели - коэффициенты эластичности вариационные коэффициенты , коэффициенты раздельной детерминации , коэффициенты долевого вклада и некоторые другие. В случае линейной регрессии эти коэффициенты равны
, (29)
где - коэффициент вариации фактора , выраженный в долях единицы (а не в процентах). Интерпретация коэффициентов (29) дана далее в 12.5.7 на условном примере.
12.5.5. Статистическая адекватность уравнения регрессии
Статистическая адекватность уравнения регрессии (его достоверность) проверяется по F -критерию Фишера-Снедекора путем расчета фактического значения этого критерия как соотношения факторной и остаточной вариаций и в расчете на одну степень их свободы и , или же, как соотношение теоретических коэффициентов множественной детерминации и недетерминации в расчете на те же степени свободы и :
;
, (30)
где - общая, факторная и остаточная дисперсии. Преобразования в (30) основаны на правиле сложения дисперсий, которое применительно к регрессионному анализу означает, что , и при .
Теоретический коэффициент детерминации показывает долю факторной вариации в общей вариации . Его следует отличать от эмпирического коэффициента детерминации , который применяется в дисперсионном анализе и показывает долю межгрупповой дисперсии в общей дисперсии , когда
;
, (31)
где: - объем группы i и групповая средняя; - внутригрупповая дисперсия. Корни квадратные из эмпирического и теоретического коэффициентов детерминации дают их соответственно эмпирическое и теоретическое корреляционное отношения
. (32) Все четыре коэффициента, изменяются от 0 до 1. Показатель служит в дисперсионном анализе мерой влияния на вариацию переменной у группировочного признака х, взятого за основание аналитической группировки, а показатель является в регрессионном анализе мерой определенности (причинности) той части вариации переменной у, которая описывается уравнением регрессии. Чем адекватнее уравнение регрессии, тем больше (ближе к единице), и наоборот: чем неадекватнее уравнение, тем ближе к нулю. Если уравнение регрессии - линейное, то теоретический коэффициент множественной детерминации превращается в совокупный коэффициент линейной детерминации . Тогда (30) принимает вид (7). При уравнение регрессии считается статистически значимым (адекватным), а при - статистически незначимым (неадекватным). В последнем случае вид уравнения регрессии должен быть заменен на другой с повторением всей процедуры нового МНК. Образуется "многошаговый" МНК. На этом основан "метод перебора функций ", продолжающийся до получения значимого критерия и далее - до максимума . Вместе с тем анализ будет усилен, если вместо и использовать их корректирующие коэффициенты, применяемые в том случае, когда соотношение числа степеней свободы и числа факторов т меньше своего порогового значения . Тогда имеем
; (33.а)
. (33.6)
Подставив (33.а) в (30) и (33.6) в (7), получим и . Если теперь окажется, что , то уже есть полное основание считать, что замена линейной регрессии на криволинейную была эффективной.
12.5.6. Статистическая значимость коэффициентов регрессии
Выяснив вопрос об адекватности уравнения регрессии, надо определить далее значимость (достоверность) его коэффициентов, которая проверяется по t -критерию Стьюдента путем расчета его фактических значений как модульных отношений оцениваемых показателей , к их несмещенным ошибкам :
, (34)
где: - скорректированная остаточная дисперсия (квадратическая ошибка регрессии); - диагональный элемент обратной матрицы в СНУ. Если , то коэффициент считается статистически значимым с уровнем значимости и степенями свободы , а если - то статистически незначимым. Незначимость коэффициента означает необходимость исключения из уравнения регрессии фактора , или замены его на другой, ранее не рассматриваемый. Если незначимых коэффициентов несколько, то в первую очередь исключается тот, который имеет минимальный долевой вклад или минимальный средний ранг по разным показателям факторной эффективности. Исключение фактора сказывается на коэффициентах и F. Если они от этого увеличились, то отсев факторов был эффективен, а если не увеличились, то неэффективен. Процедура исключения-включения факторов продолжается в многошаговом МНК до тех пор, пока все , не будут значимыми. Это не всегда возможно. Тогда надо менять исходные условия: снизить уровень значимости ; уменьшить число факторов т; увеличить число наблюдений п. Если ни одно из этих условий или их комплекс не дает нужных результатов, то следует отказаться от данного вида регрессии и перейти к другому ее виду, который допускает значимость своих коэффициентов при существующих условиях.
12.5.7. Условный пример регрессионного анализа
По исходным данным табл. 12.2 об объеме розничного товарооборота у (условные денежные единицы), численности работников (тыс. человек) и размере торговой площади (100 кв. м) в пяти магазинах проведем регрессионный анализ с помощью линейного МНК. Необходимые для двухфакторной модели подготовительные расчеты проведены в табл. 12.9.
Таблица 12.9
Дата добавления: 2014-11-29; Просмотров: 907; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |