Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Выявление и анализ множественной корреляционной зависимости в ППП statistica




Корреляционной зависимости

 

Изучение множественной корреляционной зависимости предполагает оценку влияния двух и более факторов на интересующий исследователя признак-результат.

В качестве примера оценим влияние ряда факторов на формирование цен на первичном рынке жилья в Санкт-Петербурге.

Таблица 8.1

Данные о рынке строящегося жилья в Санкт-Петербурге

(декабрь 1996 г.).

  x1 x2 x3 x4 X5 x6 x7 x8 y
      39,0 20,0 8,2       15,9
      68,4 40,5 10,7       27,0
      34,8 16,0 10,7       13,5
      39,0 20,0 8,5       15,1
      54,7 28,0 10,7       21,1
      74,7 46,3 10,7       28,7
      71,7 45,9 10,7       27,2
      74,5 47,5 10,4       28,3
      137,7 87,2 14,6       52,3
      40,0 17,7 11,0       22,0
      53,0 31,1 10,0       28,0
      86,0 48,7 14,0       45,0
      98,0 65,8 13,0       51,0
      62,6 21,4 11,0       34,4
      45,3 20,6 10,4       24,7
      56,4 29,7 9,4       30,8
      37,0 17,8 8,3       15,9
      67,5 43,5 8,3       29,0
      37,0 17,8 8,3       15,4
      69,0 42,4 8,3       28,6
      40,0 20,0 8,3       15,6
      69,1 41,3 8,3       27,7
      68,1 35,4 13,0       34,1
      75,3 41,4 12,1       37,7
      83,7 48,5 12,1       41,9
      48,7 22,3 12,4       24,4
      39,9 18,0 8,1       21,3
      68,6 35,5 17,0       36,7
      39,0 20,0 9,2       21,5
      48,6 31,0 8,0       26,4
      98,0 56,0 22,0       53,9
      68,5 30,7 8,3       34,2
      71,1 36,2 13,3       35,6
      68,0 41,0 8,0       34,0
      38,0 19,0 7,4       19,0
      93,2 49,5 14,0       46,6
      117,0 55,2 25,0       58,5
      42,0 21,0 10,2       24,2
      62,0 35,0 11,0       35,7
      89,0 52,3 11,5       51,2
      132,0 89,6 11,0       75,9
      40,8 19,2 10,1       21,2
      59,2 31,9 11,2       30,8
      65,4 38,9 9,3       34,0
      60,2 36,3 10,9       31,9
      82,2 49,7 13,8       43,6
      98,4 52,3 15,3       52,2
      76,7 44,7 8,0       43,1
      38,7 20,0 10,2       25,0
      56,4 32,7 10,1       35,2
      76,7 44,7 8,0       40,8
      38,7 20,0 10,2       18,2
      41,5 20,0 10,2       20,1
      48,8 28,5 8,0       22,7
      57,4 33,5 10,1       27,6
      76,7 44,7 8,0       36,0
      37,0 17,5 8,3       17,8
      54,0 30,5 8,3       25,9
      68,0 42,5 8,3       32,6
      40,5 16,0 11,0       19,8
      61,0 31,0 11,0       29,9
      80,0 45,6 11,0       39,2
      52,0 21,2 11,2       22,4
      78,1 40,0 11,6       35,2
      91,6 53,8 16,0       41,2
      39,9 19,3 8,4       17,8
      56,2 31,4 11,1       25,0
      79,1 42,4 15,5       35,2
      91,6 55,2 9,4       40,8

 

Принятые в таблице обозначения: признак-результат (зависимая переменная) у – цена квартиры, тыс. долл.. В качестве признаков-факторов выбраны: х1 – число комнат в квартире; х2 – район города (1 – Приморский, Шувалово-Озерки, 2 – Гражданка, 3 – Юго-Запад, 4 – Красносельский); х3 – общая площадь квартиры (м2); х4 – жилая площадь квартиры (м2); х5 – площадь кухни (м2); х6 – тип дома (1 – кирпичный, 0 – другой); х7 – наличие балкона (1 – есть, 0- нет); х8 – число месяцев до окончания срока строительства.

Начнем анализ с построения уравнения регрессии, включив в него все имеющиеся факторы. Для этого воспользуемся уже известным меню Statistics/Multiple Regression. С помощью кнопки Variables задаем переменные. В левом поле (Dependent var. (or list for batch) выбираем зависимую переменную у, то есть стоимость квартир. В правом поле (Independent variable list) выбираем независимые переменные, т.е. признаки-факторы (в нашем случае x1-x8), нажимаем ОК (рис. 8.1.).

 

 

Рис. 8.1. Окно выбора переменных.

 

Переходим на закладку Advanced (рис. 8.2.).

 

 

Рис. 8.2. Закладка Advanced диалогового окна Multiple Regression.

 

На закладке расположены следующие поля.

Advanced options (stepwise or ridge regression) – опция позволяющая пошагово добавлять или убирать факторы из модели, так называемая гребневая регрессия (будет рассмотрена позже).

Review descriptive statistics, correlation matrix – позволяет получить основные показатели регрессионной модели и построить упрощенную корреляционную матрицу. В нашем случае не используется, поскольку показатели модели автоматически будут рассчитаны при ее построении, а для построения матрицы будет использована другая опция.

Extended precision computations – вычисления повышенной точности (используется при необходимости сравнения двух очень похожих моделей, увеличивает количество знаков десятичных дробей).

Batch processing/reporting – опция, которой в данном случае мы воспользуемся. Ставим метку в соответствующем поле и нажимаем ОК. Система формирует отчет, содержащий несколько уже знакомых таблиц (рис. 8.3., 8.4.).

 

 

Рис. 8.3. Основные показатели модели множественной регрессии.

 

 

Рис. 8.4. Таблица параметров уравнения множественной регрессии и их оценок.

 

Представленные таблицы были описаны в разделе, посвященном анализу парной зависимости. Всего в отчете строятся четыре таблицы: в третьей представлены характеристики только признаков-факторов, в четвертой – анализ остатков.

Из представленной таблицы (рис. 8.4.) видно, что часть коэффициентов в уравнении множественной регрессии статистически не значимы ().

Поэтому следующим этапом анализа будет построение корреляционной матрицы с целью выявления факторов, которые незначительно влияют на результат, а также коллинеарных факторов. Для это воспользуемся меню Statistics/Basic Statistics/Tables, и выберем опцию Correlation matrices (рис. 8.5.).

 

 

Рис. 8.5. Выбор процедуры Correlation matrices.

 

В появившемся окне (рис. 8.6.) нажимаем кнопку One variable list, так как необходимо получить корреляционную матрицу с включением всех элементов, и выделяем переменные (рис. 8.7.). Затем идем на закладку Options и ставим метку в поле Display r, p-levels and N’s, что означает отображение в матрице соответственно парных коэффициентов корреляции, расчетных уровней значимости и объемов переменных (рис. 8.8.). После этого нажимаем кнопку Summary. Остальные поля закладки известны нам по предыдущим работам и в данном задании не используются.

 

Рис. 8.6. Вид закладки Quick процедуры Correlation matrices.

 

Рис. 8.7. Вид окна выбора переменных.

 

Рис. 8.8. Вид закладки Options процедуры Correlation matrices.

 

 

Рис. 8.9. Корреляционная матрица

 

В полученной матрице (рис. 8.9.) содержатся парные коэффициенты корреляции стоимости квартир и каждого из анализируемых факторов, а также коэффициенты, оценивающие степени тесноты связи между факторами. Система помогает пользователю, выделяя красным цветом значения в тех клетках, где пересекаются элементы, связь между которыми значима. В каждой клетке расположены два числа: верхнее - коэффициент корреляции, нижнее - уровень значимости.

Исходя из данных матрицы, практически не влияют на признак-результат (стоимость квартир) факторы х2 и х7, то есть район города и наличие балкона. Значение коэффициента парной корреляции между фактором х8 и результатом статистически значимо, однако, указывает на очень слабую связь. Следовательно, нет необходимости включать эти три фактора в модель.

Далее необходимо рассмотреть корреляционную матрицу на предмет обнаружения коллинеарных факторов, то есть тех, между которыми существует тесная линейная зависимость. Такими факторами являются: факторы х1, х3, х4, поскольку коэффициенты парной корреляции между ними близки к единицы (все больше чем 0,85). Это означает, что данные факторы опосредуют влияние друг друга и в модели достаточно оставить лишь один из них. В уравнение включается тот фактор, у которого коэффициент корреляции с результатом выше (в данном случае - фактор х3).

Строим новое уравнение с отобранными факторами и не забываем следить за величиной коэффициента детерминации (рис. 8.12., 8.13.).

 

Рис. 8.12. Основные показатели модели множественной регрессии с отобранными факторами

 

 

Рис. 8.13. Таблица параметров уравнения множественной регрессии с отобранными факторами

Несмотря на проведенный отбор факторов, в уравнении регрессии статистически незначим параметр при факторе х5. Если исключение такого фактора из уравнения не приводит к значительному снижению коэффициента детерминации, то рекомендуется реализовать эту процедуру. Строим новое уравнение, включая только факторы х3 и х6 (рис. 8.14., 8.15.).

Рис. 8.14. Основные показатели модели множественной регрессии с двумя факторами.

 

 

Рис. 8.15. Таблица параметров уравнения множественной регрессии с двумя факторами.

 

 

Таким образом, получаем двухфакторную модель с незначительно изменившимся относительно начального уровня коэффициентом детерминации и отсутствием незначимых параметров. Уравнение в целом также статистически значимо. В данном случае можно сделать вывод о том, что вариация стоимости квартир в основном (93,42%) объясняется вариацией общей площади квартир (х3) и типом дома (х5). Стоимость квартиры с учетом ограничений значений аргументов может быть рассчитана по уравнению регрессии:

 

.

 

Доверительные интервалы прогнозов могут быть рассчитаны по аналогии с расчетами, представленными в разделе анализа парной корреляционной зависимости.

 


* При статистическом изучении зависимостей признаки-факторы - это признаки, описывающие условия изменения показателя, называемого признаком-результатом. В моделях связи признаки-факторы могут быть названы аргументами, независимыми, объясняющими, экзогенными переменными. Признак-результат – это отклик, зависимая, объясняемая, результативная, эндогенная переменная.




Поделиться с друзьями:


Дата добавления: 2015-07-02; Просмотров: 890; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.047 сек.