Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Понятие зависимой и независимых переменных. Общая постановка задачи. 2 страница




     
     
     
(В)

 

     
     
     
(Г)

 

     
     
     
(Д)

 

     
     
     
(Е)

 

     
     
     
(Ж)

 

     
     
     
(З)

 

     
     
     
(И)

 

     
     
     
(К)

 

Надеемся, читатель сам проследит, какие закономерности лежат в основе формирования приведенных подтаблиц и как в процессе такого формирования реализуются сформулированные выше правила. Перейдем к содержательному анализу подтаблиц.

Не будем приводить разобранный в цитируемой работе пример полностью. Воспользуемся лишь исходной таблицей и двумя полученными при ее разложении подтаблицами. Покажем, какую прибавку к нашим знаниям об изучаемом явлении дает нам рассмотрение этих подтаблиц. При этом мы обратим внимание читателя на такие аспекты упомянутого явления, которые в цитируемой работе не рассматриваются.

Прежде всего отметим, что лишь для 5-ти из 10-ти получившихся четырехклеточных таблиц соответствующее значение превышает табличное, отвечающее тому же 5%-му уровню значимости (это значение будет отличаться от приведенного выше из-за различия числа соответствующих степеней свободы: для исходной таблицы это число равно 10, а для четырехклеточной – 1), и равное в данном случае = 3,8. Чтобы понять, что в содержательном плане может нам дать указанный факт, более подробно опишем рассматриваемое разложение исходной таблицы сопряженности. Компонентные четырехклеточные таблицы определяются следующими значениями наших признаков:

Заметим, что везде предполагается, что в семье имеются дети, мы же пишем для сокращения "брачная пара" вместо "брачная пара с детьми".

Надеемся, читателю понятно, что частоты, отвечающие значению первого признака "остальные" из таблицы (А), получаются путем суммирования строк исходной таблицы, соответствующих всем рассматриваемым сочетаниям значений двух наших характеристик "молодой" семьи, кроме сочетания "женщина с детьми, до 30 лет"; частоты, отвечающие значению второго признака "в разных квартирах", получаются за счет суммирования столбцов исходной матрицы, отвечающих значениям "в одном доме" и "в одном микрорайоне и дальше" и т.д.

Критический уровень превышают критерии , отвечающие таблицам (А), (В), (Г), (Ж), (К). Сумма этих критериев равна 33, 9, что, хотя и не равно значению для исходной таблицы (напомним, что это значение равно 39, 2), но, как нетрудно проверить, составляет от него почти 86%. Другими словами, отклонение эмпирических частот от теоретических в исходной таблице почти

Таблица 21.

Описание компонентных подтаблиц таблицы 20

1-й признак 2-й признак Обозначение подтаблицы
(мать с детьми, до 30 лет) в одной квартире, (А)
остальные в разных квартирах
то же в одном доме, (Б)
дальше
(брачная пара, мать до 30 лет) в одной квартире, (В)
остальные в разных квартирах
то же в одном доме, (Г)
дальше
(мать с детьми, 30-40 лет) в одной квартире, (Д)
остальные в разных квартирах
то же в одном доме, (Е)
дальше
(брачная пара, мать 30-40 лет) в одной квартире, (Ж)
остальные в разных квартирах
то же в одном доме, (З)
дальше
(мать с детьми, 40-55 лет) в одной квартире, (И)
(брачная пара, 40-55 лет) в разных квартирах
то же в одном доме, (К)
дальше

 

на 86% объясняется наличием связи в перечисленных четырехклеточных таблицах. Попытаемся на примере показать некоторые "содержательные" аспекты этого положения (чего не было сделано в цитируемой нами работе).

Рассмотрим таблицу (А) (табл. 22).

Таблица 22.

Пример (А) компонентной подтаблицы таблицы 20

Тип молодой семьи Желаемое расселение Итого
В одной квартире В разных квартирах
Мать с детьми, до 30 лет      
Остальные      
Итого      

 

Значение для этой таблицы равно 8,3, что превышает табличное значение, равное 3,8. Нетрудно видеть, что отступление от ситуации независимости (в данном случае мы отождествим ее с пропорциональностью строк) происходит за счет того, что доля желающих остаться в одной квартире со старшим поколением молодых матерей-одиночек (таких молодых матерей-одиночек почти треть: 6 из 20) выше, чем аналогичная доля среди всех опрошенных (среди всех опрошенных не хотят разъезжаться с бабушками-дедушками лишь чуть более 10%: 60 из 569). Вывод – для семей, состоящих из молодых матерей одиночек с детьми, вопрос о необходимости разъезжаться со старшим поколением стоит менее остро, чем для других категорий семей.

Более глубоко можно проанализировать ситуацию с помощью рассмотрения других компонентных таблиц. Ограничимся кратким анализом лишь двух из них: (Б) и (Д) - таких, для которых соответствующие значения (равные, соответственно, 0,02 и 0,8), не превышают критических (см. таблицы 23 и 24).

Таблица 23.

Пример (Б) компонентной подтаблицы таблицы 20.

Тип молодой семьи Желаемое расселение Итого
в одном доме дальше
Мать с детьми, до 30 лет      
Остальные      
Итого      

 

Таблица 24.

Пример (Д) компонентной подтаблицы таблицы 20.

Тип молодой семьи Желаемое расселение Итого
в одном доме дальше
Мать с детьми, до 30 лет      
Остальные      
Итого      

 

Для получения интересующих нас выводов достаточно вспомнить, что сравнительно малые значения упомянутого критерия говорят о том, что мы можем считать пропорциональными столбцы (строки), в том числе маргинальные, наших четырехклеточных таблиц. Таблица (Б) (см. табл. 23) говорит о том, что молодые матери-одиночки примерно в той же мере выбирают те или иные варианты расселения, что и семьи других типов. Другими словами соответствующая специфика семьи не сказывается в том, хочет ли желающая переселиться "молодая" семья (нетрудно видеть, что только такие семьи здесь рассматриваются, поскольку во втором признаке задействованы лишь две категории, относящиеся к ситуации разъезда), после переезда остаться поближе к родителям (в одном доме) или же готова уехать подальше. И среди всех желающих разъехаться чуть более половины хочет остаться в одном доме со старшими (282 из 509), и среди матерей-одиночек до 30 лет (8 из 14).

При анализе таблицы (Д) (см. таблицу 24) становится ясно, что для более старших матерей одиночек – 30-40 лет – указанной выше специфики в желании расселиться нет: семьи этой категории ровно в той же мере хотят разъезда (6 из 36 семей не хотят отделяться от старших), как и семьи других типов (не хотят разъезжаться 37 из 324).

Рекомендуем читателю связать приведенные рассуждения, касающиеся анализа подтаблиц (табл. 21) с анализом соответствующих отношений преобладаний (п.2.3.4).

В заключение параграфа упомянем еще один метод, позволяющий иным путем решать сходные задачи [Ростовцев, 1996, 1998]. Метод предназначен для быстрого обнаружения основных тенденций связи пары переменных. Исходными данными служит совокупность объектов, описанных двумя переменными. В отличие от задачи, рассмотренной выше, здесь предполагается, что используемые шкалы могут быть любыми (в том числе и номинальными). Метод состоит в поиске такой пары дихотомических разбиений совокупностей значений исходных переменных (в результате такого разбиения каждая переменная превращается в дихотомическую), чтобы получающаяся четырехклеточная таблица сопряженности была бы максимально “контрастной”, т.е. отвечала бы как можно более сильной связи между полученными дихотомическими переменными.

Преимущества подхода ясны – в случае использования метода, описанного выше, мы не имеем гарантий того, что нашли именно те четырехклеточные таблицы, которые характеризуют наиболее сильные дихотомические связи. Здесь же метод позволяет сразу найти именно ту четырехклеточную подтаблицу, которая отвечает максимальной зависимости между конструируемыми дихотомическими переменными. Однако есть здесь и свой минус - мы не можем интерпретировать значение соответствующего (“четырехклеточного”) показателя связи как вклад в величину “большого” критерия, характеризующего связь между исходными перменными. Приведем пример из названной работы, демонстрирующий возможности рассматриваемого подхода.

Рассматривается две переменных: профессиональная подготовка и доходы. Каждой переменной отвечает вопрос в анкете с определенным набором ответов (число которых существенно больше двух; мы сознательно не перечисляем конкретные варианты ответа; они носят довольно стандартный характер и их точная формулировка не является приниципиальной для целей нашего изложения). Проверяется гипотеза о том, что люди, имеющие более высокое образование, имеют шанс получать более высокие доходы. Автор решил обосновать свою гипотезу путем оценки связи для четырехклеточной таблицы со значениями признаков: высокий доход – низкий доход, высокая профессиональная подготовка – низкая профессиональная подготовка.

Подчеркнем, что стремление свести изучение связи к анализу частотной таблицы минимального возможного размера – четырехклеточной – не является случайным. Напомним читателю, что, во-первых, выявление любой закономерности связано с потерей информации и, во-вторых, сам термин “закономерность” мы применяем только к сравнительно простым, малоразмерным соотношениям.

В рассматриваемой задаче встает вопрос о том, где граница между высоким и низким доходом, между высокой и низкой профессиональной подготовкой. Чаще всего исследователь определяет эту границу интуитивно. Именно это и попытался сделать сначала автор цитируемой статьи. В качестве границы для душевого дохода он взял его среднее значение для изучаемой совокупности респондентов. Уровни профессиональной подготовки были сгруппированы неким естественным образом, при этом ответ “другое” не учитывался. Для проверки своей гипотезы автор получил следующую частотную таблицу:

Таблица 25.

Четырехклеточная таблица, получающаяся в результате “естественного” деления диапазона изменения каждого признака на две части.

Душевой доход Профессиональная подготовка Итого
Невысокая Высокая
Ниже среднего (менее 5300) 81,3% 57,1%  
Выше среднего (не менее 5300) 18,7% 42,9%  
Итого      

 

Проценты означают доли соответствующих совокупностей лиц среди людей с данным уровнем профессиональной подготовки. Нетрудно видеть, что гипотеза подтвердилась: среди лиц с невысоким уровнем профессиональной подготовки 81,3% людей имеют доход ниже среднего, а среди лиц с высоким уровнем образования – аналогичная доля меньше, 57,1% и т.д.

В качестве критерия оценки степени зависимости душевого дохода респондента от уровня его профессиональной подготовки автор предложил использовать различие между эмпирической и теоретической частотами, отвечающими левой верхней клетке получившейся четырехклеточной таблицы сопряженности. В данном случае критерий равен

Возник вопрос – нельзя ли подобрать группировку значений переменных, еще ярче подчеркивающую найденную зависимость? И с помощью предложенного в названной статье алгоритма такую группировку удалось найти (табл. 26).

Таблица 26.

Четырехклеточная таблица, получающаяся в результате деления диапазона изменения каждого признака на две части с помощью рассматриваемого алгоритма

Душевой доход Профессиональная подготовка Итого
Невысокая Высокая
Низкий (менее 4500) 71,7% 41,4%  
Высокий (не менее 4500) 28,3% 58,6%  
Итого      

 

Нетрудно проверить, что проверяемая гипотеза подтвердилась более ярко. Это проявилось в том, что здесь оказалось более высоким значение нашего критерия: . Причина – более удачная группировка людей по доходу.

Заметим, что в ИЭиОПП СО РАН под руководством П.С. Ростовцева разработан пакет программ, реализующий обсужденный подход.

Перейдем к рассмотрению другой ситуации – когда наши группы альтернатив составляются из значений разных признаков. Как мы отмечали, эта ситуация не имеет статистической базы, подобной той, на которую опирается метод анализа фрагментов таблицы сопряженности.

 

 

27. Методы поиска сочетаний значений независимых признаков (предикторов), детерминирующих "поведение" респондентов. Понятия зависимой и независимых переменных. Общая постановка задачи.

 

2.5.3. Методы поиска сочетаний значений независимых признаков (предикторов), детерминирующих "поведение" респондентов

 

Итак, перед нами огромный массив информации, скажем 1000 заполненных анкет (в таком случае изучаемые объекты – респонденты) по 30 вопросов в каждой (каждому вопросу отвечает признак, описывающий изучаемые объекты). При изучении причинно-следственных отношений естественно выделение, с одной стороны, некоторых признаков, которые описывают основное интересующее исследователя явление, а, с другой – совокупности признаков, потенциально являющихся причинами (напомним, что термин “причина” для нас имеет лишь статистический смысл), обусловливающими то, упомянутое явление имеет именно наблюдаемый вид. Для обозначения признаков первого набора мы по традиции будем использовать букву Y с индексами, а для обозначения признаков второго набора – букву Х с индексами. Х – независимые переменные (объясняющие, детерминирующие, признаки-причины, аргументы, предикторы), Y – зависимые переменные (объясняемые, детерминируемые, целевые, критериальные, результирующие, признаки-следствия, функции). К этой терминологии мы вернемся в п.2.6. Сейчас же рассмотрим следующую задачу.

Социолога интересует, чем, какими факторами (причинами) определяется некоторое “поведение” респондента. Это “поведение” описывается какими-то признаками Y. Например, оно может состоять в том, что респондент в ответе на один из вопросов анкеты выражает свою готовность проголосовать на выборах за кандидата Ж. Задача состоит в определении того, какими характеристиками (поскольку наша информация о респондентах ограничивается анкетными данными, то этими характеристиками могут быть лишь ответы респондентов на вопросы анкеты) можно описать людей, обладающих рассматриваемым “поведением”, т.е. желающих проголосовать за Ж. Другими словами, мы должны установить какими сочетаниями значений рассматриваемых признаков обладают эти люди.

В принципиальном плане такая задача решается как-будто просто: мы должны перебрать все возможные сочетания значений рассматриваемых признаков и найти среди них такие, обладателям которых присуще рассматриваемое поведение. Схематически это решение можно изобразить следу ющим образом.

Приведенные на схеме стрелки могут означать, к примеру (при соответствующей расшифровке вариантов ответов на вопросы анкеты), что искомым поведением обладают женщины со средним или среднеспециальным образованием, замужние, из семей крестьян или служащих.

 

Рис. 17. Схематическое изображение сути задач поиска взаимодействий

 

Однако в действительности все обстоит не так просто.

Во-первых, перебор всех мыслимых сочетаний значений рассматриваемых признаков столь объемен, что оказывается не под силу даже современным ЭВМ (мы не знаем ни какие признаки взять, ни сколько таких признаков должно быть, ни то, какие сочетания значений каждого признака следует принять во внимание). Встает вопрос о создании определенного алгоритма “сокращенного” перебора. Отметим, что такой алгоритм будет заведомо пропускать определенные сочетания наших независимых признаков; то, какие именно – определяется сутью алгоритма, заложенной в нем моделью, в данном случае связанной с пониманием “поведения” объектов. И для социолога очень важен анализ тех аспектов формализма, которые непосредственно связаны с содержательными аспектами задачи.

Здесь необходимо отметить следующее обстоятельство. Говоря о поведении, мы прежде всего имеем в виду определенное свойство отдельного человека - скажем, то, голосует он или не голосует за того или иного кандидата. Однако в рассматриваемой задаче нам необходимо определить, что такое групповое “поведение”. Ясно, что группу, где 100% людей обладает тем или иным интересующим нас свойством, мы вряд ли найдем из-за принципиальной ненадежности нашего способа измерения мнений респондентов (таким способом для нас является анкетный опрос). Встает вопрос о том, в какой ситуации, рассматривая, скажем, упомянутую выше группу женщин, мы будем иметь право сказать, что нашли совокупность людей с искомым “поведением”. Для используемого примера, вероятно, такую ситуацию естественно связывать с тем, что среди рассматриваемых женщин достаточно высока доля желающих голосовать за Ж. На этом пока и остановимся. Позже вернемся к обсуждению вопроса о других возможных подходах к пониманию группового “поведения”.

Будем называть ту или иную группу респондентов типом, “олицетворяющим” интересующее нас “поведение”, или просто типом, если для этой группы удовлетворяется выбранный нами критерий. Нетрудно видеть, что в случае указанного выше понимая группового поведения мы можем ввести также оценку “качества” группы с точки зрения возможности ее рассмотрения как типа: более высокое качество будет иметь та группа, где доля желающих голосовать за Ж выше. Будем считать, что такая возможность имеется всегда.

Предположим, что упомянутый выше алгоритм сокращенного перебора создан. Тогда "лобовой" путь решения интересующих нас задач будет состоять в следующем: в соответствии с упомянутым алгоритмом перебираются всевозможные сочетания значений рассматриваемых признаков и для каждого из них проверяется, можно ли соответствующую совокупность объектов считать "олицетворением" определенного типа поведения. Если нет – переходим к "проверке" следующего сочетания значений аргументов, если да - считаем, что нашли решение задачи (таких решений может быть много) и в таких случаях группу будем называть типом. Но тут встает еще один вопрос, наше “во-вторых”.

Итак, во-вторых, неясно, как понимать “поведение” группы респондентов. Так, даже для такого простого случая, о котором шла речь выше, неясно, при каких условяих считать, что мы нашли группу, обладающую указанным поведением: если среди этих людей 90% желают проголосовать за Ж? Или 85?

Таким образом, можно сказать, что задача сводится к поиску взаимодействий (определение этого термина дано в п.2.2.1) – сочетаний значений независимых признаков (эти значения, вообще говоря, могут "надергиваться" из разных признаков-предикторов, это – одно из отличий рассматриваемого подхода от подходов, проанализированных в предыдущих параграфах), детерминирующих определенным образом заданное поведение респондентов. Существуют разные способы ее решения. О них мы уже говорили в п.2.2.2. Это прежде всего группа предложенных западными авторами алгоритмов, в название которых входит аббревиатура AID (automatic interaction detector). А также некоторые алгоритмы поиска логических закономерностей, предложенные советскими авторами. Отметим, что в этих алгоритмах различны и понятия типа поведения и способы перебора сочетаний значений предикторов.

Наличие сравнительного большого количества алгоритмов, позволяющих решить нашу задачу, объясняется тем, что задача очень актуальна для прикладных исследований (для социологии в частности). За ее решение принимались разные исследователи. И каждый предложил свой подход, свою формализацию соответствующего явления.

Другими словами, мы имеем еще одно подтверждение нашего основного методического положения – для решения практически любой социологической задачи существует несколько методов и, следовательно, на первый план выходит проблема их сравнения, комплексного использования и т.д. Учитывая это, перейдем к рассмотрению конкретных алгоритмов. При этом будем стремиться выделять те их элементы, которые имеют непосредственное отношение к пониманию типа поведения респондентов. Сначала обсудим два известные западные алгоритма.

 

 

28. Алгоритм THAID.

 




Поделиться с друзьями:


Дата добавления: 2015-04-23; Просмотров: 705; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.