Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Причины останова




1) Найдена “хорошая” группа, т.е. такая, в которой упомянутая доля модальной частоты достатоточно велика. Скажем, может оказаться, что среди людей с низким образованием и разведенных 95% проголосовали за Л. Тип найден и крайняя левая нижняя группа в дальнейшей работе не участвует.

2) Получена слишком малочисленная группа. Здесь мы можем поступить по-разному: или игнорировать это обстоятельство и двигаться дальше, исключив соответствующих людей из рассмотрения (как чаще всего и поступают) или попытаться выяснить, в чем состоят те особенности этих людей, изучить их без претензий на статистические обобщения.

3) Получена слишком длинная цепочка. Интерпретация этого обстоятельства очень важна для социолога. Здесь мы имеем дело с пониманием того, что такое та закономерность, которая ищется с помощью любого метода анализа данных. Дело в том, что само понятие закономерности предполагает достаточно простую ее структуру того, что мы закономерностью называем. Слишком длинное описание получающегося типа мы не будем воспринимать как тип. Вряд ли мы сделаем серьезные выводы на основе знания того факта, что люди с высоким образованием, неженатые, живущие в сельской местности, имеющие более 4-х детей, 3-х поросят, не любящие смотреть телевизор и мечтающие о путешествии на Кипр почти все проголосовали за Л. Причинно-следственные закономерности останутся за бортом наших рассуждений. (По той же причине мы обычно не воспринимаем как закономерность классификацию, в которой 1500 классов или результат факторного анализа, которых дал нам 150 латентных переменных.) Об этом мы говорили в п.1.4 части I

4) ЭВМ не нашла ни одной совокупности с интересующими нас свойствами. В рассматриваемом примере - ни одной группы респондентов, среди членов которой интересующего нас мнения придерживалась бы достаточно большая доля людей. Это означает то, что в используемой анкете не заложено описание интересующего нас поведения. Такая ситуация может быть следствием нашего неумения составлять анкету, общаться с респондентом, учитывать цели исследования при формировании инструментария, ставить задачу и т.д.

Подводя определенный итог, можно сказать, что задача поиска детерминирующих сочетаний значений предикторов может пониматься как единство трех задач: (1) выделение из числа независимых переменных наиболее информативных в том смысле, что именно по сочетанию их значений с наибольшей степенью уверенности можно судить о типе поведения объектов; (2) выяснение, какие именно сочетания значений информативных признаков детерминируют указанный тип (в том числе то, какие из этих значений должны объединяться “склеиваться”); (3) выявление конкретных типов поведения, свойственных объектам рассматриваемой совокупности (т.е. конкретных характеризующих выделяемые группы модальных значений, встречающихся с достаточной частотой; ясно, что, скажем, далеко не для каждого кандидата, вообще говоря, найдется “его” группа респондентов).

Рассмотренный алгоритм задействован в известном западном пакете OSIRIS. Коротко описание этого подхода можно найти в [Интерпретация и анализ..., 1987. С.29, с.136-151; Рабочая книга..., 1983. С. 193-195; Типология и классификация..., 1982. С.213-230]. Там он называется также алгоритмом последовательных разбиений. См. также литературу, указанную в п. 2.2.2. Отметим также, что буквы ТН в начале имени алгоритма означают греческую букву J, поскольку именно так обозначили авторы алгоритма тот связанный с долей модальной частоты критерий качества выделяемых групп респондентов, который мы описали выше.

 

 

29. Алгоритм CHAID. Методы ДА, THAID, CHAID с точки зрения поиска обобщенных взаимодействий.

 

 

2.5.3.3. Алгоритм CHAID

 

 

Как и при работе алгоритма ТHAID, задается номинальный признак-функция Y. Поведение каждого респондента здесь понимается так же, как выше (скажем, это выбор респондентом той или иной позиции при голосовании). А вот групповое поведение будем оценивать по-другому. А именно, будем ассоциировать его не с частотой модального значения признака Y, а со всем распределением этого признака. Как и выше, в нашу задачу, наряду с поиском сочетаний значений рассматриваемых признаков, детерминирующих интересующее нас групповое поведение, входит поиск конкретных видов такого поведения - конкретных распределений значений признака Y, детерминируемых нашей анкетой.

Алгоритм состоит из ряда шагов, сходных с теми, которые были описаны выше. На каждом шаге происходит склеивание определенных градаций каждого признака и выделение той переменной, в соответствии со значениями которой совокупность респондентов делится далее на части.

Рассмотрим принципиальные моменты алгоритма, связанные с пониманием искомых типов поведения респондентов и позволяющие реализовывать упомянутые процедуры.

Определение склеиваемых градаций. Покажем на примере, как определяется, какие градации анализируемого признака Х должны склеиваться.

Пусть Y – электоральное поведение респондента в том же смысле, какой был использован в п. 2.5.3.2, а признак Х – это профессия с градациями “врач”, “учитель”, “рабочий”. Рассмотрим частотную таблицу, связывающую эти два признака (таблица 27).

Таблица 27.

Таблица сопряженности, использованная для определения “склеиваемых” градаций признака “профессия” в процессе использования алгоритма CHAID

Профессия Предполагаемое голосование Итого

Е Ж З Л Я

Врач 10 2 10 8 30 60

Учитель 5 1 5 4 15 30

Рабочий 0 30 8 20 2 60

Итого 15 33 23 32 47 150

 

 

Склеить мы должны такие градации, которые не имеет смысла рассматривать дальше отдельно из-за того, что респонденты, отметившие одну градацию, обладают тем же электоральным “поведением”, что и респонденты, отметившие другую. Рассмотрение соответствующих совокупностей респондентов отдельно не имеет смысла. Нетрудно видеть, что такими свойствами обладают градации “врач” и “учитель”. Если мы рассмотрим отдельно представителей этих профессий, то уж никак не получим разные типы избирателей: половина врачей хочет голосовать за Я и половина учителей - тоже. Одинаковое количество учителей (5 человек, примерно 17 %) хочет голосовать за Е и З соответственно, и то же самое можно сказать о врачах и т.д. Нетрудно видеть, что сказанное является следствием того, что первые две строки нашей частотной таблицы пропорциональны.

Относительно же врачей и рабочих мы подобные выводы сделать не можем. Вероятно, эти альтернативы нельзя объединять. Напротив, имеет смысл разделить нашу совокупность на две части, рассмотрев врачей и рабочих отдельно. Они являют собой совершенно разный тип электорального поведения: за Я собираются голосовать 50% (30 человек) врачей и менее 2% (2 человека) рабочих и т.д. Ясно, что это – следствие сильного отклонения от пропорциональности первой и третьей строк нашей таблицы.

Вспомним теперь критерий “хи-квадрат”. Пропорциональность строк таблицы сопряженности означает равенство этого критерия нулю и, следовательно, влечет за собой принятие нуль-гипотезы – гипотезы об отсутствии связи между переменными. Отсутствие пропорциональности влечет отвержение нуль-гипотезы, т.е. согласие с наличием связи между переменными. И приведенные выше рассуждения по существу говорят о том, что склеивать надо те альтернативы, которые, будучи “вырванными” из общего списка и рассмотренные отдельно, как значения “вспомогательного” дихотомического признака (в нашем случае - признака с двумя альтернативами: “учитель” и “врач”) приведут нас к выводу об отсутствии связи между этим вспомогательным признаком и Y.

Но эта формулировка не очень корректна, поскольку критерий “хи-квадрат” не “говорит” о том, есть или нет связь между переменными, а лишь дает основание принять или отвергнуть гипотезу об отсутствии связи на определенном уровне значимости . Поэтому более грамотной будет следующее правило, по которому мы определяем, какие именно две альтернативы рассматриваемого признака надо склеить.

Для конкретного признака Х проверяем все пары альтернатив. Считаем, что каждая пара отвечает своему дихотомическому признаку и, задавшись уровнем значимости (скажем,  = 0,05), вычисляем критерий “хи-квадрат” для этого признака и Y. Отбираем те пары, для которых значение Х2 не превышает соответствующее критическое значение. Ясно, что это пары, для которых имеет смысл принять нашу нуль-гипотезу. Далее выбираем ту пару, для которой Х2 меньше всего, т.е. для которой наша нуль гипотеза принимается как бы с большей надежностью. Именно альтернативы этой пары мы и склеиваем.

Выбор признака для разбиения совокупности. Склеив какие-то альтернативы в каждом из анализируемых признаков, мы вычисляем критерий “хи-квадрат” между каждым из оставшихся к рассматриваемому шагу признаком Хi и Y. Здесь поступим противоположным образом по сравнению с тем, что было выше: отберем те признаки Хi, для которых наш критерий превышает критическое значение, т.е., для которых имеет смысл отвергнуть гипотезу об их независимости от Y, т.е. считать, что между каждым из них и Y есть связь. Среди этих признаков отберем тот, для которого имеет наибольшее значение, т.е. тот, для которого связь существует с наибольшей вероятностью. По его градациям мы и будем далее разбивать совокупность респондентов.

Описанные процедуры мы реализуем так же по шагам, как и в алгоритме ТHAID. В итоге выделяются группы респондентов, каждая из которых описывается последовательностью значений рассматриваемых признаков (так, последовательность, отвечающая крайней правой “цепочке” с рисунка 19, состоит из двух элементов: среднее, неполное высшее или высшее образование; из служащих или военных). Наш алгоритм дает основание полагать, что каждой из таких выделенных последовательностей будет отвечать свое “поведение” соответствующей группы респондентов, т.е. свое, характерное именно для данной группы, распределение признака Y.

Заметим, что алгоритм CHAID, так же, как и THAID, не гарантирует выявления в исходных данных всех интересующих исследователя закономерностей. Основная причина – в том, что на каждом шаге разбиения алгоритм оценивает лишь двумерную связь. Он может заставить исследователя исключить из дальнейшего рассмотрения такой признак-предиктор, который, будучи сам по себе не очень “хорошим”, в сочетании с другими может дать наилучший результат. Скажем, некий предиктор, не имея связи с целевым и, в силу этого, отбрасываемый (из-за того, что условные распределения целевого признака, вычисленные для отдельных градаций предиктора, схожи друг с другом и поэтому не дают нам отдельные типы респондентов), в сочетании с каким-то другим предиктором может иметь сильную связь с целевым (в п. 2.3.6 мы приводили пример, когда связь между двумя не связанными признаками появляется при фиксации значения третьего признака). И эта связь может быть более значимой, чем связь между целевым признаком и отобранными алгоритмом предикторами.

Алгоритм задействован в известном пакете программ SPSS. Буквы “СН” в названии алгоритма – от греческой буквы “” (Хи), поскольку критерий “Хи-квадрат” лежит в основе метода.

Отметим, что описанные алгоритмы охватывают не все те задачи поиска взаимодействий, которые интересуют социолога. Имеются другие направления анализа данных, включающие в себя несколько иные алгоритмы интересующего нас плана - алгоритмы поиска логических закономерностей, разработанные советскими авторами. Об этих алгоритмах пойдет речь в п.п. 2.5.5 и 2.5.6.

 

2.5.4. Методы ДА, THAID, CHAID с точки зрения поиска обобщенных взаимодействий

 

 

Вспомним расширенное, обобщенное определение понятия взаимодействия из п.2.2.1 и рассмотрим, в какой мере рассмотренные алгоритмы позволяют находить такие обобщенные взаимодействия. Вспомним также те примеры выводов в терминах изучаемых признаков, которые мы привели в названном параграфе, считая, что именно они в основном интересуют социолога.

Начнем с рассмотрения ДА. Ясно, что он направлен на поиск таких сочетаний значений предикторов, которые действительно можно назвать взаимодействиями. Он позволяет получать истинные суждения такого типа: “5-е или 6-е значение 8-го признака в сочетании с 3-м значением 14-го и 1-м значением 2-го детерминирует 2-е значение 30-го". Однако очевидно, что при этом имеются в виду не все наши обобщенные взаимодействия. Не учитываются следующие обстоятельства.

(1) В обобщенном определении взаимодействия в качестве объясняющего положения может выступать любая логическая функция от значений исходных признаков. Помимо конъюнкции и дизъюнкции, задействованных в ДА, могут использоваться отрицание и импликация. Это в какой-то мере не принципиально, поскольку функции второй пары в нашем случае могут быть выражены через функции первой, но социологу при формулировке содержательных задач часто бывает легче, естественнее использовать все элементарные функции логики высказываний. Например, предположим, что вопрос о занятии респондента предусматривает 15 ответов: токарь, пекарь, …, аптекарь, бомж. Наверное, исследователю удобнее проверять истинность суждения "если респондент – не бомж, то он согласен на оплату благоустройства дворов", чем суждение "если респондент или токарь, или пекарь, или …, или аптекарь, то он согласен на оплату …");

(2) При использовании ДА в качестве объясняемого положения выступает некоторое единственное значение какого-либо независимого признака При расширенном же определении взаимодействия, в соответствии с нашим определением, объясняемым положением может служить также любая логическая функция от сочетаний значений одного или нескольких признаков, некоторым другим образом задаваемое "поведение" респондента (см. ниже обсуждение алгоритма CHAID), частота таблицы сопряженности; кроме того, предусматривается возможность отсутствия объясняемого положения. Всего этого ДА не учитывает.

Перейдем к рассмотрению алгоритмов THAID и CHAID. Нетрудно видеть, что они, как и ДА, направлены на поиск взаимодействий. Но здесь тоже учитываются не все свойства наших обобщенных взаимодействий. Названные алгоритмы позволяют делать выводы такого плана:

“5-е или 6-е значение 8-го признака в сочетании с 3-м значением 14-го и 1-м значением 2-го детерминирует групповое поведение, описанное (в определенном в п. 2.5.3 смысле) в терминах 30-го признака”. Для алгоритма THAID упомянутое “поведение” означает долю модального значения 30-го признака. Выделенные группы – те, для которых эта доля достаточно высока. Для алгоритма CHAID – “поведение” характеризуется распределением выходного (в данном случае – 30-го) признака. Выделенные группы таковы, что отвечающие им распределения максимально отличаются друг от друга.

По поводу объясняющего положения, фигурирующего в обоих алгоритмах, можно сказать то же, что было сказано выше применительно к возможностям ДА.

Переходя к обсуждению объясняемого положения, рассмотрим сначала алгоритм THAID. Цели ДА здесь достигаются. Это является следствием того, что обеспечение максимальной (из возможных) доли модального значения выходного признака по существу означает обеспечение того, что соответствующее объясняющее выражение детерминирует это самое модальное значение. Преимуществом алгоритма THAID является определенная гарантия того, что, если искомые детерминации существуют в исследуемой совокупности, то они будут выявлены. Кроме того, THAID позволяет не “замыкаться” на единственном значении выходного признака, а искать все такие его значения, для которых можно найти соответствующее объясняющее выражение.

Пока мы говорили о возможности пропустить интересующие исследователя факты. Теперь попытаемся сравнить сами критерии качества детерминаций. Другими словами, сравним способы формализации понятия приближенности связи между объясняющим и объясняемым положениями в рассматриваемых ситуациях.

В ДА упомянутый способ формализации – это точность и полнота строящихся детерминаций. В случае использования THAID степень приближенности найденных детерминаций определяется выбором пороговой доли модальной частоты целевого признака. Такая доля – это “точность правила” в смысле ДА. А поскольку мы при использовании THAID ищем сразу все достаточно точные детерминации, то можно сказать, что в результате нами находятся и достаточно полные правила. Объясняющие положения, отвечающие одному и тому же объясняемому значению выходного признака, при этом объединяются в дизъюнкцию.

Таким образом, в принципе THAID позволяет решать те же задачи, что и ДА, но с большей эффективностью. Явным преимуществом ДА является то, что здесь мы активно используем интуицию исследователя. Это обстоятельство может существенно восполнить сформулированные в п.2.5.3.2 недостатки алгоритма THAID, приводящие к определенным “проколам” в его работе, к пропуску части искомых сочетаний значений предикторов.

При использовании алгоритма CHAID объясняемое положение – это такое "поведение" объектов выделенной группы, которое отождествляется с характерным только для нее распределением целевого признака. Подчеркнем, что такое "поведение" в принципе отличается от того, что было обсуждено выше. При использовании ДА и ТHAID поведение определяется одним значением выходного признака. Это значение выступает как вполне самостоятельная сущность, описывающая что-то важное для социолога. При использовании же CHAID выходной признак предстает перед нами целиком, в виде вероятностного (частотного) распределения. Здесь мы явно имеем дело с той группой методов, которая в п. 2.2.3 связывалась нами с существованием числовых латентных переменных, стоящих за наблюдаемыми номинальными признаками. Это предполагает само использования критерия “Хи-квадрат”.

Ясно, что и при использовании CHAID учитываются не все требования, фигурирующие в нашем обобщенном определении взаимодействия. Не учитывается, что в качестве объясняемого положения может быть логическая функция от значений одного или нескольких признаков, частота таблицы сопряженности и то, что объясняющее положение может отсутствовать. Последнее обстоятельство будет рассмотрено в следующих двух параграфах. Там речь пойдет о проверке истинности некоторой логической формулы.

Алгоритм CHAID тоже не гарантирует получения всех интересующих исследователя решений. Более того, он не всегда позволяет повышать качество выделяемых типов объектов. Об этом шла речь в п. 2.5.3.3. Тем не менее, он как и THAID, все же в большей мере позволяет осуществлять целенаправленный поиск закономерностей, чем это делает ДА.

 

30. Поиск логических закономерностей: элементы исчисления высказываний; понятие закономерности; алгоритм поиска; его сравнение с ДА. Поиск логических закономерностей и теория измерений. Элементы узкого исчисления предикатов.

 

2.5.5. Поиск логических закономерностей: элементы исчисления высказываний; понятие закономерности; алгоритм поиска; его сравнение с ДА.

Направление, о котором пойдет речь, отражает достижения новосибирских ученых. Оно включает в себя очень много разработок, начиная с полуфилософских размышлений о том, что такое закономерность, и кончая огромным количеством алгоритмов, позволяющих искать конкретные закономерности различной степени общности [Витяев Е.Е., Логвиненко А.Д., 1999; Загоруйко, 1979; Лбов, 1981; Рабочая книга..., 1983. С.197-198].. Мы полагаем, что эти разработки достойны внимания социологов. Приходится сожалеть, что российские исследователи, активно пользуясь западными пакетами и, следовательно, западной методологией анализа данных, зачастую не знают работ соотечественников. А их достижения при решении многих задач в большей степени отвечают естественной логике социолога и во многом более надежны.

Мы лишь очень коротко коснемся соответствующих проблем. Следуя авторам цитируемых работ, введем понятие логических закономерностей (и тем самым еще раз покажем, что решение широкого круга социологических задач требует использования специфического языка – языка математической логики). При этом рассмотрим лишь один их вид и один из простейших алгоритмов их поиска.

 




Поделиться с друзьями:


Дата добавления: 2015-04-23; Просмотров: 408; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.027 сек.