КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Технология создания и адаптации методик
Рис, 11. Связь эмпирических показателей П1, П2, П, с релевантным (измеряемым) фактором А и с иррелевантными («шумовыми») факторами X, Y, Z, обусловливающими невалидность показателей
Таким образом, по отношению к факторам, которые концептуально определяются как ортогональные к измеряемому (встречающиеся с ним во всех комбинациях), составитель теста должен при отборе пунктов приме--нить стратегию искусственного балансирования (Готтсданкер Р., 1982); Соответствие пунктов измеряемому фактору обеспечивает конвергентную валидность теста. Сбалансированность пунктов относительно иррелевантных факторов обеспечивает дискриминантную валидностъ. Эмпирически она выражается в отсутствии значимой корреляции с тестом, измеряющим концептуально независимое свойство. С точки зрения теории Айзенка, тест Ж. Тейлор не обладает дискриминантной валидностью по отношению к факторам «экстраверсия-интроверсия», хотя и обладает определенной конвергентной валидностью по отношению к релевантному фактору - «нейротизм». Экспертная эмпирическая валидизация. В отсутствие какого-либо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретического контекста, позволяющего проверять конструктную валидность; психодиагност оказывается перед необходимостью привлечения экспертов к валидизации теста. В отличие от экспертного анализа содержания теста., эмпирическая экспертная валидизация предполагает работу экспертов не с тестом (лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации. Необходимо экспертам обеспечить стандартные условия для наблюдения за испытуемыми. Но не всегда такое стандартизованное наблюдение удается организовать. Даже если предприняты серьезные усилия по организации наблюдения за поведением испытуемых в какой-либо искусственной лабораторной ситуации, такое наблюдение все равно будет значительно уступать по информативности полевому наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта личности - как диспозиция к инвариантному поведению в широком спектре ситуаций (см. главу 4), то и отдельного полевого наблюдения окажется недостаточно для получения полноценного экспертного критерия валидности. Поэтому на практике часто прибегают к оценкам особого типа -к субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним. С учетом этого, процедура оценивания приспосабливается к обычным людям, не являющимся психологами. На психолога падает большая нагрузка по составлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой процедуры возникают при наличии группы испытуемых, тесно общающихся между собой; тех, которые могут одновременно побывать и испытуемыми по отношению к тесту, и оценщиками по отношению друг к другу. В отечественной литературе эта процедура получила сокращенное обозначение ГОЛ - «групповая оценка личности» (Кузьмин Н. В., Семенов В. С., 1977). Для того чтобы групповая оценка личности была источником действительно валидной информации, оценщики должны согласованно оценивать испытуемых. Если в оценках разных оценщиков нет согласованности, то это означает, что либо оцениваемое свойство не проявилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию. Для измерения согласованности должна быть составлена таблица с оценками (табл. 6). Таблица 6
Методы анализа данных, содержащихся в такой таблице, формально совершенно эквивалентны тем методам, которые применяются для обработки таблиц «испытуемые - пункты» (см. раздел 3.1), В частности, суммы по строкам дают суммарные баллы, полученные каждым испытуемым у всех оценщиков. Таким образом, оценщики в данном случае оказываются формально в роли пунктов теста. Рассчитывая попарные корреляции между различными столбцами этой таблицы, можно получить коэффициенты согласованности для отдельных пар оценщиков. Глобальной мерой согласованности оценщиков может служить коэффициент надежности а Кронбаха - см. формулу (3.2.8). Если же групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при проверке валидности теста. Эмпирическое значение коэффициента валидности рассчитывается как линейная или ранговая корреляция между двумя рядами значений: тестовыми баллами и суммарными баллами экспертной оценки. Это эмпирическое значение при наличии невысокого коэффициента надежности критерия корректируют по формуле (3.3.1)
где - эмпирическая корреляция с критерием; ас — надежность критерия; rtx - корреляция с «истинным» критерием («истинная» валидность теста). Анализ пунктов по критерию валидности. Валидность всего теста целиком зависит от валидности входящих в него пунктов. Максимальная валидность достигается за счет отбора таких пунктов из пилотажной батареи, которые, обладая значимой корреляцией с критерием, минимально коррелируют между собой. Отбор пунктов именно по критерию валидности обеспечивает максимальную прагматическую эффективность теста. Вручную (на калькуляторе) такой отбор можно произвести, рассчитав бисериальную корреляцию (или фи-корреляцию) критерия с каждым пунктом из пилотажной батареи, - см. формулы (3.2.15) и (3.2.17). Компьютер позволяет использовать более эффективный алгоритм, основанный на анализе частных корреляций между критерием и пунктами и предполагающий построение уравнения множественной регрессии (Аванесов В. С., 1982, с. 153-157). В результате в таком уравнении каждый пункт получает весовой коэффициент[17], количественно выражающий его вклад в критерий, не сводимый к вкладу других пунктов, т. е. поиск оптимального набора пунктов автоматизируется. X. Гаррет приводит следующую яркую иллюстрацию эффективности алгоритма, позволяющего подобрать оптимальный набор пунктов. Пусть имеется 20 пунктов, каждый из которых имеет корреляцию с критерием порядка 0,30. Оказывается, если эти пункты в среднем коррелируют друг с другом на уровне = 0,60, то множественная корреляция суммарного тестового показателя с критерием равняется 0,38, если же га = 0,30, множественная корреляция повышается до 0,52. Наконец, при rtj= 0,10 эффективность (валидность) теста достигает весьма высокого уровня: 0,79. Те же самые проблемы возникают при подборе оптимальной батареи тестов, направленных на прогнозирование какого-то одного социально ценного показателя (успеваемость, производительность труда и т. п.). Как уже указывалось в разделе 3.1, тест, обладающий высокой критериальной валидностью должен давать монотонную зависимость величины критерия от тестового балла (см. рис. 6). Для того чтобы получить монотонную линию регрессии, психодиагност должен включить в тест X только такие пункты, которые являются валидными по критерию С. В противном случае на кривой неминуемо появятся провалы[18]. Крутизну линии регрессии можно существенно повысить за счет нацеленного отбора из первоначальной батареи только таких заданий, которые обладают значимо высокой корреляцией (или регрессионным коэффициентом в уравнении множественной регрессии) с критерием. После отбора валидных пунктов должна быть произведена перекрестная валидизация (см. Анастази А., 1982, с. 197). В чем ее смысл? Если при анализе корреляций между батареей из 200 заданий и каким-то критерием получают 10 заданий, значимо коррелирующих е критерием на уровне ошибки р < 0,05, то это может быть следствием чисто случайного совпадения (сравните 10/200=0,05). Чтобы убедиться в том, что отобранные пункты теста действительно могут различать (или прогнозировать) критерий, нужно рассмотреть, как коррелируют с критерием эти пункты на другой выборке, которая не использовалась при их отборе. Простой метод реализации принципа перекрестной валидизации состоит в том, что вся выборка делится на две случайные половины и производится раздельный расчет корреляций пунктов с критерием для-. каждой половины выборки. Если выделенные (значимые) пункты совпадают, то перекрестную валидизацию можно считать удачной. Метод критериального тестирования очень трудоемок..Практически невозможно построить критериальный тест за счет одной статистики, сколь бы мощными выборками и батареями заданий мы ни располагали. Необходима работа над содержательной валидностью заданий. Критериальное тестирование имеет ограниченное применение в задачах построения методик с широкой областью применения. Следует еще раз подчеркнуть, что анализ валидности отдельных пунктов служит не только прагматическим целям, но может и должен служить целям углубления представлений о содержательно-теоретическом смысле измеряемого свойства: на основании содержательного анализа пунктов, отобранных по критерию, психолог уточняет и корректирует свою первоначальную теоретическую схему, свое понимание измеряемого свойства. Достоверность самоотчета. Рассматривая общую проблемы валидности целесообразно выделить вопрос об обеспечении валидности процедур стандартизованного самоотчета. Сюда относятся различные техники шкалирования, классифицирования, сравнения и тест-опросники. Вербальная форма тестового материала порождает у испытуемого определенные встречные гипотезы о цели тестирования. Если ситуация диктует испытуемому необходимость фальсификации ответов, то он редко отказывается от этой возможности. Валидность — характеристика любых измерений, в том числе и физических. Специфические проблемы валидности, связанные с активностью человека как объекта психодиагностики, целесообразно обозначить особым образом - проблемы обеспечения достоверности. Психологические факторы, от которых зависит достоверность самоотчета, условно можно сгруппировать в следующие классы: 1. Факторы знания. У испытуемого может быть более или менее четкое представление о следующем: а) свойственно ли ему в действительности или нет тестируемое поведенческое проявление (с некоторыми ситуациями, имплицитно подразумеваемыми в вопросе тест-опросника, испытуемый мог на практике никогда не встречаться: например, утверждение «После выигрыша в спортлото Вы покупаете больше лотерейных билетов» подразумевает, что испытуемый, во-первых, играет в спортлото и, во-вторых, выигрывает); б) какое личностное свойство скрывается у психолога за тем или иным конкретным поведением, описанным в суждении; в) как это свойство соотносится с общепринятыми моральными нормами и признаками социального успеха. 2. Фактор социальной желательности. Обозначает тенденцию испытуемого давать о себе социально одобряемую информацию. Сила этой тенденции зависит как от общей внеситуативной установки испытуемого на морализацию «Я-образа» и социальную успешность, так и от того, насколько эту установку актуализирует сама ситуация тестирования. Однако эта тенденция не будет давать систематического искажения, если испытуемые не смогут разгадать направленность теста-опросника и связать диагностируемое свойство с тем или иным полюсом социальной желательности. Таким образом, действие этого фактора до некоторой степени опосредовано действием факторов знания. Однако при диагностике личностных свойств, тесно связанных с психической «нормальностью» или «социальной успешностью», фактор социальной желательности ответа обусловливает очень серьезные искажения. 3. Факторы индивидуальной тактики. Здесь подразумевается действие «Я-концепции» («Я» для себя) и «Я-образа» («Я» для других) на ситуативную тактику испытуемого в момент тестирования. Выполняя тест, испытуемый всегда находится в невольном диалоге с самим собой и в своих ответах на вопросы раскрывает себя не только для других, но и для себя самого. Испытуемый стремится подтвердить «Я-концепцию» или фальсифицировать определенный «Я-образ» с заданными свойствами. Как правило, в ситуациях высокого социального риска «Я-образ» полностью доминирует: например, преступник при экспертизе стремится прежде всего предстать больным или неприспособленным к жизни, хотя в действительности ему было бы приятно думать о себе как о вполне адаптированном здоровом человеке. Точно так же склонны подчеркивать свои трудности и проблемы клиенты, обратившиеся за помощью к психологу или психотерапевту (чтобы вызвать к себе его повышенное внимание). В менее регламентированных ситуациях, наоборот, может доминировать мотивация самопознания: в этом случае испытуемый невольно стремится подтвердить с помощью теста свои гипотезы о самом себе. Заслуживают внимания и особые формы отказа испытуемого от тестирования: позиционный стиль ответа (соглашательство или, наоборот, отрицание), случайные ответы. Для выявления подобных отказов обычно достаточно довольно простых мер: 1) для исключения влияния соглашательства (отрицания) применяются перечни с «прямыми» (ответ «верно» в пользу измеряемого свойства) и «обратными» (ответ «неверно» в пользу измеряемого свойства) пунктами. Кроме того, производится подсчет баланса подтверждающих и отвергающих ответов: если баланс резко нарушается, то протокол признается бракованным; 2) для выявления случайных ответов в большие перечни вводят вопросы-дубли (синонимические перефразы) или прямые повторы: если испытуемый слишком часто по-разному отвечает на одинаковые вопросы, значит, он применяет случайную тактику. Вводят также и крайне редкие утверждения, с которыми испытуемые, как правило, соглашаются только по ошибке. Более изощренные методы требуются для борьбы с социальной желательностью. Ниже рассмотрены три наиболее часто используемых варианта. 1. Введение особых «шкал лжи» в диагностический вариант методики. Они составляются из вопросов-ловушек: тот или иной ответ на эти вопросы явно предопределен социальной желательностью. Если испытуемый набирает слишком высокий балл по этой шкале, его протокол бракуется. Более тонкий вариант — введение «шкал коррекции» (например, в MMPI): получение определенного балла по этим шкалам вызывает внесение поправок к баллу по другим шкалам, скоррелированным со шкалой коррекции. Величина поправок определяется коэффициентом линейной регрессии (измеренным в нормативном эксперименте) между баллами, полученными по шкале коррекции и основной диагностической шкале (шкале свойства). 2. Устранение или сбалансирование социальной желательности с помощью использования инструкции на преднамеренную фальсификацию результатов. Участникам пилотажных замеров кроме обычной инструкции дается дополнительная (во вторую очередь): «Заполните опросник от лица человека, желающего произвести самое благоприятное впечатление». Затем производится отбор пунктов на основании того, насколько процент ответов на них отличается от 50 процентов (значение, ожидаемое для пунктов, являющихся нейтральными с точки зрения социальной желательности). В качестве меры желательности в данном случае можно воспользоваться следующим коэффициентом:
(3.3.2)
где N (+) — сумма ответов «верно» на данный пункт при инструкции на фальсификацию; N (-) - сумма ответов «неверно» в тех же условиях; n - объем выборки. Значимость коэффициента приближенно оценивается по критерию «хи-квадрат», определенному формулой (3.2.14), которой в правой части вместо φ подставляется. Поскольку инструкция на преднамеренную фальсификацию создает условия, в которых социальная желательность суждений акцентируется, то значимыми следует считать такие высокие по модулю значения при которых, превышает теоретическое значение для квантиля р < 0,001. Из таблицы для распределения «хи-квадрат» находим =10,83. Таким образом, при наличии выборки объемом 50 человек. Это означает следующее: если на i-й пункт более чем 36 испытуемых из 50 ответили «верно», то его нужно отнести к положительному полюсу шкалы социальной желательности, если менее чем 14 ответили «верно» — к отрицательному. Такие пункты должны быть либо полностью исключены из опросника (что редко удается), либо количество положительных и отрицательных пунктов должно быть уравновешено. Таким образом могут быть отобраны и пункты для шкалы лжи. Суммарный балл по этой шкале распределяется так, как показано на рис. 12. В качестве критерия разделения испытуемых выбирается критическая точка, которая позволяет минимизировать ошибки типа «пропуск» (зачисление лживых испытуемых в число правдивых) и ошибки типа «ложная тревога» (зачисление правдивых в число лживых). Положение критической точки на шкале можно менять в зависимости от баланса цены двух типов ошибок: в некоторых случаях «пропуск» гораздо опаснее, чем «ложная тревога».
Рис. 12. Смещение распределения тестовых баллов по «шкале лжи» к полюсу высоких значений X при инструкции на выполнение теста-опросника с позиции «идеального» человека Фальсифицирующая инструкция используется также и для исследования степени «скрытности-открытости» формулировок вопросов. Например, испытуемым дается инструкция на симуляцию высокой тревожности по опроснику MAS Ж. Тейлор. В этом случае, как это уже было показано, ответы на многие пункты значимо изменяются. Такие пункты являются слишком открытыми — они информируют испытуемого об измеряемом свойстве и позволяют ему вносить тенденциозные искажения в результаты в своих интересах. 3. С распространением факторного анализа чаще стала применяться стратегия «балансирования социальной желательности». При этом исследователь-психометрист задается целью обеспечить дискриминативную валидность своего теста относительно шкалы «социальной желательности». Это достигается с помощью факторного анализа корреляций между пунктами. Факторный анализ в применении к одномерному тесту-опроснику, как правило, выделяет два фактора: относящийся к самому измеряемому свойству и относящийся к социальной желательности. На рис. 13 схематически представлено факторное пространство для опросника «Склонность к риску».
Рис. 13. Иллюстрация рассеяния векторов (., изображающих пункты теста-опросника в пространстве двух факторов: релевантного и иррелевантного. Выше и ниже штриховых линий - области низкой достоверности
Каждый вопрос представлен вектором, задаваемым проекцией на релевантный фактор - Склонность к риску и иррелевантные «Социальное одобрение» и «Социальное порицание». Требование конвергентной валидности по отношению к измеряемому свойству формулируется как требование к пунктам - иметь высокую проекцию (нагрузку) на горизонтальную ось. Дискриминативная валидность по отношению к социальной желательности - это требование иметь пренебрежимо малую нагрузку на вертикальную ось. Очевидно, имеются два способа устранить эффект социальной желательности: либо выкинуть все пункты, нагруженные фактором социальной желательности (выше или ниже штриховых линий, либо уравновесить их количество на полюсах социальной желательности. Понятно, что при таком способе освобождения от социальной желательности диагностическая шкала всегда оказывается так называемой «ß-шкалой», в отличие от «а-шкал», у которых максимум желательности достигается на одном из полюсов, у «ß-шкал» максимум желательности достигается в «золотой середине», т. е. линия регрессии желательности по «бетта-шкале» оказывается криволинейной (рис. 14). Если применить такой метод к построению опросника «Склонность к риску - Осторожность», то в результате диагностический конструкт автоматически становится «бета-шкалой»: и слишком высокая склонность к риску, и излишняя осторожность - одинаково нежелательны, тогда как оптимум лежит посередине между крайностями.
Рис. 14. Схематическая иллюстрация «-шкалы, связанной с фактором социальной желательности монотонной зависимостью, и ß-шкалы, связанной с этим фактором криволинейно – с максимумом в области «золотой середины» Из трех перечисленных выше методов первый относится к отсеву испытуемых и требует введения в перечень вопросов для шкалы «лжи». Второй и третий методы позволяют отобрать только такие пункты, которые обеспечивают устранение социальной желательности. Но они, как правило, трансформируют сам конструкт, который обязательно становятся ортогональным к социальной желательности. При необходимости диагностирования свойств, обязательно коррелированных с желательностью, единственный метод состоит в применении шкал коррекции и корректирующих поправок, но и этот метод нельзя считать вполне надежным. Так что диагностика свойств, сопряженных с социальной желательностью, в ситуациях экспертизы всегда рискованна. С другой стороны, в ситуации, когда сам испытуемый заинтересован в точных результатах («ситуация клиента»), психодиагност может пользоваться тестами-опросниками, не опасаясь артефакта социальной желательности. Обычно в ходе практической проверки достоверности опросника психологу при обработке результатов пилотажного исследования приходится иметь дело с матрицей данных, подобной таблице, представленной на рис.15. Ключ по шкале лжи L изображен на рис. 15 в виде второго столбца — справа от столбца, содержащего ключ по основной диагностической шкале С. Если в строке k+1 зафиксированы баллы, подсчитанные по основному ключу, то в строке k+2 - баллы, подсчитанные по ключу для шкалы лжи. Баллы Хk+2 отражают величину тенденции диссимуляции (социальной желательности) у данного испытуемого (низкие значения Хk+2 отражают тенденцию симуляции асоциальности или агравации - отягощения психической дезадаптации).
Рис. 15 Схематическое представление таблицы «пункты (t) - испытуемые (S)», вектора суммарных баллов Хk+1, вектора с баллами по шкале лжи Хk+2, вектора С со значениями ключа по основной шкале, вектора L с ключом по шкале лжи
Для успешного использования шкалы лжи пункты, относящиеся к этой шкале (имеющие ненулевые значения L), должны быть перемешаны в тестовом буклете с пунктами-вопросами, тестирующими основное психическое свойство (в противном случае -если все они собраны вместе - достоверность искусственно возрастает). Оценка достоверности пунктов достигается с помощью статистической процедуры, аналогичной процедуре измерения внутренней валидности пунктов (надежности-согласованности - см. раздел 3.2): если при измерении внутренней валидности следует прокоррелировать каждую строку 1, 2,..., k со строкой k+l, то при измерении достоверности следует прокоррелировать каждую строку 1, 2,..., k со строкой k+2 (подходят точечно-бисериальный или четырехклеточный коэффициенты корреляции). Наиболее высокие по модулю значения корреляции должны быть получены в этом случае для пунктов, из которых составлена сама шкала лжи (это подтверждает ее консистентность, дифференцирующую силу для данной выборки). Положительная значимая корреляция для г (ti., Хk+2) пункта из основной шкалы Сi О указывает на то, что данный пункт оказывается «прямым» по шкале социальной желательности; отрицательная значимая корреляция указывает на то, что данный пункт является «обратным» по этой шкале. При подготовке особенно значимого психодиагностического обследования, в котором надо принципиально исключить всякую возможность преднамеренной фальсификации результатов, следует дополнить критерий оценки достоверности с помощью особой шкалы лжи еще одним критерием, основанным на использовании «фальсифицирующей инструкции», Для этого после обычной инструкции той же самой пилотажной выборке психолог дает инструкцию: «А теперь снова выполните задание, но старайтесь описать себя так, чтобы выглядеть максимально благоприятно в глазах большинства других людей». В результате применения такой инструкции психолог получает дополнительную таблицу, аналогичную таблице на рис. 15, только содержащую фальсифицированные данные. В таком случае кроме подсчета очень грубого индекса «желательности» по формуле (3.3.2) у психолога возникает возможность поэлементного сравнения ответов испытуемых на один и тот же вопрос в обычной и фальсифицированной диагностических ситуациях. Очевидно, что недостоверным следует считать вопрос, ответы на который будут изменены в фальсифицированной ситуации в определенном систематическом направлении. Здесь пригодится простейший критерий значимости изменений, основанный на распределении «хи-квадрат» (Рунион Р., 1982, с. 57-61). Для каждого пункта строится четырехклеточная матрица сопряженности: «После» + -
«До» +
Здесь в клеточке А указана частота сохранения ответа «верно» на некоторый /-и вопрос (из 76 ответивших «верно» таких оказалось только 40 испытуемых), в клеточке В - частота изменения ответа «верно» на ответ «неверно» и т. д. Как видим, смена инструкции привела к значительным изменениям. Но для оценки значимого направления этих изменений автор критерия Макнимар предложил сравнивать между собой по критерию «хи-квадрат» только элементы В и С этой матрицы:
(3.3.3)
где - вычисленное эмпирическое значение статистики хи-квадрат с одной степенью свободы. Для нашего примера =2,91, что ниже, чем граничное значение =3,84, и, следовательно, нулевая гипотеза об отсутствии значимых направленных изменений не может быть отвергнута - пункт не является значимо нагруженным артефактным фактором социальной желательности и может быть включен в диагностический вариант теста-опросника без изменений. По результатам такого исследования удобно составить табличку К 2: в первом столбце -показатели корреляции пунктов со шкалой лжи, во втором - показатели значимости изменений при переходе к фальсификации. Безусловно достоверными можно считать только те пункты, которые не получили значимых :коэффициентов ни в первом, ни во втором столбце. Если таких пунктов оказывается слишком мало для составления надежной шкалы и если среди недостоверных пунктов достаточно много таких, которые обладают существенной внутренней (корреляция с суммарным баллом по основной шкале) или внешней (корреляция с критерием) валидностью, то следует прибегнуть к тактике балансирования: ввести в основную шкалу одинаковое количество «прямых» и «обратных» пунктов по шкале социальной желательности так, чтобы все четыре квадранта на рис. 13 были заполнены пунктами равномерно (среди «прямых» по основной шкале было бы поровну «прямых» и «обратных» по желательности, и среди «обратных» по основной - также поровну). Без указанных предосторожностей тест-опросник неизбежно будет давать систематическое искажение результатов (в сторону повышения или понижения баллов по основной шкале) всякий раз, когда испытуемый будет квалифицировать диагностическую ситуацию как ситуацию экспертизы. Указанные проблемы и приемы обеспечения достоверности относятся не только к тест-опросникам, но и к другим техникам стандартизованного самоотчета, подверженным мотивационным искажениям. Существует теоретическая возможность преодолеть все эти проблемы. Но на практике это оборачивается огромной эмпирико-методической работой. Другой путь - управление процессами категоризации в ходе самой диагностики. В так называемой «репертуарной модификации» тест-опросника испытуемому специально предлагают выполнять тест не только от своего имени, но и от имени определенного репертуара ролей: «большинство людей», «моральный человек», «преуспевающий человек» и т. п. (Шмелев А. Г. и др., 1984). Извлечение практических выгод из подобной модификации обусловлено возможностью компьютерной обработки результатов либо сразу же после тестирования, либо даже в ходе самого тестирования (см. раздел 3.6). Порядок действий психолога при проверке валидности. Очень трудно выделить универсальный алгоритм работы психолога по проверке валидности, ибо существуют различные подходы к обеспечению валидности, обусловленные теоретико-методологическими различиями определенных психологических школ. Для прагматически ориентированных тестологов (каковыми традиционно являлись до недавнего времени почти все англо-американские специалисты) главный момент - поиск операционально строго заданного социально-прагматического критерия валидности, по отношению к которому диагностические тесты и их составные части (пункты) подбираются как бы автоматически -в ходе эмпирико-статистических процедур сбора и корреляционного анализа результатов. Но, конечно, неверно было бы приписывать этому подходу «бездумность в опоре на статистику»: ведь статистика только тогда позволяет выявить валидное подмножество пунктов, когда исходное множество подобрано не случайно - с использованием априорных корректных содержательно-психологических представлений. Современные методологи психологического тестирования фактически единодушно приходят к признанию (как наиболее оптимальной) рационально-эмпирической стратегии конструирования теста и проверки валидности. Перечислим этапы этой стратегии. 1. Теоретический анализ диагностического конструкта, разработка теоретической концепции тестируемого психического свойства. Выявление (с использованием литературы) системы взаимосвязанных диагностических конструктов, внутри которой новый диагностический конструкт характеризуется определенными структурно-функциональными связями и отношениями. Прогнозирование результатов корреляционных экспериментов по проверке конструктной валидности. 2. Выделение составных частей теоретического конструкта, формулирование системы «эмпирических индикаторов» - операционально однозначных показателей, фиксирующих проявление конструкта в различных поведенческих ситуациях. Конструирование пунктов теста. 3. Формулирование релевантного социально-прагматического критерия для проверки валидности. 4. Планирование и проведение корреляционного исследования (или квазиэксперимента) на специально подобранной выборке испытуемых, для которых известно значение критериального показателя, а также результаты по родственным психологическим тестам. При необходимости на этих испытуемых проводятся дополнительные тесты с целью получить возможность корреляционной проверки конструктной валидности теста (экспертные оценки в данном случае рассматриваются в статусе одной из возможных параллельных процедур получения критериальной или психологической информации). Оценка валидности эмпирических индикаторов. 5. Исследование достоверности результатов (если используется самоотчет и диагностическая ситуация может быть воспринята испытуемыми с настороженностью). Оценка достоверности эмпирических индикаторов. 6. Отсев пунктов, не удовлетворяющих критериям валидности и достоверности. Измерение надежности для сокращенной шкалы, состоящей только из валидных пунктов. Если надежность оказывается невысокой, то психолог снова возвращается к этапу 1 - уточняет теоретические представления. Рассматривая в предыдущем разделе вопрос о порядке проверки валидности, мы вплотную подошли к вопросу о целостной стратегии создания, эмпирической апробации и внедрения методики в практику. Создание оригинальной методики или адаптация зарубежной методики не могут сводиться только к проверке (или перепроверке) отдельных психометрических свойств - репрезентативности, надежности, валидности, достоверности - в произвольной последовательности. В одних случаях целесообразно начинать с одного этапа работы, в других - с другого. В действительности любая реальная ситуация использования теста не является ситуацией только «конструирования» или только «применения». Можно без преувеличения сказать, что существует континуум между крайними полюсами:
«конструирование» __________________ «применение»
и каждая ситуация до определенной ступени удалена от обоих полюсов. Трудно назвать такой случай, когда бы конструирование совершенно нового теста начиналось с нуля, «на пустом месте». Также трудно найти и такие случаи, когда все аспекты тестирования были бы полностью неизменными и воспроизводили бы уже совершенно исследованную нормативную ситуацию применения готового теста. Но все это многообразие ситуаций, всю комбинаторику независимых параметров психологи-практики, как правило, пытаются свести к двум-трем типовым ситуациям. 1. Ситуация применения. Тест кем-то разработан (возможно, В: других социокультурных условиях), известны тестовые нормы, полученные на представителях данной языковой культуры (несоответствие выборки стандартизации и выборки применения по половозрастной структуре и профессионально-культурным признакам признается несущественным). 2. Ситуация адаптации. Тест кем-то разработан – проверены надежность и валидность, но отсутствуют тестовые нормы (как правило, отсутствуют вообще для любых представителей данной языковой культуры). Задача адаптации сводится, таким образом, к построению тестовых норм. 3. Ситуация конструирования. Есть концепция психического свойства, но нет процедуры его измерения, удовлетворяющей требованиям места, времени, возможностям количественного анализа и ограничениям прочих ресурсов. Надо придумать измерительную процедуру, проверить ее надежности валидность, построить тестовые нормы. Остановимся прежде всего на вопросах адаптации так называемых переводных тестов. Путь быстрого пополнения репертуара методик за счет множества готовых зарубежных методик кажется многим психологам наиболее экономичным, кратчайшим путем к надежной и валидной психодиагностике. Но ведь если при этом адаптация сводится только к построению нормативного распределения тестовых баллов, то это означает, что валидность и надежность адаптированной методики в новых условиях принимаются на веру, а теоретическая концепция автора теста и содержание использованных им критериев валидности просто переносятся в наши условия без изменений (ведь для любой, в том числе и для невалидной и ненадежной методики, можно получить распределение). Подобный перенос дает пренебрежимые погрешности только для тестирования относительно элементарных психических свойств (таких, как свойства нервной системы, функциональные состояния, сенсомоторные параметры, элементарные когнитивные функции, причем с использованием объективных процедур (психофизиологическая регистрация, тесты с «физическими» критериями успеха и т. п.). При тестировании интегральных психических свойств личности и индивидуального сознания (черты, мотивы, установки, самооценка, общие способности, стиль общения, ценностные ориентации, интересы и т. п.), а также при употреблении любых лингвистических средств в самой процедуре тестирования (включая не только формулировки задач, вопросов; но и исходную формулировку инструкции к тесту) и использовании культурно-специфических критериев оценки правильности.результата (определения шкального ключа) ограничиваться только сбором тестовых норм при адаптации - недопустимо! Требуется серьезная эмпирическая работа по проверке надежности и валидности в новых социокультурных условиях, работа, фактически соответствующая по своему объему созданию оригинальной методики. С этой точки зрения, заимствование зарубежных общедиагностических тестов способностей, черт характера, интересов и т. п. вовсе не оказывается кратчайшим путем к психодиагностике. Этот путь кажется короче только тем, кто сознательно или по неведению пренебрегает принципами психометрики. Перечислим необходимые этапы эмпирико-статиетической работы при адаптации многомерного переводного тест-опросника. 1. Анализ внутренней валидности, внутренней согласованности пунктов, из которых состоит тест-опросник. Этот анализ совершенно необходим, если в зарубежной методике он применялся в качестве средства самого конструирования методики. Этот-анализ призван показать, что существует некое (еще неясно, какое именно) общее диагностическое свойство, лежащее на пересечении всех эмпирических индикаторов (в центре «пучка» скоррелированных пунктов-векторов). Такой анализ обязателен по отношению ко всем тестовым шкалам, полученным с помощью факторного анализа, например к тест-опросникам EPI Айзенка и 16PF Кеттелла. А вот к опроснику «локус контроля» или ко многим основным клиническим шкалам MMPI требование внутренней согласованности применять не обязательно, так как пункты в эти шкалы подбирались по внешнему критерию и не связаны в один «пучок». Анализ внутренней согласованности может быть применен и к одномерным, и к многомерным тестам. В первом случае достаточно иметь настольный калькулятор. Для многомерных тестов необходимо использование специальной компьютерной программы «Анализ пунктов». По отношению к негомогенным шкалам анализ внутренней согласованности позволяет осуществить в снятом виде необходимую проверку информативности пунктов (процент правильных или подтверждающих ответов должен соответствовать оригинальной авторской версии). 2. Проверка устойчивости к перетестированию. Эта проверка совершенно необходима при диагностике свойств, по отношению к которым теоретически ожидается инвариантность во времени. Анализ ретестовой надежности может быть (так же как анализ надежности -согласованности) совмещен с исследованием информативности отдельных пунктов теста, а также, возможно, и устойчивости отдельных пунктов. Без сведений о ретестовой надежности психолог не имеет права использовать тест для построения любого элементарного статического экстраполирующего прогноза (см. раздел 3.5). 3. Анализ корреляций с релевантным внешним критерием. Этот этап адаптации совершенно необходим, если тест разрабатывался изначально как критериально-ориентированный, т. е. отбор пунктов производился на основании их корреляций с каким-то критерием валидности. Например, подобная работа проделана коллективом Ф. Б. Березина для сокращенной модифицированной версии MMPI (Березин Ф. Б. и др., 1976). 4. Проверка или ре стандартизация тестовых норм. Об этом этапе уже говорилось выше. К сожалению, только этот этап работы по адаптации тестов до недавнего ывремени признавался всеми психологами как необходимый. Но и в этом случае далеко не всегда воспроизводилась необходимая статистическая работа по проверке устойчивости полученного распределения тестовых баллов к расщеплению выборки (см. раздел 3.1). 5. Специфичный этап для многомерных тестов - проверка воспроизводимости структуры отношений между шкалами. Например, для теста Айзенка принципиальна ортогональность, статистическая независимость факторов «экстраверсия - интроверсия» и «нейротизм - стабильность». На воспроизводимости структуры связей шкал между факторами 16PF основывается корректность подсчета вторичных факторов (Ямпольский Л. Г., 1981; Мельников В. М., Ямпольский Л. Г., 1985). Даже беглый взгляд на пять перечисленных этапов позволяет убедиться в том, что адаптация зарубежных тестов мало чем уступает по объему эмпирико-статистической работы созданию оригинальных методик. Здесь было бы даже более адекватным использование не термина «адаптация», а выражения «исследование зарубежной методики на отечественной выборке». Тем не менее не следует понимать сказанное как призыв к полному отказу от работы с зарубежными методиками. Нет, конечно же, такая работа должна проводится интенсивно и планомерно. Особенно по отношению к тем методикам, которые уже получили международное распространение, доказали свою кросскультурную универсальность, адаптированы и успешно применяются во многих странах. Создание отечественных эквивалентов международных тестов позволяет использовать международный опыт валидизации, теоретического осмысления и практического использования этих тестов. Сравнение результатов, структурно-функциональных характеристик адаптированных зарубежных и отечественных тестов позволит российским психологам глубже понять, установить на конкретно-эмпирическом уровне специфику влияния образа жизни на психологический склад личности россиян, раскрыть разнообразие исторических и актуальных детерминант, обусловливающих социально полезные и социально вредные тенденции в психологической дифференциации индивидов в современных условиях, что совершенно необходимо для научного управления процессами воспитания и формирования человека. Особые задачи ставит перед психологом ситуация «внутрикуль-турного переноса» теста на новую популяцию, отличающуюся от выборки стандартизации половозрастными или профессионально-культурными особенностями. В этом случае необходимо: 1. Проверить валидность методики в тмо случае, если методика чувствительна по своему содержанию к профессиональной или региональной специфике (могут ли отвечать пенсионеры, или школьники, или жители отдаленных регионов на вопросы, подразумевающие типичные ситуации из жизни студента, обучающегося в крупном городе европейской части России?). Для этого надо выбрать по возможности максимально экономичную процедуру проверки валидности. Размеры выборки в эксперименте по проверке валидности должны быть такими, чтобы можно было надеяться на получение статистических значимых связей между тестовым показателем и критерием валидности (это, как правило, не менее 30 испытуемых). Если результаты проверки валидности оказываются неудовлетворительными (коэффициент корреляции явно ниже 0,5, и дальнейшее наращивание выборки все равно не оправдает применение.теста со столь низким показателем валидности), то по собранным результатам следует произвести простейший анализ пунктов: посмотреть, не оказались ли некоторые пункты явно неинформативными (все испытуемые отвечают одинаково), не оказались ли некоторые вопросы явно бессмысленными или слишком «прямыми», социально значимыми в данной ситуации. Не исключено, что при исключении неудачных пунктов из подсчета тестового балла (после приравнивания С=0).,искомая валидность будет обнаружена. В отсутствие доступного внешнего критерия необходимо прибегнуть к проверке внутренней валидности, консистентности методики. 2. Проверить соответствия тестовых норм. Только после получения позитивного результата при проверке валидности целесообразно расширять выборку и реконструировать эмпирическое распределение тестовых баллов (см. раздел 3.1). Квантили этого распределения необходимо сравнить с квантилями нормативного распределения; если расхождения оказываются пренебрежимыми (не превышают ошибку измерения), то, можно принять вывод о приложимости к данной популяции универсальных тестовых норм. Но на к практике чаще возникают значимые отличия (оценка близости двух распределений производится по формуле (3.1.15) на с. 9.6). В этом случае психолог должен построить так называемые частные тестовые нормы, причем не только для использования в собственной диагностической практике, но и для пополнения информационно-методического банка данных отечественной психодиагностики (копию таблицы распределения тестовых баллов психолог должен послать в тот диагностический методический центр, с которым он поддерживает методические связи - получает методические материалы, проходит переподготовку и т. п.). Подчеркнем, что абсолютное большинство ситуаций, которые обычно расцениваются как ситуации «применения», на самом деле являются ситуациями более или менее серьезного «внутрикультурного переноса». Именно эти обстоятельства предопределяют высокий уровень требований к психометрической подготовке психологов-психодиагностов (см. раздел 3.6). При создании методики, как это уже было сказано в предыдущем разделе, решающее значение имеют методологическая ориентация и статус психолога. Под статусом в данном случае понимаются существенные различия в нормативных (закрепленных в должностных инструкциях) требованиях к продукту деятельности психолога, работающего в исследовательском учреждении, и психолога, работающего в практическом учреждении. Если в первом случае психолог имеет право считать своим «конечным продуктом» внутрипсихологическую валидизацию сконструированной методики, то во втором случае он, как правило, обязан обеспечить практическую эффективность своей психодиагностической программы - указать на статистически значимую связь результатов диагностики с величиной какого-то социально ценного показателя - критерия, а затем построить на основе этой связи психологическую концепцию «вмешательства» (административного или психологического воздействия на ситуацию с целью ее изменения в желаемом направлении – в сторону максимизации данного показателя). Указанные изначальные различия в статусах психолога-исследователя и психолога-практика предопределяют оправданные различия в стратегии конструирования тестов и тестовых батарей. Для психолога-исследователя главная ценность - это теоретическая обоснованность и эмпирическая однозначность диагностического конструкта, которой он достигает с помощью оправданной ориентации на конструктную валидизацию. У исследователя хватает ресурсов для того, чтобы обеспечить множественность разнообразных по своему статусу критериев валидности - от субъективных оценок валидности включенных наблюдателей (L-данные по Кеттеллу) до экспериментального моделирования реальных ситуаций проявления измеряемого свойства (Г-данные по Кеттеллу, см. также: Мельников В. М., Ямпольский Л. Г., 1985). Для психолога-практика главная ценность - это эффективность, пусть даже она будет достигнута с помощью теоретически эклектичного инструмента - эмпирического средства, не имеющего соответствующего научно строгого конструкта. Появление и размножение прагматических тестов, очевидно, обусловлено действием объективного социально-исторического механизма, который можно было бы кратко назвать «опережающим запросом практики». Этого феномена не было бы, если бы все запросы практики можно было заранее предвидеть и рационально спланировать, подготавливая релевантные научно обоснованные диагностические процедуры. Но такое предвидение всегда удается осуществить лишь в определенной мере - реальная практика тем и отличается от дедуктивного движения в плоскости абстракций, что всегда приводит к столкновению с новыми и неожиданными явлениями, что обусловливает и появление неожиданных запросов. Большинство ценных прагматических тестов с исторической неизбежностью становятся предметом для изучения со стороны психологов-исследователей, апостериорно реконструирующих научную концепцию валидности этих тестов, что значительно улучшает их характеристики и адекватизирует сферу применения. Психодиагностика как специфический институт, реализованный в форме управляющего кольца «наука - практика - наука - практика...», достигнет оптимальных режимов в своем функционировании, если любые попытки конструирования и применения любых тестов будут тщательно документироваться, будут доступны для повторения в любом звене (исследовательском или практическом) психологической службы. При обеспечении эффективной информационной базы, оперативных форм информационной связи между звеньями этой системы (как методологическими, так и практическими) всякое практическое применение тестов станет одновременно и работой по созданию новых методик.
Дата добавления: 2014-10-23; Просмотров: 451; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |