Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Технология создания и адаптации методик




Рис, 11. Связь эмпирических показателей П1, П2, П, с релевантным (измеряемым) фактором А и с иррелевантными («шумовыми») факторами X, Y, Z, обусловливающими невалидность показателей

 

Таким обра­зом, по отношению к факторам, которые концептуально определяют­ся как ортогональные к измеряемому (встречающиеся с ним во всех комбинациях), составитель теста должен при отборе пунктов приме--нить стратегию искусственного балансирования (Готтсданкер Р., 1982);

Соответствие пунктов измеряемому фактору обеспечивает конвергентную валидность теста. Сбалансированность пунктов относи­тельно иррелевантных факторов обеспечивает дискриминантную валидностъ. Эмпирически она выражается в отсутствии значимой кор­реляции с тестом, измеряющим концептуально независимое свойство.

С точки зрения теории Айзенка, тест Ж. Тейлор не обладает дискриминантной валидностью по отношению к факторам «экстраверсия-интроверсия», хотя и обладает определенной конвергентной ва­лидностью по отношению к релевантному фактору - «нейротизм».

Экспертная эмпирическая валидизация. В отсутствие какого-либо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретического кон­текста, позволяющего проверять конструктную валидность; психодиагност оказывается перед необходимостью привлечения экс­пертов к валидизации теста. В отличие от экспертного анализа содер­жания теста., эмпирическая экспертная валидизация предполагает ра­боту экспертов не с тестом (лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации.

Необходимо экспертам обеспечить стандартные условия для на­блюдения за испытуемыми. Но не всегда такое стандартизованное на­блюдение удается организовать. Даже если предприняты серьезные усилия по организации наблюдения за поведением испытуемых в ка­кой-либо искусственной лабораторной ситуации, такое наблюдение все равно будет значительно уступать по информативности полевому наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта лич­ности - как диспозиция к инвариантному поведению в широком спек­тре ситуаций (см. главу 4), то и отдельного полевого наблюдения ока­жется недостаточно для получения полноценного экспертного критерия валидности.

Поэтому на практике часто прибегают к оценкам особого типа -к субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним. С учетом этого, про­цедура оценивания приспосабливается к обычным людям, не являю­щимся психологами. На психолога падает большая нагрузка по со­ставлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой процедуры возникают при наличии группы испытуемых, тесно общаю­щихся между собой; тех, которые могут одновременно побывать и испытуемыми по отношению к тесту, и оценщиками по отношению друг к другу. В отечественной литературе эта процедура получила со­кращенное обозначение ГОЛ - «групповая оценка личности» (Кузь­мин Н. В., Семенов В. С., 1977).

Для того чтобы групповая оценка личности была источником дей­ствительно валидной информации, оценщики должны согласованно оценивать испытуемых. Если в оценках разных оценщиков нет согла­сованности, то это означает, что либо оцениваемое свойство не про­явилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию. Для измерения согласованности должна быть составлена таблица с оценками (табл. 6).

Таблица 6

Оценщики Испытуемые О1 О2 Оk  
И1 x11 x12 x1k C1
И2 x21 x22   x2k C2
         
Иn xn1 xn2   xnk Cn

 

Методы анализа данных, содержащихся в такой таблице, формаль­но совершенно эквивалентны тем методам, которые применяются для обработки таблиц «испытуемые - пункты» (см. раздел 3.1), В частно­сти, суммы по строкам дают суммарные баллы, полученные каждым испытуемым у всех оценщиков. Таким образом, оценщики в данном случае оказываются формально в роли пунктов теста. Рассчитывая попарные корреляции между различными столбцами этой таблицы, можно получить коэффициенты согласованности для отдельных пар оценщиков. Глобальной мерой согласованности оценщиков может служить коэффициент надежности а Кронбаха - см. формулу (3.2.8).

Если же групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при про­верке валидности теста.

Эмпирическое значение коэффициента валидности рассчитыва­ется как линейная или ранговая корреляция между двумя рядами зна­чений: тестовыми баллами и суммарными баллами экспертной оцен­ки. Это эмпирическое значение при наличии невысокого коэффици­ента надежности критерия корректируют по формуле

(3.3.1)

 

где - эмпирическая корреляция с критерием;

ас — надежность критерия;

rtx - корреляция с «истинным» критерием («истинная» валидность теста).

Анализ пунктов по критерию валидности. Валидность всего тес­та целиком зависит от валидности входящих в него пунктов. Макси­мальная валидность достигается за счет отбора таких пунктов из пи­лотажной батареи, которые, обладая значимой корреляцией с крите­рием, минимально коррелируют между собой. Отбор пунктов имен­но по критерию валидности обеспечивает максимальную прагматическую эффективность теста. Вручную (на калькуляторе) та­кой отбор можно произвести, рассчитав бисериальную корреляцию (или фи-корреляцию) критерия с каждым пунктом из пилотажной батареи, - см. формулы (3.2.15) и (3.2.17). Компьютер позволяет ис­пользовать более эффективный алгоритм, основанный на анализе ча­стных корреляций между критерием и пунктами и предполагающий построение уравнения множественной регрессии (Аванесов В. С., 1982, с. 153-157). В результате в таком уравнении каждый пункт по­лучает весовой коэффициент[17], количественно выражающий его вклад в критерий, не сводимый к вкладу других пунктов, т. е. поиск опти­мального набора пунктов автоматизируется. X. Гаррет приводит сле­дующую яркую иллюстрацию эффективности алгоритма, позволяю­щего подобрать оптимальный набор пунктов. Пусть имеется 20 пунк­тов, каждый из которых имеет корреляцию с критерием порядка 0,30. Оказывается, если эти пункты в среднем коррелируют друг с другом на уровне = 0,60, то множественная корреляция суммарного тесто­вого показателя с критерием равняется 0,38, если же га = 0,30, мно­жественная корреляция повышается до 0,52. Наконец, при rtj= 0,10

эффективность (валидность) теста достигает весьма высокого уров­ня: 0,79. Те же самые проблемы возникают при подборе оптимальной батареи тестов, направленных на прогнозирование какого-то одного социально ценного показателя (успеваемость, производительность труда и т. п.).

Как уже указывалось в разделе 3.1, тест, обладающий высокой критериальной валидностью должен давать монотонную зависимость величины критерия от тестового балла (см. рис. 6). Для того чтобы получить монотонную линию регрессии, психодиагност должен вклю­чить в тест X только такие пункты, которые являются валидными по критерию С. В противном случае на кривой неминуемо появятся про­валы[18]. Крутизну линии регрессии можно существенно повысить за счет нацеленного отбора из первоначальной батареи только таких за­даний, которые обладают значимо высокой корреляцией (или регрес­сионным коэффициентом в уравнении множественной регрессии) с критерием.

После отбора валидных пунктов должна быть произведена пере­крестная валидизация (см. Анастази А., 1982, с. 197). В чем ее смысл? Если при анализе корреляций между батареей из 200 заданий и ка­ким-то критерием получают 10 заданий, значимо коррелирующих е критерием на уровне ошибки р < 0,05, то это может быть следствием чисто случайного совпадения (сравните 10/200=0,05). Чтобы убедиться в том, что отобранные пункты теста действительно могут различать (или прогнозировать) критерий, нужно рассмотреть, как коррелиру­ют с критерием эти пункты на другой выборке, которая не использо­валась при их отборе.

Простой метод реализации принципа перекрестной валидизации состоит в том, что вся выборка делится на две случайные половины и производится раздельный расчет корреляций пунктов с критерием для-. каждой половины выборки. Если выделенные (значимые) пункты совпадают, то перекрестную валидизацию можно считать удачной.

Метод критериального тестирования очень трудоемок..Прак­тически невозможно построить критериальный тест за счет одной статистики, сколь бы мощными выборками и батареями заданий мы ни располагали. Необходима работа над содержательной валидностью заданий. Критериальное тестирование имеет ограни­ченное применение в задачах построения методик с широкой областью применения.

Следует еще раз подчеркнуть, что анализ валидности отдельных пунктов служит не только прагматическим целям, но может и должен служить целям углубления представлений о содержательно-теоретическом смысле измеряемого свойства: на основании содержательно­го анализа пунктов, отобранных по критерию, психолог уточняет и корректирует свою первоначальную теоретическую схему, свое по­нимание измеряемого свойства.

Достоверность самоотчета. Рассматривая общую проблемы валидности целесообразно выделить вопрос об обеспечении ва­лидности процедур стандартизованного самоотчета. Сюда относят­ся различные техники шкалирования, классифицирования, срав­нения и тест-опросники. Вербальная форма тестового материала порождает у испытуемого определенные встречные гипотезы о цели тестирования. Если ситуация диктует испытуемому необходимость фальсификации ответов, то он редко отказывается от этой возмож­ности.

Валидность — характеристика любых измерений, в том числе и физических. Специфические проблемы валидности, связанные с актив­ностью человека как объекта психодиагностики, целесообразно обозначить особым образом - проблемы обеспечения достоверности.

Психологические факторы, от которых зависит достоверность са­моотчета, условно можно сгруппировать в следующие классы:

1. Факторы знания. У испытуемого может быть более или менее четкое представление о следующем: а) свойственно ли ему в действи­тельности или нет тестируемое поведенческое проявление (с некото­рыми ситуациями, имплицитно подразумеваемыми в вопросе тест-оп­росника, испытуемый мог на практике никогда не встречаться: напри­мер, утверждение «После выигрыша в спортлото Вы покупаете боль­ше лотерейных билетов» подразумевает, что испытуемый, во-первых, играет в спортлото и, во-вторых, выигрывает); б) какое личностное свой­ство скрывается у психолога за тем или иным конкретным поведением, описанным в суждении; в) как это свойство соотносится с общеприня­тыми моральными нормами и признаками социального успеха.

2. Фактор социальной желательности. Обозначает тенденцию испытуемого давать о себе социально одобряемую информацию. Сила этой тенденции зависит как от общей внеситуативной установки испы­туемого на морализацию «Я-образа» и социальную успешность, так и от того, насколько эту установку актуализирует сама ситуация тестиро­вания. Однако эта тенденция не будет давать систематического искаже­ния, если испытуемые не смогут разгадать направленность теста-оп­росника и связать диагностируемое свойство с тем или иным полюсом социальной желательности. Таким образом, действие этого фактора до некоторой степени опосредовано действием факторов знания. Однако при диагностике личностных свойств, тесно связанных с психической «нормальностью» или «социальной успешностью», фактор социальной желательности ответа обусловливает очень серьезные искажения.

3. Факторы индивидуальной тактики. Здесь подразумевается действие «Я-концепции» («Я» для себя) и «Я-образа» («Я» для дру­гих) на ситуативную тактику испытуемого в момент тестирования. Выполняя тест, испытуемый всегда находится в невольном диалоге с самим собой и в своих ответах на вопросы раскрывает себя не только для других, но и для себя самого. Испытуемый стремится подтвер­дить «Я-концепцию» или фальсифицировать определенный «Я-образ» с заданными свойствами. Как правило, в ситуациях высокого соци­ального риска «Я-образ» полностью доминирует: например, преступ­ник при экспертизе стремится прежде всего предстать больным или неприспособленным к жизни, хотя в действительности ему было бы приятно думать о себе как о вполне адаптированном здоровом чело­веке. Точно так же склонны подчеркивать свои трудности и проблемы клиенты, обратившиеся за помощью к психологу или психотера­певту (чтобы вызвать к себе его повышенное внимание). В менее рег­ламентированных ситуациях, наоборот, может доминировать мотива­ция самопознания: в этом случае испытуемый невольно стремится подтвердить с помощью теста свои гипотезы о самом себе.

Заслуживают внимания и особые формы отказа испытуемого от тестирования: позиционный стиль ответа (соглашательство или, на­оборот, отрицание), случайные ответы. Для выявления подобных от­казов обычно достаточно довольно простых мер: 1) для исключения влияния соглашательства (отрицания) применяются перечни с «пря­мыми» (ответ «верно» в пользу измеряемого свойства) и «обратны­ми» (ответ «неверно» в пользу измеряемого свойства) пунктами. Кро­ме того, производится подсчет баланса подтверждающих и отверга­ющих ответов: если баланс резко нарушается, то протокол признает­ся бракованным; 2) для выявления случайных ответов в большие перечни вводят вопросы-дубли (синонимические перефразы) или пря­мые повторы: если испытуемый слишком часто по-разному отвечает на одинаковые вопросы, значит, он применяет случайную тактику. Вводят также и крайне редкие утверждения, с которыми испытуемые, как правило, соглашаются только по ошибке.

Более изощренные методы требуются для борьбы с социальной желательностью. Ниже рассмотрены три наиболее часто используе­мых варианта.

1. Введение особых «шкал лжи» в диагностический вариант методики. Они составляются из вопросов-ловушек: тот или иной ответ на эти вопросы явно предопределен социальной желательностью. Если испытуемый набирает слишком высокий балл по этой шкале, его протокол бракуется. Более тонкий вариант — введение «шкал коррекции» (например, в MMPI): получение определенного балла по этим шкалам вызывает внесение поправок к баллу по другим шкалам, скоррелированным со шкалой коррекции. Величина поправок определяется коэффициентом линейной регрессии (измеренным в нормативном эксперименте) между баллами, полученными по шкале коррекции и основной диагностической шкале (шкале свойства).

2. Устранение или сбалансирование социальной желательности с помощью использования инструкции на преднамеренную фальсификацию результатов. Участникам пилотажных замеров кроме обычной инструкции дается дополнительная (во вторую очередь): «Заполните опросник от лица человека, желающего произвести самое благопри­ятное впечатление». Затем производится отбор пунктов на основании того, насколько процент ответов на них отличается от 50 процентов (значение, ожидаемое для пунктов, являющихся нейтральными с точ­ки зрения социальной желательности).

В качестве меры желательности в данном случае можно восполь­зоваться следующим коэффициентом:

 

(3.3.2)

 

где N (+) — сумма ответов «верно» на данный пункт при инструкции на фальсификацию;

N (-) - сумма ответов «неверно» в тех же условиях;

n - объем выборки.

Значимость коэффициента приближенно оценивается по крите­рию «хи-квадрат», определенному формулой (3.2.14), которой в пра­вой части вместо φ подставляется.

Поскольку инструкция на преднамеренную фальсификацию соз­дает условия, в которых социальная желательность суждений акцен­тируется, то значимыми следует считать такие высокие по модулю значения при которых, превышает теоретическое значение для квантиля

р < 0,001. Из таблицы для распределения «хи-квад­рат» находим =10,83. Таким образом, при наличии выборки объе­мом 50 человек. Это означает следующее: если

на i-й пункт более чем 36 испытуемых из 50 ответили «верно», то его нужно отнести к положительному полюсу шкалы социальной жела­тельности, если менее чем 14 ответили «верно» — к отрицательному. Такие пункты должны быть либо полностью исключены из опросни­ка (что редко удается), либо количество положительных и отрицатель­ных пунктов должно быть уравновешено.

Таким образом могут быть отобраны и пункты для шкалы лжи. Суммарный балл по этой шкале распределяется так, как показано на рис. 12. В качестве критерия разделения испытуемых выбирается критическая точка, которая позволяет минимизировать ошибки типа «про­пуск» (зачисление лживых испытуемых в число правдивых) и ошиб­ки типа «ложная тревога» (зачисление правдивых в число лживых). Положение критической точки на шкале можно менять в зависимос­ти от баланса цены двух типов ошибок: в некоторых случаях «про­пуск» гораздо опаснее, чем «ложная тревога».

 

 

Рис. 12. Смещение распределения тестовых баллов по «шкале лжи» к полюсу высоких значений X при инструкции на выполнение теста-опросника с позиции «идеального» человека

Фальсифицирующая инструкция используется также и для иссле­дования степени «скрытности-открытости» формулировок вопросов. Например, испытуемым дается инструкция на симуляцию высокой тревожности по опроснику MAS Ж. Тейлор. В этом случае, как это уже было показано, ответы на многие пункты значимо изменяются. Такие пункты являются слишком открытыми — они информируют испытуемого об измеряемом свойстве и позволяют ему вносить тен­денциозные искажения в результаты в своих интересах.

3. С распространением факторного анализа чаще стала приме­няться стратегия «балансирования социальной желательности». При этом исследователь-психометрист задается целью обеспечить дискриминативную валидность своего теста относительно шкалы «соци­альной желательности». Это достигается с помощью факторного ана­лиза корреляций между пунктами. Факторный анализ в применении к одномерному тесту-опроснику, как правило, выделяет два фактора: относящийся к самому измеряемому свойству и относящийся к соци­альной желательности. На рис. 13 схематически представлено фак­торное пространство для опросника «Склонность к риску».

 

 

 

Рис. 13. Иллюстрация рассеяния векторов (., изображающих пункты теста-опросника в пространстве двух факторов: релевантного и иррелевантного. Выше и ниже штриховых линий - области низкой достоверности

 

Каждый вопрос представлен вектором, задаваемым проекцией на релевантный фактор - Склонность к риску и иррелевантные «Социаль­ное одобрение» и «Социальное порицание». Требование конвергент­ной валидности по отношению к измеряемому свойству формулирует­ся как требование к пунктам - иметь высокую проекцию (нагрузку) на горизонтальную ось. Дискриминативная валидность по отношению к социальной желательности - это требование иметь пренебрежимо ма­лую нагрузку на вертикальную ось. Очевидно, имеются два способа устранить эффект социальной желательности: либо выкинуть все пун­кты, нагруженные фактором социальной желательности (выше или ниже штриховых линий, либо уравновесить их количество на полюсах соци­альной желательности.

Понятно, что при таком способе освобождения от социальной же­лательности диагностическая шкала всегда оказывается так называе­мой «ß-шкалой», в отличие от «а-шкал», у которых максимум жела­тельности достигается на одном из полюсов, у «ß-шкал» максимум желательности достигается в «золотой середине», т. е. линия регрес­сии желательности по «бетта-шкале» оказывается криволинейной (рис. 14). Если применить такой метод к построению опросника «Склон­ность к риску - Осторожность», то в результате диагностический кон­структ автоматически становится «бета-шкалой»: и слишком высокая склонность к риску, и излишняя осторожность - одинаково нежелатель­ны, тогда как оптимум лежит посередине между крайностями.

 

 

Рис. 14. Схематическая иллюстрация «-шкалы, связанной с фактором социальной желательности монотонной зависимостью, и ß-шкалы, связанной с этим фактором криволинейно – с максимумом в области «золотой середины»

Из трех перечисленных выше методов первый относится к отсеву испытуемых и требует введения в перечень вопросов для шкалы «лжи». Второй и третий методы позволяют отобрать только такие пункты, ко­торые обеспечивают устранение социальной желательности. Но они, как правило, трансформируют сам конструкт, который обязательно ста­новятся ортогональным к социальной желательности. При необходи­мости диагностирования свойств, обязательно коррелированных с же­лательностью, единственный метод состоит в применении шкал кор­рекции и корректирующих поправок, но и этот метод нельзя считать вполне надежным. Так что диагностика свойств, сопряженных с соци­альной желательностью, в ситуациях экспертизы всегда рискованна.

С другой стороны, в ситуации, когда сам испытуемый заинтере­сован в точных результатах («ситуация клиента»), психодиагност мо­жет пользоваться тестами-опросниками, не опасаясь артефакта соци­альной желательности.

Обычно в ходе практической проверки достоверности опросника психологу при обработке результатов пилотажного исследования при­ходится иметь дело с матрицей данных, подобной таблице, представ­ленной на рис.15.

Ключ по шкале лжи L изображен на рис. 15 в виде второго столб­ца — справа от столбца, содержащего ключ по основной диагности­ческой шкале С. Если в строке k+1 зафиксированы баллы, подсчитан­ные по основному ключу, то в строке k+2 - баллы, подсчитанные по ключу для шкалы лжи. Баллы Хk+2 отражают величину тенденции диссимуляции (социальной желательности) у данного испытуемого (низкие значения Хk+2 отражают тенденцию симуляции асоциальности или агравации - отягощения психической дезадаптации).

 

 

Рис. 15 Схематическое представление таблицы «пункты (t) - испытуемые (S)», вектора суммарных баллов Хk+1, вектора с баллами по шкале лжи Хk+2, вектора С со значениями ключа по основной шкале, вектора L с ключом по шкале лжи

 

Для успешного использо­вания шкалы лжи пункты, от­носящиеся к этой шкале (име­ющие ненулевые значения L), должны быть перемешаны в тестовом буклете с пунктами-вопросами, тестирующими основное психическое свой­ство (в противном случае -если все они собраны вмес­те - достоверность искусст­венно возрастает).

Оценка достоверности пунктов достигается с помо­щью статистической проце­дуры, аналогичной процеду­ре измерения внутренней валидности пунктов (надежно­сти-согласованности - см. раздел 3.2): если при измере­нии внутренней валидности следует прокоррелировать каждую строку 1, 2,..., k со строкой k+l, то при измерении достоверности следует прокоррелировать каждую строку 1, 2,..., k со строкой k+2 (подходят точечно-бисериальный или четырехклеточный коэффициенты корреляции). Наиболее высокие по модулю значе­ния корреляции должны быть получены в этом случае для пунктов, из которых составлена сама шкала лжи (это подтверждает ее консистентность, дифференцирующую силу для данной выборки). Положитель­ная значимая корреляция для г (ti., Хk+2) пункта из основной шкалы Сi О указывает на то, что данный пункт оказывается «прямым» по шкале социальной желательности; отрицательная значимая корреляция ука­зывает на то, что данный пункт является «обратным» по этой шкале.

При подготовке особенно значимого психодиагностического обсле­дования, в котором надо принципиально исключить всякую возмож­ность преднамеренной фальсификации результатов, следует дополнить критерий оценки достоверности с помощью особой шкалы лжи еще одним критерием, основанным на использовании «фальсифицирующей инструкции», Для этого после обычной инструкции той же самой пи­лотажной выборке психолог дает инструкцию: «А теперь снова выпол­ните задание, но старайтесь описать себя так, чтобы выглядеть макси­мально благоприятно в глазах большинства других людей». В резуль­тате применения такой инструкции психолог получает дополнитель­ную таблицу, аналогичную таблице на рис. 15, только содержащую фаль­сифицированные данные. В таком случае кроме подсчета очень грубого индекса «желательности» по формуле (3.3.2) у психолога возникает возможность поэлементного сравнения ответов испытуемых на один и тот же вопрос в обычной и фальсифицированной диагностических си­туациях. Очевидно, что недостоверным следует считать вопрос, отве­ты на который будут изменены в фальсифицированной ситуации в оп­ределенном систематическом направлении. Здесь пригодится простей­ший критерий значимости изменений, основанный на распределении «хи-квадрат» (Рунион Р., 1982, с. 57-61). Для каждого пункта строится четырехклеточная матрица сопряженности:

«После»

+ -

А=40 В=36
С=22 D=48

«До» +

 

 

Здесь в клеточке А указана частота сохранения ответа «верно» на некоторый /-и вопрос (из 76 ответивших «верно» таких оказалось толь­ко 40 испытуемых), в клеточке В - частота изменения ответа «верно» на ответ «неверно» и т. д. Как видим, смена инструкции привела к значительным изменениям. Но для оценки значимого направления этих изменений автор критерия Макнимар предложил сравнивать между собой по критерию «хи-квадрат» только элементы В и С этой матрицы:

 

(3.3.3)

 

где - вычисленное эмпирическое значение статистики хи-квадрат

с одной степенью свободы. Для нашего примера =2,91, что ниже, чем граничное значение =3,84, и, следовательно, нулевая гипоте­за об отсутствии значимых направленных изменений не может быть отвергнута - пункт не является значимо нагруженным артефактным фактором социальной желательности и может быть включен в диаг­ностический вариант теста-опросника без изменений.

По результатам такого исследования удобно составить табличку К 2: в первом столбце -показатели корреляции пунктов со шкалой лжи, во втором - показатели значимости изменений при переходе к фальсификации. Безусловно достоверными можно считать только те пункты, которые не получили значимых :коэффициентов ни в первом, ни во втором столбце. Если таких пунктов оказывается слишком мало для составления надежной шкалы и если среди недостоверных пунктов достаточно много таких, которые обладают существенной внут­ренней (корреляция с суммарным баллом по основной шкале) или внешней (корреляция с критерием) валидностью, то следует прибегнуть к тактике балансирования: ввести в основную шкалу одинако­вое количество «прямых» и «обратных» пунктов по шкале социаль­ной желательности так, чтобы все четыре квадранта на рис. 13 были заполнены пунктами равномерно (среди «прямых» по основной шка­ле было бы поровну «прямых» и «обратных» по желательности, и среди «обратных» по основной - также поровну).

Без указанных предосторожностей тест-опросник неизбежно бу­дет давать систематическое искажение результатов (в сторону по­вышения или понижения баллов по основной шкале) всякий раз, ког­да испытуемый будет квалифицировать диагностическую ситуацию как ситуацию экспертизы.

Указанные проблемы и приемы обеспечения достоверности от­носятся не только к тест-опросникам, но и к другим техникам стан­дартизованного самоотчета, подверженным мотивационным искаже­ниям. Существует теоретическая возможность преодолеть все эти проблемы. Но на практике это оборачивается огромной эмпирико-методической работой.

Другой путь - управление процессами категоризации в ходе са­мой диагностики. В так называемой «репертуарной модификации» тест-опросника испытуемому специально предлагают выполнять тест не только от своего имени, но и от имени определенного репертуара ролей: «большинство людей», «моральный человек», «преуспевающий человек» и т. п. (Шмелев А. Г. и др., 1984). Извлечение практических выгод из подобной модификации обусловлено возможностью компь­ютерной обработки результатов либо сразу же после тестирования, либо даже в ходе самого тестирования (см. раздел 3.6).

Порядок действий психолога при проверке валидности. Очень трудно выделить универсальный алгоритм работы психолога по про­верке валидности, ибо существуют различные подходы к обеспече­нию валидности, обусловленные теоретико-методологическими раз­личиями определенных психологических школ. Для прагматически ориентированных тестологов (каковыми традиционно являлись до не­давнего времени почти все англо-американские специалисты) глав­ный момент - поиск операционально строго заданного социально-прагматического критерия валидности, по отношению к которому ди­агностические тесты и их составные части (пункты) подбираются как бы автоматически -в ходе эмпирико-статистических процедур сбора и корреляционного анализа результатов. Но, конечно, неверно было бы приписывать этому подходу «бездумность в опоре на статистику»: ведь статистика только тогда позволяет выявить валидное подмноже­ство пунктов, когда исходное множество подобрано не случайно - с использованием априорных корректных содержательно-психологичес­ких представлений.

Современные методологи психологического тестирования факти­чески единодушно приходят к признанию (как наиболее оптималь­ной) рационально-эмпирической стратегии конструирования теста и проверки валидности. Перечислим этапы этой стратегии.

1. Теоретический анализ диагностического конструкта, разработка теоретической концепции тестируемого психического свойства. Вы­явление (с использованием литературы) системы взаимосвязанных ди­агностических конструктов, внутри которой новый диагностический конструкт характеризуется определенными структурно-функциональ­ными связями и отношениями. Прогнозирование результатов корре­ляционных экспериментов по проверке конструктной валидности.

2. Выделение составных частей теоретического конструкта, фор­мулирование системы «эмпирических индикаторов» - операциональ­но однозначных показателей, фиксирующих проявление конструкта в различных поведенческих ситуациях. Конструирование пунктов теста.

3. Формулирование релевантного социально-прагматического критерия для проверки валидности.

4. Планирование и проведение корреляционного исследования (или квазиэксперимента) на специально подобранной выборке испы­туемых, для которых известно значение критериального показателя, а также результаты по родственным психологическим тестам. При необходимости на этих испытуемых проводятся дополнительные те­сты с целью получить возможность корреляционной проверки конст­руктной валидности теста (экспертные оценки в данном случае рас­сматриваются в статусе одной из возможных параллельных процедур получения критериальной или психологической информации). Оцен­ка валидности эмпирических индикаторов.

5. Исследование достоверности результатов (если используется самоотчет и диагностическая ситуация может быть воспринята ис­пытуемыми с настороженностью). Оценка достоверности эмпиричес­ких индикаторов.

6. Отсев пунктов, не удовлетворяющих критериям валидности и достоверности. Измерение надежности для сокращенной шкалы, со­стоящей только из валидных пунктов. Если надежность оказывает­ся невысокой, то психолог снова возвращается к этапу 1 - уточняет теоретические представления.

Рассматривая в предыдущем разделе вопрос о порядке проверки валидности, мы вплотную подошли к вопросу о целостной стратегии создания, эмпирической апробации и внедрения методики в практику.

Создание оригинальной методики или адаптация зарубежной ме­тодики не могут сводиться только к проверке (или перепроверке) от­дельных психометрических свойств - репрезентативности, надежно­сти, валидности, достоверности - в произвольной последовательнос­ти. В одних случаях целесообразно начинать с одного этапа работы, в других - с другого.

В действительности любая реальная ситуация использования те­ста не является ситуацией только «конструирования» или только «применения». Можно без преувеличения сказать, что существует конти­нуум между крайними полюсами:

 

«конструирование» __________________ «применение»

 

и каждая ситуация до определенной ступени удалена от обоих полю­сов. Трудно назвать такой случай, когда бы конструирование совер­шенно нового теста начиналось с нуля, «на пустом месте». Также труд­но найти и такие случаи, когда все аспекты тестирования были бы полностью неизменными и воспроизводили бы уже совершенно ис­следованную нормативную ситуацию применения готового теста.

Но все это многообразие ситуаций, всю комбинаторику независи­мых параметров психологи-практики, как правило, пытаются свести к двум-трем типовым ситуациям.

1. Ситуация применения. Тест кем-то разработан (возможно, В: других социокультурных условиях), известны тестовые нормы, полу­ченные на представителях данной языковой культуры (несоответствие выборки стандартизации и выборки применения по половозрастной структуре и профессионально-культурным признакам признается не­существенным).

2. Ситуация адаптации. Тест кем-то разработан – проверены на­дежность и валидность, но отсутствуют тестовые нормы (как правило, отсутствуют вообще для любых представителей данной языковой культуры). Задача адаптации сводится, таким образом, к построению тестовых норм.

3. Ситуация конструирования. Есть концепция психического свой­ства, но нет процедуры его измерения, удовлетворяющей требованиям места, времени, возможностям количественного анализа и ограничениям прочих ресурсов. Надо придумать измерительную процедуру, проверить ее надежности валидность, построить тестовые нормы.

Остановимся прежде всего на вопросах адаптации так называе­мых переводных тестов. Путь быстрого пополнения репертуара ме­тодик за счет множества готовых зарубежных методик кажется мно­гим психологам наиболее экономичным, кратчайшим путем к надеж­ной и валидной психодиагностике. Но ведь если при этом адаптация сводится только к построению нормативного распределения тесто­вых баллов, то это означает, что валидность и надежность адаптированной методики в новых условиях принимаются на веру, а теорети­ческая концепция автора теста и содержание использованных им критериев валидности просто переносятся в наши условия без измене­ний (ведь для любой, в том числе и для невалидной и ненадежной методики, можно получить распределение).

Подобный перенос дает пренебрежимые погрешности только для тестирования относительно элементарных психических свойств (та­ких, как свойства нервной системы, функциональные состояния, сенсомоторные параметры, элементарные когнитивные функции, при­чем с использованием объективных процедур (психофизиологичес­кая регистрация, тесты с «физическими» критериями успеха и т. п.). При тестировании интегральных психических свойств личности и индивидуального сознания (черты, мотивы, установки, самооценка, общие способности, стиль общения, ценностные ориентации, инте­ресы и т. п.), а также при употреблении любых лингвистических средств в самой процедуре тестирования (включая не только форму­лировки задач, вопросов; но и исходную формулировку инструкции к тесту) и использовании культурно-специфических критериев оценки правильности.результата (определения шкального ключа) ограничи­ваться только сбором тестовых норм при адаптации - недопустимо!

Требуется серьезная эмпирическая работа по проверке надежно­сти и валидности в новых социокультурных условиях, работа, факти­чески соответствующая по своему объему созданию оригинальной методики. С этой точки зрения, заимствование зарубежных общедиаг­ностических тестов способностей, черт характера, интересов и т. п. вовсе не оказывается кратчайшим путем к психодиагностике. Этот путь кажется короче только тем, кто сознательно или по неведению пренебрегает принципами психометрики.

Перечислим необходимые этапы эмпирико-статиетической рабо­ты при адаптации многомерного переводного тест-опросника.

1. Анализ внутренней валидности, внутренней согласованности пунктов, из которых состоит тест-опросник. Этот анализ совершенно необходим, если в зарубежной методике он применялся в качестве средства самого конструирования методики. Этот-анализ призван по­казать, что существует некое (еще неясно, какое именно) общее диаг­ностическое свойство, лежащее на пересечении всех эмпирических индикаторов (в центре «пучка» скоррелированных пунктов-векторов). Такой анализ обязателен по отношению ко всем тестовым шкалам, полученным с помощью факторного анализа, например к тест-опросникам EPI Айзенка и 16PF Кеттелла. А вот к опроснику «локус конт­роля» или ко многим основным клиническим шкалам MMPI требова­ние внутренней согласованности применять не обязательно, так как пункты в эти шкалы подбирались по внешнему критерию и не связа­ны в один «пучок». Анализ внутренней согласованности может быть применен и к одномерным, и к многомерным тестам. В первом слу­чае достаточно иметь настольный калькулятор. Для многомерных те­стов необходимо использование специальной компьютерной програм­мы «Анализ пунктов».

По отношению к негомогенным шкалам анализ внутренней со­гласованности позволяет осуществить в снятом виде необходимую проверку информативности пунктов (процент правильных или под­тверждающих ответов должен соответствовать оригинальной автор­ской версии).

2. Проверка устойчивости к перетестированию. Эта проверка со­вершенно необходима при диагностике свойств, по отношению к ко­торым теоретически ожидается инвариантность во времени. Анализ ретестовой надежности может быть (так же как анализ надежности -согласованности) совмещен с исследованием информативности от­дельных пунктов теста, а также, возможно, и устойчивости отдель­ных пунктов. Без сведений о ретестовой надежности психолог не имеет права использовать тест для построения любого элементарного ста­тического экстраполирующего прогноза (см. раздел 3.5).

3. Анализ корреляций с релевантным внешним критерием. Этот этап адаптации совершенно необходим, если тест разрабатывался из­начально как критериально-ориентированный, т. е. отбор пунктов производился на основании их корреляций с каким-то критерием валидности. Например, подобная работа проделана коллективом Ф. Б. Березина для сокращенной модифицированной версии MMPI (Березин Ф. Б. и др., 1976).

4. Проверка или ре стандартизация тестовых норм. Об этом этапе уже говорилось выше. К сожалению, только этот этап работы по адап­тации тестов до недавнего ывремени признавался всеми психолога­ми как необходимый. Но и в этом случае далеко не всегда воспроиз­водилась необходимая статистическая работа по проверке устойчи­вости полученного распределения тестовых баллов к расщеплению выборки (см. раздел 3.1).

5. Специфичный этап для многомерных тестов - проверка вос­производимости структуры отношений между шкалами. Например, для теста Айзенка принципиальна ортогональность, статистическая независимость факторов «экстраверсия - интроверсия» и «нейротизм - стабильность». На воспроизводимости структуры связей шкал между факторами 16PF основывается корректность подсчета вторич­ных факторов (Ямпольский Л. Г., 1981; Мельников В. М., Ямпольский Л. Г., 1985).

Даже беглый взгляд на пять перечисленных этапов позволяет убе­диться в том, что адаптация зарубежных тестов мало чем уступает по объему эмпирико-статистической работы созданию оригинальных ме­тодик. Здесь было бы даже более адекватным использование не тер­мина «адаптация», а выражения «исследование зарубежной методики на отечественной выборке».

Тем не менее не следует понимать сказанное как призыв к пол­ному отказу от работы с зарубежными методиками. Нет, конечно же, такая работа должна проводится интенсивно и планомерно. Особен­но по отношению к тем методикам, которые уже получили между­народное распространение, доказали свою кросскультурную универ­сальность, адаптированы и успешно применяются во многих стра­нах. Создание отечественных эквивалентов международных тестов позволяет использовать международный опыт валидизации, теоре­тического осмысления и практического использования этих тестов. Сравнение результатов, структурно-функциональных характеристик адаптированных зарубежных и отечественных тестов позволит рос­сийским психологам глубже понять, установить на конкретно-эмпи­рическом уровне специфику влияния образа жизни на психологи­ческий склад личности россиян, раскрыть разнообразие историчес­ких и актуальных детерминант, обусловливающих социально полез­ные и социально вредные тенденции в психологической диф­ференциации индивидов в современных условиях, что совершенно необходимо для научного управления процессами воспитания и фор­мирования человека.

Особые задачи ставит перед психологом ситуация «внутрикуль-турного переноса» теста на новую популяцию, отличающуюся от вы­борки стандартизации половозрастными или профессионально-куль­турными особенностями. В этом случае необходимо:

1. Проверить валидность методики в тмо случае, если методи­ка чувствительна по своему содержанию к профессиональной или региональной специфике (могут ли отвечать пенсионеры, или школьники, или жители отдаленных регионов на вопросы, подра­зумевающие типичные ситуации из жизни студента, обучающего­ся в крупном городе европейской части России?). Для этого надо выбрать по возможности максимально экономичную процедуру проверки валидности. Размеры выборки в эксперименте по про­верке валидности должны быть такими, чтобы можно было наде­яться на получение статистических значимых связей между тестовым показателем и критерием валидности (это, как правило, не менее 30 испытуемых).

Если результаты проверки валидности оказываются неудовлетво­рительными (коэффициент корреляции явно ниже 0,5, и дальнейшее наращивание выборки все равно не оправдает применение.теста со столь низким показателем валидности), то по собранным результатам следует произвести простейший анализ пунктов: посмотреть, не ока­зались ли некоторые пункты явно неинформативными (все испытуе­мые отвечают одинаково), не оказались ли некоторые вопросы явно бессмысленными или слишком «прямыми», социально значимыми в данной ситуации. Не исключено, что при исключении неудачных пун­ктов из подсчета тестового балла (после приравнивания С=0).,искомая валидность будет обнаружена.

В отсутствие доступного внешнего критерия необходимо прибегнуть к проверке внутренней валидности, консистентности методики.

2. Проверить соответствия тестовых норм. Только после получения позитивного результата при проверке валидности целесооб­разно расширять выборку и реконструировать эмпирическое распределение тестовых баллов (см. раздел 3.1). Квантили этого распреде­ления необходимо сравнить с квантилями нормативного распреде­ления; если расхождения оказываются пренебрежимыми (не превышают ошибку измерения), то, можно принять вывод о приложимости к данной популяции универсальных тестовых норм. Но на к практике чаще возникают значимые отличия (оценка близости двух распределений производится по формуле (3.1.15) на с. 9.6). В этом случае психолог должен построить так называемые частные тесто­вые нормы, причем не только для использования в собственной диагностической практике, но и для пополнения информационно-ме­тодического банка данных отечественной психодиагностики (копию таблицы распределения тестовых баллов психолог должен послать в тот диагностический методический центр, с которым он поддер­живает методические связи - получает методические материалы, проходит переподготовку и т. п.).

Подчеркнем, что абсолютное большинство ситуаций, которые обычно расцениваются как ситуации «применения», на самом деле являются ситуациями более или менее серьезного «внутрикультурного переноса». Именно эти обстоятельства предопределяют высокий уровень требований к психометрической подготовке психологов-психодиагностов (см. раздел 3.6).

При создании методики, как это уже было сказано в предыдущем разделе, решающее значение имеют методологическая ориентация и статус психолога.

Под статусом в данном случае понимаются существенные раз­личия в нормативных (закрепленных в должностных инструкциях) требованиях к продукту деятельности психолога, работающего в ис­следовательском учреждении, и психолога, работающего в практи­ческом учреждении. Если в первом случае психолог имеет право считать своим «конечным продуктом» внутрипсихологическую валидизацию сконструированной методики, то во втором случае он, как правило, обязан обеспечить практическую эффективность сво­ей психодиагностической программы - указать на статистически значимую связь результатов диагностики с величиной какого-то со­циально ценного показателя - критерия, а затем построить на осно­ве этой связи психологическую концепцию «вмешательства» (адми­нистративного или психологического воздействия на ситуацию с целью ее изменения в желаемом направлении – в сторону максими­зации данного показателя).

Указанные изначальные различия в статусах психолога-иссле­дователя и психолога-практика предопределяют оправданные раз­личия в стратегии конструирования тестов и тестовых батарей. Для психолога-исследователя главная ценность - это теоретическая обо­снованность и эмпирическая однозначность диагностического кон­структа, которой он достигает с помощью оправданной ориентации на конструктную валидизацию. У исследователя хватает ресурсов для того, чтобы обеспечить множественность разнообразных по сво­ему статусу критериев валидности - от субъективных оценок валидности включенных наблюдателей (L-данные по Кеттеллу) до экспе­риментального моделирования реальных ситуаций проявления из­меряемого свойства (Г-данные по Кеттеллу, см. также: Мельников В. М., Ямпольский Л. Г., 1985). Для психолога-практика главная ценность - это эффективность, пусть даже она будет достигнута с помощью теоретически эклектичного инструмента - эмпирическо­го средства, не имеющего соответствующего научно строгого кон­структа.

Появление и размножение прагматических тестов, очевидно, обус­ловлено действием объективного социально-исторического механиз­ма, который можно было бы кратко назвать «опережающим запросом практики». Этого феномена не было бы, если бы все запросы практи­ки можно было заранее предвидеть и рационально спланировать, под­готавливая релевантные научно обоснованные диагностические про­цедуры. Но такое предвидение всегда удается осуществить лишь в определенной мере - реальная практика тем и отличается от дедук­тивного движения в плоскости абстракций, что всегда приводит к стол­кновению с новыми и неожиданными явлениями, что обусловливает и появление неожиданных запросов.

Большинство ценных прагматических тестов с исторической не­избежностью становятся предметом для изучения со стороны психо­логов-исследователей, апостериорно реконструирующих научную концепцию валидности этих тестов, что значительно улучшает их ха­рактеристики и адекватизирует сферу применения.

Психодиагностика как специфический институт, реализованный в форме управляющего кольца «наука - практика - наука - практи­ка...», достигнет оптимальных режимов в своем функционировании, если любые попытки конструирования и применения любых тестов будут тщательно документироваться, будут доступны для повторения в любом звене (исследовательском или практическом) психологичес­кой службы. При обеспечении эффективной информационной базы, оперативных форм информационной связи между звеньями этой сис­темы (как методологическими, так и практическими) всякое практи­ческое применение тестов станет одновременно и работой по созда­нию новых методик.




Поделиться с друзьями:


Дата добавления: 2014-10-23; Просмотров: 429; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.101 сек.