Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Валидность тестов




 

Проблемы валидизации психологических тестов являются цент­ральными для дифференциальной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата дифференциальной психологии.

Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивос­ти) получаемых результатов относительно измеряемых свойств объек­тов, т, е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью раз­личения «объекта» и «предмета» измерения. Надежность - это устой­чивость процедуры относительно объектов. Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную процедуру измерения, показывает ее надежность -способность устойчиво различать объекты, но вопрос о валидности остается открытым.

Если в сенсорной психофизике вопрос о валидности измерений оказывается в значительной степени затушеванным тем обстоятель­ством, что простейшие физические стимулы достаточно однозначно детерминируют измеряемые свойства ощущений, то в дифференци­альной психометрике значимость проблемы валидности резко возра­стает. Здесь ситуация подобна той, когда в психофизическом опыте испытуемому не указывают, по какому именно параметру следует срав­нивать стимулы. Пусть испытуемый А понял инструкцию так, что стимульные объекты надо сравнивать по весу, а испытуемый Б - по раз­меру. Если процедура измерения будет повторена по отношению к тем же объектам, то она даст вполне устойчивые данные относитель­но объектов, но не даст валидной информации ни о шкале ощущений «веса», ни о шкале ощущений «размера».

При измерении способностей предъявляемый тест отнюдь не обя­зательно актуализирует именно тот психический процесс, который предполагается измерить. Например, столкнувшись с уже встречав­шейся однажды задачей (например, с анаграммой «дзиканпр»), испы­туемый может начать запоминать просто то решение, к которому он уже однажды пришел (слово «праздник»), чем заново решать эту за­дачу. Здесь будет измеряться скорее уровень словесной памяти, чем уровень вербального интеллекта. Точно так же реальная валидность некоторых тестов раскрывается только в результате значительного опыта работы с ними. Например, доказано, что ряд тестов, внешне вы глядящих интеллектуальными, на деле измеряют скорее личностно-стилевые особенности индивида, чем операциональные возмож­ности интеллекта, например, методика «креативного поля» Д. Б. Бо­гоявленской.

Устойчивость теста относительно объектов (испытуемых) явля­ется необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надежность является необходимым, но не достаточным условием валидности. Отсюда вытекает основное соотношение психометрики:

 

валидность ≤ надежность.

 

Это означает, что валидность теста не может превышать его надеж­ность.

Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. По­вышение надежности отнюдь не обязательно приводит к повышению валидности[15]. В терминах А. Анастази валидность определяется ре­презентативностью теста относительно измеряемой области поведе­ния. Если эта область поведения складывается из разнообразных фе­номенов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноме­нов. Возьмем глобальное понятие «речевая способность» (этому психолингвистическому термину в традиционной тестологии соответству­ет термин «вербальный интеллект»). Сюда относятся такие относи­тельно независимые друг от друга навыки, как навыки письма и чте­ния. Если заботиться о содержательной валидности соответствую­щего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы (суб­тесты), мы обязательно сокращаем внутреннюю согласованность, од­номоментную надежность теста, но зато добиваемся существенного повышения валидности. Таким образом, для расширения области при­менения теста психодиагност должен избегать излишнего повыше­ния внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста (об этом уже говорилось в разделе 3.1) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.

Эмпирическая валидность. Если в случае с содержательной ва-лидностью оценка теста производится за счет экспертов (устанавли­вающих соответствие заданий теста содержанию предмета измере­ния), то эмпирическая валидность измеряется всегда с помощью ста­тистического коррелирования: подсчитывается корреляция двух ря­дов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.

Прагматические традиции западной тестологии привязывали эм­пирическую валидность теста к внешним для психологии социально-прагматическим критериям. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных об­ластей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической пси­хологии это «успеваемость» (которую надо повысить), в психологии труда это «производительность труда» и «текучесть кадров», в меди­цине - «состояние здоровья пациента», в психологии управления -«совместимость», «срабатываемость» коллектива, в юридической пси­хологии - «преступность» (которую надо понизить) и т. п.

Ориентируясь непосредственно на эти категории, психолог, пы­тающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагнос­тической программы. Если получен значимый коэффициент корреля­ции, то можно считать, что решены с позитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается нео­пределенность: либо невалидна сама процедура (тестовый балл не отражает, например, стрессоустойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между психичес­ким свойством и социально значимым показателем (стрессоустойчивость не влияет на процент аварийных ситуаций).

Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно. На практике пси­холога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании полученного диагноза сразу же определенных мер по вмешательству в ситуацию (отбор, консульти­рование, обучение и т. п.). В этом случае повышение показателей (достоверное по сравнению с контрольной группой) доказывает од­новременно и валидность-эффективность диагностики, и эффектив­ность самого вмешательства. А отрицательный результат дает еще большую неопределенность, так как оказывается невозможным от­делить неэффективность вмешательства от низкой валидности ди­агностики.

Ориентация на социально-прагматические критерии, приводящие к склейке понятий «валидности измерения» и «причинного прогноза по результатам измерения», бесспорно, сдерживала и продолжает сдер­живать развитие концептуального аппарата дифференциальной пси­хологии. При этом суть самого предмета измерения: измеряемого пси­хического свойства - оказывается вне фокуса внимания не только заказчика, но и самого психолога, превращающегося в этом случае в тестолога, которого не интересует, что именно он измеряет, главное лишь, чтобы от этого «нечто» перекидывался мостик к полезному эффекту, обеспечивающему психологу социальное признание.

Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании доста­точно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию[16]. В результате применяется ме­тод экстремальных (контрастных) групп. Коррелирование с суммар­ным баллом по тесту оценивается с помощью бисериального коэф­фициента по формуле (3.2.17). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности: x— сумма баллов по тесту, полученных «высокой» груп­пой по критерию; - стандартная ошибка критерия, связанная с численностью «высокой» (р) и «низкой» (q) групп.

Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышен­ный риск психосоматических заболеваний (гипертония, язва, астма и т. п.). Пусть на основании эпидемиологических исследований извес­тно, что в течение трех лет из. 1000 здоровых людей этими болезнями заболевают 57 человек. Это означает, что превентивной (предупреж­дающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность «высокой» группы (заболевших) поряд­ка 100 человек. Проспективная валидизация выявляет прогностичес­кую эффективность диагностической процедуры. Высокая прогнос­тическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.

Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух задач. Например, если для исследования лич­ностной предрасположенности к совершению краж проведено обсле­дование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт «тревожности», «агрессивности» и т. п. еще не может интерпретироваться как свиде­тельство причинных факторов преступности - эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, уг­рызения совести и т. п. (Ратинов А. Р., 1979). Во многих медико-пси­хологических исследованиях был выделен особый диагностический синдром «госпитализации», который обнаруживается у любой кате­гории госпитализированных больных (обычно он выражается в по­вышении шкал «депрессии» и «ипохондрии» по MMPI – Шхвацабая, 1980). Очевидно, что подобные личностные сдвиги никак нельзя ин­терпретировать в смысле симптомов предрасположенности к опреде­ленным психогенным заболеваниям, ибо они относятся к следстви­ям, а не к причинам этих заболеваний.

Конструктная валидность. В отличие от прагматической валидизации собственно психологическую валидизацию порой оказыва­ется провести гораздо труднее в силу отсутствия какого-либо более объективного внутрипсихологического критерия, чем сам тест.

Наиболее благополучная ситуация имеется тогда, когда для из­мерения данного свойства в психологии уже имеется процедура с известной валидностью. В этом случае корреляция между балла­ми двух тестов - линейная (см. формулу 3.2.3) или ранговая (см. формулу 3.2.5)- указывает на то, обладает ли новый тест конвер­гентной валидностью по отношению к старому. Если новый тест обнаруживает высокую конвергентность результатов со старым и одновременно оказывается более компактным и экономичным 'в проведении и подсчете, то психодиагносты получают возможность использовать новый тест вместо старого.

Однако во многих случаях для измеряемого свойства психодиа­гност не может найти в литературе ни одного уже апробированного теста с известной валидностью. В этом случае он может сформулиро­вать ряд предсказательных гипотез о том, как будет коррелировать его новый тест с другими тестами, измеряющими родственные характеристики испытуемых. Эти гипотезы выдвигаются на основе теоретических представлений об измеряемом свойстве. Их подтвержде­ние указывает на валидность выдвигаемого конструкта, т. е. на конструктную валидность теста. В западной литературе это операциональное определение конструктяой валыидности называется предполага­емой валидностью (assumed validity).

Представления о конструктной валидности тестов постоянно развиваются с пополнением репертуара методик. Эмпирические иссле­дования взаимосвязей результатов, получаемых с помощью разных методик, обогащают теоретические представления об измеряемых свойствах.

С другой стороны, понятие конструктной валидности указывает на высокую зависимость эмпирических связей теста от теоретичес­ких представлений его автора об измеряемом свойстве. Для иллюст­рации приведен пример взаимоотношений между двумя популярны­ми тест-опросниками: MAS Ж. Тейлор и EPI Г. Айзенка. Многочис­ленные корреляционные исследования, проведенные на репрезента­тивных выборках, показали, что шкала MAS (тревожность) Ж. Тейлор положительно коррелирует со шкалой «нейротизм» и отрицательно со шкалой «экстраверсия» Айзенка. Эти соотношения можно проил­люстрировать графически (рис. 10): вектор MAS оказывается распо­ложенным в квадранте «Нейротизм - Интроверсия», образованном си­стемой из ортогональных (статистически независимых) факторов EPL С точки зрения концепции Г. Айзенка, эти данные можно рассмат­ривать как свидетельства низкой валидности шкалы Ж. Тейлор: MAS коррелирует не только с релевантным фактором «нейротизм», но и с иррелевантным фактором «интроверсия». С этой точки зрения, оп­росник EPI оказывается просто нечувствительным к особой разно­видности «нейротизма» - к нейротизму (тревожности) экстравертов; в перечне пунктов MAS отсутствуют высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с точки зрения тоготеоретического смысла, который приписывают показателям MAS К. Спенс и Ж. Тейлор, эта ситуа­ция вполне закономерна, жела­тельна и никак не является арте­фактом - следствием дефекта их диагностического средства. Со­гласно К. Спенсу, пытавшемуся перенести на человеческое пове­дение теорию научения Халла, MAS измеряет общий уровень драйва - неспециализированного побуждения, которое достигает максимума как раз при сочетании нейротизма (специфическая ак­тивация по Г. Айзенку) и интро-версии (неспецифическая активация)

 

 

Рис. 10. Векторная модель соотношения показателя «Тревожность» по тест-опроснику MAS с факторами тест-опросника EPI

 

Таким образом, вовсе не всегда краткие названия тестов од­нозначно выражают теоретический статус диагностического конст­рукта - понятия об измеряемом свойстве.

Конвергентная и дискриминантная валидность. От того, как пси­холог определяет диагностический конструкт, зависит стратегия вклю­чения в тест определенных пунктов. Если Айзенк определяет свой­ство «нейротизм» как независимое от экстраверсии-интроверсии, то это означает, что в его опроснике примерно поровну должны быть представлены пункты, с которыми будут соглашаться невротичные интроверты и невротичные экстраверты (векторы этих пунктов дол­жны быть примерно поровну распределены в правом и левом нижних квадрантах; см. рис. 10).-Если же на практике окажется, что в тесте будут преобладать пункты из квадранта «Нейротизм-Интроверсия», то, с точки зрения теории Айзенка, это означает, что фактор «нейро­тизм» оказывается нагруженным иррелевантным фактором - «интроверсией». (Точно такой же эффект возникает, если появится перекос в выборке - если в ней будет больше невротичных интровертов, чем невротичных экстравертов.)

Для того чтобы не сталкиваться с такими сложностями, психо­логи хотели бы иметь дело с такими эмпирическими показателями (пунктами), которые однозначно информируют только об одном факторе. Но это требование реально никогда не выполняется: вся­кий эмпирический показатель оказывается детерминированным не; только тем фактором, который нам нужен, но и другими - иррелевантными задаче измерения (рис. 11).

На рис. 11 постоянным для всех показателей является релевант­ный фактор А, но каждый раз он оказывается сопряжен с иррелевант-ными факторами - X, К и Z. Задача состоит в таком подборе пунктов,

 

чтобы все потенциальные иррелевантнв!е факторы были уравнове­шены, т. е. чтобы ни один из них не встречался бы чаще других на множестве показателей (пунктов), включенных в тест.

 




Поделиться с друзьями:


Дата добавления: 2014-10-23; Просмотров: 525; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.