Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Оценки валидности психологических тестов




Основным критерием качества метода является его валидность. Валидность зависит от точности, так как неточный метод не может быть валидным. Однако и наиболее точный метод без знания его валидности не имеет практически никакой цены. В исследовательской работе он может иметь определенное место, если выявляет явные индивидуаль­ные различия, но для практических целей необходимо знать, какое психологическое значение имеют эти различия. Каждый точный метод имеет определенную валидность, иначе говоря, его результаты выра­жают определенную психическую характеристику, его результаты со­здают образ исследуемого явления. Большинство методов является ва­лидными по отношению к нескольким психическим характеристикам.

В переводе термин «валидность» означает обоснованность, досто­верность. С методологической точки зрения валидность является ос­новной гносеологической проблемой психодиагностики. Она основа­на на предложении о существовании психических характеристик, которые внешне проявляются определенными индикаторами. Речь идет об особом случае отношения между «сущностью и явлением». Мы ис­ходим из вероятностного понимания этого отношения. Отношение меж­ду психической характеристикой и ее индикаторами является более однозначным в том смысле, что определенный индикатор у разных ис­пытуемых может свидетельствовать о разных психических характери­стиках, но множество возможностей является конечным и познаваемым.

Вопрос о валидности тестовых методик был фактически поставлен известным русским психологом Г. И. Челпаиовым (подробно анализиро­вавшим еще на заре тестологии методики Бине^Симона), А. П. Нечаева,

Часть I. Психодиагностика — теоретико-методологические аспекты

Г. И. Россолимо. Так, характеризуя тест Бине-Симона, Г. И. Челпанов справедливо указывал: «При помощи этого метода можно только определить, соответствует ли умственное развитие данного ребенка его возрасту или нет. Определить его одаренность нет никакой воз­можности» [294].

Весьма интенсивно и плодотворно проблема валидизации психоло­гических тестов разрабатывалась в период становления советской пси­хологии [42; 43; 73; 74; 97; 138; 147; 294].

Впервые в советской литературе на источник данной проблемы ука­зал М. Г. Геллерштейн. В той мере, писал он, в какой тест оценивает поведение человека, он, безусловно, является методом объективным. «В него вкрадывается элемент субъективности лишь постольку, по­скольку многообразные формы человеческого поведения, регистрируе­мые нами в тестовых испытаниях, истолковываются под углом зрения тех психических процессов, которые за ними скрываются... Субъектив­ность будет тем большей, чем меньше нам понятна связь, существующая между определенными психическими процессами и их реализацией, т. е. их выявлением в форме того или другого акта или реакции» [73].

К сожалению, справедливая критика мнимого, невалидного изме­рения врожденной умственной одаренности, развернувшаяся с лета 1937 г., имела своим побочным результатом прекращение на длительный период всякой конструктивной работы в этой области. Однако с начала 60-х гг. в ряде публикаций ведущих советских психологов [42; 43; 76] вновь была подчеркнута актуальность вопросов, связанных с валиди­зацией психологических тестов.

«Возможна ли в психологии разработка таких тестовых проб, ко­торые служили бы совершенно однозначным и достоверным призна­ком реальных психологических особенностей?» — задаются вопросом И. И. Иванова и В. Г. Асеев. Ответ их звучит весьма осторожно: «возмож­ности разработки таких однозначных тестовых проб ограничены» [120].

В настоящее время отечественная психология уже имеет в своем активе ряд теоретических разработок [42; 43; 184; 277], представля­ющих интерес для данной проблемы. Однако специальных, система­тических исследований, органически сочетающих теоретический ана­лиз и эксперимент, в этой области еще не проводилось

Создание эффективных методов валидизации психологических те­стов требует прежде всего научно обоснованной, четко оформленной классификации существующих типов и видов валидности. На Западе, где проблема валидности была осознана более или менее глубоко лишь в 50-х гг. (в связи с наметившимся к тому времени глобальным кризи-

Раздел 3 Теоретические проблемы диагностических методов _____________Л

сом тестологии), описанию различных видов валидности посвящены тем не менее десятки пространных публикаций [см. 341; 342; 343; 382]. Однако высказываемые мнения касаются по преимуществу лишь от­дельных, разрозненных аспектов проблемы. Выделенные по различным признакам типы и виды валидности должным образом не специфициро­ваны и не соотнесены друг с другом. Какой-либо единой классификаци­онной системы пока нет, и ее создание даже не ставится в повестку дня. В связи с этим и в практической сфере, т. е. в деле валидизации конкрет­ных психологических тестов, существенного прогресса пока не до­стигнуто почти все тесты, используемые в настоящее время в научных или практических целях, валидизированы лишь на уровне определения их ценности для конкретных практических целей или путем определе­ния степени их корреляции с другими тестами.

С формальной точки зрения валидность бывает подлинная, кото­рая выражает отношение между результатами метода и тем, что с по­мощью метода изучалось, и ложная, в которой зафиксирована ви­димость ценности метода. Подлинная валидность в зависимости от характера критерия, с помощью которого она проверяется, разделяет­ся на эмпирическую и теоретическую, текущую и прогностическую.

Ложная валидность имеет также четыре варианта (Р. Кэттелл): очевидную валидностъ', валидность, основанную на опыте, на убежде­нии и на желании [336].

1. Очевидная валидность исходит из того, что данный метод на пер­вый взгляд якобы исследует. Если, например, содержание вопросов на­правлено на неуверенность в себе, то исследуется неуверенность, а если на знания по истории — то исследуется духовная культура в области истории и т. д. Очевидная валидность соответствует подлинной валид­ности по содержанию только в случае так называемых дидактических тестов или тестов знаний, их содержательный анализ является с голь яв­ным, что нет необходимости изучать его. При всех остальных методах, включая опросники, мы обязательно должны исследовать валидность, хотя и во многих случаях кажется понятным, о чем идет речь.

2. Валидность, исходящая из опыта, основывается на уверенности в том, что метод позволяет «понять испытуемого»; использование ме­тода доставляет личное удовлетворение.

3. Валидность, опирающаяся на убеждение, исходит из необоснован­ного убеждения, что данный метод является хорошим, потому что, в ча­стности, хорошей является теория, на которой он построен. Часто такое убеждение усиливается по мере овладения методом, без иссле­дования его реальной валидности.

72__________ Часть I Психодиагностика теоретико-методологические аспекты

4. Валидностъ, основанная на желании, предполагает участие преду­беждений исследователя относительно возможностей метода.

Валидность всех психодиагностических методов, кроме дидакти­ческих, требует проверки психометрическими методами. Психометри­ка разработала много так называемых процессов валидизации, среди которых наиболее часто используются различные коэффициенты кор­реляции для подсчета отношения между результатами метода и значе­нием критерия. Тип коэффициента зависит от типа математической шкалы, на которой представлены результаты и значения критерия.

Коэффициент валидности может быть выражен и с помощью £-тес-та, коэффициента энтропии, теста с2 или с помощью прогностических таблиц и иных мер отношений.

Теоретическая валидность определяется на основе логического доказательства и эмпирического подтверждения последствий, выте­кающих из теории, взятой за основу метода, и ее результатов. Преиму­ществом теоретической валидизации является применение факторно­го или дискриминационного анализа, но в матрицу анализируемых переменных должны входить и методы с известной валидностью, что­бы с их помощью можно было адекватно интерпретировать факторы или синдромы. Большинство специалистов характеризует валидность как вероятность соответствия между результатами теста и тем, что мы с помощью теста хотим узнать. Значит, валидность говорит о том, в ка­кой степени (или как) результаты проверенного уже теста соответ­ствуют измеряемой или оцениваемой характеристике личности, на­сколько тест адекватен по отношению к изучаемой проблеме и в какой степени полученные результаты являются образом исследуемого зна­ка. Это значит, что валидность — это данные об информативной цен­ности теста как средства познания человека.

Валидность, таким образом, выражает, в какой степени мы с помо­щью данного метода исследуем то, что хотим исследовать, и отвечает на вопрос: «Измеряем ли мы то, что думаем измерять?»

С этой точки зрения можно вообще говорить о следующих типах валидности.

1. По содержанию — выражает соответствие между тестом и иссле­дуемой характеристикой. Включение таких заданий исходит из зна­ний автора, отзывов специалистов и т. д. о предполагаемых явлениях. Например, включение в опросник вопросов, о которых предполагаем, что они направлены на проявление интровертированного поведения. Здесь пригодность методики определяется на основании репрезента­тивного сходства между содержанием вопросов (заданий) и компонен-

Раздел 3. Теоретические проблемы диагностических методов

тами научаемой характеристики личности; способ ее определения — логико-семантический.

2. Текущая валидностъ — выражает соответствие между результата­ми и параллельно примененным критерием. Часто используется ме­тод известных групп и сравниваются результаты обоих групп. Важна точная идентификация известных групп.

3. Прогностическая валидностъ — выражает соответствие между ре­зультатами теста и критерием спустя определенное время. Например, при исследовании доминантности мы следим за поведением и сопоставляем его с результатами тестирования. Подходящим критерием является, на­пример, успеваемость в школе, показатели результативности труда и т. д.

4. Конструктная валидностъ — выражает соответствие между тестом и изучаемым знаком. В этих целях часто результаты тестирования срав­ниваются с надежными тестами, намеряющими данный знак личности.

На основании результатов тестирования мы предсказываем степень выраженности изучаемой характеристики, поэтому тест можно на­звать и «предиктором», и считать его независимой переменной в ис­следовании.

Однако в психологии мы почти никогда не узнаем степень выражен­ности и характер исследуемой характеристики, так как судим о ней по­средством эмпирически очевидных показателей, о которых мы на основе теоретических либо практических знаний знаем, что они являются ре­левантными отображениями знака. Эти показатели — если служат для проверки валидности теста — обозначаются термином «критерий». (Ес­тественно, и тест является показателем изучаемой характеристики, од­нако его индикаторная функция до проверки еще неизвестна и неявна.)

В большинстве процедур по валидизации имеет место внешний кри­терий. Обычно им является знакомый и очевидный индикатор психи­ческой характеристики, для определения которой мы и создаем метод.

Критерием чаще всего бывают проявления изучаемой характеристи­ки в повседневной жизни. Однако это должны быть такие данные, кото­рые сами по себе не могут заместить метод, иначе было бы бессмыслен­ным финансировать создание метода. Достаточно было бы в качестве метода использовать сам критерий.

В патопсихологии критерием является диагноз врача.

В промышленности — количество аварий, количество поощрений или изобретений, оценка со стороны начальства или стратометрический выбор со стороны подчиненных или сотрудников по отношению к на­учаемому аспекту исполнения или поведения.

В школе критерием является опенка успеваемости и поведения.

Часть I. Психодиагностика — теоретико-методологические аспекты

Нахождение подходящего и легко доступного критерия принадлежит к важнейшим и сложнейшим задачам валидизации. Многие хорошие методы были изъяты лишь потому, что не удалось найти адекватный критерий для их проверки. Сомнительные данные по валидизации можно найти при анализе некоторых опросников, и не потому, что по­следние являются невалидными, а потому, что трудно найти подходя­щий критерий, соответствующий тому, что этот опросник выявляет. Опросники выявляют поле проявления изучаемой характеристики, в то время как шкалы оценок, с помощью которых чаще всего осуще­ствляется валидизация опросников, выявляют интенсивность изучае­мой характеристики. Но тогда коэффициент валидности оказывается ниже, чем он есть на самом деле.

Также дело обстоит с валидизацией теста Роршаха — она бывает менее благоприятной, чем само качество метода. Оказывается, что ин-троверсия и экстраверсия, определенная с помощью теста Роршаха. отличается от интроверсии и экстраверсии, выявленной с помощью опросников и других часто используемых методов, исходящих из иных теоретических предпосылок.

Позитивисты-эмпирики сказали бы, что критерием является зави­симая переменная,, с помощью которой приблизительно оцениваем, предсказываем на основании результатов теста (диагностических по­казателей), или переменная, которая служит мерой валидности теста.

В отличие от этого несколько крайнего утверждения мы исходим из предположения, что по диагностическим данным (ДД) мы судим об изучаемой характеристике личности (ХЛ) посредством психометри­чески или теоретически обоснованного отношения между результата­ми теста и величиной критерия (К): ДД — К — ХД.

Таким образом, можно сказать, что критерий — это очевидный по­казатель тех характеристик личности, которые тест должен измерять, а именно показатель, определяемый независимо от предъявления те­ста. Было бы ненаучным, если бы критерий исследовался и выражал­ся — сознательно или неосознанно — в зависимости от знания тесто­вых результатов отдельных испытуемых.

Считаем необходимым здесь подчеркнуть, не вникая в подробности, что отношение «тест-критерий-характеристика личности» обычно представляет сложную структуру. Выбранный критерий может реле­вантно выражать лишь определенный компонент этой структуры, при­чем другой критерий выражает уже следующий аспект. На этой основе — кроме иных факторов — может возникнуть разногласие между различ­ными авторами при определении валидности (слепая валидизация).

Раздел 3. Теоретические проблемы диагностических методов

Мы уже отмечали, что критерий должен быть очевидным, объек­тивно надежно и легко определимым и по возможности репрезента­тивным показателем изучаемой характеристики. Критерием может служить и ранее проверенный практический тест или общепринятая хорошая теория.

Критерием может служить и возраст — при условии, что с возрастом регулярно повышаются или снижаются показатели изучаемого явле­ния: иными общеопределенными критериями являются: пол, диагноз врача, отметка в школе, далее, например, разделение испытуемых на «имеющих» и «не имеющих» определенную характеристику, распреде­ление испытуемых по степени выраженности (от максимума до миниму­ма) изучаемой характеристики, применение техники «угадай, кто» и т. п.

Критерии можем разделить в зависимости от того, касаются ли они преимущественно достижений деятельности или постоянных харак­теристик и объективных обстоятельств.

Группу деятелъпостных критериев представляет, например, «Про­изводительность», выраженная в количестве продуктов, далее каче­ство результата труда, заработок, время, необходимое на овладение деятельностью, и т. д.

К постоянным и объективно данным критериям можно отнести: воз­раст, пол, количество пропусков на работе, время пребывания на од­ной работе (на предприятии), текучесть кадров, несчастные случаи, повторение курса обучения, излечение и т. п.

Результаты критерия редко бывают представлены в шкальных еди­ницах (т. е. в интервалах или в равных единицах измерения в системе измерения). Чаще всего в единицах квантиля: это порядковые степе­ни (rating), порядковое место (rankling), или только качественные (но­минальные категории/типы).

Во многих случаях поэтому целесообразно дихотомизировать зна­чение критерия или разделить его на соответствующее количество степеней. Однако дихотонизацию нельзя механически проводить по медиане. Ведь мы не знаем, каким на самом деле является распределе­ние значений критерия в исследуемой выборке. Скажем, мы хотели бы с помощью какого-нибудь теста определять индивидов с безоши­бочным и точным наблюдением. Если мы в качестве критерия возьмем количество пропущенных ошибок в тексте, тогда у половины испыту­емых окажется в тесте 0-4 ошибки, а у второй половины 5 и больше ошибок. Но нам нужна группа, которая работает безошибочно (а это только 20 % испытуемых). Высоко вероятно, что психические явле­ния не бывают, как правило, распределены по кривой нормального б«

76__________ Часть I. Психодиагностика теоретико-методологические аспекты

распределения Гаусса. Значит, целесообразно, например, в категорию «имеет характеристику» включить 80 % испытуемых со значением кри­терия от максимума по уровень, соответствующий 21 %, а в категорию «не имеет характеристику» включить оставшихся 20 % лиц и т. п.

Валидность выражает практическую полезность теста, его диагности­ческую и прогностическую силу и возможность его использования в оп­ределенных целях.

Естественно, в процессе систематического изучения отношений между результатами тестирования и различными критериями мы убеждаемся, что адекватность теста зависит от исследовательских це­лей. Тест имеет столько валидностей, сколько имеется критериев. Оп­ределенный тест интеллекта является, например, отличным инстру­ментом для определения вербальной находчивости, но он мало годится для определения способности мысленного сопоставления.

Почти каждый тест предоставляет нам несколько различных ди­агностических показателей (например, диагностическими показате­лями в тесте зеркального рисования являются: время, нажим, количе­ство срывов, скорость обучения и т. п.). Поэтому требуется определить валидность диагностических показателей по отдельности, или опре­делить общую валидность всего теста в целом.

Валидизация теста — это поиск ответа на вопрос, измеряет ли данная методика то, что, по замыслам автора, она должна измерять, и насколь­ко точно она это делает.

Вообще это изучение всего того, что данная методика выявляет. Это процесс изучения адекватности, релевантности, точности, практиче­ской полезности, диагностической и прогностической силы и адекват­ности теста для поставленных целей.

Количественное или качественное выражение адекватности изме­рения посредством теста, т. е. определения исследуемой характери­стики личности, называется индексом валидности.

Когда мы имеем в виду пригодность теста для определенной цели, мы говорим о его адекватности; когда мы хотим сказать, что результаты тес­та являются точным и метким изображением меры или своеобразия исследуемой характеристики, мы тем самым определяем их действи­тельность. Однако на практике до сих пор не различаются адекватность теста как средства и действительность его результатов: одно и другое коротко называем валидностью.

Раздел 3. Теоретические проблемы диагностических методов _____________77

Когда мы проверяем действительность теста, чаще всего нас ин­тересует, существует ли вообще предполагаемое отношение или по крайней мере какое-нибудь отношение теста к любому критерию (речь идет о какой-то «разведочной» валидности), и насколько это от­ношение является тесным.

Хотя мы и говорим об отношении, это не значит, что валидность долж­ны изучать лишь с помощью корреляций. Отношение мы можем оп­ределять также с помощью уравнения регрессии, t-критерия разли­чий между результатами тестирования в группе наилучших по критерию и средним числом результатов тестирования оставшихся испытуемых. Существует ряд других методов, включая непараметрические тесты.

Какое количество испытуемых необходимо иметь для подсчета ва­лидности?

В общем можно сказать, что это зависит от примененной модели валидизации, от эффективности использованной статистической об­работки и от принятого уровня значимости. Для обычных целей требу­ется не менее 50 испытуемых, но оптимальное количество — больше двухсот. Это, прежде всего, относится к корреляционной модели ва­лидизации.

Часто также возникает вопрос: каким должен быть уровень валид­ности, чтобы она была приемлемой?

Если исходить из простого соображения, что при нулевой валидности теста мы случайно выберем 50 % испытуемых правильно, тогда любая валидность выше нуля повышает процент правильного выбора с по­мощью теста. Но минимальный уровень приемлемой валидности теста в целях выбора зависит, прежде всего, от так называемого отношения выбора, т. е. отношения количества выбранных к общему количеству всех кандидатов. Чем это отношение благоприятнее (т. е. чем больше канди­датов мы имеем и чем меньше из них мы выбираем), тем ниже валид­ность теста является для нас достаточной. Принято считать, что прием­лемой считается любая статистически значимая валидность. Низкой считается валидность 0,20-0,30, средней — валидность 0,30-0,50, а высо­кой — валидность больше 0,60. Но это касается корреляционной модели.

Почему исследования по валидизации заканчиваются неудачей?

Одной из причин может быть то, что предиктором является опрос­ник, а критерием — шкала оценок. То есть сопоставляются методы изучения двух разных уровней личности.

Если мы с помощью соответствующей модели валидизации полу­чим неубедительный результат (слишком низкий индекс валидности), это еще не должно значить, что тест невалиден. Причин этому может

Часть I. Психодиагностика — теоретико-методологические аспекты

быть много. Например, тест валиден в совсем иной области, чем та, которую мы изучаем. Мы также могли допустить ошибку в подсчетах. Доводом может быть и то, что мы применяли линейные корреляции, в то время как отношение между тестом и критерием является нели­нейным. Поэтому всегда полезно отношение между тестом и критери­ем изобразить графически (на точечной диаграмме).

В последнее время указывается и на другой важный довод, который может способствовать в будущем пересмотру всех до сих пор суще­ствующих работ по валидизации. Речь идет о действии так называе­мых переменных-модераторов. При прогностической валидизации теста способностей по отношению к успеху в будущем было обнару­жено, что наивысшую валидность имели тесты у стабильных экстра­вертов, в то время как у лабильных экстравертов корреляция была около нуля. К переменным-модераторам вероятно принадлежит и те­оретически предполагаемая переменная, называемая предсказуемостью. Большее количество испытуемых с низкой предсказуемостью в группе, на которой осуществляется валидизация, может значительно занизить индекс валидности. Предсказуемость вероятно представляет комплекс характеристик, которые обесценивают результат тестирования или искажают критерий у разных испытуемых в разной степени. Валид­ность могут снижать и так называемые супрессоры, т. е. переменные, минимально коррелирующие с критерием, но зато имеющие общую дисперсию с невалидной частью проверяемого теста.




Поделиться с друзьями:


Дата добавления: 2015-06-04; Просмотров: 972; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.056 сек.