Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Г. Валидность (обоснованность) теста




Сравнимость форм.

В.4. Если опубликованы две формы те­ста, предназначенные для возможного применения к тем же испытуемым, в ру­ководстве к тесту должны быть сообщены средние и дисперсии двух форм вместе с коэффициентами корреляции двух сово­купностей баллов. Если в руководстве не представлены необходимые данные, пользователь должен быть об этом предуп­режден. (Существенно.)

Комментарий. Для каждой фор­мы следует представить обзор таких ха­рактеристик заданий, как частотные рас­пределения показателей трудности и дискриминативности заданий. Следует пред­ставить также содержательный анализ каждой формы. Следовательно, необходи­мо отразить как частотные распределения статистических характеристик заданий, так и таблицы заданий по группам их содержания, характеристик поведения и учебных целей.

Формы должны включать различные выборки заданий из каждой категории со­держания. Искусственно близкое сход­ство между формами может быть вызва­но совпадением заданий или разработкой второй формы простой перефразировкой заданий первой формы. Коэффициент на­дежности будет чрезмерно высоким, т. к. не учитывается ошибка выборки из обще­го множества заданий.

Вопросы валидности — это вопросы о том, какие и насколько обоснованные выводы могут быть сделаны на основе те­стовых оценок. Вопросы, относящиеся к валидности, могут быть сведены к двум: 1) какие выводы можно сделать о том, что измерялось тестом; 2) какие выводы могут быть сделаны о реальном поведении чело­века, отличающемся от наблюдаемого при тестировании.

1-й вопрос выясняет внутреннюю при­роду самого измерения. Тест, как измери­тельный инструмент, является операционализацией психического свойства или специфической области умения или зна­ния. В этом плане существенной пробле­мой является получение заключений о полноте отражения тестовыми баллами этой области, и в этом смысле следует го­ворить о внутренней (конструктной) ва­лидности.

2-м вопросом выясняется полезность тестового измерения в качестве предска­зателя поведения. В этом плане суще­ственной проблемой является получение заключения о том, насколько тестовые баллы связаны с некоторой другой дея­тельностью, и в этом смысле следует го­ворить о внешней (критериальной) валид­ности.

Важно отметить, что валидность не измеряется, о ней только судят. В руковод­стве могут быть приведены коэффициен­ты валидности, но о валидности теста для конкретного его использования судят по набору коэффициентов. Следовательно, валидность есть нечто такое, о чем судят как об удовлетворительном или неудов­летворительном для вынесения соответ­ствующего суждения.

Виды валидности зависят от видов зак­лючений, которые желательно извлечь из тестовых оценок. Традиционно описывают три взаимозависимых типа интерпретации заключений, обобщающих подавляющее большинство возможностей применения тестов: валидность по критерию, содержа­тельная и конструктная. Валидность по критерию может быть предсказательной и конкурентной.

Эти аспекты могут рассматриваться независимо друг от друга, однако незави­симость эта условна. Они связаны опера­ционально и логически, в конкретной си­туации редко бывает, чтобы лишь один из них был важен. Полное исследование те­ста часто включает информацию обо всех видах валидности.

Валидность по критерию и ее виды. Данная форма валидности исполь­зуется, когда хотят сделать вывод о связи тестовой оценки индивида с независимы­ми от теста внешними параметрами, называемыми критерием. Предсказательная валидность отражает степень, с которой будущий уровень по критерию может быть предсказан предшествующей деятельнос­тью по тесту. Конкурентная валидность отражает степень, с которой тест может быть использован для оценки у индивида актуального уровня по критерию. Это раз­личие важно. Предсказательная валид­ность включает отрезок времени, в те­чение которого может нечто случиться (например, люди обучаются, приобретают опыт, подвергаются лечению). Конкурен­тная валидность отражает только статус индивида в фиксированное время. При со­ответствующих условиях данные о конку­рентной валидности могут быть исполь­зованы для оценки предсказательной ва­лидности теста. Однако конкурентная ва­лидность не может использоваться взамен предсказательной без соответствующего логического обоснования. Для многих применений тестов (решение по отбору, назначению лечения и др.) предсказатель­ная валидность дает возможность опреде­лить целесообразность использования те­ста или батареи тестов в каждом отдельном случае. Другие формы валидности не заменяют валидность по критерию. В ру­ководствах к тестам, разработанным в предсказательных целях, а также предназ­наченным для диагноза, должны быть от­ражены исследования валидности по критерию. В противоположном случае такие тесты могут рассматриваться только как исследовательские версии.

О сомнительности отдельного вычис­лительного коэффициента валидности говорят многие факторы. Условия иссле­дования валидности никогда точно не по­вторяются. Быстрое изменение условий может ограничить точность и полезность предсказательного исследования. Логика предсказательной валидизации предпола­гает, что условия, существующие в нача­ле испытаний, будут существовать и после завершения исследования.

Логика валидности по критерию пред­полагает валидность самого критерия. Очень часто тесты валидизируются отно­сительно доступного критерия вне соот­ветствующего исследования самого критерия. Ценность исследования валидности по критерию зависит от пригодности и ка­чества измерения по данному критерию. В прикладных исследованиях критерий дол­жен выбираться в соответствии с изучаемой проблемой, а тест или другое средство оценивания должны выбираться относи­тельно данного критерия. Если исследова­ние предназначено в первую очередь для улучшения представлений о том, что из­меряется тестом, критерии должны изби­раться на основе заключений о природе конструкта, отражаемого тестовыми оцен­ками. В любом случае адекватность иссле­дования зависит от адекватности крите­рия.

Логика валидности по критерию пред­полагает, что выборка полностью репре­зентативна для популяции, для которой позднее будут делаться заключения. На практике выборки часто не являются реп­резентативными, например, из-за ограни­ченного объема, предвзятого отбора или утомления испытуемых до завершения валидизационного исследования.

Во многих практических ситуациях валидизационные исследования не могут охватить адекватного числа случаев, и ис­следователи вынуждены публиковать луч­шее из того, что они могут при имеющих­ся данных. Видимо, лучше попытаться ис­следовать валидность по критерию хотя бы каким-то образом, чем принять совер­шенно непроверенную гипотезу — резуль­таты неадекватного исследования могут ввести в заблуждение. Особенно сомни­тельны результаты валидизационных ис­следований при резко ограниченном ран­ге или малом количестве испытуемых.

Содержательная валидность. Сви­детельства о ней требуются, когда пользо­ватель теста желает оценить, как индивид будет действовать в ситуации, которую по предположению будет представлять тест. Содержательной валидностью обычно ха­рактеризуются тесты умений и знаний, оп­росники личности, поведенческие опрос­ники или средства измерений различных способностей. Данное обсуждение отно­сится к наиболее типичному случаю — те­стам достижения.

Чтобы выразить содержательную ва­лидность совокупности тестовых баллов, необходимо показать, что поведение испы­туемых при тестировании является репре­зентативной выборкой многих видов поведения в желаемой области деятельности. Любое исследование содержательной ва­лидности требует, чтобы составитель или пользователь теста определил свои цели и исчерпывающе определил область дея­тельности в свете этих целей. Определе­ние обычно относится к результатам уче­ния, а не к процессу, в ходе которого дос­тигается или обнаруживается научение. Оно должно быть достаточно детальным и четким, чтобы отразить степень, с которой компоненты деятельности образуют цело­стную область.

Конструктная валидность. Психо­логический конструкт является теорети­ческой идеей, разработанной для объясне­ния и организации некоторых аспектов сушествующего знания. Такие термины, как «тревожность», «способность к канцеляр­скому труду» или «подготовленность по чтению», отражают конструкт, но конст­рукт может обозначать больше, чем его название. Иногда необходимо постулиро­вать несколько различных конструктов, чтобы объяснить дисперсию данной сово­купности тестовых баллов. Более того, могут потребоваться различные конструк­ты для объяснения дисперсии различных тестов того же типа, или отдельный тест может отразить данные о нескольких кон­структах. Конструктная валидность име­ет место при оценивании теста или другой совокупности операций в свете рассматри­ваемого конструкта. Суждения по конструктной валидности полезны, когда соста­витель или пользователь теста желает знать об измеренном психологическом свойстве больше, чем позволяет отдель­ный коэффициент валидности по крите­рию, и особенно когда необходимо усовершенствовать измерение для научного изу­чения конструкта.

Свидетельства о конструктной валид­ности нельзя получить в одном отдельном исследовании — суждения о ней основа­ны на совокупности исследовательских результатов. Вначале исследователь формулирует гипотезы о различии между ли­цами с высокими и низкими результатами по тесту. Такие гипотезы в совокупности образуют предварительную теорию конст­рукта. При полном изучении тест высту­пает в качестве зависимой переменной в одних исследованиях и в качестве незави­симой — в других. Некоторые гипотезы могут быть «контргипотезами» конкуриру­ющих теорий или интерпретаций.

Гипотезы и теоретические формули­ровки ведут к некоторым предсказаниям о том, как люди с различными баллами по тесту будут выполнять тест или проявлять себя в некоторых определенных ситуаци­ях. Если теория исследователя верна, большинство предсказаний должно под­твердиться. Если этого не случится, ис­следователь может пересмотреть опреде­ление конструкта или перестроить тест так, чтобы он стал лучшей мерой подразу­меваемого конструкта. Путем последова­тельной верификации, модификации или отклонения гипотез исследователь все глубже проникает в сущность измеряемо­го тестом свойства.

Доказательства конструктной валид­ности можно получить в ходе разработки самого теста. Хотя доказательства конст­руктной валидности могут быть получены на основе серии исследований по внешним критериям, важно отметить, что они не­адекватны доказательствам пригодности конструкта для других гипотез.

Составитель теста или любое лицо, исследующее валидность, должны пред­ставить по мере возможности максимум информации о валидности, чтобы пользо­ватель мог оценить тест по отношению к собственным целям. В руководстве к тес­ту необходимо отразить данные, позволя­ющие пользователю оценить пригодность содержания заданий, установить, явля­ется ли тест приемлемой мерой рассматриваемого конструкта, и решить, характе­ризуется ли тест предсказательной валид­ностью в других подобных ситуациях.

Г. 1. В руководстве должна быть указа­на валидность теста для всех видов заклю­чений, для которых он рекомендуется. Если его валидность для некоторой пред­полагаемой интерпретации не была изуче­на, этот факт должен быть указан. (Суще­ственно.)

Комментарий. Исследование ва­лидности является частью разработки те­ста; пользователь нуждается в том, чтобы составитель сообщил об этом подробно в руководстве к тесту. По меньшей мере, в руководстве должны быть отражены ис­следования самого составителя или дру­гих исследователей, опубликованные в других изданиях. Предпочтительно, чтобы в руководстве были отражены отдельные исследования и представлены обобщен­ные данные о валидности для различных видов интерпретаций или выводов.

Г. 1.1. Данные о валидности должны быть сделаны на основании всех типов те­стовой валидности. (Существенно.)

Комментарий. Неправильно ис­пользовать выражение «валидность тес­та», не указывая вид валидности. Не суще­ствует тестов, валидных для всех целей или во всех ситуациях, а также для всех групп индивидов. Любое исследование ва­лидности относится к некоторым из воз­можных применений или видов теста, по­лучаемых на основе баллов.

Если тест может быть неправильно ис­пользован в некоторых областях примене­ния, в руководстве должны быть специаль­ные предостережения.

Г. 1.2. Если предполагается интерпре­тация не только баллов субтеста, но и раз­личных индексов, в руководстве должны быть помещены свидетельства, подтверж­дающие правомерность такой интерпрета­ции. (Существенно.)

Г. 1.2.1. Разработчик должен предупре­дить пользователя о невозможности рас­сматривать ответы на отдельные задания теста в качестве основы для составления заключений об испытуемом. Если подоб­ная оценка заложена в структуре теста, то в руководстве должно быть приведено под­робное обоснование такого применения.

Г. 1.3. Чтобы обеспечить правильную интерпретацию баллов в течение длитель­ного времени, валидность предполагаемых интерпретаций должна периодически пе­репроверяться и результаты сообщаться в последующем руководстве. (Очень жела­тельно.)

Комментарий. Требования к тру­ду, условиям работы и людям, работаю­щим по данной профессии, с течением вре­мени часто существенно изменяются. Подобным образом изменяется смысл клини­ческих категорий, типы медикаментозно­го лечения, цели и содержание обучения. Следовательно, пользователь должен быть в состоянии судить о том, устарел тест или нет.

Г. 1.3.1. При изменении факторов, ко­торые могли повлиять на результаты вы­полнения или на валидность предполага­емой интерпретации теста, в случае если для изменившихся условий не произведена ревалидизация, тест должен быть исключен из общего употребления и рас­пространяться среди лиц, которые будут производить изучение его валидности. (Очень желательно.)

Г. 1.4. Корреляции баллов заданий с общим тестовым баллом могут рассматри­ваться только как показатели дискриминативности заданий, не могут рассматри­ваться или использоваться в качестве коэффициентов их валидности. (Сущест­венно.)

Комментарий. Коэффициенты дискриминативности заданий полезны при суждении о конструктной валидности, и эту информацию следует включать в ру­ководство к тесту. Однако такие коэффи­циенты являются не показателями валид­ности теста, а только мерой внутренней согласованности.

Г.2. Выборка, использованная в иссле­довании валидности, и условия, при кото­рых проводилось тестирование, должны быть подробно описаны, чтобы пользова­тель мог судить, распространима ли сооб­щенная валидность на его ситуацию. (Су­щественно.)

Г.2.1. В руководстве к тесту следует указать все параметры, определяющие со­став валидационной выборки. Выборка должна быть описана по тем переменным, о которых известно, что они влияют на валидность: возраст, пол, социоэкономический статус, национальное происхож­дение, также другие демографические и психологические характеристики. (Суще­ственно.)

Комментарий. Если валидационные исследования используют пациентов в качестве испытуемых, то важно указать диагнозы. Если возможно, то необходимо показать обоснованность диагностики (строгость условий диагностики). Для те­стов, используемых в индустрии, должен быть описан трудовой статус, профессио­нальный опыт, пол и национальный состав выборки. Для школьных тестов уместной является информация о характеристиках популяции или принципах отбора.

Г.2.2. Доказательства валидности тес­тов должны быть получены для субъектов, которые по возрасту, образованию или профессиональной подготовленности со­ответствуют лицам, для которых тест рекомендуется. В руководстве должны быть отражены отклонения от этого требова­ния. (Существенно.)

Комментарий. Информация о валидности тестов, предназначенных для профориентации, должна в общем определяться на субъектах, тестирован­ных незадолго до образовательного или профессионального выбора или сразу после него.

Вопросник интересов, стандартизиро­ванный на мужчинах, работающих по ис­следуемой профессии, не обеспечивает использование вопросника в профориен­тации учащихся средней школы, посколь­ку полученные шкалы не дифференциру­ют группы учащихся. Лучшее доказатель­ство было получено после проверки воп­росника на учащихся с определением ха­рактера из последующей работы и установлением связи между данными вопрос­ника и последующей профессией.

Если вопросник интересов использует критерий приобретения или неприобрете­ния некоторой профессии, в выборке, ис­пользованной для его валидизации, долж­ны быть только лица со способностями, соответствующими данной группе профес­сий.

Г.2.3. При описании выборки должны быть приведены основные статистические данные, включая число наблюдений (и обоснование наблюдений), меры цент­ральной тенденции вариативности. Следу­ет также отразить особенности распреде­ления, возможно, с мерами асимметрии и эксцесса. (Очень желательно.)

Комментарий. Чем меньше объем валидационной выборки, тем менее на­дежны статистические данные. Когда чис­ло наблюдений очень мало, нулевой коэф­фициент корреляции может привести к ошибочному отклонению валидного теста.

Г.2.4. Если тестовые баллы в валида­ционной выборке имеют распределение, существенно отличающееся от распреде­ления баллов в группе, для которой он бу­дет обычно использоваться, то данные, основанные на этих баллах, включая оцен­ки параметров популяции, следует интер­претировать с большой осторожностью. При сообщении оценок параметра необхо­димо привести исходные статистические данные, а также характеристики распре­деления, использованные при введении новой оценки, и использованные статисти­ческие процедуры. (Существенно.)

Комментарий. Пользователю ру­ководства следует предоставить возмож­ность оценить любое искажение, возника­ющее вследствие нетипичности характера выборки. Предположения, обусловливающие причины такого искажения, часто иг­норируются, вследствие этого невозмож­но определить степень и направление оши­бок. Несмотря на эти трудности, часто не­обходима оценка подходящей статистики. Например, коэффициент валидности дол­жен отразить предсказательную способ­ность в группе, к которой тест будет при­меняться.

Г.2.5. Если тест способностей предназ­начен для учебного или профессионального отбора, его валидность должна устанав­ливаться на субъектах, заинтересованных в хорошем выполнении заданий. Если же они являются добровольцами или пришли к выводу, что результаты выполнения те­ста не будут использованы в принятии решений о них, этот факт должен быть ясно указан (экологическая валидность). (Очень желательно.)

Комментарий. В промышленном отборе для валидности широко использу­ется метод «наличных кандидатов на рабо­ту». Обычно он включает тестирование реальных кандидатов, которым указывает­ся, что выполнение теста не влияет на их прием на работу. Мотивационные разли­чия могут повлиять на характер выборки, так как вводят в ситуацию тестирования новую переменную.

Г.2.6. Если валидационная выборка образована на случайно полученных или произвольно присланных пользователями результатах тестирования, этот факт дол­жен быть отражен в руководстве к тесту. Пользователь должен быть предупрежден, что группа не является систематической или случайной выборкой из определенной популяции. Должны быть также указаны возможные отборочные факторы и их предполагаемое влияние на переменные места. (Существенно.)

Комментарий. Хотя вполне це­лесообразно включать в руководство та­кие фразы, как «автор и издатель теста будут приветствовать дополнительные данные, полученные при его использова­нии», крайне трудно адекватно судить о качестве и представительности большин­ства сообщений о результатах валидизации, основанной на подобных данных.

Г.2.7. Пользователю теста должна быть известна возможность смещения оценок в тестах или тестовых заданиях. По возможности следует изучить вероят­ные различия валидности по критерию для частных выборок, различающихся по полу, этническому составу или другим признакам, которые могут быть выявлены при тестировании. В руководстве следует сообщить результаты для каждой частной выборки в отдельности или о том, что раз­личия не обнаружены. (Существенно.)

Комментарий. Во многих случа­ях опубликованные правила требуют, ког­да это возможно, проводить определение валидности для выборок, отличающихся по национальности, полу и другим демо­графическим показателям.

Возможны и другие источники разли­чий оценок теста в разных валидационных выборках. Например, расположение теста по изучению ловкости рук на низком сто­ле может вызвать смещение результатов у высоких людей.

Необходимы и другие предосторожно­сти при оценке возможности смещения. Простые различия групповых средних сами по себе не указывают на контамина­цию теста. Доказательство дифференциации смещенности тестовых оценок осно­вывается на сравнении коэффициентов корреляции, уравнений регрессий, сред­них значений и дисперсий каждой пере­менной.

Пригодными статистическими кри­териями таких различий являются для любого параметра проверки гипотез об от­сутствии различий между группами, на­пример отсутствие различий между коэффициентами корреляций, показателями наклона или пересечения. Другими спосо­бами — тем, что один коэффициент кор­реляции значимо отличается от нуля, а другой не отличается, невозможно доказать предполагаемые различия.

Необходимо учесть, что существуют различные определения чистоты и от при­нятого определения может зависеть, явля­ется ли данная процедура чистой. Более того, имеются статистические и психологические неопределенности относительно некоторых источников наблюдаемых различий в валидности или регрессии. До тех пор пока различия не наблюдаются в достаточно больших выборках и пока от­сутствует достаточное теоретическое (психологическое или социологическое) объяснение наблюдаемых различий, лю­бое различие принимается осторожно. Смещение обнаруживается не обязатель­но для валидности по критерию.

Г.З. Пользователь теста ответственен за изучение данных, подтверждающих его валидность и надежность. Применение тестовых баллов при принятии решений должно опираться на достаточные доказа­тельства. (Существенно.)

Комментарий. Пользователь те­ста ответственен за понимание и оценива­ние возможности применения теста в сво­ем исследовании. В случае, если условия стандартизации и проверки на валидность и надежность теста отличаются от тех ус­ловий, в которых работает пользователь, на пользователя ложится обязанность провести дополнительные исследования валидности теста для собственного иссле­дования. Свидетельства о валидности не­обходимы для любого обоснованного принятия решений, а не только тогда, когда их легко получить.

Г.3.1. Пользователи теста ответствен­ны за сбор данных о валидности и надеж­ности используемых методик. (Очень же­лательно.)

Г.З.2. Если пользователь желает при­менить тест в ситуации, для которой такое применение ранее не проверено на валид­ность или для которой не существует подтвержденных доказательств валиднос­ти, он несет полную ответственность за валидизацию. (Существенно.)

Комментарий. Тот, кто публику­ет данные о валидности, должен обеспе­чить ее доказательства. Зачастую данные о валидности, достаточные для примене­ния тестов, имеются в руководстве к тес­ту. Если пользователь желает заявить, что валидность является более общей, чем это отражено в руководстве, он несет ответ­ственность за доказательность своего ут­верждения.

Если пользователь теста существенно изменяет инструкцию, язык, на котором тест написан, или содержание, он должен провести повторную валидизацию приме­нения теста в измененных условиях.




Поделиться с друзьями:


Дата добавления: 2015-06-04; Просмотров: 694; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.