Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Внутренняя согласованность




Ati.

В.2. В руководстве должны быть пред­ставлены данные о внутренней согласо­ванности (гомогенности,консистентности тест). (Очень желательно.)

Комментарий. Внутренняя со­гласованность важна, если задания рас­сматриваются как выборка из относи­тельно однородного общего множества (например, тест сложения целых чисел, словарный тест для средней школы, тест, предположительно измеряющий интро-версию и т. п.). Меры внутренней согла­сованности не заменяют иных мер.

В.2.1. Оценки внутренней согласован­ности определяются соответствующими методами расщепления пополам, при по­мощи коэффициента альфа или других процедур, которые должны быть адекват­ны анализируемым данным. Любая другая мера внутренней согласованности, кото­рую автор дополнительно сообщает, в ру­ководстве к тесту должна быть подробно объяснена. (Очень желательно.)

Комментарий. Коэффициенты парного расщепления отражают суждения экспертов и обнаруживают тенденцию быть выше, чем коэффициенты случайно­го расщепления. Дисперсионный анализ обычно дает более низкие оценки по срав­нению с приемами парного расщепления. Могут быть полезными специальные ко­эффициенты: они должны быть описаны так, чтобы читатель мог понять их соотно­шение с общепризнанными оценками.

8.2.2. Оценки внутренней согласован­ности не следует вычислять для скорост­ных тестов. (Существенно.)

8.2.3. Если тест состоит из отдельно оцениваемых частей или разделов, в ру­ководстве к тесту следует сообщить кор­реляцию между частями или разделами вместе с соответствующими оценками на­дежности, а также с соответствующими средними и стандартными отклонениями. (Очень желательно.)

В.2.3.1. Если в руководстве сообщает­ся корреляция между баллом по отдельно­му субтесту и общим тестовым баллом, необходимо подчеркнуть, что коэффици­ент неоправданно высок, так как он ос­нован на совпадении ошибок измерения субтестом и общим тестовым баллом. (Существенно.)

В.2.4. Если несколько вопросов внут­ри теста экспериментально связаны так, что ответ на один вопрос влияет на другой вопрос, предпочтительно относить целую группу вопросов к одной из двух половин теста, когда применяются методы случай­ного или парного распределения пополам. Тот факт, что число заданий в этих поло­винах не равно, не вызывает затруднений при соответствующей процедуре анализа. (Очень желательно.) Ретестирование.

В.З. В руководстве к тесту должны быть представлены результаты ретестиро-вания, т. е. пользователь должен знать, насколько оценки стабильны. (Сущест­венно.)

Комментарий. Ретестовая на­дежность показывает, в какой степени ре­зультаты теста можно распространить на различные случай его применения. Приво­дя в руководстве ретестовую надежность, всегда необходимо указывать, в каком ин­тервале времени она измерялась и какие влияния на испытуемых имели место в этот период. На практике ретестовая на­дежность в ряде случаев бывает важнее, чем надежность по однородности. Если нет ретестовой надежности, тест не может быть валидным. Исключение составляют тесты, для которых ретестирование не применяется (тесты оценки состояний, эмоций).

Считается обоснованным требовать оценивания стабильности для проектив­ных техник и других средств оценки лич­ности, даже если в некоторых случаях известно, что низкая стабильность ре-

тестирования за существенный период отражает только истинное изменение свойства. Клиническая практика редко до­пускает, что выводы из проективных тес­тов приложимы к дню исследования- Ре­ально считается, что на основе тестовых данных принимаются прагматические ре­шения, имеющие смысл в течение как минимум нескольких дней, а обычно — недель или месяцев терапии. Если обнару­живается, что результаты некоторого те­ста очень нестабильны при интервале в не­сколько дней, это свидетельство вызывает сомнения в пригодности теста для боль­шинства целей, даже если эта изменчи­вость может быть объяснена гипотезой об изменчивости свойства. Исследователь может столкнуться с психологической ха­рактеристикой или результатом обучения, который за короткое время изменяется. В этом случае важно не смешивать неус­тойчивость свойства с нестабильностью измерения.

8.2.1. При определении стабильности баллов повторным тестированием целесо­образно использовать параллельные фор­мы теста, чтобы свести к минимуму при­поминание отдельных ответов, особенно при небольшом интервале между тестиро­ваниями. (Очень желательно.)

8.3.2. При описании исследования согласованности баллов во времени в ру­ководстве к тесту необходимо указать, ка­кой промежуток времени прошел между тестированиями, и привести средние стан­дартные отклонения баллов для каждого тестирования, а также коэффициент кор­реляции. (Существенно.) *

8.3.3. Если есть основание ожидать, что тестовые баллы за некоторый период существенно изменяются в соответствии с образовательными или развивающими воздействиями, в руководстве следует предупредить пользователей об этой воз­можности. (Очень желательно.)

В.3.4. При сообщении о стабильности

тестовых баллов в руководстве к тесту необходимо описать накопление соответ­ствующего опыта, обучение или лечение испытуемого за период между тестирова­ниями. (Существенно.)

Сравнимость форм.

В.4. Если опубликованы две формы те­ста, предназначенные для возможного применения к тем же испытуемым, в ру­ководстве к тесту должны быть сообщены средние и дисперсии двух форм вместе с коэффициентами корреляции двух сово­купностей баллов. Если в руководстве не представлены необходимые данные, пользователь должен быть об этом предуп­режден. (Существенно.)

Комментарий. Для каждой фор­мы следует представить обзор таких ха­рактеристик заданий, как частотные рас­пределения показателей трудности и дис-криминативности заданий. Следует пред­ставить также содержательный анализ каждой формы. Следовательно, необходи­мо отразить как частотные распределения статистических характеристик заданий, так и таблицы заданий по группам их со­держания, характеристик поведения и учебных целей.

Формы должны включать различные выборки заданий из каждой категории со­держания. Искусственно близкое сход­ство между формами может быть вызва­но совпадением заданий или разработкой второй формы простой перефразировкой заданий первой формы. Коэффициент на­дежности будет чрезмерно высоким, т. к. не учитывается ошибка выборки из обще­го множества заданий.

Г. Валидность (обоснованность) теста.

Вопросы валидности — это вопросы о том, какие и насколько обоснованные выводы могут быть сделаны на основе те­стовых оценок. Вопросы, относящиеся к

валидности, могут быть сведены к двум: 1) какие выводы можно сделать о том, что измерялось тестом; 2) какие выводы могут быть сделаны о реальном поведении чело­века, отличающемся от наблюдаемого при тестировании.

1-й вопрос выясняет внутреннюю при­роду самого измерения. Тест, как измери­тельный инструмент, является операцио-нализацией психического свойства или специфической области умения или зна­ния. В этом плане существенной пробле­мой является получение заключений о полноте отражения тестовыми баллами этой области, и в этом смысле следует го­ворить о внутренней (конструктной) ва­лидности.

2-м вопросом выясняется полезность тестового измерения в качестве предска­зателя поведения. В этом плане суще­ственной проблемой является получение заключения о том, насколько тестовые баллы связаны с некоторой другой дея­тельностью, и в этом смысле следует го­ворить о внешней (критериальной) валид­ности.

Важно отметить, что валидность не измеряется, о ней только судят. В руковод­стве могут быть приведены коэффициен­ты валидности, но о валидности теста для конкретного его использования судят по набору коэффициентов. Следовательно, валидность есть нечто такое, о чем судят как об удовлетворительном или неудов­летворительном для вынесения соответ­ствующего суждения.

Виды валидности зависят от видов зак­лючений, которые желательно извлечь из тестовых оценок. Традиционно описывают три взаимозависимых типа интерпретации заключений, обобщающих подавляющее большинство возможностей применения тестов: валидность по критерию, содержа­тельная и конструктная. Валидность по критерию может быть предсказательной и конкурентной.

Эти аспекты могут рассматриваться независимо друг от друга, однако незави­симость эта условна. Они связаны опера­ционально и логически, в конкретной си­туации редко бывает, чтобы лишь один из них был важен. Полное исследование те­ста часто включает информацию обо всех видах валидности.

Валидность по критерию и ее виды. Данная форма валидности исполь­зуется, когда хотят сделать вывод о связи тестовой оценки индивида с независимы­ми от теста внешними параметрами, назы­ваемыми критерием. Предсказательная валидность отражает степень, с которой будущий уровень по критерию может быть предсказан предшествующей деятельнос­тью по тесту. Конкурентная валидность отражает степень, с которой тест может быть использован для оценки у индивида актуального уровня по критерию. Это раз­личие важно. Предсказательная валид­ность включает отрезок времени, в те­чение которого может нечто случиться (например, люди обучаются, приобретают опыт, подвергаются лечению). Конкурен­тная валидность отражает только статус индивида в фиксированное время. При со­ответствующих условиях данные о конку­рентной валидности могут быть исполь­зованы для оценки предсказательной ва­лидности теста. Однако конкурентная ва­лидность не может использоваться взамен предсказательной без соответствующего логического обоснования. Для многих применений тестов (решение по отбору, назначению лечения и др.) предсказатель­ная валидность дает возможность опреде­лить целесообразность использования те­ста или батареи тестов в каждом отдель­ном случае. Другие формы валидности не заменяют валидность по критерию. В ру­ководствах к тестам, разработанным в предсказательных целях, а также предназ­наченным для диагноза, должны быть от­ражены исследования валидности по кри-

терию. В противоположном случае такие тесты могут рассматриваться только как исследовательские версии.

О сомнительности отдельного вычис­лительного коэффициента валидности говорят многие факторы. Условия иссле­дования валидности никогда точно не по­вторяются. Быстрое изменение условий может ограничить точность и полезность предсказательного исследования. Логика предсказательной валидизации предпола­гает, что условия, существующие в нача­ле испытаний, будут существовать и пос­ле завершения исследования.

Логика валидности по критерию пред­полагает валидность самого критерия. Очень часто тесты валидизируются отно­сительно доступного критерия вне соот­ветствующего исследования самого крите­рия. Ценность исследования валидности по критерию зависит от пригодности и ка­чества измерения поданному критерию. В прикладных исследованиях критерий дол­жен выбираться в соответствии с изучае­мой проблемой, а тест или другое средство оценивания должны выбираться относи­тельно данного критерия. Если исследова­ние предназначено в первую очередь для улучшения представлений о том, что из­меряется тестом, критерии должны изби­раться на основе заключений о природе конструкта, отражаемого тестовыми оцен­ками. В любом случае адекватность иссле­дования зависит от адекватности крите­рия.

Логика валидности по критерию пред­полагает, что выборка полностью репре­зентативна для популяции, для которой позднее будут делаться заключения. На практике выборки часто не являются реп­резентативными, например, из-за ограни­ченного объема, предвзятого отбора или утомления испытуемых до завершения валидизационного исследования.

Во многих практических ситуациях ва-лидизационные исследования не могут

охватить адекватного числа случаев, и ис­следователи вынуждены публиковать луч­шее из того, что они могут при имеющих­ся данных. Видимо, лучше попытаться ис­следовать валидность по критерию хотя бы каким-то образом, чем принять совер­шенно непроверенную гипотезу — резуль­таты неадекватного исследования могут ввести в заблуждение. Особенно сомни­тельны результаты валидизационных ис­следований при резко ограниченном ран­ге или малом количестве испытуемых.

Содержательная валидность. Сви­детельства о ней требуются, когда пользо­ватель теста желает оценить, как индивид будет действовать в ситуации, которую по предположению будет представлять тест. Содержательной валидностью обычно ха­рактеризуются тесты умений и знаний, оп­росники личности, поведенческие опрос­ники или средства измерений различных способностей. Данное обсуждение отно­сится к наиболее типичному случаю — те­стам достижения.

Чтобы выразить содержательную ва­лидность совокупности тестовых баллов, необходимо показать, что поведение испы­туемых при тестировании является репре­зентативной выборкой многих видов пове­дения в желаемой области деятельности. Любое исследование содержательной ва­лидности требует, чтобы составитель или пользователь теста определил свои цели и исчерпывающе определил область дея­тельности в свете этих целей. Определе­ние обычно относится к результатам уче­ния, а не к процессу, в ходе которого дос­тигается или обнаруживается научение. Оно должно быть достаточно детальным и четким, чтобы отразить степень, с которой компоненты деятельности образуют цело­стную область.

Конструктяая валидность. Психо­логический конструкт является теорети­ческой идеей, разработанной для объясне­ния и организации некоторых аспектов су-

ществующего знания. Такие термины, как «тревожность*., «способность к канцеляр­скому труду» или «подготовленность по чтению», отражают конструкт, но конст­рукт может обозначать больше, чем его название. Иногда необходимо постулиро­вать несколько различных конструктов, чтобы объяснить дисперсию данной сово­купности тестовых баллов. Более того, могут потребоваться различные конструк­ты для объяснения дисперсии различных тестов того же типа, или отдельный тест может отразить данные о нескольких кон­структах. Конструктная валидность име­ет место при оценивании теста или другой совокупности операций в свете рассматри­ваемого конструкта. Суждения по конст-руктной валидности полезны, когда соста­витель или пользователь теста желает знать об измеренном психологическом свойстве больше, чем позволяет отдель­ный коэффициент валидности по крите­рию, и особенно когда необходимо усовер­шенствовать измерение для научного изу­чения конструкта.

Свидетельства о конструктной валид­ности нельзя получить в одном отдельном исследовании — суждения о ней основа­ны на совокупности исследовательских результатов. Вначале исследователь фор­мулирует гипотезы о различии между ли­цами с высокими и низкими результатами по тесту. Такие гипотезы в совокупности образуют предварительную теорию конст­рукта. При полном изучении тест высту­пает в качестве зависимой переменной в одних исследованиях и в качестве незави­симой — в других. Некоторые гипотезы могут быть «контргипотезами» конкуриру­ющих теорий или интерпретаций.

Гипотезы и теоретические формули­ровки ведут к некоторым предсказаниям о том, как люди с различными баллами по тесту будут выполнять тест или проявлять себя в некоторых определенных ситуаци­ях. Если теория исследователя верна,

большинство предсказаний должно под­твердиться. Если этого не случится, ис­следователь может пересмотреть опреде­ление конструкта или перестроить тест так, чтобы он стал лучшей мерой подразу­меваемого конструкта. Путем последова­тельной верификации, модификации или отклонения гипотез исследователь все глубже проникает в сущность измеряемо­го тестом свойства.

Доказательства конструктной валид­ности можно получить в ходе разработки самого теста. Хотя доказательства конст­руктной валидности могут быть получены на основе серии исследований по внешним критериям, важно отметить, что они не­адекватны доказательствам пригодности конструкта для других гипотез.

Составитель теста или любое лицо, исследующее валидность, должны пред­ставить по мере возможности максимум информации о валидности, чтобы пользо­ватель мог оценить тест по отношению к собственным целям. В руководстве к тес­ту необходимо отразить данные, позволя­ющие пользователю оценить пригодность содержания заданий, установить, явля­ется ли тест приемлемой мерой рассмат­риваемого конструкта, и решить, характе­ризуется ли тест предсказательной валид­ностью в других подобных ситуациях.

Г. 1. В руководстве должна быть указа­на валидность теста для всех видов заклю­чений, для которых он рекомендуется. Если его валидность для некоторой пред­полагаемой интерпретации не была изуче­на, этот факт должен быть указан. (Суще­ственно.)

Комментарий. Исследование ва­лидности является частью разработки те­ста; пользователь нуждается в том, чтобы составитель сообщил об этом подробно в руководстве к тесту. По меньшей мере, в руководстве должны быть отражены ис­следования самого составителя или дру­гих исследователей, опубликованные в

других изданиях. Предпочтительно, чтобы в руководстве были отражены отдельные исследования и представлены обобщен­ные данные о валидности для различных видов интерпретаций или выводов.

Г. 1.1. Данные о валидности должны быть сделаны на основании всех типов те­стовой валидности. (Существенно.)

Комментарий. Неправильно ис­пользовать выражение «валидность тес­та», не указывая вид валидности. Не суще­ствует тестов, валидных для всех целей или во всех ситуациях, а также для всех групп индивидов. Любое исследование ва­лидности относится к некоторым из воз­можных применений или видов теста, по-лучаемыхна основе баллов.

Если тест может быть неправильно ис­пользован в некоторых областях примене­ния, в руководстве должны быть специаль­ные предостережения.

Г. 1.2. Если предполагается интерпре­тация не только баллов субтеста, но и раз­личных индексов, в руководстве должны быть помещены свидетельства, подтверж­дающие правомерность такой интерпрета­ции. (Существенно.)

Т. 1.2.1. Разработчик должен предупре­дить пользователя о невозможности рас­сматривать ответы на отдельные задания теста в качестве основы для составления заключений об испытуемом. Если подоб­ная оценка заложена в структуре теста, то в руководстве должно быть приведено под­робное обоснование такого применения. Г. 1.3. Чтобы обеспечить правильную интерпретацию баллов в течение длитель­ного времени, валидность предполагаемых интерпретаций должна периодически пе­репроверяться и результаты сообщаться в последующем руководстве. (Очень жела­тельно.)

Комментарий. Требования к тру­ду, условиям работы и людям, работаю­щим по данной профессии, с течением вре­мени часто существенно изменяются. По-

добным образом изменяется смысл клини­ческих категорий, типы медикаментозно­го лечения, цели и содержание обучения. Следовательно, пользователь должен быть в состоянии судить о том, устарел тест или нет.

Г.1.3.1. При изменении факторов, ко­торые могли повлиять на результаты вы­полнения или на валидность предполага­емой интерпретации теста, в случае если для изменившихся условий не произве­дена ревалидизация, тест должен быть исключен из общего употребления и рас­пространяться среди лиц, которые будут производить изучение его валидности. (Очень желательно.)

ТАЛ. Корреляции баллов заданий с общим тестовым баллом могут рассматри­ваться только как показатели дискримина­тивности заданий, не могут рассматри­ваться или использоваться в качестве ко­эффициентов их валидности. (Сущест­венно.)

Комментарий. Коэффициенты дискриминативности заданий полезны при суждении о конструктной валидности, и эту информацию следует включать в ру­ководство к тесту. Однако такие коэффи­циенты являются не показателями валид-. ности теста, а только мерой внутренней согласованности.

Г.2. Выборка, использованная в иссле­довании валидности, и условия, при кото­рых проводилось тестирование, должны быть подробно описаны, чтобы пользова­тель мог судить, распространима ли сооб­щенная валидность на его ситуацию. (Су­щественно.)

Г.2.1. В руководстве к тесту следует указать все параметры, определяющие со­став валидационной выборки. Выборка должна быть описана по тем переменным, о которых известно, что они влияют на ва­лидность; возраст, пол, социоэкономи-ческий статус, национальное происхож­дение, также другие демографические и

психологические характеристики. (Суще­ственно.)

Комментарий. Есливалидацион-ные исследования используют пациентов в качестве испытуемых, то важно указать диагнозы. Если возможно, то необходимо показать обоснованность диагностики (строгость условий диагностики). Для те­стов, используемых в индустрии, должен быть описан трудовой статус, профессио­нальный опыт, пол и национальный состав выборки. Для школьных тестов уместной является информация о характеристиках популяции или принципах отбора.

Г.2.2. Доказательства валидности тес­тов должны быть получены для субъектов, которые по возрасту, образованию или профессиональной подготовленности со­ответствуют лицам, для которых тест ре­комендуется. В руководстве должны быть отражены отклонения от этого требова­ния. (Существенно.)

Комментарий. Информация о валидности тестов, предназначенных для профориентации, должна в общем определяться на субъектах, тестирован­ных незадолго до образовательного или профессионального выбора или сразу после него.

Вопросник интересов, стандартизиро­ванный на мужчинах, работающих по ис­следуемой профессии, не обеспечивает использование вопросника в профориен­тации учащихся средней школы, посколь­ку полученные шкалы не дифференциру­ют группы учащихся. Лучшее доказатель­ство было получено после проверки воп­росника на учащихся с определением ха­рактера из последующей работы и уста­новлением связи между данными вопрос­ника и последующей профессией.

Если вопросник интересов использует критерий приобретения или неприобрете­ния некоторой профессии, в выборке, ис­пользованной для его валидизации, долж­ны быть только лица со способностями, со-

ответствующими данной группе профес­сий.

Г.2.3. При описании выборки должны быть приведены основные статистические данные, включая число наблюдений (и обоснование наблюдений), меры цент­ральной тенденции вариативности. Следу­ет также отразить особенности распреде­ления, возможно, с мерами асимметрии и эксцесса. (Очень желательно.)

Комментарий. Чем меньше объем валидационной выборки, тем менее на­дежны статистические данные. Когда чис­ло наблюдений очень мало, нулевой коэф­фициент корреляции может привести к ошибочному отклонению валидного теста.

Г.2.4. Если тестовые баллы в валида­ционной выборке имеют распределение, существенно отличающееся от распреде­ления баллов в группе, для которой он бу­дет.обычно использоваться, то данные, основанные на этих баллах, включая оцен­ки параметров популяции, следует интер­претировать с большой осторожностью. При сообщении оценок параметра необхо­димо привести исходные статистические данные, а также характеристики распре­деления, использованные при введении новой оценки, и использованные статисти­ческие процедуры. (Существенно.)

Комментарий. Пользователю ру­ководства следует предоставить возмож­ность оценить любое искажение, возника­ющее вследствие нетипичности характера выборки. Предположения, обусловливаю­щие причины такого искажения, часто иг­норируются, вследствие этого невозмож­но определить степень и направление оши­бок. Несмотря на эти трудности, часто не­обходима оценка подходящей статистики. Например, коэффициент валидности дол­жен отразить предсказательную способ­ность в группе, к которой тест будет при­меняться.

Г.2.5. Если тест способностей предназ­начен для учебного или профессионально-

го отбора, его валидность должна устанав­ливаться на субъектах, заинтересованных в хорошем выполнении заданий. Если же они являются добровольцами или пришли к выводу, что результаты выполнения те­ста не будут использованы в принятии решений о них, этот факт должен быть ясно указан (экологическая валидность). (Очень желательно.)

Комментарий. В промышленном отборе для валидности широко использу­ется метод «наличных кандидатов на рабо­ту». Обычно он включает тестирование реальных кандидатов, которым указывает­ся, что выполнение теста не влияет на их прием на работу. Мотивационные разли­чия могут повлиять на характер выборки, так как вводят в ситуацию тестирования новую переменную.

Г.2.6. Если валидационная выборка образована на случайно полученных или произвольно присланных пользователями результатах тестирования, этот факт дол­жен быть отражен в руководстве к тесту. Пользователь должен быть предупрежден, что группа не является систематической или случайной выборкой из определенной популяции. Должны быть также указаны возможные отборочные факторы и их предполагаемое влияние на переменные места. (Существенно.)

Комментарий. Хотя вполне це­лесообразно включать в руководство та­кие фразы, как «автор и издатель теста будут приветствовать дополнительные данные, полученные при его использова­нии», крайне трудно адекватно судить о качестве и представительности большин­ства сообщений о результатах валидиза-ции, основанной на подобных данных.

Г.2.7. Пользователю теста должна быть известна возможность смещения оценок в тестах или тестовых заданиях. По возможности следует изучить вероят­ные различия валидности по критерию для частных выборок, различающихся по

полу, этническому составу или другим признакам, которые могут быть выявлены при тестировании. В руководстве следует сообщить результаты для каждой частной выборки в отдельности или о том, что раз­личия не обнаружены. (Существенно.)

Комментарий. Во многих случа­ях опубликованные правила требуют, ког­да это возможно, проводить определение валидности для выборок, отличающихся по национальности, полу и другим демо­графическим показателям.

Возможны и другие источники разли­чий оценок теста в разных валидационных выборках. Например, расположение теста по изучению ловкости рук на низком сто­ле может вызвать смещение результатов у высоких людей.

Необходимы и другие предосторожно­сти при оценке возможности смещения. Простые различия групповых средних сами по себе не указывают на контамина­цию теста. Доказательство дифференциа­ции смещенности тестовых оценок осно­вывается на сравнении коэффициентов корреляции, уравнений регрессий, сред­них значений и дисперсий каждой пере­менной.

Пригодными статистическими кри­териями таких различий являются для любого параметра проверки гипотез об от­сутствии различий между группами, на­пример отсутствие различий между коэф­фициентами корреляций, показателями наклона или пересечения. Другими спосо­бами — тем, что один коэффициент кор­реляции значимо отличается от нуля, а другой не отличается, невозможно дока­зать предполагаемые различия.

Необходимо учесть, что существуют различные определения чистоты и от при­нятого определения может зависеть, явля­ется ли данная процедура чистой. Более того, имеются статистические и психоло­гические неопределенности относительно некоторых источников наблюдаемых раз-

 

личий в валидности или регрессии. До тех пор пока различия не наблюдаются в достаточно больших выборках и пока от­сутствует достаточное теоретическое (психологическое или социологическое) объяснение наблюдаемых различий, лю­бое различие принимается осторожно. Смещение обнаруживается не обязатель­но для валидности по критерию.

Г.З. Пользователь теста ответственен за изучение данных, подтверждающих его валидность и надежность. Применение тестовых баллов при принятии решений должно опираться на достаточные доказа­тельства. (Существенно.)

Комментарий. Пользователь те­ста ответственен за понимание и оценива­ние возможности применения теста в сво­ем исследовании. В случае, если условия стандартизации и проверки на валидность и надежность теста отличаются от тех ус­ловий, в которых работает пользователь, на пользователя ложится обязанность провести дополнительные исследования валидности теста для собственного иссле­дования. Свидетельства о валидности не­обходимы для любого обоснованного при­нятия решений, а не только тогда, когда их легко получить.

Г.З. 1. Пользователи теста ответствен­ны за сбор данных о валидности и надеж­ности используемых методик. (Очень же­лательно.)

Г.З.2. Если пользователь желает при­менить тест в ситуации, для которой такое применение ранее не проверено на валид­ность или для которой не существует подтвержденных доказательств валиднос­ти, он несет полную ответственность за валидизацию. (Существенно.)

Комментарий. Тот, кто публику­ет данные о валидности, должен обеспе­чить ее доказательства. Зачастую данные о валидности, достаточные для примене­ния тестов, имеются в руководстве к тес­ту. Если пользователь желает заявить, что

валидность является более общей, чем это отражено в руководстве, он несет ответ­ственность за доказательность своего ут­верждения.

Если пользователь теста существенно изменяет инструкцию, язык, на котором тест написан, или содержание, он должен провести повторную валидизацию приме­нения теста в измененных условиях.

Валидность по критерию.

Г.4. Все меры валидизации по крите­рию должны быть описаны полно и точ­но. Критерии должны быть оценены с то­чки зрения их адекватности, надежности и загрязненности (контаминированнос-ти), что следует убедительно подтвер­дить. Необходимо обратить внимание на значимые аспекты деятельности, кото­рые критериальные меры не отражают, и на посторонние факторы, которые могут оказывать влияние на эти меры. (Суще­ственно.)

Комментарий. Критерии явля­ются формами оценивания и должны со­ответствовать тем же требованиям, что и разработка любой оценочной техники. При диагностике в области труда и образо­вания критерием может быть тест дости­жений или перечень трудовых действий, достаточно валидных по содержанию. Оценочные суждения руководителей и пе­дагогов являются критерием более об­щим, но и более сомнительным по конст-руктной валидности. Выводы о конструк-тной валидности оценочных суждений мо­гут быть основаны на высокой их корре­ляции с результатами деятельности и мак­симально не зависеть от трудового стажа. При изучении интересов иногда не выяс­няется, что показывает критерий: удовлет­воренность, успешность или длительность изучаемой деятельности. Когда группы по критерию включают лиц данной профес­сии и когда эти группы сравниваются с людьми вообще, в руководстве должно быть подчеркнуто различие между рабо-

той по профессии и успехом или удовлет­воренностью ею.

Г.4.1. Особое внимание должно быть обращено на потенциальные источники контаминации критерия; необходимо со­общить о результатах исследования кон­таминации. (Существенно.)

Комментарий. Результаты таких исследований могут быть неоднозначны, н пользователя надо об этом предупредить. Например, при изучении влияния половых различий на оценку по критерию может обнаруживаться существенная разница между мужчинами и женщинами. Однако этот факт сам по себе не является доста­точным свидетельством контаминации критерия: он может отразить фактические половые различия деятельности.

Г.4.2. Когда сообщается валидность теста для предсказаний в сфере професси­ональной деятельности, в руководстве должны быть описаны служебные обязан­ности работников наряду с наименовани­ем выполняемых ими действий. (Очень желательно.)

Комментарий. Принцип заклю­чается в том, что должна даваться инфор­мация, на основе которой пользователь мог бы судить о состоятельности крите­рия. При отсутствии такой информации описание критерия часто является непол­ным.

Г.4.3. При валидизации по критерию обычно следует рассматривать не один, более общий критерий, а несколько част­ных, составляющих общий.

Комментарий. В большинстве видов деятельности по выполнению теста деятельность выражается во многих пара­метрах, которые могут быть независимы. При объединении несвязанных аспектов поведения в единый сложный критерий, возможно игнорирование важных зависи­мостей и тем самым уменьшение способно­стей пользователей идентифицировать и понимать валидные интерпретации теста.

Отдельные решения часто должны быть приняты на многомерной основе. Тем не менее предпочтительнее найти прави­ло принятия решений для объединенных предсказаний.

Г.4.4. Если валидность теста оценива­ется по его соответствию психиатричес­ким суждениям, следует указать квалифи­кацию, опыт и профессиональный статус экспертов, также природу и степень их контактов с пациентами и другие потенци­ально влияющие факторы. (Очень жела­тельно.)

Комментарий. Например, «пара­ноидная шизофрения, хроническая» луч­ше, чем просто «шизофрения». Так как типы пациентов, подвергаемых специаль­но диагностической классификации, в не­которой степени зависят от выбора психи­атра, должно быть предоставлено развер­нутое описание каждой диагностической категории, использованной в исследова­нии валидности.

Г.4.6. Коэффициенты валидности спе­цифичны для ситуаций, в которых они получены. Если в руководстве дано сооб­щение о валидности для предсказания данного вида конструкта (критерия), необ­ходимо представить материалы, предпола­гающие границы этого обобщения относи­тельно характеристик популяции или вы­борки, ситуационных переменных или ва­риации изменения по критерию. (Очень желательно.)

Г.4.7. Так как критерий является вы­борочным из всевозможных критериев того же конструкта, валидность должна быть по возможности определена как со­ответствие этой выборки другим похо­жим выборкам. Если доказательства по этому вопросу представлены быть не мо­гут, автор на основе суждения по кос­венным данным должен это указать и об­судить вероятную степень соответствия выборки другим выборкам. (Очень же­лательно.)

Комментарий. Если валидность измерена, например, по соответствию те­ста суждениям психиатров, то должна быть описана степень согласованности между экспертами. Если в качестве кри­терия использован опубликованный тест достижений, тд.его соответствие па­раллельным формам или надежность, со­общенные автором теста, могут быть ис­пользованы как основа для оценивания критерия при учете влияния различия между взятой выборкой лиц и исходной выборкой.

Г.4.8. В руководстве должны быть от­ражены данные о степени полноты и обоб­щенности информации о валидности. (Очень желательно.)

Г.4.8.1. В руководстве к тесту должны быть сообщены данные о валидности тес­та относительно каждого критерия, для которого даются рекомендации. Если для некоторой интерпретации валидность не выявлялась, этот факт должен быть ясно указан. (Существенно.)

Комментарий. Если с данным наименованием профессии соотнесен ши­рокий круг обязанностей, пользователей теста следует предупредить о несостоя­тельности предположения, что только одно сочетание интересов и способностей соотносимо с данной профессией.

Г.4.9. Локальный сбор доказательств валидности по критерию часто более по­лезен, чем опубликованные данные. В та­ких случаях в руководстве должен де­латься упор на локальные исследования валидности, а пользователи теста должны по возможности проводить такие исследо­вания. (Желательно.)

Г.5. В валидизационном исследовании при сборе данных необходимо использо­вать процедуры, соответствующие целям исследования. (Существенно.)

Г.5.1. При сборе данных для валидиза­ции исследователь, интерпретирующий результаты теста, должен располагать

только той информацией об испытуемых, которая обычно будет доступна при прак­тическом использовании тестов. Если существует некоторая возможная конта­минация, связанная с априорным пред­ставлением об испытуемых, в руководстве должно быть обсуждено влияние этого фактора на результаты исследования. (Существенно.)

Г.6. Любой статистический анализ ва­лидности по критерию в руководстве дол­жен даваться в форме, по которой поль­зователь мог бы определить, с какой сте­пенью доверительности можно принять утверждения или предсказания относи­тельно индивида. (Существенно.)

Г.6.1. В докладе о валидности по кри­терию должна быть отражена полная ин­формация о выполненном статистическом анализе. Следует включить, кроме основ­ных описательных статистик (средних и стандартных отклонений), еще один или несколько показателей: а) один или более коэффициент корреляции известного вида; б) описание эффективности, с кото­рой тест различает группы по критерию; в) таблицы ожиданий; г) графики зависи­мости между тестом и критерием. (Суще­ственно.)

Комментарий. Полная информа­ция включает данные о надежности, тес­ноте и характере зависимости. В корреля­ционное понятие включается информация о статистической значимости и величине коэффициента корреляции, а также о рег­рессионном уравнении.

Сообщение о различии между средни­ми групп само по себе не дает адекватной информации о валидности: если дисперсия большая, классификация может быть не­точной, даже если средние различаются существенно. Теснота связи может быть представлена описанием количества оши­бочной классификации или совмещений групп. Таблицы ожиданий могут дать информацию о характере предсказания.

В общем, так как руководство часто пред­назначено для пользователей, имеющих слабую статистическую подготовку, дол­жны быть приняты все меры для ясного со­общения валидности.

Г.6.1.1. Коэффициент валидности дол­жен быть дополнен сообщением о пара­метрах уравнения регрессий и стандарт­ной ошибкой оценки. (Очень желатель­но.)

Комментарий. Необходимая ин­формация может быть представлена в таб­лице ожиданий, показывающей величину возможных оценок по критерию для каж­дого балла (или группы баллов) по тестам. Очень полезна стандартная ошибка оцен­ки для различных точек шкалы предсказа­ний.

Г.6.2. Если валидность теста выявляет­ся сравнением групп, различающихся по критерию, то в руководстве к тесту необ­ходимо сообщить, различаются ли группы, и насколько различаются, по другим пере­менным. (Очень желательно.)

Комментарий. Так как группы, различающиеся по критерию, могут также резко различаться и в других отношениях, то тест может различать качества, от­личающиеся от подразумеваемых. Напри­мер, типы умственного расстройства связаны с возрастом, образованием и дли­тельностью госпитализации. Это всегда должно быть учтено при оценке полезно­сти теста для диагностики.

Г.6.2.1. Если тест предназначен для дифференциального анализа, то в руко­водстве должны быть приведены доказа­тельства способности теста отнести ин­дивидов в диагностические группы, а не только отделять диагносцируемые груп­пы от популяции нормальных. (Суще­ственно.)

Комментарий. Когда тест реко­мендован для отнесения индивидов в дис­кретные категории, то ф-коэффициенты или дискриминативные функции должны

быть дополнены таблицами оценок оши­бочных решений. Например, для каждой категории должен быть определен про­цент лиц, ошибочно исключаемых из нее. Такие проценты должны сравниваться с базовыми оценками, т. е. с процентами правильной классификации, установлен­ными при максимальном знании объема диагносцируемых категорий.

Г.6.3. Метод статистического анализа должен выбираться с учетом характерис­тик полученных данных и выдвинутых ги­потез. (Существенно.)

Комментарий. Полученные дан­ные могут очень незначительно отличать­ся от первоначально предполагаемых ха­рактеристик. Однако даже небольшие от­клонения от выдвинутых гипотез метут приводить к серьезным ошибкам. Напри­мер, при использовании предсказаний, ос­нованных на предположении о двумерном нормальном распределении, возможна се­рьезная переоценка средней деятельности кандидатов с высокими баллами, если дан­ные заметно несимметричны.

В подобных случаях валидность более точно определяется методом, не основан­ным на предположении о двумерном рас­пределении.

Г.6.4. Если коэффициенты корреляции скорректированы с учетом ограниченнос­ти в ранге или ослабления, то должна быть представлена полная информация о таких поправках. При этом проверка значимос­ти должна быть проведена для коэффици­ентов корреляции без поправок. (Суще­ственно.)

Комментарий. Поправки долж­ны вноситься только к вычисленным ко­эффициентам. Обычно не следует делать последовательных поправок, например по­правки на ослабление к коэффициенту, уже скорректированному с учетом ограни­чения в ранге. Цепочки поправок могут быть полезны при рассмотрении возмож­ностей дальнейших исследований, но эти

результаты не должны представляться как оценки корреляций в популяции.

Г.6.5. Если валидизации подвергается батарея тестов, в руководстве необходимо отразить валидность суммарной оценки, а также следует вычислить «вес» каждого теста в итоговой оценке. (Существенно.)

Г.6.6. Если весовое'объединение тес­тов в батареи основано на регрессионных коэффициентах, отрицательные веса сле­дует использовать только после проверки на перекрестную валидность в больших выборках и только в том случае, когда их использование не скажется отрицательно (и следовательно, не будет несправедли­вым) на одной или нескольких подгруппах тестируемой популяции. (Существен­но.)

Г.6.7. Если предположено, что реше­ние должно быть основано на сложном не­линейном объединении баллов, необходи­мо показать, что такое объединение име­ет большую валидность, чем простое ли­нейное объединение, что уравнения могут быть логически объяснены и процедуры объединения баллов подвергались пере­крестной валидизации. (Существенно.)

Г.6.8. По мере возможности пользова­телю теста, продолжительное время рабо­тающему с ним, следует разработать про­цедуры отбора данных для дальнейшего исследования. (Желательно.)

Комментарий. Данные о валид­ности могут устареть, на зависимость между выполнением теста и реальной де­ятельностью могут повлиять многие фак­торы: изменение характеристик популя­ции, источники ее пополнения, экономи­ческие и организационные характеристи­ки. Более того, исследования валидности часто основаны на относительном малом количестве случаев. План систематичес­кого сбора данных уже после передачи те­ста в пользование может быть полезным как для разработки более надежной стати­стической основы, так и для информации

об изменениях тенденций зависимости с течением времени. Продолжение исследо­вания менее необходимо, если исходные данные получены в относительно большой выборке, если хорошо определена основа обобщающей валидности. В этом случае возможно планировать время от времени небольшие повторные исследования вме­сто продолжительной исследовательской программы.

Г.7. В руководстве должна быть указа­на разница во времени между проведени­ем теста и сбором данных по критерию. Если данные по критерию собирались в те­чение некоторого времени, должны указы­ваться даты начала и окончания. (Суще­ственно.)

Комментарий. Валидность мо­жет со временем уменьшаться. В профо-риентационном тестировании изменения содержания и средств труда, уровня спо­собностей популяции ориентируемых мо­гут изменять показатели, для которых по­лучена информация о валидности.

Г.7.1. Пользователя теста следует пре­дупредить о необоснованности составле­ния долговременных прогнозов. (Суще­ственно.)

Комментарий. Кратковременные прогнозы намного более валидны, так как менее подвержены влиянию разных фак­торов.

Г.7.2. Если тест предназначен для дол­говременных, отстоящих во времени прогнозов, но представлены сравнения только по конкурентному критерию, в ру­ководстве должно быть подчеркнуто, что валидность долговременных предсказаний осталась неопределенной. (Существен­но.)

Г.7.3. Если сообщается валидность те­ста для предсказания оценки по учебному предмету, то должна быть достаточно яс­ная информация о видах деятельности, необходимой при изучении данных пред­метов, характере метода обучения и спо-

собе измерения деятельности. Если тест был проведен после начала изучения пред­мета, этот факт должен быть отмечен. (Очень желательно.)




Поделиться с друзьями:


Дата добавления: 2015-06-04; Просмотров: 929; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.013 сек.