Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Валидность по критерию




Г.4. Все меры валидизации по крите­рию должны быть описаны полно и точ­но. Критерии должны быть оценены с то­чки зрения их адекватности, надежности и загрязненности (контаминированности), что следует убедительно подтвер­дить. Необходимо обратить внимание на значимые аспекты деятельности, кото­рые критериальные меры не отражают, и на посторонние факторы, которые могут оказывать влияние на эти меры. (Суще­ственно.)

Комментарий. Критерии явля­ются формами оценивания и должны со­ответствовать тем же требованиям, что и разработка любой оценочной техники. При диагностике в области труда и образования критерием может быть тест дости­жений или перечень трудовых действий, достаточно валидных по содержанию. Оценочные суждения руководителей и пе­дагогов являются критерием более об­щим, но и более сомнительным по конструктной валидности. Выводы о конструктной валидности оценочных суждений мо­гут быть основаны на высокой их корре­ляции с результатами деятельности и мак­симально не зависеть от трудового стажа. При изучении интересов иногда не выяс­няется, что показывает критерий: удовлет­воренность, успешность или длительность изучаемой деятельности. Когда группы по критерию включают лиц данной профес­сии и когда эти группы сравниваются с людьми вообще, в руководстве должно быть подчеркнуто различие между работой по профессии и успехом или удовлет­воренностью ею.

Г.4.1. Особое внимание должно быть обращено на потенциальные источники контаминации критерия; необходимо со­общить о результатах исследования кон­таминации. (Существенно.)

Комментарий. Результаты таких исследований могут быть неоднозначны, и пользователя надо об этом предупредить. Например, при изучении влияния половых различий на оценку по критерию может обнаруживаться существенная разница между мужчинами и женщинами. Однако этот факт сам по себе не является доста­точным свидетельством контаминации критерия: он может отразить фактические половые различия деятельности.

Г.4.2. Когда сообщается валидность теста для предсказаний в сфере професси­ональной деятельности, в руководстве должны быть описаны служебные обязан­ности работников наряду с наименовани­ем выполняемых ими действий. (Очень желательно.)

Комментарий. Принцип заклю­чается в том, что должна даваться инфор­мация, на основе которой пользователь мог бы судить о состоятельности крите­рия. При отсутствии такой информации описание критерия часто является непол­ным.

Г.4.3. При валидизации по критерию обычно следует рассматривать не один, более общий критерий, а несколько част­ных, составляющих общий.

Комментарий. В большинстве видов деятельности по выполнению теста деятельность выражается во многих пара­метрах, которые могут быть независимы. При объединении несвязанных аспектов поведения в единый сложный критерий возможно игнорирование важных зависи­мостей и тем самым уменьшение способно­стей пользователей идентифицировать и понимать валидные интерпретации теста.

Отдельные решения часто должны быть приняты на многомерной основе. Тем не менее предпочтительнее найти прави­ло принятия решений для объединенных предсказаний.

Г.4.4. Если валидность теста оценива­ется по его соответствию психиатричес­ким суждениям, следует указать квалифи­кацию, опыт и профессиональный статус экспертов, также природу и степень их контактов с пациентами и другие потенци­ально влияющие факторы. (Очень жела­тельно.)

Комментарий. Например, «пара­ноидная шизофрения, хроническая» луч­ше, чем просто «шизофрения». Так как типы пациентов, подвергаемых специаль­но диагностической классификации, в не­которой степени зависят от выбора психи­атра, должно быть предоставлено развер­нутое описание каждой диагностической категории, использованной в исследова­нии валидности.

Г.4.6. Коэффициенты валидности спе­цифичны для ситуаций, в которых они получены. Если в руководстве дано сооб­щение о валидности для предсказания данного вида конструкта (критерия), необходимо представить материалы, предпола­гающие границы этого обобщения относи­тельно характеристик популяции или вы­борки, ситуационных переменных или ва­риации изменения по критерию. (Очень желательно.)

Г.4.7. Так как критерий является вы­борочным из всевозможных критериев того же конструкта, валидность должна быть по возможности определена как со­ответствие этой выборки другим похо­жим выборкам. Если доказательства по этому вопросу представлены быть не мо­гут, автор на основе суждения по кос­венным данным должен это указать и об­судить вероятную степень соответствия выборки другим выборкам. (Очень же­лательно.)

Комментарий. Если валидность измерена, например, по соответствию те­ста суждениям психиатров, то должна быть описана степень согласованности между экспертами. Если в качестве критерия использован опубликованный тест достижений, то его соответствие па­раллельным формам или надежность, со­общенные автором теста, могут быть ис­пользованы как основа для оценивания критерия при учете влияния различия между взятой выборкой лиц и исходной выборкой.

Г.4.8. В руководстве должны быть от­ражены данные о степени полноты и обоб­щенности информации о валидности. (Очень желательно.)

Г.4.8.1. В руководстве к тесту должны быть сообщены данные о валидности тес­та относительно каждого критерия, для которого даются рекомендации. Если для некоторой интерпретации валидность не выявлялась, этот факт должен быть ясно указан. (Существенно.)

Комментарий. Если с данным наименованием профессии соотнесен ши­рокий круг обязанностей, пользователей теста следует предупредить о несостоя­тельности предположения, что только одно сочетание интересов и способностей соотносимо с данной профессией.

Г.4.9. Локальный сбор доказательств валидности по критерию часто более по­лезен, чем опубликованные данные. В та­ких случаях в руководстве должен де­латься упор на локальные исследования валидности, а пользователи теста должны по возможности проводить такие исследо­вания. (Желательно.)

Г.5. В валидизационном исследовании при сборе данных необходимо использо­вать процедуры, соответствующие целям исследования. (Существенно.)

Г.5.1. При сборе данных для валидиза­ции исследователь, интерпретирующий результаты теста, должен располагать только той информацией об испытуемых, которая обычно будет доступна при практическом использовании тестов. Если существует некоторая возможная конта­минация, связанная с априорным пред­ставлением об испытуемых, в руководстве должно быть обсуждено влияние этого фактора на результаты исследования. (Существенно.)

Г.6. Любой статистический анализ ва­лидности по критерию в руководстве дол­жен даваться в форме, по которой поль­зователь мог бы определить, с какой сте­пенью доверительности можно принять утверждения или предсказания относи­тельно индивида. (Существенно.)

Г.6.1. В докладе о валидности по кри­терию должна быть отражена полная ин­формация о выполненном статистическом анализе. Следует включить, кроме основ­ных описательных статистик (средних и стандартных отклонений), еще один или несколько показателей: а) один или более коэффициент корреляции известного вида; б) описание эффективности, с кото­рой тест различает группы по критерию; в) таблицы ожиданий; г) графики зависи­мости между тестом и критерием. (Существенно.)

Комментарий. Полная информа­ция включает данные о надежности, тес­ноте и характере зависимости. В корреля­ционное понятие включается информация о статистической значимости и величине коэффициента корреляции, а также о рег­рессионном уравнении.

Сообщение о различии между средни­ми групп само по себе не дает адекватной информации о валидности: если дисперсия большая, классификация может быть не­точной, даже если средние различаются существенно. Теснота связи может быть представлена описанием количества оши­бочной классификации или совмещений групп. Таблицы ожиданий могут дать информацию о характере предсказания.

В общем, так как руководство часто пред­назначено для пользователей, имеющих слабую статистическую подготовку, дол­жны быть приняты все меры для ясного со­общения валидности.

Г.6.1.1. Коэффициент валидности дол­жен быть дополнен сообщением о пара­метрах уравнения регрессий и стандарт­ной ошибкой оценки. (Очень желатель­но.)

Комментарий. Необходимая ин­формация может быть представлена в таб­лице ожиданий, показывающей величину возможных оценок по критерию для каж­дого балла (или группы баллов) по тестам. Очень полезна стандартная ошибка оцен­ки для различных точек шкалы предсказа­ний.

Г.6.2. Если валидность теста выявляет­ся сравнением групп, различающихся по критерию, то в руководстве к тесту необ­ходимо сообщить, различаются ли группы, и насколько различаются, по другим пере­менным. (Очень желательно.)

Комментарий. Так как группы, различающиеся по критерию, могут также резко различаться и в других отношениях, то тест может различать качества, от­личающиеся от подразумеваемых. Напри­мер, типы умственного расстройства связаны с возрастом, образованием и дли­тельностью госпитализации. Это всегда должно быть учтено при оценке полезно­сти теста для диагностики.

Г.6.2.1. Если тест предназначен для дифференциального анализа, то в руко­водстве должны быть приведены доказа­тельства способности теста отнести ин­дивидов в диагностические группы, а не только отделять диагносцируемые груп­пы от популяции нормальных. (Суще­ственно.)

Комментарий. Когда тест реко­мендован для отнесения индивидов в дис­кретные категории, то φ-коэффициенты или дискриминативные функции должны быть дополнены таблицами оценок ошибочных решений. Например, для каждой категории должен быть определен про­цент лиц, ошибочно исключаемых из нее. Такие проценты должны сравниваться с базовыми оценками, т. е. с процентами правильной классификации, установлен­ными при максимальном знании объема диагносцируемых категорий.

Г.6.3. Метод статистического анализа должен выбираться с учетом характерис­тик полученных данных и выдвинутых ги­потез. (Существенно.)

Комментарий. Полученные дан­ные могут очень незначительно отличать­ся от первоначально предполагаемых ха­рактеристик. Однако даже небольшие от­клонения от выдвинутых гипотез могут приводить к серьезным ошибкам. Напри­мер, при использовании предсказаний, ос­нованных на предположении о двумерном нормальном распределении, возможна се­рьезная переоценка средней деятельности кандидатов с высокими баллами, если дан­ные заметно несимметричны.

В подобных случаях валидность более точно определяется методом, не основан­ным на предположении о двумерном рас­пределении.

Г.6.4. Если коэффициенты корреляции скорректированы с учетом ограниченнос­ти в ранге или ослабления, то должна быть представлена полная информация о таких поправках. При этом проверка значимос­ти должна быть проведена для коэффици­ентов корреляции без поправок. (Суще­ственно.)

Комментарий. Поправки долж­ны вноситься только к вычисленным ко­эффициентам. Обычно не следует делать последовательных поправок, например по­правки на ослабление к коэффициенту, уже скорректированному с учетом ограни­чения в ранге. Цепочки поправок могут быть полезны при рассмотрении возмож­ностей дальнейших исследований, но эти результаты не должны представляться как оценки корреляций в популяции.

Г.6.5. Если валидизации подвергается батарея тестов, в руководстве необходимо отразить валидность суммарной оценки, а также следует вычислить «вес» каждого теста в итоговой оценке. (Существенно.)

Г.6.6. Если весовое объединение тес­тов в батареи основано на регрессионных коэффициентах, отрицательные веса сле­дует использовать только после проверки на перекрестную валидность в больших выборках и только в том случае, когда их использование не скажется отрицательно (и следовательно, не будет несправедли­вым) на одной или нескольких подгруппах тестируемой популяции. (Существен­но.)

Г.6.7. Если предположено, что реше­ние должно быть основано на сложном не­линейном объединении баллов, необходи­мо показать, что такое объединение име­ет большую валидность, чем простое ли­нейное объединение, что уравнения могут быть логически объяснены и процедуры объединения баллов подвергались пере­крестной валидизации. (Существенно.)

Г.6.8. По мере возможности пользова­телю теста, продолжительное время рабо­тающему с ним, следует разработать про­цедуры отбора данных для дальнейшего исследования. (Желательно.)

Комментарий. Данные о валид­ности могут устареть, на зависимость между выполнением теста и реальной де­ятельностью могут повлиять многие фак­торы: изменение характеристик популя­ции, источники ее пополнения, экономи­ческие и организационные характеристи­ки. Более того, исследования валидности часто основаны на относительном малом количестве случаев. План систематичес­кого сбора данных уже после передачи те­ста в пользование может быть полезным как для разработки более надежной стати­стической основы, так и для информации об изменениях тенденций зависимости с течением времени. Продолжение исследо­вания менее необходимо, если исходные данные получены в относительно большой выборке, если хорошо определена основа обобщающей валидности. В этом случае возможно планировать время от времени небольшие повторные исследования вме­сто продолжительной исследовательской программы.

Г.7. В руководстве должна быть указа­на разница во времени между проведени­ем теста и сбором данных по критерию. Если данные по критерию собирались в те­чение некоторого времени, должны указы­ваться даты начала и окончания. (Суще­ственно.)

Комментарий. Валидность мо­жет со временем уменьшаться. В профориентационном тестировании изменения содержания и средств труда, уровня спо­собностей популяции ориентируемых мо­гут изменять показатели, для которых по­лучена информация о валидности.

Г.7.1. Пользователя теста следует пре­дупредить о необоснованности составле­ния долговременных прогнозов. (Суще­ственно.)

Комментарий. Кратковременные прогнозы намного более валидны, так как менее подвержены влиянию разных фак­торов.

Г.7.2. Если тест предназначен для дол­говременных, отстоящих во времени прогнозов, но представлены сравнения только по конкурентному критерию, в ру­ководстве должно быть подчеркнуто, что валидность долговременных предсказаний осталась неопределенной. (Существен­но.)

Г.7.3. Если сообщается валидность те­ста для предсказания оценки по учебному предмету, то должна быть достаточно яс­ная информация о видах деятельности, необходимой при изучении данных предметов, характере метода обучения и способе измерения деятельности. Если тест был проведен после начала изучения пред­мета, этот факт должен быть отмечен. (Очень желательно.)




Поделиться с друзьями:


Дата добавления: 2015-06-04; Просмотров: 606; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.03 сек.