Понятие надежности. Количественная оценка надежности теста

⇐ Предыдущая 20 21 22 232425 26 27 28 29 Следующая ⇒

Прогностическая валидность.

Текущая и прогнозирующая валидизация. М-ды уст-я валидности через предсказание критерия показывают эфф-ть теста в том, что касается прогнозирования выполнения индивидуумом точно опр. деят-ти. Измерение критерия, отн-но которого устанавливается валидность тестовых показателей, может производиться почти одновременно с ними или же через установленный промежуток времени, В завис-ти от временных отн-и между критерием и тестом Стандарты тестир-я (1985) различают текущую и прогностическую валидности. Термин «прогнозирование» м. использ. как в широком смысле, означая предсказание по данному тесту в отн-и любой критериальной ситуации, так и в более узком смысле предсказания в пределах некот. временного интервала. В последнем смысле он и использ. в выражении «прогностич. валидность». Инф-ия, получаемая при прогнозирующей валидизации, особенно важна для тестов, используемых при отборе и распределении персонала. Прием на работу, отбор учащихся в колледжи или проф. уч-ща, направление военнослужащих на курсы спец. подготовки — вот примеры ситуаций, треб. для принятия реш-й сведений о прогностич. валидности использ. тестов. Сюда же м. отнести применение тестов в профотборе для отсеивания лиц, склонных в стресс. ситуациях к эмоц. расстр-вам, и в психиатрической клинике — для назначения курса лечения, наиболее подходящего тем или иным пациентам.

В ряде случаев текущая валидность использ. просто как заместитель прогностической валидности. На практике, для проведения прогнозирующей валидизации часто не хватает времени или не удается сформировать предварительную выборку, соответствующую целям тестир-я. Поэтому в качестве компромиссного реш-я тесты проводятся на группе, для которой уже имеются данные по критерию. Напр., тестовые показатели студентов колледжа м. сравниваться с их средней успеваемостью за период до момента тестир-я, а тестовые показатели служащих — с их текущими производственными успехами.

Под надежностью понимается устойч-ть, или согласов-ть рез-тов теста, получаемых при повторном его применении к тем же исп-м в различные моменты t, при использ-и разных наборов эквивалентных заданий или же при изменении др. усл-й обслед-я. Такое понимание надежности лежит в основе вычисления ошибки измерения отдельного показателя, благодаря чему мы можем предсказывать диапазон случайных колебаний тестового балла у конкретного чел-ка, возникающих, вероятно, под дей-ем посторонних или неизвестных факторов.

Понятие надежности обычно охватывает несколько аспектов устойч-ти тестовых показателей. В самом широком смысле надежность теста показывает, в какой степени индивидуал. различия в тестовых показателях м.б. отнесены на счет «истинных» различий в изучаемых св-вах, а в какой м.б. приписаны случайным ошибкам. Говоря более спец. языком, меры надежности теста позволяют оценить, какую долю общей дисперсии (общей изменчивости) тестовых показателей составляет дисперсия ошибок. Это не «ошибки» в обычном смысле слова, предполагающем, что их м.б. бы избежать или скорректировать путем усовершенствования методологии измерений. Данное терминологич. значение слова «ошибка» унаследовано из более ранней эпохи в развитии психологии, когда интерес ученых сосредоточивался на выявлении общих законов пов-я и оценивании исп-х по таким св-вам, которые считались неизменными базовыми чертами. В наше в t Ψ-ги признают изменч-ть существ. св-вом всякого пов-я и потому занимаются выявлением и классиф-ей многочисленных источников такой изменч-ти.

Что касается надежности показателя, суть дела заключается в опр-и дисперсии ошибок. Факторы, которые применительно к одним задачам м.б. бы счесть источниками случайной вариации показателя (т.е. дисперсии ошибок), при реш-и др. задач м.б. отнесены, и не без основания, к причинам его истинной дисперсии. Напр., если бы нас интересовало измерение колебаний настроения, то происходящие день ото дня изменения в показателях шкалы «радость — уныние» были бы релевантны цели данного теста и, след-но, составляли бы часть истинной дисперсии показателей. С др. стороны, если бы тест предназначался для измерения более устойчивых хар-к лич-ти, те же ежедневные колебания попали бы уже в разряд дисперсии ошибок.

В сущности, любое усл-е тестир-я, которое не имеет отн-я к цели теста, представляет собой источник дисперсии ошибок. Поэтому, стремясь к поддержанию единых усл-й тестир-я (контролируя общую обстановку, временные ограничения, инструкции исп-м, раппорт и другие аналогичные факторы), пользователи тестов способствуют уменьшению дисперсии ошибок и повышению надежности тестовых показателей. Но и при оптимальных усл-х тестир-я ни один тест не является абсолютно надежным инструментом. Поэтому каждый тест следует сопровождать сведениями о его надежности. Сообщаемая мера надежности характеризует тест только в случае его проведения в стандартных усл-ях и с людьми, имеющими сходство с теми, кто входил в состав нормативной выборки. След-но, при описании теста н. точно указывать и хар-ки этой выборки, вместе с типом измеренной на ней надежности.

Теоретически, разновидностей тестовой надежности может быть очень много — столько же, сколько и усл-й, влияющих на показатели теста, так как любое из этих усл-й м. оказ. нерелевантным конкретной цели тестир-я и потому отнесенным к источникам дисперсии ошибок. Однако практ. применение находит лишь несколько типов надежности. Поскольку все типы надежности касаются степени согласов-ти или соответ-я между двумя независимо полученными мн-вами показателей, их все м. выразить в виде коэф-та корр-и.

Коэффициент надежности. Коэф-ты корр-и широко применяются в ан-зе Ψметрич. данных. Одно из применений таких коэф-тов — это измерение надежности теста. Пример: рассчитывалась корр-я между показателями 104 человек по двум эквивалентным формам теста «беглость речи». В обоих случаях исп-м давалось пять минут, в течение кот. они д.б. написать как м. больше слов, начинающихся на заданную букву. Формы теста отличались др. от др. лишь задаваемой буквой. Авторы теста подобрали начальные буквы с таким расчетом, чтобы трудность заданий была примерно одинаковой.

Корр-я между числом слов, написанных в ходе выполнения каждой из двух форм данного теста, оказалась равной 0,72, т. е. довольно высокой и значимой на уровне 0.01. При объеме выборки N = 104 любая корреляция от 0,25 и выше является значимой на этом уровне. И все же полученная корр-я несколько ниже, чем это желательно для коэф-тов надежности, обычно превышающих 0,80 и даже 0,90.

Типы надежности:

· ретестовая надежность (повторное тестир-е)

· надежность взаимозаменяемых форм (параллельное тестир-е)

· надежность эквивалентных половин теста (расщепление)

· надежность по Кьюдеру-Ричардсону и коэффициента альфа (согласованность)

· надежность оценщика

Надежность оценщика. Различные типы надежности отличаются др. от др. факторами, относимыми к источникам дисперсии ошибок. В одном случае дисперсия ошибок охватывает временн ы е колеб-я, в др. относится к различиям между наборами параллельных заданий, в третьем учитывает любую внутр. несогласов-ть теста. С др.ст., факторы, исключенные из мер дисперсии ошибок, образуют 2 широких класса; а) факторы, чья дисперсия сохраняется в показателях, так как эти факторы составляют часть истинных различий, измеряемых тестами, и б) нерелевантные факторы, поддающиеся эксперим. контролю. Напр., в рук-ве к тесту не принято сообщать об ошибках измерения, кот. м. появиться в рез-те проведения теста в отвлекающей обстановке или в более короткое или длительное, чем это положено, время. Подобных нарушений можно избежать, и поэтому нет нужды в отдельных коэф-тах надежности, соответств. «дисперсии отвлечения» или «дисперсии временных лимитов».

Бол-во тестов, особенно если они предназначены для массового обслед-я с использ-ем компьютеров для вычисления показателей, настолько стандартизированы, что их проведение и регистрация рез-тов сводят на нет дисперсию ошибок, обусловл. этими факторами. Пользуясь такими тестами, необх. лишь вн-но следить за выполн-ем соотв. предписаний. Вместе с тем в отн-и клинич. тестов, применяемых при интенсивных индивидуал. обслед-ях, накоплены данные о значит. дисперсии набл-еля. Благодаря использ-ю планов эксперимента удается отделить эту дисперсию от той, кот. обусловлена временн ы ми колеб-ями в сост-и исп-го или применением взаимозаменяемых форм теста.

Один источник дисперсии ошибок, который довольно легко установить, - это дисперсия оценщика. Некот. типы тестов, - особ-но тесты креативности и проектив. личностные тесты, представляют довольно много свободы пользователю, оценивающему ответы исп-го и выставляющему за них опр. к-во баллов. При работе с такими тестами потр-ть в мере надежности оценщика столь же велика, как и в более привычных коэф-тах надежности. Надежность оценщика м. определить 2 специалистами независимо др. от др. Между двумя мн-вами полученных т.о. показателей вычисляется обычный коэф-т корр-и, кот. и служит искомой мерой надежности оценщика. Если подсчет показателей теста сущ-но зависит от суж-й пользователя, то в рук-ве к тесту необх. также привести и коэф-та надежности оценщика.

Классиф-я м-дов измерения надежности в зав-ти от требуемого числа форм теста и сеансов тестир-я

Необходимое число сеансов тестир-я

Необходимое число форм теста

одна

две

⇐ Предыдущая 20 21 22 232425 26 27 28 29 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2015-06-04; Просмотров: 892; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2025) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.011 сек.