КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Понятие надежности. Количественная оценка надежности теста
Прогностическая валидность. Текущая и прогнозирующая валидизация. М-ды уст-я валидности через предсказание критерия показывают эфф-ть теста в том, что касается прогнозирования выполнения индивидуумом точно опр. деят-ти. Измерение критерия, отн-но которого устанавливается валидность тестовых показателей, может производиться почти одновременно с ними или же через установленный промежуток времени, В завис-ти от временных отн-и между критерием и тестом Стандарты тестир-я (1985) различают текущую и прогностическую валидности. Термин «прогнозирование» м. использ. как в широком смысле, означая предсказание по данному тесту в отн-и любой критериальной ситуации, так и в более узком смысле предсказания в пределах некот. временного интервала. В последнем смысле он и использ. в выражении «прогностич. валидность». Инф-ия, получаемая при прогнозирующей валидизации, особенно важна для тестов, используемых при отборе и распределении персонала. Прием на работу, отбор учащихся в колледжи или проф. уч-ща, направление военнослужащих на курсы спец. подготовки — вот примеры ситуаций, треб. для принятия реш-й сведений о прогностич. валидности использ. тестов. Сюда же м. отнести применение тестов в профотборе для отсеивания лиц, склонных в стресс. ситуациях к эмоц. расстр-вам, и в психиатрической клинике — для назначения курса лечения, наиболее подходящего тем или иным пациентам. В ряде случаев текущая валидность использ. просто как заместитель прогностической валидности. На практике, для проведения прогнозирующей валидизации часто не хватает времени или не удается сформировать предварительную выборку, соответствующую целям тестир-я. Поэтому в качестве компромиссного реш-я тесты проводятся на группе, для которой уже имеются данные по критерию. Напр., тестовые показатели студентов колледжа м. сравниваться с их средней успеваемостью за период до момента тестир-я, а тестовые показатели служащих — с их текущими производственными успехами.
Под надежностью понимается устойч-ть, или согласов-ть рез-тов теста, получаемых при повторном его применении к тем же исп-м в различные моменты t, при использ-и разных наборов эквивалентных заданий или же при изменении др. усл-й обслед-я. Такое понимание надежности лежит в основе вычисления ошибки измерения отдельного показателя, благодаря чему мы можем предсказывать диапазон случайных колебаний тестового балла у конкретного чел-ка, возникающих, вероятно, под дей-ем посторонних или неизвестных факторов. Понятие надежности обычно охватывает несколько аспектов устойч-ти тестовых показателей. В самом широком смысле надежность теста показывает, в какой степени индивидуал. различия в тестовых показателях м.б. отнесены на счет «истинных» различий в изучаемых св-вах, а в какой м.б. приписаны случайным ошибкам. Говоря более спец. языком, меры надежности теста позволяют оценить, какую долю общей дисперсии (общей изменчивости) тестовых показателей составляет дисперсия ошибок. Это не «ошибки» в обычном смысле слова, предполагающем, что их м.б. бы избежать или скорректировать путем усовершенствования методологии измерений. Данное терминологич. значение слова «ошибка» унаследовано из более ранней эпохи в развитии психологии, когда интерес ученых сосредоточивался на выявлении общих законов пов-я и оценивании исп-х по таким св-вам, которые считались неизменными базовыми чертами. В наше в t Ψ-ги признают изменч-ть существ. св-вом всякого пов-я и потому занимаются выявлением и классиф-ей многочисленных источников такой изменч-ти. Что касается надежности показателя, суть дела заключается в опр-и дисперсии ошибок. Факторы, которые применительно к одним задачам м.б. бы счесть источниками случайной вариации показателя (т.е. дисперсии ошибок), при реш-и др. задач м.б. отнесены, и не без основания, к причинам его истинной дисперсии. Напр., если бы нас интересовало измерение колебаний настроения, то происходящие день ото дня изменения в показателях шкалы «радость — уныние» были бы релевантны цели данного теста и, след-но, составляли бы часть истинной дисперсии показателей. С др. стороны, если бы тест предназначался для измерения более устойчивых хар-к лич-ти, те же ежедневные колебания попали бы уже в разряд дисперсии ошибок. В сущности, любое усл-е тестир-я, которое не имеет отн-я к цели теста, представляет собой источник дисперсии ошибок. Поэтому, стремясь к поддержанию единых усл-й тестир-я (контролируя общую обстановку, временные ограничения, инструкции исп-м, раппорт и другие аналогичные факторы), пользователи тестов способствуют уменьшению дисперсии ошибок и повышению надежности тестовых показателей. Но и при оптимальных усл-х тестир-я ни один тест не является абсолютно надежным инструментом. Поэтому каждый тест следует сопровождать сведениями о его надежности. Сообщаемая мера надежности характеризует тест только в случае его проведения в стандартных усл-ях и с людьми, имеющими сходство с теми, кто входил в состав нормативной выборки. След-но, при описании теста н. точно указывать и хар-ки этой выборки, вместе с типом измеренной на ней надежности. Теоретически, разновидностей тестовой надежности может быть очень много — столько же, сколько и усл-й, влияющих на показатели теста, так как любое из этих усл-й м. оказ. нерелевантным конкретной цели тестир-я и потому отнесенным к источникам дисперсии ошибок. Однако практ. применение находит лишь несколько типов надежности. Поскольку все типы надежности касаются степени согласов-ти или соответ-я между двумя независимо полученными мн-вами показателей, их все м. выразить в виде коэф-та корр-и. Коэффициент надежности. Коэф-ты корр-и широко применяются в ан-зе Ψметрич. данных. Одно из применений таких коэф-тов — это измерение надежности теста. Пример: рассчитывалась корр-я между показателями 104 человек по двум эквивалентным формам теста «беглость речи». В обоих случаях исп-м давалось пять минут, в течение кот. они д.б. написать как м. больше слов, начинающихся на заданную букву. Формы теста отличались др. от др. лишь задаваемой буквой. Авторы теста подобрали начальные буквы с таким расчетом, чтобы трудность заданий была примерно одинаковой. Корр-я между числом слов, написанных в ходе выполнения каждой из двух форм данного теста, оказалась равной 0,72, т. е. довольно высокой и значимой на уровне 0.01. При объеме выборки N = 104 любая корреляция от 0,25 и выше является значимой на этом уровне. И все же полученная корр-я несколько ниже, чем это желательно для коэф-тов надежности, обычно превышающих 0,80 и даже 0,90. Типы надежности: · ретестовая надежность (повторное тестир-е) · надежность взаимозаменяемых форм (параллельное тестир-е) · надежность эквивалентных половин теста (расщепление) · надежность по Кьюдеру-Ричардсону и коэффициента альфа (согласованность) · надежность оценщика Надежность оценщика. Различные типы надежности отличаются др. от др. факторами, относимыми к источникам дисперсии ошибок. В одном случае дисперсия ошибок охватывает временн ы е колеб-я, в др. относится к различиям между наборами параллельных заданий, в третьем учитывает любую внутр. несогласов-ть теста. С др.ст., факторы, исключенные из мер дисперсии ошибок, образуют 2 широких класса; а) факторы, чья дисперсия сохраняется в показателях, так как эти факторы составляют часть истинных различий, измеряемых тестами, и б) нерелевантные факторы, поддающиеся эксперим. контролю. Напр., в рук-ве к тесту не принято сообщать об ошибках измерения, кот. м. появиться в рез-те проведения теста в отвлекающей обстановке или в более короткое или длительное, чем это положено, время. Подобных нарушений можно избежать, и поэтому нет нужды в отдельных коэф-тах надежности, соответств. «дисперсии отвлечения» или «дисперсии временных лимитов». Бол-во тестов, особенно если они предназначены для массового обслед-я с использ-ем компьютеров для вычисления показателей, настолько стандартизированы, что их проведение и регистрация рез-тов сводят на нет дисперсию ошибок, обусловл. этими факторами. Пользуясь такими тестами, необх. лишь вн-но следить за выполн-ем соотв. предписаний. Вместе с тем в отн-и клинич. тестов, применяемых при интенсивных индивидуал. обслед-ях, накоплены данные о значит. дисперсии набл-еля. Благодаря использ-ю планов эксперимента удается отделить эту дисперсию от той, кот. обусловлена временн ы ми колеб-ями в сост-и исп-го или применением взаимозаменяемых форм теста. Один источник дисперсии ошибок, который довольно легко установить, - это дисперсия оценщика. Некот. типы тестов, - особ-но тесты креативности и проектив. личностные тесты, представляют довольно много свободы пользователю, оценивающему ответы исп-го и выставляющему за них опр. к-во баллов. При работе с такими тестами потр-ть в мере надежности оценщика столь же велика, как и в более привычных коэф-тах надежности. Надежность оценщика м. определить 2 специалистами независимо др. от др. Между двумя мн-вами полученных т.о. показателей вычисляется обычный коэф-т корр-и, кот. и служит искомой мерой надежности оценщика. Если подсчет показателей теста сущ-но зависит от суж-й пользователя, то в рук-ве к тесту необх. также привести и коэф-та надежности оценщика. Классиф-я м-дов измерения надежности в зав-ти от требуемого числа форм теста и сеансов тестир-я Необходимое число сеансов тестир-я Необходимое число форм теста одна две
Дата добавления: 2015-06-04; Просмотров: 892; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |