Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Понятие надежности. Количественная оценка надежности теста




Прогностическая валидность.

Текущая и прогнозирующая валидизация. М-ды уст-я валидности че­рез предсказание критерия показывают эфф-ть теста в том, что касается про­гнозирования выполнения индивидуумом точно опр. деят-ти. Изме­рение критерия, отн-но которого устанавливается валидность тестовых пока­зателей, может производиться почти одновременно с ними или же через установлен­ный промежуток времени, В завис-ти от временных отн-и между критерием и тестом Стандарты тестир-я (1985) различают текущую и прогностическую валидности. Термин «прогнозирование» м. использ. как в широком смыс­ле, означая предсказание по данному тесту в отн-и любой критериальной ситуа­ции, так и в более узком смысле предсказания в пределах некот. временного ин­тервала. В последнем смысле он и использ. в выражении «прогностич. валидность». Инф-ия, получаемая при прогнозирующей валидизации, особенно важна для тестов, используемых при отборе и распределении персонала. Прием на работу, отбор учащихся в колледжи или проф. уч-ща, направление военнослужащих на курсы спец. подготовки — вот примеры ситуаций, треб. для принятия реш-й сведений о прогностич. валидности использ. тестов. Сюда же м. отнести применение тестов в профотборе для отсеивания лиц, склонных в стресс. ситуациях к эмоц. расстр-вам, и в психиатри­ческой клинике — для назначения курса лечения, наиболее подходящего тем или иным пациентам.

В ряде случаев текущая валидность использ. просто как заместитель прогности­ческой валидности. На практике, для проведения прогнозирующей валидизации час­то не хватает времени или не удается сформировать предварительную выборку, соот­ветствующую целям тестир-я. Поэтому в качестве компромиссного реш-я те­сты проводятся на группе, для которой уже имеются данные по критерию. Напр., тестовые показатели студентов колледжа м. сравниваться с их средней успеваемо­стью за период до момента тестир-я, а тестовые показатели служащих — с их текущими производственными успехами.

 

Под надежностью понимается устойч-ть, или согласов-ть рез-тов теста, получаемых при повторном его применении к тем же исп-м в различные моменты t, при использ-и разных наборов эквивалентных заданий или же при изменении др. усл-й обслед-я. Такое понимание на­дежности лежит в основе вычисления ошибки измерения отдельного показателя, бла­годаря чему мы можем предсказывать диапазон случайных колебаний тестового бал­ла у конкретного чел-ка, возникающих, вероятно, под дей-ем посторонних или неизвестных факторов.

Понятие надежности обычно охватывает несколько аспектов устойч-ти тесто­вых показателей. В самом широком смысле надежность теста показывает, в какой сте­пени индивидуал. различия в тестовых показателях м.б. отнесены на счет «истинных» различий в изучаемых св-вах, а в какой м.б. приписаны слу­чайным ошибкам. Говоря более спец. языком, меры надежности теста позво­ляют оценить, какую долю общей дисперсии (общей изменчивости) тестовых показа­телей составляет дисперсия ошибок. Это не «ошибки» в обычном смысле слова, пред­полагающем, что их м.б. бы избежать или скорректировать путем усовершен­ствования методологии измерений. Данное терминологич. значение слова «ошибка» унаследовано из более ранней эпохи в развитии психологии, когда интерес ученых сосредоточивался на выявлении общих законов пов-я и оценивании ис­п-х по таким св-вам, которые считались неизменными базовыми чертами. В наше в t Ψ-ги признают изменч-ть существ. св-вом всякого пов-я и потому занимаются выявлением и классиф-ей многочисленных источников такой изменч-ти.

Что касается надежности показателя, суть дела заключается в опр-и дис­персии ошибок. Факторы, которые применительно к одним задачам м.б. бы счесть источниками случайной вариации показателя (т.е. дисперсии ошибок), при реш-и др. задач м.б. отнесены, и не без основания, к причинам его истин­ной дисперсии. Напр., если бы нас интересовало измерение колебаний настрое­ния, то происходящие день ото дня изменения в показателях шкалы «радость — уны­ние» были бы релевантны цели данного теста и, след-но, составляли бы часть истинной дисперсии показателей. С др. стороны, если бы тест предназначался для измерения более устойчивых хар-к лич-ти, те же ежедневные колебания попали бы уже в разряд дисперсии ошибок.

В сущности, любое усл-е тестир-я, которое не имеет отн-я к цели теста, представляет собой источник дисперсии ошибок. Поэтому, стремясь к поддер­жанию единых усл-й тестир-я (контролируя общую обстановку, временные ограничения, инструкции исп-м, раппорт и другие аналогичные факторы), пользователи тестов способствуют уменьшению дисперсии ошибок и повышению на­дежности тестовых показателей. Но и при оптимальных усл-х тестир-я ни один тест не является абсолютно надежным инструментом. Поэтому каждый тест сле­дует сопровождать сведениями о его надежности. Сообщаемая мера надежности ха­рактеризует тест только в случае его проведения в стандартных усл-ях и с людьми, имеющими сходство с теми, кто входил в состав нормативной выборки. След-­но, при описании теста н. точно указывать и хар-ки этой выборки, вме­сте с типом измеренной на ней надежности.

Теоретически, разновидностей тестовой надежности может быть очень много — столько же, сколько и усл-й, влияющих на показатели теста, так как любое из этих усл-й м. оказ. нерелевантным конкретной цели тестир-я и потому отнесенным к источникам дисперсии ошибок. Однако практ. применение на­ходит лишь несколько типов надежности. Поскольку все типы надежности касаются степени согласов-ти или соответ-я между двумя независимо полученными мн-вами показателей, их все м. выразить в виде коэф-та корр-и.

Коэффициент надежности. Коэф-ты корр-и широко применяются в ан-зе Ψметрич. данных. Одно из применений таких коэф-тов — это измерение надежности теста. Пример: рассчитывалась корр-я между показателями 104 человек по двум эквивалент­ным формам теста «беглость речи». В обоих случаях исп-м давалось пять ми­нут, в течение кот. они д.б. написать как м. больше слов, начинаю­щихся на заданную букву. Формы теста отличались др. от др. лишь задаваемой буквой. Авторы теста подобрали начальные буквы с таким расчетом, чтобы трудность заданий была примерно одинаковой.

Корр-я между числом слов, написанных в ходе выполнения каждой из двух форм данного теста, оказалась равной 0,72, т. е. довольно высокой и значимой на уров­не 0.01. При объеме выборки N = 104 любая корреляция от 0,25 и выше является значимой на этом уровне. И все же полученная корр-я несколько ниже, чем это желательно для коэф-тов надежности, обычно превышающих 0,80 и даже 0,90.

Типы надежности:

· ретестовая надежность (повторное тестир-е)

· надежность взаимозаменяемых форм (параллельное тестир-е)

· надежность эквивалентных половин теста (расщепление)

· надежность по Кьюдеру-Ричардсону и коэффициента альфа (согласованность)

· надежность оценщика

Надежность оценщика. Различные типы надежности отличаются др. от др. факторами, относимыми к источникам дисперсии ошибок. В одном случае дисперсия ошибок охватывает временн ы е колеб-я, в др. отно­сится к различиям между наборами параллельных заданий, в третьем учитывает лю­бую внутр. несогласов-ть теста. С др.ст., факторы, исключенные из мер дисперсии ошибок, образуют 2 широких класса; а) факторы, чья дисперсия сохраняется в показателях, так как эти факторы составляют часть истинных разли­чий, измеряемых тестами, и б) нерелевантные факторы, поддающиеся эксперим. контролю. Напр., в рук-ве к тесту не принято сообщать об ошибках измерения, кот. м. появиться в рез-те проведения теста в отвлекающей об­становке или в более короткое или длительное, чем это положено, время. Подобных нарушений можно избежать, и поэтому нет нужды в отдельных коэф-тах на­дежности, соответств. «дисперсии отвлечения» или «дисперсии временных лимитов».

Бол-во тестов, особенно если они предназначены для массового обслед-я с использ-ем компьютеров для вычисления показателей, настолько стандар­тизированы, что их проведение и регистрация рез-тов сводят на нет дисперсию ошибок, обусловл. этими факторами. Пользуясь такими тестами, необх. лишь вн-но следить за выполн-ем соотв. предписаний. Вместе с тем в отн-и клинич. тестов, применяемых при интенсивных индивидуал. обслед-ях, накоплены данные о значит. дисперсии набл-еля. Благодаря использ-ю планов эксперимента удается отделить эту дисперсию от той, кот. обусловлена временн ы ми колеб-ями в сост-и исп-го или применением взаимозаменяемых форм теста.

Один источник дисперсии ошибок, который довольно легко установить, - это дисперсия оценщика. Некот. типы тестов, - особ-но тесты креативности и проектив. личностные тесты, представляют довольно много свободы пользователю, оценивающему ответы исп-го и выставляющему за них опр. к-во баллов. При работе с такими тестами потр-ть в мере надежности оценщика столь же велика, как и в более привычных коэф-тах надежности. Надежность оценщика м. определить 2 специалистами независимо др. от др. Между двумя мн-вами полученных т.о. показателей вычисляется обычный коэф-т корр-и, кот. и служит искомой мерой надежности оценщика. Если подсчет показателей теста сущ-но зависит от суж-й пользователя, то в рук-ве к тесту необх. также привести и коэф-та надежности оценщика.

Классиф-я м-дов измерения надежности в зав-ти от требуемого числа форм теста и сеансов тестир-я

Необходимое число сеансов тестир-я

Необходимое число форм теста

одна

две




Поделиться с друзьями:


Дата добавления: 2015-06-04; Просмотров: 862; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.033 сек.