Расщепление (метод деления целого на части)

⇐ Предыдущая 22 23 24 252627 28 29 30 31 Следующая ⇒

Параллельное тестирование (тестирование параллельной формой теста).

Один из сп-бов избежать трудностей, с кот. приходится сталкиваться при опр-и ретестовой надежности, — использ-е взаимозаменяемых форм тест а. Одних и тех же исп-х м. тестировать в первый раз с помощью одной формы, а второй раз – с помощью др., эквивалентной формы. Корр-я между показателями, полученными по двум формам теста, представляет его коэф-т надежности. Заметим, что такой коэф-т надежности служит мерой как временной устойч-ти, так и согласов-ти ответов на различные выборки заданий (или формы теста). Т.о., этот коэф-т служит смешанной хар-кой двух типов надежности. Однако поскольку оба ее типа важны для бол-ва целей тестир-я, надежность взаимозаменяемых форм оказывается полезной мерой для оценки многих тестов.

Понятие выборочной проверки заданий, или выборочной проверки сод-я лежит в основе не только данного, но и др. типов надежности. Вероятно, каждому студенту когда-то доставались на экзамене вопросы именно по той теме, к кот. он был особ-но хорошо подготовлен или, напротив, знал этот материал особ-но плохо. Столь знакомая всем ситуация иллюстрирует дисперсию ошибок, вызванную выборочной проверкой сод-я. В какой степени показатели данного теста зависят от факторов, специфичных для этой конкретной подборки заданий? И если другой иссл-ль, работая независимо от нас, подготовил бы др. тест в соотв-и с теми же треб-ями, то насколько бы рез-ты этих тестов отличались др. от др.?

Предположим, что для оценки понимания слов общего употребления был сконструирован словарный тест, состоящий из 40 заданий. Предположим далее, что с той же целью был составлен второй тест из 40 других слои, причем были соблюдены все предосторожности, чтобы трудность теста оставалась той же самой. Различия в показателях, полученных по этим 2 тестам одними и теми же людьми, иллюстрирует рассматриваемый тип дисперсии ошибок. Под дей-ем случайных факторов, связанных с прошлым опытом разных людей, относит. трудность 2 списков будет несколько меняться с переходом от одного человека к др.. Так, первый список м. содержать больше слов, незнакомых исп-му А. чем второй, в котором, в свою очередь, м. оказ. непропорционально много слов, незнакомых исп-му В. Если оба исп-х примерно равны по своему словарному запасу (т.е., но своим «истинным показателям»), то В тем не менее превзойдет Л по первому списку, тогда как А превзойдет В но второму. Относит. положение исп-х А и В по данным двум спискам окажется взаимно противоположным из-за случайных различии в подборке заданий.

Как и в случае ретестовой надежности, сведения о надежности взаимозаменяемых форм всегда д. сопровождаться указанием длит-ти временного интервала между 2 предъявлениями теста, а также хар-кой релевантных соб-й, происшедших за это t в жизни исп-х. Если обе формы применяются непоср-но одна за другой, то полученная корр-я показывает только надежность параллельных форм, но ничего не говорит о надежности как временной устойч-ти. Дисперсия ошибок в этом случае обусловлена колеб-ями рез-тов при переходе от одного набора заданий к дп., а не временными флуктуациями показателей.

При разработке взаимозаменяемых форм, безусловно, следует позаботиться о том, чтобы они на самом деле были параллельными. Принципиально важно, чтобы параллельные формы конструировались как независимые тесты, отвечающие, однако, одним и тем же треб-ям. Такие тесты д. содержать одинаковое число задании, представленных в одной и той же форме и с однотипным сод-ем. Диапазон и ур-нь трудности заданий тоже д.б. одинаковыми. Инструкции, временные рамки, поясняющие примеры, формат бланков и все др. аспекты теста также необходимо проверить на сопоставимость.

Следует добавить, что наличие параллельных форм желательно и по др. соображениям, помимо опр-я надежности теста. Взаимозаменяемые формы полезны при повторных иссл-ях и при изучении влияния некот. промежуточных эксперим. факторов на выполн-е теста. Использ-е нескольких взаимозаменяемых форм служит, кроме того, ср-вом уменьшения возм-ти натаскивания в выполн-и тестов и обмана.

Несмотря на гораздо более широкое, сравнительно с ретестовой надежностью, применение, надежность взаимозаменяемых форм также обнаруживает ряд ограничений. Прежде всего, если изучаемые поведенч. ff подвержены значит. влиянию тренировки, использ-е параллельных форм ослабит, но не устранит его полностью. Конечно, если бы у всех тестируемых наблюдалось одно и то же улучшение рез-тов при повторном проведении теста, это не повлияло бы на корр-ю показателей, поскольку прибавление постоянной величины к каждому показателю не меняет коэф-та корр-и. Однако, скорее всего, улучшение рез-тов у разных людей будет неодинаковым вслед-е индивидуал. различий в опыте работы с подобным материалом, в мотив-и участия в тесте и по др. причинам. При этих усл-х эффект тренировки представляет собой еще один источник дисперсии, снижающей, в общем, корр-ю между двумя формами. Но если влияние тренированности невелико, снижение корреляции будет незначительным,

Др. проблема связана с возможным изменением сущности теста при повторном его проведении. Напр., если в параллельных задачах на сообразительность применен один и тот же пр-п, то бол-во исп-х, однажды найдя реш-е, и во второй раз применят его. В подобных случаях одной замены сод-я заданий явно недостаточно для того, чтобы избежать переноса пр-па пр-пов реш-я из одной формы теста на др. Наконец, следует добавить, что для многих тестов взаимозаменяемые формы отсутствуют ввиду практ. трудностей создания подлинно эквивалентных форм. В силу этих причин часто приходится обращаться к др. м-дам оценки надежности теста.

Меру надежности м. определить и на основании однократного применения единственной формы теста, пользуясь для этого различными процедурами расщепления теста на две равноценные половины. При таком сп-бе каждый исп-й получает 2 показателя благодаря разделению теста на две эквивалентные части. Очевидно, что надежность, найденная м-дом расщепления, дает нам меру согласованности выборочных проверок сод-я. Временная устойч-ть показателей в такой хар-ке надежности не представлена, поскольку она предполагает только один сеанс тестир-я. Этот тип коэф-та надежности иногда называют коэф-том внутр. согласов-ти, так как для его опр-я треб. лишь однократное проведение единственной формы теста.

Первая проблема, с которой мы сталкиваемся при применении м-да расщепления, связана с тем, как разделить тест, чтобы добиться max эквивалент-ти его половин. Всякий тест м. членить многими сп-бами. В бол-ве тестов первая и вторая половины оказ. бы неэквивалентными вслед-е различий в хар-ре и ур-не трудности заданий, а также в связи с кумулятивными эффектами вхождения в работу, практики, утомления, скуки и любых др. факторов, воздей-е кот. нарастает от начала к концу теста. Подходящий для бол-ва целей м-д состоит в вычислении показателей отдельно по четным и нечетным заданиям теста. Если задания теста были изначально расположены в порядке возрастания трудности, то такое разбиение дает практически эквивалентные показатели обеих половин. Одна предосторожность, которую треб. при этом соблюдать, относится к случаю, когда тест содержит группу взаимосвязанных заданий — напр., когда несколько вопросов касаются какого-то одного чертежа механического устр-ва в тесте технич. сп-тей или одного и того же фрагмента текста в тесте чтения. В этом случае каждая такая группа заданий д.б. целиком отнесена либо к одной, либо к другой половине. Если задания таких групп разделить на 2 части, то возникнет обманчивое сходство сравниваемых показателей, так как любая ошибка в понимании задачи скажется на выполн-и заданий из обеих половин.

Полученные показатели по 2 частям теста коррелируются обычным м-дом. Н. иметь в виду, что эта корр-я в действит-ти показывает надежность лишь половины теста. Напр., если весь тест состоит из 100 заданий, то корр-я вычисляется между 2 мн-вами показателей, каждый из кот. основан только на выполн-и 50 заданий. В отличие от надежности этого типа, при расчете ретестовой надежности, как и надежности взаимозаменяемых форм, каждый показатель основывается на полном наборе заданий теста.

При прочих равных усл-х, чем больше заданий содержит тест, тем выше его надежность. Вполне оправданно ожидать, что чем обширнее выборка поведения, тем адекватнее и согласованнее получаемые единицы измерения. Влияние, оказываемое увеличением или сокращением теста на его коэф-т надежности, можно оценить с помощью формулы Спирмена—Брауна.

r_nn =

Так, если число заданий теста возросло с 25 до 100, то n=4, а если оно сократилось с 60 до 30. то n=½. Формула Спирмена-Брауна широко использ. при опр-и надежности м-дом расщепления, и во многих рук-вах к тестам данные о надежности приводятся в этом виде. Альтернативный м-д вычисления надежности эквивалентных половин теста был разработан Рюлоном (1939). Требуется знать только дисперсию разностей между показателями каждого исп-го по обеим половинам теста (SD_d² ) и дисперсию показателей по полному тесту (SD_x²).

Интересно отметить связь между этой формулой и опр-ем дисперсии ошибок. Любая разность между показателями исп-го по двум половинам теста отражает постороннее влияние или дисперсию ошибок. Дисперсия таких разностей, поделенная на дисперсию показателей по всему тесту, дает долю дисперсии ошибок в этих показателях. Вычитая эту дисперсию ошибок из единицы, мы получаем долю «истинной» дисперсии для установленного применения теста, которая равна его коэф-ту надежности.

⇐ Предыдущая 22 23 24 252627 28 29 30 31 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2015-06-04; Просмотров: 582; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.01 сек.