Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Расщепление (метод деления целого на части)




Параллельное тестирование (тестирование параллельной формой теста).

Один из сп-бов избежать трудностей, с кот. приходится сталкиваться при опр-и ретестовой надежности, — использ-е взаимозаменяемых форм тест а. Одних и тех же исп-х м. тестировать в первый раз с помощью одной формы, а второй раз – с помощью др., эквивалентной формы. Корр-я между показателями, полу­ченными по двум формам теста, представляет его коэф-т надежности. Заме­тим, что такой коэф-т надежности служит мерой как временной устойч-ти, так и согласов-ти ответов на различные выборки заданий (или формы теста). Т.о., этот коэф-т служит смешанной хар-кой двух типов надежности. Однако поскольку оба ее типа важны для бол-ва целей тестир-я, надежность взаимозаменяемых форм оказывается полезной мерой для оценки многих тестов.

Понятие выборочной проверки заданий, или выборочной проверки сод-я лежит в основе не только данного, но и др. типов надежности. Вероятно, каждому студенту когда-то доставались на экзамене вопро­сы именно по той теме, к кот. он был особ-но хорошо подготовлен или, напротив, знал этот материал особ-но плохо. Столь знакомая всем ситуация иллюстрирует дисперсию ошибок, вызванную выборочной проверкой сод-я. В какой степени показатели данного теста зависят от факторов, специфичных для этой конкретной подборки заданий? И если другой иссл-ль, работая независимо от нас, подгото­вил бы др. тест в соотв-и с теми же треб-ями, то насколько бы рез-­ты этих тестов отличались др. от др.?

Предположим, что для оценки понимания слов общего употребления был сконст­руирован словарный тест, состоящий из 40 заданий. Предположим далее, что с той же целью был составлен второй тест из 40 других слои, причем были соблюдены все пре­досторожности, чтобы трудность теста оставалась той же самой. Различия в показате­лях, полученных по этим 2 тестам одними и теми же людьми, иллюстрирует рас­сматриваемый тип дисперсии ошибок. Под дей-ем случайных факторов, связан­ных с прошлым опытом разных людей, относит. трудность 2 списков будет несколько меняться с переходом от одного человека к др.. Так, первый список м. содержать больше слов, незнакомых исп-му А. чем второй, в котором, в свою очередь, м. оказ. непропорционально много слов, незнакомых исп-му В. Если оба исп-х примерно равны по своему словарному запасу (т.е., но своим «истинным показателям»), то В тем не менее превзойдет Л по первому списку, тогда как А превзойдет В но второму. Относит. положение исп-х А и В по данным двум спискам окажется взаимно противоположным из-за случайных разли­чии в подборке заданий.

Как и в случае ретестовой надежности, сведения о надежности взаимозаменяемых форм всегда д. сопровождаться указанием длит-ти временного интервала между 2 предъявлениями теста, а также хар-кой релевантных соб-й, происшедших за это t в жизни исп-х. Если обе формы применяются не­поср-но одна за другой, то полученная корр-я показывает только надежность параллельных форм, но ничего не говорит о надежности как временной устойч-ти. Дисперсия ошибок в этом случае обусловлена колеб-ями рез-тов при переходе от одного набора заданий к дп., а не временными флуктуациями показателей.

При разработке взаимозаменяемых форм, безусловно, следует позаботиться о том, чтобы они на самом деле были параллельными. Принципиально важно, чтобы парал­лельные формы конструировались как независимые тесты, отвечающие, однако, од­ним и тем же треб-ям. Такие тесты д. содержать одинаковое число зада­нии, представленных в одной и той же форме и с однотипным сод-ем. Диапазон и ур-нь трудности заданий тоже д.б. одинаковыми. Инструкции, времен­ные рамки, поясняющие примеры, формат бланков и все др. аспекты теста также необходимо проверить на сопоставимость.

Следует добавить, что наличие параллельных форм желательно и по др. сооб­ражениям, помимо опр-я надежности теста. Взаимозаменяемые формы полезны при повторных иссл-ях и при изучении влияния некот. промежуточ­ных эксперим. факторов на выполн-е теста. Использ-е нескольких взаимозаменяемых форм служит, кроме того, ср-вом уменьшения возм-ти натаскивания в выполн-и тестов и обмана.

Несмотря на гораздо более широкое, сравнительно с ретестовой надежностью, при­менение, надежность взаимозаменяемых форм также обнаруживает ряд ограничений. Прежде всего, если изучаемые поведенч. ff подвержены значит. влиянию тренировки, использ-е параллельных форм ослабит, но не устранит его полностью. Конечно, если бы у всех тестируемых наблюдалось одно и то же улучше­ние рез-тов при повторном проведении теста, это не повлияло бы на корр-ю показателей, поскольку прибавление постоянной величины к каждому показателю не меняет коэф-та корр-и. Однако, скорее всего, улучшение рез-тов у разных людей будет неодинаковым вслед-е индивидуал. различий в опыте работы с подобным материалом, в мотив-и участия в тесте и по др. причинам. При этих усл-х эффект тренировки представляет собой еще один источник дис­персии, снижающей, в общем, корр-ю между двумя формами. Но если влияние тренированности невелико, снижение корреляции будет незначительным,

Др. проблема связана с возможным изменением сущности теста при повтор­ном его проведении. Напр., если в параллельных задачах на сообразительность применен один и тот же пр-п, то бол-во исп-х, однажды найдя реш-е, и во второй раз применят его. В подобных случаях одной замены сод-я заданий явно недостаточно для того, чтобы избежать переноса пр-па пр-пов реш-я из одной формы теста на др. Наконец, следует добавить, что для многих тестов взаимозаменяемые формы отсутствуют ввиду практ. трудностей со­здания подлинно эквивалентных форм. В силу этих причин часто приходится обра­щаться к др. м-дам оценки надежности теста.

 

Меру надежности м. определить и на основании однократного применения единственной формы теста, пользуясь для этого различными процедурами расщепления теста на две равноценные половины. При таком сп-бе каждый исп-й получает 2 показателя благодаря разделе­нию теста на две эквивалентные части. Очевидно, что надежность, найденная м-дом расщепления, дает нам меру согласованности выборочных проверок сод-я. Вре­менная устойч-ть показателей в такой хар-ке надежности не представле­на, поскольку она предполагает только один сеанс тестир-я. Этот тип коэф-та надежности иногда называют коэф-том внутр. согласов-ти, так как для его опр-я треб. лишь однократное проведение единственной фор­мы теста.

Первая проблема, с которой мы сталкиваемся при применении м-да расщепле­ния, связана с тем, как разделить тест, чтобы добиться max эквивалент-ти его половин. Всякий тест м. членить многими сп-бами. В бол-ве тестов первая и вторая половины оказ. бы неэквивалентными вслед-е разли­чий в хар-ре и ур-не трудности заданий, а также в связи с кумулятивными эф­фектами вхождения в работу, практики, утомления, скуки и любых др. факторов, воздей-е кот. нарастает от начала к концу теста. Подходящий для бол-ва целей м-д состоит в вычислении показателей отдельно по четным и нечетным заданиям теста. Если задания теста были изначально расположены в порядке возрастания трудности, то такое разбиение дает практически эквивалентные показатели обеих половин. Одна предосторожность, которую треб. при этом соблюдать, от­носится к случаю, когда тест содержит группу взаимосвязанных заданий — напр., когда несколько вопросов касаются какого-то одного чертежа механического устр-ва в тесте технич. сп-тей или одного и того же фрагмента текста в тесте чтения. В этом случае каждая такая группа заданий д.б. целиком отнесена либо к одной, либо к другой половине. Если задания таких групп разделить на 2 части, то возникнет обманчивое сходство сравниваемых показателей, так как любая ошибка в понимании задачи скажется на выполн-и заданий из обеих половин.

Полученные показатели по 2 частям теста коррелируются обычным м-дом. Н. иметь в виду, что эта корр-я в действит-ти показывает на­дежность лишь половины теста. Напр., если весь тест состоит из 100 заданий, то корр-я вычисляется между 2 мн-вами показателей, каждый из кот. основан только на выполн-и 50 заданий. В отличие от надежности этого типа, при расчете ретестовой надежности, как и надежности взаимозаменяемых форм, каж­дый показатель основывается на полном наборе заданий теста.

При прочих равных усл-х, чем больше заданий содержит тест, тем выше его надежность. Вполне оправданно ожидать, что чем обширнее выборка поведения, тем адекватнее и согласованнее получаемые единицы измерения. Влияние, оказываемое увеличением или сокращением теста на его коэф-т надежности, можно оценить с помощью формулы Спирмена—Брауна.

rnn =

 

Так, если число заданий теста возросло с 25 до 100, то n=4, а если оно сократилось с 60 до 30. то n=½. Формула Спирмена-Брауна широко использ. при опр-и надежности м-дом расщепления, и во многих рук-вах к тестам данные о надежности приводятся в этом виде. Альтернативный м-д вычисления надежности эквивалентных половин теста был разработан Рюлоном (1939). Требуется знать только дисперсию разностей между показателями каждого исп-го по обеим половинам теста (SDd2 ) и дис­персию показателей по полному тесту (SDx2).

Интересно отметить связь между этой формулой и опр-ем дисперсии оши­бок. Любая разность между показателями исп-го по двум половинам теста от­ражает постороннее влияние или дисперсию ошибок. Дисперсия таких разностей, поделенная на дисперсию показателей по всему тесту, дает долю дисперсии ошибок в этих показателях. Вычитая эту дисперсию ошибок из единицы, мы получаем долю «истинной» дисперсии для установленного применения теста, которая равна его ко­эф-ту надежности.

 




Поделиться с друзьями:


Дата добавления: 2015-06-04; Просмотров: 582; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.