Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

В. Надежность и ошибка измере­ния




Надежность — характеристика мето­дики, отражающая точность психодиаг­ностических измерений, а также устой­чивость результатов теста к действию по­сторонних случайных факторов.

В основе анализа надежности теста лежит представление об истинных оценках и ошибках измерения. Распределение оценок, полученных на генеральной сово­купности при выполнении теста, изме­ряющего одну характеристику, теорети­чески должно подчиняться нормальному закону. Поэтому при разработке теста ис­следователю необходимо отбирать зада­ния таким образом, чтобы распределение реальных тестовых оценок было по воз­можности близко к нормальному.

Для определения ошибки измерения используются на практике корреляцион­ные методы, позволяющие определить надежность через устойчивость и согла­сованность результатов. Классические методы оценки коэффициентов надежно­сти требуют корреляции по меньшей мере двух совокупностей сходных изме­рений.

Один из методов получения двух сово­купностей измерений — это ретестирование (повторное обследование одной и той же выборки испытуемых). Несмотря на простоту и возможность определения ус­тойчивости результатов теста в течение времени, дефект метода в том, что субъект помнит свои ответы, и в случае тестов спо­собностей это может существенно влиять на повторные ответы.

Если мы желаем исключить влияние запоминания на результаты ответов как систематический источник ошибки и учесть влияние временного интервала на ответы, То можем использовать две совокупности заданий, разработанных или ото­бранных по одной системе. Это — парал­лельные тесты. Недостатком в данном слу­чае является то, что очень трудно постро­ить на практике параллельные формы од­ного и того же теста.

Если желательно изучить только вли­яние содержания выборки без влияния запоминания или вариативности ответов во времени или если практически нецеле­сообразно проводить две параллельные формы в разное время, надежность может быть оценена проведением одного теста без ограничения во времени. В данном случае тест может быть разделен на две равные части. Полученные показатели по двум частям теста коррелируются обыч­ным методом. Но эта корреляция отража­ет лишь надежность половины теста. Для вычисления надежности всего теста по методу расщепления используют формулу Спирмена—Брауна.

Оценка надежности на основе одно­кратного тестирования может быть полу­чена путем использования формулы, изве­стной как коэффициент альфа.

Рекомендуется также оценить надеж­ность теста относительно эксперимента­тора как оценщика и как эксперимента­тора.

Из предыдущего видно, что различные методы оценивания надежности исходят из различных источников ошибок. Так, на результаты ретестирования влияет не только случайная вариативность ответов или изменение субъектов во времени, но также различия в поведении (особенно если ретестирует другое лицо). Коэффи­циенты надежности, основанные на одно­кратном тестировании, исключают вариа­тивность ответов во времени, т. е. влияние ответов на баллы не проявляется как ошибка измерения. Следовательно, «коэф­фициент надежности» — обобщенный тер­мин. Он может основываться на разных типах свидетельств — каждый тип пред­полагает иной смысл. Очень важно, что­бы метод, использованный для получения коэффициента надежности, был четко описан.

Автору теста рекомендуется в руко­водстве описать значение любого коэффи­циента насколько возможно точно. Напри­мер, высказывание: «Этот коэффициент показывает стабильность измерения экви­валентных баллов, основанных на парал­лельных формах тестов, проведенных с промежутком в 7 дней, при этом научение испытуемых исключается» хотя и длин­ное, но свободно от двусмысленности.

Коэффициенты надежности имеют ог­раниченную практическую ценность для пользователей теста. Стандартная ошиб­ка измерения обычно более полезна, т. к. обладает относительной независимостью и может быть использована для установ­ления пределов определенной вероятнос­ти балла. Пользователи теста могут упот­ребить коэффициент надежности для срав­нения тестов, но для интерпретации тес­товых баллов используется стандартная ошибка измерения.

 

* * *

В.1. В руководстве к тесту должны быть достаточно подробно описаны проце­дуры и выборки, использованные для оп­ределения коэффициентов надежности, сами коэффициенты и ошибки измерения, что позволит пользователю судить о том, в какой степени эти параметры приложимы к лицам или группам, с которыми он имеет дело. Если некоторые из необходи­мых данных не были получены, то отсут­ствие такой информации должно быть от­мечено. (Существенно.)

Комментарий. Для пользователя важно получить несколько типов оценки надежности. Полезным является сообще­ние стандартных ошибок измерения, по­лученных в разных группах. Следует при­вести среднее значение и дисперсию вы­борки и информацию о ее составе. Надеж­ность теста, предназначенного для отбора работников, проверяется при тестирова­нии кандидатов на должность, а не школь­ников или уже работающих. Если указыва­ется, что тест пригоден для различных воз­растных групп, следует привести данные о надежности для каждого класса или возра­ста. Авторы и публикаторы тестов должны избегать необщепринятых статистических процедур, если применимы традиционные. Если представлен необщепринятый статистический анализ, он должен быть объяс­нен так, чтобы свести к минимуму вероят­ность ошибочной интерпретации.

В. 1.1. В руководстве к тесту следует представить, насколько это возможно, количественный анализ всех факторов, снижающих надежность измерения: не­согласованность ответов субъекта; несогласованность или неоднородность внутри выборки содержания теста (стимульные задания, вопросы, ситуации и др.); несог­ласованность в проведении теста; несог­ласованность между оценщиками, экспер­тами или единицами математического ап­парата; механические ошибки при выставлении баллов. (Желательно.)

Комментарий. Подобный анализ может быть неосуществим, если результа­ты теста выражены не в количественной форме, а в категориальной или непарамет­рической.

Для группы тестов школьных дости­жений основными источниками ошибок, подлежащих оценке, являются: а) несог­ласованность в содержании теста; б) не­согласованность в проведении теста; в) нестабильность ответов испытуемых. Сбор данных производится для оценки этих трех факторов. Колебания или несогласо­ванность ответов субъекта сами по себе могут быть важной переменной. Они час­то бывают главными источниками подле­жащей оцениванию случайной ошибки. Также должна быть оценена несогласо­ванность между оценщиками.

В.1.2. Стандартные ошибки измерений и коэффициенты надежности должны при­водиться как для итогового балла, так и для его частей, комбинаций баллов (сумм, разниц, производных показателей), если они рекомендованы в руководстве к тесту (явно или неявно) для практического ис­пользования, за исключением опытных и экспериментальных. (Существенно.)

В.1.3. В руководстве должно быть ука­зано минимальное различие между двумя баллами, обычно требуемое для статис­тической значимости на определенном уровне. (Очень желательно.)

В.1.4.В руководстве должны быть опи­саны все характеристики выборки, кото­рые могут оказывать влияние на надеж­ность оценивания. (Существенно.)

Комментарий. В руководстве следует отразить такую демографическую информацию, как распределение субъек­тов по возрасту, полу, экономическому и интеллектуальному уровню, трудовому статусу или прошлой трудовой деятель­ности, месту жительства. Для стандар­тизированных тестов при вычислении коэффициентов надежности выборку сле­дует формировать случайным образом из генеральной совокупности.

В. 1.5. Если тест рекомендован или обычно используется в однородных под­группах, для каждой из них независимо должна быть исследована надежность и ошибка измерений, и это должно быть сообщено в руководстве к тесту. (Суще­ственно.)

В. 1.6. В руководстве к тесту должна быть сообщена стандартная ошибка изме­рения для разных уровней баллов. (Жела­тельно.)

Комментарий. В руководстве к одному тесту способностей сообщаются стандартные ошибки для трех уровней баллов: на уровне среднего балла, на уров­не одного стандартного отклонения выше среднего и на уровне одного стандартного отклонения ниже среднего. Так как наибо­лее существенные вариации ошибок изме­рения связаны с крайними баллами, луч­ше опираться, если позволяет количество доступных случаев, на более широкий ди­апазон уровней баллов.

В. 1.7. Неизвестные статистические характеристики данных должны быть опи­саны со ссылками на литературные источ­ники, отражающие разработку. (Суще­ственно.)




Поделиться с друзьями:


Дата добавления: 2015-06-04; Просмотров: 2048; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.011 сек.