КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Дискриминативность теста
Последовательность действий при проверке надежности. В.В. Столин [15], предлагает следующий алгоритм действий для проверки надежности теста: 1.Узнать, существуют ли данные о надежности теста, предполагаемого к использованию, на какой популяции и в какой диагностической ситуации проводилась проверка. Если проверки не было или признаки новой популяции и ситуации явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей. 2. Если возможности обследования испытуемых, смысл теста и возможности обработки (наличие ЭВМ) позволяют, то произвести второе тестирование на всей выборке стандартизации и подсчитать все коэффициенты, приведенные в настоящем параграфе, как для целого теста, так и для отдельных пунктов. Анализ полученных коэффициентов позволит понять: - насколько пренебрежима ошибка измерения; - дает ли данный тест интервальную шкалу или только диагностичен для крайних групп, насколько устойчиво измеряемое свойство во времени (возможен ли статистический прогноз); - в каких своих частях (пунктах) тест менее надежен (анализ этих пунктов позволяет психологически осмыслить содержательный механизм взаимодействия пунктов с испытуемыми). 3. Если возможности ограничены, произвести повторное тестирование только на части выборки (не менее 30 испытуемых), подсчитать (вручную) ранговую или четырехклеточную корреляцию для оценки внутренней согласованности (методом расщепления) и стабильности целого теста. Контрольные вопросы для самопроверки: §6. Надежность теста. Теория надежности. 1. Что понимается под надежностью теста? 2. Какие виды надежности существуют в психометрике? Дайте им краткую содержательную характеристику. 3. Как проверяется надежность отдельных пунктов теста? 4. На чем основана теория надежности? 5. Что понимается под согласованностью пунктов теста? Относится ли это понятие в равной степени и к надежности, и к валидности? 6. Какие действия последовательно должен произвести психолог при проверке надежности?
Литература к теме. 1. Анастази А. Психологическое тестирование. В 2-х кн. М., 1982. 2. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Изд-во "Питер", 1999. - 528 с. 3. Корниенко А.Ф. Теория и практика психологического исследования. Учебное пособие. Казанский пед. университет, Казань, 2000. -258 с. 4. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина.- М., 1987. 5. Основы психодиагностики / Под ред. А. Г. Шмелева. Ростов-на-Дону., 1996.
В параграфе 2 темы 1, посвященной содержанию и предмету психодиагностики, было отмечено, что к психологическим измерениям предъявляются определенные научные требования. С точки зрения психометрики имеются пять характеристик, которым должны удовлетворять все методики и тесты для психологических измерений, к ним относятся: надежность, дискриминативность, валидность, достоверность и репрезентативность. Прежде чем переходить к обсуждению методов достижения валидности, рассмотрим способы установления дискриминативности. Под дискриминативностью теста будем понимать способность теста дифференцировать испытуемых в диапазоне от "максимального" до "минимального" результата набранного по данному теста. Как отмечает П. Клайн [8], потенциально тест может быть гораздо более дискриминативным, чем другие средства измерения, например, интервью или рейтинги. Показатели дискриминативности связаны по существу с ранжированием испытуемых. Основной показатель коэффициента дискриминативности, " õ" Фергюсона, который рекомендуется для оценивания дискриминативности тестов, достаточно прост в вычислении. Если не касаться процедуры вывода формулы, то ее можно представить в следующем виде: ; где N - количество испытуемых, п - количество заданий, fi - частота встречаемости каждого показателя. Коэффициент Фергюсона õ =0, когда все испытуемые получили одинаковые показатели, (то есть, когда нет дискриминативности), и равно 1 при равномерном (прямоугольном) распределении. Вычислить õ Фергюсона можно следующим образом. 1. Подсчитать, как часто встречаются значения показателей для данного теста. 2. Возвести эти числа в квадрат и просуммировать: ; 3. Прибавьте 1 к количеству заданий: п + 1. 4. Возвести в квадрат количество испытуемых: . 5. Перемножить количество заданий на результат шага (4): n . 6. Подставить все найденные элементы в формулу. Разработчик тестов должен учитывать некоторые характеристики õ коэффициента. Поскольку для равномерного (прямоугольного) распределения (наиболее дискриминативного) необходимы задания, в которых бы наиболее полно были реализованы все возможные проявления измеряемого свойства, это означает, что дискриминативность до некоторой степени противостоит надежности, так как использование заданий с широким перечнем возможных проявлений измеряемого свойства уменьшает взаимную корреляцию между заданиями (см. параграф 6). Конечно, распределение показателей, которое дает тест – это, прежде всего, функция трудности заданий, а это влияет не только на надежность, но также и на дискриминативность. Это означает, что при конструировании теста следует исходить из предназначения теста, поскольку именно этот факт определяет то, на что ориентироваться разработчику - на достижение максимальной надежности или максимальной дискриминативности. Поскольку дискриминативность целого теста зависит от дискриминативности входящих в него заданий, рассмотрим проблему определения дискриминативности отдельных заданий теста. Аналогично с определением дискриминативности целого теста под дискриминативностью отдельных пунктов будем понимать способность отдельных пунктов (заданий) теста дифференцировать обследуемых относительно "максимального" или "минимального" результата теста [3]. Любой ответ испытуемого на конкретное задание можно оценить по двухбалльной шкале – "верно" (1 балл), "неверно" (0 баллов). Сумма баллов по всем пунктам представляет собой первичную ("сырую") оценку. Мера соответствия успешности выполнения одной задачи (одного пункта) всему тесту является показателем дискриминативности задания теста для данной выборки испытуемых и называется коэффициентом дискриминации (индексом дискриминации). где x - среднее арифметическое всех индивидуальных оценок по тесту; x п - среднее арифметическое оценок по тесту у испытуемых, правильно выполнивших задание (в случае опросника личностности - соответствие с "ключом"); σ -среднеквадратическое отклонение индивидуальных оценок по тесту для выборки; Nn- число испытуемых, правильно решивших задачу (или тех, чей ответ на данный пункт опросника соответствует "ключу"); N - общее число испытуемых. Коэффициент дискриминации может принимать значения от -1 до +1. Высокий положительный r свидетельствует об эффективности деления испытуемых. Высокое отрицательное значение r свидетельствует о непригодности данного пункта для теста, о его несоответствии суммарному результату. Индекс дискриминативности задания теста может быть вычислен с помощью метода контрастных групп. Необходимым условием применения метода в этом случае является наличие близкого к нормальному распределению оценок по критерию валидизации. При этом, доля членов контрастных групп может изменяться в широких пределах в зависимости от величины выборки. Чем больше выборка, тем меньшей долей испытуемых можно ограничиться при выделении групп с высоким и низким результатами. Чаще из выборки "извлекают" по 27% или 33% испытуемых. Индекс дискриминации вычисляется с использованием формулы четырехпольного коэффициента корреляции: где: fg - число лиц, правильно решивших задачу, по отношению к общему числу обследованных в группе с максимальным результатом; fd - число лиц, правильно решивших задание в группе с минимальным результатом; р - общая пропорция правильно выполненных заданий ; q — число лиц, давших неверное решение (1 - р). Критические значения этого коэффициента, свидетельствующие о диагностической ценности (на уровне р < 0,05), в зависимости от числа обследованных (п) приведены ниже: n 25 50 100 200 r 0,39 0,28 0,20 0,14 Максимальная точность определения r достигается тогда, когда максимальная и минимальная группы составляют по 27% выборки. При анализе дискриминативности задания теста особое внимание следует уделить определению статистической значимости коэффициентов корреляции. В тех случаях, когда значение коэффициента дискриминации приближается к нулю и уровень значимостиневысок, проверяемый пункт теста должен быть пересмотрен в связи с некорректностью формулировки задания или вариантов ответа на него [3].
Дата добавления: 2015-06-04; Просмотров: 2367; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |