Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Дискриминативность теста




Последовательность действий при проверке надежности.

В.В. Столин [15], предлагает следующий алгоритм действий для проверки надежности теста:

1.Узнать, существуют ли данные о надежности теста, предполагаемого к использованию, на какой популяции и в какой диагностической ситуации проводилась проверка.

Если проверки не было или признаки новой популяции и ситуации явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей.

2. Если возможности обследования испытуемых, смысл теста и возможности обработки (наличие ЭВМ) позволяют, то произвести второе тестирование на всей выборке стандартизации и подсчитать все коэффициенты, приведенные в настоящем параграфе, как для целого теста, так и для отдельных пунктов. Анализ полученных коэффициентов позволит понять:

- насколько пренебрежима ошибка измерения;

- дает ли данный тест интервальную шкалу или только диагностичен для крайних групп, насколько устойчиво измеряемое свойство во времени (возможен ли статистический прогноз);

- в каких своих частях (пунктах) тест менее надежен (анализ этих пунктов позволяет психологически осмыслить содержательный механизм взаимодействия пунктов с испытуемыми).

3. Если возможности ограничены, произвести повторное тестирование только на части выборки (не менее 30 испытуемых), подсчитать (вручную) ранговую или четырехклеточную корреляцию для оценки внутренней согласованности (методом расщепления) и стабильности целого теста.

Контрольные вопросы для самопроверки: §6. Надежность теста. Теория надежности.

1. Что понимается под надежностью теста?

2. Какие виды надежности существуют в психометрике? Дайте им краткую содержательную характеристику.

3. Как проверяется надежность отдельных пунктов теста?

4. На чем основана теория надежности?

5. Что понимается под согласованностью пунктов теста? Относится ли это понятие в равной степени и к надежности, и к валидности?

6. Какие действия последовательно должен произвести психолог при проверке надежности?

 

Литература к теме.

1. Анастази А. Психологическое тестирование. В 2-х кн. М., 1982.

2. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Изд-во "Питер", 1999. - 528 с.

3. Корниенко А.Ф. Теория и практика психологического исследования. Учебное пособие. Казанский пед. университет, Казань, 2000. -258 с.

4. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина.- М., 1987.

5. Основы психодиагностики / Под ред. А. Г. Шмелева. Ростов-на-Дону., 1996.

 

 

В параграфе 2 темы 1, посвященной содержанию и предмету психодиагностики, было отмече­но, что к психологическим измерениям предъявляются определенные научные требования. С точки зрения психометрики имеются пять характеристик, которым должны удовлетворять все методики и тесты для психологических измерений, к ним относятся: надеж­ность, дискриминативность, валидность, достоверность и репрезентативность.

Прежде чем переходить к обсуждению методов достижения валидности, рассмотрим способы установления дискриминативности. Под дискриминативностью теста будем понимать способность теста дифференциро­вать испытуемых в диапазоне от "макси­мального" до "минимального" результа­та набранного по данному теста.

Как отмечает П. Клайн [8], потенциально тест может быть гораздо более дискриминативным, чем другие средства измерения, например, интервью или рейтинги.

Показатели дискриминативности связаны по существу с ранжированием испытуемых. Основной пока­затель коэффициента дискриминативности, " õ" Фергюсона, который рекомендуется для оценивания дискриминатив­ности тестов, достаточно прост в вычислении. Если не касаться процедуры вывода формулы, то ее можно представить в следующем виде:

;

где N - количество испытуемых, п - количество заданий,

fi - частота встречаемости каждого показателя.

Коэффициент Фергюсона õ =0, когда все испытуемые получили одинаковые показатели, (то есть, когда нет дискриминативности), и равно 1 при равномерном (прямоугольном) распределении.

Вычислить õ Фергюсона можно следующим образом.

1. Подсчитать, как часто встречаются значения показателей для данного теста.

2. Возвести эти числа в квадрат и просуммировать: ;

3. Прибавьте 1 к количеству заданий: п + 1.

4. Возвести в квадрат количество испытуемых: .

5. Перемножить количество заданий на результат шага (4): n .

6. Подста­вить все найденные элементы в формулу.

Разработчик тестов должен учитывать некоторые характеристики õ коэффициента. Поскольку для равномерного (прямоугольного) распределения (наиболее дискриминативного) необходимы задания, в которых бы наиболее полно были реализованы все возможные проявления измеряемого свойства, это означает, что дискриминативность до некоторой степени проти­востоит надежности, так как использование заданий с широким пе­речнем возможных проявлений измеряемого свойства уменьшает взаимную корреляцию между заданиями (см. параграф 6).

Конечно, распределение показателей, которое дает тест – это, прежде всего, фун­кция трудности заданий, а это влияет не только на надежность, но также и на дискриминативность. Это означает, что при конст­руировании теста следует исходить из предназначения теста, поскольку именно этот факт определяет то, на что ориентироваться разработчику - на достижение максимальной надежности или максимальной дискримина­тивности.

Поскольку дискриминативность целого теста зависит от дискриминативности входящих в него заданий, рассмотрим проблему определения дискриминативности отдельных заданий теста.

Аналогично с определением дискриминативности целого теста под дискриминативностью отдельных пунктов будем понимать способность отдельных пунктов (заданий) теста дифференциро­вать обследуемых относительно "макси­мального" или "минимального" результа­та теста [3].

Любой ответ испытуемого на конкрет­ное задание можно оценить по двухбалль­ной шкале – "верно" (1 балл), "неверно" (0 баллов). Сумма баллов по всем пунк­там представляет собой первичную ("сы­рую") оценку. Мера соответствия успеш­ности выполнения одной задачи (одного пункта) всему те­сту является показателем дискриминативности задания теста для дан­ной выборки испытуемых и называется коэффициентом дискриминации (индек­сом дискриминации).

где x - среднее арифметическое всех индивидуальных оценок по тесту;

x п - среднее арифметическое оценок по тес­ту у испытуемых, правильно выполнив­ших задание (в случае опросника личностности - соответствие с "клю­чом");

σ -среднеквадратическое от­клонение индивидуальных оценок по те­сту для выборки;

Nn- число испытуе­мых, правильно решивших задачу (или тех, чей ответ на данный пункт опросни­ка соответствует "ключу");

N - общее число испытуемых.

Коэффициент дискриминации может принимать значения от -1 до +1. Высокий положительный r свидетельствует об эффективности деления испытуемых. Вы­сокое отрицательное значение r свиде­тельствует о непригодности данного пункта для теста, о его несоответствии суммар­ному результату.

Индекс дискриминативности задания теста может быть вычислен с помощью метода контрастных групп. Необходимым условием приме­нения метода в этом случае является на­личие близкого к нормальному распреде­лению оценок по критерию валидизации. При этом, доля членов контрастных групп мо­жет изменяться в широких пределах в за­висимости от величины выборки. Чем больше выборка, тем меньшей долей ис­пытуемых можно ограничиться при выде­лении групп с высоким и низким резуль­татами. Чаще из выборки "извлека­ют" по 27% или 33% испытуемых.

Индекс дискриминации вычисляется с использованием формулы четырехпольного коэффициента корреляции:

где:

fg - число лиц, правильно решивших задачу, по отношению к общему числу об­следованных в группе с максимальным ре­зультатом;

fd - число лиц, правильно ре­шивших задание в группе с минимальным результатом;

р - общая пропорция пра­вильно выполненных заданий ;

q — число лиц, давших неверное решение (1 - р).

Критические значения этого коэффи­циента, свидетельствующие о диагности­ческой ценности (на уровне р < 0,05), в зависимости от числа обследованных (п) приведены ниже:

n 25 50 100 200

r 0,39 0,28 0,20 0,14

Максимальная точность определения r достигается тогда, когда макси­мальная и минимальная группы составля­ют по 27% выборки.

При анализе дискриминативности задания теста особое внимание следует уделить определению статис­тической значимости коэффициентов корреляции. В тех случаях, когда значе­ние коэффициента дискриминации при­ближается к нулю и уровень значимостиневысок, проверяемый пункт теста дол­жен быть пересмотрен в связи с некоррек­тностью формулировки задания или вари­антов ответа на него [3].




Поделиться с друзьями:


Дата добавления: 2015-06-04; Просмотров: 2367; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.012 сек.