КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Надежность тестовых методик
Превращение психодиагностических процедур и техник в надежный инструмент науки и практики зависит от усилий многих специалистов по психометрической отладке, конструированию тестов, удовлетворяющих основным психометрическим требовованиям: надежности, валидности, стандартизации. Основные принципы проверки и определения надежности, конструирования и валидизации психодиагностических методик освещены в ряде специальных работ по психодиагностике (А. Анастази, А. Бодалси, В. Столин, А. Шмелев, К. Гуревич, В. Мельников и др.). В данном учебном пособии мы опишем базовые понятия и принципы проведения психодиагностического обследования, знание которые является непременным условием профессиональной квалификации практического психолога. Психодиагностика как научная дисциплина включает три области психологического знания: предметную область психологии, изучающую данные психические явления; психометрику – науку об измерении индивидуальных различий и диагностируемых переменных; практическое использование психологического знания в целях адекватного психологического воздействия и оказания помощи людям в решении их проблем. Методологической основой психодиагностики выступает психометрика. Именно эта наука разрабатывает технологию создании конкретных психодиагностических методик и определяет методологию обеспечения научных требований к ним: надежности – внутренней согласованности частей теста и воспроизводимости результатов при повторном тестировании; валидности – отражения в результатах теста именно того свойства, для диагностики которого он предназначен; достоверности – защищенности теста от влияния на результаты стремления испытуемого изменить их в желательную сторону; репрезентативности – наличия норм результатов массового обследования в популяции, на которую рассчитан тест, позволяющих оценить степень отклонения от средних значений любого индивидуального показателя.
Эти психометрические требования относятся к разным группам тестов, при этом в наибольшей степени – к объективным тестам и личностным опросникам, в наименьшей – к проективным техникам. Оъективная оценка психологических методик и тестов означает определение их надежности. В психометрии термин «надежность» всегда означает согласованность показателей, полученных у тех же самых испытуемых. Насколько пригоден данный тест? Действительно ли он выполняет свои функции? Эти вопросы могут вызывать и иногда вызывают длительные бесплодные дискуссии. Предубеждения, субъективные выводы, личные пристрастия приводят, как считает А. Анастази, с одной стороны, к переоценке возможностей конкретного теста, а с другой – к упорному его неприятию. Единственный способ ответить на подобные вопросы – эмпирическая проверка. Объективная оценка психологических тестов прежде всего означает определение их надежности и валидности в конкретных ситуациях.
Надежность теста есть согласованность показателей, полученных у тех же самых испытуемых при повторном тестировании тем же самым тестом или эквивалентной его формой.
Если у ребенка IQ в понедельник равен 110, а в пятницу – 80, то очевидно, что к такому показателю вряд ли можно отнестись с доверием. Аналогично, если индивид в ряду из 50 слов правильно определил 40, а в другом считающемся эквивалентным ряду – 20, то ни один из этих показателей не может рассматривается в качестве меры его вербального понимания. Разумеется, в обоих примерах возможно, что ошибочным является только один из двух показателей, но это может подтвердить лишь последующее тестирование; из приведенных данных следует только то, что вместе показатели не могут быть правильными. Прежде чем психологический тест станет общим достоянием, необходимо провести тщательную объективную проверку его надежности. Надежность может проверяться относительно временных изменений, выбора конкретных заданий или тестовой выборки индивидуальности экспериментатора или специалиста по обработке тестовых показателей и других аспектов тестирования. Очень важно точно указать тип надежности и способ ее определения, поскольку один и тот же тест может изменяться в различных аспектах. Желательно также иметь сведения о численности и особенностями индивидов, на которых проверялась надежность теста. Такая информация позволит пользующемуся тестом решить, насколько надежен этот тест для той группы, к которой он собирается его применить. Наиболее полное объяснение надежности тестовых методик дает А. Анастази. Под надежностью понимается согласованность результатов теста, получаемых при повторном его применении к тем же испытуемым в различные моменты времени, с использованием разных наборов эквивалентных заданий или при изменении других условий обследования. На надежности основывается вычисление ошибки измерения, которая служит для указания вероятных пределов колебаний измеряемой величины, возникающих под действием посторонних случайных факторов. В самом широком смысле надежность показывает, в какой степени индивидуальные различия в тестовых результатах оказываются «истинными», а в какой могут быть приписаны случайным ошибкам. Если перевести это на язык специальных терминов, то измерение надежности теста позволяет оценить величину общей дисперсии тестовых показателей, являющуюся дисперсией ошибки. Вопрос, однако, состоит в том, что считать дисперсией ошибки. Одни и те же факторы, которые применительно к одним задачам являются посторонними, при решении других проблем уже считаются источниками «истинных» различий. Например, если нас интересуют колебания настроения, то происходящие день ото дня изменения в результатах теста эмоционального состояния могли относиться к цели тестирования и, следовательно, к истинной дисперсии результатов. Но если тест предназначен для измерения более стабильных характеристик личности, то те же ежедневные колебания можно отнести к дисперсии ошибки. Существенно то, что любые изменения условий, в которых проводится тест, если они не имеют отношения к его цели, увеличивают дисперсию ошибки. Поэтому, придерживаясь единых условий тестирования (контролируя общую обстановку, временные ограничения, инструктирование испытуемого, контакт с ним и другие аналогичные факторы), экспериментатор уменьшает дисперсию ошибки и повышает надежность теста. Но и в оптимальных условия ни один тест не является абсолютно надежным инструментом. По этому стандартный набор данных о тесте должен включать в себя и меру надежности. Такая мера характеризует тест, когда он применяется в стандартных условиях и проводится с испытуемыми, похожими на тех, кто участвовал в нормативной выборке. Следовательно, необходимо также приводить сведения об этой выборке. К. М. Гуревич определяет надежность как «крайне сложное и многоплановое понятие, одна из основных функций которого – оценить постоянство показателей тестовых испытаний» [Гуревич, 1981]. В принципе можно сказать, что надежность должна обосновывать ошибку измерения – она должна показывать, какая часть изменчивости показателей ошибочна. Известно несколько основных факторов, определяющих уровень надежности. Так, надежность всегда будет иметь тенденцию к увеличению, если соблюдается постоянство условий проведения процедуры тестирования, так как это снижает ошибку вариабельности измеряемого параметра. В то время многочисленность целей, сложность проблемы, изменчивость ситуаций, как правило, увеличивают ошибку измерения, уменьшая тем самым надежность. Разновидностей надежности теста так же много, как и условий, влияющих на результаты теста, поэтому любые такие условия могут оказаться посторонними по отношению к цели, и тогда обусловленная ими дисперсия должна войти в дисперсию ошибки. Однако практическое применение находит лишь несколько типов надежности. Поскольку все типы надежности отражают степень последовательности или согласованности двух независимо полученных серий показателей, то в качестве их меры может выступать коффециент корреляции. Более специальное обсуждение корреляции с подробным описанием вычислительных процедур приводится в учебниках по статистике для педагогов и психологов (В. Аванесов, А. Гусев, Ч. Измайлов, М. Михалевская и др.). Hа практике используются три основных метода оценкинадежности тестов: 1) повторное тестирование; 2) параллельное тестирование; 3) метод расщепления. Рассмотрим каждый из них в отдельности. Повторное тестирование Является одним из основных методов измерения надежности. Повторное тестирование выборки испытуемых проводится одним и тем же тестом через определенный интервал времени при одинаковых условиях. Повторное тестирование обычно называют ретестом, а надежность, измеренную таким способом, – ретестовой надежности. Схема оценки ретестовой надежности имеет вид: В этом случае за индекс надежности принимается коэффициент корреляции между результатами двух тестирований. Метод повторного тестирования обладает как достоинствами, так и недостатками. К числу достоинств относятся естественность и простота определения коэффициента надежности. К недостаткам следует отнести неопределенность в выборе интервала между двумя измерениями. Возникновение временной неопределенности связано с тем, что повторное тестирование отличается от первичного. Испытуемые уже знакомы с содержанием теста, помнят свои первоначальные ответы и ориентируются на них при повторном выполнении теста. Поэтому при повторном тестировании нередко наблюдается или «подгонка» под первоначальные результаты, или как следствие негативизма демонстрация «новых» результатов. Во избежание этого, приводя в руководстве к тесту его ретестовую надежность, следует указывать, какому интервалу времени она соответствует. В связи с тем что ретестовая надежность уменьшается с ростом временного интервала, наиболее доверительными являются высокие коэффициенты надежности, полученные при явно больших интервалах между тестированиями. Недостаточно высокие коэффициенты надежности могут быть следствием неоптимального определения временных интервалов.
Параллельное тестирование В этом случае многократность измерения организуется с помощью параллельных, или эквивалентных, тестов. Параллельными называются тесты, которые с одинаковой ошибкой измеряют одно и то же свойство психики. В этом случае одни и те же лица выполняют несколько вариантов одного и того же теста или эквивалентные тесты. Как правило, практическое использование данного типа надежности связано со значительными затруднениями, поскольку крайне сложно построить несколько вариантов одного теста таким образом, чтобы испытуемый не мог обнаружить их психологическую однородность. Да и искажающее влияние тренировки в этом случае не полностью снято. Кроме того, возникает вопрос: являются ли альтернативные типы надежности характеристиками именно надежности теста, а не параметрами эквивалентности испытаний? Ведь если две формы испытания проводятся при однотипных константных условиях, то, вероятнее всего, исследуются показатели эквивалентности двух форм тестирования, а не показатели надежности самих тестов. Ошибка измерения в этом случае определяется флюктуациями выполнения теста, а не флюктуациями структуры теста. Схема использования параллельных тестов для измерения на дежности имеет вид: Рассчитанный между двумя тестами коэффициент корреляции называется эквивалентной надежностью. Метод расщепления Он является развитием метода параллельного тестирования и базируется на допущении о параллельности не только отдельных форм теста, но и отдельных заданий внутри одного теста. Это одна из наиболее простых проверок теста, когда вычисляется коэффициент корреляции между его половинами. Каким же образом поделить тест на две половины, чтобы иметь возможность выровнять обе половины по тому или иному конкретному основанию? Чаще всего задачи теста делят на чет-нечет, что позволяет в какой-то мере устранить возможные недостатки. Главное достоинство этого типа надежности состоит в независимости результатов тестирования от таких элементов деятельности, как врабатывание, тренировка, практика, утомление и т.д. При разделении теста на две части индекс надежности вычисляется по формуле Спирмена-Брауна, предложивших ее независимо друг от друга. Их статьи были опубликованы в одном и том же номере психологического журнала с выводами и формулами [Аванесов, 1982]. В их формуле R (х, 0=2 RJ\ + R, у
где R – коэффициент корреляции двух половин теста. В качестве коэффициента индекса надежности рассматривается средний модуль коэффициента корреляции всех заданий теста или средний коэфициент детерминации. Итак, мы рассмотрели три эмпирических метода оценки надежности тестов: повторное тестирование одним и тем же тестом, повторное тестирование параллельной формой теста и расщепление теста. Какой из этих методов дает истинную оценку надежности теста? Каким из методов следует пользоваться? Ответ на этот вопрос зависит от личной симпатии и целей исследования. При использовании метода повторного тестирования получаем оценку степени устойчивости результатов во времени и в зависимости от условий тестирования. Поэтому ретестовый коэффициент надежности называют также коэффициентом устойчивости или стабильности теста. При использовании метода параллельных форм и метода расщепления оценивается степень взаимной согласованности частей теста. Поэтому коэффициенты надежности, полученные этими двумя методами, интерпретируются как покачен и гомогенности, однородности тестов. Помимо показателей устойчивости и гомогенности, Р. Б. Кэттелл считает необходимым рассматривать показатель переносимосmu (transferability). Он представляет собой оценку способности тес та сохранять точность измерения в разных выборках, субкультурах и популяциях. Совместно устойчивость, гомогенность и переносимость образуют комплексную характеристику надежности, которую Р. Б. Кэттелл называет постоянством (consistency) и определяет как «степень, в которой тест продолжает предсказывать то, что он однажды предсказал, несмотря на изменения (в определенных пределах): а) объема, в котором тест применялся; б) условий, в которых он применялся; в) состава выборки, в которой он применяется». Наконец, существует тип надежности, непосредственно имеющий отношение к надежности лица, проводящего тестовое испытание. Оценка надежности лица, проводящего тест, получается с помощью независимого моделирования испытания двумя различными экспериментаторами. Надежность результатов тестирования зависит не только от надежности самого теста и процедуры его проведения. Важным фактором, влияющим на результаты интерпретации данных, является специфика конкретной выборки. Наиболее существенными характеристиками выборки, с этой точки зрения, следует признать социально-психологическую однородность по разным параметрам; учитываются также возраст и пол. Последовательность действий при проверке надежности А. Г. Шмелев предлагает провести следующим образом [Общая психодиагностика, 1987]: 1. Узнать, существуют ли данные о надежности теста, предлагаемого к использованию, на какой популяции и в какой диагностической ситуации проводилась проверка. Если проверки не было или признаки новой популяции и ситуаций явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей. 2. Если позволяют возможности, то произвести повторное тестирование на всей выборке стандартизации и подсчитать все коэффициенты, приведенные как для целого теста, так и для отдельных пунктов. Анализ полученных коэффициентов поможет понять, насколько пренебрежима ошибка измерения. 3. Если возможности ограничены, произвести повторное тестирование только на части выборки (не менее 30 испытуемых), подсчитать вручную ранговую корреляцию для оценки внутренней согласованности (методом расщепления) и стабильности целого теста. Безусловно, рассмотренные понятия психодиагностики – ее важнейшие атрибуты. Однако высокие показатели надежности сами по себе не определяют практическую ценность теста. Ведущий фактор, который позволяет измерить целевые результаты психологического тестирования, – валидность.
Дата добавления: 2015-06-04; Просмотров: 5514; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |