КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Статистические методы обработки данных. Уровни и шкалы измерений
Валидность психодиагностических измерений (2 часа) Надежность и точность психодиагностических измерений (2 часа) Тестовые шкалы, нормы и репрезентативность (1 час) Основные принципы тестологии (1 час) Понятие психометрических основ. Для оценки качества диагностических процедур используется ряд психометрических показателей: валидность, достоверность, надежность, репрезентативность. Понятие психометрия введено в 1734 г. Христианом Вольфом. Самым первым было измерение времени реакции. Далее к психометрии начинают относить все то, что связано с количественным определением психических явлений. Психометрика включает в себя весь спектр психологических измерений от психофизических до личностных. Важнейшим признаком психометрических процедур является их стандартизированность, предполагающая проведение исследований, при возможно более постоянных внешних условиях. На основании полученных данных строятся различные шкалы индивидуальных свойств и делается вывод о надежности и валидности конкретной методики (теста). В последние годы наметилась тенденция создания психометрических процедур и моделей, позволяющих учитывать как переменные ситуации, так и индивидуальные особенности испытуемых. Прежде всего, выборка испытуемых должна быть репрезентативной, то есть достаточно точно отражать характеристики того контингента испытуемых, который обследуется. Если вы имеете нормы на старших школьников, то их нельзя применять для оценки (например, личностных особенностей) младших школьников. Основные типы данных. Для того, чтобы составить полную картину исследуемого явления, необходимо собрать три типа данных по интересующей нас характеристике. Основные типы данных: L – Q – и T – данные. Психодиагностическая технология. Любая психодиагностическая технология включает: 1. Выявление психологических проблем, существующих в практике. Предварительная оценка ситуации. Статистическая обработка результатов опроса экспертов. 2. Постановка цели, соответствующей выявленным проблемам. 3. Постановка задач диагностического исследования. 4. Выбор диагностических средств, исходя из целей, задач, объекта, предмета исследования. 5. Проведение обследований. 6. Статистическая обработка полученной информации. В зависимости от характера используемых методов это может быть простейший подсчет средних значений, дисперсии данных, либо сложные процедуры факторного, кластерного, латентно-структурного анализа и многомерного шкалирования. Указанные методы обработки позволяют уменьшить количество анализируемых переменных, представить информацию в наглядном виде, выявить скрытые тенденции диагностируемого феномена. 7. Интерпретацию полученных результатов в категориях, доступных неспециалисту или психологу. 8. Выдача рекомендаций по возможности терапии, коррекции или развитию. Диагностика использует различные математические понятия и методы. В основе получения разнообразных показателей лежит процедура измерения. Измерение – это приписывание чисел объектам или их свойствам в соответствии с определенными правилами. Эти правила устанавливают соответствие между некоторыми свойствами чисел и свойствами объектов. В зависимости от характера указанного соответствия выделяют разные уровни измерения: номинальный, ординальный, интервальный, отношений и абсолютный. Перечисленным уровням измерения соответствуют различные типы шкал измерений. Известны следующие шкалы: шкала наименований (номинальная), шкала порядка, интервальная шкала, шкала отношений. Виды измерений. Кроме уровней в психодиагностике выделяют также виды измерения: нормативное, критериальное и ипсативное. Нормативное измерение – это сравнение значений показателей испытуемого со значениями распределений аналогичных показателей в эталонной группе лиц. В настоящее время в психодиагностике наиболее часто используются следующие стандартные виды шкал оценивания: 1) T – шкала Маккола: М= 50; А = 10 (применяется в тесте MMPI и др.); 2) шкала IQ (коэффициент интеллектуальности): М = 100; А = 15; 3) шкала стенов (стандартная десятка: М = 5,5; А = 2,0 (16 PF Кэттелла); 4) шкала стэнайнов (целочисленные значения от 1 до 9 – стандартная десятка): М = 5,0; А = 2. Z – оценки в отличие от процентильных рангов распределены так же, как первичные показатели теста, поэтому, если распределение значений первичных показателей отличается от нормального, то и Z – оценки будет иметь соответствующее распределение. Критериальное измерение основано на прямой оценке качества выполнения теста испытуемым без сравнения с показателями других людей. Ипсативное измерение ориентировано на оценку внутрииндивидуальных соотношений и не связано с диагностикой межиндивидуальных различий. В силу этог значение показателей сравнивается не с групповой, а с индивидуальной нормой. Основные понятия математической статистики. Для статистической обработки данных используются следующие методы: среднее арифметическое, мода (или медиана), дисперсия, среднее квадратическое отклонение, которые указывают типичный, характеризующий данную группу или индивида результат. Зависимости между двумя или белее переменными в статистике называют корреляцией. Она оценивается с помощью значения коэффициента корреляции. Обращаем внимание на то, что одним из важных моментов применения математической статистики является определение статистической значимости полученных результатов. Также при анализе взаимосвязи между большим количеством переменных используются многомерные методы статистической обработки данных. Цель применения подобных методов – сделать наглядным скрытые закономерности, выделить наиболее существенные взаимосвязи между переменными. Примерами таких многомерных статистических методов являются: многомерное шкалирование; факторный анализ; кластерный анализ; латентно-структурный анализ. Далее проводится построение шкалы по данным эксперимента. В последней процедуре мы занимаемся интерпретацией и анализом данных. Процедура стандартизации теста. Стандартизация подразумевает единообразие процедур проведения теста и подсчета результатов. Стандарт предполагает наличие следующей информации (обычно содержащейся в прилагаемом руководстве): при каких условиях тест можно или нельзя проводить, кто должен или не должен подвергаться тестированию (контрольная группа), процедура обсчета теста, а также интерпретаия полученных результатов. Нормы. Стандартизация личностного теста включает также информацию о том, является ли данная конкретная «сырая (первичная) оценка» низкой, высокой или средней относительно других «сырых оценок» теста. Такая информация называемая тестовыми нормами служит стандартом, с которым сравниваются оценки испытуемых. Обычно сырые тестовые оценки переводятся в процентильные показатели, которые обозначают процентную долю испытуемых из выборки стандартизации, первичная оценка которых ниже или равна первичной оценке данного испытуемого. Например, вы можете использовать шкалу депрессии из 30 вопросов и получить первичный тестовый результат 18 (то есть ваши ответы в 18 случаях совпали с признаками депрессии, перечисленными на листке с правильными ответами). Сам по себе показатель 18 ничего не значит до тех пор, пока вы не обратитесь к тестовым нормам и не убедитесь, что ваш результат соответствует 75 процентилям. Эта информация говорит о том, что вы в большей степени подавлены, чем 75% из выборки ранее обследуемых людей, образующих нормативную группу. Таким образом, тестовые нормы позволят сравнивать оценки отдельных индивидуумов с оценками группы стандартизации, что в результате дает количественную оценку положения испытуемого относительно нормативной группы. Надежность и валидность. Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. Эти требования в психодиагностике складываются годами в процессе работы над тестами и над их совершенствованием. К числу основных критериев оценки качества психодиагностических методик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи (Анастази А., Гизелл Е., Гилфорд Дж. Кронбах Л., Торндайк Р., Хаген Е. и др. Ими были разработаны как формально-логический, так и математико-статистический аппараты (прежде всего корреляционный метод и факторный анализ) обоснования степени соответствия методик отмеченным критериям. Надежность и валидность тесно взаимосвязаны. Надежность означает, что повторное проведение того же самого теста или другой формы этого теста должно давать приемлемо сходные результаты или оценки. Таким образом, надежность имеет отношение к постоянству или стабильности метода оценки, которая обнаруживается при повторном обследовании данной группы людей. Как считает А. Анастази (1982) вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель равный 110, а к концу – 80. Могут совпадать как сами результаты, так и порядковое место (ранг), занимаемое испытуемым в группе. Расхождения должны быть незначительными в пределах одной группы. Надежность – это такой критерий, который говорит о точности психологических измерений. Степень надежности методик зависит от многих причин. Многие авторы пытались составить классификацию таких факторов. Среди них наиболее часто называют следующие: 1. нестабильность диагностируемого свойства; 2. несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания, как методику предъявлять испытуемым и т. д.); 3. меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т. д.); 4. различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т. д.); 5. колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом – утомление и т. д.); 6. элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты оригинальности и т. д.). Одним из важнейших средств повышения надежности психодиагностической методики является единообразие процедуры обследования, его строгая регламентация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми, порядок и предъявления заданий и т. д. Таким образом, можно уменьшить влияние посторонних случайных факторов на результаты теста и таким образом повысить их надежность. На характеристику надежности методик также большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель. Показатель искусственно завышен, если в выборке небольшой разброс результатов, то есть, если результаты по своим значениям близки друг к другу (группа, имеющая высокие результаты, низкие результаты. Поэтому в руководстве обычно дается описание выборки, на которой определялась надежность методики. В настоящее время надежность все чаще определятся на наиболее однородных выборках, то есть на выборках схожих по полу, возрасту, уровню образования, профессиональной подготовки и т. д. Для каждой такой выборки приводятся свои коэффициенты надежности. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново. Надежность устанавливается с помощью корреляции (по Пирсону или Спирману). Надежность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот. Константин Маркович Гуревич, проанализировав зарубежную литературу, предложил толковать надежность в трех смыслах: 3. надежность самого измерительного инструмента; 2. стабильность изучаемого признака; 3. константность, то есть относительная независимость результатов от личности экспериментатора. Именно в таком порядке рекомендуется осуществлять проверку методик. Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надежности. Показатель, характеризующий стабильность измеряемого свойства – коэффициентом стабильности, показатель оценки влияния личности экспериментатора – коэффициентом константности. Определение надежности измерительного инструмента. Данный показатель зависит от того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и тоже свойство, признак. Для проверки надежности измерительного инструмента, говорящего об его однородности (или гомогенности), используется так называемый метод «расщепления». Для этого чаще всего тест делят на две сопоставимые части (например, на четные и нечетные пункты), потом по каждой половине рассчитывают суммарные баллы и между двумя рядами баллов по испытуемым рассчитывают допустимые коэффициенты корреляции. Этот коэффициент называется коэффициентом внутренней согласованности («расщепления»). Если обе части теста измеряют одно и тоже свойство личности, то испытуемые получившие высокие оценки по нечетным пунктам должны также получить высокие оценки и по четным, а те, кто получил низкие оценки по нечетным пунктам должны получить низкие оценки и по четным пунктам, что снова выразится в высокой положительной корреляции. Методика признается надежной, когда полученный коэффициент не ниже +0,75 – +0,85. Лучшие по надежности тесты дают коэффициенты порядка +0,90 и более. Определение стабильности изучаемого признака. Необходимо еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретест. Он заключается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коффициенту корреляции между результатами первого и повторного обследования. Он будет свидетельствовать о сохранении или не сохранении каждым испытуемым своего порядкового места в выборке. Количественно постоянство метода оценки определяется коэффициентом ретестовой надежности (Анастази 1988). Коэффициенты надежности выше 0,70. Чем ближе величина коэффициента надежности К+1, тем более надежным является тест (то есть оценки испытуемых при повторном тестировании вплотную приближаются к оценкам при первом тестировании). При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованием. Трудно четко ответить на вопрос, какой срок можно считать оптимальным для повторного эксперимента. Только сам исследователь должен определить этот срок. Называются временные интервалы в несколько месяцев (но не более полугода). Определение константности, то есть относительной независимости результатов от личности экспериментатора. Надежность изменится, если испытуемые при новом экспериментаторе изменили свои порядковые места в выборке. Одни стали работать лучше, другие хуже, а третьи, так же как и при первом экспериментаторе. Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже + 0,80. К. М. Гуревич считает, что все показатели должны быть проверены, чтобы методика была надежной. Третий тип надежности основывается на корреляции между двумя сопоставимыми вариантами одного и того же теста (состоящими из аналогичных вопросов), проведенного на одной и той же группе испытуемых. Если по этим разным формам теста получены примерно одинаковые оценки, тест обладает надежностью параллельных форм. В таком случае положительная корреляция между двумя взаимозаменяемыми формами будет означать, что пункты обоих вариантов теста измеряют одно и тоже. Валидность. Вопрос о валидности методики решается лишь после того, как установлена достаточная ее надежность. Вопрос о валидности представляется одним из самых сложных. А Анастази: «Валидность теста – понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» (1982, С. 126). Валидность – это комплексная характеристика, включающая, с одной стороны сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее эффективность. Не существует единого универсального подхода к определению валидности. Проверка валидности методики называтся валидизацией. Валидность в первом ее понимании имеет отношение к самой методике, то есть это валидность измерительного инструмента. Такая проверка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прогматическая валидизация. При теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это собственно психологическая валидизация. На ранних стадиях развития тестологи, когда концепция валидности только складывалась, бывало интуитивное представление о том, что тест измеряет. 1. Методика признавалась валидной на том основании, что то, что она измеряет это просто очевидно. 2. Доказательство валидности основывалось на чувстве уверенности исследователя в том, что его метод позволяет «понять испытуемого». 3. Методика рассматривалась как валидная (то есть принималось утверждение, что какой-то тест измеряет такое-то качество) только потому, что ее создатель имеет «очень высокий авторитет», или потому, что та теория на основание которой строилась методика «очень хорошая». Но этого было недостаточно. Начались поиски научно-обоснованных доказательств. Провести теоретическую валидизацию методики – это показать, действительно ли методика измеряет именно то свойство, качество, которое она по замыслу исследователя, должна измерять. Например, тест интеллекта действительно ли он измеряет умственное развитие, а не какие-то другие особенности (например, личность, характер, знания и т. д.). Здесь проблемой является отношение между психическими явлениями и их показателями, посредством которых эти психические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают. Не сложно осуществить теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с известной доказанной валидностью. Наличие корреляции между новой и аналогичной старой методикой указывают на то, что разработанная методика измеряет то же психологическое качество, что и эталонная. Для проверки теоретической валидности важно тоже с одной стороны установить степень связи с родственной методикой (конвергентная валидность) и отсутствие этой связи с методиками, имеющими другое теоретическое основание (дискриминантная валидность Гуревич; дивергентная валидность Кэмпбелл-Фиске, 1959 г.) Важную роль для понимания того, что методика измеряет играет сопоставление ее показателей с практическими формами деятельности. Но здесь важно, чтобы методика была тщательно проработана в теоретическом плане, то есть чтобы имелась прочная обоснованная научная база. Прагматическая валидность. При прагматической валидности суть предмета измерения психологического свойства оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что «нечто», измеряемое методикой, имеет связь с определенными областями практики. Проверка прагматической валидности: выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной) и с ним сравниваются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической эффективности, действенности диагностической методики. Прагматическая валидизация осуществляет проверку методики с точки зрения ее практической эффективности, значимости, полезности. Ей придают значение, где встает вопрос отбора. Разработка и использование диагностических методик имеет смысл только тогда, когда есть обоснованное предположение, что измеряемое качество проявляется в определенных жизненных ситуациях, в определенных видах деятельности. Диагностику 20-30 годов Б. М. Теплов назвал «слепыми пробами». В США до начала 50-х годов тоже было так же. В разработке тестов призывали опираться не только на «голую» эмпирию и практику, но и на теоретическую концепцию. В настоящее время теоретико-прагматическая оценка валидности методик воспринимается как наиболее продуктивная. Для проведения прагматической валидизации методики используют независимый внешний критерий, то есть показатель проявления изучаемого свойства в повседневной жизни. Таким критерием может быть успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), производственные достижения (для методик профессиональной направленности), эффективность реальной деятельности – рисования, моделирования и т. д. (для тестов специальных способностей), субъективные оценки (для личностных тестов). Американские исследователи Тиффин и Маккормик (1968) проведя анализ используемых для доказательства валидности внешних критериев выделяют четыре типа: 1. Критерии исполнения. В их число могут входить такие, как количество выполненной работы, успеваемость, время затраченное на обучение, темп роста квалификации и т. д.); 2. Субъективные критерии. Они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения. Обычно субъективные критерии получают с помощью интервью, вопросников, анкет; 3. Физиологические критерии. Они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека. Замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т. д. 4. Критерии случайностей применяются, когда цель исследования касается, например проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям. Внешний критерий должен отвечать трем основным требованиям: он должен быть релевантным, свободным от помех (контаминации) и надежным. Под релевантностью имеется в виду смысловое соответствие между диагностическим инструментом и независимым жизненно важным критерием. Другими словами должна быть уверенность в том, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний критерий и диагностическая методика должны находится между собой во внутреннем смысловом соответствии, быть качественно однородными по психологической сущности. Если, например, тест измеряет индивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то в критерии нужно искать проявление именно этих умений. Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполезным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики. Требования свободы от контаминации вызываются тем, что, например, учебная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи «загрязнить» применяемый критерий, чтобы в какой-то мере избежать этого, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический характер. Так, например, производительность следует брать не по абсолютным значениям, а в отношении к средней производительности рабочих, работающих в аналогичных условиях. Когда говорят, что критерий должен иметь статистически достоверную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции. Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии много методик дисквалифицировано потому, что не удалось найти подходящего критерия для их проверки. Например у большей части анкет данные их валидности их валидности сомнительны, так как трудно найти адекватный внешний критерий, отвещающий тому, что они измеряют. Оценка валидности методики может носить количественный и качественный характер. Для вычисления количественного показателя – коэффициента валидности сопоставляются результаты, полученные при применении диагностической методики, с данными полученными по внешнему критерию у тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону. Испытуемых для расчета валидности практика показала, что их не должно быть меньше 50, однако лучше всего более 200. Какой должна быть величина коэффициента валидности? Отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20 – 0,30, средним – 0,30 – 0,50 и высоким – свыше 0,60. А. Анастази и К. М. Гуревич подчеркивают, что не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы. Зарубежные тестологи, занимающиеся профотбором признают, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40% решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии. Пример: почтальон должен уметь читать, но читает он с обычной скоростью или с очень большой скоростью – это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наиболее адекватным способом установления валидности может быть критерий различий. Другой случай: более высокий уровень свойства, чем требует профессия, служит помехой профессиональному успеху. Так Ф. Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда, то есть высокий уровень их умственного развития мешает им высокопроизводительно трудиться. Для вычисления коэффициента валидности в этом случае больше подошел бы дисперсионный анализ или вычисление корреляционных отношений. Ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель – клинические оценки. Это качественное описание сущности изучаемого свойства. Это приемы не опирающиеся на статистическую обработку. Существует несколько видов валидности, обусловленных особенностями диагностических методик, а также временным статусом внешнего критерия. Многие авторы (А. Анастази, 1982, Бурлачук Л. Ф., Морозов С. М., 1989, К. М. Гуревич, 1970 и др.) называют чаще всего следующие из них. Валидность «по содержанию». Этот прием применяется в основном в тестах достижения. Обычно в тесты достижений включается не весь материал, который прошли учащиеся, а какая-то его небольшая часть (3-4 вопроса). Можно ли быть уверенным в том, что правильные ответы на эти немногие вопросы свидетельствуют об усвоении всего материала? На это и должна ответить проверка валидности. Для этого подсчитываются коэффициенты корреляции между успешностью по тесту и успеваемостью по оценкам учителей (по данному материалу) Валидность по содержанию также подходит к критериально-ориентированным тестам. Иногда этот прием называют логической валидностью. Валидность «по одновременности» или текущая валидность, определяется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике. Другими словами собираются данные, относящиеся к настоящему времени: успеваемость в период испытания, производительность в этот же период и т. д. С ним коррелируют результаты успешности по тесту. «Предсказывающая» валидность (другое название – «прогнастическая» валидность) определяется по достаточно надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-нибудь оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик – предсказанию будущей успешности, но применить его очень трудно. Точность прогноза находится в обратной зависимости от времени заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем больше количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно. «Ретроспективная валидность». Она определяется на основе критерия отражающего событие или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики. Так для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения по диагностической пробе и т. д. у лиц с высокими и низкими в данный момент оценками. При приведении данных о валидности разработанной методики важно точно указывать, какой вид валидности имеется в виду (по содержанию, по одновременности и т. д.). Желательно также иметь сведения о численности и особенностях тндивидов, на которых проводилась валидизация. Такая информация позволяет пользующемуся методикой исследователю решить, насколько валиден этот прием для той группы, к которой он собирается его применить. Как и в случае с надежностью, необходимо помнить, что в одной выборке методика может обладать высокой валидностью, а в другой низкой. Поэтому, если исследователь планирует использовать методику на выборке испытуемых существенно отличающейся от той, на которой проверялась валидность ему необходимо заново провести такую проверку. Приводимый в руководстве коэффициент валидности применим только к группам испытуемых, подобным тем, на которых он определялся.
Дата добавления: 2015-06-04; Просмотров: 2593; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |