Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Статистическая норма и социокультурный норматив. Репрезентативность тестовых норм




 

Социокультурный норматив - это уровень свойства, который явно или неявно считается в обществе необходимым. Допустимо сделать одну ошибку-описку на страницу текста, но недопустимо - 10 ошибок. Если средний выпускник школы делает больше 1 ошибки, то это не значит, что статистическая норма должна "тянуть" вниз социокультурный норматив. Очевидно, что всякое обучение должно быть ориентировано на нормативы, а не на статистические нормы.

Статистическая норма - это средний диапазон значений на шкале измеряемого свойства (область, прилегающая к центральной линии на профиле). Нормой здесь считается близость значения свойства к тому уровню, который характеризует
статистически среднего индивида. Значимое отклонение от нормы в этом случае (выход за пределы среднего диапазона) называется акцентуацией, а данная личностная черта называется "акцентуированной". Чем сильнее выражено это отклонение, тем более сильной считается акцентуация, вплоть до появления "патохарактерологических" признаков.

Результаты психологических тестов чаще всего интерпретируются сопоставлением их с нормами выполнения теста в выборке стандартизации. Нормы - количественные или качественные критерии оценки результатов теста, позволяющие определить уровень достижений или выраженность диагностируемых качеств. Нормы устанавливаются эмпирически, сообразно тому, как выполняет задания теста репрезентативная группа испытуемых. После этого соотнесением первичного индивидуального результата с распределением показателей, полученных в выборке стандартизации, выясняется, какое место он занимает в этом определении. О нормах можно говорить только относительно конкретного «измерительного инструмента», т.е. теста, с помощью которого они были получены. Все тесты построены таким образом, чтобы ни один испытуемый не набрал максимального отчества баллов => обеспечение дифференциации.

Чтобы определить более точно положение результатов обследуемого относительно выборки стандартизации, полученный результат переводится в некую относительную меру. Таким образом преобразованные результаты (производные показатели) служат двум целям. Во - первых, они указывают положение обследуемого относительно нормативной выборки, что позволяет оценить его выполнение теста на фоне выполнения других. Во - вторых, они позволяют непосредственно сравнивать данные, полученные по разным тестам.

Стенайны: распределение результатов по 9 уровням (по нормальному распределению).

I - 4%, П - 7%, Ш - 12%, IV - 17%, V - 20%, VI - 17%, VII - 12%, VIII - 7%, IX - 4% крайние группы (1 и 2, 8 и 9 являются по идее однородными), (тест Амтхауэра)

Стены: распределение по 10 уровням (16PF Кеттелла)

IQ - коэффициент интеллекта

Т - шкала Маккола (ММРI)

Процентиль - это процентная доля индивидов из выборки стандартизации, первичный результат которых ниже данного первичного показателя. Например, если 28% людей правильно решают 15 задач в тесте на арифметическое мышление, то первичному показателю 15 соответствует 28-й процентиль (P2s)- Процентили указывают на относительное положение индивида в выборке стандартизации. 50-й процентиль (Рх) соответствует медиане - одному из упомянутых выше показателей центральной тенденции. Процентили свыше 50 представляют показатели выше среднего, а те, которые лежат ниже 50, - сравнительно низкие показатели, 25 - й и 75 - й процентили известны также под названием 1 - го и 3 - го квартилей (QtH Q2), поскольку они выделяют нижнюю и верхнюю четверти распределения. Как и медиана, они удобны для описания распределения показателей и сравнения с другими распределениями.

Процентильные показатели обладают рядом достоинств. Их легко рассчитать и понять даже сравнительно неподготовленному человеку. Их применение достаточно универсально, они одинаково применимы как к детям, так и взрослым и подходят к любому виду теста, измеряет он способности или свойства личности.

Главный недостаток процентилей связан с неравенством их как единиц измерения, особенно на краях распределения.

Виды норм: Статистические нормы: нормы, полученные при стандартизации методики, проведенной на определенной сборке. В качестве эталона выступает сам тест.

Абсолютные нормы: в роли шкалы для вынесения диагноза выступает сама шкала сырых баллов (например, количество {ученных иностранных слов).

Критериальные нормы: показатель сравнивается с внешним критерием (например, с экспертной оценкой, школьными отметками) => построение шкалы.

Стандартные показатели. Все большее использование в современных тестах стандартных показателей объясняется их пригодностью во многих отношениях. Такие показатели выражают отклонение индивидуального результата от средней нормы в птицах, пропорциональных стандартному отклонению распределения.

Любая норма, в чем бы она ни выражалась, ограничивается конкретной совокупностью людей, для которой она вырабатывалась. Пользующийся тестом всегда должен знать способ, которым устанавливались нормы теста. Применительно к психологическим тестам они никоим образом не абсолютны, не универсальны и не постоянны. Они просто отражают выполнение ста испытуемыми из выборки стандартизации. При формировании такой выборки обычно стремятся получить репрезентативный образ популяции, на которую ориентирован тест В статистике принято различать выборку и популяцию. Первый из этих двух терминов обозначает группу, которая реально подвергается тестированию. Второй относится к более широкой, но имеющей тот же став группе людей, из которой формируется выборка

Согласование норм. Один из подходов к решению проблемы сопоставимости тестов заключается в составлении таблиц эквивалентности показателей разных тестов Такие таблицы могут быть составлены эквипроцентильным методом, и тогда показатели считаются эквивалентными, если они имеют равные процентили в данной группе. Например, если 80%-ный процентиль в одной и той же группе соответствуетIQ 115 по тесту А и IQ 120 по тесту В, то IQ = 115 для теста А считается эквивалентным IQ 120 для теста В.

Специфические нормы. Стандартизация тестов для более узкой популяции, выбираемой сообразно специфическим целям каждого теста. В таких случаях границы нормативной популяции должны быть четко определены и приведены вместе с нормами. Так, можно указать, что данные нормы относятся к управленческому персоналу крупных фирм или к первокурсникам технических колледжей. Для многих целей тестирования желательно иметь достаточно специализированные нормы.

Локальные нормы, которые нередко разрабатываются пользователями тестов для конкретных социальных единиц. Группы, к которым относятся такие нормы, еще более специфичны, чем даже обсуждавшиеся выше подгруппы (организация, школа, ВУЗ).

 

Обязательным условием использования любого психодиагностического инструментария в практике педагогической диагностики является проверка его на соответствие общепринятым требованиям тестирования:

- должны быть сформулированы цели, предмет и область применения методики;

- процедура проведения должна быть задана в виде однозначного алгоритма, пригодного для передачи педагогу, не имеющему специальных психологических знаний;

- процедура обработки должна включать статистически обоснованные методы подсчета и стандартизации тестового балла;

- тестовые шкалы должны быть проверены на надежность; валидность и репрезентативность;

- ведение банка данных, собранных по тесту, с целью проведения периодической коррекции всех стандартов методики.

Основными критериями качества теста являются надежность, валидность и репрезентативность. Под надежностью понимается устойчивость, или согласованность результатов тестов, получаемых при повторном его применении к тем же испытуемым в различные моменты времени, при использовании разных наборов эквивалентных заданий или же при изменении других условий обследования. В широком смысле надежность теста показывает, в какой степени индивидуальные различия в тестовых показателях могут быть отнесены на счет «истинных» различий в изучаемых свойствах, а в какой могут быть приписаны случайным ошибкам. Существует достаточно много разновидностей тестовой надежности, практически столько же, сколько и условий способных повлиять на показатели теста. А. Анастази выделяет ретестовую надежность (надежность результатов теста при повторном его проведении); надежность взаимозаменяемых форм теста; надежность эквивалентных форм теста; надежность по Кьюдеру – Ричардсону (оценка согласованности ответов по всем заданиям теста) [2].

Критерий валидности теста свидетельствует о том, что тест измеряет и насколько хорошо он это делает. Валидность любого теста говорит о том, какие выводы можно сделать из полученных по нему показателей. Установить, какое свойство измеряет конкретный тест, можно на основе изучения объективной информации и эмпирических операций, применявшихся при установлении его валидности. Выделяют три основных вида валидности — содержательную, эмпирическую (критериальную) и конструктную (концептуальную). Содержательная валидность характеризует степень соответствия содержания заданий теста измеряемой области психических свойств. Показатель эмпирической валидности выражается количественной мерой статистической связи между результатами тестирования и внешними по отношению к ним критериям оценки диагностируемого свойства. В качестве таких критериев могут выступать экспертные оценки, экспериментальные и «жизненные» критерии. Конструктная валидность — это валидность теста по отношению к психологическому концепту — научному понятию (или их совокупности) об измеряемом психическом свойстве (состоянии). Она выражает степень обоснованности индивидуальных различий, обнаруживаемых тестом, с позиций современного теоретического знания [2].

Под репрезентативностью тестовых норм понимают соответствие граничных точек на распределении тестовых баллов, полученных на выборке стандартизации, аналогичным граничным точкам, которые получаются на популяции проведения теста - на множестве испытуемых, для которых предназначен тест. Обычно при получении кривой нормального распределения делается вывод о том, что тестовые нормы обладают репрезентативностью. Согласно нормальному закону распределения наибольшее число случаев скапливается вокруг центральной точки кривой и постепенно падает к ее краям. Кривая симметрична и имеет единственный максимум в центре. Большинство распределений человеческих признаков – от роста и веса до способностей и свойств личности – приближаются к нормальной кривой [2]. Но нормальность не является необходимым условием репрезентативности. Репрезентативность тестовых норм может достигаться и в отсутствие нормального распределения.

 

6. Понятие о валидности и надежности. Виды валидности.

Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. К числу основных критериев оценки психодиагностических методик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк, Е. Хаген и др.). Ими были разработаны формально-логический и математико-статистический аппарат (прежде всего корреляционный метод и фактический анализ) обоснования степени соответствия методик отмеченным критериям.

В традиционной тестологии термин «надёжность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых.

Надёжность методики – это критерий, который говорит о точности психологических измерений, то есть позволяет судить о том, насколько внушают доверие полученные результаты.

Это согласованность результатов тестирования испытуемых в разные моменты времени, при первичном и вторичном тестировании и с использованием разных по эквивалентности, по содержанию заданий. Надежность характеризует тесты свойств, но не состояний. Свойства:

1. Воспроизводимость рез-тов исследования.

2. Точность измерения.

3. Устойчивость результатов.

Степень надёжности методик зависит от многих причин. Среди негативных факторов наиболее часто называются следующие:

1. нестабильность диагностируемого свойства;

2. несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечётко сформулированы указания по предъявлению методики испытуемым и т.д.);

3. меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещённость помещения, наличие или отсутствие посторонних шумов и т.д.);

4. различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);

5. колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом – утомление и т.д.);

6. элементы субъективности в способах оценки и интерпретации результатов (когда ведётся протоколирование ответов испытуемых, оценивают ответы по степени полноты, оригинальности и т.д.).

Одним из важнейших средств повышения надежности методики является единообразие процедуры обследования, его строгая регламентация: одинаковая обстановка, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми и так далее.

На характеристику надёжности методик большое влияние оказывает исследуемая выборка. Она может, как снижать, так и завышать этот показатель, например, надежность, может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. Поэтому в руководстве обычно делается описание выборки, на котором определялась надёжность методики.

В настоящее время надежность все чаще определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п.

Разновидностей надёжности методик так же много, как и условий, влияющих на результаты диагностических испытаний. Так как все виды надёжности отражают степень согласованности двух независимо полученных рядов показателей, то математико-статистический приём, с помощью которого устанавливается надёжность методики, - это корреляции (по Пирсону или Спирмену). Надёжность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот.

К.М. Гуревич предложил толковать надёжность как:

1. надёжность самого измерительного инструмента (коэффициент надежности);

2. стабильность изучаемого признака (коэффициент стабильности);

3. константность, т.е. относительную независимость результатов от Личности экспериментатора (коэффициент константности).

Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надёжности; показатель, характеризующий стабильность измеряемого свойства, - коэффициентом стабильности; а показатель оценки влияния Личности экспериментатора – коэффициентом константности. Именно в таком порядке рекомендуется осуществлять проверку методики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности. (Надёжность: ретестовая, параллельных форм, частей тела, по внутренней согласованности, факторно-дисперсионая).

Определение надежности измерительного инструмента. От того как составлена методика, насколько правильно подобраны задания, насколько она однородна зависит точность, объективность измерения.

Для проверки надежности измерительного инструмента, говорящего о его однородности (гомогенности) используют метод расщепления. Задания делят на четные и нечетные (необходимо выполнение всех заданий), а затем результаты коррелируются между собой. Если методика однородна, то большой разницы в успешности по этим половинам не будет, коэффициент будет высоким. Можно сравнивать по частям, но лучше по четным и нечетным, т.к. этот способ не зависит от тренировки, утомления и т.д.

Методика надежна, если коэффициент не ниже 0,75 – 0,85, лучше 0,90 и выше.

Определение стабильности изучаемого признака. Также необходимо установить насколько устойчив, стабилен признак, который исследователь намерен измерять. Признак со временем может меняться, но колебания его не должны иметь непредсказуемый характер.

Для проверки используется прием, который называется тест-ретест. Он заключается в повторном обследовании испытуемых с помощью этой же методики. О стабильности судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или не сохранении каждым испытуемым своего порядкового номера в выборке.

На степень устойчивости влияет разнообразие фактора. Необходимо соблюдать единообразие процедуры обследования.

При определении стабильности признака большое значение имеет промежуток времени между 1 и 2 обследованиями. Чем короче этот промежуток, тем больше шансов, что этот признак сохраняет уровень первого испытания. Целесообразно проводить повторное тестирование через короткий срок после тестирования. Экспериментатор сам устанавливает этот срок, но чаще в психологической литературе указывают на интервал от нескольких месяцев (но не более полугода). Вопрос о стабильности измеряемого свойства решается не всегда единообразно. Решение зависит от сущности диагностируемого признака.

Если измеряемое свойство уже сформировано, то коэффициент должен быть не ниже 0,80.

Определение константности, т.е. относительная независимость результатов от Личности экспериментатора. Так как методика разрабатывается для дальнейшего использования ее другими психодиагностами, необходимо определить в какой мере ее результаты поддаются влиянию личности экспериментатора. Коэффициент константности определяется путем корреляции результатов двух опытов, проводимых на одной и той же выборке, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Вопрос о валидности решается после того, как установлена надежность, так как ненадежная методика не может быть валидной.

Валидность теста – понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает (А. Анастази). Валидность по своей сути – это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова её действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Валидность – соответствие конкретного исследования принятым стандартам (безупречному эксперименту).

Валидность в первом ее понимании имеет отношение к самой методике, т.е. это валидность измерительного инструмента. Такая про-верка называется теоретической валидизацией. Валидность во втором ее понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

При теоретической валидизации исследователя интересует само свойство, измеряемое методикой.

Так как для определения теоретической валидизации тяжело найти какой-нибудь независимый критерий, лежащий вне методики, и поэтому раньше принимались на веру голословные утверждения о валидности этой методики. Так как теоретическая валидизация направлена на доказательство того, что методика измеряет именно свойство, которое она должна измерить. Для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, по средствам которой эти психологические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают.

Не столь сложно осуществить теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с известной, доказанной валидностью. Наличие корреляции между новой и аналогичной старой методиками указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная.

Для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность), а с другой – отсутствие этой связи с методиками, имеющими другое теоретической основание (дискриминантная валидность).

Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами Деятельности. Важно чтобы методика была проработана в теоретическом плане.

Прагматическая валидизация

Проверяется практическая эффективность, значимость, полезность методики, так как методикой можно пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных видах Деятельности.

Для проверки прагматической валидности используется независимый внешний критерий – показатель проявления изучаемого свойства в повседневной жизни. В качестве такого критерия могут выступать успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), производственные достижения (для методик профессиональной направленности), эффективность реальной Деятельности – рисования, моделирования и так далее (для тестов специальных способностей), субъективные оценки (для тестов Личности).

Американские исследователи Тиффин и Маккормик выделили 4-е типа внешнего критерия:

1. Критерий исполнения (количество выполняемой работы, успеваемость, время, темп роста квалификации).

2. Субъективные критерии (включают различные виды ответов, которые отражают отношение человека к чему-либо, его мнения, взгляды).

3. Физиологический критерий (используется при изучении влияния внешней среды, влияющей на организм и психику).

4. Критерий случайности (например, когда цель касается проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Внешний критерий должен обладать 3 основными требованиями:

1. Должен быть релевантным, то есть должна быть уверенность, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряет диагностическая методика. Внешний критерий и диагностическая модель должны находиться во внутреннем смысловом соответствии.

2. Должен быть свободным от помех (контаминации). Следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях.

3. Должен быть надежен. Постоянство и устойчивость исследуемой функции.

Оценка валидности методики может носить количественный и качественный характер.

Для вычисления количественного показателя (коэффициента валидности) сопоставляются результаты, полученные при применении диагностических методик, с данными тех же лиц, полученные по внешнему критерию. Используются разные виды линейной корреляции (по Спирмену, по Пирсену).

Качественное описание сущности измеряемого свойства. Здесь не используют статистическую обработку.

Существуют несколько видов валидности, обусловленных особенностями диагностической методики, а также временным статусом внешнего критерия:

1. Валидность «по содержанию» (используется в тестах достижения): 3 – 4 вопроса из большой темы могут показать истинные знания ученика. Для этого результаты диагностики сравнивают с экспертными оценками учителя.

2. Валидность «по одновременности» или текущая валидность – собираются данные, относящиеся к настоящему времени: успеваемость, производительность и т.п. С ними коррелируют результаты успешности по тесту.

3. «Предсказывающая» валидность («прогностическая»). Определяется по надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования.

4. «Ретроспективная» валидность. Определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики.

7. Методы обработки данных в психодиагностике

8. Проективные методы изучения личности. Классификация проективных методик.




Поделиться с друзьями:


Дата добавления: 2015-06-04; Просмотров: 3228; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.054 сек.