Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Специфические задачи RM




Другую часть задач можно назвать специфическими для RM.

1. Расчёт вероятности правильного ответа испытуемых на задание теста.

Это задача вычислительного толка. Она решается посредством компьютерных программ при разработке тестов по системе RM и при применении математической теории педагогических измерений.

В модели Г.Раша принимается, что вероятность правильного ответа испытуемого на задание теста зависит только от двух показателей – от уровня подготовленности испытуемого и от уровня трудности задания. Чем больше эта разность, тем больше вероятность правильного ответа испытуемого с номером i на задание с номером j. Эта закономерность графически представлена на рис. 4.

Рис. 4 График зависимости вероятности правильного ответа от разности между уровнем подготовленности испытуемых и уровнем трудности заданий.

Если испытуемый знает больше, чем того требует задание, значение разности больше, а потому большей чем 0,5 становится и вероятность правильного ответа, что видно из соответствующего графика рис.4. При любых значениях qi и bj значения вероятности правильного ответа испытуемых с различной подготовкой на задания различного уровня трудности остаются в пределах от нуля до единицы, что достигается удачной структурой формулы (4).

 

2. Трансформация результатов тестирования.

Одно из ранее приведённых определений RM – это метод трансформации данных тестирования. Процесс трансформации тестовых результатов делится на две части и проходит в два этапа. Первая часть процесса называется на английском языке Item calibration. На русский язык иногда это переводят как «калибровка» или «калибрование» заданий (или шкалирование заданий по уровню их трудности). Результатом процесса трансформации исходных баллов тестирования являются шкала исходных значений трудности заданий проектируемого теста. Эти значения представлены в строке ln qj/pj табл. 1.

Второй процесс трансформации данных – это получаемая в RM шкала исходного уровня подготовленности испытуемых. Этот процесс называют измерением уровня подготовленности испытуемых. Здесь главное – трансформация исходных тестовых баллов в шкалу натуральных логарифмов, после чего, собственно, и появляется измерение. До начала процесса логарифмического преобразования исходные баллы тестирования не рассматриваются как результаты измерения.

В методе Г.Раша исходные значения тестовых баллов трансформируются в исходные же логиты уровня подготовленности испытуемых. Учебный пример такого рода трансформации результатов испытуемых представлен в учебной табл. 1.

Г.Раш отошёл от упрощённых оценок т.н. «уровня усвоения учебного материала», которые часто применяется при мониторинге в российских школах. Это процент правильных ответов испытуемых на задания. Процент получается умножением долей правильных ответов испытуемых столбца pi в правой стороне табл. 1 на 100. Получится процентная мера усвоения каждого испытуемого (здесь не представлена).

Вместо этой меры Г.Раш предложил в правой стороне табл. 1 брать, для испытуемых, отношение ln pi/qi, а в нижней части таблицы 1, для заданий, брать отношения ln qj/pj. Первое отношение можно назвать логарифмической оценкой исходного уровня подготовленности (qi), второе - логарифмической оценкой исходной меры трудности задания bj.

Тем самым Г. Раш сделал решающий шаг. Он ввёл общую логарифмическую меру измерения уровня подготовленности и уровня трудности задания, названную им, соответственно, логитом уровня подготовленности испытуемых и логитом трудности заданий.

Значения исходных логитов представлены в табл. 1

Далее проводится второй этап шкалирования значений уровня трудности заданий и уровня подготовленности испытуемых. Там стандартизуются шкалы исходных логитов сопоставимыми значениями средних арифметических и стандартных отклонений. Только в этом случае возникает полная соизмеримость значений обеих переменных величин – уровня подготовленности испытуемых и уровня трудности заданий.

Табл. 1 Пример таблицы тестовых результатов.

Х1 Х2 Х3 Х4 Х5 Х6 Х7 Х8 Х9 Х10 Yi pi qi pi/qi ln pi/qi
1.                       .90 .10   2.20
2.                       .80 .20   1.39
3.                       .70 .30 2.33 .85
4.                       .60 .40 1.50 .40
5.                       .60 .40 1.50 .40
6.                       .50 .50 1.00  
7.                       .50 .50 1.00  
8.                       .50 .50 1.00  
9.                       .40 .60 .66 -.42
10.                       .40 .60 .66 -.42
11.                       .30 .70 .43 -.84
12.                       .20 .80 .25 -1.39
13.                       .10 .90 .11 -2.21
Rj                              
Wj                              
рj .923 .846 .692 .538 .462 .462 .385 .308 .231 .154          
qj .077 .154 .308 .462 .538 .538 .615 .692 .769 .846          
pjqj .071 .130 .213 .248 .248 .248 .236 .213 .178 .130          
qj/pj .083 .182 .445 .859 1.164 1.164 1.597 2.246 3.329 5.493          
ln qj/pj -2.489 -1.704 -.810 -.152 .152 .152 .468 .809 1.202 1.703          
                                 

В этой матрице рассчитывают:

рj - долю правильных ответов испытуемого i, по всем заданиям теста;

qi - доля неправильных ответов того же испытуемого i, по всем заданиям теста;

рi /qi - потенциал подготовленности испытуемого i;

ln рi/qi G.Rasch называет логитом подготовленности;

ln qj/pj им же названа логитом трудности задания.

 

3. Равномерность возрастания меры трудности заданий.

Решение этой задачи находится в соответствии с данным выше определением теста, как системы заданий равномерно возрастающей трудности. Раньше этот уточняющий момент в определении теста не делался. В итоге задания некоторых т.н. «тестов» подбирались иногда с заметными «провалами» между заданиями, что сильно ухудшало метрические свойства метода; заметно снижалась точность измерений и дифференцирующая способность тестовых результатов. Можно с сожалением отметить, что ряд российских практиков и авторов этот критерий либо не признают, либо обходят стороной, как несущественный. Например, вместо понятия «система заданий» используют словосочетание «совокупность» или «множество заданий», как будто между ними нет разницы.

В педагогических измерениях по модели Г.Раша графики заданий теста отличаются только значениями проекций точек перегиба функций на ось абсцисс; чем труднее задание, тем правее располагается график относительно оси абсцисс. Трудность рядом стоящих заданий теста не должна отличаться более чем на 0,5 логита. Иначе на шкале образуются провалы. Расстояние в 0,5 логита – это довольно либеральное требование. Лучше, когда расстояние между заданиями бывает не более чем 0,25 логита трудности. Это требование можно назвать условием достаточной плотности расположения числа заданий на шкале.

Обоснование вывода о равномерности расположения заданий теста, а следовательно и пригодности предлагаемой системы заданий для измерения уровня подготовленности испытуемых на данной переменной величине нуждается в эмпирических фактах. В качестве таких фактов в RM используется построение на одной плоскости графиков всех заданий теста. Для заданий учебной матрицы табл. 1 графики представлены на рис. 5.

Рис. 5. Графики всех заданий, построенных по данным учебной матрицы табл. 1

Из рис. 5 видно, что для достижения качественных измерений в учебном тесте табл. 1 не хватает заданий соответствующего уровня трудности между вторым и третьим, третьим и четвёртым, восьмым и девятым заданиями.

Как видно на рис. 4, графики всех заданий имеет одну и ту же крутизну, что означает, что их дифференцирующая способность принимается равной. Хотя при использовании других моделей выявляются существенные отличия по крутизне заданий, в RM, тем не менее, значение параметра крутизны каждого задания принимается равным единице. Естественно поставить вопрос - почему в RM вводится столь странная унификация заданий по уровню их дифференцирующей способности?

Г.Раш полагал, что только в таком случае вероятность правильного ответа испытуемого будет зависеть только от значения θ и от меры трудности задания. И не будет зависеть от других свойств заданий и от других факторов. С этим утверждением мало кто соглашался, но результат превзошёл ожидания. Модель оказалась работоспособной.

4.Соответствие тестового задания модели измерения.

На рис. 6 представлен график первого, наиболее лёгкого задания учебной матрицы табл. 1. На рисунке видно вполне приемлемое совпадение теоретических и эмпирических точек; это доли правильных ответов слабой, средней и сильной части группы испытуемых. Об этом же свидетельствует и низкое значение отклонений эмпирических точек от графика.

Рис. 6. График задания, совместимого с моделью Г.Раша.

В классической (статистической) теории педагогических измерений это задание было бы однозначно отбраковано по критерию очень низкой корреляции ответов испытуемых на это задание с суммой баллов проектируемого теста (r1t.= 0,132).

 

Табл. 2. Коэффициенты корреляции ответов

на задания учебного теста табл. 1 с суммой баллов.

Номера заданий Значения коэф. корр.
  0,132
  0,488
  0,305
  0,495
  0,495
  0,707
  0,652
  0,534
  0,752
  0,293

Теперь полезно посмотреть на пример плохого соответствия задания № 3 учебной матрицы табл. 1 требованиям модели Г.Раша.

Рис. 7. График задания № 3, не соответствующего модели Г.Раша

Соотношение эмпирических точек и графика задания на рис. 7. показывает, что это задание не годится ни для оценки испытуемых низкого уровня подготовленности, ни для оценки испытуемых и высокого уровня подготовленности. Слабо подготовленные испытуемые отвечает на него лучше, чем прогнозирует вероятностная модель, а хорошо подготовленные испытуемые отвечают хуже, чем прогнозируется по модели. Это задание, скорее всего, имеет дефект в композиции задания; его правильно понимают только испытуемые среднего уровня подготовленности.

О неадекватности задания свидетельствует относительно большое значение отклонений точек от графика. Поэтому это задание нельзя отнести к числу соответствующих модели Г. Раша, даже если по минимальному значению критерия пригодности (хи-квадрат) оно считается подходящим. Качественный тест такое задание может только испортить.

Полезно заметить, что хотя коэффициент корреляции этого задания выше (r3t = 0,305), чем у первого задания, соответствие этого задания оказалась ниже. В классической теории педагогических измерений это задание могло бы пройти в число тестовых, если использовать обычный там порог значений r > 0,300.

5. Совместимость тестовых заданий.

Понятие «совместимость тестовых заданий» выражает идею возможности создать тест из совместимых между собой заданий. Наиболее часто применяемым показателем совместимости отдельного задания и общей совмести всех заданий, образующих тест как систему заданий возрастающей трудности, является значение хи-квадрат, которое для случая учебной матрицы в табл. 1 равно 0,789. Чем больше значение хи-квадрат, делённое на число т.н. «степеней свободы», тем лучше совместимость.

В данном случае совместимость, по установившейся практике, считается более чем удовлетворительной. Хорошая совместимость появляется тогда, когда нет проблемных заданий. Совместимость становится отличной, если все задания проектируемого теста задания не только свободны от дефектов, но и наилучшим образом соответствуют требованиям модели Г. Раша.

6. Достаточность вариации и размаха заданий по уровню их трудности.

В тесте должны быть задания равномерно возрастающей трудности. Это правило позволяет обеспечить варьирование заданий по уровню трудности. Разность между значением самого трудного и самого лёгкого задания называется размахом. В RM в качестве нормы принимаются пределы вариации значений трудности заданий в логитах от -3 до +3. Соответственно приемлемая мера размаха равна шести логитам.

Хорошо известно, что в одном тесте нет, и не может быть одинаковых заданий: они все отличаются хотя бы по одной из характеристик заданий, среди которых наиболее главная для теста, как формальной системы - мера трудности заданий. Нет метрического смысла иметь в тесте два и большее число заданий одинакового уровня трудности.

§5.7. Вычисление θi и βj из эмпирических данных

Рассмотрим процедуру вычисления θi и βj из эмпирических данных. В качестве исходных данных возьмем матрицу результатов.

Таблица 3. Редуцированная бинарная матрица 10х8.

новые                
новые старые                
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   

 

Бинарная матрица имеет характерную особенность - почти все нули и единицы распределились относительно диагонали, идущей из левого нижнего угла в правый

Дальнейшие расчеты выполним, следуя М.Челышковой.

Сначала необходимо вычислить доли верных pi и неверных qi =1- pi ответов испытуемых , где Xi - индивидуальный балл испытуемого, M - количество заданий в тесте.

Например, для 2-го испытуемого имеем

, q2 = 1 - p2 = 1 - 0,75 = 0,25.

Далее вычисляем начальные значения уровня подготовленности испытуемых по формуле

Для 2-го испытуемого имеем

Аналогичные расчеты выполняются для всех десяти испытуемых (таблица 3) и заносятся в таблицу 4.

Таблица 4. Начальные значения уровня подготовленности испытуемых

i Xi pi qi qi0 (qi0)2
    0,875 0,125 1,946 3,786
    0,750 0,250 1,099 1,207
    0,750 0,250 1,099 1,207
    0,750 0,250 1,099 1,207
    0,500 0,500 0,000  
    0,375 0,625 -0,511 0,261
    0,250 0,750 -1,099 1,207
    0,250 0,750 -1,099 1,207
    0,125 0,875 -1,946 3,786
    0,125 0,875 -1,946 3,786
        å (qi0)2 = 17,655

 

Далее вычисляем начальное значение трудности заданий βj.

Здесь j пробегает значения от 1 до M, где M -количество испытуемых. В качестве примера рассчитаем начальное значение трудности 2-го задания. Величины pj и qj рассчитаны нами ранее и приведены в таблице 1.

Расчеты для всех восьми заданий сведены в таблицу 5.

 

Таблица 5. Начальные значения трудности заданий

j Rj pi qi bj0 (bj0)2
    0,700 0,300 -0,847 0,718
    0,700 0,300 -0,847 0,718
    0,600 0,400 -0,405 0,164
    0,500 0,500 0,000  
    0,500 0,500 0,000  
    0,400 0,600 0,405 0,164
    0,200 0,800 1,386 1,922
    0,100 0,900 2,197 4,828
        å (bj0)2 = 8,514

Теперь мы можем вычислить средние значения уровня подготовленности испытуемых и трудности заданий.

В таблицах 4 и 5 мы имеем значения параметров на разных интервальных шкалах. Нам надо свести их в единую шкалу стандартных оценок. Для этого необходимо вычислить дисперсии Sθ и Sβ, используя данные из таблиц.

Далее вычисляем угловые коэффициенты

Наконец, мы можем записать оценки параметров θ и β на единой интервальной шкале.

Для нашего примера получим

θi = 1,911· θi 0 + 0,236 βj =2,284· βj 0 - 0,136

Все результаты сведены в таблицы 6 и 7 (второй столбец).

Таблица 6. Расчетные параметры для уровня подготовленности испытуемых

i θi SEi) θi
  3,955 2,043 2,436
  2,335 1,560 1,365
  2,335 1,560 1,365
  2,335 1,560 0,523
  0,236 1,351 -0,157
  -0,740 1,396 -0,781
  -1,863 1,560 -1,431
  -1,863 1,560 -1,431
  -3,483 2,043 -2,217
  -3,483 2,043 -2,217

 

Таблица 7. Расчетные параметры для трудности заданий теста

j βj SEj) βj
  -2,071 1,576 -1,545
  -2,071 1,576 -1,669
  -1,062 1,474 -0,603
  -0,136 1,445 -0,502
  -0,136 1,445 -0,256
  0,790 1,474 0,102
  3,030 1,806 1,854
  4,882 2,408 2,620
       

 

Из таблицы 7 следует, что

То есть, заданий с положительными βj больше, чем с отрицательными. Данный тест не сбалансированный, он содержит больше трудных заданий, чем легких.

Рекомендуется стремиться к тому, чтобы Σ β было близко к нулю.

 

Нам осталось вычислить стандартные ошибки измерения SEi) и SEj) для θi. и βj

 

Например, для первого испытуемого получим

Для первого задания стандартная ошибка равна

Вычисленные значения стандартных ошибок приведены в таблицах 6 и 7 (третий столбец).

 




Поделиться с друзьями:


Дата добавления: 2014-01-03; Просмотров: 342; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.085 сек.