Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Необхідні відомості про шкали

Лекція 8

 

Перевагою первинних балів (і їх процентних виразів) є їх простота і - як наслідок - наочність. Тому вони часто використовуються на практиці як результуюча міра підготовленості учасників тестування. При цьому значення такого оцінювання гранично ясне: чим більше завдань тесту виконано вірно, тим вищий бал. Ще одна важлива перевага первинних балів полягає в тому, що більшому первинному балу відповідає дійсно і велика оцінка (але не істинне значення!) відповідного латентного параметра. Чому ж, проте, доцільно відмовитися від прозорих по значенню первинних балів в користь, на перший погляд, менш зрозумілих латентних параметрів? Річ у тім, що первинні бали є, образно кажучи, поняттями відносними, але не абсолютними. Наприклад, первинний бал учасника тестування істотно залежить від труднощів завдань тесту. На іншому тесті цей бал може виявитися зовсім іншим. Тому подальше використання первинного бала учасника тестування при ухваленні тих або інших рішень, строго кажучи, не може бути правомірним у відриві від самого тесту. При цьому трудність тесту при оцінюванні її первинними балами завдань, у свою чергу, залежить від рівня підготовленості всього контингенту учасників, що працювали над тестом.

Така ситуація, звичайно, незручна. Бажано мати якусь об'єктивну оцінку рівня підготовленості, що стабільно підтверджується на розумно складених тестах різної трудності. Така оцінка (бал) може служити основою, наприклад, для видачі учасникам тестування певного сертифікату і використана надалі безвідносно до того тесту, за результатами якого вона була одержана.

Виводити такий (абсолютний) бал набагато складніше, ніж підраховувати первинний бал. При цьому потрібні тести, спеціально складені з певного числа попередньо відкаліброваних завдань відомої трудності. Питання калібровки завдань і конструювання тестів складають окрему серйозну проблему. Зараз лише підкреслимо, що вивід об'єктивного балу слід розглядати як процес вимірювання об'єктивно існуючих латентних параметрів підготовленості учасників тестування.

Проте залежність первинного бала від труднощів завдань тесту - не єдиний недолік цієї найпростішої статистики. Інший недолік, по суті, витікає із вже вказаного першого і може бути коротко охарактеризований як нелінійність. При описі латентних параметрів указувалося, що, якщо, наприклад, рівень підготовленості одного учасника в k разів більше рівня підготовленості іншого учасника, то це співвідношення носить об'єктивний характер, тобто зберігається стосовно завдань різних труднощів. При вимірюванні латентних параметрів в логітах ця важлива властивість зберігається і формулюється в термінах різниці: застосовується до завдань різних труднощів. Що стосується первинних балів, то це не так: якщо один з учасників певного тестування набрав первинних балів, а інший учасник того ж тестування набрав первинних балів, то ні відношення :, ні різниця -інформативною величиною не є і напевно зміниться за наслідками тестування інших труднощів. Залежність між первинними балами і тими властивостями, які вони мають на увазі виміряти, нелінійна. При цьому, якщо, наприклад, тест складається з 50 завдань, то -=48–41 = 4 відповідає більшому. відмінності в рівні підготовки учасників, ніж та різниця -= 27 — 23 = 4 в середній частині дискретної шкали {0,1,2..., 50}. Таким чином, навіть в ідеальних умовах первинні бали є лише індикатором підготовленості учасників тестування, але не її мірою.

Слідством є труднощі інтерпретації математичних дій з первинними балами, необхідність в яких виникає, наприклад, при вивченні динаміки рівня підготовленості певного контингенту вчаться, регресійному аналізі, кореляційному аналізі і т.п. Див. також суперечність, пов'язану з дисперсією первинних балів і вказане в кінці розділу 2.3. Сказане примушує нас розглядати первинні бали як неостаточну - хоча і дуже корисну - інформацію і орієнтуватися надалі на аналіз латентних параметрів. Таке рішення тісно пов'язано з поняттям шкали вимірювання, яке стисло обговорюється в наступному розділі.

 

Почнемо із звичних шкал термометра, вольтметра або звичайної школярок лінійки. По положенню ртутного стовпчика, стрілки вольтметра ними штрихів лінійки ми взнаємо температуру, напругу або довжину, тобто вимірюємо певні характеристики певних об'єктів. Результатом вимірювання є число. В реальному житті не завжди вдається виконати вимірювання безпосередньо. Часто для вимірювання доступні лише деякі функції латентних параметрів об`єкта, що цікавлять нас, та, і оцінювання цих параметрів проводиться шляхом певної математичної обробки непрямих вимірювань. Прикладом такої ситуації є і обробка результатів тестування з метою оцінювання підготовленості учасників тестування або трудності завдань. Розкриття значення цих параметрів і розробка засобів і методів їх оптимального оцінювання і є основними об'єктами теорії моделювання і параметризації педагогічних тестів.

З математичної точки зору, процес вимірювання є відображення вимірюваного об'єкту на деяку множину дійсних чисел (або на деяку множину точок числової осі), названу шкалою. Проте шкала - це не просто певна множина - дискретна або така, що суцільно заповнює деякий проміжок. Важливою відмінною рисою шкали є набір тих співвідношень між її елементами (відліками), які мають змістовний сенс і розумне тлумачення в рамках цієї шкали.

Існує багато різних шкал, у тому числі, в педагогіці. Але нас цікавитимуть тільки чотири види.

1. Порядкові шкали, де результати вимірювань осмислено можна тільки порівнювати між собою. Прикладом може служити прийнята в школі система оцінок, що виставляються учням залежно від їх успіхів в навчанні. Із співвідношення відміток b< bДля учнів A і А можна лише укласти, що A вчиться гірше А. Якщо ж, наприклад, b- b=1, те твердження "успіхи А на 1 вище, ніж успіхи A " не пояснює, яка відмінність між учнями і, по суті, позбавлена значення. Те ж можна сказати і щодо шкали первинних балів (в абсолютному або відносному виразі) як для учасників тестування, так і для тестових завдань. Максимум, що можна зробити в рамках цих шкал, це упорядкувати учасників тестування або тестові завдання в порядку зростання (або зменшення) оцінок відповідних латентних параметрів.

Основними статистиками порядкових шкал є медіана, квантилі і рангова кореляція.

2. Шкала більш високого рівня називається інтервальною, або метричною.

Її відмінною рисою є наявність метрики. Це означає, що для будь-яких відліків bі b змістовний сенс мають не тільки співвідношення типу b< b або b= b, але і різниця b- bПри цьому b- bтрактується як відстань (між двома елементами метричної множини), виражена в певних одиницях і, головна, має осмислене тлумачення. Специфіка шкали полягає у відсутності нульового штриха, тобто у відсутності початку відліку. Тому метрична шкала чудово підходить для фіксації взаємного положення вимірюваних об'єктів (щодо один одного), але вона не в змозі інформувати про місцезнаходження об'єкту в деякій єдиній системі координат (видаленні від початку відліку). З математичної точки зору вказана ситуація означає, що на множині визначена метрика, одиниця вимірювання відстані, але немає поняття норми (визначено поняття "відстань", але немає поняття "довжина"). Наприклад, при будівництві гідроспоруд важливо вимірювати перевищення (різниці висот) між певними крапками (взаємне положення по висоті, що має, конкретне гідродинамічне трактування), але не самі висоти. Перевищення між двома крапками, що має висоти, наприклад 48 м і 45 м, має ті ж значення, що і перевищення між крапками з висотами 5 м і 2 м. Інакше різниці між первинними балами 48- 45 і 5-2 неможливо порівнювати осмислено.

У розділі 2.1 показано, що за такою ж, по суті, шкалою, по якій вимірюються перевищення, вимірюються і латентні параметри 6 і 5, по тільки одиницею вимірювання відстаней служать не метри, а логіти.

Таблиця 1

Різниця q — d Імовірність Р вірного розв’язку Інформація відповідає =pq Відносна ефективність у відсотках
  0,99 0,01  
  0,98 0,02  
.3 0,95 0,05  
  0,88 0,11  
  0,73 0,20  
  0,50 0,25  
-1 0,27 0,20  
-2 0,12 0,11  
-3 0,05 0,05  
-4 0,02 0,02  
-5 0,01 0,01  

Таблиця 1 указує співвідношення між різницями q — d в логітах і їх трактуванням у вигляді вірогідності (1.2.3) того, що завдання трудності 5 буде вірно виконано учасником з рівнем підготовленості q. Дані цієї таблиці ніяк не зміняться, якщо до величин q і d додати будь-яку константу. Останній стовпець таблиці 1 містить твори р ( I - р), які можна трактувати як кількість інформації про різницю q - d, яке міститься у відповідному елементі матриці відповідей. Зміст цього стовпця ми використовуємо пізніше, але вже зараз корисно відзначити, що інформативність відповідей залежить тільки від відстань |q - d| між q і d і помітно падає із збільшенням цього відстані. Так, одне завдання максимальної ефективності рівносильне (з точки зору підтримки однієї і тієї ж точності вимірювання) біля 25 завдань мінімальної ефективності.

3. Метрична (інтервальна) шкала, в якій визначений початок відліку, називається шкалою нормованою. В такій шкалі визначено не тільки поняття метрики, але і поняття норми, що дозволяє вимірювати "довжини" (тобто певне місцеположення щодо нуля, початку відліку). Тому в такій шкалі має сенс говорити не тільки про різниці твань q - d, але і про кожної величини q або d окремо. Така шкала є найбільш привабливої, а її побудова в теорії педагогічних вимірювань є певною революцією в цій теорії, оскільки дозволяє подолати основний її недолік - залежність оцінок одного індивідуума від використаного тесту і контингенту всіх учасників тестування або певної групи учасників, див. розділ 1.6. Подібні питання обговорюються в розділі 6.

4. Окрім перерахованих "кількісних" шкал, виділяють ще номінальну шкалу, засновану на якісних змінних, непіддатливих кількісному вимірюванню. Прикладом може служити учасників тестування, приналежність певному регіону Росії і т.п. Числа як і попередньо використовуються в номінальних шкалах, але служать вони всього лише для розрізнення окремих фактів, як би для їх назви. Тому ніяких змістовних співвідношень, окрім а — b або аb, між такими числами немає. При цьому вибір чисел замість реальних імен або інших способів ідентифікації, звичайно, не обов'язковий, оскільки не йдеться про те, на скільки відрізняються один від одного об'єкти або події, що володіють якою-небудь властивістю або ознакою.

Якщо ознак, що розрізняють об'єкти або події, тільки два, то номінальна шкала називається дихотомною. Прикладом можуть служити елементи матриці відповідей учасників тестування на завдання тесту: правильне виконання завдання ("так") позначається одиницею, помилкове ("ні") - нулем. При цьому різниці 1-0 не має ніякого значення, і самі цифри 1 і 0 можна замінити будь-якими іншими, наприклад, цифрами 9 і 5, символами "+", "-", словами "так", "ні", "залік", "незалік" і т.п.

Відповідні номінальним шкалам дані складаються із спостережуваних значень частот або табличних даних про число появ кожного з різновидів змінної, що вивчається. Для характеристики номінальних даних часто використовуються такі (дескриптивні) статистики, як пропорція і процентне відношення.

Використовування тієї або іншої шкали з перерахованих чотирьох накладає відбиток і на застосовність тих або інших методів математичної обробки, якій звичайно піддаються початкові дані. Наприклад, регресійний аналіз застосовний тільки по відношенню до кількісно виражених змінних, вимірюваних, але крайньому заходу, в метричній шкалі. Приблизно те ж саме можна сказати і щодо найвідоміших методів кореляційного аналізу. Сказане не означає, що результати тестування, віднесені до порядкових або навіть номінальних шкал, не можна аналізувати кількісно. Проте методи такого аналізу повинні бути, в загальному випадку, спеціальними і відмінними від тих, які використовуються для змінних в шкалах метричних і нормованих. Наприклад, навіть таку загальноприйняту оцінку центру розсіяння змінної як арифметична середня часто буває більш обґрунтованим замінити медіаною варіаційного ряду, якщо змінні віднесені до шкали порядковою, а не метричною.

Таким чином, змістовна інтерпретація результатів математичної обробки даних тестування може бути дана лише в тому випадку, якщо методи цієї обробки адекватні тим шкалам, до яких віднесена початкова інформація.


<== предыдущая лекция | следующая лекция ==>
Інший теоретичний матеріал | Тестування відносне і абсолютне
Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 335; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.017 сек.