Репрезентативность

Числовий характеристикою вибірки, як правило, не вимагає обчислень, є так звана мода. Модою називають кількісне значення досліджуваної ознаки, найбільш часто зустрічається у вибірці. Для симетричних розподілів ознак, в тому числі для нормального розподілу, значення моди збігається зі значеннями середнього і медіани. Для інших типів розподілі, несиметричних, це не характерно. Наприклад, у послідовності значень ознак 1, 2, 5, 2, 4, 2, 6, 7, 2 модою є значення 2, так як воно зустрічається частіше за інших значень - чотири рази.

1) У тому випадку, коли всі значення у вибірці зустрічаються однаково часто, прийнято вважати, що цей вибірковий ряд не має моди. Наприклад: 5, 5, 6, 6, 7, 7 - у цій вибірці моди немає.

2) Коли два сусідніх (суміжних) значення мають однакову частоту і їх частота більше частот будь-яких інших значень, мода обчислюється як середнє арифметичне цих двох значень. Наприклад, у вибірці 1, 2, 2, 2, 5, 5, 5, 6 частоти поруч розташованих значень 2 та 5 збігаються і дорівнюють 3. Ця частота більше, ніж частота інших значень 1 та 6 (у яких вона дорівнює 1). Отже, модою цього ряду буде величина = 3,5

3) Якщо два несуміжні (не сусідніх) значення у вибірці мають рівні частоти, які більше частот будь-якого іншого значення, то виділяють дві моди. Наприклад, у ряді 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 модами є значення 11 і 14. У такому випадку говорять, що вибірка є бімодальною.

Можуть існувати і так звані мультимодальні розподілу, що мають більше двох вершин (мод).

4) Якщо мода оцінюється по безлічі згрупованих даних, то для знаходження моди необхідно визначити групу з найбільшою частотою ознаки. Ця група називається модальної групою.

Медіаною називається значення досліджуваного ознаки, яке ділить вибірку, впорядковану за величиною даної ознаки, навпіл. Праворуч і ліворуч від медіани в упорядкованому ряду залишається за однаковою кількістю ознак. Наприклад, для вибірки 2, 3, 4, 4, 5, 6, 8, 7, 9 медіаною буде значення 5, так як зліва і праворуч від нього залишається по чотири показника. Якщо ряд включає в себе парне число ознак, то медіаною буде середнє, взяте як полусумма величин двох центральних значень ряду. Для наступного ряду 0, 1, 1, 2, 3, 4, 5, 5, 6, 7 медіана буде дорівнює 3,5.

Знання медіани корисно для того, щоб встановити, чи є розподіл приватних значень вивченого ознаки симетричним і наближається до так званого нормальному розподілу. Середня і медіана для нормального розподілу зазвичай збігаються або дуже мало відрізняються один від одного. Якщо вибіркове розподіл ознак нормально, то до нього можна застосовувати методи вторинних статистичних розрахунків, засновані на нормальному розподілі даних. В іншому випадку цього робити не можна, тому що в розрахунки можуть приїздити серйозні помилки.

Вибіркове середнє (середнє арифметичне) значення як статистичний показник являє собою середню оцінку досліджуваного в експерименті психологічного якості. Ця оцінка характеризує ступінь його розвитку в цілому у тієї групи досліджуваних, яка була піддана психодиагностическому обстеженню. Порівнюючи безпосередньо середні значення двох або декількох вибірок, ми можемо судити про відносну ступеня розвитку у людей, що складають ці вибірки, оцінюється якості.

Вибіркове середнє визначається за допомогою наступної формули:

де х - вибіркова середня величина або середнє арифметичне значення по вибірці; n - кількість випробуваних у вибірці чи приватних психодіагностичних показників, на основі яких обчислюється середня величина; х _k - приватні значення показників у окремих досліджуваних. Усього таких показників n, тому індекс k даної змінної приймає значення від 1 до n; Σ - прийнятий у математиці знак підсумовування величин тих змінних, які знаходяться праворуч від цього знаку. Вираз відповідно означає суму всіх х з індексом k, від 1до n. У психодіагностики і в експериментальних психолого-педагогічних дослідженнях середнє, як правило, не обчислюється з точністю, що перевищує один знак після коми, тобто з більшою, ніж десяті частки одиниці. У психодіагностичних обстеженнях велика точність розрахунків не потрібно і не має сенсу, якщо взяти до уваги приблизність тих оцінок, які в них виходять, і достатність таких оцінок для виробництва порівняно точних розрахунків.

Розкид (іноді цю величину називають розмахом) вибірки позначається літерою R. Це самий простий показник, який можна отримати для вибірки - різниця між максимальною і мінімальною величинами даного конкретного варіаційного ряду, тобто

Зрозуміло, що чим сильніше варіює вимірюваний ознака, тим більше величина R, і навпаки. Проте може статися так, що у двох вибіркових рядів і середні, і розмах збігаються, проте характер варіювання цих рядів буде різний. Наприклад, дано дві вибірки:

При рівності середніх і розкидів для цих двох вибіркових рядів характер їх варіювання різний. Для того щоб більш чітко уявляти характер варіювання вибірок, слід звернутися до їх розподілом.

Дисперсія - це середнє арифметичне квадратів відхилень значень змінної від її середнього значення.

Дисперсія як статистична величина характеризує, наскільки приватні значення відхиляються від середньої величини в даній вибірці. Чим більше дисперсія, тим більше відхилення або розкид даних.

де 5 - вибіркова дисперсія, або просто дисперсія;

2 ^(......) - вираз, що означає, що для всіх х, від першого до останнього в даній вибірці необхідно обчислити різниці між приватними і середніми значеннями, звести ці різниці в квадрат і підсумувати;

п - кількість випробуваних у вибірці чи первинних значень, за якими обчислюється дисперсія. Проте сама дисперсія, як характеристика відхилення від середнього, часто незручна для інтерпретації. Для того, щоб наблизити розмірність дисперсії до розмірності вимірюваної ознаки застосовують операцію добування квадратного кореня з дисперсії. Отриману величину називають стандартним відхиленням.

Із суми квадратів, ділених на число членв ряду витягується квадратний корінь.

Іноді вихідних приватних первинних даних, які підлягають статистичній обробці, буває досить багато, і вони вимагають проведення великої кількості елементарних арифметичних операцій. Для того щоб скоротити їх кількість і разом з тим зберегти потрібну точність розрахунків, іноді вдаються до заміни вихідної вибірки приватних емпіричних даних на інтервали. Інтервалом називається група впорядкованих за величиною значень ознаки, замінна в процесі розрахунків середнім значенням.

29. Надійність як стійкість результатів тесту до дії сторонніх факторів. Обчислення коефіцієнта надійністі. Надійність тестів, її обчислення

Психологічний тест можна вважати ефективним за його відповідності таким основним умовам: застосування шкали інтервалів, надійність, валідність, дискриміна-тивність, наявність нормативних даних та їх стандарти-зованість. Надійність як один із основних критеріїв забезпечує незалежність результатів тестів від дії випадкових факторів. Результат вимірювання безпосередньо залежить від стабільності вимірюваної ознаки. Якщо ознака лабільна (змінювана), наприклад настрій, то результат вимірювання її не може бути настільки ж точним, як результат вимірювання стабільної ознаки, наприклад знання орфографії. Надійність - характеристика методики, що відображає точність психодіагностичних вимірів, а також стійкість результатів тесту до дії сторонніх факторів. У широкому розумінні вона засвідчує, наскільки виявлені у досліджуваного ознаки за тестовими результатами є відображенням дійсних ознак вимірюваних властивостей і наскільки на тестові результати впливають випадкові фактори. У вузькому (методичному) розумінні надійність є мірою узгодженості результатів тесту, отриманих під час першого і повторного застосування, в одних і тих самих досліджуваних у різний час за допомогою різних, але однакових за характером, наборів тестових завдань або за інших змін умов дослідження.

Ступінь надійності вимірювання визначають за допомогою коефіцієнта надійності (коефіцієнта реліабільності) - кореляційного коефіцієнта, що показує відповідність результатів вимірювань, зроблених за однакових умов однією особою (тобто,у який спосіб відтворені результати вимірювання).

Надійність характеризує точність вимірювання, констатує, наскільки правильні дані тестування. Якщо на етапі перевірки якості тесту досліджувані одержують оцінки, які відрізняються від попередніх, це свідчить про ненадійність тесту. Недостатню надійність тестів можуть спричинити:

- несприйняття умов тестування (зміни поведінки досліджуваних, наявність додаткових перешкод, присутність сторонніх осіб, незадовільні освітленість приміщення, температура повітря тощо);

- недосконалість тесту (нечіткість інструкцій, принципова різнорідність завдань, можливість суб'єктивізму при інтерпретації виконань тощо);

- внутрішні стани досліджуваних (утома, роздратування, апатія, нервозність та ін.) та їхнє ставлення до тестування;

- інформаційно-соціальні обставини (різна динаміка у встановленні контакту з особою, яка проводить тестування);

- досвід роботи з цим тестом, ставлення до тестування загалом.

Дослідник повинен докласти максимальних зусиль, щоб усунути вплив негативних факторів. Кількісно надійність тесту виражають за допомогою коефіцієнтів надійності. Процедура обчислення значень цих коефіцієнтів вимагає встановлення кореляції рангів усіх членів вибірки, стосовно яких тест перевіряють перед упровадженням у психодіагностичну практику. Величина коефіцієнта надійності тим більша, чим стабільніше місце (ранг) досліджуваних стосовно всіх інших рангів у вибірці.

Кожен результат вимірювання містить "істинну" і "спотворену" частини, співвідношення яких при конструюванні тестів оцінюють за допомогою повторного тестування, поділу навпіл, розщеплення рівнобіжного тестування.

Метод повторного тестування (ретестування) дає змогу обробити завдання, розв'язані одними і тими самими досліджуваними у різний час, визначити взаємозв'язок результатів, виражений у коефіцієнті надійності. Ре-тестова надійність обчислюється відповідно до результатів першого чи другого обстеження зі збереженням рангових місць досліджуваних у вибірці при ретестуванні. Коефіцієнт надійності дорівнює коефіцієнту кореляції між результатами таких обстежень. При використанні інтервальних шкал застосовують коефіцієнт кореляції добутку моментів Пірсона. Для шкал порядку міри стійкості до перетестування визначають за допомогою коефіцієнта рангової кореляції Спірмена або Кендалла. Метод повторного тестування рідко застосовують для вимірювання успішності, тому що при повторному тестуванні слід брати до уваги ефект тренування, що виявляється тим помітніше, чим легше запам'ятовується завдання і коротший проміжок часу між першим і другим обробленням отриманих даних. У великому часовому проміжку велика ймовірність зміни досліджуваної якості. Ретестова надійність дає змогу встановити ступінь незалежності результатів тестування від різних впливів.

Коефіцієнт ретестової надійності повинен бути не нижчим за 0,80. Якщо він не досягає цього показника, точність виміру є недостатньою, а процедура тестування потребує додаткової стандартизації.

Збільшення часового інтервалу між першим і другим обстеженнями зумовлює тенденцію до зниження показників кореляції внаслідок впливу таких факторів, як вікові зміни вимірюваних тестом властивостей, події, що змінюють стан і особливості розвитку досліджуваних якостей. Тому при визначенні ретестової надійності обирають нетривалі часові інтервали (до декількох місяців), а при обстеженні дітей молодшого віку - ще менші, оскільки вікові зміни і їх розвиток відбуваються швидше.

Повторні дослідження з тривалим часовим проміжком іноді здійснюють для оцінювання прогностичної валідності, елементів конструктивної валідності, пов'язаних з диференціацією за віковим критерієм. Визначення ретестової надійності за таких обставин обмежується аналізом короткострокових випадкових змін, що характеризують тест як вимірювальну процедуру.

Недоліками методу повторного тестування є формування у досліджуваних навичок роботи з певною методикою; запам'ятовування і відтворення ними у повторному обстеженні правильних і неправильних відповідей.

Для усунення сторонніх впливів на оцінку ретестової надійності дослідник, з огляду на суттєвість і цілі застосовуваної методики, може змінювати часовий інтервал, формувати стійкі навички у досліджуваних перед проведенням ретестування. Однак всі його зусилля повинні ґрунтуватися на дотриманні наукових методик. Через певний інтервал часу випадкові коливання результатів обстеження будуть виражені менше. Ця закономірність зумовлює проведення вимірювань у різних вікових групах досліджуваних, що особливо притаманне методикам, призначеним для обстеження у широкому віковому діапазоні (наприклад, "Шкала розумового розвитку Станфорда - Біне", "Шкала виміру інтелекту Векслера"). Показники ретестової надійності у представників старших вікових груп вищі.

Метод визначення надійності шляхом ретестування придатний для перевірки сенсомоторних проб, тестів швидкості та інших методик, що мають велику кількість пунктів (наприклад, "Мінесотський багатоаспектний особистісний опитувальник").

Метод поділу навпіл передбачає поділ одноразово виконаних завдань. Наприклад, завдання з парними та непарними номерами обробляють окремо або здійснюють їх поділ на основі іншого принципу. Після поділу навпіл визначають взаємозв'язок отриманих результатів, а далі одержують інформацію про надійність методу вимірювання.

Цей метод дає змогу охарактеризувати ступінь однорідності (гомогенності) усіх завдань тесту, що засвідчує повноту відображення в ньому певного психічного феномену. Усі завдання тесту повинні бути взаємоузгоджені, несуперечливі та односпрямовані.

Тест є надійним, якщо отриманий при зіставленні коефіцієнт перевищує 0,75, якщо ні - укладач повинен переробити чи вилучити завдання.

Метод розщеплення полягає у виконанні досліджуваним завдань двох рівнозначних частин тесту. За нормального або наближеного до нормального розподілу оцінок у тесті розв'язання випадкового набору завдань з різних частин тесту утворює аналогічний розподіл (за однорідності завдань тесту).

Для оцінювання надійності методом розщеплення вибирають дві еквівалентні за характером і ступенем труднощів групи завдань. Поділ їх на рівні частини здійснюють через поділ на парні і непарні (якщо завдання у тесті ранговані за ступенем суб'єктивних труднощів) або поділ пунктів за принципом наближеності чи рівності значень індексів труднощів і дискримінативності.

Метод рівнобіжного тестування передбачає розроблення укладачем кількох взаємозамінних наборів завдань, які за змістом подібні, але не ідентичні, і нагадують варіанти завдань шкільної контрольної роботи. Для застосування цього методу необхідні два різні набори завдань, які виконують безпосередньо один за одним у зручний час. Ефект запам'ятовування не виникає, тому що актуальна постановка завдань у кожному наборі інша. Взаємозв'язок результатів першого і другого наборів завдань виражають за допомогою коефіцієнта надійності, який встановлюється методом кореляційного аналізу результатів обох тестувань. Величина коефіцієнта не повинна бути меншою від 0,75. У протилежному разі виникає необхідність перевірки ступеня стандартизованості іспиту і зміни змісту тих завдань, що не відповідають аналогам.

Валідність тестів, особливості її визначення і перевірки Представники різних напрямів у психології приписують поняттю "валідність" різне смислове навантаження: показник якості, тобто здатність методу дослідження забезпечувати результати, що адекватно відображають явище, яке вивчається, тобто саме ті результати, для отримання яких він призначений (валідність методу); міра відповідності теорії емпіричним даним, можливість здійснювати на її основі точні прогнози (валідність теорії); міра відповідності результатів дослідження реальності, уявленням про цю реальність (валідність результатів). У позитивістській науці розрізняють валідність вимірювання (внутрішню і зовнішню), експериментальних процедур, статистичного висновку. В усіх цих випадках валідність є показником відповідності, тобто поняттям, яке вказує, що тест (метод) вимірює і наскільки якісно. Валідність (англ. valide - дійсний, придатний, той, що має силу) - комплексна характеристика тесту, яка містить відомості про сферу досліджуваних явищ і репрезентативність діагностичної процедури стосовно них. Валідність охоплює великий обсяг найрізноманітнішої інформації про тест. Різноманітні категорії цих відомостей і утворюють типи валідності. У психологічній літературі описані різні типи класифікації валідності залежно від критеріїв, покладених в їх основу. Класифікація типів валідності є умовною, оскільки нерідко для різних критеріїв валідності застосовують загальні методи визначення або одні і ті самі вихідні дані можуть інтерпретувати з погляду різних типів валідностей. У психодіагностиці основними видами вважають змістову, критеріальну і конструктну валідності, усі інші - похідними від них. Змістова валідність Вона характеризує спрямованість тестових завданнях щодо усього обсягу вимірюваної сфери психічних властивостей. її коефіцієнт визначають шляхом експертного оцінювання. Цей вид валідності є проблематичним критерієм, оскільки для кожної поведінки існує змістовий опис, тому розробляють завдання, що виявляють її ознаки. За допомогою оцінок експертів з'ясовують, наскільки характеристика поведінки, отримана за результатами тестів, змістово збігається з попереднім її описом. Валідність змістова закладається у тест при підборі завдань майбутньої методики. Першим етапом валідизації є визначення сфери досліджуваних властивостей і видів діяльності, розчленування складної здатності або діяльності на елементи. На другому етапі розробляють власне модель тестування на основі найважливіших елементів реальної діяльності. На останньому етапі аналізують ступінь відповідності розробленої моделі реальній дійсності, перевіряють пропорційність елементів у завданнях тесту і в реальній діяльності. Так, для тестів досягнень за окремими предметами розробленню конкретного змісту завдань передують систематична перевірка відповідних підручників і навчальних програм, консультації зі спеціалістами. На основі зібраної інформації складають специфікацію тесту, де вказують тестовані розділи змісту (теми), завдання навчання, а також відносне значення кожної теми і процесу для досягнення мети навчання на цьому етапі. Конкретні завдання оцінюють експерти за принципом їх наближеності до реальних вимог. Вони роблять судження про те, чи охоплює тест репрезентативну вибірку конкретних навичок і знань досліджуваної галузі навчання. Така валідність має особливе значення у критеріально-орієнтувальних тестах і тестах досягнень. Для валідизації особистісних питальників і тестів інтелекту критерії змістової валідності використовуються лише на початкових етапах складання тесту, адже відповіді на питання анкети, питальників, результати проективних досліджень дають змогу лише здогадуватись про реальну діяльність досліджуваного. Вияв особистісних якостей може мати індивідуальний характер. У контексті змістової валідності можна виокремити валідність очевидну, яка формує уявлення про тест, що виникає у досліджуваного або іншої особи, яка не володіє спеціальною інформацією про характер використання і мету методики, окреслює сферу його застосування, результативність та прогностичну цінність. Валідність очевидна не є компонентом об'єктивно встановленої валідності. Вона діє як фактор, що спонукає досліджуваних до обстеження, сприяє відповідальнішому ставленню до роботи з виконання завдань тесту і висновків, які робить психолог. Інколи цю валідність називають зовнішньою, або довірчою. Достатній рівень очевидної валідності набуває важливого значення для методик обстеження дорослих. Якщо зміст тестових завдань досліджувані не сприйматимуть серйозно, вважатимуть надмірно легким, таким, що не відповідає суті досліджуваної діяльності, це зумовить іронічне, можливо, негативне чи вороже ставлення до ситуації обстеження. І навпаки, перебільшення можливостей методики, неадекватне уявлення про спрямованість і прогностичну значущість можуть стати причиною надлишкової мотивації, небажаної емоційної напруженості при обстеженні, вираженої настановної поведінки. Через неадекватну очевидну валідність реальна валідність тесту знизиться.

(франц. representatif – показательный) свойство выборочной совокупности представлять характеристики генеральной совокупности.

Репрезентативность означает, что с некоторой, наперед заданной или определенной статистически, погрешностью можно считать, что представленное в выборочной совокупности распределение изучаемых признаков соответствует их реальному распределению.

Для обеспечения репрезентативности выборки данных необходимо учесть ряд обязательных для любого исследования условий. Среди них важнейшими являются следующие:

· каждая единица генеральной совокупности должна иметь равную вероятность попадания в выборку;

· выборка переменных производится независимо от изучаемого признака;

· отбор производится из однородных совокупностей;

· число единиц в выборке должно быть достаточно большим;

· выборка и генеральная совокупность должны быть по возможности однородными.

В широком понимании репрезентативность связана с комплексом характеристик валидности методики.

Особливою різновидом валідності є достовірність, яка завжди виділяється підручників попсиходиагностике, хоча вимагає спеціальних зусиль і процедур щодо забезпечення. Йдеться свідомих чи несвідомих викривлення, які вносить в тестові результати сам випробовуваний, керуючись під час тесту особливої мотивацією, відрізнялася від тієї, властивою то реальному поведінці. Здатність тесту захищати інформацію з мотиваційних спотворень це і є достовірність тесту. Особливо гостро проблема достовірності стоїть у разітест-опросников, що припускають більше волі у виборі піддослідним будь-якого варіанти відповіді.

Типовий прийом забезпечення достовірності – його присутність середтест-опросникахШКАЛ БРЕХНІ. Ці шкали грунтуються головним чином феномен соціальної бажаності – прагненні піддослідних давати під час тестування соціальноодобряемую інформацію.

Якщо випробовуваний набрав за шкалою брехні бал вище критичного, його протокол оголошується недостовірним і його пропонується або виконати даний тест вкотре відвертіше, або виконати інший тест. Багато більш специфічні “пастки”, створені задля вимір достовірності, часто входять як компонент до структури конкретного тесту, інколи ж навіть розголошуються елемент “ноу-хау” (інформаційного винаходи) та фахової таємниці, поділюваної розробниками тільки з ліцензованими користувачами методики, підписантами особливе ліцензоване угоду на придбання тесту.

Достовірність тестування міцно пов'язана зі ступенем довірливості спілкування, яку психолог зміг установити з даним піддослідним. Тут корисно розрізняти дві діагностичні ситуації: консультативну (ситуація клієнта) і атестаційну (ситуація експертизи). У першому випадку випробовуваний бере участь у тестуванні на добровільних засадах і саме зацікавлений отримати рекомендації за результатами тестування (як, наприклад, в профорієнтаційної консультації). У другий випадок тестування проходить за ініціативи педагога або адміністрації, психолога, батьків, тобто інших, і інші більше зацікавлені у результатах, ніж сам випробовуваний.

Зрозуміло, що у атестаційної ситуації питання достовірності особливо актуальна. І опитувальники, не забезпечені шкалами брехні, залучити до таких ситуаціях марно. Навпаки, у кризовій ситуації клієнта можна використовувати такі методики, куди випробовуваний явно відповідатиме некоректно у кризовій ситуації експертизи.

Питання достовірності й стандартизації тісно пов'язані між собою. Найчастіше навіть об'єктивні тести досягнень, якщо вони проходили стандартизацію на добровольцях (у кризовій ситуації консультації), би мало бутирестандартизировани у тому, щоб їх використовували у атестаційної ситуації.

стверджувати, що тест пройшов перевірку на прогностичну валідність. Без цього ми виходимо просто з довіри до наукової інтуїції розробника тіста й не маємо незалежних доказів те, що тест можна використовуватиме прогнозу.

Різниця звичайній дешевої схемивалидизации тесту (по “звестним групам”) та найдорожчої прогностичної схемивалидизации тесту – найважливіший елементпсиходиагностической грамотності як для психологів, але й педагогів, як, втім, й у будь-яких замовниківпсиходиагностической інформації.

Коли замовник твердо знає, яких доказів ефективності запропонованого тесту можна вимагати відтестолога, він надійно застрахований від профанації.

На закінчення цієї теми підкреслимо, що вимір психометричних характеристик тесту, звісно, є передусім обов'язком розробників тестів. Але кваліфікований шкільнийпсихолог-методист які з курсом університетської освіти повинен зі своєї підготовці вміти самостійно провести найпростішийпсихометрический експеримент і перелічити тестові норми, і навітьпсихометрические індекси надійності і валідності тесту у своїй власної

Багато хто вважає, що тестові завдання повинні

створюватися у формі тверджень, ввівши у вимоги до тестових

завдань логічну форму висловлювання. Це пов'язано, по-перше,

зі словесним складом завдання у тестовій формі: зміст

тестового твердження засвоюється завжди краще, ніж зміст

запитання, оскільки, в тестових твердженнях немає жодного

зайвого слова і навіть знаку, в той час як запитання потребує

ряду додаткових слів і знаків для вираження потрібного змісту,

Проте добре сформульоване завдання в запитальній формі

нічим не поступається добре сформульованому запитанню у

формі твердження. Але якщо у формі запитання спробувати

поставити два заперечення, то таке завдання стає абсолютно

незрозумілим. Мало того, в рекомендаціях по складанню

тестових завдань голландського інституту CITO дається така

рекомендація: «Використовуйте прямі запитання. Переважно

застосовуйте прямі запитання, що утворюють повне речення зі

знаком запитання в кінці». Крім того, аналіз завдань, що

використовуються при атестації учнів, показує, що переважною

формою завдань (понад 90 %) є пряме запитання. Вибір

способу формулювання тестового завдання у формі твердження

або у формі запитання, повинен визначатися двома

обставинами: по-перше, необхідно вибирати ту форму, яка буде

максимально зрозумілою для випробуваних, і, по-друге, одна з

форм завдань вимагає неодмінно формулювання запитання у

формі твердження – це завдання альтернативних відповідей,

оскільки вони вимагають відповіді так чи ні, які краще

Один із приводів для критики тестування полягає у тому,

що для більшості завдань існує ймовірність випадкового

вибору правильних відповідей. У загальному випадку це

проблема лише завдань закритого типу, і чим менше можливих

альтернатив пропонується випробуваному в рамках одного

завдання, тим більша ймовірність добору. Ця проблема гостро74

стоїть для завдань альтернативних відповідей, де ймовірність

добору максимальна і становить 50 %, тому не рекомендується

використовувати такі завдання для тестів навчальних

досягнень. Однак серія з п'яти завдань альтернативних

відповідей дає ймовірність добору 0,0313, а з десяти завдань