Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Поняття про надійність психодіагностичних методик. Методи визначення надійності. Типи надійності: надійність паралельних форм, ре тестова надійність, надійність частин тесту




Надійність тестів, її обчислення

Психологічний тест можна вважати ефективним за його відповідності таким основним умовам: застосування шкали інтервалів, надійність, валідність, дискриміна-тивність, наявність нормативних даних та їх стандарти-зованість. Надійність як один із основних критеріїв забезпечує незалежність результатів тестів від дії випадкових факторів. Результат вимірювання безпосередньо залежить від стабільності вимірюваної ознаки. Якщо ознака лабільна (змінювана), наприклад настрій, то результат вимірювання її не може бути настільки ж точним, як результат вимірювання стабільної ознаки, наприклад знання орфографії. Надійність - характеристика методики, що відображає точність психодіагностичних вимірів, а також стійкість результатів тесту до дії сторонніх факторів. У широкому розумінні вона засвідчує, наскільки виявлені у досліджуваного ознаки за тестовими результатами є відображенням дійсних ознак вимірюваних властивостей і наскільки на тестові результати впливають випадкові фактори. У вузькому (методичному) розумінні надійність є мірою узгодженості результатів тесту, отриманих під час першого і повторного застосування, в одних і тих самих досліджуваних у різний час за допомогою різних, але однакових за характером, наборів тестових завдань або за інших змін умов дослідження.

Ступінь надійності вимірювання визначають за допомогою коефіцієнта надійності (коефіцієнта реліабільності) - кореляційного коефіцієнта, що показує відповідність результатів вимірювань, зроблених за однакових умов однією особою (тобто,у який спосіб відтворені результати вимірювання).

Надійність характеризує точність вимірювання, констатує, наскільки правильні дані тестування. Якщо на етапі перевірки якості тесту досліджувані одержують оцінки, які відрізняються від попередніх, це свідчить про ненадійність тесту. Недостатню надійність тестів можуть спричинити:

- несприйняття умов тестування (зміни поведінки досліджуваних, наявність додаткових перешкод, присутність сторонніх осіб, незадовільні освітленість приміщення, температура повітря тощо);

- недосконалість тесту (нечіткість інструкцій, принципова різнорідність завдань, можливість суб'єктивізму при інтерпретації виконань тощо);

- внутрішні стани досліджуваних (утома, роздратування, апатія, нервозність та ін.) та їхнє ставлення до тестування;

- інформаційно-соціальні обставини (різна динаміка у встановленні контакту з особою, яка проводить тестування);

- досвід роботи з цим тестом, ставлення до тестування загалом.

Дослідник повинен докласти максимальних зусиль, щоб усунути вплив негативних факторів. Кількісно надійність тесту виражають за допомогою коефіцієнтів надійності. Процедура обчислення значень цих коефіцієнтів вимагає встановлення кореляції рангів усіх членів вибірки, стосовно яких тест перевіряють перед упровадженням у психодіагностичну практику. Величина коефіцієнта надійності тим більша, чим стабільніше місце (ранг) досліджуваних стосовно всіх інших рангів у вибірці.

Кожен результат вимірювання містить "істинну" і "спотворену" частини, співвідношення яких при конструюванні тестів оцінюють за допомогою повторного тестування, поділу навпіл, розщеплення рівнобіжного тестування.

Метод повторного тестування (ретестування) дає змогу обробити завдання, розв'язані одними і тими самими досліджуваними у різний час, визначити взаємозв'язок результатів, виражений у коефіцієнті надійності. Ре-тестова надійність обчислюється відповідно до результатів першого чи другого обстеження зі збереженням рангових місць досліджуваних у вибірці при ретестуванні. Коефіцієнт надійності дорівнює коефіцієнту кореляції між результатами таких обстежень. При використанні інтервальних шкал застосовують коефіцієнт кореляції добутку моментів Пірсона. Для шкал порядку міри стійкості до перетестування визначають за допомогою коефіцієнта рангової кореляції Спірмена або Кендалла. Метод повторного тестування рідко застосовують для вимірювання успішності, тому що при повторному тестуванні слід брати до уваги ефект тренування, що виявляється тим помітніше, чим легше запам'ятовується завдання і коротший проміжок часу між першим і другим обробленням отриманих даних. У великому часовому проміжку велика ймовірність зміни досліджуваної якості. Ретестова надійність дає змогу встановити ступінь незалежності результатів тестування від різних впливів.

Коефіцієнт ретестової надійності повинен бути не нижчим за 0,80. Якщо він не досягає цього показника, точність виміру є недостатньою, а процедура тестування потребує додаткової стандартизації.

Збільшення часового інтервалу між першим і другим обстеженнями зумовлює тенденцію до зниження показників кореляції внаслідок впливу таких факторів, як вікові зміни вимірюваних тестом властивостей, події, що змінюють стан і особливості розвитку досліджуваних якостей. Тому при визначенні ретестової надійності обирають нетривалі часові інтервали (до декількох місяців), а при обстеженні дітей молодшого віку - ще менші, оскільки вікові зміни і їх розвиток відбуваються швидше.

Повторні дослідження з тривалим часовим проміжком іноді здійснюють для оцінювання прогностичної валідності, елементів конструктивної валідності, пов'язаних з диференціацією за віковим критерієм. Визначення ретестової надійності за таких обставин обмежується аналізом короткострокових випадкових змін, що характеризують тест як вимірювальну процедуру.

Недоліками методу повторного тестування є формування у досліджуваних навичок роботи з певною методикою; запам'ятовування і відтворення ними у повторному обстеженні правильних і неправильних відповідей.

Для усунення сторонніх впливів на оцінку ретестової надійності дослідник, з огляду на суттєвість і цілі застосовуваної методики, може змінювати часовий інтервал, формувати стійкі навички у досліджуваних перед проведенням ретестування. Однак всі його зусилля повинні ґрунтуватися на дотриманні наукових методик. Через певний інтервал часу випадкові коливання результатів обстеження будуть виражені менше. Ця закономірність зумовлює проведення вимірювань у різних вікових групах досліджуваних, що особливо притаманне методикам, призначеним для обстеження у широкому віковому діапазоні (наприклад, "Шкала розумового розвитку Станфорда - Біне", "Шкала виміру інтелекту Векслера"). Показники ретестової надійності у представників старших вікових груп вищі.

Метод визначення надійності шляхом ретестування придатний для перевірки сенсомоторних проб, тестів швидкості та інших методик, що мають велику кількість пунктів (наприклад, "Мінесотський багатоаспектний особистісний опитувальник").

Метод поділу навпіл передбачає поділ одноразово виконаних завдань. Наприклад, завдання з парними та непарними номерами обробляють окремо або здійснюють їх поділ на основі іншого принципу. Після поділу навпіл визначають взаємозв'язок отриманих результатів, а далі одержують інформацію про надійність методу вимірювання.

Цей метод дає змогу охарактеризувати ступінь однорідності (гомогенності) усіх завдань тесту, що засвідчує повноту відображення в ньому певного психічного феномену. Усі завдання тесту повинні бути взаємоузгоджені, несуперечливі та односпрямовані.

Тест є надійним, якщо отриманий при зіставленні коефіцієнт перевищує 0,75, якщо ні - укладач повинен переробити чи вилучити завдання.

Метод розщеплення полягає у виконанні досліджуваним завдань двох рівнозначних частин тесту. За нормального або наближеного до нормального розподілу оцінок у тесті розв'язання випадкового набору завдань з різних частин тесту утворює аналогічний розподіл (за однорідності завдань тесту).

Для оцінювання надійності методом розщеплення вибирають дві еквівалентні за характером і ступенем труднощів групи завдань. Поділ їх на рівні частини здійснюють через поділ на парні і непарні (якщо завдання у тесті ранговані за ступенем суб'єктивних труднощів) або поділ пунктів за принципом наближеності чи рівності значень індексів труднощів і дискримінативності.

Метод рівнобіжного тестування(паралельних форм) передбачає розроблення укладачем кількох взаємозамінних наборів завдань, які за змістом подібні, але не ідентичні, і нагадують варіанти завдань шкільної контрольної роботи. Для застосування цього методу необхідні два різні набори завдань, які виконують безпосередньо один за одним у зручний час. Ефект запам'ятовування не виникає, тому що актуальна постановка завдань у кожному наборі інша. Взаємозв'язок результатів першого і другого наборів завдань виражають за допомогою коефіцієнта надійності, який встановлюється методом кореляційного аналізу результатів обох тестувань. Величина коефіцієнта не повинна бути меншою від 0,75. У протилежному разі виникає необхідність перевірки ступеня стандартизованості іспиту і зміни змісту тих завдань, що не відповідають аналогам.

Визначення коефіцієнта надійності

Його можна визначити, поділивши досліджуваних на приблизно однакові групи. Потім одній з них пропонують форму А тесту, іншій - форму Б. Через певний час (не більше ніж тиждень) організовують повторне тестування, замінюючи форму А на форму Б, і навпаки. Така процедура обстеження має переваги, оскільки за ретестування використовують інший за змістом матеріал, можливість тренування і запам'ятовування окремих рішень зменшується, тимчасовий інтервал перед повторним обстеженням скорочується. Основним показником надійності є коефіцієнт кореляції між результатами первинного і вторинного обстежень, що оцінює і тимчасову стабільність тесту (власне надійність), і ступінь відповідності результатів обох форм тесту.

Обидва набори завдань повинні відповідати однаковим вимогам, бути відносно незалежними. На практиці це не завжди можливо, особливо для особистісних методик, опитувальників, що обмежує сферу застосування методу рівнобіжного застосування. Ще одним недоліком є можливість засвоєння досліджуваними основного принципу розв'язання. Вплив тренувань і навичок знижується, однак не усувається.

Коефіцієнт надійності обчислюють за формулами розрахунків коефіцієнтів кореляції (залежності від шкали вимірювання даних) між першим і наступним вимірами чи між рівнобіжними формами тесту.

Розрахунок коефіцієнта надійності при дослідженні гомогенності тесту здійснюють шляхом поділу тесту на рівні субтести і розрахунку кореляції між цими частинами. Для визначення загальної надійності тесту отримані

коефіцієнти кореляції вводять у формулу Спірмена - Брауна:

Якщо частини тесту є окремими дихотомічними завданнями, наприклад питаннями, на які може бути дві відповіді ("так" чи "ні"), чи завданнями з оцінкою результату (правильного і неправильного), використовують формулу:

Надійність частин тесту також розраховують за формулою Кудера - Річардсона:

Надійність окремих пунктів

Для підвищення ретестової надійності тесту, апробованого у пілотажних психометричних експериментах, з нього вибирають пункти, на які досліджувані дають стійкі відповіді. Для дихотомічних пунктів ("розв'язав - не розв'язав", "так - ні") стійкість зручно вимірювати з використанням чотирьохклітинкової матриці спряженості:

У клітинці А підсумовують частоту відповідей "правильно" на завдання першого і другого тестування, у клітинці В - кількість випадків, коли досліджуваний при першому тестуванні відповідав "правильно", а при другому - "неправильно". Як міру кореляції вираховують <р-коефіцієнт:

Зручністю використання коефіцієнта є те, що він одночасно оцінює ступінь оптимальності пункту за силою (труднощі): ф-коефіцієнт виявляється меншим, якщо більша різниця між частотою відповідей "так" і частотою відповідей "ні". Чотирьохклітинкова таблиця дає змогу простежити можливу несиметричність у стійкості відповідей "так" і "ні". Виявлені у результаті такого аналізу слабкі і неінформативні пункти слід вилучити з тесту. Пункти варто вважати недостатньо стійкими, якщо на репрезентативній вибірці

 

Для того щоб підвищити одномоментну (синхронну) надійність тесту, вилучають ті пункти, що недостатньо погоджені з іншими. За відсутності комп'ютерного оброблення погодженість між пунктами визначається з допомогою чотирьохклітинкової кореляції. Тоді у першому стовпчику таблички додаються відповіді досліджуваних із "високої" групи (за величиною сумарного бала), у другому - з "низької".

Отже, надійність тесту характеризує ступінь точності вимірювання, який не розкриває ознаку вимірювання. Така надійність є передумовою наявності іншої важливої якості - валідності.

 

 

8. Поняття про валідність методики та її типи. Валідність як комплексна характеристика психодіагностичної методики. Типи валідності: очевидна валідність, валідність змісту, критеріальна валідність, поточна валідність, прогностична валідність, конструктивна валідність.

Валідність тестів, особливості її визначення і перевірки

Представники різних напрямів у психології приписують поняттю "валідність" різне смислове навантаження: показник якості, тобто здатність методу дослідження забезпечувати результати, що адекватно відображають явище, яке вивчається, тобто саме ті результати, для отримання яких він призначений (валідність методу); міра відповідності теорії емпіричним даним, можливість здійснювати на її основі точні прогнози (валідність теорії); міра відповідності результатів дослідження реальності, уявленням про цю реальність (валідність результатів). У позитивістській науці розрізняють валідність вимірювання (внутрішню і зовнішню), експериментальних процедур, статистичного висновку.

В усіх цих випадках валідність є показником відповідності, тобто поняттям, яке вказує, що тест (метод) вимірює і наскільки якісно.

Валідність (англ. valide - дійсний, придатний, той, що має силу) - комплексна характеристика тесту, яка містить відомості про сферу досліджуваних явищ і репрезентативність діагностичної процедури стосовно них.

Валідність охоплює великий обсяг найрізноманітнішої інформації про тест. Різноманітні категорії цих відомостей і утворюють типи валідності.

У психологічній літературі описані різні типи класифікації валідності залежно від критеріїв, покладених в їх основу. Класифікація типів валідності є умовною, оскільки нерідко для різних критеріїв валідності застосовують загальні методи визначення або одні і ті самі вихідні дані можуть інтерпретувати з погляду різних типів валідностей.

У психодіагностиці основними видами вважають змістову, критеріальну і конструктну валідності, усі інші - похідними від них.

Змістова валідність

Вона характеризує спрямованість тестових завданнях щодо усього обсягу вимірюваної сфери психічних властивостей. Її коефіцієнт визначають шляхом експертного оцінювання.

Цей вид валідності є проблематичним критерієм, оскільки для кожної поведінки існує змістовий опис, тому розробляють завдання, що виявляють її ознаки. За допомогою оцінок експертів з'ясовують, наскільки характеристика поведінки, отримана за результатами тестів, змістово збігається з попереднім її описом.

Валідність змістова закладається у тест при підборі завдань майбутньої методики. Першим етапом валідизації є визначення сфери досліджуваних властивостей і видів діяльності, розчленування складної здатності або діяльності на елементи. На другому етапі розробляють власне модель тестування на основі найважливіших елементів реальної діяльності. На останньому етапі аналізують ступінь відповідності розробленої моделі реальній дійсності, перевіряють пропорційність елементів у завданнях тесту і в реальній діяльності. Так, для тестів досягнень за окремими предметами розробленню конкретного змісту завдань передують систематична перевірка відповідних підручників і навчальних програм, консультації зі спеціалістами. На основі зібраної інформації складають специфікацію тесту, де вказують тестовані розділи змісту (теми), завдання навчання, а також відносне значення кожної теми і процесу для досягнення мети навчання на цьому етапі. Конкретні завдання оцінюють експерти за принципом їх наближеності до реальних вимог. Вони роблять судження про те, чи охоплює тест репрезентативну вибірку конкретних навичок і знань досліджуваної галузі навчання. Така валідність має особливе значення у критеріально-орієнтувальних тестах і тестах досягнень.

Для валідизації особистісних питальників і тестів інтелекту критерії змістової валідності використовуються лише на початкових етапах складання тесту, адже відповіді на питання анкети, питальників, результати проективних досліджень дають змогу лише здогадуватись про реальну діяльність досліджуваного. Вияв особистісних якостей може мати індивідуальний характер.

У контексті змістової валідності можна виокремити валідність очевидну, яка формує уявлення про тест, що виникає у досліджуваного або іншої особи, яка не володіє спеціальною інформацією про характер використання і мету методики, окреслює сферу його застосування, результативність та прогностичну цінність. Валідність очевидна не є компонентом об'єктивно встановленої валідності. Вона діє як фактор, що спонукає досліджуваних до обстеження, сприяє відповідальнішому ставленню до роботи з виконання завдань тесту і висновків, які робить психолог. Інколи цю валідність називають зовнішньою, або довірчою.

Достатній рівень очевидної валідності набуває важливого значення для методик обстеження дорослих. Якщо зміст тестових завдань досліджувані не сприйматимуть серйозно, вважатимуть надмірно легким, таким, що не відповідає суті досліджуваної діяльності, це зумовить іронічне, можливо, негативне чи вороже ставлення до ситуації обстеження. І навпаки, перебільшення можливостей методики, неадекватне уявлення про спрямованість і прогностичну значущість можуть стати причиною надлишкової мотивації, небажаної емоційної напруженості при обстеженні, вираженої настановної поведінки. Через неадекватну очевидну валідність реальна валідність тесту знизиться.




Поделиться с друзьями:


Дата добавления: 2015-05-22; Просмотров: 8449; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.