Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Надежность как характеристика воспроизводимости измерений и результатов исследования. 1 страница




Надежность измерений (и измерительного инструмента) во времени называют ретестовой надежностью (test-retest reliability). Ретестовая надежность оценивается по величине коэффициента корреляции между показателями, измеренными на одной и той же выборке с достаточно большим временным интервалом. Пороговым значением коэффициента корреляции при оценке ретестовой надежности считают 0.7 [Клайн, 1994, с. 25], хотя, это значение следует определять по таблице [Мюллер и др., 1982, с. 167-168, табл. 11]. Л.Ф.Бурлачук, однако, отмечает, что “для проективных и некоторых других тестов личности показатель ретестовой надежности может быть ниже, при этом диагностическая ценность методики не снижается” (цит. по [Клайн, 1994, с. 25]).

При оценке ретестовой надежности существуют две трудности. Первая - для последовательного тестирования нельзя применять идентичные тесты (см. подразд Взаимод Испыт и Эксп), а подбор и установление эквивалентности заданий - специальная задача. Трудности оценки ретестовой надежности частично преодолевают, используя “параллельные формы” теста [Бурлачук, Морозов, 1999, с. 195-196]. Другая трудность состоит в том, что второе предъявление задания должно быть отделено от первого достаточно большим временным интервалом (по крайней мере 6 месяцев), а на таких интервалах неизбежно происходит развитие объекта. Поскольку наиболее надежным признается измерение, повторяющееся в последовательных случаях, независимое от времени, Дж. Келли иронично оценил надежность как меру нечувствительности теста к изменениям объекта исследования [Франселла, Баннистер, 1987, с.136]. Заметим, что эти трудности касаются оценки именно надежности процедур измерения. Высокая надежность результатов исследования может быть достигнута и при исследовании развивающегося объекта - в случае высокой воспроизводимости закономерности для объектов, находящихся на последовательных этапах развития, или в тех случаях, когда разные стадии развития объектов описываются различными интервалами единой зависимости.

Для оценки надежности показателя, получаемого, например, в результате тестирования, используют коэффициент надежности. Он рассчитывается как отношение оценки вариации, присущей данному показателю независимо от ситуативных условий (Dc) к оценке общей вариации (суммы Dc и вариации, связанной с ошибками измерения - De):

r = Dc /(Dc +De).

Aaee?eia eiyooeoeaioa iaaa?iinoe r eciaiyaony a i?aaaeao 0 ¸1.

Стандартная погрешность измерения smeas может быть оценена через стандартное отклонение результатов данного измерения st и коэффициент ретестовой надежности rtt:

smeas = st / Ö 1- rtt [Eeaei, 1994, n. 32].

2. Надежность как внутренняя согласованность теста (self-consistency). Внутренне согласованными считают тесты, различные задания которых измеряют одни и те же переменные. Надежность по внутренней согласованности оценивают по величине коэффициентов корреляции между заданиями, составляющими тест. Чем выше внутренняя согласованность теста, тем более высоки значения коэффициентов корреляции, тем более он надежен [Бурлачук, Морозов, 1999, с. 196-199]. Понимаемую таким образом надежность теста считают предпосылкой его валидности. Следует отметить, однако, что, если оценки по различным заданиям теста высоко коррелируют, то только часть из них информативна, если же задания не связаны, то тест считается не обладающим высокой надежностью (см. [Клайн, 1994, с. 24]).

Понятие надежности обладает сходством с понятием валидности, особенно внешней (см. подразд. ВНеш.ВАЛИД), однако сходство это поверхностное: если надежность оценивает независимость от случайных, несистематических факторов, то все виды валидности страдают от влияния факторов систематических. Именно связь надежности с несистематическими, глубинными, наиболее трудно устранимыми факторами позволяет считать надежность предпосылкой достижения валидности измерения, исследовательских инструментов и исследования в целом.

IV.3.1. Валидность

 

Валидность, как и другие характеристики соответствия (репрезентативность, надежность), оценивают качество организации и выполнения исследования по соответствию результатов основным научным ценностям. Однако обеспечение репрезентативности и надежности служат лишь предпосылками валидности исследования, а валидность точно указывает на конкретные факторы, снижающие качество исследования.

Валидность, с точки зрения Р.Готтсданкера, - оценка качества данного исследования по отношению к безупречному эксперименту (см. подраздел СООТВЕТСТВИЕ). Такая оценка, как и сами понятия идеального и бесконечного эксперимента и эксперимента полного соответствия, указывает на группы факторов, снижающих степень соотвествия, но конкретные источники угроз. В отношении конкретного исследования валидность понимается как оценка обеспечения всех необходимых форм контроля. Нарушения валидности ведут к недостоверным, артефактным выводам.

Для характеристики валидности исследования сформирована весьма разветвленная система оценок, учитывающая более 30 различных видов валидности (см. обзоры и определения в руководствах [Готтсданкер, 1982; Дружинин, 1997; Клайн, 1994; Корнилова, 1997; Кэмпбелл, 1980; Reber, 1995].

IV.3.1.1. Внутренняя валидность оценивает, действительно ли выводы исследования относятся именно к представленной в гипотезе зависимости, а не какой-либо иной; для истинного эксперимента - это оценка точности интерпретации связи вариаций зависимой и независимой переменных в терминах исследовательской гипотезы. Важно заметить, что внутренняя валидность - оценка соответствия предполагаемых и выявленных зависимостей, а не терминов, в которых высказаны гипотезы и описаны закономерности, что оценивает конструктная валидность (см подразд. КОНСТР.ВАЛ).

Исследование обладает внутренней валидностью, если (а) показано точное соответствие между сформулированными выводами и гипотезой исследования и (б) доказана неприемлемость альтернативных гипотез и интерпретаций. Важно, что нечетко сформулированная гипотеза налагает ограничения на оценку внутренней валидности (см. подразд. ГИПОТЕЗА), а недостаточно широкий анализ альтернативных гипотез и точек зрения снижает ее доказанность (см. гл. ПУБЛИК). Внутренняя валидность одна из наиболее важных оценок исследования. Готтсданкер замечает: “если внутренняя валидность не достигнута, рассматривать внешнюю не имеет смысла” [Готтсданкер, 1982, с. 59].

Основные угрозы внутренней валидности исходят от смешения * влияния независимой переменной с другими переменными (см. [Кэмпбелл, 1980, с. 46]), неэквивалентности сопоставляемых групп, их изменения в ходе исследования, смещения критериев описания объектов (например, увеличение их строгости) в процессе исследования.

В список факторов, угрожающих внутренней валидности включают (см. [Готтсданкер, 1982; Дружинин, 1997; Корнилова, 1997; Кэмпбелл, 1980]):

- влияние событий, сопутствующих экспериментальному воздействию (“эффект фона”);

- изменения в состоянии испытуемых (нарастание дискомфорта, голод, усталость) или в таких харатеристиках, как возраст, уровень знаний и т.п. (“эффекты развития”);

- влияние предварительного тестирования на результаты исследования (“эффект тестирования”);

- нестабильность или иные формы погрешности измерительного инструмента (“инструментальная погрешность”) (см. подразд. НАДЕЖНОСТЬ);

- ошибочные стратегии формирования выборки и/или групп (см. подразд. ВЫБРКА): нарушения при рандомизации, формирование групп попарным уравниванием, по контрасту, неэквивалентность групп, использование естественных групп;

- динамическая, изменяющаяся во времени неэквивалентность групп из-за неравномерного выбывания испытуемых (см. подразд. ВЫБРКА).

Заметим, что обеспечение высокой внутренней валидности требует использования рафинированных условий и затрудняет перенос результатов на иные условия, особенно на естественные. В этом аспекте внутренняя и внешняя, а особенно экологическая валидность находятся в отношении реципрокности, их одновременное достижение весьма сложно (см. подразд. ВН ВАЛ; ЭК ВАЛ).

IV.3.1.2. Внешняя валидность характеризует возможность обобщения (переноса) результатов исследования на другие условия, выборки, популяции. Тот аспект внешней валидности, который характеризует возможность переноса на другие популяции, называют популяционной валидностью. В основе внешней валидности лежат различные виды репрезентативности (см. подразд. РЕПРЕЗ). Основной фактор, обеспечивающий популяционную валидность - приемы формирования выборки и групп (см. подразд. Выборка).

Результаты исследования, обладающего высокой внешней валидностью, сохраняют свое значение в широких пределах вариации всех параметров ситуации, они могут быть воспроизведены в других исследованиях с высокой точностью.

К числу факторов, угрожающих внешней валидности (см. [Готтсданкер, 1982; Дружинин, 1997; Корнилова, 1997; Кэмпбелл, 1980]), относят:

- различные нарушения репрезентативности выборки, например, формирование групп подбором пар, привлечением к исследованию “добровольцев” или “заложников”, выбор испытуемых “по доступности”, отсутствие контроля выбывания испытуемых из исследования (см. подразд. ВЫБОРКА);

- отсутствие контроля взаимодействия тестирования и экспериментального воздействия (такой контроль предусмотрен планом Соломона - см. подразд. ПЛАНЫ, ЭКСПЕРИМЕНТ);

- систематические погрешности измерения (см. подразд. ИЗМЕРЕНИЕ);

- предпочтения и предубеждения исследователя (см. подразд. ВЗАИМОД.ЭКСП.И);

- недостаточный контроль динамики состояния испытуемых, например, утомление, эффекты врабатывания (см. [Александров, Максимова, 1999]);

- изменение уровня развития испытуемых (в длительных исследованиях), (см. подразд. ВЗАИМОД.ЭКСП.И); постепенное включение испытуемых в ситуацию исследования, полученные результаты не могут быть распространены на условия, в которых испытуемые не были осведомлены о ходе исследования.

Следует упомянуть о таком эффективном способе повышения внешней валидности как совмещение множества методик оценки (измерения) эффектов. Расхождения в различных измерениях указывают на возможные источники угрозы валидности. Множественность измерений увеличивает точность сопоставления результатов данного исследования и его повторений другими исследователями.

 

IV.3.1.2.1. Экологическая валидность иногда рассматривается как дубликат понятия внешней валидности. Действительно, эти понятия характеризуют возможность обобщения результатов исследования, но экологическая валидность оценивает перенос результатов лабораторного исследования (эксперимента) не на иные лабораторные, искусственные, рафинированные условия, а на условия не лабораторные, реальные, не организованные преднамеренно. Таким образом, экологическая валидность — это оценка применимости результатов лабораторного (экспериментального) исследования к неотобранным специально объектам в нелабораторных условиях. Так, экологически валидный прием оценки креативности должен в лабораторных условиях с высокой точностью и надежностью предсказывать проявления творческих способностей в обыденной жизни.

Можно было бы полагать, что высокая экологическая валидность достижима при помощи исследований, построенных по типу “эксперимента, дублирующего реальный мир” (см. [Готтсданкер, 1982, с. 20-21]), но обеспеченных всеми необходимыми степенями контроля. Между тем внесение жесткого контроля в исследование реальных групп (см. подразд. Выборка) - несовместимы. Наиболее полный контроль возможен в исследованиях, построенных по планам истинного эксперимента, сама суть которого состоит в создании искусственных, модельных условий (см. подразд. ТИПЫ ИССЛЕД). Именно в этом противоречии проявляется основная сложность достижения высокой экологической валидности исследования.

Еще до формирования научной психологии И.-В. Гете при проведении исследований цветового зрения заметил необходимость решения проблемы, которую сейчас мы обозначаем понятием «экологическая валидность»: «Друзья, бойтесь темной камеры, в которой человек, скрючившись, рассматривает неестественные изображения» (Zahme Xenien).

А.Ньюэлл, анализируя 59 экспериментальных процедур, использованных участниками медународного симпозиума по психологии восприятия (1973 г.), характеризует 57 из них как искусственные, лабораторные ситуации и лишь две - как обладающие элементами экологической валидности - игру в шахматы и рассматривание Луны. [Newell A. You can play 20 questions with nature and win: projective comments on the papers of this symposium. In: Visual information processing. (W.G. Chase, ed.) N-Y, Academic Press, 1973 (цит. по Найссер, 1981].

Списки факторов, угрожающих экологической и внешней валидности, пересекаются. В число наиболее существенных угроз входят:

- несоответствие уровней переменных, примененных в исследовании, пределам реальной вариативности этих переменных;

- осведомленность испытуемых об участии в исследовании и его целях;

- отсутствие контроля побочных переменных характерных именно для лабораторных условий, в частности, для взаимодействия испытуемых и исследователей (см. подразд. ВЗАИМОД ИСП И ЭКСП);

- отсутствие контроля побочных переменных, влиятельных в нелабораторных условиях.

 

IV.3.1.3. Конструктная валидность характеризует точность (определенность) перевода исходно общепсихологических, или парадигмальных понятий, имеющих, как правило, общетеоретический характер, в понятия, в которых формулируется исследовательская гипотеза, обозначения свойств объекта исследования, экспериментального воздействия, побочных и добавочных переменных, экспериментального эффекта; соответствие между теоретическими конструктами и обозначаемыми ими объектами и явлениями, между положениями теории и их реализацией в конкретном исследовании.

Очевидно, что эта форма валидности зависит от точного следования требованиям парадигмы. Соблюдение конструктной валидности требует формулирования альтернативных интерпретаций того, как причина и следствие соотносятся с теоретическими понятиями. Серьезную угрозу конструктной валидности представляет смешение конструктов, заимствованных из разных парадигм. Признаками угрозы конструктной валидности может служить формулировка исследовательской гипотезы в общетеоретических терминах, а не в терминах переменных, а также отсутствие теоретической интерпретации эмпирических результатов исследования.

ГИПОСТАЗИРОВАНИЕ!!!! Характерно для методик, которые были созданы в рамках уже устарелых концепций. Следует доказывать конструктную валидность таких методик, а также в случае использования методик вне в тех концепциях, в которых они были развиты.

IV.3.1.3. Операциональная валидность конкретного исследования определяется соответствием методических приемов, формирующих переменные (см. подразд. ПЕРЕМ), понятиям иследовательской гипотезы (см. подразд. ГИПОТ), включая процедуры управления независимой переменной [Корнилова, 1997, с. 128].

Операциональная валидность субординирована по отношению к конструктной валидности. Так, общепсихологическое понятие “интеллект” в результате огромного количества теоретических и эмпирических исследований, раскрывается в конкретных понятиях “вербальный”, “невербальный”, “общий”, “текучий”, “кристаллизованный” интеллект и т.д. Точность этого преобразования понятий характеризуется конструктной валидностью. Понятия, производные от общетеоретического понятия “интеллект”, доступны эмпирическому оцениванию, измерению. Для этого разработано множество специальных измерительных инструментов, например, тесты интеллекта Айзенка, Амтхауэра, Кэттелла и мн. др., в результате применения которых формируются переменные, оценивающие определенные характеристики интеллекта. Точность измерения, операционализации понятий в переменных характеризуется операциональной валидностью. В качестве примера см. также процедуры операционализации понятий в работах К.Левина [Левин, 2000] (см. подразд. ФАКТ).

Основные угрозы операциональной валидности:

- неправильный выбор инструментов или процедур измерения;

- недостаточно разработанные или адаптированные методики, инструменты или процедуры формирования переменных.

Серьезную угрозу операциональной валидности могут составить нарушения конструктной валидности.

IV.4. Статистический вывод

В математической статистике выделяют две области. Описательная или дескриптивная статистика - система приемов, которые обеспечивают сбор данных, их систематизацию (представление в виде таблиц, графиков и т.д.) и обобщение (описание распределений и т.п.). Индуктивная статистика, или статистика вывода, предоставляет возможности проверки статистических гипотез и формулирования статистически достоверных выводов исследования, используя результаты применения описательной статистики.

Статистические критерии. Исследовательская гипотеза, высказанная в терминах теоретических конструктов или показателей, переформулируются в статистические гипотезы H0 и H1, которые представляют исследуемый объект в терминах переменных или показателей, если они используются в сыром виде (см. подразд. ГИПОТЕЗЫ, ПЕРЕМЕННЫЕ).

Правила, согласно которым отклоняется гипотеза H0(об отсутствии различий) или H1 (о значимости различий)(см. подразд. IV.2.3), называются статистическими критериями. Применение термина «отклонить» или «отвергнуть» гипотезу, а не «принять» – принципиально важно, та как возможно принять несколько взаимоисключающих гипотез одновременно [Доугерти, 2001, с. 98]. Математическая статистика изначально строилась в соответствии с основными положениями гипотетико-дедуктивного метода, в своей практике предвосхищая принцип фальсификации.

Использование статистических критериев дает основания для оценки уровня значимости различий — вероятности принятия ошибочных решений. Критическая величина уровня значимости устанавливается относительно произвольно: в соответствии со степенью ответственности принимаемого решения (ценой ошибочного суждения), с традициями области знания. Уровень значимости – вероятность ошибки 1-го рода, то есть вероятность отклонения гипотезы H0в случае если она верна (см. подразд. IV.3.4.1). В психологии низшим приемлемым (пороговым) уровнем значимости принято считать 5%-ную вероятность ошибки 1-го рода (p£0.05). Пороговый уровень значимости разделяет континуум эмпирических значений критерия на три зоны: (1) незначимости различий (например, при соответствии критерия p>0.05, гипотеза H0принимается, а H1отклоняется); (2) неопределенности, (0.05£p³0.01), гипотеза H0отклоняется, но преимущество гипотезы H1неопределенно; (3) значимости различий (p£0.01), гипотеза H0отклоняется, а H1принимается определенно. Для некоторых критериев (критерия знаков G, критерия T Вилкоксона, критерия U Манна—Уитни) отношения значения критерия и уровня значимости инвертированы: гипотеза H0 отклоняется при p³0.05 (см. [Сидоренко, 1996, с. 30]. Следует обратить внимание на то, что при оценке нормальности распределения по критерию Колмогорова-Смирнова, именно при высоких значениях p принимается гипотеза H0о равенстве распределений, так, что при p£0.05 оцениваемое распределение достоверно отклоняется от нормального, а при высоких значениях, например, при p>0.10 может быть оценено, как более близкое к нормальности.

По мере формирования точного знания об объекте исследования увеличивается жесткость статистических критериев, определенность статистических суждений. В исследованиях выделяют эксплораторную и конфирматорную стадии. Эксплораторная (поисковая, “разведочная”) стадия направлена на выявление и описание характеристик данных, их структуры и закономерностей их связей, но не на проверку гипотез о точных значениях параметров моделей изучаемых объектов. Конфирматорная (подтверждающая) стадия разворачивается после завершения эксплораторной стадии, она направлена на установление точных значений величин, коэффициентов моделей описывающих изучаемый объект. На эксплораторной стадии допускают менее жесткие статистические критерии, чем на конфирматорной. Наибольшее развитие разделение исследования на эти стадии получило в факторном анализе. Эксплораторный факторный анализ направлен на выявление скрытой факторной структуры данных без проверки гипотез о количестве факторов и их нагрузках; конфирматорный анализ - на проверку гипотез о количестве факторов и их нагрузках [Ким, Мьюллер, 1989]

Параметрическая и непараметрическая статистика. Статистические критерии делят на параметрические учитывающие параметры (средние и дисперсии) распределений сравниваемых величин, и непараметрические, не принимающие параметры распределения во внимание. Для использования параметрических критериев данные должны быть измерены в шкале интервалов или отношений (не в порядковой шкале!), распределение величин должно быть нормальным. Непараметрические критерии могут быть применены к данным, измеренным в любой шкале, включая номинальную, независимо от их распределения [Рунион, 1982; Сидоренко, 1996; Толстова, 2000]. При выборе статистических критериев следует учитывать, что хотя непараметрические критерии более универсальны, чем параметрические, поскольку применимы к любым данным, независимо от шкалы в которой они измерены и их распределения, параметрические критерии обладают большей мощностью. Мощность критерия - его возможность не допустить ошибки 2-го рода, т.е не принять гипотезу H0в случае ее ошибочности (см. далее).

Распределение переменных. Для того, чтобы применить параметрические критерии, следует строго контролировать характеристики распределений переменных. Для этого применяют критерии c2-критерий Пирсона и l-критерий Колмогорова-Смирнова [Сидоренко, 1996, с. 113-151]. При этом недостаточно опираться только на числовые значения этих критериев, предпочтительно также контролировать форму распределения визуально, особенно при небольших объемах выборки.

Некоторые отклонения от нормальности можно компенсировать преобразованием переменных. Так, для распределения времени реакции (ВР) характерна левая, положительная асимметрия. Логарифмирование величин ВР позволяет приблизить форму распределения к нормальной. Для компенсации правой (отрицательной) асимметрии значения переменных возводят в квадрат. В меню статистических пакетов включены обобщенные способы нормализации распределений. Например, SPSS включает процедуру аппроксимации нормального распределения, предложенную Тьюки: значения переменных пересчитываются по формуле:

(r – 1/3) / (w + 1/3),

где r – ранг значения, а w сумма весов значений. Применяя приемы нормализации распределения переменных, следует контролировать параметры полученных распределений. Не следует упускать из виду, что в результате расчетов получаются переменные не идентичные исходным, это уже другие переменные. Важно, что процедуры норммализации не могут изменить (повысить) шкалу, в которой были измерены переменные (см. подразд. Шкалы, особенности исп. шкал). Сюда ссылку на Мостеллер и Тьюки – преобразование данных

Для удобства работы с нормально распределенными переменными используют Z -оценки, которые расчитываются по формуле:

Z = (xi - M)/s,

где хi - значение переменной, M - среднее арифметическое, а s - стандартное отклонение распределения. Таким образом, Z- оценка значений показывает, насколько единиц стандартного отклонения данное значение отличается от средней арифметической. Значения, меньшие среднего, имеют отрицательную величину, а большие - положительную. Преобразование оригинальных величин в Z -оценки позволяет представить любую совокупность, распределение которой приближено к нормальному, в едином масштабе. К этой процедуре прибегают при стандартизации тестов [Бурлачук, Морозов, 1999], а также при применении многомерных статистических процедур.

Независимость наблюдений. Когда это требование нарушается, по одним значениям переменной можно предсказать другие. Это возможно, если наблюдается тренд (направленное изменение) значений переменной на протяжении измерений, или переменная нестационарна – характеристики ее распределения либо градуально, либо периодически изменяются. Существуют ограничения использования таких переменных в статистических процедурах (см. [Гусев, 2001, с. 11; Статистический справочник; ДРУГИЕ].

 

Независимость переменных. При применении многомерных статистических процедур, таких как факторный, дискриминантный и кластерный анализ, множественная регрессия, следует контролировать статистическую независимость переменных.

Высокая корреляция между некоторыми переменными (коллинеарность) неизбежно дает неустойчивое решение: даже весьма незначительные изменения в значениях переменных приводит к катастрофическим изменениям в построенной модели. Для выявления таких переменных применяют тесты на коллинеарность, например, тест на толерантность. Значение толерантности показывает, какая доля вариативности данной независимой переменной объясняется всеми другими независимыми переменными, включенными в анализ. Эта величина расчитывается по формуле:

Tol = 1 - R2,

где R2 - коэффициент множественной корреляции расчитанный для модели, в которой оцениваемая переменная - зависимая, а все остальные переменные - независимые. Переменные, значения толерантности для которых не достигает пороговой величины, удаляются из анализа. Считается, что предельно низкое значение толерантности - 0.0001; жесткие значения составляют 0.1 ¸ 0.3.

Шкалы, в которых измерены переменные. Различные статистические приемы требуют оценивания зависимых и/или независимых переменных в строго определенных шкалах. Так, в рамках дисперсионного анализа независимые переменные должны быть измерены в номинальных или порядковых шкалах, а зависимые – в шкалах выше порядковой (и нормально распределены вокруг среднего значения для каждой из сравниваемых групп). Факторный анализ требует измерения переменных в шкалах выше порядковой и нормально распределены, хотя в практике использования факторного анализа в психологических исследованиях это правило часто нарушается и используются переменные, измеренные в порядковых шкалах. Существуют процедуры, которые решают задачи факторизации данных (т.е. замены исходного набора переменных меньшим количеством вновь рассчитанных некоррелированных переменных), измеренных в номинальных, порядковых, интервальных шкалах или в шкале отношений, а также любой смеси этих видов переменных, например процедура PRINCALS, входящая в состав пакета SPSS 6.1. Для проведения регрессионного анализа и зависимые и независимые переменные должны быть даны в шкалах выше порядковой (и нормально распределены), а для логистического регрессионного анализа зависимые переменные - в номинальной шкале, а независимые - в номинальной, порядковой или в количественных шкалах.

Ошибки статистического вывода. Кроме ситуации, когда применение статистики не позволяет принять определенное решение о значимости различий (см. предыдущий подразд.), и двух случаев правильных решений о приемлемости H0или H1, возможно совершение ошибок двух родов: (1) ошибкой 1-го рода называют отклонение гипотезы H0, в то время как она верна; (2) ошибка 2-го рода состоит в принятии гипотезы H0, в то время как она неверна (см. [Дружинин, 1997, с. 221—223; Сидоренко, 1996, с. 30—33].

Цена ошибок 1-го и 2-го рода на разных стадиях формирования знания об объекте различна. Можно полагать, что ошибка 2-го рода (ошибочное отвержение правильной исследовательской гипотезы H1) более нежелательна в начале исследования, поскольку может прекратить все дальнейшие работы. Однако считают, что на завершающих стадиях исследования более тяжкие последствия имеет ошибка 1-го рода (ошибочное отвержение нулевой гипотезы H0); (см. выше: эксплораторная и конфирматорная стадия исследования).

Наиболее распространенные ошибки статистического вывода связаны с:

(1) недостаточным объемом выборки (см. подразд. ГЕНЕР СОВОК, ВЫБОРКА);

(2) нерепрезентативностью выборок (см. подразд. ГЕНЕР СОВОК, ВЫБОРКА);

(3) недостаточно высоким отношением количества объектов к количеству переменных, описывающих эти объекты (объектов должно быть больше, чем переменных, по крайней мере в 10 раз) (см. подразд. ПЕРЕМенн);

(4) нарушением требования статистической независимости переменных или результатов отдельных проб (например, при применении множественной регрессии, из-за занижения критерия толерантности, см. выше);

(5) неправильным выбором статистических методов - использованием параметрических статистик для анализа данных, измеренных в порядковых или даже в номинальных шкалах; применением критериев, предназначенных для анализа нормально распределенных величин, к данным, распределенным по другим законам, например, применение t-теста к данным, измеренным в порядковой шкале, или измеренным в интервальной шкале, но распределенным с отклонением от нормального закона (см. подразд. ИЗМЕРЕНИЕ);

(6) интерпретацией корреляционной связи, как связи ориентированной, имеющей направление (см. подразд. Принцип Детерм; Эксперимент);




Поделиться с друзьями:


Дата добавления: 2014-12-27; Просмотров: 593; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.012 сек.