КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Проверка данных
Ранжирование должностного статуса Ранжирование уровней образования
Разумеется, включая в обработку полученные таким образом числовые величины, мы не всегда обнаруживаем ясно выраженную зависимость этих параметров от остальных. Тем не менее мы получаем возможность хотя бы приблизительной оценки взаимосвязей. Эту оценку можно сделать и другими способами. Например, при компьютерной обработке и использовании системы управления базой данных можно формировать подвыборки по разным основаниям деления, в том числе и по уровню образования или должностному статусу, и проверять различия между отдельными категориями выборки. Таблица 10
Описанное числовое кодирование полезно для предварительного (разведочного) анализа - немного шансов выявить отчетливые закономерности, но проделать эту работу полезно. Включение, например, в корреляционный анализ таких числовых величин может обнаружить существование или отсутствие взаимосвязей с другими параметрами, позволит не тратить время на более сложные процедуры.
После создания таблицы на бумаге или компьютере необходимо проверить качество полученных данных. Для этого часто достаточно внимательно осмотреть массив данных. Начать проверку следует с выявления ошибок (описок), которые заключаются в том, что неправильно написан порядок числа. Например, 100 написано вместо 10, 9,4 - вместо 94 и т. п. При внимательном просмотре по столбцам это легко обнаружить, поскольку сравнительно редко встречаются параметры, которые сильно варьируют. Чаще всего значения одного параметра имеют один порядок или ближайшие порядки. При наборе данных на компьютере важно соблюдать требования к формату данных в используемой статистической программе. Прежде всего это относится к знаку, который должен отделять в десятичном числе целую часть от дробной (точка или запятая).
Затем массив данных надо проверить на наличие «выскакивающих», вариант - выделяющихся значений, которые могли быть получены в результате неточных измерений, ошибок в записях, отвлечения внимания испытуемого и т. д. Если обнаружены «подозрительные» значения, то принять обоснованное решение об их выбраковке, используя достаточно мощный параметрический критерий t. Он рассчитывается по следующей формуле: V – M t = 0 > t st
где t - критерий выпада; V — выпадающее значение признака; М- средняя величина признака для всей группы, включающей артефакт; tst - стандартные значения критерия выпадов, определяемые для трех уровней доверительной вероятности по таблице приложения 1. Смысл критерия в том, чтобы определить, находится ли данная варианта в интервале, характерном для большинства членов выборки, или же вне его.
Допустим, нами принят уровень значимости 0,05 (доверительная вероятность 0,95), а значение критерия составило 1.5. Поскольку 95 % вариант лежат в пределах М ± 1,96 о (1,5 меньше 1,96), то, следовательно, и данная варианта лежит в указанном интервале. Если же значение критерия больше, например, 2,4, то это означает, что данное значение не относится к анализируемой совокупности (выборке), включающей 95 % вариант, а есть проявление иных закономерностей, ошибок и пр. и поэтому должно быть исключено из рассмотрения.
Например, в эксперименте вы предлагаете решать мыслительные задачи и регистрируете в числе других параметров время решения. При просмотре данных обнаруживаете, что у одного из испытуемых время решения заметно больше, чем у остальных. Это бывает связано с тем, что вместо решения очередной задачи испытуемый начинает «искать закономерность более широкого плана», «выводить общий принцип» или нечто подобное. Об этом он может сообщить, но может и не сообщить экспериментатору. Понятно, что время решения конкретной задачи при этом может сильно отличаться от средней величины. Если у вас есть предположение, что результаты какого-либо опыта, пробы обусловлены влиянием, которое вы не можете оценить или его оценка не входит в ваши планы, то вы окажетесь перед необходимостью принять обоснованное решение - включать полученное численное значение в дальнейшую обработку или нет.
Предположим, в эксперименте были получены следующие значения некоторого параметра: 10,20, 20, 30, 30, 40,40, 50, 210. Следовательно, п = 9. Вычислили: М = 50, а = 61. Можно ли считать значение 210 выпадающим? t = 210 – 50 = 2,6; (по табл.) = 2,4 (для Р = 0,95;. 61 Следовательно, значение 210 может считаться выпадающим и должно быть исключено из дальнейшей обработки. После исключения выпадающих значений первичные статистические параметры вычисляются заново. Вопрос № 2
Дата добавления: 2014-01-06; Просмотров: 263; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |