Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Процедура очищения данных




Процедура очищения данных (data cleaning) заключается в проверке состоятельности собранных данных и работе с пропущенными ответами.

Предварительная проверка состоятельности собранных данных проводится на этапе редактирования, но проверка, которая проводится на стадии очищения данных, намного точнее и тщательнее, поскольку выполняется с использованием компьютерной техники.

Проверка состоятельности данных

Проверка состоятельности данных (consistency checks) позволяет выявить данные, выходящие за пределы определенного диапазона, и логически непоследовательные ответы либо определить экстремальные значения.

Проверка состоятельности данных (consistency checks)

Часть процесса очищения собранных данных, когда исследователь выявляет данные, выходящие за пределы конкретного диапазона, и логически непоследовательные ответы либо определяет экстремальные значения. Данные со значениями, не указанными в кодировочной схеме, не принимаются. Значения, выпадающие из конкретного диапазона, нельзя использовать в анализе, и их необходимо исправить. Представим, например, что респондентов попросили выразить степень их согласия по ряду вопросов относительно стиля жизни по шкале от 1 до 5. Код 9 используется для обозначения пропущенных ответов, а значения 0, 6, 7 и 8 выходят за пределы назначенного диапазона.

Существует множество компьютерных пакетов, например APSS, SAS, BMDP, Minitab и Excel, с помощью которых можно написать программы выявления по каждой переменной значений, выходящих за пределы определенного диапазона, а также распечатать код респондента, код переменной, название переменной, номер записи и столбца и выпадающее из необходимого диапазона значение. Все это значительно упрощает процедуру систематической проверки каждой переменной по каждому ее значению, выходящему из определенного диапазона. Правильные ответы можно определить, возвратившись к отредактированному и закодированному варианту анкеты,

Различают несколько типов логической непоследовательности ответов. Так, респондент может указать, что обычно при междугородних переговорах пользуется специальной карточкой, но при этом отметить, что ни разу не звонил. Либо респондент указывает, что часто пользуется каким-то товаром, и в то же время отмечает, что никогда его не приобретал. Чтобы выявить такие ответы и провести соответствующую корректировку, всю необходимую информацию (код респондента, код переменной, название переменной, номер записи и столбца и выпадающее из необходимого диапазона значение) нужно распечатать,

И наконец, необходимо тщательно проанализировать экстремальные значения. Следует помнить, что экстремальные значения — не всегда результат ошибок, нередко они указывают на то, что существуют определенные проблемы с качеством собранных данных. Например, чрезмерно заниженная оценка какой-либо торговой марки может быть результатом того, что респондент просто без разбора пометил 1 по всем ее характеристикам (по рейтинговой шкале от 1 до 7).

Пропущенными ответами (missing responses) называют значения переменных, которые остались неизвестными исследователю либо потому, что ответы респондентов были неоднозначны, либо неправильно или неразборчиво записаны.

Пропущенные ответы (missing responses)

Значения переменных, неизвестные по причине того, что респонденты не дали однозначных ответов на предложенный вопрос. Работа с пропущенными ответами связана с рядом проблем, особенно если доля таких ответов превышает 10%. Существует несколько методов работы с пропущенными ответами.

Замена пропущенного значения нейтральным. По этому методу вместо пропущенных ответов подставляются нейтральные значения, обычно среднее значение по данной переменной. При этом среднее значение переменной остается неизменным, а другие статистические данные, например корреляция, искажаются незначительно. Хотя этот подход и имеет ряд преимуществ, подстановка среднего значения (например, 4) вместо всех пропущенных ответов респондентов весьма неоднозначна и сомнительна, если учесть, что если бы они все же ответили, то могли бы выбрать значительно более высокий (например, 6 или 7) или более низкий (1 или 2) рейтинговый показатель.

Замена пропущенного значения условным (вменение значений). Для определения условного значения или вычисления подходящих ответов на пропущенные вопросы можно использовать структуру ответов респондентов по другим вопросам. На основе имеющихся данных исследователь пытается определить, какие ответы дал бы конкретный респондент, если бы он ответил на все вопросы. Это можно сделать статистически, на основе собранных данных, определив взаимосвязи между пропущенной переменной и другими переменными. Так, показатель частоты использования товара можно связать с размером семей респондентов, предоставивших информацию по этим показателям. Затем пропущенные данные по использованию товара можно вычислить, воспользовавшись показателем размера семьи респондента. Однако следует помнить, что этот метод очень трудоемок и нередко серьезно искажает данные. Чтобы избежать этого, для вычисления условных значений по пропущенным ответам разработаны сложные статистические процедуры, о чем рассказывается в следующем примере.

Исключение объекта целиком. При исключении объекта целиком (casewise deletion) все наблюдения или респонденты с пропущенными ответами исключаются из анализа. Поскольку нередки случаи, когда многие респонденты не отвечают на те или иные вопросы, данный метод может вызвать значительное сокращение выборки. Следует помнить, что исключение большого количества данных нежелательно, поскольку процесс сбора данных дорог и требует больших временных затрат. Кроме того, респонденты с пропущенными значениями систематически отличаются от респондентов, ответивших на все вопросы. В таких случаях исключение по данному методу может значительно исказить результаты опроса.

Попарное исключение переменных. При попарном исключении (pairwise delition) вместо отбраковывания всех случаев с любыми отсутствующими значениями исследователь во всех своих вычислениях рассматривает только наблюдения или респондентов, по которым есть полные ответы.

 




Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 381; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.011 сек.