Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Редактирование и кодирование данных

Тема 5. Анализ данных

 

 

Следующим этапом после сбора данных идет определение значимости информации по сырым данным. Поиск значимости принимает много форм. Однако предварительные аналитические этапы редактирования, кодирования и табулирования данных являются общими для большинства исследований.

Основная цель редактирования, состоит в установ­лении некоторых стандартов минимального качества сырых данных. Редактирование включает в себя про­смотр и, если необходимо, исправление каждой анке­ты или формы регистрации наблюдений. Просмотр и внесение исправлений часто выполняются в две стадии: полевое редактирование и централизованное офисное редактирование.

Полевое редактирование — это предварительное редактирование, которое строится таким образом, чтобы обнаружить наиболее бросающиеся в глаза про­пуски и неточности данных.

Оно также полезно для контроля поведения персонала полевых сил и внесе­ния ясности в любого рода недопонимание этими сила­ми направлений их деятельности, методов, специфи­ческих вопросов и т.п. Например, в одном опросе компании Roper, проводившемся на Украине, полевое редактирование позволило обнаружить, что один ра­ботник оставлял анкеты респондентам вместо того, чтобы брать у них интервью, как было определено ин­струкцией. Наводящая подсказка приводила к возникновению разных путей хождения ответов по кругу.

В идеальных обстоятельствах полевое редактирова­ние выполняется как можно скорее после того, как анкета или другая форма сбора данных заполнена. В этом случае проблемы могут быть устранены прежде, чем проводивший сбор информации штат будет рас­формирован, и пока конкретные контакты, явившиеся источником затруднения, еще свежи в памяти прово­дивших опрос или наблюдение людей. Полевое редак­тирование обычно выполняется руководителем поле­вых работ.

Централизованное офисное редактирование - точная всеобъемлющая проверка и коррекция заполнен­ных форм сбора данных, включая принятие решения о том, что с этими данными делать.

Чтобы обес­печить логическую последовательность обработки ма­териалов, лучше всего предоставить все носители собранных данных одному человеку. Если эту работу приходится делить по соображениям ее объема и име­ющегося времени, подразделы должны определяться по частям анкеты, а не по респондентам. То есть, один редактор должен редактировать часть «А» всех анкет, а другой — часть «В».

В отличие от полевого, централизованное офисное редактирование в меньшей степени зависит от после­дующих процедур, и в большей — от степени полноты данных. При анализе необходимо решить, каким образом бу­дут обрабатываться носители собранных данных, со­держащие неполные ответы, явно неправильные отве­ты и ответы, которые отражают утрату интереса.

Исследования, в которых все вернувшиеся анкеты заполнены целиком, довольно редки. В некоторых окажутся пропущенными целые разделы. Другие будут отра­жать оставленными без ответа отдельные позиции. Ре­шение о том, каким образом обрабатывать эти неполные анкеты, зависит от серьезности пропус­ков. Анкеты, в которых пропущены целые разделы, не должны отбрасы­ваться автоматически. Может, например, быть, что пропущенный раздел относится к влиянию супруга на приобретение какой-то серьезной вещи длительного пользования, тогда как респондент в браке не состоит. Несмотря на незаполненный раздел, такой тип полу­ченного ответа определенно полезен. Если нет ника­ких позитивных соображений относительно большого количества вопросов, оставшихся без ответов, весь подобный материал будет, отброшен, а это увеличивает долю оставшихся без ответов анкет по исследованию в целом. Анкеты, содержащие только изолированные безответные позиции, должны остав­ляться, а после кодирования они могут быть под­вергнуты определенной очистке данных, о которой будем говорить позже.

Тщательное редактирование анкеты иногда показы­вает, что ответ на какой-то вопрос очевидно неправилен. Например, респондентам сначала может задавать­ся вопрос о типе магазина, в котором они приобретали фотоаппараты, а затем их просят назвать магазин. Если какое-то лицо на первый вопрос отвечает «в уни­вермаге», а затем дает название магазина, торгующего по сниженным ценам, один из ответов неверен. Возможно, редактор сумеет определить, какой из двух ответов правильный, воспользовавшись другой инфор­мацией из той же анкеты.

В процессе анализа может потребоваться какая-то полити­ка в подходе к обработке вопросов с точки зрения их правильности, когда возникают подобные несоответ­ствия или неточности иного типа. Принятая политика должна отражать цель исследования. Например, директору Восточноевропейского марке­тинга (Рерsi Соlа 1пternаtiопа1) были сданы результаты проводившегося в Венгрии опроса, в кото­рых говорилось, что аптеки американского образца являются точками сбыта безалкогольных напитков. Директор не принял эту информацию, т.к. прекрасно знал, что в Венгрии нет американских ап­тек, и что эта информация была привнесена из струк­туры анкеты, разработанной на Западе.

При анализе необходимо стремит­ся не пропустить заполненные анкеты, которые не­удачны с точки зрения пробуждения интереса респон­дента. Свидетельства отсутствия интереса могут быть и очевидными, и очень трудно распознаваемыми. Например, анкету субъекта, который проставил оценку «5» своего отношения к чему-то по пяти­балльной шкале каждой из 40 позиций анкеты, даже не обратив внимания, что некоторые позиции выражали негативное, а некоторые позитивное отношение. Ясно, что этот субъект не принял исследование всерьез, и редактор, вероятно, должен отбросить та­кой ответ. Проницательный редактор может ухитрить­ся разглядеть и более трудно различимые указания на отсутствие интереса, такие как отметки, выходящие за пределы предусмотренных для них рамок, помарки, словоизлияния на анкете и т.п. Можно не отбрасывать такие ответы, но кодировать их не­обходимо таким образом, чтобы в последующем мож­но было провести отдельные табуляции для сомнительных носителей собранных данных и явно добротных анкет. Затем эти две группы можно срав­нить, чтобы посмотреть, насколько значимо отсут­ствие интереса сказалось на результатах.

Кодирование – технический прием, с помо­щью которого данные распределяются по категориям. Прием связан со спецификацией альтернативных категорий или классов, в которые должны помещаться ответы, а самим классам должны назначаться кодовые номера. Т.е. посредством кодирования сырые данные превращают­ся в символы — обычно цифровые, которые можно табулировать и подсчитывать.

Первый этап кодирования заключается в специфи­цировании категорий или классов, к которым будут относиться ответы. Не существует какого-то идеального числа категорий. Скорее, это число будет зави­сеть от исследуемой проблемы и специальных позиций анкеты, используемых для генерирования информа­ции. Выбор ответов должен быть взаимоисключающим и исчерпывающим, чтобы каждый ответ логически по­падал в одну, и только одну, категорию. По ряду воп­росов могут использоваться и множественные ответы. Напри­мер, на вопрос: «Для каких целей вам служит йогурт?» ответы могут быть: «в качестве десерта», «как легкая вечерняя закуска», «как возможность перекусить пос­ле полудня» и т.п. С другой стороны, если вопрос со­средоточен на возрасте лица, то приемлема, конечно, только одна категория возраста, и код должен четко указывать, о какой категории идет речь.

Кодирование закрытых вопросов и большинства средств балльной оценки не сложно; потому что оно устанавливается при конструировании самой анкеты.

Кодирование открытых вопросов более сложно и более доро­гое, чем кодирование закрытых вопросов, т.к. приходится определять подходящие категории на базе ответов, которые не всегда предсказуемы. Например, меж­дународные исследования могут создавать особые про­блемы кодирования, поскольку разные понятия могут означать разные вещи. Например, консерватором на территории бывшего Советского Союза считается тот, кто желает оставаться верным «старому коммунизму» или вернуться в него, тогда как в странах Запада люди тех же взглядов видятся принадлежащими к самому левому крылу. В свою очередь, либеральными русски­ми являются те, кто желает введения в экономику и политику рыночных перспектив, которые, как прави­ло, поддерживаются на Западе консерваторами.

Если анкет слишком много, и необходимо использовать для кодирования анкет нескольких кодировщиков, дополнительной пробле­мой может стать возникновение несоответствия в са­мом кодировании. Поэтому для получения логической последовательности обработки данных, эту работу не­обходимо разделять по задачам, а не в равных долях делить анкеты между кодировщиками.

Второй этап кодирования касается назначения ко­довых номеров классов. Например, мужской пол мо­жет обозначаться буквой М, а женский — буквой Ж. Как альтернативный вариант, эти классы могут обо­значаться 1 — мужчина и 2 — женщина. Принято, для обозначения классов использовать цифры, а не буквы. На этой стадии также лучше использо­вать цифры в том виде, как они зафиксировались в фор­ме сбора данных, а не раскладывать их на более мелкие категории. Например, если имеются данные о факти­ческом возрасте людей, не рекомендуется кодировать возраст как 1 = до 20 лет, 2 = 20-29 лет, 3 = 30-39 лет и т.д. Это привело бы к ненужной потере информации в ее исходном измерении, а если возникнет необходи­мость градации, это можно будет сделать с той же лег­костью на более поздней стадии анализа.

Когда для анализа данных предполагается использо­вать компьютер, кодирование необходимо выполнять таким образом, чтобы данные оказывались готовыми для ввода в машину, поэтому полезно обеспечить нагляд­ность ввода посредством многоколонной записи. Кро­ме того, рекомендуется следовать установившимся традициям кодирования данных, т.е. располагать только один символ в каждой колонке. Когда вопрос допускает множество ответов, допускать отдельные колонки для кодирования каждого вариан­та ответа. Так, в примере с йогуртом необходимо предусмотреть отдельные колонки для тех, кто употребляет этот продукт в качестве десерта, тех, кому он служит вечерней легкой закуской, и т.д.

Использовать только числовые коды, а не буквы ал­фавита или специальные символы вроде @ или пробел. Для большинства компьютерных программ при обра­ботке статистических данных манипулирование чем-то иным, чем цифры, сопряжено с трудностями.

Необходимо использовать ровно столько колонок поля, назна­чаемого для переменной, сколько необходимо для пол­ного охвата всех ее возможных значений. Так, если переменная такова, что десяти кодов от 0 до 9 для охва­та категории недостаточно, необходимо использовать две колонки, обеспечивающие 100 кодов от 00 до 99. Кроме того, любому полю должна назначаться не бо­лее чем одна переменная.

Рекомендуется применять стандартные коды для «отсутствия информации». Так, все ответы «не знаю» должны коди­роваться цифрой 8, «нет ответов» — цифрой 9, а «не применялось» обозначаться как 0. Лучше, если во всем исследовании для каждого из этих типов «нет инфор­мации» используется один и тот же код.

Желательно кодировать в каждой записи идентификационный номер респондента. Как правило, необходимости идентифицировать в этом номере имя рес­пондента, нет. Этот код просто связывает анкету с кодиру­емыми данными. Такая информация часто полезна на этапе очистки данных. Если анкета координируется не с одной записью, то в каж­дой записи кодируются идентификационный номер респондента и порядковый номер. Колонка 10 первой записи может указывать, как респондент ответил на вопрос 2, а в колонке 10 второй записи могут содер­жаться данные о том, мужского или женского пола эта персона.

Завершающий этап процесса кодирования состоит в подготовке книги кодов, которая содержит общие ин­струкции, указывающие, каким образом была закоди­рована каждая позиция данных. В ней перечисляются коды каждой переменной и категории, включенные в каждый код. Далее в ней указывается, где в компью­терной записи располагается переменная, и каким об­разом эта переменная читается — например, с десятич­ной точкой или как целое число. Последняя информация обеспечивается установлением формата.

 

<== предыдущая лекция | следующая лекция ==>
Измерение ожиданий, восприятия и предпочтений | Табулирование данных
Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 372; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.