Компьютерные программы для подготовки данных

Классификация статистических методов.

Выбор стратегии анализа собранных данных.

Статистической корректировки данных

Процедура очищения данных

Преобразование данных

Создание системы кодирования.

1. Подготовка данных к анализу. Процесс подготовки данных к анализу состоит из следующих этапов:

-проверка анкет,

-редактирование,

-кодирование,

-преобразование,

-очищение данных,

-статистическая корректировка данных,

-выбор стратегии анализа данных.

ПРОВЕРКА АНКЕТ

Первый этап проверки анкет заключается в их проверке на полноту заполнения и качество интервьюирования. Зачастую этот процесс ведется параллельно с полевыми работами. Следует отметить, что если эта процедура выполняется по контракту специализированным агентством, исследователь обязан провести независимую проверку после ее завершения. Анкеты, поступившие с мест сбора данных, могут быть не приняты по следующим причинам.

1.Не заполнены отдельные части анкеты.

1. Представленные ответы свидетельствует о том, что респондент не понял вопросов либо не точно следовал инструкциям по заполнению анкеты. Например, не был соблюден шаблон пропусков ответов.

2. Ответы варьируются очень незначительно или не варьируются вовсе, например, респондент пометил одни четверки в серии семибалльных рейтинговых шкал.

3. Возвращенная анкета является неполной — отсутствует одна или несколько страниц.

4. Анкета получена по истечении заранее определенного срока сдач и, Ответы в анкете даны респондентом, не входящим в группу, выделенную для участия в наследовании.

2. Редактирование данных. «Полевое» редактирование и централизованное офисное редактирование.

Редактирование (фр. rédaction от лат. redactus – приведённый в порядок)

Процесс редактирования (editing) заключается в обработке собранных анкет для повышения точности и аккуратности представленных в них данных. Чтобы правильно закодировать данные, они должны быть читабельными. Кроме того, анкеты могут содержать несколько или множество вопросов без ответов.

На этапе редактирования исследователь проводит предварительную проверку анкет на предмет логической непоследовательности представленных в них ответов. Так, возможна ситуация, когда респондент сообщает, что его годовой доход составляет не больше 20 тысяч долларов, но при этом указывает, что является постоянным покупателем таких престижных универмагов, как Saks -------------------------------.

Нередки ситуации, когда респондент помечает больше одного варианта ответа на вопрос, по которому необходимо дать однозначный ответ.

Полевое редактирование – это предварительное редактирование, проводимое у руководителем, полевых исследований, которое строится таким образом, чтобы обнаружить наиболее бросающиеся в глаза пропуски и неточности средства сбора и самих данных.

Оно также полезно для контроля поведения персонала полевых сил и внесения ясности в любого рода недопонимание этими силами направлений их деятельности, методов, специфических вопросов и т. п. В идеальных обстоятельствах полевое редактирование выполняется как можно скорее после того, как форма сбора данных заполнена. В этом случае проблемы могут быть устранены прежде, чем проводивший сбор информации штат будет расформирован, и пока конкретные контакты, явившиеся источником затруднения, еще свежи в памяти проводивших наблюдение людей. Полевое редактирование обычно выполняется руководителем полевых работ.

За полевым редактированием обычно следует централизованное офисное редактирование, которое заключается в более полной и точной проверке и коррекции собранных ответов.

Централизованное офисное редактирование – это точная всеобъемлющая проверка и коррекция заполненных форм сбора данных, включая принятие решения о том, что с этими данными делать. Для этой работы подходит личность, обладающая «острым глазом» и хорошо знакомая с целями и методами исследования. Чтобы обеспечить логическую последовательность обработки материалов, лучше всего предоставить все носители собранных данных одному человеку. Если же эту работу приходится делить по соображениям ее объема и имеющегося времени, то разделы должны делиться по частям формы, а не по респондентам. В отличие от полевого, централизованное офисное редактирование в меньшей степени зависит от последующих процедур, и в большей — от степени полноты данных.

Работа с ответами неудовлетворительного качества:

При получении анкет, содержащих ответы неудовлетворительного качества, их обычно отправляют обратно на места сбора данных для уточнения, либо назначаются пропущенные значения, либо такие анкеты отбраковываются и не включаются в анализ.

Возврат анкет на место сбора данных. Анкеты, содержащие неудовлетворительные результаты опроса, возвращаются на места сбора данных, и интервьюеров обязуют провести повторное интервью. Такой вариант обычно применяется при проведении промышленных маркетинговых исследований, для которых характерны выборки небольших размеров и идентифицировать респондентов, предоставивших ответы низкого качества, не составляет большого труда. Однако данные, полученные в результате вторичного опроса, могут сильно отличаться от первоначальных. Эта разница обуславливается. например, тем, что между опросами прошло определенное время, а также тем, что опросы проводились с использованием разных режимов (например, первый раз по телефону, а второй — в ходе личного контакта).

Назначение пропущенных значений. Если возвращение анкеты на место сбора данных признано экономически нецелесообразным, редактор может самостоятельно присвоить неудовлетворительным откликам пропущенные значения. Рекомендуется применять этот метод в следующих случаях: если количество респондентов, ответы которых признаны неудовлетворительными, невелико; доля ответов неудовлетворительного качества ответах каждого респондента незначительна; переменные по неудовлетворительным ответам не основные.

Отсеивание анкет респондентов, содержащих ответы неудовлетворительного качества. При этом методе респонденты, предоставившие ответы неудовлетворительного качества, просто отбраковываются и их анкеты не включаются в анализ. Данный способ эффективен в следующих случаях: если доля "неудовлетворительных" респондентов невелика (меньше 10%); если размер выборки велик; если "неудовлетворительные" респонденты явно не отличаются от "удовлетворительных" (например, по демографическому признаку или основным характеристикам использования товара); если доля неудовлетворительных откликов на каждого респондента велика; если пропущены ответы по основным переменным. Однако бывают ситуации, когда "неудовлетворительные" респонденты отличаются от "удовлетворительных" либо решение признать респондента "неудовлетворительным" предельно субъективно. В этих случаях использование данного метода повлечет за собой искажение данных. Если исследователь принимает решение отбраковать неудовлетворительные ответы того или иного респондента, он должен отчитаться, на основе какой именно процедуры он идентифицировал данного респондента. Это подтверждается следующим примером. Если были определены конкретные квоты респондентов, либо назначены размеры ячеечных групп, все принятые анкеты необходимо соответствующим образом классифицировать и подсчитать. Любые проблемы, связанные с выполнением требований, предъявляемых к выборкам, должны выявляться своевременно, и необходимые корректировочные мероприятия, например, дополнительные интервью в ячейках, представленных по результатам опроса недостаточно полно, следует провести перед тем, как приступать к редактированию данных.

ПРИМЕР. Отсеивание респондента из анализа

В процессе межкультурного исследования поведения менеджеров по маркетингу в ряде англоязычных африканских стран разослали анкеты в 565 фирм. Возвращено было 192 заполненные анкеты, из которых четыре сразу отбраковали, поскольку респонденты ответили, что они не несут непосредственной ответственности за принятие решений общего характера в маркетинге. Решение об отсеивании этих четырех анкет приняли на том основании, что размер выборки был достаточно велик, а доля "неудовлетворительных" респондентов незначительна.

3. Характеристики данных, проверяемые при «полевом» редактировании

1. Полнота. Проверка полноты включает в себя тщательное просматривание формы данных с целью обеспечения уверенности в том, что ни одна страница не пропущена, а также проверку отдельных пунктов. Пустое место для ответа на какой-то вопрос может означать, что респондент отказался отвечать; в равной мере это может быть отражением пропуска по вине респондента или того, что он или она не знает ответа. Обычно, с точки зрения целей исследования, очень важно знать, какая из этих причин верна. Можно надеяться, что посредством контакта с интервьюером, пока опросы еще свежи в его памяти, руководитель полевых работ сможет получить необходимые разъяснения.

2. Удобочитаемость. Важно кодировать форму, которая не может быть сведена к цифровой форме, чтобы избежать проблемы неразборчивости почерка или непонятных сокращений слов. Их использование — вопрос упрощения исправлений на месте, тогда как позднее они зачастую выливаются в большую потерю времени.

3. Вразумительность: иногда зарегистрированные действия невразумительны для всех, кроме того, кто проводил наблюдение. При обнаружении такой ситуации на месте руководитель полевых работ может получить у него необходимое разъяснение.

4. Логическая последовательность. Наличие непоследовательности обычно указывают на ошибки сбора или регистрации данных, но могут свидетельствовать о двусмысленности используемых средств или беззаботном отношении к выполнению работы. Например, если респондент показывает, что он или она смотрели прошлым вечером по телевизору коммерческую рекламу, в одной части анкеты, а позднее отвечают, что прошлым вечером телевизор не смотрели.

5. Единообразие: очень важно, чтобы наблюдения регистрировались единообразными блоками. Если, например, исследование нацелено на определение количества журналов, прочитываемых индивидом в неделю, а респондент указывает количество журналов, на которые он или она ежемесячно подписываются, база ответов оказывается не единообразной, и на следующей стадии анализа результат может оказаться сомнительным. Если проблема обнаруживается прямо в полевых условиях, не исключено, что тот, кто брал интервью, сможет повторно встретиться с респондентом и получить правильный ответ.

4.Создание системы кодирования.

Процедура кодирования (coding) заключается в присваивании кода, обычно цифрового, каждому возможному варианту ответа по каждому вопросу.

Информация, полученная в результате исследования и образующая код, распределяется по столбцам. Посредством кодирования сырые данные превращаются в символы — обычно цифровые, которые можно табулировать и подсчитывать. Однако это преобразование не должно осуществляться автоматически; оно требует внимания кодировщика. (Табулирование заключается просто в подсчете количества событий, которые попадают в различные категории. Табулирование может принимать форму простой табуляции или перекрестной табуляции ----- ПРОСТАЯ ТАБУЛЯЦИЯ

Подсчет количества событий, которые попадают в каждую категорию, когда категории базируются на одной переменной. ПЕРЕКРЕСТНАЯ ТАБУЛЯЦИЯ --Подсчет количества событий, которые попадают в каждую из нескольких категорий, когда категории базируются на двух и более переменных, рассматриваемых одновременно).

Код включает указание на положение столбцов (полей) и информации, которая в них содержится. Так, пол респондентов может кодироваться следующим образом: 1 — для женщин и 2— для мужчин. Поле отображает единичный элемент данных, например пол респондента. Запись состоит из ряда соответствующих полей: пол, семейное положение, возраст, состав семьи, занятие респондента и т.д. Все демографические и личностные характеристики респондента, как правило, содержатся в одной регистрационной записи. Обычно каждая запись состоит из 80 столбцов, хотя это и не обязательное условие. На одного респондента можно завести несколько записей.

Первый этап кодирования заключается в специфицировании категорий или классов, к которым будут относиться ответы. число будет зависеть от исследуемой проблемы и специальных позиций анкеты, используемых для генерирования информации. Выбор ответов должен быть взаимоисключающим и исчерпывающим, чтобы каждый ответ логически попадал в одну, и только одну, категорию. По ряду вопросов правомерны и множественные ответы. Например. на вопрос: «Для каких целей вам служит Jell-O?» ответы могут быть: «в качестве десерта•. «как легкая вечерняя закуска. «как возможность перекусить после полудня» и т. п. С другой стороны, если вопрос сосредоточен на возрасте лица, то приемлема, конечно.

только одна категория возраста, и код доджем четко указывать, о какой категории идет речь.

Кодирование закрытых вопросов и большинства средств балльной оценки не представляет трудностей, потому что оно устанавливается при конструировании носителя собираемых данных. Затем респонденты кодируют себя своими ответами, или их кодирует тот, кто берет интервью, регистрируя ответы в предусмотренной для этого контрольной ведомости.

Кодирование открытых вопросов может оказаться весьма затруднительным и зачастую много более дорогим, чем кодирование закрытых вопросов. Кодировщику приходится определять подходящие категории на базе ответов, которые не всегда предсказуемы. Международные исследования могут создавать особые проблемы кодирования, поскольку разные понятия могут означать разные вещи. Например, консерватором на территории бывшего Советского Союза считается тот, кто желает оставаться верным «старому коммунизму* или вернуться в него, тогда как в странах Запада люди тех же взглядов видятся принадлежащими к самому левому крылу. В свою очередь, либеральными русскими являются те, кто желает введения в экономику и политику рыночных перспектив, которые, как правило, поддерживаются на Западе консерваторами.

Если анкет так много, что необходимо использовать нескольких кодировщиков, дополнительной проблемой может стать возникновение несоответствия» самом кодировании.

Чтобы удостовериться в логической последовательности обработки данных, эту работу не обходимо разделять по задачам, а не в равных долях делить анкеты между кодировщиками.

Позволяя кодировщикам сосредоточивать энергию на одном или не скольких вопросах, исследователи могут добиться уверенности в том, что для каждого вопроса будет применяться состоятельный набор стандартов. Такой подход более эффективен еще и по той причине, что кодировщики могут легко запоминать всего несколько кодов, и поэтому им не придется сверяться с книгой кодов, приступая к очередному носителю собранных данных. По существу, когда несколько лиц кодируют один и тот же вопрос в различных пачках анкет, важно, чтобы они же кодировали выборку работы других, что даст гарантию использования согласованного набора критериев кодирования.

Второй этап кодирования касается назначения кодовых номеров классов. Например, мужской пол может обозначаться буквой М. в женский — буквой F, Как альтернативный вариант, эти классы могут обозначаться I — мужчина и 2 — женщина. Для обозначения классов лучше использовать цифры, а не буквы. Ha этой стадии также лучше использовать цифры в том виде, как они зафиксировались в форме сбора данных, а не раскладывать их на более мелкие категории. Например, если имеются данные о фактическом возрасте людей, не рекомендуется кодировать как 1 * до 20 лет, 2 * 20-29 лет, 3 * 30-39 лет и т, д, Это привело бы к ненужной потере информации в ее исходном измерении, а если возникнет необходимость градации, это можно будет сделать с той же легкостью на более поздней стадии анализа.

Когда для анализа данных предполагается использовать компьютер, кодирование необходимо выполнять таким образом, чтобы данные оказывались готовыми для ввода в машину. Вне зависимости от того, как будет обрабатываться ввод, либо с помощью чувствительных к меткам форм, либо непосредственно через клавиатуру терминала, полезно обеспечить наглядность ввода посредством многоколонной записи. Кроме того, рекомендуется следовать установившимся традициям кодирования данных:

Располагать только один символ в каждой колонке. Когда вопрос допускает множество ответов, разрешать отдельные колонки для кодирования каждого варианта ответа. Так, в примере с Jell-О кодировщик должен предусмотреть отдельные колонки для тех, кто употребляет этот продукт в качестве десерта, тех, кому он служит вечерней легкой закуской, и т, д.

Использовать только числовые коды, а не буквы алфавита или специальные символы вроде @ или пробел. Для большинства компьютерных программ при обработке статистических данных манипулирование чем-то иным, чем цифры, сопряжено с трудностями.

Использовать ровно столько колонок поля, назначаемого для переменной, сколько необходимо для полного охвата всех ее возможных значений. Так, если переменная такова, что десяти кодов от 0 до 9 для охвата категории недостаточно, необходимо использовать две колонки, обеспечивающие 100 кодов от 00 до 99. Кроме того, любому полю должна назначаться не более чем одна переменная.

Использовать стандартные коды для «отсутствия информации». Так, все ответы «не знаю» должны кодироваться цифрой 8, «нет ответов» — цифрой 9, а «не применялось» обозначаться как 0. Лучше, если во всем исследовании для каждого из этих типов «нет информации» используется один и тот же код.

Кодировать в каждой записи идентификационный номер респондента. Как правило, нет и не будет необходимости идентифицировать в этом номере имя респондента. Этот код просто связывает анкету с кодируемыми данными. Такая информация часто полезна на этапе очистки данных (обсуждается позднее). Если анкета координируется не с одной записью, то в каждой записи кодируются идентификационный номер респондента и порядковый номер. Колонка 10 первой записи может указывать, как респондент ответил на вопрос 2, а в колонке 10 второй записи могут содержаться данные о том, мужского или женского пола эта персона.

Кодировочная книга (codebook) содержит инструкции по кодированию, а также необходимую информацию о переменных, используемых в конкретном наборе данных.

Кодировочная книга применяется как руководство для кодировщика и помогает исследователю правильно определять и располагать переменные. Даже если анкета закодирована заранее, следует подготовить формальную кодировочную книгу. Кодировочная книга обычно включает следующую информацию: номер столбца, номер записи, номер переменной, название переменной, номер ответа, инструкции по кодированию.

<== предыдущая лекция	\|	следующая лекция ==>
Тема 9 Подготовительные этапы статистического анализа (10 ч.)	\|	Преобразование данных

Поделиться с друзьями:

Дата добавления: 2014-01-07; Просмотров: 470; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.034 сек.