Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Компьютерные программы для подготовки данных

Классификация статистических методов.

Выбор стратегии анализа собранных данных.

Статистической корректировки данных

Процедура очищения данных

Преобразование данных

Создание системы кодирования.

 

1. Подготовка данных к анализу. Процесс подготовки данных к анализу состоит из следующих этапов:

-проверка анкет,

-редактирование,

-кодирование,

-преобразование,

-очищение данных,

-статистическая корректировка данных,

-выбор стратегии анализа данных.

 

ПРОВЕРКА АНКЕТ

Первый этап проверки анкет заключается в их проверке на пол­ноту заполнения и качество интервьюирования. Зачастую этот про­цесс ведется параллельно с полевыми работами. Следует отметить, что если эта процедура выполняется по контракту специализирован­ным агентством, исследователь обязан провести независимую про­верку после ее завершения. Анкеты, поступившие с мест сбора дан­ных, могут быть не приняты по следующим причинам.

1.Не заполнены отдельные части анкеты.

1. Представленные ответы свидетельствует о том, что респондент не понял вопросов либо не точно следовал инструкциям по запол­нению анкеты. Например, не был соблюден шаблон пропусков ответов.

2. Ответы варьируются очень незначительно или не варьируются вовсе, например, респондент пометил одни четверки в серии се­мибалльных рейтинговых шкал.

3. Возвращенная анкета является неполной — отсутствует одна или несколько страниц.

4. Анкета получена по истечении заранее определенного срока сдач и, Ответы в анкете даны респондентом, не входящим в группу, выделенную для участия в на­следовании.

2. Редактирование данных. «Полевое» редактирование и централизованное офисное редактирование.

 

Редактирование (фр. rédaction от лат. redactus – приведённый в порядок)

Процесс редактирования (editing) заключается в обработке собранных анкет для повышения точности и аккуратности представленных в них данных. Чтобы правильно закодировать данные, они должны быть читабельными. Кроме того, анкеты могут содержать несколько или множество во­просов без ответов.

На этапе редактирования исследователь проводит предварительную проверку анкет на предмет логической непоследовательности представленных в них ответов. Так, возможна ситуация, когда респондент сообщает, что его годовой доход составляет не больше 20 тысяч долларов, но при этом указывает, что является постоянным покупателем таких престижных универмагов, как Saks -------------------------------.

Нередки ситуации, когда респондент помечает больше одного варианта отве­та на вопрос, по которому необходимо дать однозначный ответ.

Полевое редактирование – это предварительное редактирование, проводимое у руководителем, полевых исследований, которое строится таким образом, чтобы обнаружить наиболее бросающиеся в глаза пропуски и неточности средства сбора и самих данных.

Оно также полезно для контроля поведения персонала полевых сил и внесения ясности в любого рода недопонимание этими силами направлений их деятельности, методов, специфических вопросов и т. п. В идеальных обстоятельствах полевое редактирование выполняется как можно скорее после того, как форма сбора данных заполнена. В этом случае проблемы могут быть устранены прежде, чем проводивший сбор информации штат будет расформирован, и пока конкретные контакты, явившиеся источником затруднения, еще свежи в памяти проводивших наблюдение людей. Полевое редактирование обычно выполняется руководителем полевых работ.

За полевым редактированием обычно следует централизованное офисное редактирование, которое заключается в более полной и точной проверке и коррекции собранных ответов.

Централизованное офисное редактирование – это точная всеобъемлющая проверка и коррекция заполненных форм сбора данных, включая принятие решения о том, что с этими данными делать. Для этой работы подходит личность, обладающая «острым глазом» и хорошо знакомая с целями и методами исследования. Чтобы обеспечить логическую последовательность обработки материалов, лучше всего предоставить все носители собранных данных одному человеку. Если же эту работу приходится делить по соображениям ее объема и имеющегося времени, то разделы должны делиться по частям формы, а не по респондентам. В отличие от полевого, централизованное офисное редактирование в меньшей степени зависит от последующих процедур, и в большей — от степени полноты данных.

Работа с ответами неудовлетворительного качества:

При получении анкет, содержащих ответы неудовлетворительного качества, их обычно от­правляют обратно на места сбора данных для уточнения, либо назначаются пропущенные зна­чения, либо такие анкеты отбраковываются и не включаются в анализ.

Возврат анкет на место сбора данных. Анкеты, содержащие неудовлетворительные резуль­таты опроса, возвращаются на места сбора данных, и интервьюеров обязуют провести повтор­ное интервью. Такой вариант обычно применяется при проведении промышленных маркетин­говых исследований, для которых характерны выборки небольших размеров и идентифициро­вать респондентов, предоставивших ответы низкого качества, не составляет большого труда. Однако данные, полученные в результате вторичного опроса, могут сильно отличаться от пер­воначальных. Эта разница обуславливается. например, тем, что между опросами прошло опре­деленное время, а также тем, что опросы проводились с использованием разных режимов (например, первый раз по телефону, а второй — в ходе личного контакта).

Назначение пропущенных значений. Если возвращение анкеты на место сбора данных при­знано экономически нецелесообразным, редактор может самостоятельно присвоить неудовлетворительным откликам пропущенные значения. Рекомендуется применять этот метод в сле­дующих случаях: если количество респондентов, ответы которых признаны неудовлетвори­тельными, невелико; доля ответов неудовлетворительного качества ответах каждого респон­дента незначительна; переменные по неудовлетворительным ответам не основные.

Отсеивание анкет респондентов, содержащих ответы неудовлетворительного качества. При этом методе респонденты, предоставившие ответы неудовлетворительного качества, про­сто отбраковываются и их анкеты не включаются в анализ. Данный способ эффективен в сле­дующих случаях: если доля "неудовлетворительных" респондентов невелика (меньше 10%); ес­ли размер выборки велик; если "неудовлетворительные" респонденты явно не отличаются от "удовлетворительных" (например, по демографическому признаку или основным характери­стикам использования товара); если доля неудовлетворительных откликов на каждого респон­дента велика; если пропущены ответы по основным переменным. Однако бывают ситуации, когда "неудовлетворительные" респонденты отличаются от "удовлетворительных" либо реше­ние признать респондента "неудовлетворительным" предельно субъективно. В этих случаях использование данного метода повлечет за собой искажение данных. Если исследователь при­нимает решение отбраковать неудовлетворительные ответы того или иного респондента, он должен отчитаться, на основе какой именно процедуры он идентифицировал данного респон­дента. Это подтверждается следующим примером. Если были определены конкретные квоты респондентов, либо назначены размеры ячеечных групп, все принятые анкеты необходимо соответствующим образом классифицировать и подсчи­тать. Любые проблемы, связанные с выполнением требований, предъявляемых к выборкам, должны выявляться своевременно, и необходимые корректировочные мероприятия, например, дополнительные интервью в ячейках, представленных по результатам опроса недостаточно полно, следует провести перед тем, как приступать к редактированию данных.

ПРИМЕР. Отсеивание респондента из анализа

В процессе межкультурного исследования поведения менеджеров по маркетингу в ряде англоязычных африканских стран разослали анкеты в 565 фирм. Возвращено было 192 заполненные анкеты, из которых четыре сразу отбраковали, поскольку респонденты ответили, что они не несут непосредственной ответственности за принятие решений общего характера в маркетинге. Решение об отсеивании этих четырех анкет приняли на том основании, что размер выборки был достаточно велик, а доля "неудовлетворительных" респондентов незначительна.

 

3. Характеристики данных, проверяемые при «полевом» редактировании

1. Полнота. Проверка полноты включает в себя тщательное просматривание формы данных с целью обеспечения уверенности в том, что ни одна страница не пропущена, а также проверку отдельных пунктов. Пустое место для ответа на какой-то вопрос может означать, что респондент отказался отвечать; в равной мере это может быть отражением пропуска по вине респондента или того, что он или она не знает ответа. Обычно, с точки зрения целей исследования, очень важно знать, какая из этих причин верна. Можно надеяться, что посредством контакта с интер­вьюером, пока опросы еще свежи в его памя­ти, руководитель полевых работ сможет по­лучить необходимые разъяснения.

2. Удобочитаемость. Важно кодировать форму, которая не может быть сведена к цифровой форме, чтобы избежать проблемы неразбор­чивости почерка или непонятных сокращений слов. Их использование — вопрос упрощения исправлений на месте, тогда как позднее они зачастую выливаются в большую потерю времени.

3. Вразумительность: иногда зарегистрирован­ные действия невразумительны для всех, кроме того, кто проводил наблюдение. При обнару­жении такой ситуации на месте руководитель полевых работ может получить у него необ­ходимое разъяснение.

4. Логическая последовательность. Наличие непоследовательности обычно указывают на ошибки сбора или регистрации данных, но могут свидетельствовать о двусмысленности используемых средств или беззаботном отношении к выполнению работы. Например, если респондент показывает, что он или она смот­рели прошлым вечером по телевизору ком­мерческую рекламу, в одной части анкеты, а позднее отвечают, что прошлым вечером те­левизор не смотрели.

5. Единообразие: очень важно, чтобы наблюдения регистрировались единообразными блоками. Если, например, исследование нацелено на определение количества журналов, прочиты­ваемых индивидом в неделю, а респондент ука­зывает количество журналов, на которые он или она ежемесячно подписываются, база ответов оказывается не единообразной, и на следующей стадии анализа результат может оказаться сомнительным. Если проблема об­наруживается прямо в полевых условиях, не исключено, что тот, кто брал интервью, смо­жет повторно встретиться с респондентом и получить правильный ответ.

4.Создание системы кодирования.

Процедура кодирования (coding) заключается в присваивании кода, обычно цифрового, каждому возможному варианту ответа по каждому вопросу.

Информация, полу­ченная в результате исследования и образующая код, распределяется по столбцам. Посредством кодирования сырые данные превращают­ся в символы — обычно цифровые, которые можно табулировать и подсчитывать. Однако это преобразо­вание не должно осуществляться автоматически; оно требует внимания кодировщика. (Табулирование заключается просто в подсчете ко­личества событий, которые попадают в различные ка­тегории. Табулирование может принимать форму про­стой табуляции или перекрестной табуляции ----- ПРОСТАЯ ТАБУЛЯЦИЯ

Подсчет количества событий, которые попадают в каждую категорию, когда категории базируются на одной пере­менной. ПЕРЕКРЕСТНАЯ ТАБУЛЯЦИЯ --Подсчет количества событий, которые попадают в каждую из нескольких категорий, когда категории базируются на двух и более переменных, рассматриваемых одновременно).

Код включает указание на положение столбцов (полей) и информации, которая в них со­держится. Так, пол респондентов может кодироваться следующим образом: 1 — для женщин и 2— для мужчин. Поле отображает единичный элемент данных, например пол респондента. Запись состоит из ряда соответствующих полей: пол, семейное положение, возраст, состав се­мьи, занятие респондента и т.д. Все демографические и личностные характеристики респон­дента, как правило, содержатся в одной регистрационной записи. Обычно каждая запись со­стоит из 80 столбцов, хотя это и не обязательное условие. На одного респондента можно завести несколько записей.

Первый этап кодирования заключается в специфи­цировании категорий или классов, к которым будут относиться ответы. число будет зави­сеть от исследуемой проблемы и специальных позиций анкеты, используемых для генерирования информа­ции. Выбор ответов должен быть взаимоисключающим и исчерпывающим, чтобы каждый ответ логически по­падал в одну, и только одну, категорию. По ряду воп­росов правомерны и множественные ответы. Напри­мер. на вопрос: «Для каких целей вам служит Jell-O?» ответы могут быть: «в качестве десерта•. «как легкая вечерняя закуска. «как возможность перекусить пос­ле полудня» и т. п. С другой стороны, если вопрос со­средоточен на возрасте лица, то приемлема, конечно.

только одна категория возраста, и код доджем четко указывать, о какой категории идет речь.

Кодирование закрытых вопросов и большинства средств балльной оценки не представляет трудностей, потому что оно устанавливается при конструировании носителя собираемых данных. Затем респонденты ко­дируют себя своими ответами, или их кодирует тот, кто берет интервью, регистрируя ответы в предусмот­ренной для этого контрольной ведомости.

Кодирование открытых вопросов может оказаться весьма затруднительным и зачастую много более дорогим, чем кодирование закрытых вопросов. Кодировщи­ку приходится определять подходящие категории на базе ответов, которые не всегда предсказуемы. Меж­дународные исследования могут создавать особые про­блемы кодирования, поскольку разные понятия могут означать разные вещи. Например, консерватором на территории бывшего Советского Союза считается тот, кто желает оставаться верным «старому коммунизму* или вернуться в него, тогда как в странах Запада люди тех же взглядов видятся принадлежащими к самому левому крылу. В свою очередь, либеральными русски­ми являются те, кто желает введения в экономику и политику рыночных перспектив, которые, как прави­ло, поддерживаются на Западе консерваторами.

Если анкет так много, что необходимо использовать нескольких кодировщиков, дополнительной пробле­мой может стать возникновение несоответствия» са­мом кодировании.

Чтобы удостовериться в логической последовательности обработки данных, эту работу не обходимо разделять по задачам, а не в равных долях делить анкеты между кодировщиками.

Позволяя коди­ровщикам сосредоточивать энергию на одном или не скольких вопросах, исследователи могут добиться уве­ренности в том, что для каждого вопроса будет применяться состоятельный набор стандартов. Такой подход более эффективен еще и по той причине, что кодировщики могут легко запоминать всего несколько кодов, и поэтому им не придется сверяться с книгой кодов, приступая к очередному носителю собранных данных. По существу, когда несколько лиц кодируют один и тот же вопрос в различных пачках анкет, важ­но, чтобы они же кодировали выборку работы других, что даст гарантию использования согласованного на­бора критериев кодирования.

Второй этап кодирования касается назначения ко­довых номеров классов. Например, мужской пол может обозначаться буквой М. в женский — буквой F, Как альтернативный вариант, эти классы могут обозначаться I — мужчина и 2 — женщина. Для обозначения классов лучше использовать цифры, а не буквы. Ha этой стадии также лучше использо­вать цифры в том виде, как они зафиксировались в форме сбора данных, а не раскладывать их на более мелкие категории. Например, если имеются данные о факти­ческом возрасте людей, не рекомендуется кодировать как 1 * до 20 лет, 2 * 20-29 лет, 3 * 30-39 лет и т, д, Это привело бы к ненужной потере информации в ее исходном измерении, а если возникнет необходи­мость градации, это можно будет сделать с той же лег­костью на более поздней стадии анализа.

Когда для анализа данных предполагается использовать компьютер, кодирование необходимо выполнять таким образом, чтобы данные оказывались готовыми для ввода в машину. Вне зависимости от того, как бу­дет обрабатываться ввод, либо с помощью чувстви­тельных к меткам форм, либо непосредственно через клавиатуру терминала, полезно обеспечить нагляд­ность ввода посредством многоколонной записи. Кроме того, рекомендуется следовать установившимся традициям кодирования данных:

Располагать только один символ в каждой колонке. Когда вопрос допускает множество ответов, разрешать отдельные колонки для кодирования каждого вариан­та ответа. Так, в примере с Jell-О кодировщик должен предусмотреть отдельные колонки для тех, кто употребляет этот продукт в качестве десерта, тех, кому он служит вечерней легкой закуской, и т, д.

Использовать только числовые коды, а не буквы ал­фавита или специальные символы вроде @ или пробел. Для большинства компьютерных программ при обра­ботке статистических данных манипулирование чем-то иным, чем цифры, сопряжено с трудностями.

Использовать ровно столько колонок поля, назначаемого для переменной, сколько необходимо для пол­ного охвата всех ее возможных значений. Так, если переменная такова, что десяти кодов от 0 до 9 для охва­та категории недостаточно, необходимо использовать две колонки, обеспечивающие 100 кодов от 00 до 99. Кроме того, любому полю должна назначаться не более чем одна переменная.

Использовать стандартные коды для «отсутствия информации». Так, все ответы «не знаю» должны коди­роваться цифрой 8, «нет ответов» — цифрой 9, а «не применялось» обозначаться как 0. Лучше, если во всем исследовании для каждого из этих типов «нет инфор­мации» используется один и тот же код.

Кодировать в каждой записи идентификационный номер респондента. Как правило, нет и не будет необходимости идентифицировать в этом номере имя рес­пондента. Этот код просто связывает анкету с кодиру­емыми данными. Такая информация часто полезна на этапе очистки данных (обсуждается позднее). Если анкета координируется не с одной записью, то в каж­дой записи кодируются идентификационный номер респондента и порядковый номер. Колонка 10 первой записи может указывать, как респондент ответил на вопрос 2, а в колонке 10 второй записи могут содер­жаться данные о том, мужского или женского пола эта персона.

Кодировочная книга (codebook) содержит инструкции по кодированию, а также необходимую информацию о переменных, используемых в конкретном наборе данных.

Кодировочная книга применяется как руководство для кодировщика и помогает исследователю правильно определять и располагать переменные. Даже если анкета закодирована заранее, следует подготовить формальную кодировочную книгу. Кодировочная книга обычно включает следующую информацию: номер столбца, номер записи, номер переменной, название переменной, номер ответа, инструкции по кодированию.

 

<== предыдущая лекция | следующая лекция ==>
Тема 9 Подготовительные этапы статистического анализа (10 ч.) | Преобразование данных
Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 470; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.034 сек.