Процедуры формирования репрезентативной выборки

Как видно из примеров предыдущего раздела, не все выборки в равной степени репрезентативны. Действительно, фиаско, постигшее “Литэрари дайджест”, хотя и один из самых известных, однако вряд ли единственный пример исследования, опиравшегося на плохо сформированную выборку. Ведущий принцип, лежащий в основе такой процедуры, – это принцип рандомизации, случайности. Выборка называется случайной (иногда мы будем говорить простая случайная или чистая случайная выборка), если выполняется два условия. Во-первых, выборка должна быть построена таким образом, чтобы любой человек или объект в пределах совокупности имел равные возможности быть отобранным для анализа. Во-вторых, выборка должна быть сформирована так, чтобы любое сочетание из п объектов (где п – просто количество объектов, или случаев, в выборке) имело равные возможности быть отобранным для анализа. Все это звучит довольно сложно. И действительно, это более строгое определение случайности, чем то, которым мы пользуемся в быту; однако в основе своей случайный выбор – довольно простое и незамысловатое понятие. Это почти то же самое, что выбор с помощью лотереи. Если у нас имеется совокупность, состоящая из 1000 человек, чье поведение мы хотим изучить, исследовав репрезентативную выборку, состоящую из 100 человек, мы могли бы написать имена всех 1000 членов совокупности на листочках бумаги одинакового размера, сложить их в барабан, хорошо перемешать и отобрать имена 100 человек в нашу в выборку. При такой процедуре каждый человек имеет равную вероятность быть выбранным (100 шансов из 1 000, или, иными словами, 1 шанс из 10), любое возможное сочетание из 100 человек также имеет равную вероятность выбора. Наличие этих двух видов равновероятности и делает выборку случайной.

При исследовании совокупностей, которые слишком велики, для того чтобы можно было осуществить настоящую лотерею, часто используются простые случайные выборки. Выписать имена нескольких сотен тысяч объектов, сложить их в барабан и выбрать несколько тысяч – это все же нелегкая работа. В таких случаях используется другой, однако столь же надежный способ. Каждому объекту в совокупности присваивается номер. Номера объектов, которые будут включены в выборку, определяются с помощью таблицы случайных чисел. Последовательность чисел в таких таблицах обычно задается компьютерной программой, называемой генераторам случайных чисел, который, в сущности, помещает в барабан большое количество чисел, случайным образом вытаскивает их и выпечатывает в порядке получения. Иными словами, имеет место все тот же процесс, характерный для лотереи, однако компьютер, используя не имена, а числа, осуществляет универсальный выбор. Этим выбором можно пользоваться, просто присвоив каждому из наших объектов номер.

Рис. 5.2. Фрагмент таблицы случайных чисел

Таблица случайных чисел может использоваться несколькими разными способами, и в каждом случае необходимо принять три решения. Во-первых, следует решить, сколько разрядов мы будем использовать, во-вторых, необходимо разработать решающее правило дляих использования; в-третьих, нужно выбрать исходную точку и способ прохождения по таблице.

Первое решение определяется просто количеством объектов в совокупности. Если совокупность состоит из менее чем 10 объектов, используются однозначные числа; при числе объектов от 10 до 99 – двузначные числа; от 100 до 999 – трехзначные и т.д. В каждом случае мы должны позаботиться о том, чтобы каждый перенумерованный объект имел возможность быть выбранным.

Как только это сделано, мы должны разработать правило, которое бы связывало числа в таблице с номерами наших объектов. Здесь существуют две возможности. Самый простой способ (хотя и не обязательно самый правильный) – использовать лишь те числа, которые попадают в число номеров, приписанных нашим объектам. Так, если мы имеем совокупность, состоящую из 250 объектов (и, таким образом, используем трехзначные числа), и решаем начать с левого верхнего угла таблицы и двигаться вниз по столбцам, мы включим в нашу выборку объекты с номерами 100, 084 и 128 и пропустим числа 375 и 990, не соответствующие нашим объектам. Этот процесс будет продолжаться до тех пор, пока не будет определено число объектов, нужных для нашей выборки.

Более трудоемкая, однако методически более правильная процедура основывается на положении, что для сохранения случайности, характерной для таблицы, должно быть использовано каждое число данной размерности (например, каждое трехзначное число). Следуя данной логике и вновь имея дело с совокупностью из 250 объектов, мы должны разбить область трехзначных чисел от 000 до 999 на 250 одинаковых промежутков. Поскольку таких чисел 1000, мы делим 1000 на 250 и находим, что каждая из частей содержит четыре числа. Таким образом, числа таблицы от 000 до 003 будут соответствовать объекту 1, от 004 до 007 – объекту 2 и т.д. Теперь, чтобы установить, какой номер объекта соответствует числу таблицы, следует разделить трехзначное числоиз таблицы и округлить до ближайшего целого числа. С помощью данного метода тот же фрагмент таблицы, которым мы пользовались раньше, позволит нам включить в выборку объекты 025 (100:4), 093 (375:4, округлено в меньшую сторону), [c.162] 021 (084:4), 247 (990:4, округлено в меньшую сторону) и 032 (128:4) и не пропустить ни одного числа из таблицы.

И наконец, мы должны выбрать в таблице исходную точку и способ прохождения. Исходной точкой может быть верхний левый угол (как в предыдущем примере), нижний правый угол, левый край второй строки или любое другое место. Этот выбор абсолютно произволен. Однако, работая с таблицей, мы должны действовать систематически. Мы могли бы взять три первых знака из каждой пятизначной последовательности, три средних знака, три последних знака или даже первый, второй и четвертый знаки. (Из первой пятизначной последовательности с помощью этих различных процедур получаются, соответственно, числа 100, 009, 097 и 109.) Мы могли бы применить эти процедуры в направлении справа налево, получив 790, 900, 001 и 791. Мы могли бы идти вдоль рядов, рассматривая поочередно каждую следующую цифру и игнорируя разбиение на пятерки (для первого ряда будут получены числа 100, 973, 253, 376 и 520). Мы могли бы иметь дело лишь с каждой третьей группой цифр (например, с 10097, 99019, 04805, 99970). Существует множество самых разнообразных возможностей, и каждая следующая ничуть не хуже предыдущей. Однако как только мы приняли решение о том или ином способе работы, мы должны систематически следовать ему, чтобы в максимальной степени соблюдать случайность элементов в таблице.

Таким образом, построение простой случайной выборки может оказаться совсем непростым делом. Кроме тех трудностей, которые мы еще будем обсуждать, данный метод требует большого объема технической работы, особенно когда речь идет о широкомасштабных исследованиях. По этой причине процедуры формирования случайной выборки часто видоизменяют, чтобы увеличить их возможности. Один из таких распространенных вариантов называется систематической случайной выборкой и используется тогда, когда мы хотим исследовать сравнительно большую совокупность, каждый член которой занесен в единый список, такой, как, например, телефонная книга, список студентов, список зарегистрированных избирателей, индекс или оглавление, повестка дня или список членов какой-либо организации. Процедура выглядит следующим образом.

Подсчитайте (или оцените) количество объектов в совокупности и разделите его на желательное количество объектов в выборке (обсуждается ниже в данной главе). Если обозначить результат через k, то фактически можно сказать, что мы хотим выбрать один из каждых k объектов, или, говоря по-другому, каждый k-й объект. Это можно пояснить на конкретном примере.

Предположим, что из совокупности в 10 000 публичных заявлений, сделанных министерством обороны, мы хотим сформировать выборку размером в 500 документов; предположим также, что мы как свои пять пальцев знаем хронологический список, включающий все 10 000 документов. Чтобы отобрать систематическую случайную выборку:

1. Мы делим количество объектов в совокупности на желательный размер выборки, чтобы определить число k (в данном случае k= 10 000:500=20).

2. С помощью таблицы случайных чисел мы выбираем номер объекта между 1 и k (в нашем примере между 1 и 20) для включения в нашу выборку.

3. Мы движемся по списку документов, выбирая каждый k -й (двадцатый) объект.

Таким образом, если k равно 20 и мы пользуемся фрагментом таблицы случайных чисел, представленном на рис.5.2, начиная с верхнего левого угла таблицы, рассматривая двузначные числа (k в данном случае находится между 10 и 99) и используя только те элементы таблицы, которые соответствуют реальным номерам объектов (т.е. только те, которые находятся между 01 и 20), первым выбранным объектом будет 10. Мы, таким образом, включаем в нашу выборку объекты 10, 30 (10+ k), 50 (10+2 k), 70 (10+3 k) и т.д., и так вплоть до объекта 9900 (10+499 k). Эту верхнюю границу выборки можно задать в виде общей формулы j+ (n –1) k, где j – первое случайное число, a n – желаемый объем выборки. Таким образом, можно воспользоваться таблицей случайных чисел в сочетании с единым списком для формирования в целях осуществления анализа выборки объемом в 500 документов.

Техника формирования систематической случайной выборки по сравнению с формированием простой случайной выборки имеет два важных преимущества: ее удобно применять по отношению к большим совокупностям, отвечающим условию наличия единого списка, и у нее много потенциальных возможностей использования. Тем не менее, применяя эту процедуру, мы должны иметь в виду одну очень важную ее особенность. Поскольку систематическая случайная выборка менее случайна, чем прямой выбор типа лотереи, в результате может быть получена менее репрезентативная подгруппа. Это можно проследить и на уровне определения, и на операциональном уровне.

Прежде всего вспомним, что случайная выборка – это выборка, в которой каждый конкретный объект и каждое возможное сочетание из п объектов имеют равную вероятность быть выбранными. В систематической случайной выборке выполняется только одно из этих условий. Поскольку формирование такой выборки начинается с выбора по таблице случайных чисел первого объекта, любой объект из совокупности в конечном счете имеет равные возможности войти в выборку (хотя и не обязательно при первой попытке, так как она осуществляется в пределах от 1 до k). Однако поскольку далее мы выбираем лишь объекты, отстоящие на k номеров один от другого, не всякое возможное сочетание оказывается допустимым. Так, в примере при k=20 в качестве первого можно выбрать любой объект от 1 до 20, но, как только выбран объект с номером 10, мы уже не можем включить объекты с номерами 9,14, 237 и 5 724 просто потому, что номера этих объектов не отличаются от 10 на целое число k. Следовательно, систематическая случайная выборка – это в лучшем случае лишь приближение к истинной случайной выборке.

Данное наблюдение особенно важно, когда список, из которого производится выборка, характеризуется систематической направленностью. Для алфавитных и хронологических списков это обычно не существенно, однако для других типов списков может оказаться важным. Например, мы хотим измерить уровень умственных способностей в выборке, состоящей из учеников школы, в каждом классе которой 20 детей. В школе 100 классов, т.е. всего 2000 учеников. В ответ на нашу просьбу директор предоставляет список всех учеников школы, из которого мы собираемся извлечь выборку объемом в 100 человек. Однако перед нами не алфавитный [c.165] список, а последовательность списков отдельных классов. Более того, список каждого класса дан не в алфавитном порядке, а соответствует положению, занимаемому учеником в классе: лучшие ученики идут вначале, и списки продолжаются в порядке убывания успехов. При таком положении дел, если выбирать каждого двадцатого (2000:100), начиная со случайным образом выбранного объекта под номером 1, мы получим выборку, состоящую из 100 лучших (и, возможно, самых умных) учеников школы. Если случайным образом будет выбран объект 10, в выборку попадут одни середняки. А если начать с объекта 20, то мы выберем лишь самых плохих учеников школы. Иными словами, внутренняя направленность, характеризующая список, на котором основана наша выборка, окажется причиной получения нерепрезентативной выборки. В конце концов все это приведет к тому, что мы либо не сможем обобщить наши результаты на генеральную совокупность, либо (если возникшая ситуация останется незамеченной) придем к потенциально неверным выводам. Хотя данный пример достаточно примитивен и приведен специально в целях иллюстрации, подобного рода списки, характеризующиеся определенной направленностью, действительно существуют, и исследователь, использующий процедуры, формирующие систематическую случайную выборку, должен быть подготовлен к таящейся здесь опасности.

Таким образом, простая случайная выборка – это идеал, к которому мы стремимся, а систематическая случайная выборка – приближение к этому идеалу. Однако очень часто исследуемая ситуация такова, что не позволяет применить ни тот, ни другой метод. В особенности это касается случаев выборочного исследования. Ведь зачастую не бывает сведенных воедино списков совокупности, подлежащей изучению (так, например, не существует списка всех американских избирателей или всех жителей данного города), и даже количество (не говоря уже о конкретном составе) имеющихся объектов может быть заранее неизвестно. Таким образом, может оказаться невыполненным основное условие, необходимое для формирования простой или систематической случайной выборки, – наличие отдельных заранее идентифицируемых объектов. Более [c.166] того, даже тогда, когда эта проблема может быть решена, технические трудности и ограниченные ресурсы могут привести к тому, что оба метода формирования выборки окажутся нереализуемыми. Это происходит потому, что случайный выбор конкретных объектов предполагает условие: в выборку должны быть включены определенные лица, – причем может оказаться, что они либо живут далеко друг от друга, либо сними трудно поддерживать связь. Случайный в строгом смысле слова процесс не допускает никаких замен. Все эти факторы могут привести к таким огромным затратам времени и средств, при которых исследование вообще окажется невозможным.

К счастью, существует другой метод, сохраняющий ценные для нас достоинства случайного выбора и лишенный большинства отмеченных недостатков. Этот метод (его называют либо методом кластерной выборки, либо методом многоступенчатого случайного районирования) нашел широкое применение в выборочном исследовании. В основе многоступенчатой случайной районированной выборки лежит следующее соображение: вместо того чтобы считать в качестве членов выборки конкретных людей, будем рассматривать их как жителей того или иного пункта. Эта замена объясняется тем, что в отличие от людей, переезжающих с места на место, само по себе место жительства остается неизменным. Кроме того, расположение фактически любого места жительства в стране известно и нанесено на карту, каждое является частью различных географически определенных зон, таких, как кварталы, переписные участки, избирательные участки, законодательные округа, города, районы, округа, избирательные округа по выборам в конгресс и, наконец, штаты.

Мы увидим, что некоторые из этих районов обладают свойствами, благоприятными для получения репрезентативной выборки. Пока же отметим, что, принимая во внимание жителя места, которое всегда остается постоянным, а не конкретного человека, который может быть более подвижным, мы оказываемся в состоянии стабилизировать и локализовать процедуру формирования выборки. Фактически мы просто даем другое определение нашему понятию совокупности. Вместо того чтобы говорить (если бы речь шла об исследовании [c.167] в масштабах страны) обо всем населении, живущем в Соединенных Штатах, мы говорим об отдельных людях в местахих проживания. Поскольку с точки зрения любой практической цели между этими группами нет различий, мы можем сформировать выборку на основе второй группы и распространить полученные выводы на первую. Мы пользуемся гораздо более простыми и (по ряду причин, которые будут рассмотрены ниже) гораздо менее дорогостоящими методами выбора мест жительства, и тем не менее мы можем распространять наши выводы не на места жительства, а на населяющихих людей. В этом и состоит основная ценность многоступенчатой случайной районированной выборки.

Сама эта процедура иллюстрируется на рис.5.3, где суммируется практика Центра выборочных исследований (ЦВИ) Мичиганского университета – основного национального центра по проведению выборочных исследований в политологии. Хотя в своих частностях процедура, используемая в ЦВИ, слегка отличается от той, которую будем описывать мы, обе они складываются из одних и тех же основных этапов. Итак, предположим, что мы собираемся проводить общенациональное выборочное исследование. Те процедуры, которые мы здесь рассматриваем, безусловно, могут быть применены в менее масштабных проектах.

Рис. 5.3. Последовательность шагов в процессе многоступенчатой случайной районированной выборки (см.: Interviewer's Manual: Survey Research Center. –Ann Arbor: Institute for Social Research, University of Michigan, 1969. Р.8)

Начнем с того, что возьмем карту Соединенных Штатов и поделим ее на большое число районов с одинаковой численностью населения ². Это не так трудно, как кажется на первый взгляд, так как правительство уже осуществило такую (или по крайней мере близкую к нему) разбивку, образовав 435 избирательных округов по выборам в конгресс, население каждого из которых составляет немногим более полумиллиона человек. Мы приписываем каждому такому округу одно из чисел между 1 и 435 и, пользуясь таблицей случайных чисел, отбираем для анализа несколько округов. Сколько именно округов будет выбрано, зависит как от предельного размера формируемой выборки, так и от имеющихся в нашем распоряжении ресурсов, но в целом, чем больше будет выбрано округов, тем лучше будет выборка. На этом этапе становится очевидной экономичность метода многоступенчатой случайной районированной выборки, поскольку, вместо того чтобы отыскивать [c.169] респондентов по всей стране, мы можем сконцентрировать наше внимание (и денежные средства) на сравнительно небольшом числе территорий, размеры которых в основном поддаются контролю. Таким образом, операции могут быть сосредоточены в нескольких местных отделах.

Как только определены соответствующие округа, каждый из них далее подразделяется на еще меньшие по размеру, однако имеющие одинаковую численность населения территории. Зачастую они могут совпадать с существующими политическими образованиями, такими, как избирательные участки или избирательные округа. Затем эти избирательные участки подразделяются дальше – вначале на переписные участки, потом на кварталы и, наконец, на отдельные жилые единицы (дома и квартиры), – при этом на каждом этапе отбора используется процесс случайного выбора. В конце концов мы установим множество отдельных жилых единиц, количество которых приблизительно соответствует желательному объему нашей выборки. Их жители и будут объектами нашего исследования.

Существует тем не менее еще одна трудность: хотя обычно мы по ряду причин предпочитаем брать интервью лишь у одного лица по данному адресу, в каждом конкретном доме или квартире вполне может проживать несколько человек. У кого же брать интервью? Большинство исследователей, использующих такие процедуры формирования выборки, снабжают интервьюируемых рядом правил, регулирующих принятие решений на данном этапе, так чтобы в результате было получено множество квот на основе возраста, пола, и/или семейного положения респондента. В одном месте интервьюируемый может получить инструкцию выбрать самого младшего члена семьи мужского пола, в другом – самого старшего члена семьи женского пола и т.д. Во многих случаях искомый респондент определяется с помощью карт, подобных тем, что изображены на рис.5.4. Интервьюируемый получает несколько таких карт, в которых объект исследования устанавливается по-разному в зависимости от конкретного состава семьи; кроме того, он снабжается инструкцией последовательно использовать эти карты при переходе от одного интервью к другому. [c.170]

Рис. 5.4. Карты выбора респондентов

Таким образом, многоступенчатая случайная районированная выборка действительно наглядна. На каждом из этапов среди районов с одинаковым населением (либо среди районов, для которых вероятность быть выбранными устанавливается пропорционально их населению) осуществляется случайный выбор, пока наконец не устанавливаются отдельные жилые единицы. В каждом случае объектом процедуры выбора является географическая местность, и на каждом этапе определяется несколько групп местностей (отсюда и другой термин – кластерная выборка). Лишь на последнем этапе – этапе установления конкретных респондентов – процедура осуществляется с нарушением принципа случайности, однако на столь локальном уровне и с использованием столь аккуратно составленных квот, что воздействие на репрезентативность выборки, по всей вероятности, является при этом минимальным. Во многих случаях многоступенчатая случайная районированная выборка (так же как аналогичные [c.171] процедуры выбора, используемые при выборочном обследовании) дает приемлемое приближение к действительно случайной выборке при небольших затратах времени и средств.

Необходимо упомянуть еще один метод, хотя это скорее не процедура выбора, а всего лишь стратегия. Этот метод известен под названием стратифицированного формирования выборки и используется в первую очередь тогда, когда мы хотим детально исследовать некоторую подгруппу совокупности, которая так мала, что случайная выборка будет содержать слишком небольшое для такого анализа количество членов этой подгруппы.

Предположим, к примеру, что мы хотим проверить гипотезу, согласно которой, в течение первых двух месяцев своего правления (периода, часто называемого “медовым месяцем”) президенты более откровенны со средствами массовой информации, чем когда бы то ни было в дальнейшем, и что для проверки этой гипотезы мы собираемся анализировать содержание стенограмм пресс-конференций президентов. Предположим далее, что за некоторый период времени в нашем распоряжении имеется 500 таких стенограмм и лишь 25 из них представляют пресс-конференции периода “медового месяца” и что мы хотим включить в выборку всего 100 пресс-конференций. Если использовать в этом случае простой или систематический случайный выбор, можно ожидать, что в выборку будет входить приблизительно 5 стенограмм периода “медового месяца” и приблизительно 95 стенограмм последующего периода. Столь небольшое число стенограмм первого типа очень затрудняет осмысленное сравнение, поскольку при этом может оказаться слишком мало примеров, которые бы давали точную картину ответов президента на вопросы журналистов.

В таких условиях, когда мы хотим повысить значимость (придать больший вес) определенной подгруппы, мы применяем метод стратификации. Поступая таким образом, мы в действительности формируем не одну, а две отдельные выборки. Первая – это простая или систематическая случайная выборка для меньшей подгруппы (стенограммы периода “медового месяца”), и по объему она будет больше, чем ожидалось, в соответствии с частотой появления этой подгруппы в исходной выборке (в нашем [c.172] примере это будет не 5, а, скажем, 15 объектов). Вторая – это простая или систематическая случайная выборка для большей подгруппы (стенограммы всех периодов, следующих после “медового месяца”), и по объему она будет меньше, чем ожидалось, в соответствии с частотой появления в исходной выборке (в нашем примере – 85, а не 95 объектов). В данном случае выборку можно назвать стратифицированной относительно времени проведения пресс-конференции. В результате мы получим относительно больше объектов из числа стенограмм периода “медового месяца” для анализа и сопоставления со стенограммами более поздних периодов, чем могли бы отобрать, используя другие методы.

Здесь следует сделать три замечания. Во-первых, стратификация не заменяет простой случайный выбор или какой-либо иной вид выбора, а представляет собой дополнительную возможность, используемую в определенных обстоятельствах. Фактически это процедура формирования выборки второго порядка. При этих условиях стратификация используется достаточно часто, в особенности при опросе общественного мнения, на последних этапах формирования выборки, чтобы обеспечить, к примеру, необходимое равновесие между количеством мужчин и количеством женщин. Таким образом, по своему назначению стратификация очень напоминает квоты, которые используются на последнем этапе многоступенчатой районированной выборки.

Во-вторых, поскольку стратификация требует формирования отдельных выборок, она может использоваться лишь там, где мы в состоянии заранее установить релевантные субсовокупности. В нашем примере это не составляет труда, поскольку до начала формирования выборки мы легко можем отличить стенограммы периода “медового месяца” от стенограмм более поздних периодов. Однако во многих выборочных обследованиях, там, где мы, быть может, захотели бы провести стратификацию, опираясь на менее очевидные переменные, нас могут ожидать большие трудности.

В-третьих, поскольку при стратифицированном формировании выборки используются отдельные выборки и поскольку единственное, что мы в состоянии сделать, – это распространить результаты, полученные на данной [c.173] выборке, на ту самую совокупность (или субсовокупность), из которой она извлечена, мы должны с очень большой осторожностью делать выводы на основании исследования, базирующегося на такой выборке. Причина этого вполне ясна: проводя стратификацию с целью повышения в нашем исследовании количества объектов определенного типа, мы фактически смещаем всю выборку в сторону этих объектов.

Чтобы преодолеть это смещение, следует формулировать наши выводы одним из двух единственно возможных способов. Во-первых, мы можем сопоставить друг с другом результаты, полученные для групп, по которым проведена стратификация (например, можем сопоставить результаты для пресс-конференций периода “медового месяца” с результатами для пресс-конференций более поздних периодов). В этом случае мы просто сравниваем результаты для отдельных выборок, не делая никаких выводов о пресс-конференциях в целом. Во-вторых, мы можем приписать разный вес группам, по которым проведена стратификация, пропорционально их доле в совокупности и затем сделать выводы относительно всей совокупности. В этом случае мы в полной мере используем имеющиеся в нашем распоряжении подробные сведения о меньшей подгруппе (пресс-конференциях периода “медового месяца”), но уменьшаемих роль в совокупности всех пресс-конференций (точнее, восстанавливаем правильное соотношение). При использовании данной процедуры стратифицированная выборка может служить в качестве приближения к простой случайной выборке, давая при этом более полную информацию.

Иногда более полезными могут оказаться другие виды выборок. Одна из них – это квотная выборка, когда члены совокупности классифицируются в соответствии с несколькими релевантными характеристиками (такими, как пол, возраст или идентификация партийной принадлежности) и лица, обладающие такими свойствами, отбираются в количестве, пропорциональном их доле в совокупности. Еще один тип – это экспертная выборка, когда наблюдатель просто выбирает те объекты, которые он по какой-то причине считает типичными или репрезентативными для той совокупности, из которой они извлечены. Такая выборка чаще всего используется при исследовании [c.174] небольших совокупностей и элитарныхили специализированных групп. Необходимо, однако, помнить, что такого рода выборки не являются действительно репрезентативными для соответствующих совокупностей (в самом деле, в противоположность случайным выборкам вероятность и степень репрезентативности этих выборок неопределенны) и поэтому они менее предпочтительны.

3. УСТАНОВЛЕНИЕ НЕОБХОДИМОГО ОБЪЕМА ВЫБОРКИ

После того как определены термины и рассмотрены процедуры выбора, остается обсудить последний вопрос: каким образом следует решать, сколько выбрать объектов. Ответ на этот вопрос в значительной степени требует привлечения сложных статистических понятий, которые мы не в состоянии обсуждать в рамках настоящей книги. По этой причине часть из того, о чем говорится в данном разделе, должна быть принята на веру, хотя в конце главы мы все-таки указываем некоторые книги, в которых эти проблемы обсуждаются. Спешим, однако, подчеркнуть, что большинство соображений, лежащих в основе определения необходимого объема выборки, понять достаточно просто и, прежде чем двигаться дальше, стоит уделитьимнемного внимания.

Чтобы установить необходимый объем выборки следует учесть несколько факторов. Один из наиболее важных – гомогенность – степень близости друг к другу членов данной совокупности с точки зрения изучаемых нами характеристик. Если каждый индивидуум в совокупности в точности такой же, как все остальные, то, выбрав всего лишь одного из них, мы получим действительно репрезентативную выборку. Напротив, если каждый индивидуум в совокупности абсолютно не похож ни на какой другой, то, прежде чем мы сможем утверждать, что у нас имеется репрезентативная выборка, нам потребуется провести перепись всей совокупности. В первом случае совокупность называют полностью гомогенной, во втором–полностью гетерогенной. Разумеется, в действительности большинство совокупностей располагается между этими двумя полюсами.

Чем гомогенное данная совокупность, т.е. чем меньше различий между ее членами, тем меньшая по объему выборка необходима для ее представления. Напротив, чем гетерогеннее совокупность, т.е. чем больше различий [c.175] между ее членами, тем большая выборка необходима для ее представления. Это особенно важно учитывать при стратифицированном формировании выборки, поскольку самим актом стратификации мы создаем подгруппы, более гомогенные, чем совокупность в целом. Таким образом, внутри уровней можно использовать, не теряя при этом репрезентативности, выборки меньшего объема, чем следовало бы для всей совокупности.

Сходным образом, чем больше категорий мы хотим исследовать, тем больше должна быть выборка. Это вполне естественно, поскольку, увеличивая разнообразие и тонкость наших измерений, мы подчеркиваем гетерогенность исследуемой совокупности. Иными словами, чем больше вопросов мы задаем и чем больше типов ответов допускаем, тем больше вероятность того, что мы обнаружим различия между исследуемыми объектами. Чем больше различий между объектами мы принимаем во внимание, тем больше объектов мы должны изучить, чтобы выборка получилась репрезентативной.

Еще одно важное соображение касается степени точности, которая нам требуется. Мы используем выборку для оценки характеристик больших совокупностей, однако любая оценка может содержать ошибку. Какую ошибку выборки мы готовы допустить? Ответ часто зависит от предполагаемого использования результатов. Если мы получаем деньги за то, что проводим опрос общественного мнения для предсказания результатов выборов, в которых участвуют кандидаты с близкими шансами, мы, скорее всего, захотим иметь минимальную величину ошибки. Если же мы политологи и пытаемся раскрыть основные тенденции в области отношений и поступков людей, мы, видимо, согласимся допустить существенно большую величину ошибки. Вообще, чем большая точность нам требуется, тем больше должна быть наша выборка.

С этой же проблемой связан и второй вопрос: насколько мы можем быть уверены в правильности нашей оценки величины ошибки выборки? Читателю, недостаточно искушенному в статистике, возможно, непросто понять приводимые в этом случае доводы, однако предлагаемый ниже пример может кое-что прояснить. Здесь существенны следующие моменты. Каждая выборка дает нам некоторую оценку характеристик совокупности, однако вследствие [c.176] того, что никакие две выборки не будут в точности одинаковы, эти оценки будут несколько отличаться одна от другой и от оценки совокупности в целом. Это последнее отличие и есть ошибка выборки. Большинство выборок данного объема, взятых из одних и тех же совокупностей, будут очень похожи друг на друга и на саму совокупность, однако может случиться и так, что сформированная выборка будет отличаться от прочих. Может оказаться, что входящие в ее состав женщины, пожилые люди, республиканцы, выпускники колледжей и т.п. включены в таком количестве, которое не отражает реальной доли этих групп в соответствующих совокупностях. Такая выборка, естественно, не будет репрезентативной: она выйдет за рамки допустимой величины ошибки.

Проблема заключается в том, что в реальной действительности мы не всегда знаем внутренние параметры совокупности, для оценки которых предназначена наша выборка (зачастую установление таких параметров и является целью исследования); кроме того, мы формируем не множество выборок, а всего лишь одну. И хотя мы сумеем проконтролировать очевидную валидность нашей выборки, проведя сравнение с другими исследованиями той же самой совокупности или совокупности, похожей на данную, мы не можем быть уверены, что наша выборка не случайное исключение, что она нерепрезентативна (это мало вероятно, но возможно). Однако из занятий статистикой нам известно, что вероятность вытащить из горы яблок гнилое, можно снизить, если увеличить объем выборки. Чем больше объектов мы включим, тем выше вероятность того, что будет получена истинно репрезентативная выборка, которая действительно не выйдет за рамки заданной нами величины ошибки.

Наши рассуждения можно сделать менее абстрактными, если рассмотреть краткие характеристики выборок разного объема, представленные в табл.5.1. Эти характеристики получены на основе более обширных сведений, содержащихся в табл. А.2 и А.3 приложения А. В табл.5.1 перечислены минимальные объемы выборок, соответствующие нескольким уровням ошибки выборки, и степени уверенности для случая простой случайной выборки при относительно гетерогенной совокупности объемом более 100 000 объектов. (Изучение таблиц приложения А, [c.177] послуживших источником для данной таблицы, показывает, что при формировании выборок для меньших совокупностей приводимые цифры могут быть несколько уменьшены, однако при возрастании объема совокупности приводимые значения задают предельный объем выборки.)

Таблица 5.1

<== предыдущая лекция	\|	следующая лекция ==>
Обоснование применения и смысл выборочного исследования	\|	Краткие характеристики выборок разного объема

Поделиться с друзьями:

Дата добавления: 2013-12-13; Просмотров: 761; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.044 сек.