Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Показатели вариации




Статистики таблиц сопряженности признаков.

Построение таблиц сопряженности признаков.

Понятие статистической гипотезы.

Показатели формы распределения.

Показатели вариации.

Описательный анализ. Базовые методы анализа маркетинговой информации 10ч.

1. Вариационный ряд: характеристика распределения данных.

2. Обобщающие показатели: интерпретация типических значений.

П рименение пакета SPSS для описательного анализа маркетинговой ин­формации.

 

1. Вариационный ряд: характеристика распределения данных.

При проведении маркетинговых исследований часто необходимо получить информацию об одной переменной. Например;

• Какое количество потребителей определенной марки товара можно считать лояльными ей?

• Каково соотношение между разными группами потребителей товара: много использующими, средне, слабо и не пользователями?

• Какое количество потребителей хорошо осведомлены о предлагаемом новом товаре?

Сколько потребителей поверхностно знакомы, сколько что-то слышали, а сколько вообще ничего не знают о данной торговой марке? Какова средняя степень осведомленности о товаре? Сильно ли различается степень осведомленность потребителей о новом товаре?

• Что представляет собой кривая распределения дохода для приверженцев данной марки товара? Смещено ли данное распределение в сторону группы потребителей с низкими доходами?

Ответы на подобные вопросы можно получить, изучив распределение частот значений переменной, или вариационный ряд (frequency distribution). При таком анализе рассматривается одна переменная.

Вариационный ряд (или распределение частот значений переменной) (frequency distribution) - это математическое распределение, цель которого - подсчет ответов, связанных с различными значениями одной переменной (частот), и дальнейшее выражение их в процентном виде (частости). То есть вариационный ряд – двойной числовой ряд, показывающий, каким образом численные значения изучаемого признака связаны с их повторяемостью в выборке. Вариационные ряды имеют большое значение при статистической обработке экспериментальных данных, поскольку дают наглядное представление о характерных особенностях варьирования признака. Вариационные ряды бывают двух типов: интервальные и безинтервальными.

В интервальном вариационном ряду частоты (или частости), характеризующие повторяемость вариант в выборке, распределяются по интервалам группировки. Интервальный вариационный ряд строится, если изучаемый признак варьирует непрерывно, но используется и для дискретно (разрывно, целочисленно) варьирующих признаков в тех случаях, когда признак варьирует в широких пределах.

В безынтервальном вариационном ряду частоты (или частости) распределяются непосредственно по значениям варьирующего признака. Для построения безынтервального вариационного ряда необходимо варианты выборки расположить в порядке возрастания или убывания (проранжировать) и затем подсчитать, сколько раз каждая из них встречается в выборке. Безынтервальный вариационный ряд применяется в тех случаях, когда исследуемый признак варьирует дискретно и слабо.

Пример: Таблица 1

Превышение разрешенной скорости движения (км/ч) Кол-во нарушений Зрение (диоптрии) Кол-во человек Экзамена­ционная оценка Кол-во студентов
20-30   -10:-6        
30-40   -6:-3        
40-45   -3:-1        
45-60   -1:+1        
Больше 60   +1:+5        
    +5:+10        
Признак – непрерывный Признак дискретный, сильно варьирующийся. Признак дискретный, слабо варьирующийся.  

 

Подсчет распределения частот значений переменной дает возможность построить таблицу, с указанием частоты, частости и накопленных частостей для всех значений этой переменной.

Таблица 2 Распределение частот осведомленности об Internet

Отметка значения Значение Частоты (N) Частости Достоверные частости Накопленные частости

 

           

 

Плохо осведомлены 1 0 0,0 0,0 0,0

2 2 6,7 6,9 6,9

3 6 20,0 20,7 27,6

4 6 20,0 20,7 48,3

5 3 10,0 10,3 58,6

6 8 26,7 27,6 86,2

Хорошо осведомлены 7 4 13,3 13,8 100,0

9 1 3,3 Пропуск

Итого 30 100,0 100,0

Обратите внимание, что код 9 присвоен пропущенным значениям. В третьей колонке приведено количество ответивших респондентов. Например, три респондента отметили в анкете значение 5, указав, что они что-то слышали об Internet. В четвертой колонке приведен процент респондентов, отметивших в анкете данное значение. В следующей колонке показаны проценты, подсчитанные с учетом пропущенных значений. Если пропущенных значений нет, то колонки 4 и 5 идентичны. В последней колонке представлены накопленные частости после корректировки пропущенных случаев (ответов респондентов). Как видно, из 30 респондентов, участвующих в опросе, 10% отметили значение 5. Если исключить одного респондента с пропущенным значением, то частость увеличится до 10,3%. Накопленная частость, относящаяся к значению 5, равна 58,6. Другими словами, 58,6% респондентов с достоверными ответами показали значение осведомленности 5 или меньше. Вариационный ряд помогает определить долю неответивших респондентов: в табл. 2 один респондент из 30 не ответил на вопрос, а также указывает долю ошибочных ответов. Значения, равные 0 или 8, соответствуют ошибочным ответам. Следует определить количество случаев с такими значениями и соответственно откорректировать результат. Кроме того, можно установить наличие выбросов, т.е. случаев с экстремальными значениями. При анализе распределения частот относительно размера домохозяйства (семьи) выбросами следует считать несколько семей, состоящих не меньше чем девяти человек. Распределение частот также определяет форму эмпирического распределения значений переменной. Частотные данные можно использовать для построения гистограмм или вертикальных столбчатых диаграмм, на которых по оси X откладывают значения переменной, а по оси Y— абсолютные (частоты) или относительные (частости) значения.

2. Обобщающие показатели: интерпретация типических значений.

Показатели центра распределения (measures of location) - Статистики, которые характеризуют значение признака, вокруг которого концентрируются наблюдения, или, как говорят, показывают центральную тенденцию распределения.

Среднее арифметическое или выборочное среднее (mean) — это наиболее часто используемый показатель, характеризующий положение центра распределения. Он используется для оценки среднего значения в случае, если данные собраны с помощью интервальной или относительной шкалы. Его величина должна отражать некоторое среднее значение, вокруг которого распределена большая часть ответов.

Среднее арифметическое, выборочное среднее (mean) - Эта величина получается делением суммы всех имеющихся значений переменной на число значении.

Среднее арифметическое X задается формулой

Для несгруппированных данных среднее арифметическое определяется по следующей формуле:

(3.1)

где n — объем выборки; хi — варианты выборки.

Если данные сгруппированы, то

(3.2)

где n — объем выборки; k — число интервалов группировки; ni — частота i -ого интервала; хi — срединное значение i -ого интервала.

Обычно среднее значение — устойчивый показатель и заметно не изменяется при добавлении или вычитании значений данных. Для частот, представленных в табл. 15.2, среднее арифметическое вычисляют следующим образом:___________

 

 

Мода ( mode) — значение переменной, встречающееся чаще других. Представляет наивысшую точку (пик) распределения. Мода хороший показатель центра распределения, если переменная имеет категорийный характер, или, иначе говоря, ее можно разбить на категории.

Для определения моды в интервальном ряду используется следующая формула:

где хмо к — нижняя граница модального интервала; h — ширина интервала группировки; nMo — частота модального интервала; nMo-1 — частота интервала, предшествующего модальному; nMo+1 — частота интервала, следующего за модальным.

ПРОЦЕНТИЛЬ - Мера расположения данных выборки или распределения. Говорят, что n-й процентиль - это такое значение, ниже которого расположено n процентов наблюдений данной переменной. Следовательно, 40-й процентиль (или 4-й дециль) - это значение, ниже которого расположено 40% результатов наблюдений, а 25-й и 75-й процентили - нижним и верхним квартилями соответственно.

Медиана (median) - Значение переменной, которое приходится на середину распределения частот, т.е. одна половина всех значений больше медианы, а другая половина - меньше. Медиана— это 50-й процентиль Если данных немного (объем выборки невелик), медиана вычисляется очень просто. Для этого выборку ранжируют, т. е. располагают данные в порядке возрастания или убывания, и в ранжированной выборке, содержащей n членов, ранг R (порядковый номер) медианы определяется как

Пусть, например, имеется ранжированная выборка, содержащая нечетное число членов n = 9: 12 14 14 18 20 22 22 26 28. Тогда ранг медианы

и медиана, обозначаемая символом Ме, совпадает с пятым членом ряда: Ме = 20.

Если выборка содержит четное число членов, то медиана не может быть определена однозначно. Например, получен ряд из 10 членов: 6 8 10 12 14 16 18 20 22 24.

Ранг медианы оказывается равным

Медианой в этом случае может быть любое число между 14 и 16 (5-м и 6-м членами ряда). Для определенности принято считать в качестве медианы среднее арифметическое этих значений, т. е.

Медиана обычно несколько отличается от среднего арифметического. Так бывает всегда, когда имеет место несимметричная форма эмпирического распределения.

Для тех случаев, когда эмпирическое распределение оказывается сильно асимметричным, среднее арифметическое теряет свою практическую ценность, поскольку при этом значительно большая часть значений признака оказывается выше или ниже среднего арифметического. В этой ситуации медиана представляет собой лучшую характеристику центра распределения.

Как видно из табл. 2, три показателя, характеризующих положение центра распределения для рассматриваемого нами примера, различны (среднее значение — 4,724; мода — 6,000; медиана — 5,000). Какой же показатель использовать? Если переменную измеряют по номинальной шкале, то лучше использовать моду. Если переменную измеряют по порядковой шкале, то больше подходит медиана. Если же переменную измеряют по интервальной или относительной шкале, то мода плохо отражает положение центра распределения. Это можно увидеть из табл. 2. Хотя значение моды, равное 6,000, отражает наивысшую частоту, оно представляет только 27,6% выборки. Медиана лучше подходит в качестве показателя, характеризующего положение центра распределения, для интервальной или относительной шкалы, хотя и она не учитывает имеющуюся информацию о переменной. Текущие значения переменной до и после медианы игнорируются. Самый лучший показатель для интервальной или относительной шкалы — среднее арифметическое. Он учитывает всю доступную информацию, поскольку для его вычисления используются все значения. Однако среднее арифметическое чувствительно к выбросам значений (экстремально малым или экстремально большим значениям). Если данные содержат выбросы, то среднее не будет хорошим показателем центра распределения и лучше использовать два показателя — среднее и медиану.

 

Показатели вариации (изменчивости) (measures of variability), вычисляемые на основании данных, измеряемых с помощью интервальных или относительных шкал, включают размах вариации, межквартильный размах, дисперсию, стандартное отклонение и коэффициент вариации.

Показатели вариации (изменчивости) (measures of variability) - Статистики, показывающие меру разброса (вариабельность) значений переменной.

Размах вариации (range) отражает разброс данных. Он равен разности между наибольшим и наименьшим значениями в выборке. Поэтому на него непосредственно влияют выбросы.

Размах = Xмаксимальное- Х минимальное

Если все значения данных умножить на константу, то значение размаха вариации умножается на ту же константу. Размах вариации в табл. 2 равен: 7 — 2 = 5,000.

Межквартильный ра змах (interquartile range) — это разность между 75- и 25-м процентилями. Межквартильный размах (interquartile range) - Размах вариации распределения, охватывающий центральные 50% всех наблюдений.

Для набора точек данных, расположенных в ранжированном ряду, р -м процентилем будет такое значение переменной в ранжированном ряду распределения, что р % единиц совокупности будут меньше и (100 — р)% — больше него. Если все значения данных умножить на константу, то межквартильный размах умножается на эту же константу. Межквартильный размах в табл. 2 равен 6 - 3 = 3,000.

Разность между средним значением переменной и ее наблюдаемым значением называют отклонением от среднего.

Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического. Дисперсия, вычисляемая по выборочным данным, называется выборочной дисперсией и обозначается.

Выборочную дисперсию вычисляют по приведенным ниже формулам:

Для несгруппированных данных

.

В этой формуле — сумма квадратов отклонений значений признака xi от среднего арифметического х. Для получения среднего квадрата отклонений эта сумма поделена на объем выборки n.

Для сгруппированных в интервальный вариационный ряд данных:

.

Здесь хi — срединные значения интервалов группировки; — взвешенная сумма квадратов отклонений.

Размерность дисперсии не совпадает с единицами измерения варьирующего признака. Дисперсия измеряется в единицах измерения признака в квадрате.

Стандартным отклонением (или средним квадратическим отклонением) называется корень квадратный из дисперсии:

.

Размерность стандартного отклонения в отличие от размерности дисперсии совпадает с единицами измерения варьирующего признака, поэтому в практической статистике для того, чтобы охарактеризовать рассеяние признака используют обычно стандартное отклонение, а не дисперсию.

Стандартное отклонение для данных табл.2 находим по формуле;

δ= =1,579

,

называемый коэффициентом вариации.

Обычно он выражается в процентном отношении:

.

Коэффициент вариации является относительной мерой рассеяния признака.

Коэффициент вариации используется и как показатель однородности выборочных наблюдений. Считается, что если коэффициент вариации не превышает 10 %, то выборку можно считать однородной, т. е. полученной из одной генеральной совокупности. Практически коэффициент вариации применяется в основном для сравнения выборок из однотипных генеральных совокупностей. Коэффициент вариации можно использовать как относительную меру рассеяния только в тех случаях, когда значения признака измерены в шкале с абсолютным нулем.

К использованию коэффициента вариации нужно подходить с осторожностью. Продемонстрируем возможные ошибки на следующем примере. Если на основании многолетних наблюдений среднее арифметическое среднесуточных температур 8 марта составляет в какой-либо местности 0°С, то по формуле получим бесконечный коэффициент вариации независимо от разброса температур. Поэтому в данном случае коэффициент вариации не применим! в качестве показателя рассеяния температур, а специфику явления более объективно оценивает стандартное отклонение.

 




Поделиться с друзьями:


Дата добавления: 2014-01-20; Просмотров: 1313; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.038 сек.