Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Размах, дисперсия S2, стандартное отклонение Sx

Меры рассеяния.

Показатели рассеяния характеризуют степень раз­броса данных вокруг некоторого среднего значения. Мы говорим о значительном рассеянии тогда, когда многие значения сильно отклоняются от воображае­мого центра распределения. Специалисты по матема­тической статистике говорят, что в этом случае данные «размазаны». Про распределение, характеризующее­ся малым разбросом, говорят, пользуясь аналогией из области стрельбы, что данные ложатся «кучно». Понят­но, что в первом случае среднее значение оказывается более информативным показателем, чем во втором случае, то есть оно лучше описывает выборку в целом.

Например, в кордебалет идет строгий отбор танцов­щиц по росту. В результате рассеяние показателей роста в этой группе людей значительно меньше, чем по популяции в целом. Зная средний рост балерины, мож­но быть уверенным, что реальный рост любой балери­ны будет очень близок к нему.

Как оценить степень рассеяния значений перемен­ной? Здесь тоже существуют разные способы, выбор которых в каждом конкретном случае определяется характером данных — их типом и распределением.

Не­которое представление о рассеянии мы получаем, ког­да рассматриваем крайние члены распределения. Рас­стояние между ними называется размахом.

Например, в разобранном выше примере (Табл. 2) выборка вклю­чает индивидов, чей возраст колеблется в пределах от двадцати до семидесяти лет. Общий размах составляет пятьдесят лет. Большинство людей (40 %) моложе трид­цати лет. Но в выборку попали два человека, которым уже за шестьдесят. Если мы вычислим показатель цен­тральной тенденции по формуле среднего арифмети­ческого, то получим значение 36,5.

Для более точной оценки рассеяния в случае изме­рений по шкале равных интервалов используется по­казатель, называемый дисперсия. В этом случае учиты­вается отклонение каждого индивидуального значения от среднего в одну или в другую сторону. Нас интересует сумма таких отклонений. Но в случае сим­метричного распределения эта сумма всегда обраща­ется в нуль, поскольку положительные и отрицатель­ные отклонения взаимно гасятся. Сумма квадратов отклонений от среднего, деленная на количество наблюде­ний дает значение дисперсии.

 

 

Если извлечь из дисперсии квадратный корень, то мы получим еще одну меру рассеяния — стандартное отклонение (Sx), ко­торое также называют среднеквадратическим отклонением. Удобство этого показателя в том, что он выра­жается в тех же единицах, что и сами измеренные ве­личины:

Рассмотренный показатель очень удобен, когда форма распределения близка к той, которая называет­ся нормальным распределением.

Мы уже упоминали этот термин. Сейчас поясним, что он означает. Нор­мальное распределение — это такое распределение не­прерывного признака, которое симметрично относи­тельно среднего значения и если откладывать его зна­чения на графике, то кривая имеет вид колокола. Рост человека оказывается одним из признаков, обнаружи­вающих распределение, хорошо описываемое нор­мальной кривой. Если мы измеряем рост многих лю­дей, например — призывников в армию, а затем на ос­нове этих данных строим график, то мы получаем нормальную кривую. С точки зрения анализа данных нормальное распределение привлекательно тем, что его можно исчерпывающе описать через два парамет­ра — значение среднего и стандартного отклонения (дисперсии). Вместо тысяч значений — всего два чис­ла. Чрезвычайно эффективный метод сжатия инфор­мации.

 

Стандартное отклонение действительно позволяет четко задавать критерии для выявления статистичес­кой нормы. Это возможно благодаря тому, что свойст­ва нормального распределения хорошо известны и до­статочно просто описываются. Так, известно, что в диапазоне одного стандартного отклонения в обе стороны от среднего оказывается примерно 68 % всех наблюдений, а если взять два стандартных отклоне­ния, то этот участок распределения покроет около 95 % всех случаев. Значит, за этот диапазон выходит всего 5% возможных наблюдений.

Используя свойства нормального распределения, можно ввести строгие количественные критерии, оп­ределяющие, что такое «нормальный вес», «нормаль­ная острота зрения» и т. д. Психологические тесты то­же создаются с опорой на эти статистические законо­мерности. Нормы для оценки резуль­татов испытаний выводят эмпирически с использова­нием аппарата математической статистики, т.е. трудность заданий подбирается таким образом, чтобы распределение результатов решения тестовых задач (число пра­вильных ответов) описывалось нормальным законом. А затем строится шкала, где среднему значению соот­ветствует сто баллов, а стандартное отклонение равно пятнадцати баллам. Также построен известный показатель - коэффициент интеллектуального развития (по-английски — intelligence quotient, или сокращенно IQ). Человек, у которого этот показатель ниже 70, считается умственно отсталым, а человека с показате­лем выше 130 относят к категории особо умственно одаренных.

Мы подробно разобрали случай, когда анализиру­ется характер распределения одной переменной. Эти приемы очень важны, поскольку на них основаны все другие виды статистического анализа.

 

2. ДВУМЕРНЫЙ АНАЛИЗ данных

 

Теперь мы мо­жем перейти к более сложному виду анализа, каким является двумерный анализ. Здесь рассматривается связь между двумя переменными. Мы имеем пары на­блюдений, полученные на одном объекте. Это могут быть, например, результаты по двум тестам. Нас инте­ресует, как один изучаемый признак связан с другим.

Таблица 3. Взаимосвязь между видом СМИ и характером суждений

Суждение Вид СМИ Всего
Газета «Московский комсомолец» Экспертный журнал
1. Рациональное (причины, анализ) 50 (19,6) 200 (81,6)  
2.Оценочное (эмоционально-нравственное) 205 (80,4) 45 (18,4)  
  255 (100) 245 (100)  

В таблице 3 два столбца (для образования) и две строки, следовательно, размерность этой таблицы 2х2. Кроме того, имеются дополнительные крайний столбец и крайняя строка (маргиналы таблицы), указывающие общее количество наблюдений в данной строке или в столбце. В правом нижнем углу указана общая сумма, т. е. общее число наблюдений в выборке.

Обычно характер взаимоотношений между переменными в небольшой таблице можно определить даже «на глазок», сравнивая числа в столбцах или строках. Еще легче это сделать, если вместо абсолютных значений стоят проценты. Чтобы перевести абсолютные частоты, указанные в клетках таблицы, в проценты, нужно разделить их на маргинальные частоты и умножить на 100. Если делить на маргинал столбца, мы получим процент по столбцу.

Например, 50/255х100 = 19,6%, т. е. 19,6% газет МК имеют рациональные суждения. Если делить на маргинал строки, то мы получим другую величину - процент по строке.

 

Элементарная таблица сопряженности размерности 2х2 - это минимально необходимое условие для вывода о наличии взаимосвязи двух переменных.

 

3) Строится диаграмма распределения.

 

Между переменными могут существовать различные зависимости: линейные, нелинейные.

Между переменными Х и Y существует линейное отношение: если одна переменная возрастает по величине, то это же происходит и с другой. Очевидно, что чем более ком­пактно, «скученно» располагаются точки-наблюдения вокруг пунктирной пря­мой линии (описывающей идеальное линейное отношение Х и Y), тем сильнее зависимость. На рисунке 22 приведены три диаграммы рассеивания.

 

Очевидно, что на рисунке 22а какая-либо связь между x и y попросту отсут­ствует. На рисунке 22б воображаемая прямая линия (отмечена пунктиром) пе­ресекла бы диаграмму сверху вниз, из левого верхнего в правый нижний угол. Иными словами, линейная связь в этом случае имеет обратное направление: чем больше X, тем меньше зависимая переменная У.

Заметим также, что «куч­ность» расположения точек вдоль воображаемой прямой на рисунке 22б не очень велика, а значит и связь (корреляция) между переменными не только обратная, отрицательная, но еще и не очень сильная, умеренная.

Наконец, на рисунке 22в зависимую и независимую переменную связывает явно нелинейное отноше­ние: воображаемый график нисколько не похож на прямую линию и напомина­ет скорее параболу.

Методы анализа, о которых сейчас пойдет речь, не годятся для этого нелинейного случая, так как обычная формула для подсчета коэффициента корреляции даст нулевое значение, хотя связь между переменными существует.

Существует обобщенный показатель, позволяющий оценить, насколько связь между переменными приближается к линейному функциональному отношению, которое на диаграмме рассеивания выглядит как прямая линия. Это коэффици­ент корреляции, измеряющий тесноту связи между переменными, т. е. их тенденцию изменяться совместно.

Само слово «корреляция» как раз и озна­чает «взаимосвязь». Какого типа отношения возмож­ны между двумя переменными? Ну, во-первых, признаки могут быть совершенно независимыми друг от друга. Тогда изменения одного никак не связаны с из­менением другого. Мы говорим, что переменные не коррелированны между собой. Если признаки связаны, то сама связь может быть прямой или обратной.

В первом случае большим значениям одного признака соответствуют более высокие значения другого и на­оборот.

Во втором случае увеличение первого призна­ка сопровождается уменьшением второго, а уменьше­ние первого — увеличением второго.

Статистики гово­рят о положительной и отрицательной корреляции. Наконец, степень связи тоже может варьироваться от максимума, когда значения одного признака позволя­ют уверенно предсказывать значения другого, до ее полного отсутствия. Коэффициент корреляции отра­жает всю гамму возможных отношений. Его значение может варьироваться от +1 до — 1. Положительные значения указывают на прямую связь между перемен­ными, отрицательные — на обратную. Нуль соответствует случаю отсутствия корреляции.

Пример. Предположим, что у многих людей измеряют рост и вес тела. Каждый человек описывается двумя пока­зателями, и в результате образуются два ряда измере­ний. Сравнивая между собой пары измерений, мы стремимся выявить характер связи между переменными. Между ростом и весом тела существует довольно высокая положительная корреляция. Это значит, что высокий человек, как правило, весит больше, чем человек меньшего роста. Связь эта не однозначная: вы­сокий человек может быть очень худым, а человек не­высокого роста может быть очень полным. Поэтому значение коэффициента корреляции в данном случае находится где-то между 0 и +1, видимо, чуть ближе к единице.

Коэффициент корреляции по-разному вычисляет­ся для измеренных показателей (рост, вес) и для ран­жированных данных (оценки, предпочтения). Но его окончательная форма и интерпретация остаются теми же. Если данные носят качественный характер (муж­чина — женщина, совершеннолетний — несовершен­нолетний, работающий — пенсионер), то вместо коэф­фициента корреляции применяются другие меры связи, основанные на сравнении частот. Для тех случаев, когда два ряда получены с помощью разных шкал, име­ются свои вычислительные процедуры. Но общая ло­гика анализа сохраняется.

 

Социальные науки чаще всего имеют дело с явле­ниями, которые отличаются множественной детерми­нацией и контекстуальным характером. Поэтому необходима осо­бая тщательность в интерпретации наблюдаемых фак­тов.

 

<== предыдущая лекция | следующая лекция ==>
Шкала порядка, шкала интервалов | Цели научной деятельности и ее основные особенности
Поделиться с друзьями:


Дата добавления: 2014-01-15; Просмотров: 4863; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.02 сек.