Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Основні статистичні поняття




З матеріалів попереднього параграфа можна зробити висновок, що журналістові навряд чи під силу самостійно провести повноцінну статистичну обробку даних – для цього потрібна спеціальна професійна підготовка. Тому тим журналістам, у чиїх роботах є значний масив емпіричних даних, імовірно, не уникнути необхідності звернутися по допомогу до фахівців з математичної статистики. При цьому дуже бажано, щоб дослідник мав уявлення про основні статистичні поняття, які доведеться використовувати у своїй роботі. У цьому параграфі ми стисло опишемо деякі з них.

Варіаційні ряди. Первинні дані, з якими має справу дослідник, часто являють собою невпорядковану послідовність чисел, які характеризують ту чи іншу сторону процесу чи явища. Під час первинної обробки наявні дані треба привести до вигляду, який є зручним для статистичного аналізу.

Приклад. Під час дослідження віку (ознака) студентів першого курсу зафіксовано такі дані:

17 18 18 18 19 18 20 20 19 18 18 21 19 22 23 18 19 19 19 21 21 18 18 18 18 22 19 18 20 18 19 18 20 19 21 20 22 18 19 21 19 19 22 23 19 20 21 22 17 19.

Отриманий у результаті дослідження набір чисел називається масивом значень ознаки, що властива елементам сукупності, якою в даному прикладі є студенти, а самі числа, що показують зміну значень (варіацію) досліджуваної ознаки, – варіантами (позначимо їх хi, де i – номер варіанта).

Якщо упорядкувати сукупність вихідних даних у спадному чи зростаючому порядку, то одержимо так званий ранжирований ряд, наведений у таблиці 6.

Таблиця 6.

Розподіл студентів першого курсу за віком

Вік студентів (варіанти хi) Кількість студентів даного віку (частоти ni) Частості (qi)
відносні у %
    0,04  
    0,30  
    0,28  
    0,12  
    0,12  
    0,10  
    0,04  
Разом   1,0  

 

У першому стовпчику містяться варіанти, які розрізняються за величиною. Вони подані у зростаючому порядку, у другому стовпчику – числа, що показують, скільки разів (як часто) зустрічаються окремі значення варіант. Ці числа називаються частотами і позначаються ni.

Отриманий ряд називається варіаційним. Зведення первинних даних у варіаційний ряд полегшує аналіз сукупності. Наприклад, видно, що в обстеженій групі вік більшості студентів – 18–19 років, найменше студентів із крайніми для даної групи значеннями віку (17 років, 23 роки).

При побудові варіаційного ряду можна розглядати не частоти, а частки кожної варіанти у всій сукупності. Вони обчислюються як відношення відповідних частот ni до обсягу всієї сукупності і називаються частостями (qi). Частості можуть бути виражені у відносних числах (коефіцієнтах) чи у відсотках (див. стовпчики 3 і 4 табл. 6).

Дискретний та інтервальний варіаційні ряди. Досліджувана ознака об’єкта може бути дискретною і неперервною. Дискретною варіаційною ознакою називається така, в якої окремі значення (варіанти) відрізняються на деяку скінченну величину. У наведеному прикладі варіаційна ознака дискретна – окремі значення варіант відрізняються на одиницю (1 рік). Варіаційна ознака називається неперервною, якщо окремі її значення можуть відрізнятися одне від одного на яку завгодно малу величину.

Залежно від типу варіаційної ознаки розрізняють дискретні й інтервальні варіаційні ряди. Дискретна ознака є основою для побудови дискретного ряду (як у табл. 6). У випадку безперервної ознаки варіанти поєднують в інтервали, утворюючи так званий інтервальний ряд. Питання про кількість інтервалів вирішується дослідником у кожному конкретному випадку залежно від поставленого завдання й особливостей вихідних даних.

У практиці журналістикознавчих досліджень неперервні варіаційні ознаки зустрічаються дуже рідко, тому тут ми не будемо розглядати інтервальні варіаційні ряди.

Для рангованого ряду легко розрахувати розмах варіації R, тобто різницю між найбільшим і найменшим значеннями ознаки: R = xmax. – xmin, де xmax – найбільше в ряді значення варіанти; xmin – найменше значення варіанти. Для нашого приклада розмах варіації R = 23 – 17 = 6 років.

Основні характеристики варіаційних рядів. Побудова варіаційного ряду є лише першим кроком у вивченні статистичних даних. Для більш глибокого дослідження матеріалу необхідні узагальнюючі кількісні показники, які розкривають загальні властивості статистичної сукупності. Ці показники, по-перше, дають загальну картину, показують тенденцію розвитку процесу чи явища, нівелюючи випадкові індивідуальні відхилення, по-друге, дають змогу порівнювати варіаційні ряди і, нарешті, використовуються в багатьох методах математичної статистики при більш глибокому аналізі статистичної сукупності.

Міри рівня (середні). Найбільш уживаними в статистичних дослідженнях є три види середніх: середня арифметична, мода і медіана.

Вибір типу середньої для характеристики варіаційного ряду залежить від мети, для якої обчислюється середня, від можливостей тієї чи іншої середньої і від особливостей вихідного матеріалу, зокрема від шкали виміру.

Середня арифметична – це сума значень, поділена на їхню кількість[3]. Середні арифметичні можна обчислювати тільки у випадку використання метричних шкал виміру ознаки.

Крім середньої арифметичної, дуже поширена інша міра рівня – медіана.

Медіаною (Mе) називається таке значення ознаки, яке припадає на середину рангованого варіаційного ряду. Медіану варто застосовувати, якщо обчислення середньої арифметичної неправомірне. Медіану не слід використовувати, якщо кількість спостережень невелика.

Модоюо) називається варіанта, яка найчастіше зустрічається у варіаційному ряді. Для дискретного ряду мода дорівнює варіанті з найбільшою частотою чи частістю.

Міри розсіювання. Розглянуті вище середні дають змогу схарактеризувати одним числом цілий ряд чисел. Однак середні не дають інформації про те, наскільки добре вони представляють усю сукупність. Однакові чи близькі за величиною середні можуть бути у дуже різних рядів.

Наприклад, уявімо, що ми обстежуємо дві групи респондентів, по 5 чоловік у кожній. У таблиці 7 наведено дані про вік учасників цих груп.

Таблиця 7.

Вік респондентів двох обстежуваних груп

            Сумарний вік, років
1-я група            
2-я група            

 

Розрахувавши середні арифметичні, одержуємо, що середній вік у 1-й і у 2-й групах однаковий і дорівнює 36 рокам. Але просте порівняння цих двох рядів показує, що однакові середні представляють дві зовсім різні за віковим складом групи, а саме: вік усіх 5-ти респондентів 1-ї групи більш-менш близький до 36 років, тоді як у 2-у групу входять старі і діти, і вік кожного респондента дуже далекий від середньої арифметичної. Інакше кажучи, варіанти першого ряду досить тісно групуються навколо своєї середньої (у цьому випадку середня є типовою), тоді як у другому ряді спостерігається великий розкид (розсіювання) варіант. Щоб відзначити подібні розходження, у статистиці вдаються до розрахунку мір розсіювання – показників, що характеризують розсіювання значень ознаки навколо середньої. Виділяють такі основні міри розсіювання: розмах варіації, дисперсія і середнє квадратичне відхилення.

Розмах варіації показує різницю між найбільшим і найменшим значеннями ознаки (R = xmax – xmin). Перевагою цього показника є простота розрахунку. Однак можливості його застосування обмежені, тому що ця характеристика є найбільш грубою з усіх мір розсіювання. По-перше, при розрахунку цього показника використовуються тільки крайні значення ознаки, інші ж до уваги не беруться. По-друге, розмах варіації істотно залежить від випадкових коливань вибірки.

Для характеристики розсіювання використовують показники, при розрахунку яких ураховується відхилення всіх варіант від певної середньої (наприклад, від середньої арифметичної чи медіани). До таких мір розсіювання, зокрема, належать дисперсія і середнє квадратичне відхилення. Вони широко застосовуються в більшості методів математичної статистики.

Дисперсія, чи середній квадрат відхилення (σ2), – це середня арифметична з квадратів відхилень варіант від їх середньої арифметичної.

Часто зручно представляти міру розсіювання в тих самих одиницях вимірювання, що й варіанти. Тоді замість дисперсії використовують середнє квадратичне відхилення (s), що є квадратним коренем з дисперсії.

Стандартні помилки вибірок. Як уже відзначалося, вибірковий метод дозволяє переносити результати обробки вибірки на всю генеральну сукупність. При цьому, звичайно, може бути певна помилка. Ефективність вибіркового методу полягає в тому, що він дає змогу оцінити цю помилку.

Величина помилки вибірки показує, наскільки добре характеристики вибірки представляють відповідні характеристики генеральної сукупності, і називається помилка репрезентативності. Розрізняють помилки репрезентативності подвійного роду: систематичні й випадкові.

Систематичні помилки виникають тоді, коли не виконано умови випадковості добору. Систематична помилка може виникнути й у випадку, коли формально добір зроблено випадково, але вихідна сукупність не є повною і представницькою для розв’язання поставленого завдання.

За допомогою вибіркового методу визначаються і величини випадкових помилок. Випадкові помилки вибірок виникають унаслідок того, що для аналізу всієї сукупності використовується лише її частина, відібрана випадково.

У математичній статистиці є формули, які дають змогу обчислити середню помилку вибірки (або стандартну помилку вибірки). Обчислення середньої помилки вибірки залежить від способу формування вибірки (див. п. 2.1).

Середня помилка вибірки істотно залежить від середнього квадратичного відхилення окремих значень ознаки від вибіркової середньої: чим більше середнє квадратичне відхилення (тобто чим більший розкид значень ознаки), тим (за інших рівних умов) більша середня помилка вибірки. Обсяг вибірки впливає на середню помилку вибірки у зворотному напрямі: чим більша чисельність вибірки, тим менша середня помилка вибірки, що цілком зрозуміло, оскільки велика вибірка краще представляє всю генеральну сукупність.

Гранична помилка вибірки і довірчий інтервал. Середня помилка вибірки дає деяке уявлення про помилку репрезентативності, тобто про точність, з якою вибіркова середня представляє дійсне значення генеральної середньої. Саме середня помилка вибірки показує, яка буде помилка в середньому, якщо з тієї самої генеральної сукупності зробити багато вибірок однакового обсягу. Однак у кожній конкретній вибірці помилка може істотно відрізнятися від середньої помилки, тобто немає гарантії, що помилка, яка була допущена в конкретному вибірковому дослідженні, не перевищує середньої помилки.

Тому набагато корисніше було б знати ті границі (межі), у яких "практично напевно" перебуває справжня помилка, допущена в цій конкретній вибірці. Ці границі вказує гранична помилка вибірки.

Гранична помилка вибірки (Δ) показує ту межу, якої практично напевно не перевершує справжня помилка. Інакше кажучи, гранична помилка Δ показує дійсно допущену помилку з надлишком, із перевищенням (можливо, дуже значним) і тим самим гарантує, що справжня помилка не перевершує Δ.

Можна точно виміряти ступінь упевненості в тому, що помилка конкретної вибірки не перевищить D. Для цього треба вказати частку вибірок, в яких помилка вибірки не перевершує D. Позначимо цю частку вибірок через Р, де 0<P<1. Чим ближче Р до одиниці, тим більшою буде впевненість у тому, що помилка конкретної вибірки не перевищує D (замість слів "ступінь упевненості" можна використовувати термін "імовірність"). На практиці використовують, наприклад, значення P, які дорівнюють 0,68; 0,95; 0,99, і деякі інші.

Значенням Р фактично вимірюється надійність результатів вибіркового дослідження: для значень Р, досить близьких до одиниці, практично виключається можливість того, що генеральна середня буде відрізнятися від обчисленої вибіркової середньої більше ніж на D. Зі своєї сторони D указує точність, що її гарантує заданий рівень надійності Р. Таким чином, гранична помилка вибірки дає змогу одночасно і взаємозалежно вказати точність і надійність результатів вибіркового дослідження.

Спеціальні таблиці дають змогу за заданою ймовірністю Р знайти величину граничної помилки D, що відповідає Р; іншими словами, знайти точність, що відповідає даному рівню надійності.

За допомогою обчислення вибіркової середньої і граничної помилки вибірки можна вказати інтервал, у якому практично напевно перебуває генеральна середня (так званий довірчий інтервал). При цьому завжди вказується надійність Р цього результату (те значення Р, що використовувалося в обчисленні Δ). Як правило, у соціальних дослідженнях рівень надійності Р=0,95 є достатнім.

Імовірності, визнані достатніми для впевненого судження про генеральні параметри на підставі відомих вибіркових показників, називають довірчими ймовірностями. Поняття про довірчі ймовірності запропоноване Р. Фішером. Воно випливає з принципу, покладеного в основу використання теорії ймовірностей для розв’язання практичних завдань. Відповідно до цього принципу, малоймовірні події вважаються практично неможливими, а події, імовірність яких близька до одиниці, вважаються майже достовірними. Як правило, достовірними вважають довірчі ймовірності Р1 = 0,95; Р2 = 0,99; Р3 = 0,999 [3]. Величина довірчої ймовірності (тобто ступінь нашої впевненості в наших твердженнях) повинна бути близькою до 1, бо якщо ця величина близька до нуля, доволі мало довіри до цих тверджень.

Визначення обсягу вибірки. Часто дослідник не має можливості вирішувати питання про обсяг вибірки або через обмеженість наявних у його розпорядженні даних, або через технічні причини.

Якщо ж можна вибирати обсяг вибірки, то насамперед створюють пробну вибірку довільного обсягу. При цьому можна спробувати відразу вгадати потрібний обсяг вибірки, ґрунтуючись на яких-небудь умовах розумності обсягу вибірки (наприклад, можна спробувати 10%- чи 20%-у вибірку). Якщо обсяг цієї вибірки виявиться недостатнім, можна буде згодом доповнити цю вибірку до потрібного обсягу.

Зробивши остаточну вибірку знайденого обсягу, варто обов’язково перевірити, чи збігається її гранична помилка із заданою, тобто чи задовольняються задані вимоги до точності і надійності результатів. Якщо виявиться, що справжня гранична помилка істотно більша заданої (це може статися через нерепрезентативність пробної вибірки), доведеться ще раз повторити процедуру визначення обсягу вибірки вже на основі отриманих даних.

Необхідний обсяг вибірки зростає пропорційно квадрату потрібної точності. А оскільки квадрати чисел при зростанні самих чисел зростають дуже швидко, то зависокі вимоги до точності можуть призвести до непомірного зростання обсягу вибірки. Тому важливо, щоб вимоги до точності вибіркового дослідження завжди диктувалися цілями і змістом дослідження.

Малі вибірки. Розглянуті прийоми розрахунку помилок вибірки ґрунтуються на доведеному в математиці факті нормальності розподілу вибіркових середніх. Однак це справедливо тільки при досить великому обсязі вибірки n. Якщо користатися описаними прийомами при n < 20, то можуть виникнути грубі помилки. Вибірки, обсяг яких менше 20–30 одиниць сукупності, називаються малими. Чіткої границі між великою і малою вибірками в загальному випадку вказати неможливо. Вибірка, зроблена із сукупності з невеликим розкидом ознаки, може вважатися великою, тоді як вибірка такого ж обсягу, зроблена з більш різнорідної сукупності, виявиться малою. Питання про те, до якої категорії віднести вибірку, вирішується в кожному конкретному випадку. Для розрахунку помилок малих вибірок використовується інший математичний аппарат [2].

Кореляція. Коли говорять, що дві випадкові змінні (ознаки) корелюють, то мають на увазі, що вони якось пов’язані. Кореляційний зв’язок – це така форма причиново-наслідкового зв’язку, коли причина породжує наслідок не однозначно, а лише з певною ймовірністю. Методи встановлення статистичних зв’язків між ознаками явища базуються на принципах:

· спільної появи подій – постійна парна поява ознак А і Б дає підставу припускати, що між ними є зв’язок. Наприклад, якщо хуліганство частіше відбувається обличчями, що знаходилися в нетверезому стані, чим тверезими, то можна укласти, що це правопорушення зв’язане з ознакою "нетверезий стан".

· коваріації – якщо для двох рядів зміни кількісних даних в одному з них відповідають змінам в іншому, то це дає підставу припустити, що між цими рядами є зв’язок. Наприклад, такий зв’язок спостерігається між збільшенням віку викладачів і зростанням рівня їхньої професійної кваліфікації.

Стандартною мірою зв’язку змінних є коефіцієнт кореляції – число, яке може набирати значення від –1 до +1. Коефіцієнт кореляції вимірює силу лінійного зв’язку двох випадкових змінних.

Позитивне значення коефіцієнта кореляції означає, що зі зростанням однієї зі змінних інша також збільшується, зі зменшенням однієї з них зменшується й інша. Негативне значення означає, що зі зростанням однієї зі змінних інша зменшується, зі зменшенням однієї з них – інша зростає.

Якщо коефіцієнт кореляції дорівнює нулю, то це означає, що між нашими змінними немає зв’язку. Зазначимо, що навіть коли коефіцієнт кореляції дорівнює 1 а, отже, наші змінні функціонально пов’язані (лінійно), все одно нічого не можна сказати про причиново-наслідковий зв’язок між ними. Низький коефіцієнт кореляції (наприклад, +0,1) свідчить, що зв’язок між двома змінними слабкий або його майже немає. Високий коефіцієнт кореляції (наприклад, –0,7) свідчить, що залежна змінна буде помітно змінюватися (в середньому), якщо буде змінюватися незалежна змінна.

Література до теми "Основні статистичні поняття"

1. ГОСТ Р 50779.0-95 "Статистические методы. Основные положения"

2. Дружинин Н.К. Выборочный метод и его применение в социально-экономических исследованиях. – М., 1970.

3. Леонов В.П. Долгое прощание с лысенковщиной // Бюллетень ВАК РФ, 1997. – № 5

4. Оуэн Д.Б. Сборник статистических таблиц. –М.: ВЦ АН СССР, 1966. –586 с.

5. Популярный экономико-статистический словарь-справочник / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 1993. – 192 с.

6. Пухначов Ю.В., Попов Ю.П. Математика без формул. – М.: АО "Столетие", 1995. – 512 с.

7. Рабочая книга социолога. – М., 1983. – 415 с.

8. Статистический словарь / Гл. ред. М. А. Королев. – М.: Финансы и статистика, 1989. – 621 с.

9. Суходольский Г.В. Основы математической статистики для психологов. – Л.: ЛГУ, 1972. – 429 с. ВА 206949




Поделиться с друзьями:


Дата добавления: 2017-01-14; Просмотров: 221; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.043 сек.