КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Основи кластерного аналізуДо методів кластерного аналізу належать методи класифікації багатовимірної статистичної сукупності, які ґрунтуються на понятті відстані між досліджуваними об’єктами. Для формування груп (кластерів) однорідних одиниць у кожний кластер включають подібні згідно з вибраною просторовою метрикою одиниці сукупності. Термін “кластерний аналіз” (cluster – згусток – англ.) запропонований К.Тріоном. У загальному випадку методи кластерного аналізу (автоматичної класифікації, розпізнавання образів без навчаючої вибірки, таксономії, як їх ще називають) розв’язують задачу оптимального поділу початкової множини статистичних спостережень на k підмножин (кластерів, класів, таксонів) згідно з вибраним критерієм якості. Переважно кількість кластерів k наперед невідома. Найвживанішими у практиці кластерного аналізу вважають хеммінгову та евклідову міри відстані. Хеммінгову відстань застосовують для ознак, що набувають лише значення 0 або 1. Її обчислюють за такою формулою: , (2.19) де і - стандартизовані значення l-ої ознаки в і-ій та j-ій одиниці сукупності. Звичайну евклідову відстань застосовують для кількісних ознак з однаковими ваговими коефіцієнтами. Її обчислюють за такою формулою: . (2.20) Зважену евклідову відстань застосовують для кількісних ознак, які мають різну вагу. Її обчислюють за модифікованою формулою (2.20): , (2.21) де - вага -ої ознаки. З урахуванням способів формування кластерів розрізняють ітеративні та ієрархічні методи кластерного аналізу. В основу ітеративних методів покладено оптимізацію вибраного показника якості класифікації. Попередньо виконують деякий орієнтовний поділ статистичної сукупності на класи, для кожного з яких визначають багатовимірні середні (центри тяжіння). Після цього розраховують відстані окремих одиниць сукупності до центрів тяжіння кластерів. Одиницю сукупності приєднують до того кластера, відстань до центра тяжіння якого є найменшою. Далі розраховують нові центри тяжіння і процедуру формування кластерів повторяють. Як наслідок, мінімізують внутрішньогрупові дисперсії і забезпечують однорідність сформованих кластерів. Серед ієрархічних методів кластерного аналізу найчастіше застосовують агломеративні методи – послідовне об’єднання двох найближчих кластерів. Початково вважають, що кожна одиниця сукупності становить окремий кластер. Інформаційною базою кластерної процедури слугує матриця відстаней між кластерами, розмірність якої на кожному кроці об’єднання кластерів понижується на одиницю. Найближчі кластери – це кластери, яким відповідає мінімальний елемент у матриці відстаней. Після об’єднання кластерів здійснюють коригування матриці відстаней за одним з алгоритмів: • одиничного зв’язку (“найближчого сусіда”); • повного зв’язку (“найдальшого сусіда”); • середнього зв’язку. У першому випадку за відстань між кластерами беруть відстань між найменш віддаленими елементами кластерів, а у другому – між найвіддаленішими елементами кластерів. Алгоритм середнього зв’язку використовує середню відстань між елементами кластеру. Під час формування кластерів можна застосовувати обмеження, зміст яких полягає у заданні максимально можливих відстаней між елементами кластера. Елементи, які не відповідають таким обмеженням, треба зарахувати до різних кластерів. Результати кластерного аналізу можна подавати у вигляді таблиць (матриць), які містять основні характеристики статистичних ознак у кластерах, або у вигляді деревоподібних діаграм (дендрограм), які репрезентують розподіл одиниць сукупності на групи під час окремих кроків виконання процедури кластерного аналізу. На одній осі дендрограми відкладають номери одиниць статистичної сукупності, а на другій – відстані, за якими їх об’єднують у кластери. Приклад 2.2. Користуючись агломеративною процедурою, здійснити класифікацію десяти фірм, показники маркетингової діяльності яких подані у табл.2.2. Таблиця 2.2
Продовження табл.2.2
Для формування матриці відстаней виконаємо стандартизацію змінних. Для цього знаходимо: ; ; ; ; ; . Матриця стандартизованих значень змінних має вигляд: Результати проміжних розрахунків для процедури кластеризації згідно з ієрархічним методом (ознаки вважаються рівновагомими, а об’єднання кластерів здійснюється за алгоритмом одиничного зв’язку) відображено в табл.2.3. Розподіл одиниць сукупності за групами під час виконання кроків кластерного аналізу наведено на рис.2.1.
Таблиця 2.3 Результати процедури кластерного аналізу
Продовження табл.2.3
Закінчення табл.2.3
Дата добавления: 2014-12-16; Просмотров: 1541; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |