Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Задачі і умови




Вступ

Багатомірних даних

Ієрархічний агломеративний кластерний аналіз

Лабораторна робота № 10

 

 

 

 

В практичних дослідженнях різноманітних явищ, процесів, ситуацій, об’єктів дані спостережень використовують для отримання з них дійсно корисної і застосовної на практиці інформації переважно для прийняття рішень. Для цього, в першу чергу здійснюють попередню обробку існуючих даних, яка полягає у поділі даних на однорідні групи. В результаті такого поділу пошук закономірностей в такій групі стає більш коректним. Основним методом, яким здійснюється такий поділ процедура кластерного аналізу. Ідея класифікації отриманих даних щодо деяких, подібних між собою об’єктів, за допомогою кластерного аналізу є за своїм змістом інтуїтивною, якщо припустити, що в - мірному просторі ознак існує деяка метрика, за якою ці об’єкти можна згрупувати в окремі групи – кластери.

Кластерний аналіз є одним із методів багатомірного статистичного аналізу, тобто аналізу даних, коли кожне спостереження подається не одним деяким показником, а сукупністю значень різних показників. Він включає низку алгоритмів, за допомогою яких здійснюється і формування самих кластерів і розподіл об’єктів за кластерами. Кластерний аналіз, перш за все, розв’язує задачу внесення структури в дані, тобто їх групової однорідності, а також забезпечує виділення компактних, віддалених одна від одної груп об’єктів, тобто відшукує «природне» розбиття сукупності на області скупчення об’єктів.

Методи багатомірного аналізу – найбільш діючий кількісний інструмент дослідження процесів, описуваних більшим числом характеристик. До них відносяться кластерний аналіз, таксономія, розпізнавання образів.

Кластерний аналіз найбільше яскраво відбиває риси багатомірного аналізу в сенсі класифікації конкретних об’єктів. Його процедури, а існує багато різновидностей кластерного аналізу, необхідні в тому випадку, коли структуру даних неможливо виявити ні візуально, ні за допомогою експертів. Велика перевага кластерного аналізу в тому, що він дозволяє здійснювати розбиття об’єктів на за одним параметром, а за цілим набором ознак. Крім того, на відміну від більшості математико-статистичних методів він не накладає будь-яких обмежень на вид об’єктів, що підлягають кластеризації.

Кластерний аналіз дозволяє розглядати досить значні обсяги даних, різко скорочувати і стискати їх, робити їх компактними та наочними. Важливе значення він має стосовно сукупностей часових рядів, які характеризують динаміку розвитку. Іншими словами, стосовно часових рядів, він дозволяє виділяти періоди, в яких значення відповідних показників були достатньо близькими, а також визначати групи часових рядів з найбільш подібною динамікою.

Іноді підхід кластерного аналізу називають у літературі чисельною таксономією, чисельною класифікацією, класифікацією із самонавчанням. Перше застосування кластерний аналіз знайшов у соціології. Назва кластерний аналіз походить від англійського слова cluster - гроно, скупчення. Уперше в 1939 був визначений предмет кластерного аналізу й зроблений його опис дослідником Тріоном.

Кластерний аналіз можна застосовувати до інтервальних даних, частот та бінарних даних.

 

 

Головне призначення кластерного аналізу – вирішення таких основних задач:

· розробка типології або класифікації;

· виявлення відповідної структури в даних;

· дослідження корисних концептуальних схем групування об’єктів;

· висунення гіпотез на основі дослідження даних;

· перевірка гіпотез або дослідження з метою визначення – чи дійсно типи (групи), виділені тим або іншим способом присутні в існуючих даних;

· розбиття множини досліджуваних об'єктів і ознак на однорідні у відповідному розумінні групи або кластери.

Незалежно від предмета дослідження застосування кластерного аналізу включає такі етапи:

· відбір даних для кластеризації і подання даних у вигляді таблиці «об’єкт - властивість»;

· нормування даних поданих таблицею «об’єкт - властивість»;

· вибір та обґрунтування метрики для формування матриці близькостей;

· побудова матриці близькостей на основі нормованої таблиці «об’єкт - властивість»;

· вибір стратегії об’єднання для процедури кластерного аналізу;

· реалізація процедури кластерного аналізу стосовно матриці близькостей;

· побудова дендрограми та виділення за відповідними критеріями потрібних кластерів.

 

Кластерний аналіз ставить такі вимоги до даних.

· показники не повинні корелювати між собою;

· показники властивостей мають бути безрозмірними;

· вплив будь-яких факторів на значення показників має бути виключений.

 

Методи кластерного аналізу можна застосовувати в різних випадках, у тому числі, коли мова йде про просте угруповання, у якому усе зводиться до утворення груп по кількісній подібності. В залежності від конкретної прикладної задачі, мета кластерного аналізу може бути різна, наприклад:

- зрозуміти структуру множини об’єктів, розбивши їх на однорідні, в тому чи іншому сенсі, групи і, тим самим, спростити подальшу обробку даних для прийняття рішень, працюючи з кожним кластером окремо;

- виділити нетипові об’єкти, які не належать до жодного з кластерів. Цю задачу називають одно класовою класифікацією виявлення не типовості або новизни;

- зменшити, у випадку надвеликих вибірок , обсяг даних для збереження, залишивши по одному, найбільш характерному представнику від кожного кластера;

- дослідити динаміку об’єктів в процесі їхньої експлуатації за зміною відстаней всередині класів та між класами.

 

Переваги кластерного аналізу:

а) Він дозволяє робити розбивку об'єктів не по одному параметру, а по цілому набору ознак.

б) Кластерний аналіз, на відміну від більшості математико-статистичних методів, не накладає ніяких обмежень на вид розглянутих об'єктів, і дозволяє розглядати множину вихідних даних практично довільної природи.

в) Кластерний аналіз дозволяє розглядати досить великий обсяг інформації й різко скорочувати, стискати більші масиви інформації, робити їх компактними й наочними.

г) Кластерний аналіз можна використати циклічно. У цьому випадку дослідження проводиться доти, поки не будуть досягнуті необхідні результати. При цьому кожний цикл тут може подавати інформацію, що здатна сильно змінити спрямованість і підходи подальшого застосування кластерного аналізу. Цей процес можна представити системою зі зворотним зв'язком.

д) У задачах прогнозування досить перспективне сполучення кластерного аналізу з іншими кількісними методами (наприклад, з регресійним аналізом).

Недоліки й обмеження кластерного аналізу:

а) Склад і кількість кластерів залежить від обираних критеріїв розбивки.

б) При відомості вихідного масиву даних до більш компактного виду можуть виникати певні перекручування, а також можуть губитися індивідуальні риси окремих об'єктів за рахунок заміни їхніми характеристиками узагальнених значень параметрів кластера.

в) При проведенні класифікації об'єктів часто ігнорується можливість відсутності в розглянутій сукупності яких-небудь значень кластерів.

 

У кластерному аналізі вважається, що:

а) обрані характеристики допускають у принципі бажане розбиття на кластери;

б) одиниці виміру (масштаб) обрані правильно.

Вибір масштабу відіграє велику роль. Як правило, дані нормалізують, тобто вирахуванням середнього й діленням на стандартне відхилення, так що дисперсія виявляється рівній одиниці.

Методи кластерного аналізу можна застосовувати навіть тоді, коли необхідно здійснити звичайний поділ множини об’єктів на групи лише за кількісною подібністю. [Уиллиамс У. Т., Ланс Д. Н. Методы иерархической классификации // Статистические методы для ЭВМ / Под ред. М. Б. Малютов. – М.: Наука, 1986. – С. 269–301.]

Алгоритми кластерного аналізу мають розроблену програмну реалізацію, що дозволяє вирішити задачі великої розмірності. Метод ієрархічної кластерного аналізу (інколи чисельної таксономії) існуючих даних здійснює класифікацію, яка раніше не існувала, або створює нову, ігноруючи попередню, переглядаючи дані знову.

 

Мета роботи: Розділити задану множину об’єктів, кожен з яких характеризується однаковою сукупністю конкретних ознак, на окремі групи, використовуючи ієрархічний агломеративний кластерний аналіз.

 




Поделиться с друзьями:


Дата добавления: 2015-05-24; Просмотров: 455; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.019 сек.