Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Чисельна класифікація

 

Чисельна класифікація (інколи використовується термін таксономія) встановлює класифікацію або неіснуючу раніше, або ігноруючи існуючу, створює нову. Її мета в спрощенні матриці даних. Дані, як правило, складаються з множини елементів, індивідів, об’єктів, кожен з яких визначається набором ознак.

Об’єкти класифікації можуть бути різними. Вони можуть включати роди, види. Типи і різновиди живих організмів, рослинності, фізичних та хімічних елементів та їх сполук, міста, держави, зразки виробів тощо список цей можна продовжити практично досить довго. Класифікація таких об’єктів як правило використовує чисельні методі, які не залежать від природи матеріалу об’єктів, але також не існує єдиної «правильної» класифікації будь-якої множини даних.різні чисельні стратегії приводять до цілком різних результатів. Найбільш розпрацьованою множиною стратегій класифікації є ієрархічні класифікції.

Дані, як правило, подаються множиною елементів, кожен з яких визначається набором ознак. Термін «ознака» в цьому контексті використовується в широкому сенсі як узагальнення поняття змінної. Множину об’єктів, що підлягає класифікації вважають неоднорідною в тому сенсі, що її корисно розглядати як таку, що містить невідому кількість підмножин, які треба знайти. Причому елементи однієї множини є більш подібні між собою, ніж до елементів з інших підмножин. Тут термін “подібні” може бути визначений різними математичними виразами. Цей підхід переважно називають моделлю мінімальної дисперсії, хоча дисперсія в її статистичному розумінні може і не використовуватись як міра «подібності».

Задача чисельної класифікації може мати декілька розв’язків, а тому такий розв’язок краще розглядати не як структуру, яка є об’єктивною властивістю даних, а як структуру для дослідника в тому сенсі, що вона призначена для вияснення дослідником тих властивостей даних, які його цікавлять, які є досить громіздкими для безпосереднього аналізу.

Є два типи інтересів користувача:

1) вияснити з якою мірою впевненості при використанні даної чисельної моделі можна вважати існування різних підмножин;

2) є підозра, що істинної відмінності між підмножинами немає, але для полегшення аналізу дуже великого числа елементів варто мати такі підмножини, отримавши їх шляхом штучного розчленування.

Множину даних для безпосередньої їх обробки прийнято подавати у вигляді таблиці або матриці – «об’єкт – властивість», в якій стрічки відповідають властивостям об’єктів, стовпці – відповідають конкретним властивостям. Інколи бажано транспонувати матрицю даних і класифікувати ознаки за їх значенням для різних об’єктів – зворотня класифікація.

При організації процесів чисельної класифікації використовують три головних типи ознак, до яких відносять такі:

Номінальні ознаки (ознаки з невпорядкованими станами) визначаються низкою станів, наприклад пісчаник, граніт, базальт, крейда; хоча стани можуть бути пронумеровані, номер стану не несе жодного смислового навантаження. Окремим випадком є бінарні або якісні ознаки – є номінальними ознаками з двома станами.

Порядковіознаки – (ознаки з впорядкованими станами) мають впорядкований ряд станів: рідкісний, випадковий, звичайний, багатющий. Хоча для них порядок має зміст, але відстані між станами є невизначені.

Чисельні ознаки – (інколи метричні чи кількісні) вимірювані чи обчислювані значення показників. Вони вимагають вибору певної шкали. В програмах обробки даних треба також передбачити можливі пропущені значення ознак.

Два випадки вимагають особливої уваги. До них відносять такі ознаки.

Зчеплені ознаки – це набір ознак, що представляють по суті одну ознаку. Наприклад аналіз ґрунту в одному місці на декількох рівнях. Їх ще називають «ознаками з невпорядкованими і невиключаючими один одного станами». Для них використовують спеціальні методи математичної обробки.

Серіально-залежні ознаки – це «умовно визначувані» або «ієрархічно впорядковані» ознаки, які виникають тоді, коли перебування деякої ознаки в певному стані робить неможливим визначення іншої ознаки. Наприклад крила можуть бути присутніми або ні. Якщо вони присутні, то можна визначити ще низку характерних для них ознак, якщо ж крила відсутні, то такі ознаки не можуть бути визначені.

 

<== предыдущая лекция | следующая лекция ==>
Класифікація як метод розпізнавання | Типи чисельних класифікацій
Поделиться с друзьями:


Дата добавления: 2014-01-04; Просмотров: 339; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.013 сек.