Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Дерево методів дейтамайнінгу

Користувачі і дії дейтамайнінгу

Необхідно відрізняти описані щойно процеси від дій дейтамайнінгу, за допомогою яких процеси дейтамайнінгу можуть бути виконані, і користувачів, які виконують ці дії. Спершу про користувачів. Дії дейтамайнінгу, зазвичай, виконуються трьома різними типами користувачів: виконавцями (executives), кінцевими користувачами (end users) і аналітиками (analysts). Усі користувачі, як правило, виконують три види дії дейтамайнінгу всередині корпоративного середовища: епізодичні; стратегічні; безперервні (постійні).

Безперервні і стратегічні дії дейтамайнінгу часто стосуються безпосередньо виконавців і менеджерів, хоч аналітики також можуть у цьому їм допомагати.

Технології дейтамайнінгу використовують велику кількість методів, частина з яких запозичена з інструментарію штучного інтелекту, а інша належить або до класичних статистичних методів, або до інноваційних методів, породжених останніми досягненнями інформаційних технологій. Вищий рівень класифікації методів дейтамайнінгу може ґрунтуватися на тому, чи зберігаються дані після дейтамайнінгу незмінними, чи вони фільтруються для подальшого використання.

На рис. 9.2 показано дерево методів дейтамайнінгу, де відображені основні види і підвиди методів, причому гілкування можна продовжити, оскільки низка методів, наприклад, кластерний аналіз, нейромережі, дерева рішень мають багато різновидів. Оскільки деякі з наведених методів були розглянуті поверхово раніше в контексті ідентифікації інструментів штучного інтелекту чи як складові деяких продуктів дейтамайнінгу, то зупинимося на короткому аналізі складових дерева методів дейтамайнінгу. Докладнішому висвітленню нейромереж, генетичних алгоритмів і програмних агентів будуть присвячені окремі параграфи даного розділу.

 

 

Рис. 9.2. Дерево методів дейтамайнінгу

 

Збереження даних (Data Retention)

У той час, як при дистиляції шаблонів ми аналізуємо дані, виділяємо необхідний зразок і потім залишаємо їх, то, застосовуючи метод збереження, дані зберігаються для зіставляння з шаблоном. Коли надходять нові елементи даних, то вони порівнюються з попереднім рядом даних.

Метод "найближчого сусіда" (самий схожий сусід, "nearest neighbor") – добре відомий приклад підходу, який ґрунтується на збереженні даних. При цьому ряд даних тримається в пам’яті для порівняння з новими елементами даних. Коли презентується новий запис для передбачення, знаходяться "відхилення" між ним і подібними низками даних, а найподібніший ідентифікується.

Міркування за аналогією (case-based reasoning – CBR) або міркування за прецедентами (аналогічними випадками). Даний метод має дуже просту ідею: щоб зробити прогноз на майбутнє або вибрати правильне рішення, система CBR знаходить близькі аналогії в минулому за різних умов і відбирає ту відповідь, яка за схожими ознаками була правильною. Інструментальні засоби міркування за прецедентами знаходять записи в базі даних, які подібні до описаних записів. Користувач описує, яким сильним зв’язок має бути перед тим, як новий випадок пропонується увазі. Цей тип інструментальних засобів також називається міркуванням на основі пам’яті (memory-based reasoning).

Кластерний аналіз – це спосіб групування багатовимірних об’єктів, що базується на поданні результатів окремих спостережень точками геометричного простору з наступним виділенням груп як "грон" цих точок. Термін "кластерний аналіз" запропонований К. Тріоном 1939 року (cluster, англ. – гроно, скупчення, пучок). Синонімами (хоч з обмовками і не завжди) є вирази: автоматична класифікація, таксономія, розпізнавання без навчання, розпізнавання образів без учителя, самонавчання та ін. У дейтамайнінгу використовується, головно, для класифікації (таксономії).

Основна мета кластерного аналізу – виділити у початкових багатовимірних даних такі однорідні підмножини, щоб об’єкти всередині груп були схожими за певними ознаками, а об’єкти з різних – несхожими. Під "схожими" розуміється близькість об’єктів у багатовимірному просторі ознак, і тоді завдання зводиться до виділення в цьому просторі природних скупчень об’єктів, які і вважаються однорідними групами. В кластерному аналізі використовуються десятки різних алгоритмів і методів (один з таких методів – K-Means реалізований у системі дейта-майнінгу KnowledgeSTUDIO).

Дистиляція даних (Data Distilled)

Застосовуючи цей метод, вибирають шаблон (взірець) з низки даних, а потім використовують його з різними цілями. Природно, тут виникають два запитання: 1) "Які типи шаблонів можуть бути вибрані?" і 2) "Як вони будуть подаватися?" Очевидно, шаблон потрібно виражати формально і за допомогою мови. Ця альтернатива приводить до чотирьох виокремлених підходів: логічних; візуалізація; на основі рівнянь; крос-табуляція. Кожний із цих підходів історично має чіткі математичні корені. Зупинимося коротко на підході "крос-табуляції" (Cross Tabulation), який недостатньо описаний в україномовній літературі.

Крос-табуляція або перехресна табуляція (перехресні табличні дані) є основною і дуже простою формою аналізу даних, добре відомою в статистиці і широко використовуваною для створення звітів. Двохвимірна крос-таблиця (cross-tab) подібна до електронної таблиці як щодо заголовків рядків і стовпців, так і щодо атрибутних значень. Комірки (cells) у таблиці являють собою агреговані операції, зазвичай, ряду атрибутних значень, що зустрічаються (co-occurances) разом. Багато крос-таблиць за ефективністю рівноцінні трьохвимірним стовпчиковим діаграмам (гістограмам) – (3D bar graph), що показують сумісні рахунки.

Довірчі мережі, як один із різновидів крос-табуляції, зазвичай, ілюструються з використанням графічного подання розподілу ймовірностей (отриманого шляхом підрахунків). Довірча мережа є орієнтованим графом (directed graph), що складається з вершин (змінні подання) і дуг (зображення ймовірнісної залежності) між вершинами змінних.

<== предыдущая лекция | следующая лекция ==>
Характеристика процесів і активностей дейтамайнінгу. Процеси дейтамайнінгу | Визначення та еволюція нейронних мереж
Поделиться с друзьями:


Дата добавления: 2014-01-04; Просмотров: 1279; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.013 сек.