Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Метод главных компонентов

Анализ главных компонент

Аппроксимировать данные линейными многообразиями меньшей размерности

Метод главных компонент (Principal componentan alysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. KarlPearson) в 1901 г. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных. Иногда метод главных компонент называют преобразованием Кархунена-Лоэва (англ. Karhunen-Loeve) или преобразованием Хотеллинга (англ. Hotellingtransform). Другие способы уменьшения размерности данных — это метод независимых компонент, многомерное шкалирование, а также многочисленные нелинейные обобщения: метод главных кривых и многообразий, метод упругих карт, поиск наилучшей проекции (англ.), нейросетевые методы «узкого горла», самоорганизующиеся карты Кохонена и др.

Проблемы PCA:

· Большой объем вычислений особенно на больших множествах данных

· Необходимость при получении новых данных полного пересчета не пространства покрывающих векторов, а полного пространства

· На выходе получается только линейное представление данных

 

Есть образцы данных. Осуществляем обучение. Хотим понизить размерность пространства, описывающего данные, за счет этого упростить анализ. Еще это надо делать автоматически. При это не надо потерять данные.

Все это делает PCA. Метод разработан Хоттелингом.

Метод главных компонент (Principal component analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Есть матрица Х, в которой строки – образцы. Есть целевой атрибут (нормальные/аномальные данные, класс атак). Хотим уменьшить количество атрибутов так, чтобы целевой атрибут определять.

Выбираем такие оси, вдоль которых наибольший разброс данных. Выбираем новые оси до тех пор, пока не получим разброс меньше заданного.

В результате осуществляется переход от большого количества параметров к небольшому количеству их линейных комбинаций. Задача человек – выбрать корректный набор атрибутов, в которых ищем. Например, нельзя использовать номера пакетов – разброс большой, а информации в нем нет.

Проблема - идет 1000 пакетов и в одном из них установлены все TCP флаги. Но по этому методу получится, что разброс будет не большим.

 

U – N*N собственные вектора матрицы.

W – матрица ковариаций образа.

При получении новых данных, требуется полный пересчет решения – итеративности не получится. На выходе получается только линейное представлении данных. Информации о корреляции удаляется при использовании PCA.

 

<== предыдущая лекция | следующая лекция ==>
Пространство признаков и расстояния | Требования. Вопрос 15. Свойства сигнатур
Поделиться с друзьями:


Дата добавления: 2014-01-15; Просмотров: 692; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.012 сек.