Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Теоретическая часть. Изучение методов анализа пространства признаков




Изучение методов анализа пространства признаков

 

Цель работы – ознакомиться с методами анализа пространства признаков в рамках задач кластеризации и выбора признаков, а также освоить их применение в различных условиях, определяемых характером распределения образов обучающей выборки. Данная работа имеет два варианта выполнения.

 

Вариант 1

 

Задание по работе:

 

1. Изучить теоретическую часть работы.

2. Реализовать метод k внутригрупповых средних.

3. Путем варьирования взаимного расположения и формы кластеров, образуемых образами обучающей выборки, определить ограничения метода кластеризации.

 

Постановка задачи выделения кластеров в пространстве признаков

В задаче распознавания без учителя машинной системе предоставляется лишь совокупность образов , i =1,…, M. При этом на основе этих образов система должна сформировать некое множество классов и построить решающее правило .

Поскольку решающее правило относит каждый образ из обучающей выборки к одному из классов, то задача, по сути, сводится к тому, чтобы объединить образы обучающей выборки в группы (на основе которых и формируются классы). Такое объединение называется группированием. Здесь возникает вопрос: на каком основании какие-то образы следует относить к одной группе, а какие-то – к другой?

Один из интуитивно очевидных ответов на этот вопрос заключается в том, что объединяться должны похожие друг на друга образы. Степень сходства определяется расстоянием в пространстве признаков. Выбор метрики, однако, во многом произволен, хотя чаще всего используют евклидово расстояние. Если в классы объединяются наиболее близко расположенные друг к другу образы, то задача группирования превращается в задачу кластеризации, то есть в задачу поиска кластеров (областей, содержащих компактно расположенные группы образов).

 

Алгоритм k внутригрупповых средних

Алгоритм k внутригрупповых средних (или кратко алгоритм k средних) требует задания числа кластеров, исторически обозначаемых через k. Здесь для обозначения числа классов будет использоваться переменная d, а через будет обозначаться множество классов. Алгоритм состоит из следующих шагов:

1. Каждому из d кластеров произвольным образом назначаются их центры (или эталонные образы) . Часто в качестве этих центров выступают первые d образов обучающей выборки .

2. Каждый образ выборки относится к тому классу, расстояние до центра которого минимально:

, (17)

где ­– функция расстояния, в качестве которой может использоваться как евклидово расстояние, так и другие метрики, например, полезным может быть нормированное евклидово расстояние:

, (18)

где rj – размер j -го кластера. Этот размер вычисляется как внутриклассовое расстояние (среднеквадратичное расстояние от образов класса до его центра).

3. Центры кластеров пересчитываются, исходя из того, какие образы к каждому из них были отнесены: , где – количество образов, попавших в класс . После пересчитываются радиусы кластеров: .

4. Шаги 2 и 3 повторяются, пока не будет достигнута сходимость, то есть пока классы не перестанут изменяться.

 




Поделиться с друзьями:


Дата добавления: 2015-06-27; Просмотров: 377; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.012 сек.