Кластеризация и поиск зависимости

Кластеризация - это разбиение множества примеров на несколько компактных областей (Кластеров, групп), причём количество кластеров заранее не известно.

Разбивка исходного набора примеров на кластеры называется – кластерным решением.

Класстиризация позволяет представиться не однородные данные в более наглядном виде и применять далее для исследования каждого кластера различные методы, например таким образом можно быстро выявиться не добросовестные предприятия или фальсифицированные страховые случаи. Разделение примеров на кластеры должно удовлетворять следующим требованиям:

Каждый пример входит только в одну группу.
Примеры в нутрии одного кластера похожи друг на друга.
Примеры из разных групп имеют заметные различия.
Лекция №8 29.03.12
Одной из проблем применения алгоритмов кластеризации является выбор оптимального кол-ва кластеров. Если число кластеров выбрать слишком малым могут быть упущены некоторые существенные характеристики данных. Если кластеров окажется слишком много то не получится никакой эффективной итоговой информации о данных. Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер кластера. Цент кластера - среднее геометрическое место точек в пространстве данных. Радиус кластера - максимальное расстояние точек от. центра кластера. Кластеры могут быть перекрывающимися. Такая ситуация возникает когда при помощи математических процедур однозначно отнести пример к одному из двух кластеров невозможно. Такие объекты называются спорными. Спорный объект - который по мере сходства может быть отнесет к нескольким кластерам. Размер кластера может быть определен либо по радиусу кластера либо по среднеквадратичному отклонению объектов для этого кластера. Объект относится к кластеру если расстояние от объекта до центра кластера меньше радиуса кластера. При кластеризации используются различные меры расстояния. Выбор метрики является узловым моментом исследования от которого зависит окончательный вариант разбиения на кластеры при данном алгоритме разбиения. В каждом конкретном случае этот выбор должен производиться по своему в зависимости от цели исследования. Методы кластеризации разделяются на: иерархические агломеративные (от слова агломерат - скопление) и итеративные дивезивные (от слова дивисион - деление). Иерархическая кластеризация происходит последовательно путем деления меньших кластеров на большие. Процесс такого объединения можно показать на графике в виде дендрограммы. Обрезая дендрограмму на нужном уровне получим кластеризацию данных в разных группах. Не иерархическая кластеризация представляет собой непосредственное разделение набора данных на множество отдельных кластеров. Целью данного алгоритма является определение границ кластеров, как самых плотных областей в пространстве данных. Т.е определение кластера там, где имеется большое кол-ва сходных элементов данных. Одним из видов неиерархической кластеризации является метод К - средних. В данном методе расстояние между объектами в кластерах это евклидово расстояние, другой важный параметр кластеризации это расстояние между кластерами. В методе К - средних для каждого кластера определяют точку, которую определяют точку, которую называют центроидом или кластерным центром. Его координаты вычисляют как среднее арифметической соответствующих координат всех объектов принадлежащих данному кластеру. Для удобства расстояние между объектами и кластерами записывают в виде матрицы расстояний. Центроидный метод используется в качестве меры близости кластеров друг с другом. Кластеризация данных кроме описанных выше классических методов может выполняться с помощью нейронных сетей, которые обучаются без учителя. Одна их подобных нейросетей - это самоорганизующаяся карта Кахонина (СОК). Данный подход существует с начала 80 - х годов. СОК можно использовать для анализа финансовой учетности компании, долгосрочного прогнозирования динамики процентных ставок, выявления предпосылок к банкротству предприятий, оценки недвижимости, сегментирования покупателей и клиентов.
4. Прогнозирование.
Целью процесса прогнозирования - является предсказание будущей реакции на основе ее поведения. Допусти, информация снята в дискретные моменты времени и представлена значениями x(n-T), x(n-2T)...,(x(n-mT) где Т - периодичность снятия сигнала, m - порядок прогнозирования. Задачи прогнозирования может быть решена с помощью нейросети, которая обучается на основе коррекции ошибок, без учителя, поскольку обучающие примеры получаются непосредственно с самого процесса.(рис.1) - блочная диаграмма нелинейного прогнозирования. При этом x от n. выступает в роли желаемого отклика. Обозначим x с крышкой - результат прогнозирования на один шаг вперед, сигнал ошибки определяется как разность x n и x n с крышкой. Он используется для настройки синоптических весов нейронной сети. В данном случае прогнозирование можно рассматривать как форму построения модели, а именно чем меньше ошибка прогнозирования, в статистическом смысле, тем лучше нейронная сеть будет работать в качестве модели имитируемого физического процесса, который обеспечивает генерацию данных. Задача прогнозирования особенно важна на практике в частности для финансовых приложений. Типичная последовательность действий при решения задачи прогнозирования финансовых показателей с помощью нейронных сетей может быть представлена блок схемой (рис.2). - блок схема финансового прогнозирования с помощью нейронных сетей. Действия на этапе предварительной обработки данных зависят от типа решаемой задачи, необходимо правильно выбрать ко-во и вид показателей, которые характеризуют процесс. Далее следует выбрать архитектуру нейронной сети, для нахождения параметров модели задать критерии ошибки и алгоритм обучения нейронной сети. Затем необходимо проверить различные свойства модели и дать интерпретацию выходной информации нейросети. На этапе анализа - доводки сети провести прогнозирования, с целью получения помощи для принятия решений в финансовой области.
5. Фильтрация.
Фильтр - это устройство либо алгоритм который используется для извлечения полезной информации из набора зашумленных данных. Причины возникновения шума различны. Например, при передаче информационного сигнала через зашумленные линии связи, могут возникать возмущения. На полезный сигнал возможно наложение другого сигнала, который поступает из окружающей среды. Кроме того, данные могут быть измерены с помехами. Примером фильтрации является задача распознавания голоса определенного студента в шумной аудитории. Человек способен избирательно отфильтровать нужные источники в зашумленной среде.
02.04.12 Лекция №9

Практическим приложением построением диаграммы направленности является, например, системы радаров. Здесь задача сводится к отслеживанию цели. В условиях помех и интерференции, т.е. наложении сигналов друг на друга. При этом задача усложняется тем, что полезный сигнал формируется в не известном направление и не существует априорной информации о наложении сигналов в результате интерференции.

<== предыдущая лекция	\|	следующая лекция ==>
Кодирование на выходе нейронной сети	\|	Ассоциативная память

Поделиться с друзьями:

Дата добавления: 2014-01-06; Просмотров: 464; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.013 сек.