Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Пример кластерного анализа




Студентам предложили оценить проведенное с ними занятие по двум критериям: увлекательность (Pref) и полезность (Use). Для оценки использовалась 10-балльная шкала. Полученные данные (2 переменные для 10 студентов) графически представлены в виде графика двумерного рассеивания (Рис. 1). В данном случае наблюдаются четыре группировки: 9,2, Ъ — занятие полезное, но не увлекательное; 1, 10, 8 — занятие увлекательное, но бесполезное; 5, 7 — занятие и полезное и увлекательное; 4, 6 — занятие умеренно увлекательное и умеренно полезное.

Рис. 1Г рафик двумерного рассеивания переменных «увлекательность» (Pref) и «польза» (Use) для 10 студентов.

Кластерный анализ объектов, для которых заданы значения количественных признаков начинается с расчета различий для всех пар объектов. Пользователь может выбрать по своему усмотрению меру различия. В качестве меры различия выбирается расстояние между объектами в Р-мерном пространстве признаков, чаще всего — евклидово расстояние или его квадрат. В данном случае Р= 2 и евклидово расстояние между объектами i и j определяется формулой:

Где х— это значения одного, а у — другого признака.

На первом шаге кластерного анализа путем перебора всех пар объектов определяется пара (или пары) наиболее близких объектов, которые объединяются в первичные кластеры. Далее на каждом шаге к каждому первичному кластеру присоединяется объект (кластер), который к нему ближе. Этот процесс повторяется до тех пор, пока все объекты не будут объединены в один кластер. Критерий объединения объектов (кластеров) может быть разным и определяется методом кластерного анализа. Основным результатом применения иерархического кластерного анализа является дендрограмма — графическое изображение последовательности объединения объектов в кластеры. Для данного примера дендрограмма приведена на рис. 2

Рис. 2 Дендрограмма для 10 студентов (метод средней связи).

На дендрограмме номера объектов следуют по вертикали. По горизонтали отмечены расстояния (в условных единицах), на которых происходит объединение объектов в кластеры. На первых шагах происходит образование кластеров: (3,9,2) и (5,7). Далее образуется кластер (8, 10, 1) — расстояния между этими объектами больше, чем между теми, которые были объединены на предыдущих шагах. Следующий кластер — (4, 6). Далее в один кластер объединяются кластеры (5, 7) и (4, 6), и т. д. Процесс заканчивается объединением всех объектов в один кластер. Количество кластеров определяет по дендрограмме сам исследователь. Судя по дендрограмме, в данном случае можно выделить три или четыре кластера.


Заключение.

 

В процессе написания данной курсовой работы была рассмотрена обработка информации на основе ковариационного анализа и кластерного анализа.

Для достижения цели, были рассмотрены следующие вопросы:

- описание методов обработки информации;

- примеры обработки информации.

Исходя из проделанной работы, можно сделать следующие выводы.

Вне зависимости от предмета исследования использование кластерного анализа подразумевает последующие этапы:

- Отбор выборки для кластеризации. Предполагается, что целесообразно кластеризовать исключительно количественные данные.

- Определение огромного количества переменных, по коим станут оцениваться объекты в выборке, другими словами признакового пространства.

- Вычисление значений той или иной меры однообразия (либо отличия) между объектами.

- Использование способа кластерного анализа для создания групп схожих объектов.

- Проверка правдивости итогов кластерного решения.


Список используемой литературы.

1 Информатика и ИКТ. Цветкова М.С., Великович Л.С. 3-е изд., стер. - М.: 2012. — 352 с

2 Информационные технологии. Румянцева Е.Л., Слюсарь В.В. М.: 2007. — 256 с.

3 Информационные технологии. Голицына О.Л., Попов И.И. и др. 2-е изд., перераб. и доп. - М.: 2008. — 544 с.

4 Информатика и информационные технологии. Конспект лекций. Романова Ю.Д., Лесничая И.Г. 2-е изд., перераб. и доп. - М.: 2009. — 320 с.

5 Технологии поиска и хранения информации. Технологии автоматизации управления. Могилев А.В., Листрова Л.В. СПб.: 2012 — 320 с.

 




Поделиться с друзьями:


Дата добавления: 2015-08-31; Просмотров: 1205; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.