Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Тестами: легкая ситуация




Выбор между параметрическими и непараметрическими

Метод K средних

 

В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга.

С вычислительной точки зрения, вы можете рассматривать этот метод как дисперсионный анализ "наоборот". Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и (2) - максимизировать изменчивость между кластерами. Данный способ аналогичен методу "дисперсионный анализ наоборот" в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом K средних программа перемещает объекты (т.е. наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа (ANOVA).

Обычно, когда результаты кластерного анализа методом K средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале вы должны получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе. Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискрими-нирует кластеры.

 


Выбор адекватного теста для того, чтобы сравнивать показатели достаточно сложное мероприятие, поскольку Вам необходимо выбирать между двумя семействами тестов - параметрическими и непараметрическими.

Выбор между параметрическими и непараметрическими тестами иногда достаточно прост: Вы должны четко выбрать параметрический тест, если Вы уверены, что Ваши данные были получены как выборка из популяции, которая соответствует нормальному распределению. Вы должны определенно выбирать непараметрический тест в следующих ситуациях:

· Результат является ранговым значением или оценочным значением и популяция явно не имеет нормального распределения. Примеры могут включать ранжирование студентов, шкалу Апгара, которая измеряет здоровье новорожденных (измеряется на шкале от 0 до 10 и все значения являются целыми), визуальную аналоговую шкалу боли (которая измеряется на непрерывной шкале где 0 - это отсутствие боли и 10 - это непереносимая боль), и так называемая звездочная шкала, которая используется критиками при оценке фильмов и ресторанов (*неплохо, ***** прекрасно).

· Некоторые значения очень резко отличаются от остальных, то есть слишком высокие или слишком низкие для измерений. Даже если популяция является Гауссовой невозможно анализировать такие данные параметрическим тестом, поскольку Вы не знаете всех значений. Использование с этими данными непараметрического теста достаточно простое: Вы присваиваете тем значениям, которые являются слишком низкими для того, чтобы их можно было измерить произвольное, но очень небольшое значение, и для очень больших значений Вы присваиваете произвольное, но очень большое значение, а затем выполняете непараметрический тест. Поскольку непараметрические тесты базируются только на информации о ранговом положении значений, тот факт, что Вы не знаете точных значений этих показателей уже не будет Вам сильно мешать.

· Данные, которые достаточно точно измерены, но Вы уверены, что популяция не распределяется в соответствии с нормальным законом. Если данные не получены из Гауссовского распределения, тогда Вы должны вначале подумать нельзя ли трансформировать значение так, чтобы оно превратилось в Гауссовское. Например, Вы можете взять логарифм или величину обратную всем значениям. Часто имеются биологические или химические причины (также как и статистические) для того, чтобы выполнить ту или иную трансформацию.




Поделиться с друзьями:


Дата добавления: 2015-04-24; Просмотров: 460; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.012 сек.