КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Методы визуализации
С возрастанием количества накапливаемых данных, даже при использовании сколь угодно мощных и разносторонних алгоритмов Data Mining, становится все сложнее "переваривать" и интерпретировать полученные результаты. А, как известно, одно из положений Data Mining - поиск практически полезных закономерностей. Закономерность может стать практически полезной, только если ее можно осмыслить и понять. В 1987 году по инициативе ACM SIGGRAPH IEEE Computer Society Technical Committee of Computer Graphics, в связи с необходимостью использования новых методов, средств и технологий данных, были сформулированы соответствующие задачи направления визуализации. К способам визуального или графического представления данных относят графики, диаграммы, таблицы, отчеты, списки, структурные схемы, карты и т.д. Визуализация традиционно рассматривалась как вспомогательное средство при анализе данных, однако сейчас все больше исследований говорит о ее самостоятельной роли. Традиционные методы визуализации могут находить следующее применение: Ø представлять пользователю информацию в наглядном виде; Ø компактно описывать закономерности, присущие исходному набору данных; Ø снижать размерность или сжимать информацию; Ø восстанавливать пробелы в наборе данных; Ø находить шумы и выбросы в наборе данных. Визуализация инструментов Data Mining Каждый из алгоритмов Data Mining использует определенный подход к визуализации. В ходе использования каждого из методов, рассмотренных выше, а точнее, их программных реализаций, мы получали некие визуализаторы, при помощи которых удавалось интерпретировать результаты, полученные в результате работы соответствующих методов и алгоритмов. Ø Для деревьев решений это визуализатор дерева решений, список правил, таблица сопряженности. Ø Для карт Кохонена: карты входов, выходов, другие специфические карты. Ø Для линейной регрессии в качестве визуализатора выступает линия регрессии. Ø Для кластеризации: дендрограммы, диаграммы рассеивания. Диаграммы и графики рассеивания часто используются для оценки качества работы того или иного метода. Все эти способы визуального представления или отображения данных могут выполнять одну из функций: Ø являются иллюстрацией построения модели (например, представление структуры (графа) нейронной сети); Ø помогают интерпретировать полученный результат; Ø являются средством оценки качества построенной модели; Ø сочетают перечисленные выше функции (дерево решений, дендрограмма). Визуализация Data Mining моделей Первая функция (иллюстрация построения модели), по сути, является визуализацией Data Mining модели. Существует много различных способов представления моделей, но графическое ее представление дает пользователю максимальную "ценность". Пользователь, в большинстве случаев, не является специалистом в моделировании, чаще всего он эксперт в своей предметной области. Поэтому модель Data Mining должна быть представлена на наиболее естественном для него языке или, хотя бы, содержать минимальное количество различных математических и технических элементов. Таким образом, доступность является одной из основных характеристик модели Data Mining. Несмотря на это, существует и такой распространенный и наиболее простой способ представления модели, как "черный ящик". В этом случае пользователь не понимает поведения той модели, которой пользуется. Однако, несмотря на непонимание, он получает результат - выявленные закономерности. Классическим примером такой модели является модель нейронной сети. Другой способ представления модели - представление ее в интуитивном, понятном виде. В этом случае пользователь действительно может понимать то, что происходит "внутри" модели. Таким образом, можно обеспечить его непосредственное участие в процессе. Такие модели обеспечивают пользователю возможность обсуждать ее логику с коллегами, клиентами и другими пользователями, или объяснять ее. Понимание модели ведет к пониманию ее содержания. В результате понимания возрастает доверие к модели. Классическим примером является дерево решений. Построенное дерево решений действительно улучшает понимание модели, т.е. используемого инструмента Data Mining. Кроме понимания, такие модели обеспечивают пользователя возможностью взаимодействовать с моделью, задавать ей вопросы и получать ответы. Примером такого взаимодействия является средство "что, если". При помощи диалога "система-пользователь" пользователь может получить понимание модели. Примерами средств визуализации, при помощи которых можно оценить качество модели, являются диаграмма рассеивания, таблица сопряженности, график изменения величины ошибки: Ø Диаграмма рассеивания представляет собой график отклонения значений, прогнозируемых при помощи модели, от реальных. Эти диаграммы используют для непрерывных величин. Визуальная оценка качества построенной модели возможна только по окончанию процесса построения модели. Ø Таблица сопряженности используется для оценки результатов классификации. Такие таблицы применяются для различных методов классификации. Оценка качества построенной модели возможно только по окончанию процесса построения модели. Ø График изменения величины ошибки. График демонстрирует изменение величины ошибки в процессе работы модели. Например, в процессе работы нейронных сетей пользователь может наблюдать за изменением ошибки на обучающем и тестовом множествах и остановить обучение для недопущения "переобучения" сети. Здесь оценка качества модели и его изменения может оцениваться непосредственно в процессе построения модели. Примерами средств визуализации, которые помогают интерпретировать результат, являются: линия тренда в линейной регрессии, карты Кохонена, диаграмма рассеивания в кластерном анализе. Методы визуализации Методы визуализации, в зависимости от количества используемых измерений, принято классифицировать на две группы: 1. Представление данных в одном, двух и трех измерениях К этой группе методов относятся хорошо известные способы отображения информации, которые доступны для восприятия человеческим воображением. Практически любой современный инструмент Data Mining включает способы визуального представления из этой группы. В соответствии с количеством измерений представления это могут быть следующие способы: Ø одномерное измерение, или 1-D; Ø двумерное измерение, или 2-D; Ø трехмерное или проекционное измерение, или 3-D. Следует заметить, что наиболее естественно человеческий глаз воспринимает двухмерные представления информации. При использовании двух- и трехмерного представления информации пользователь имеет возможность увидеть закономерности набора данных: Ø его кластерную структуру и распределение объектов на классы (например, на диаграмме рассеивания); Ø топологические особенности; Ø наличие трендов; Ø информацию о взаимном расположении данных; Ø существование других зависимостей, присущих исследуемому набору данных. Если набор данных имеет более трех измерений, то возможны такие варианты: ü использование многомерных методов представления информации (они рассмотрены ниже); ü снижение размерности до одно-, двух- или трехмерного представления. Существуют различные способы снижения размерности. Для снижения размерности и одновременного визуального представления информации на двумерной карте используются самоорганизующиеся карты Кохонена. 2. Представление данных в 4 + измерениях Представления информации в четырехмерном и более измерениях недоступны для человеческого восприятия. Однако разработаны специальные методы для возможности отображения и восприятия человеком такой информации. Рассмотрим некоторые способы многомерного представления информации:
Дата добавления: 2014-01-11; Просмотров: 4242; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |