Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Дерево решений 2 страница




Для непрерывных и дискретных данных рассчитываются различные статистические показатели.

Для непрерывных данных рассчитывается:

количество значений - количество значений, присутствующих
в исходной выборке,

минимальное значение - минимальное значение,
присутствующее в исходной выборке,

максимальное значение - максимальное значение,
присутствующее в исходной выборке,


 


450



Использование основных объектов конфигурации


Анализ и прогнозирование данных


 


среднее значение - среднее арифметическое значений
выборки,

размах - разность между максимальным и минимальным
значением выборки,

стандартное отклонение - среднее квадратичное отклонение
равное корню квадратному из дисперсии выборки,

медиана - значение, лежащее в середине выборки
упорядоченной по возрастанию или убыванию. Другими
словами медиана делит выборку пополам; одна половина
выборки имеет значения меньше медианы, другая - больше. В
случае четного числа значений выборки, медиана
рассчитывается как среднее арифметическое двух значений
ближайших к центру выборки.

Для дискретных данных рассчитывается:

количество значений - общее количество значений,
присутствующих в исходной выборке,

количество уникальных значений - количество уникальных
значений, присутствующих в исходной выборке,

мода - значение, наиболее часто встречающееся в исходной
выборке. В выборке могут быть два или более значения, с
максимальной частотой (би- или мультимодальная выборка).
В этом случае в качестве моды будет взято первое найденное
значение с максимальной частотой.

Кроме того, для дискретных значений рассчитывается таблица частот, содержащая следующие показатели:

частота - количество вхождений уникального значения в
выборку,

относительная частота - частота, выраженная в процентах
от общего количества значений выборки,

накопленная частота - сумма частоты значения и частот всех
предыдущих значений выборки,

накопленная относительная частота - сумма относительной
частоты и относительных частот всех предыдущих значении
выборки.


При выводе отчета при помощи построителя отчета анализа данных, будет создана круговая диаграмма по относительной частоте значений в выборке.

Типы колонок источника данных:

Не используется - колонка не участвует в анализе,

Входная - содержит исходные данные для анализа.

Параметры анализа данных при общестатистическом анализе не задаются.

Пример

В

качестве примера общестатистического анализа рассмотрим анализ данных, содержащихся в регистре накопления «Продажи». Для анализа выберем все записи регистра, в которых нас будут интересовать значение ресурсов «Сумма», «Количество» и значение измерения «Контрагент».

Допустим, мы будем иметь следующие исходные данные для

анализа:


 


452



Использование основных объектов конфигурации


Анализ и прогнозирование данных


 


       
 
 
   



Результат анализа будет выглядеть следующим образом:

Общая статистика

Информация о данных

Количествообьектов: 20

Непрерывные поля

Дискретные поля Контрагент

Количество значений: 20

Количествоуникальных значений; 6

Мода: Федоров Д.Е.


Диаграмма частот

Таблица частот


Поиск ассоциаций

Т

ип анализа АнализДанныхПоискАссоциаций предназначен для поиска часто встречаемых вместе групп объектов или значений характеристик, а также выполняет поиск правил ассоциаций. Этот тип анализа может использоваться для определения часто приобретаемых вместе товаров или услуг.

Типы колонок источника данных:

Не используется - колонка не используется в анализе.

Объект - колонка содержит объект, например документ
«Оказание услуги».

Элемент - колонка содержит элемент, например
номенклатуру из документа «Оказание услуги».

Параметры:

МинимальныйПроцентСлучаев - (Число) - минимальный
процент случаев, в которых наблюдается группа элементов.
Найденные группы, у которых процент случаев меньше, в
отчет включены не будут.

МинимальнаяДостоверностъ - (Число) - минимальная
достоверность правила. Найденные правила, у которых
достоверность меньше, в отчет включены не будут.

МинималънаяЗначимостъ - (Число) - минимальная
значимость правила. Найденные правила, значимость которых
меньше, в отчет включены не будут. Значимость правила -
величина, характеризующая насколько правило важно. Чем
выше значимость, тем интересней правило.

ПоискПоИерархии - (Булево) - необходимость поиска по
иерархии. При помощи этого параметра можно указать
анализу, что необходимо искать ассоциации не только среди
элементов, но и среди групп.

ТипОтсеченияПравил - (избыточные, покрытые) - тип
отсечения найденных правил. Избыточные - отсекать
избыточные правила, покрытые - отсекать правила, покрытые
другими правилами.

ТипИсточникаДанных - (объектный, событийный) - тип
источника данных. Анализ работает с двумя типами
источника. Объектный - каждая строка источника содержит


 


454



Использование о сновных объектов конфигурации


Анализ и прогнозирование данных


 


 
 

В

объект с его характеристиками. Событийный - источник данных содержит список событий. Например, состав документа «Оказание услуги».

ИспользованиеЧисловыхЗначений ~ (как булево, как число) как интерпретировать числовые значения. Можно интерпретировать числовые значения как числа или как логические значения, т.е. рассматривать ноль как Ложь, а все остальные ненулевые значения как Истина. ИгнорироватьНезаполненныеЗначения ~ (Булево) - Как использовать незаполненные значения. Т.е. игнорировать их

или нет.

Порядок - (по достоверности, по значимости, по количеству случаев) - определяет порядок отображения данных в результате анализа.


Пример

качестве примера возьмем данные регистра «Продажи»: поле «Регистратор» и измерение «Номенклатура»:


 


456



Использование основных объектов конфигурации


Анализ и прогнозирование


данных


 


       
 
 
   


Результат анализа будет выглядеть следующим образом:

Поиск ассоциативных правил

Параметры анализа

Минимальный процент случаев:

Минимальнаядостоверность: 60

Минимальная значимость: 0

Отсечениеправил: Избыточные

Колонки источника данных Входные колонки

Информация о данньк

Количество элементов: 12

Количество обьектов: 11

Средиее количество элементов в объекте: 1,82

Результат анализа

Найдено часто встречаемых групп: 4

Найдено ассоциативных правил: 5


Часто встречаемые группы


Поиск последовательностей

Т

ип анализа АнализДанныхПоискПоследовательностей предназначен для выявления в источнике данных последовательных цепочек событий. Например, это может быть цепочка услуг, которые часто последовательно заказывают клиенты.

Поддерживается поиск по иерархии, что позволяет отслеживать не только последовательности конкретных событий, но и последовательности родительских групп.

Набор параметров анализа позволяет ограничивать временные расстояния между элементами искомых последовательностей, а также регулировать точность получаемых результатов.

Типы колонок источника данных:

Не используется - колонка не используется в анализе.

Элемент - колонка содержит исследуемый элемент.
Например, в случае исследования продаж, это может быть
колонка, содержащая товар.

Последовательность - колонка содержащая
последовательности. Например, это может быть контрагент.

Время - время события.

Параметры:

МинимальныйПроцентСлучаев - (Число) - минимальное
число последовательностей, в которых должен наблюдаться
шаблон последовательности.

ПоискПоИерархии - (Булево) - необходимо ли осуществлять
поиск по иерархии.

МинимальныйИнтервал - (Булево) - признак того, что
установлен минимальный интервал между наблюдаемыми
событиями. Установка минимального интервала означает, что
для того, чтобы элементы попали в искомую
последовательность необходимо, чтобы временной интервал
между элементами был не менее установленного.

ЕдиницаМинимальногоИнтервала - единица минимального
интервала


 


458



Использование основных объектов конфигурации


Анализ и прогнозирование данных


 


           
   
 
 
 
   

В

КратностъМинималъногоИнтервала - (Число) - кратность минимального интервала

МаксималъныйИнтервал - (Булево) - признак того, что установлен максимальный интервал между наблюдаемыми событиями. Установка максимального интервала означает, что для того, чтобы элементы попали в искомую последовательность необходимо, чтобы временной интервал между элементами был не более установленного. ЕдиницаМаксималъногоИнтервала - единица максимального интервала

КратностъМаксималъногоИнтервала - (Число) - кратность максимального интервала

ИнтервапЭквивалентностиВремени - (Булево) - признак того, что установлен интервал эквивалентности времени между наблюдаемыми событиями. Если установлен интервал эквивалентности времени, то события, временной интервал

между которыми меньше интервала эквивалентности времени

считаются произошедшими в одно время.

ЕдиницаИнтервалаЭквталентностиВремени — единица

интервала эквивалентности времени

КратностьИнтервалаЭквталентностиВремени - (Число) -

кратность интервала эквивалентности времени

Минимальная длина - (Число) - минимальная длина

последовательности.

Порядок - (по длине, по количеству случаев) - определяет

порядок отображения данных в результате анализа.


Пример

качестве примера снова возьмем данные регистра «Продажи»: измерения «Номенклатура», «Контрагент» и поле «Период»:


 


460



Использование основных объектов конфигурации


Анализ и прогно зирование данных


 


Результат анализа будет выглядеть следующим образом:

Поиск последовательностей

Параметры анализа

Минимальный процент случаев: 10

Минимальный интервал:

Максимальный интервал:

Интервал эквивалентности времени:

Минимальная длина последовательности: 2

Информация о данных

Количество элементов: 12

Количество последовательностей: 6

Результат анализа

Найдено последовательностей: 2

Последовательности

Дерево решений

Т

ип анализа АнализДанныхДеревоРешении дерево решений позволяет построить иерархическую структуру классифицирующих правил, представленную в виде дерева.

Для построения дерева решений необходимо выбрать целевой атрибут, по которому будет строиться классификатор и ряд входных атрибутов, которые будут использоваться для создания правил. Целевой атрибут может содержать, например информацию о том, перешел ли клиент к другому поставщику услуг, удачна ли была сделка, качественно ли была выполнена работа и т.д. Входными атрибутами, для примера, могут выступать возраст сотрудника, стаж его работы, материальное состояние клиента, количество сотрудников в компании и т.п.

Результат работы анализа представляется в виде дерева, каждый узел которого содержит некоторое условие. Для принятия решения к


какому классу следует отнести некий новый объект, необходимо отвечая на вопросы в узлах пройти цепочку от корня до листа дерева, переходя к дочерним узлам в случае утвердительного ответа и к соседнему узлу в случае отрицательного.

Набор параметров анализа позволяет регулировать точность полученного дерева.

Типы колонок источника данных:

• Неиспользуемая - колонка не используется в анализе,

• Входная - колонка будет использоваться как атрибут для
создания узлов дерева, содержит характеристику
исследуемого объекта.

• Прогнозируемая - колонка, содержащая классификацию.
Например - признак того, что контрагент перешел к другому
поставщику.

Параметры:

• МинимальноеКоличествоСлучаев - (Число) - минимальное
количество случаев в узле.

• МаксимальнаяГлубина - (Число) - максимальная глубина
дерева.

• ТипУпрощения - (не упрощать, упрощать) - тип упрощения
дерева решений. Упрощать или не упрощать построенное
дерево решений.


 


462



Использование основных объектов конфигурации


Анализ и прогнозирование данных


 


Пример

Н

а этот раз мы проанализируем данные справочника
«Контрагенты». В качестве входных колонок мы используем
поля реквизитов справочника

«КоличествоРозничныхТочек», «КоличествоАвтомобилей»

«ВремяРаботыОрганизации» и «ВремяЗаключенияДоговора»' Прогнозируемой колонкой будет поле реквизита справочника «Контрагенты» - «ПрекращениеОтношений».


Результат анализа будет иметь следующий вид:

Параметры анализа

Минимальноеколичествоэлементов вузле: 0

Максимальная глубина дерева: 1 000

Тип упрощения дерева решений: Упрошать

Колонки источника данных Входные колонки

 

Имя колонки Тип данных
Количест в оРозничныхТочек Непреры в ный
Количест во А в томобилей Непрерывный
ВремяРаботыОрганизации Дискретный
ВремяЗаключенияДоговора Дискретный

Прогнозируемые колонки

 

Имя колонки Тип данных
ПрекрашениеОтношений Дискретный

 


Информация о данных

Количество объектов Количество классов:

Результат анализа

Глубина дерева решений: Количество внутренних узлов: Количество листьев' Ошибка, %:





Поделиться с друзьями:


Дата добавления: 2014-11-16; Просмотров: 486; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.144 сек.