Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Интеллектуальный анализ данных Data Mining




Классификация интеллектуальных информационных систем

Экспертные системы можно классифицировать следующим образом:

· по способу формирования решения экспертные системы разделяются на два класса: аналитические и синтетические. Аналитические системы предполагают выбор решений из множества известных альтернатив (определение характеристик объектов), а синтетические системы - генерацию неизвестных решений (формирование объектов);

· по способу учета временного признака экспертные системы могут быть статическими или динамическими (рис.9.1.);

· по видам используемых данных и знаний экспертные системы классифицируются на системы с детерминированными (четко определенными) знаниями и неопределенными знаниями;

· по числу используемых источников знаний экспертные системы могут быть построены с использованием одного или множества источников знаний.

Статическая экспертная система - это экспертная система, решающая задачи в условиях, не изменяющихся во времени исходных данных и знаний. К данному классу систем относятся классифицирующие и доопределяющие экспертные системы (рис.9.1.).

Экспертные системы, решающие задачи распознавания ситуаций, называются классифицирующими, поскольку определяют принадлежность анализируемой ситуации к некоторому классу. В качестве основного метода формирования решений используется метод логического дедуктивного вывода от общего к частному, когда путем подстановки исходных данных в некоторую совокупность взаимосвязанных общих утверждений получается частное заключение.

Более сложный тип аналитических задач представляют задачи, которые решаются на основе неопределенных исходных данных и применяемых знаний. В этом случае экспертная система должна как бы доопределять недостающие знания, а в пространстве решений может получаться несколько возможных решений с различной вероятностью или уверенностью в необходимости их выполнения. В качестве методов работы с неопределенностями могут использоваться байесовский вероятностный подход, коэффициенты уверенности, нечеткая логика.

Доопределяющие экспертные системы могут использовать для формирования решения несколько источников знаний. В этом случае могут использоваться эвристические приемы выбора единиц знаний из их конфликтного набора, например на основе использования приоритетов важности, или получаемой степени определенности результата, или значений функций предпочтений и т. д.

Для аналитических задач классифицирующего и доопределяющего типов характерны следующие проблемные области:

· интерпретация данных - выбор решения из фиксированного множества альтернатив на базе введенной информации о текущей ситуации. Основное назначение - определение сущности рассматриваемой ситуации, выбор гипотез исходя их фактов. Типичным примером является экспертная система анализа финансового состояния предприятия;

· диагностика - выявление причин, приведших к возникновению ситуации. Требуется предварительная интерпретация ситуации с последующей проверкой дополнительных фактов, например выявление факторов снижения эффективности производства;

· коррекция - диагностика, дополненная возможностью оценки и рекомендации действий по исправлению отклонений от нормального состояния рассматриваемых ситуаций.

Динамическая экспертная система - это экспертная система, решающая задачи в условиях изменяющихся во времени исходных данных и знаний. К данному классу относятся трансформирующие и многоагентные экспертные системы.

В отличие от аналитических статических экспертных систем синтезирующие динамические экспертные системы предполагают повторяющееся преобразование знаний в процессе решения задач, что связано с характером результата, который нельзя заранее предопределить, а также с динамичностью самой проблемной области.

В качестве методов решения задач в трансформирующих экспертных системах используются разновидности гипотетического вывода:

· генерации и тестирования, когда по исходным данным осуществляется генерация гипотез, а затем проверка сформулированных гипотез на подтверждение поступающими фактами;

· предположений и умолчаний, когда по неполным данным подбираются знания об аналогичных классах объектов, которые в дальнейшем динамически адаптируются к конкретной ситуации в зависимости от ее развития;

· использование общих закономерностей (метауправления) в случае неизвестных ситуаций, позволяющих генерировать недостающее знание.

Для таких динамических систем характерна интеграция в базе знаний нескольких разнородных источников знаний, обменивающихся между собой получаемыми результатами на динамической основе. Для многоагентных систем характерны следующие особенности: проведение альтернативных рассуждений на основе использования различных источников знаний с механизмом устранения противоречий:

· распределенное решение проблем, которые разбиваются на параллельно решаемые подпроблемы, соответствующие самостоятельным источникам знаний;

· применение множества стратегий работы механизма вывода заключений в зависимости от типа решаемой проблемы;

· обработка больших массивов данных, содержащихся в базе данных;

· использование различных математических моделей и внешних процедур, хранимых в базе моделей;

· способность прерывания решения задач в связи с необходимостью получения дополнительных данных и знаний от пользователей, моделей, параллельно решаемых подпроблем.

Для синтезирующих динамических экспертных систем наиболее применимы следующие проблемные области:

· проектирование - определение конфигурации объектов с точки зрения достижения заданных критериев эффективности и ограничений, например, проектирование бюджета предприятия или портфеля инвестиций;

· прогнозирование - предсказание последствий развития текущих ситуаций на основе математического и эвристического моделирования, например, прогнозирование трендов на биржевых торгах;

· диспетчеризация - распределение работ во времени, составление расписаний, например планирование графика освоения капиталовложений;

· планирование - выбор последовательности действий пользователей по достижению поставленной цели, например планирование процессов поставки продукции;

· мониторинг - слежение за текущей ситуацией с возможной последующей коррекцией. Для этого выполняется диагностика, прогнозирование, а в случае необходимости планирование и коррекция действий пользователей, например мониторинг сбыта готовой продукции;

· управление - мониторинг, дополненный реализацией действий в автоматических системах, например принятие решений на биржевых торгах.

Самообучающаяся система - это интеллектуальная информационная система, которая на основе примеров реальной практики автоматически формирует единицы знаний.

В основе самообучающихся систем лежат методы автоматической классификации примеров ситуаций реальной практики (обучения на примерах). Примеры реальных ситуаций накапливаются за некоторый исторический период и составляют обучающую выборку.Эти примеры описываются множеством признаков классификации. Причем обучающая выборка может быть:

· «с учителем»,когда для каждого примера задается в явном виде значение признака его принадлежности некоторому классу ситуаций;

· «без учителя»,когда по степени близости значений признаков классификации система сама выделяет классы ситуаций.

В результате обучения системы автоматически строятся обобщенные правила или функции, определяющие принадлежность ситуаций классам, которыми обученная система пользуется при интерпретации новых возникающих ситуаций. Таким образом, автоматически формируется база знаний, используемая при решении задач классификации и прогнозирования. Эта база знаний периодически автоматически корректируется по мере накопления опыта реальных ситуаций, что позволяет сократить затраты на ее создание и обновление. Общие недостатки, свойственные всем самообучающимся системам, заключаются в следующем:

· возможна неполнота и/или зашумленность (избыточность) обучающей выборки и, как следствие, относительная адекватность базы знаний возникающим проблемам;

· возникают проблемы, связанные с плохой смысловой ясностью зависимостей признаков, и, как следствие, неспособность объяснения пользователям получаемых результатов;

· ограничения в размерности признакового пространства вызывают неглубокое описание проблемной области и узкую направленность применения.

Индуктивная система, или система с индуктивным выводом, - это самообучающаяся интеллектуальная система, которая на основе обучения на примерах реальной практики строит деревья решений.

Классификация примеров проводится по следующей технологии:

1. Выбирается признак классификации из множества заданных либо последовательно, либо по какому-либо правилу, например в соответствии с максимальным числом получаемых подмножеств примеров.

2. По значению выбранного признака множество примеров разбивается на подмножества.

3. Выполняется проверка, принадлежит ли каждое образовавшееся подмножество примеров одному подклассу.

4. Если какое-то подмножество примеров принадлежит одному подклассу, т. е. у всех примеров подмножества совпадает значение классообразующего признака, то процесс классификации заканчивается (при этом остальные признаки классификации не рассматриваются).

5. Для подмножеств примеров, с несовпадающим значением классообразующего признака процесс классификации продолжается. Каждое подмножество примеров становится классифицируемым множеством.

Процесс классификации может быть представлен в виде дерева решений, в котором в промежуточных узлах находятся значения признаков последовательной классификации, а в конечных узлах - значения признака принадлежности определенному классу. Примером самообучающихся систем являются нейронные сети.

Нейронная сеть - это самообучающаяся интеллектуальная система, которая на основе обучения по примерам реальной практики строит ассоциативную сеть понятий (нейронов) для параллельного поиска на ней решений. Обучение нейронной сети сводится к определению связей (синапсов) между нейронами и установлению силы этих связей (весовых коэффициентов). Алгоритмы обучения нейронной сети упрощенно сводятся к определению зависимости весового коэффициента связи двух нейронов от числа примеров, подтверждающих эту зависимость. Достоинство нейронных сетей перед индуктивным выводом заключается в решении не только классифицирующих, но и прогнозных задач. Возможность нелинейного характера функциональной зависимости выходных и входных признаков позволяет строить более точные классификации. Сам процесс решения задач в силу проведения матричных преобразований проводится очень быстро. Фактически имитируется параллельный процесс прохода по нейронной сети в отличие от последовательного в индуктивных системах. Нейронные сети могут быть реализованы и аппаратно в виде нейрокомпьютеров с ассоциативной памятью. Последнее время нейронные сети получили стремительное развитие и очень активно используются в финансовой области. В качестве примеров внедрения нейронных сетей можно назвать:

· «Систему прогнозирования динамики биржевых курсов для Chemical Bank», разработанную фирмой Logica;

· «Систему прогнозирования для Лондонской фондовой биржи», являющуюся разработкой фирмы SearchSpace;

· «Управление инвестициями для Mellon Bank» (фирма NeuralWare) и др.

Системы, основанные на прецедентах. По-другому эти системы называют Case-Based Reasoning. В этих системах база знаний содержит описания не обобщенных ситуаций, а собственно сами ситуации, или прецеденты. Тогда поиск решения проблемы сводится к поиску по аналогии (абдуктивному выводу от частного к частному):

· получение подробной информации о текущей проблеме;

· сопоставление полученной информации со значениями признаков прецедентов из базы знаний;

· выбор прецедента из базы знаний, наиболее близкого к рассматриваемой проблеме;

· в случае необходимости выполняется адаптация выбранного прецедента к текущей проблеме;

· проверка корректности каждого полученного решения;

· занесение детальной информации о полученном решении в базу знаний.

Так же, как и для индуктивных систем, прецеденты описываются множеством признаков, по которым строятся индексы быстрого поиска. Но в отличие от индуктивных систем допускается нечеткий поиск с получением множества допустимых альтернатив, каждая из которых оценивается некоторым коэффициентом уверенности. Далее наиболее подходящие решения адаптируются по специальным алгоритмам к реальным ситуациям.

Обучение таких систем сводится к запоминанию каждой новой обработанной ситуации с принятыми решениями в базе прецедентов.

Системы, основанные на прецедентах, применяются как системы распространения знаний с расширенными возможностями или как системы контекстной помощи.

Динамические экспертные системы оперативного управления бизнес-процессами. Бизнес-процесс - это взаимосвязанная совокупность материальных, информационных, финансовых потоков (рабочих потоков - work-flow), проходящих через взаимодействующие подразделения предприятия и направленных на выполнение заказа клиента (изготовление товара или осуществление услуги). Каждый бизнес-процесс такого характера связан с перепроектированием для достижения коренных улучшений в основных показателях деятельности предприятия: рентабельности, качества продукции и услуг, оборачиваемости капитала и др. Для управления этими процессами предназначены динамические экспертные системы. Динамической экспертной системой оперативного управления бизнес-процессами называется такая интеллектуальная система, которая оперативно отражает состояние экономических объектов с целью принятия своевременных решений о коррекции в существующих бизнес-процессах.

К динамическим бизнес-процессам на предприятии относят:

· управление заказами и сбытом;

· управление запасами и закупками;

· календарное планирование и управление производством.

Типичными задачами, которые решаются динамическими экспертными системами оперативного управления бизнес-процессами, являются:

· мониторинг бизнес-процессов и оперативное информирование лиц, принимающих решение, об отклонениях;

· упреждающая диагностика, прогнозирование отклонений в параметрах операций бизнес-процессов;

· динамическое распределение ресурсов в соответствии с изменяющейся обстановкой;

· планирование действий, диспетчеризация и составление сетевых графиков работ;

· моделирование последствий принимаемых решений по изменению процессов.

Экспертная система управления запасами. Система управления запасами связывает системы сбыта, производства и снабжения в единое целое, рассматривая цепочки товародвижения как единые бизнес-процессы, в которых отлаживаются взаимодействия между клиентами, подразделениями предприятия и его партнерами-смежниками и поставщиками. Дефицит запасов может привести к издержкам в связи с дополнительными затратами на реализацию поступившего заказа, а в некоторых случаях и к потере сбыта и заказчиков. С другой стороны, сверхнормативные запасы увеличивают себестоимость продукции за счет непроизводственных затрат на поставку, складирование и хранение запасов.

Информационные системы управления запасами на базе экономико-математического моделирования и современных информационных технологий позволяют сократить затраты на поддержание дорогостоящих запасов в части:

· снижения затрат, связанных с созданием и хранением запасов;

· сокращения времени поставок;

· более четкого соблюдения сроков поставок;

· увеличения гибкости производства;

· повышения качества изделий;

· увеличения производительности.

Особенность системы управления запасами заключается в том, что все звенья товародвижения взаимосвязаны. В условиях динамичности рынка нельзя рассматривать систему сбыта, систему производства и систему снабжения независимо друг от друга. Система управления запасами как раз связывает все перечисленные звенья в единое целое, рассматривая цепочки товародвижения как единые бизнес-процессы, в которых отлаживаются взаимодействия между клиентами, подразделениями предприятия и его партнерами-смежниками и поставщиками.

Существует множество систем управления запасами, обеспечивающих различные уровни запасов:

· система с фиксированным размером заказа;

· система с фиксированным интервалом времени между заказами;

· система с фиксированным интервалом времени между заказами и проверкой порогового уровня запаса;

· система «Минимум - максимум».

Система с фиксированным размером заказа предполагает в моменты времени нарушения порогового уровня запасов при условии равномерности последующего расходования запасов выдачу фиксированного заказа на поставку продукции. Размер фиксированного заказа соответствует времени поставки, в течение которого уровень запасов снизится до гарантийного.

Система с фиксированным интервалом времени между заказами используется, когда через равные интервалы времени при условии равномерности последующего расходования запасов инициируется заказ на пополнение запаса. Интервал времени рассчитывается таким образом, чтобы в момент достижения гарантийного запаса осуществлялось пополнение запасов. В том случае, если произойдет задержка в поступлении продукции, пополнение запаса должно произойти в момент исчерпания

гарантийного запаса. Система с фиксированным интервалом времени между заказами упрощает мониторинг состояния запасов и взаимодействие с постоянными поставщиками, а следовательно, удешевляется система оформления заказов. При этом возрастают требования к поддержанию максимального уровня запаса и соответственно издержки хранения.

Система с фиксированным интервалом времени между заказами и проверкой порогового уровня запаса предусматривает выдачу заказа на пополнение запаса в фиксированные интервалы времени и при нарушении порогового уровня запаса. В этой системе заказы делятся на два класса: плановые и внеплановые. Плановые заказы реализуются по системе управления запасами с фиксированным интервалом времени между заказами, внеплановые заказы выполняются при достижении порогового уровня запасов.

Что такое система «Минимум - максимум»?. Суть этой системы заключается в том, что в фиксированные интервалы времени производится проверка порогового уровня запасов (минимума). Если текущий запас больше порогового уровня, то заказ на пополнение запаса не выдается. В противном случае выдается заказ на пополнение уровня запаса по формуле до максимального уровня. Система «Минимум - максимум» применяется в случае большой стоимости материально-технического снабжения (стоимости оформления заказа на пополнение запасов и последующей поставки), сопоставимой со стоимостью хранения запасов и даже с издержками дефицита. Система позволяет сократить число поставок. Эта система может применяться в случае насыщенности рынка продукцией, предназначенной для пополнения запасов.

Что такое офисный экспертный комплекс? Существуют экспертные программные продукты высокого уровня, которые сочетают анализ с применением электронных таблиц и принципиально новые технологии оптимизационного моделирования на базе генетических алгоритмов. В настоящее время оптимизационные методы допускают не строгую постановку задачи, что существенно расширяет сферу их применения. Реализованы новые подходы к оптимизации инвестиционной деятельности (на базе теоремы Марковича-Тобина). Дополнение электронных таблиц новыми разработками в области оптимизации позволяет создавать высокоэффективные программы, которые обладают следующими свойствами:

· наглядность, гибкость и простота;

· визуализация обслуживаемого объекта, очевидность символики интерфейса;

· возможность работы с привычными табличными форматами;

· совместимость со всеми основными типами автоматизации офиса;

· способность обрабатывать информацию в адресном масштабе времени по мере ее поступления.

9.3. Система «Business Intelligence» (Бизнес-интеллект)

«Business Intelligence». Бизнес-интеллект («Business Intelligence», BI) в широком смысле слова определяет:

· процесс превращения данных в информацию и знания о бизнесе для поддержки принятия улучшенных и неформальных решений;

· информационные технологии (методы и средства) сбора данных, консолидации информации и обеспечения доступа бизнес-пользователей

· к знаниям;

· знания о бизнесе, добытые в результате углубленного анализа детальных данных и консолидированной информации.

В основе технологии BI лежит организация доступа конечных пользователей и анализ структурированных количественных по своей природе данных и информации о бизнесе. BI порождает итерационный процесс бизнес-пользователя, включающий доступ к данным, их анализ, проявление интуиции, формирование заключений, нахождение взаимосвязей, чтобы эффективно изменять предприятие в положительную сторону. Сегодня категории BI-продуктов включают: BI-инструменты и BI-приложения. Первые, в свою очередь, делятся на: генераторы запросов и отчетов; развитые BI-инструменты, прежде всего инструменты оперативной аналитической обработки (On-line Analytical Processing, OLAP); корпоративные BI-наборы (Enterprise BI Suites, EBIS); BI-платформы. Главная часть BI-инструментов делится на корпоративные BI-наборы и BI-платформы. Средства генерации запросов и отчетов в большой степени поглощаются и замещаются корпоративными BI-наборами. Многомерные OLAP-механизмы, или серверы, а также реляционные OLAP-механизмы являются BI-инструментами и инфраструктурой для BI-платформ. Большинство BI-инструментов применяются конечными пользователями для доступа, анализа и генерации отчетов по данным, которые чаще всего располагаются в хранилище, витринах данных или оперативных складах данных. Разработчики приложений используют BI-платформы для создания и внедрения BI-приложений, которые не рассматриваются как BI-инструменты. Примером BI-приложения является информационная система руководителя EBIS. Генераторы запросов и отчетов - типично «настольные» инструменты, предоставляющие пользователям доступ к базам данных, выполняющие некоторый анализ и формирующие отчеты. Запросы могут быть как незапланированными (ad hoc), так и иметь регламентный характер. Имеются системы генерации отчетов (как правило, серверные), которые поддерживают регламентные запросы и отчеты. Настольные генераторы запросов и отчетов расширены также некоторыми облегченными возможностями OLAP. Развитые инструменты этой категории объединяют в себе возможности пакетной генерации регламентных отчетов и настольных генераторов запросов, рассылки отчетов и их оперативного обновления, образуя так называемую корпоративную отчетность (corporate reporting). В ее арсенал входят сервер отчетов, средства рассылки, публикации отчетов на Web, механизм извещения о событиях или отклонениях (alerts). Характерные представители - Crystal Reports, Cognos Impromptu и Actuate e.Reporting Suite.

EBIS - естественный путь для предоставления BI-инструментов, которые ранее поставлялись в виде разрозненных продуктов. Эти наборы интегрируются в наборы инструментов генерации запросов, отчетов и OLAP. Корпоративные BI-наборы должны иметь масштабируемость и распространяться не только на внутренних пользователей, но и на ключевых заказчиков, поставщиков и др. Продукты BI-наборов должны помогать администраторам при внедрении и управлении BI без добавления новых ресурсов. Из-за тесного родства Web и корпоративных ВI-наборов некоторые поставщики описывают свои BI-наборы как BI-порталы. Эти портальные предложения обеспечивают подмножество возможностей EBIS с помощью Web-браузера, однако поставщики постоянно увеличивают их функциональность, приближая ее к возможностям инструментов для «толстых» клиентов. Типичные EBIS поставляют Business Objects и Cognos.

BI-платформы предлагают наборы инструментов для создания, внедрения, поддержки и сопровождения BI-приложений. Имеются насыщенные данными приложения с «заказными» интерфейсами конечного пользователя, организованные вокруг специфических бизнес-проблем, с целевым анализом и моделями. BI-платформы, хотя и не так быстро растут и широко используются как EBIS, являются важным сегментом благодаря ожидаемому и уже происходящему росту BI-приложений. Стараниями поставщиков реляционных СУБД, создающих OLAP-расширения своих СУБД, многие поставщики платформ, которые предоставили многомерные СУБД для OLAP, чтобы выжить, были вынуждены мигрировать в область BI-приложений. Семейства продуктов СУБД, обеспечивающие возможности BI, действительно подталкивают рост рынка В1-платформ. Отчасти это происходит благодаря большей активности ряда поставщиков СУБД. Рассматривая различные инструменты, видим, что EBIS являются высокофункциональными средствами, но они не имеют такого большого значения, как BI-платформы или заказные BI-приложения. Зато BI-платформы обычно не так функционально полны, как корпоративные BI-наборы. При выборе BI-платформ нужно учитывать следующие характеристики: модульность, распределенную архитектуру, поддержку стандартов XML, OLE DB for OLAP, LDAP, CORBA, COM/DCOM и обеспечение работы в Web. Они должны также обеспечивать функциональность, специфическую для бизнес-интеллекта, а именно: доступ к БД (SQL), манипулирование многомерными данными, функции моделирования, статистический анализ и деловую графику. Эту категорию продуктов представляют фирмы Microsoft, SAS Institute, ORACLE, SAP и др.

Корпоративная BI-архитектура должна быть разработана после того, как определены BI-потребности пользователей, но до выбора BI-инструментов. Архитектура «Business Intelligence» определяет компоненты доставки ВI-информации и компоненты BI-технологии. После определения профилей использования BI-информации может быть спроектирована архитектура доставки информации, основанная на этих профилях и на требуемом типе внедрения. Это может быть любая смесь настольных клиентов с сетевым подключением, настольных клиентов и сервера, «тонких» клиентов на основе Web и других мобильных вычислительных устройств. Архитектура доставки информации определит пользовательские интерфейсы, которые часто являются порталами с возможностью

персонализации. Архитектура BI-технологии определяет инфраструктуру и компоненты, необходимые для поддержки внедрения, эксплуатации и администрирования BI-инструментов и приложений, а также связи этих компонентов. Прочная архитектура BI-технологии будет состоять из двух важных слоев: инфраструктуры и прикладных сервисов (или функциональности). Инфраструктурный слой включает информационные ресурсы, администрирование и сети. На этом слое данные собираются, интегрируются и становятся доступными. Хранилище данных является одним из возможных компонентов инфраструктурного слоя. Для использования BI в оперативных системах может потребоваться оперативный склад данных (Operational Data Store, ODS), возможно, связанный с корпоративными структурами work-flow. Прикладные сервисы включают все BI-сервисы, такие как механизмы запросов, анализа, генерации отчетов и визуализации, а также средства безопасности и метаданные.

Возможности пользователя по ведению многоаспектного оперативного анализа информации в терминах предметной области для поддержки принятия бизнес-решений быстро расширяются. Параллельное движение от информационной анархии или диктатуры к информационной демократии расширяет контингент пользователей «Business Intelligence». На первое место выходит потребность гибкого доступа к корпоративным данным, а не просто потребность решить конкретную функциональную задачу. Снижается прямая зависимость от подразделений, изготавливающих по заказу отчеты или запросы. Возможен переход от статических регламентных отчетов к «живому отчету», а наиболее продвинутые аналитики получают возможность проводить кросс-тематический анализ и построение сводных отчетов с нуля, имея семантический слой, описывающий все показатели и разрезы корпоративной информации. Эти же средства могут использовать программисты для быстрого создания регламентных, параметрических отчетов. Web-доступ к BI обеспечит реальное корпоративное информационное пространство и коллективную работу сотрудников.

Несмотря на положительные стороны BI технология имеет ряд недостатков:

1. Основным риском являются слишком быстрые изменения в технологии BI, использование непроверенных решений и средств. Нужно отслеживать поставщиков, оценивать их устойчивость, направления развития, регулярно пробовать новые средства, проводить типизацию и унификацию BI.

2. Другой риск связан с качеством данных: если они должным образом не преобразованы, не очищены и не консолидированы, то никакие возможности BI инструментов или приложений не смогут увеличить достоверность данных.

3. Ряд проблем может возникнуть из-за несогласованности метаданных. В рамках большой корпорации эти вопросы решаются на инфраструктурном уровне путем создания корпоративного хранилища данных и централизованного управления метаданными. Создание хранилища поможет навести порядок в номенклатуре собираемых показателей, сборе данных, их распространении и санкционировании доступа. Сама BI-технология не в состоянии решить комплексно эти проблемы.

Data Mining (интеллектуальный анализ данных) - это технология выявления скрытых взаимосвязей внутри больших баз данных. Используется в областях:

1. Розничная торговля. Выявление товаров, которых необходимо продвигать совместно; выбор местоположения товара в магазине; анализ потребительской корзины; прогнозирование спроса.

2. Маркетинг. Поиск рыночных сегментов, тенденций покупательского поведения.

3. Финансы. Классификация дебиторских задолженностей по возможностям взыскания, прогноз изменений на валютных рынках.

4. Промышленное производство. Диагноз неисправностей и т.д.

Методы, используемые системой «Data Mining» можно подразделить на две группы:

1. Сегментация. Подразумевает анализ существующих данных с целью обнаружения некоторых групп. Основана на параметрах клиентов, демографических показателях, покупательском поведении. Алгоритмы кластеризации позволяют выявить гомогенные группы или типы клиентов. В результате удается лучше оценить свою клиентскую базу и планировать более эффективные маркетинговые мероприятия;

2. Прогнозирование. Прогнозирование требует некоторой выборки данных для конкретного отношения, которое необходимо прогнозировать или моделировать. К наиболее распространенным методам моделирования относятся регрессия, нейронные сети и деревья решений. Эти типы алгоритмов «обучаются» на входных и выходных данных из иллюстративной выборки. Например, используя демографические показатели и покупательские характеристики за прошлые периоды, модель может сгенерировать количественный параметр для каждого потенциального клиента. Этот параметр характеризует вероятность того, что данный заказчик вновь сделает покупку. Эти параметры используются для ранжирования клиентов при осуществлении целевых маркетинговых программ. Кроме того, можно выявить повторяющиеся и разовые покупки или предсказать отказ прежних клиентов от услуг. Анализ чувствительности позволяет выявить те характеристики клиентов, которые в наибольшей степени влияют на прогнозируемый фактор.

В основе технологии Data Mining лежат две технологии: машинное обучение и визуализация (визуальное представление информации). Качество визуализации определяется возможностями графического отображения значений данных. Варьирование графического представления путем изменения цветов, форм и других элементов упрощает выявление скрытых зависимостей. Эффективность методов машинного обучения в основном определяется их способностью исследовать большее количество взаимосвязей данных, чем может человек. Обе технологии дополняют друг друга в процессе осуществления «Data Mining». Визуализация используется для поиска исключений, общих тенденций и зависимостей и помогает в извлечении данных на начальном этапе проекта. Машинное обучение используется позднее для поиска зависимостей в уже отлаженном проекте.

Машинное обучение предполагает использование следующих методов:

· деревья решений;

· ассоциативные правила;

· генетические алгоритмы;

· нейронные сети.

Деревья решений определяют естественные разбивки в данных, основанные на целевых переменных. Сначала выполняется разбивка по наиболее важным переменным. Ветвь дерева можно представить как условную часть правила. Наиболее часто встречающимися примерами являются алгоритмы классификационных и регрессионных деревьев (Classification and Regression Trees, CART) либо ХИ-квадрат индукция (Chi-Squared Automatic Induction, CHAID).

Ассоциативные правила выявляют причинно-следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Правила представлены в форме «если <условия>, то <вывод>». Их можно использовать для прогнозирования или оценки неизвестных параметров (значений).

Генетические алгоритмы в первую очередь применяются для оптимизации топологии нейронных сетей и весов. Однако их можно использовать и самостоятельно, для моделирования. Они используют итеративный процесс эволюции последовательности поколений моделей, включающий операции отбора, мутации и скрещивания. Для отбора определенных особей и отклонения других используется «функция приспособленности» (fitness function.

Метод искусственных нейронных сетей основан на том, что для предсказания значения целевого показателя используются наборы входных переменных, математических функций активации и весовых коэффициентов входных параметров. Выполняется итеративный обучающий цикл, нейронная сеть модифицирует весовые коэффициенты до тех пор, пока предсказываемый выходной параметр соответствует действительному значению. После обучения нейронная сеть становится моделью, которую можно применить к новым данным с целью прогнозирования.

Каждый из методов имеет свои преимущества и недостатки. Преимущество деревьев решений и ассоциативных правил состоит в их читабельности - они похожи на предложения на естественном языке. Однако при большом количестве факторов данных бывает очень сложно понять смысл такого представления. Недостаток: они не предназначены для широких числовых интервалов. Это связано с тем, что каждое правило или узел в дереве решений представляет одну связь (зависимость, отношение). Чтобы представить зависимости для большого интервала значений, потребуется слишком много правил или узлов. Преимущество нейронных сетей - в компактном представлении числовых отношений для широкого диапазона значений, а недостаток - в сложности интерпретации.

Существует широкий спектр инструментов для поддержки проектов «Data Mining». К ним относятся как общедоступные алгоритмы визуализации и машинного обучения, так и сложные программные пакеты, где используются обе стратегии, работающие на параллельных процессорах. Стоимость последних может достигать нескольких сотен тысяч долларов. Поиск наилучшего инструмента для «Data Mining» решения зависит от ряда условий, таких как цель проекта (например, анализ потребительской корзины) и размер исследуемой базы данных. При выборе инструментов и алгоритмов очень важна гибкость, поскольку в зависимости от выбора стратегии может быть получен разный результат.

Что требуется для создания «Data Mining» приложения? Для создания такого продукта необходимо выполнить следующие шаги:

1. Установить масштабы проекта, определяющие, какие данные необходимо собрать. Важно, чтобы проект был направлен на реализацию реальных бизнес-целей.

2. Разработать базу данных для «Data Mining». Необходимая информация может быть распределена по нескольким базам, иногда она даже хранится не в электронной форме.

3. Данные из различных баз необходимо консолидировать и устранить несоответствия. На самом деле развитие технологии баз данных уже не требует применения алгоритмов «Data Mining» к отдельной витрине данных.

Фактически эффективный анализ требует корпоративного хранилища данных, что с точки зрения вложений обходится, дешевле, чем использование отдельных витрин. По мере внедрения «Data Mining» проектов в масштабе предприятия количество пользователей растет, все чаще возникает необходимость в доступе к крупным инфраструктурам данных. Внедряя «Data Mining» функции в хранилище компании, сокращают расходы в двух направлениях. Во-первых, уже не нужно приобретать и обслуживать дополнительное оборудование для «Data Mining». Во-вторых, компании не нужно переносить данные из хранилища в специальные источники для «Data Mining» проектов. Еще один важный момент - очистка данных. Здесь подразумевается проверка на целостность и обработка отсутствующих значений. Точность методов «Data Mining» зависит от качества информации, лежащей в основе. Заметим, что первые два этапа могут занять половину (а то и больше) времени, отведенного на весь проект.

Применить алгоритмы «Data Mining» для определения отношений между данными. И не исключено, что для выявления нужных зависимостей придется использовать несколько различных алгоритмов. Одни из них подойдут на первых этапах процесса, другие - на более поздних. В определенных случаях имеет смысл запустить несколько алгоритмов параллельно, чтобы проанализировать данные с разных точек зрения.

Исследовать соотношения, выявленные на предыдущих этапах, на применимость в масштабах проекта. На этом этапе может потребоваться помощь эксперта в предметной области. Он определит, являются ли те или иные отношения слишком специфичными или слишком общими и укажет, в каких областях следует продолжить анализ.

Представить результаты в виде отчета, в котором будут перечислены все интерпретируемые отношения. Такой отчет принесет только одномоментную выгоду, тогда как приложение, позволяющее эксперту творчески подходить к выявлению отношений, гораздо полезнее. Поэтому фирма-поставщик должна не только научить клиента методике поиска зависимостей в данных, но и обратить особое внимание на обучение работе с самой программой.

9.5. Экспертный комплекс «Ithink»

Одним из примеров интегрированной системы является интегрированный экспертный комплекс «Ithink», состоящий из пакетов «Ithink», «Genehunter» и «Genteck». Первый из трех пакетов - пакет структурного моделирования «Ithink» - предназначен для моделирования хозяйственных потоков предприятия. Пакет способен производить обмен данными с табличным процессором Excel на основе протокола Windows DDE. В процессе разработки модели структура и взаимосвязи финансовых и товарных потоков отображаются на экране. Структурная схема формируется оператором с использованием разнообразных приемов визуализации («подвижные» графики и диаграммы, элементы компьютерной анимации), а программа автоматически подстраивается под ее вид. Любая перестройка схемы меняет алгоритм и программу модели. Показатели движения финансовых и товарных потоков задаются оператором и контролируются с помощью встроенных в модель графиков и таблиц. Этим достигается максимальная наглядность представления данных и результатов анализа. Пакет «Ithink» допускает встречное движение потоков, которым присваиваются разные знаки. Финансовые и товарные потоки, представленные в наглядном виде, передаются в пакет генетических алгоритмов «Genehunter», который функционирует на базе процессора Excel и способен решать самые разнообразные оптимизационные задачи. Полученные модели воспринимаются «Excel» и пакетом «Genteck». Затем происходит выбор оптимального решения и обратный переход к пакету «Ithink», в котором автоматически корректируются параметры финансовых и товарных потоков. На заключительном этапе происходит окончательная корректировка результатов анализа в электронной таблице. Выходные документы могут быть представлены с максимальной степенью детализации (квартал, месяц, неделя, год). С помощью электронного комплекса «Ithink» можно моделировать деятельность предприятия (организации) в целом, создавать высокоэффективные модели структурных подразделений, решать конкретные аналитические и расчетные управленческие задачи.




Поделиться с друзьями:


Дата добавления: 2014-11-25; Просмотров: 1783; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.089 сек.