Data Mining - DM
Data Mining (DM) — это технология поддержки процесса принятия решений, основанная на выявления скрытых закономерностей и систематических взаимосвязей между переменными внутри больших массивов информации, которые затем можно применить к новым совокупностям данных. При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания. Обнаружение новых знаний можно использовать для повышения эффективности бизнеса.
В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Многие компании годами накапливают важную бизнес-информацию, надеясь, что она поможет им в принятии решений.
Корпоративная база данных любого современного предприятия обычно содержит набор таблиц, хранящих записи о тех или иных фактах либо объектах (например, о товарах, их продажах, клиентах, счетах). Как правило, каждая запись в подобной таблице описывает какой-то конкретный объект или факт. Например, запись в таблице продаж отражает тот факт, что такой-то товар продан такому-то клиенту тогда-то таким-то менеджером, и по большому счету ничего, кроме этих сведений, не содержит.
Пример.
C помощью средств DM менеджер по маркетингу может предлагать клиентам индивидуальные котировки акций, обновлять новости, проводить специальные кампании по продвижению и передавать другую индивидуальную информацию, которая может их заинтересовать. При этом существенно сокращаются средства на рекламу и повышаются доходы. Кроме того, процесс полностью автоматизирован, ПО моментально обнаруживает любые изменения в поведении клиента, в отличие от специальных сервисов, представленных на сегодняшний день в Web, которые требуют от людей заполнения различных опросных листов и анкет.
Однако совокупность большого количества таких записей, накопленных за несколько лет, может стать источником дополнительной, гораздо более ценной информации, которую нельзя получить на основе одной конкретной записи, а именно — сведений о закономерностях, тенденциях или взаимозависимостях между какими-либо данными.
Пример.
Cведения о том, как зависят продажи определенного товара от дня недели, времени суток или времени года, какие категории покупателей чаще всего приобретают тот или иной товар, какая категория клиентов чаще всего вовремя не отдает предоставленный кредит, какая часть покупателей одного конкретного товара приобретает другой конкретный товар.
Подобного рода информация обычно используется при прогнозировании, стратегическом планировании, анализе рисков, и ценность ее для предприятия очень высока, поэтому процесс ее поиска и получил название Data Mining (mining по-английски означает «добыча полезных ископаемых», а поиск закономерностей в огромном наборе фактических данных действительно сродни этому).
Синонимами DM можно считать следующее.
Синонимы Data Mining - DM
- Обнаружение знаний в БД (Knowledge Discovery In Databases, KDD)
Это процесс поиска полезных знаний в "сырых" данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов DM, а также обработки и интерпретации полученных результатов
- Интеллектуальный анализ данных (IAD)
Концепция интеллектуального анализа данных определяет задачи поиска функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие некоторых процессов.
Термин Data Mining
Термин Data Mining обозначает не столько конкретную технологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного и корреляционного анализа. Цель этого поиска — представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные товары или услуги либо зависимость их приобретения от каких-то характеристик потребителя).
Пример.
Анализ потребительской корзины, применяемый, чтобы выявить предпочтения потребителей и, соответственно, лучше удовлетворить спрос и повысить доход с клиентов. Однако характер покупательского поведения присутствует в данных неявно, и для его определения необходимо использовать именно Data Mining. И теперь можно выяснить, к примеру, что клиент, собирающийся купить товар X, будет не прочь приобрести заодно и товар Y. Эта информация ляжет в основу последующих решений: может быть, стоит располагать эти товары на витрин е магазин а рядом или, например, продвигать один из них, чтобы повысить продаж и обоих.
В отличие от оперативной аналитической обработки данных (OLAP) в DM задача формулировки гипотез и выявления необычных (unexpected) алгоритмов переложено с человека на компьютер. Если при статистическом анализе или при применении OLAP обычно формулируются вопросы типа «Каково среднее число неоплаченных счетов заказчиками данной услуги?», то применение DM, как правило, то подразумевает ответы на вопросы типа «Существует ли типичная категория клиентов, не оплачивающих счета?». При этом именно ответ на второй вопрос нередко обеспечивает более нетривиальный подход к маркетинговой политике и к организации работы с клиентами.
Примеры заданий на такой поиск при использовании DM - Data Mining приведены в таблице.
Примеры формулировок задач при использовании методов OLAP и DM - Data Mining
OLAP
| DM - Data Mining
| Каковы средние показатели травматизма для курящих и некурящих?
| Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму?
| Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)?
| Имеются ли характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании?
| Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке?
| Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?
|
|