数据挖掘在CRM中的应用
如何在茫茫人海中发掘潜在客户,并抓住客户,同时以前的客户又怎样才能保留呢?即要发现哪些客户更倾向于购买哪些类型的车辆,然而,由于缺乏有效的工具和分析技术,这些隐藏在大量数据中的潜在信息和知识未能得到充分的挖掘和利用,从而抑制了企业CRM的运行效率。数据挖掘技术的兴起为解决这一问题带来了希望。基于数据挖掘技术的CRM系统,能够有效地运用数据挖掘工具,帮助企业从海量的数据中发现潜在的知识,支持企业制定高效的CRM策略,从而大幅提升CRM的运行效率。就国内工程机械行业来看,数据挖掘还处于空白或刚起步阶段。
无论先前的营销活动是否与要建模的产品或服务匹配,从中得到的数据都是定位建模的非常好的选择。公司的营销活动对创意和品牌识别等因素是敏感的,这可能对模型性能有微妙的影响。构建和应用潜在客户获取模型的过程如下:
(1)从各种营销活动获得的业务数据库中收集整理原始数据,组建企业客户的数据仓库系统。在客户数据仓库中抽取适当的字段组成客户分析数据,为潜在客户获取模型提供数据源;
(2)从选出的客户分析数据中实施数据挖掘,发现对产品感兴趣的潜在客户所具有的特征模型;
(3)运用潜在客户特征模型在当前客户数据库中发现最有可能成为企业潜在客户的群体;
(4)对具有成为企业潜在客户特征属性的客户群,进行有针对性的营销活动,达到获取新客户的目的。
企业的数据仓库中保存数万条甚至更多的客户(基本资料、拜访记录、预购状况等)数据是非常常见的。但是,用户感兴趣的常常只是数据仓库的一个子集。因此不加区分地挖掘整个数据仓库是不现实的。另外,现实世界的数据一般是含噪声的、不完全的和不一致的。采用数据预处理可以改进数据质量,从而有助于提高挖掘过程的精度和性能。在关系数据库中,选择相关的数据集并进行数据预处理不仅使得挖掘更有效,而且能够产生更有意义的规则。
在对数据仓库进行数据挖掘时,其中大部分属性与挖掘任务不相关,是冗余的,遗漏相关属性或留下不相关属性都是有害的,不相关或冗余的属性增加了数据量,可能会减慢挖掘进程,降低系统性能。然而,对于用户来说,确定哪些属性应当包含在类特征分析中则不是一件简单的事情,所以应当引进相应的方法进行属性相关性分析,以过滤掉统计上不相关或弱相关的属性。
为了保证输入量与输出量之间有一定的相关度,可以用信息增益来考察属性间的相关性。1948年,香农(C.E.Shannon)提出了信息论,并对信息量(Information)和熵(Entorpy)进行了定义。
熵实际上是系统信息量的加权平均,也就是系统的平均信息量,信息增益指标的原理就取自信息论。
设指向N的训练集为S,其中包含m个不同的类,他们区分了不同的类Ci(for i=1,…,m)。设si是S中属于类Ci的记录的个数。那么分裂之前,系统的总熵:
I(s1,s2,…,sm)=-Σ(i=1 to m)pi log2(pi)
容易看出,总熵是属于各个类的记录的信息量的加权平均。
设属性A是带有v个不同值的属性{a1,a2,…,av),A可以把S分成v个子集{S1,S2,…,Sv},其中Sj={x︱x∈S & xA=aj)。如果A被选为测试属性,那么这些子集就表示从代表集合S的出发的所有树枝。设Sij表示在Sj中类为Ci的记录个数。这时按A的每个属性值(更一般的是取A的一个子集)进行分裂,分裂后的系统总熵为:
E(A)=Σ(j=1 to v)((s1j+s2j+…+smj)/s)*I(s1j+s2j+…+smj)
总熵E(A)是各个子集信息量的加权平均。对N用属性A分类后的信息增益为:
Gain(A)=I(s1,s2,…,sm)-E(A)
在相关性分析方法中,可以计算定义S中样本的每个属性的信息增益,设用于识别弱相关性的属性相关阈值为a0,若属性的信息增益小于该阈值则被认为是弱相关的,应删除。
在CRM系统的数据仓库中记录着有关客户购买产品的描述信息表,表内容包括了客户预购的产品、预购时间、交货地点、年龄和资信状况等。对于每一个客户的购买行为可以按照概念树进行描述,并用基本概念树的知识进行归纳,基本概念树其实是一个元组合并的处理过程,即数据的预处理。其基本思想是:(1)一个属性的较具体的值被该属性的概念树中的父节点所代替(这个过程又称为属性的概化);(2)对相同元组进行合并,构成更宏观的元组,并计算宏元组所覆盖的元组数目;如果数据库中宏元组数目仍然很大,那么用这个属性的概念树中更一般的父节点取替代,最终生成覆盖面广、数量少的宏元组。
利用决策树对概念树进行定义后,就可以将数据库中所有概念定义的数据汇集到一个数据集中,这时利用元组合并的原理对数据集的数据条件属性值依其概念树进行概化,并对宏元组进行合并,直到宏元组的数目满足要求为止。
UPTree算法采用预排序、广度优先的方法构造决策树,在决策树生成的时候同步进行修剪工作。预排序减少了对数值字段进行排序消耗的时间,广度优先使得对当前树中所有叶子节点分割的都是在同一遍历中完成的。
UPTree的数据结构是使用若干驻留磁盘的属性表和单个驻留主存的类表。每一个属性具有一个属性表,由RID(记录标识符)建立索引。每个元组由一个从每个属性表的一个表目到类表的一个表目(存放给定元组的类标号)的链接表示,而类表表目链接到它在判断树中对应的叶子节点。
区别于一般的决策树,UPTree对属性选择采用了gini指标,gini指标能够适用于种类字段和数值字段。对每个节点都需要先计算非常好的分裂方案,然后执行分裂。
如果集合T分成两部分N1和N2,割的gini就是:
提供最小gini就被选择作为分裂的标准(对于每个属性都要遍历所有可以的分割方法)。
对于数值型连续字段(numeric attribute)分裂的形式A≤v。所以,可以先对数值型字段排序,假设排序后的结果为v1,v2,…,vn,因为分裂只会发生在两个节点之间,所以有n-1种可能性。通常取中点(vi+vi+1)/2作为分裂点。从小到大依次取不同的split point,取Information Gain指标最大(gini最小)的一个就是分裂点。
对于离散型字段(categorical attribute),设S(A)为A的所有可能的值,分裂测试将要取遍S的所有子集S’。寻找当分裂成S’和S-S’两块时的gini指标,取到gini最小的时候,就是非常好的分裂方法。
算法的控制结构是一个队列。这个队列存放当前的所需进行分裂的叶子节点,这是为了控制广度优先搜索的需要。当队列为空时,说明所有的叶子都已经被处理过。这时建树算法结束。其结果存放在三个表中,第一个表存放决策树整个叶子节点信息;第二个表存放分割字段是离散型字段的时候,分割的信息;第三个表存放各个节点中不同类别的分布情况。
决策树分类算法的一个最大优点就是可以容易提取决策树表示的分类规则,并以IF-THEN形式表现。每个叶子节点都创建一条规则,每个分割都成为一个规则中的一个条件(IF部分),叶子节点包含类预测,形成规则后件(Then部分)。IF-THEN规则易于理解。
沿着由根节点到叶节点的路径,可以将决策树信息转换成IF-THEN分类规则。根据本文的挖掘结果,现列举说明一下分析出来的结果:
业务代表成功挖掘出一个新客户大约需要拜访6-8次左右(客户的购买可能性:三个月内购买),老客户再次购买大约需要拜访1-3次左右(平时的关系维护未计入拜访次数)。
这当中对于业务员的自身素质没有做具体考评,如果需要细分,可以划分为:入职1年内,入职1-3年,入职3年以上。
总 结
数据挖掘技术的引入高质量地实现了CRM的目标,在CRM中有效地应用数据挖掘技术,可以为企业高层决策者提供准确的客户细分、忠诚度、盈利能力、潜在用户等信息,指导他们制定最优的企业营销策略,从而降低企业运营成本,增加利润,加速企业的发展。当前国外许多企业为了获得竞争优势,都积极地投入资金、人力、物力进行该方面的研究和应用,并取得了较好的投资回报率。同样,数据挖掘技术在工程机械行业的CRM应用中也有着远大前景。