您好,欢迎来到小侦探旅游网。
搜索
您的当前位置:首页数据挖掘

数据挖掘

来源:小侦探旅游网
一、 数据挖掘概述 1、 数据挖掘

定义:通过自动或半自动化的工具对大量的数据进行探索和分析的过程,其目的是发现其中有意义的模式和规律。

——数据挖掘是一门技能,不是一种现成的产品。 2、 数据挖掘能做什么

6种方法:分类(classification)、估计(estimation)、预测(prediction)、组合或关联法则(affinity grouping or association rules)、聚类(clustering)、描述与可视化(description and visualization)

前三种方法属于直接的数据挖掘,目标是应用可得到的数据建立模型,用其他可得到的数据来描述我们感兴趣某一变量。

后三种方法属于间接的数据挖掘,没有单一的目标变量,目标是在所有变量中发现某些联系。

1) 分类:其特点是先对不同的类别加以定义,并由预先分类的样本构成训练集。任务

是建立一个模型并应用这一模型对未分类数据进行分类。分类处理的是离散的结果。 2) 估计处理的是连续的结果。

3) 组合法的任务是确认哪些事物会一起出现。

4) 聚类的任务是将相似的事物分成一类,差异较大的事物分在不同的类中。聚类与分

类的区别是聚类并不依赖于事先确定好的组别。

3、 技术层面的数据挖掘

1) 算法与技巧 2) 数据 3) 建模实践

二、数据挖掘方:互动循环系统 1、 数据挖掘的两种类型

一种是自上而下的方法,称之为有监督的数据挖掘方法,当明确知道要搜索的目标时,可以是用这种方法。

一种是自下而上的方法,称之为无监督的数据挖掘方法,实际就是让数据解释自己。此方法是在数据中寻找模式,然后把产生的结果留给使用者去判断其中哪些模式重要。 数据挖掘的结果通常是这两种方法的结合。 1) 有监督的数据挖掘

黑匣子模型:使用一个或多个输入值产生一个输出的模型。我们并不关心模型如何运作,那只是黑盒子,我们只关心可能的最优结果。

我们根据已知事例,分析其相关资料,将分析结果用在从未联络的潜在客户,这样的模型称之为预测模型。预测模型使用历史记录来计算某些相应结果中的得分。成功预测的要领之一是拥有足够支持结果的数据来训练模型。

2)无监督的数据挖掘

半透明模型:有时需要使用模型能够得到与数据相关的重要信息,我们也需要了解模型的运作细节,这就好比一组半透明的盒子。

2、 数据挖掘的互动循环过程

数据挖掘的互动过程是一种高层次的流程,由四个重要的业务过程所构成: 理解业务问题;

将数据转换成可执行的结果;

结果实施过程; 评价结果的实施。

3、 将数据转换成可操作的决策

数据挖掘的核心是将数据转换为可操作的结果。

建立模型的第一步是确认和获得合适的数据。首先要考虑得到的数据是否符合解决企业业务问题的需要;在建模的时候需要尽可能完整的数据。

------将数据转换成具有合适粒度的数据。粒度是指建模数据的级别大小。

------加入衍生变量是数据挖掘过程的第三步。衍生变量值是合并原始数据生成的结果。 ------准备建模数据集,将数据集分成三部分:训练数据集、测试数据集、评估数据集。 ------将结果生成决策。可以赋之以行动的结果有如下几种不同的表现方式:

新的认知;

用于特定商业活动的结果; 可被储存的结果; 周期性预测结果; 实时得分; 修复数据。

预测模型在使用(生成得分)之前必须得到训练(构建):

训练模型是使用历史数据和待预测信息已知的数据创建模型的过程。 较多的近期数据 + 预测模型  预测、可信度

用预测模型产生评分是这样一个过程,它将模型应用到未来的数据中,预测未来。 预测模型的成功应用依赖于三个假定: 1) 过去是将来的预言家。 2) 数据是可获得的。

3) 数据中应包括我们的预期目标。

三、 客户和他们的生命周期 1、 谁是企业的客户

客户大致分为两种类型:消费者(consumer)和企业客户(business customer)。 1) 消费者

经济营销单位是市场营销中对客户的描述。由于客户在经济活动中的多重身份,客户的答案也不统一,具体表现如下: 行为身份(action role),表示对某项互动活动的个体或实体; 所有权身份(ownership role),表示拥有某项经济活动所有权的个体或实体; 决策身份(decision making role),表示具有制定和影响购买决策和行为的个体或实体,这种身份用于家庭。 2) 企业客户

消费者的身份是购买最终产品和服务,而企业客户的身份是向你行销、出售、提供产品和服务。企业客户间的关系更加复杂。

市场行销中的间接关系,是客户的关系变得异常复杂。由于客户关系的越趋复杂,分析这些关系时必须考虑到企业中介的作用。

普通消费者和企业客户最大区别在于有没有账户管理团队(account management team)的存在。从合作的角度,数据挖掘必须能够支持账户管理系统。

3) 客户市场细分

指的是将客户划分为互不相交的不同的类别。

2、 客户的生命周期

1)客户的生命周期指的是一个客户和一个企业之间不同的关系阶段,它直接影响到客户对一个公司的长期价值。

一般认为有如下三种方法提升客户的价值:

对客户已有产品增添新功能,或者说提升产品的购买价值; 向客户出售更多、更容易升级的产品; 使客户能长期购买本公司的产品。

客户的背景资料是客户和公司商业交往中的详细档案。 2) 客户生命周期的不同阶段

3) 客户生命周期中的重要事件

4) 客户生命周期中不同时段所产生的资料

未来潜在客户的资料通常最少。

响应资料指的是客户对促销活动所做出的反应的资料。

3、 客户的生理生命周期

除了客户的消费生命周期外,我们还要考虑客户本身的生理生命周期。

这些重要事件包括以下几个方面:更换工作、初为人母、结婚娶嫁、离职退休、搬迁新居、重疾有染等。这些事件都为公司发展客户,改善客户关系提供了有利时机。 4、 选择最佳时机,锁定最佳客户

两种观点,来评价客户关系管理的好坏:一是将注意力放在客户身上,节支增收;二是将每一位客户的价值最大化。 1) 预算最优化 2) 促销活动最优化 3) 客户最优化

最好的下一个信息包括所能提供的任何类型,诸如: 对新客户提供不一样的促销; 选择适当的管道来传递信息;

针对将要离开的客户,推出留念客户的方案; 针对将要停止付费的客户,推出解决方案; 针对客户不同的需求,推出量身定做的服务; 所能提供的不同产品。

第二部分 数据挖掘的三大支柱

三大支柱:数据挖掘技术、数据和数据建模 四、 数据挖掘技术和算法

1、 不同的目标要求不同的技术

数据挖掘功能可以是目标性的,也可以是描述性的,其差异取决于数据挖掘实践的目标。1) 目标性数据挖掘首要任务是创建一个可以预测、指定标记以及估计数值的预测模型,从而可以自动实现决策过程。

2)描述性数据挖掘的主要任务是增加对数据深入的了解,然后了解数据所反映的广泛的现实世界。 2、三种数据挖掘技术

自动类别侦测(automatic cluster detection); 决策树(decision trees); 神经网络(neural networks)。 1) 自动类别侦测

区隔方法:把所有的记录认为是一个大类,然后这个类分成两个或更多较小的类,这些

较小的类自身也被拆分,直到最后每个记录只属于一个类为止。该过程的每一步都会记录下有关分群的度量值,直到最后能找到最佳的聚类集合。

凝聚方法:先把每个记录当作一个类,不断的组合新的类,直到最后所有的记录变成一

个类。

K-均值聚类法(k-means),当输入变量是数值型时,这种算法效果更好。 K-均值算法是把数据集拆分成预先给定数目的类,这个数目就是“K-均值”中的“K”。 第一步:选择K个数据点作为种子点(seed),多少可任意。每个种子点是只有一个元素的胚胎群。

第二步:把每个记录点归于离其质心最近的那个类。初始种子间用虚线连接,由种子产生的类的界限(两个初始种子连线的中垂线)用实现表示,可完成以初始种子为中心的归类。

第三步:计算新类的质心(取每个字段的平均),再按照新类的界限(每队质心的中垂线)把每个点归类,依次迭代直到类与类之间的界限不再改变。

自动类别侦测是一种无监督的方法,即便没有对于问题的先验知识也可以应用,另一方 面除了将数据映射到几何坐标体系,可以从一定程度上反映一些样本点彼此临近的程度 外,我们无法得知这样做的道理,因此聚类的结果实际很难应用。

自动聚类算法产生的聚类结果并不都保证有实际价值,一旦产生类别就由我们自己来解 释,三种最常用的是:

把类别作为目标变量建一个决策树,并用它产生一些规则解释如何归类新的样品; 使用可视化方法研究观察这些类别如何受输入变量变化的影响; 检查一类到另一类变量分布的差异,每一次一个变量。 2) 决策树

按功能分决策树有两种类型:

分类树,对样品进行标识并把它们正确归类。同时还可以提供分类正确的信度。 回归树,对数值型的目标变量进行估计。 不同决策树算法的不同主要体现在三个方面: ① 树的每一层允许的拆分点的数目。 ② 建树时拆分点的选择原则。 ③ 为了防止“过度拟合”,该怎样抑制树的成长。

决策树的工作原理:

决策树的每个分枝相当于单变量的校验,结果将整个空间分成两个或更多空间。

例子:设定仅有两个变量X和Y,每个变量取值在0~100之间。树的每个拆分点都是二分的,在每个拆分点处,根据对X或Y的校验,一个记录要么进入左枝要么进入右枝。

决策树的建立过程:

决策树是通过递推分割的方式建立起来的。递推分割是一种把数据拆分成不同小的部分的迭代过程。

① 确定初始拆分点

这个过程始于包含预分类样品的训练集。所谓预分类,就是在这些数据集中,目标变量标识了已知的类别。我们的目标就是建立一个能区分不同类别的树,也就是说根据其他变量或自变量的取值,这棵树能够对新样品的目标变量进行分类。

第一个步骤是选择哪一个字变量是最佳拆分变量。评估一个可能的拆分点的度量是差异的减少。

------度量差异性:基尼系数,目地是度量总体的差异程度。解释为从总体中有放回地随机取得两个样品属于不同类别的概率,一个种类被连续两次抽到的概率是P^2,差异系数就是1减去所有的P^2。当只有两个类别时差异系数就是2P(1-P)。

差异总的减少为根部的差异减去后代加权的差异,最佳拆分点就是差异性减少最大的那一个。

② 初始拆分点会形成两个节点,每一个节点会像根节点一样被再次拆分。若某一个节

点下的结果都是一样的,就没必要拆分下去了,这样的节点叫做叶节点。 ③ 树的修剪,修剪是为了改善决策树各位而把一些枝叶修剪的过程。

树长到一定深度时,模型已经是对训练集的过度拟合。 如何处理过度拟合?解决方法主要是修剪法和盆栽法: a) 盆栽法尽力树的成长以免它长得太深。每个节点都会使用各种检验决定更深

入的拆分是否有用。检验方法可以是规定每个节点下最小的记录数目,也可以对每一个可能的拆分用统计检验其显著性。 b) 修剪法可以允许初始决策树长的足够深,然后用一些规则剪掉不是一般性的枝节。

通常的方法是找到初始决策树的各种各样的越来越小的子树相关的分类错误率。 树以及它所有的子树的效果是由一系列的叫作检验集的已经分类数据集合来度量的,仅用一个检验集,算法是根据最小的基于检验集的误差率可以把树修剪回一棵子树。

选择决策树所产生的后果

决策树的每一次分隔都是根据单一变量所在的检验,因此决策树不可能发现有关变量之间互相关系的规则,这使得有必要增加一些可能会很重要的衍生变量。 什么时候选择决策树

当数据挖掘的任务是对记录的分类或者未知结果的预测时,决策树是一个好的选择。当目的是把每个记录归并到许多范围更大的目录的其中 时,可以选择决策树的方法。 3) 神经网络

神经网络有一个输入层和一个输出层,每个输入值本身就是一个单元或网络节点。 一般进入输入层的并不是输入变量的实际值,而是通过一个权重和输出单元相联系。在输出单元内部,各输入权重通过一个组合函数组合起来,然后向后传递到转移函数,其结果就是神经网络的输出。组合函数和转移函数一起构成了激活函数。

① 隐层:通常在输入层和输出层之间还会有一个或多个层,叫做隐层,其中的单元叫

隐单元。

② 激活函数:组合函数通常是输入变量的加权求和函数,常见的转移函数是S形或钟

的。钟形转移函数也叫做径向基函数。常见的S形转移函数是正切函数、双曲正切

函数和逻辑斯函数。

③ 神经网络的训练:训练一个神经网络就是把权重分配给每个单元的输入变量的过程,

所产生的神经网络对重要的函数要有最好的拟合近似。从更广的意义上看,建立神经网络模型的大多软件包使用这种最优化方法的变体,就是向后传播方法。 ④ 后向传播

训练一个后向传播神经网络有三个步骤:

得到一个训练实例。在网络中使用现有的权重计算实例的输出; 后向传播然后计算 ——取计算结果和期望(实际)结果的差; 该误差用来调整权重。 ⑤ 数据准备问题

神经网络模型要产生好的结果必须作大量的数据准备工作。

神经网络的输入量必须变换到特定的一个区域(通常是-1到1之间),需要详细考虑针对输入数据的附加变换和操作。

定类变量需要转变为数值型变量,而且不能有伪排序。关于定类变量的另一方法是为变量可能取到的每一个值产生一个二分的标签变量。

何时使用神经网络

如果在分类和预测中模型的结果比了解模型的原理更为重要,神经网络就是很好的选择。当有成百上千个特征量要输入时,神经网络的效果就不是很好,可能会导致长时间的训练且不会收敛于好的结果,这时需要把它和决策树结合起来使用。

五、无所不在的数据 1、数据结构

行:在数据挖掘中行是行为的集合,行的定义取决于数据挖掘结果如何使用。 列:列或段代表了在每条记录里的数据。 对数据挖掘十分重要的一些特例:

1) 只有一种值的列。只有一种值有时是数据的一个特性。 2) 几乎只含一种值的列。

3) 拇指规则是即使某一列被证实是很有信息量的,但如果它几乎是单一值,则意味着

没有用处。也就是说如果某一列95%~99%的值相同,这一列很可能没有。

4) 列的值各不相同。另一个极端是列的值在每一行上都不相同或几乎不同,这样的列

同样没有用处。因为每个记录上数值几乎不同使得无法产生预测值。

5) 忽略与目标同义的列。当某一列和目标列相关度很高时,可能意味这一列是目标列

的同列。

数据挖掘中列的作用,其三种基本种类角色是:输入列;目标列(只有当构造预测模型时才使用);忽略列。

简而言之,数据挖掘中的数据需要采用以下格式: 1) 所有数据应该在一个表格或数据库视图中。 2) 每一行对应于业务问题相关的一个案例。 3) 忽略具有单一值的列。

4) 忽略所有行的值都不同的列。

5) 对于预测模型,目标列是可识别的;删除所有同义列。

2、 数据来源:数据通常存储于关系数据库,也可以是平面、树型或其他复杂文件结构。

操作系统; 数据仓库;

数据市场和在线分析处理系统; 调查和产品登记数据; 外部数据源。

度量数据取值的不同方法

次序是最重要的度量性质。无自然顺序的数据列被称为定类数据。定类型数据列有一个含义明确的数值集合,这些数值通常没有自然顺序的类别标识,无序性是定类数据的重要特性之一。有序的数据列则呈现出几种不同的风格:

1) 定序型:有顺序但不允许算术运算。通常,对数值型变量的值域进行区间分割,就

会得到定序变量。区间划分能平衡数值分布上的不平均,这也是处理极值点的一种方法。

2) 定距型:有顺序并允许进行减法运算,但不能进行加法运算。日期、时间、温度是

最常见的例子。 3) 数值型:支持四则运算,可以将两个数值型数据相加,或进行其他类型的四则运算。 3、 衍生变量

衍生变量是原始数据中并不存在的通过计算合成而得的变量。

1)按照合适的间隔尺度对数据进行分类汇总后所积累而成的汇总值构成了衍生变量的一大类。

2)对多个列变量进行计算会得到一类重要的衍生变量。这种方法利用一行中已经存在的数据计算新的数值。

3)从某一列中提取信息。日期数据包含着关于行为的丰富信息。

六:建立有效的预测模型 1、 建立好的预测模型

预测模型的建立过程:

1) 模型是通过预分类数据中的一部分数据来建立的。用于建立模型的这部分数据被称

为训练集。

2) 利用另外一个子集——测试集来对模型进行修正。

3) 可以估计模型的效果,或者对模型的效果进行比较。这个过程需要用到第三个数据

集——评价集。它是在建模和测试修正过程中尚未用到的那部分数据的集合,也是模型集的一个部分。

4) 将模型应用于得分集。得分集没有进行预分类,也不是模型集的一部分。 2、 对模型集进行处理

1) 分割与掌握:训练集、测试集与评价集

要诀:对模型集按照60:30:10的百分比划分,结果较好。

2) 模型集规模对模型效果的影响:训练模型的数据量越大效果会越好。

但是模型集过大可能不是最好的选择。 3) 调整模型参数

4) 模型集密度对模型效果的影响

抽样:从原始数据集中抽取一定量的记录构成新数据集的过程。

过抽样:多抽取稀有结果,少抽取常见结果,以建立模型集的过程。其目的是调整模型集中常见结果和非常见结果的比例。

3、 使用多个模型

1) 多个模型的表决

每个模型都做出了自己的预测,然后将各项预测进行比较,当所有模型结果都一致时置信度通常会更高。

替代已有的模型:表决的简单问题。有多个可以取代老模型的模型,在第一阶段需要对所有模型进行表决,模型越老,表决的权重就越大。第二阶段在将这些模型同新近一点的模型进行比较的同时,还要在这些模型直接进行比较。最后老模型就可以“退休”了。 2) 试用多种技巧

对定性预测采取多数制原则,对定量预测采取平均值方法。

对模型结果进行组合,方法可以是将预测结果当作拥有一定可靠度的佐证。 例如:模型A——>“暗的”置信度为80% 模型B——>“亮的”置信度为60% 模型C——>“暗的”置信度为50%

“暗的”置信度为:模型A为80%,模型B为40%,模型C为50% “亮的”置信度为:模型A为20%,模型B为60%,模型C为50%

我们把置信度值组合起来当作证据,假设各个分离的模型是的,则“暗的”证据是80%×40%×50%=16%,“亮的”证据是20%×6%×50%=6%,证据的总是则为16%+6%=22%,“暗的”置信度就是它的证据占总证据的百分比即:16%/22%=72.7%,对应“亮的”置信度为27.2%。 3) 将输入分段

将输入分段进入模型有两个基本原因:第一是处理缺失数据,并不是所有的记录都可以获得相应的数据的;第二:要将商业信息融入建模过程。

将数据分段,一种方式是利用自动聚类算法,给每条记录都分配一个组别,然后将各个组看作不同的分段。不过这种方法所产生的结果并不是总令人满意,因为此时模型集很小。 4) 模型的分段

模型的分段与输入分段模型密切相关,二者最大的区别在于输入分段模型其分隔是预先知道的,而对模型分段,其数据的分段则由另外一个模型决定。其目的常常就是只就其中一个部分数据来建立模型。 5) 误差修正 6) 增强数据 4、 做试验!

1) 模型集

规模、密度

2) 不同类型的模型以及模型参数 3) 时间范围

七:实施控制:建立数据挖掘环境 1、 何谓数据挖掘环境

数据挖掘环境是组织的一个或几个部分,这些组织的核心竞争力就是数据挖掘。数据挖掘环境包括以下几个部分:

1) 有一支得到承认的专门开发数据挖掘技术的团队;

2) 一个或多个事业单位之间的交流渠道,所有工作都以企业的需要为中心; 3) 使数据挖掘发挥作用的一套工具,包括硬件和软件;

4) 能够接触到整个组织上下的数据,以及发布结果便于各个部门依照执行的能力。

2、 案例1:建造公司内部核心竞争力

本案例考察的是一个财产和意外伤害保险公司,它正在实施数据挖掘。

保险行业的数据挖掘:该行业拥有大量的数据以及大量的统计人员和精算人员。 1) 选择团队

选出组织中对数据挖掘负责的人员。团队里包括用户管理员、负责提供数据和硬件的信息技术部门、为初始项目提供业务经验的市场专家。此团队负责在公司里倡导数据挖掘和客户关系管理,核心目标是培养竞争力。 2) 找出商业需求

他们发现了几个可以利用数据挖掘为公司增加竞争力的领域,更近一步选定了可能成为示范项目的商业课题——分析某个州的汽车保险数据,建立预测模型,以估计保单的损失率。

选择分析单位:司机?汽车?保单?家庭?本例中选择的分析单位是保单,它包含了保单层次的全部信息——汽车数量、司机数量、汽车保险的新增车辆频率、退保频率。

研究区域选择新泽西州,费率是在州范围统一设定的。此时在州定费率框架下,公司的费率平均较高,则低风险个体就具有高盈利能力。按照保险业的说法,他们正在寻找州定费率没有效力的领域,并对这些领域进行开发。 3) 表明对信息的需求(Request for Information,REI)

拟出商业需求,就要通过REI找出供应商,并同他们取得联系。 4) 选择供应商

3、 案例2:创造新的商机

本案例讲述的是一个人寿保险公司。 1) 向网上发展

该保险公司认识到,有必要建立直接的销售单位来弥补代理网络的不足。代理商建立的客户关系在保持客户方面非常得力,但是保持个人关系的成本非常高昂。 此公司的内部目标是年底之前通过网络卖出20%的保单。 2) 环境

该公司设立了一个的部门来进行直接销售业务。在网络方面,主要业务来源之一是给定标价后对不同保险推销员的网站进行比较。通过点击这些网站就将有投保意向的客户反映到公司的网页上。

新的直接保险销售单位主要是一个营销小组。他的一个功能就是进行市场分析,并且在团队内部成立一个市场分析小组。 3) 潜在客户的数据仓库

销售寿险的时候关键是要决定哪些潜在客户最后会真正购买。

作为直接销售投资的一个组成部分,公司正在建立潜在客户数据仓库。数据来源常 常是公司外部的供应商。建立潜在客户数据仓库的一个非常重要的问题是如何选择

外部供应商、利用人口统计资料来扩大数据的数量并提高其质量。 4) 下一个步骤

进行促销活动。

4、 案例3:在数据仓库工作中培养数据挖掘技能

本案例讲述的是一家银行。该银行的目的是要在数据仓库工作基础上建立数据挖掘专家系统。

1) 特殊类型的数据仓库

该银行决定利用Tandem电脑公司的硬件和软件,来建立以客户为中心的数据仓库。

2) 数据挖掘的计划

随着数据被加载进入数据仓库,可以用于挖掘的数据就会越来越多。银行开始着手实施数据挖掘的示范项目: 判定商业目标; 对数据进行评价; 准备和转换数据; 探索和解释数据; 发送结果。

3) 信息技术部门内部的数据挖掘

5、 案例4:利用特斯拉快速建模环境法(RME)进行数据挖掘

1) 建立高级数据挖掘环境所需的条件

从技术角度讲,需要比先前更高水平的支持:

① 从多个源头获取数据,并将这些数据整合到一个数据挖掘表格的能力; ② 根据需要,对已建立的模型进行评估的能力;

③ 随着时间的变化,对几百个模型评分进行管理的能力; ④ 随着时间的变化,对几十或几百个模型进行管理的能力; ⑤ 将数据挖掘结果返回数据仓库及其他应用软件的能力。 2) 什么是RME?

RME注重建模前后的活动,以使数据挖掘分析人员有效的传送数据挖掘结果。其目的就是让数据挖掘分析人员为商业用户迅速地开发数据挖掘软件。 3) RME如何运作?

RME系统构架是根据SAS建立起来的。

××公司有自己的建立在客户数据仓库基础上的数据挖掘环境,它的数据仓库有以下几个主题区域: ① 家庭(Household):已经收到目录或者购买过目录的家庭的数据; ② 促销记录(Promotional History):关于哪些家庭接受了哪些目录或促销广告相关

的数据,还包括提出目录需求请求的家庭资料; ③ 交易(Transaction):每项购买和退货的详细记录; ④ 产品(Product):每种产品的相关资料; ⑤ 店铺/目录(Store/Catalog):关于每个店铺和目录的资料,包括大小、规模等方

面的信息。

如图:RME是一个三层的分布式应用软件。RME在控制图像化用户界面、产生SQL和SAS程序代码以及生成得分资料的时候,特别注重处理元数据。这种元数据是根据数据仓库的实际轮廓以及数据的商业含义而产生的。

4) RME如何协助数据准备

开发模型的过程中,需要接触和存取许多不同数据来源。 从数据仓库中抽取资料,有几类不同的操作过程: ① 合计(Aggregation):将一个家庭的多项记录加以合成,放到一个字段里头。 ② 扁平化(Flattering):将多个记录归并到一个单一的家庭记录上。 ③ 筛选(Filtering):是伴随着合计以及扁平化的操作来对记录进行筛选过滤。 5) RME如何支持抽样

两种主要的抽样形式: ① 随机抽样

② 分层抽样:从总体中抽选家庭,使得产生的模型集按照单个变量服从某种特殊

的分布。

如图:抽样过程分成4个部分。

6) RME如何协助建立模型

在建立模型过程中,用户如果发现自己需要更多的数据或者不同的模型集,此时只需要回到RME,重复建立模型的程序就可以达到目的。

最后一步则将数据转换与模型得分代码结合起来。这两者就可以代表一个完整的模型,如何再将模型登记到RME中。 7) RME如何协助模型评估和管理

一旦模型建立完毕,RME会再次参与进来,登记模型为模型集评分、安排评分操作的顺序等。

模型登记的过程是自动的。模型登记的信息会以元数据的格式存储在数据仓库中。 8) 顾客评分

整个评分过程如图所示:

① ② ③ ④

RME为模型生成了合适的抽选资料。注意,数据抽取不包括抽样,但已经过优化,只包括模型所需要的变量,而且将日期指标转换成了实际的时间范围。 将已登记过的得分代码增加到每个家庭的记录当中。实际做法是为每个家庭记录增加一个或几个新的字段。

用户可以具体指明处理这些得分的方式。

将得分装载返回数据仓库,在那里它们能用于其他应用软件,并满足下游营销部门的需要。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务