您好,欢迎来到小侦探旅游网。
搜索
您的当前位置:首页银行业务数据的深度分析和挖掘

银行业务数据的深度分析和挖掘

来源:小侦探旅游网
软件服务・实务 栏目编辑梁丽雯E-mail:liven一01@1 63 corn ■中国农业发展银行李小庆 随着银行海量业务数据的日积月累,如何从海量 数据中发现有用的信息,成为银行面临的一个紧迫的 课题。业务部门已不满足于仅对数据进行查询、检索 和制作报表等操作,因为查询检索不能提取数据中有 利于用户实现目标的带有结论性的有用信息。与此相 对应,海量业务数据中蕴藏的有用信息和丰富的知识 得不到充分的发掘和利用,从而造成信息资源的极大 浪费,由此产生大量的数据垃圾。而从人工智能的角度 看,数据挖掘和知识获取仍是知识处理系统研究中的 瓶颈,这是因为知识工程师要从领域专家处获取知识 是非常困难,它往往要通过漫长的个人到个人之间的交 互过程,具有很强的个性和随机陛,没有统一的方法可 借鉴。因此,人们开始考虑以海量业务数据作为新的知 识源,研究数据深度分析和挖掘方法,从中发现有价值 的知识。数据挖掘和知识发现就是采用人工智能技术 实现自动处理事务数据组织中大量的原始数据,发现 数据的内在联系,抽取具有必然性的、富有意义的模式 以及各种有用的信息与知识。作为有助于业务部门实现 其目标的方法,数据挖掘和知识发现为银行战略发展 或战术选择提供科学的决策支持。 一,面向分析和决策的业务数据组织方式 银行面向分析和决策的业务数据组织方式,是从 传统(源)数据库中获得原始数据,先按辅助决策主题 要求,形成当前的基本数据层,再按综合决策的要求, 形成综合数据层。随着时间的推移,由时间控制机制将 当前基本数据层转换为历史数据层。可见,银行面向分 析和决策业务数据的逻辑结构数据一般由3至4个数据 层组成,并且它们均由元数据组织而成。数据组织方式 可以分为虚拟存储、基于关系数据库(由关系型事实表 和维表)的存储和数据库(空间超立方体)存储3 种数据组织方式。 (一)虚拟存储方式 所谓虚拟存储方式,指面向分析和决策的业务数 据组织时没有专门的数据存储机构,数据仍然存储在 源数据库中。它只是根据用户的需求及所形成的多 维视图,临时在源数据库中找出所需的数据完成 数据分析。虚拟存储方式简单、耗费少、使用灵活,但 其致命弱点是它只适用于数据组织比较规范、数据具 有完备性及数据没有冗余的场合。同时,虚拟存储的数 据组织形式,还要求接近数据模型,只有这样虚拟 的语义层才容易定义。 (二)基于关系数据库(关系表)的存储方式 基于关系数据库(关系表)的存储方式是将面向 分析和决策的业务数据存储在关系型数据库的表结构 (关系型事实表和维表)中,并在元数据的管理下完成 面向分析和决策的功能。这种组织方式在建库时有两 个步骤用以完成数据的抽取。首先,要提供一种图形化 的点击操作界面,使分析员能对源数据库的内容进行选 择,并定义和建立数据模型;然后,再编制程序把 数据库中的数据抽取到面向分析和决策的数据存储模 式中。 (三)数据库存储方式 数据库的组织形式是以空间超立方体的形式 组织与存储数据,这是直接面向OLAP分析操作的数据 组织形式。目前OLAP产品比较多,其实现方法与途径 也不尽相同。但多数数据库的数据组织采用 数组结构文件进行数据存储,并有维索引及相应的元 数据管理文件与数据相对应。出于对面向分析和决策 的多视图结构以及专门应用支持的需求,数据的管理 与维护要比常规视图的情况更复杂。比如,面向分析和 决策的数据可能不是同一种数据模型表示:如底层为 关系,上层为对象。这种比常规视图更加复杂的数据存 在方式,会使所采用的转换算法也十分复杂。 2012年・第1期投稿邮箱hnfc@2tcn.net l 51 获取最快的回报,以后再不断扩充完善。“自底向上”方 法由于其投资规模较小,它具有“自顶向下”方法所没 有的一些特色。和面向全局的数据分析和决策相比较, 自底向上实现简单、投资少、技术需求低、风险小等。 正基于此,面向部门的数据分析和决策才得以同面向 全局的数据分析和决策一样得到迅速的发展,银行可 以根据自身规模和风险可控的要求选择建设方法。 三,银行业务数据深度分析和挖掘的模型设计 (一)概念模型设计 一般OLTP系统的E—R模型不适合用来为面向分析 和决策的业务数据组织的概念设计建立模型,这是因 为E—R模型强调实体和它们之间的关系。而在OLAP系 统中,通常要先确定分析的主题,然后再确定它们的维 及层次,但实际上可以从E—R模型的实体和关系中抽 取,因此应充分利用E—R模型所提供的信息来设计面 向分析和决策的业务数据组织的概念模型。如可以通 过将E—R模型变换成DFM模型来实现,亦即对每个事 实建立屙眭树,并对该树进行修剪和调整,定义维、度 量和层次等。概念模型设计阶段是在需求分析阶段输 出的事实和需求描述的基础上得到一个包含事实集的 维模式。 OLAP系统的概念模式大都采用E—R模型,因此从 E—R模型出发即能快速有效地构建面向分析和决策的 业务数据组织的概念模型。如果能研制一个软件工具 实现从E—R模型向面向分析和决策的业务数据组织的 概念模型自动或半自动的转换,将大大加快面向分析和 决策的业务数据组织的建立过程,并缩短开发周期和 降低开发费用。上述DFM模式是一个以事实为根的准 树型结构,树的每一分枝为层次。因而需确定维、层次 和评价。从业务查询和需求分析的结果推出需要哪些 维、层次和评价。 (二)逻辑模型设计 在逻辑模型设计阶段,将以概念模型设计阶段得 到的维模式、需求描述等信息,产生能尽量减少响应时 间的面向分析和决策的业务数据组织模式。面向分析 和决策的业务数据组织的逻辑模式既可以是关系的, 也可以是的。模式通过星型模式或雪花模式 映射到关系模式。星型模式包括一个事实表和每 维的一个维表,事实表用来存储事实的量度值及各个 维的编码,每个维的维表保存该维的描述信息,包括维 软件服务・实务 栏目编辑:梁丽雯E-mail:livenI_o1@163 corn 的层次和成员类别等。星型模式的事实表有较多 的行(记录),而维表有较少的行,一个大事实表和一 个或多个小的维表的建立连接会较快返回,因而查询 效率较高,但它不能清楚地描述属性的维层次。而维 表的结构是非规范化的,较适宜浏览各个维。雪花模 式通过规范化维表,较之星型模式能更清晰地表示层 次,这对维表的维护也很有好处,但这种模式的查询操 作需要较多的连接,因而其查询效率较低。 (三)物理模型设计 物理模型设计阶段要进行的工作是对数据的存储 结构、索引策略、数据的存放位置、存储分配和分割策 略等进行确定。为提高查询效率,需要进行水平分片和 垂直分片,即确定分割策略。在面向分析和决策的业务 数据组织中,通常其事实表中的属性数目较多(成千上 百),而用户的许多查询只涉及其中的部分属性。 因此,可在充分考察用户需求的前提下,对面向分 析和决策的业务数据组织进行垂直分片。另外,由于面 向分析和决策的业务数据组织中,表的数目也很巨大, 而OLAP的分析处理大都在某几个维屙f生上进行,且在 较粗的粒度级上进行。因此,对面向分析和决策的业务 数据组织进行水平分片可以大大减少面向分析和决策 的业务数据组织中表的记录数,进而提高查询效率。此 外,为提高查询效率,需选择各种专门用于面向分析和 决策的业务数据组织的索引技术,诸如位图索引、连接 索引、位图连接索引等。 (四)面向分析和决策的业务数据组织的生成设计 面向分析和决策的业务数据组织的生成设计包括 2O12年・第1期投稿邮箱hnfc@2lcn.net I 53 实务・软件服务 栏目编辑:粱丽雯E—mail:liven一01@163 corn 数据的抽取、清洗、初始装入、更新、净化规则的确定 和元数据管理等。数据的抽取需借助OLTP系统提供的 源数据库中的信息。数据的抽取实际上是OLTP系统和 面向分析和决策的业务数据组织间的接口,它完成从 OLTP环境生成完整的数据、数据基于时间的转换、数 据的聚合,以及对现有记录的扫描以便随后进行追加等 操作。清洗工作通常是在抽取过程中完成的。初始装入 实际上就是运行接口程序。确定净化规则是指按照抽 取和清洗规则把数据装入面向分析和决策的业务数据 组织,其中包括扫描、过滤、排序、聚合、建立索引和一 致性检查等。 四.银行业务数据深度分析和挖掘的途径 为满足银行现代管理的需求,在已有业务应用系 统的基础上建立以数据分析和建模定量分析为基础的 决策支持系统,已经成为数据综合利用的探索热点。 决策支持系统的知识获取途径是采用数据分析技 术和多类数据挖掘算法,挖掘和发现海量业务数据蕴 藏的知识,为决策人员提供决策所需的有用信息。目 前,联机分析处理(OLAP)、数据挖掘(DM)、知识发现 (KDD)的研究及其应用成为当前银行数据深度利用 建设关注点之・,下面分34"2y面分别进行阐述。 (一)联机分析处理 OLAP是银行决策支持系统建设中的重要组成部 分,也是信息管理领域中的重要概念。实际上,OLAP产 生于银行决策支持系统之前,它的需求极大地促进了银 行决策支持系统的发展和普及。联机分析处理又称为 分析,它是一种数据分析技术,能够完成基于某种 数据存储的数据分析功能。OLAP系统所需完成的主要 任务包括:给出数据的逻辑视图(视图于数据 54 I 2012年・第1期投稿邮箱hnfc@2lcn.net 存储的具体形式);允许用户对数据进行交互查询和数 据分析(交互性操作包括钻取、切片、切块等);检索并 显示表格、图表和图形中的数据;便于坐标轴位置 的转换;具有较快的查询响应速度,并要求具有高性能 服务器硬软件环境。 由于决策支持用户的需求是未知的、临时的、模糊 的,因此需要采用分析的方法,从不同角度对数据 进行切割、提取和观察,以支持查询与分析。 分析是选择、分析和提供历史数据的一种强有力 的、直观的方法。它从不同的角度,按不同的维对数据 进行合成,并完成随机查询以及复杂的数据统计和分 析,使用户从多个角度观察、访问和分析数据。它为用 户提供了更大的灵活性,提供了有力的切片(Slice)、切 块(Dice)、旋转(Turning)、向上挖掘(Drill up)、向下 挖掘(Drill down)和跨越挖掘(Drill across)等操作,使 之能从不同角度观察数据,查阅不同层次的信息,为正 确决策提供准确的依据。 (二)数据挖掘 数据挖掘系统利用的技术越多,得出的结果精确 性就越高,这是因为对于某一技术不适用的问题,其他 方法往往效果却很好,这取决于问题的类型以及数据 的类型和规模。无论采用哪种技术来完成任务,从功能 上可以将数据挖掘的分析方法划分为以—F4种。 1.关联分析(Associations) 关联分析的目的就是为了挖掘出隐藏在数据间的 相互关系,关联分析就是一级Item和一个记录集合,通 过分析记录集合,推导分析记录集合,推导出Item间的 相关性。在进行关联分析时,用户需要输人两个参数: 最小置信度(Confidence),以滤掉可能性过小的规则; 最小支持度(Support),以表示这种规则发生的概率, 即可信度。 2.序列模式分析(Sequential Patterns) 序列模式分析和关联分析法相似,其目的也是为了 挖掘出数据之间的联系,但序列模式分析的侧重点在 于分析数据间的前后因果关系。在进行序列模式分析 时,同样也需要由用户输入最小置信度和最小支持度。 3.分类分析(Classiifers) 分类分析首先为每一个记录赋予一个标记,即按 标记分类记录,然后检查这些标定的记录,描述出这些 记录的特征。这种描述可能是显式的,例如一组规则定 义;也可能是隐式的,例如一个数学模型或公式。利用 软件服务・实务 栏目编辑:粱丽雯E-mail:liven01@1 63 corn 它可以分类新记录,实际上它就是一种模式。目前,几 种典型的分类分析模型有线性回归模型、决策树模型、 基于规则模型和神经网络模型。 4.聚类分析(Clustering) 这些数据及知识由知识库管理系统统一管理。此外,知 识库系统建立了知识获取模块和学习模块,引入知识获 取和学习机制。知识获取及学习模块是通过各种可行 的方式获取已经掌握的各种知识,或通过一种学习机 制使其获得更多的新知识,这些知识包括:由原有的事 实、关系推导出新的事实、规则,构成新的知识;通过 与分类分析法不同,聚类分析法的输入集是一组 未标定的记录,也就是说此时输入的记录还没有被进 行任何分类。其目的是根据一定的规则合理地划分记 录集合,并用显式或隐式的方法描述不同的类别。而所 业务经验而得到新的知识(新的事实、规则);通过知 识采集收集各种新知识或常识性知识;通过神经网络 依据的这些规则是由聚类分析工具定义的。由于聚类分 析可以采用不同的算法,所以对于相同的记录集合可能 有不同的划分。可以看出,许多在分类分析法中适用的 算法同样适用于聚类分析法。 5.偏差分析(Deviation analysis) 偏差分析又称为比较分析,它试图找出一系列判别 式的规则,以区别用户设定的两个不同的类,用来发现 与正常情况不同的异常和变化,并进一步分析这种变 化是否正常,还是有意的诈骗行为。如果是异常行为, 则提示预防措施;如果是正常的变化,那么就需要更新 数据库记录。 (三)知识发现 知识获取指把已有的知识从数据中总结和抽取出 来,转换为某种表示形式,并总结已获取的实例归纳新 知识并存人知识库,同时调试和精练知识库,使知识库 中的知识具有相容性和达到语义要求。在知识库系统 中获取知识是通过知识获取子系统按主动获取或被动 获取方式实现的。知识获取的实质,可以看作机器学习 的问题。机器学习是解决知识自动获取的根本途径。机 器学习是研究学习的计算理论,建立学习的计算机模 型,使计算机具有学习能力的学科。机器学习主要采用 归纳、综合的方法,而不是演绎。这里所提出的知识获 取和知识学习是指把人工智能中的知识获取与机器学 习的理论与技术引入知识库及数据库系统,使之通过 抽取隐含在数据库中实体之间的逻辑蕴含关系和隐含 在用户应用程序中的数据操作之间的因果联系等,来 形成描述数据库中实体联系的语义网,并将这种语义 知识自动提供给推理机制。这样,不仅可压缩系统的推 理空间,而且也可增强推理的能力和效果,向用户提供 深层的语义信息。 通常,银行知识管理系统由知识库和知识库管理 系统构成,其基础是知识表示与基于知识的推理。知 识库用于存放已处理化了的关系、命题、规则等知识, 模型或其他学习机制从现有的系统中不断获取和产生 新知识。银行知识管理系统允许用户借助系统提供的 操作语言,实现对知识库的操作,以及利用知识库中的 知识来完成各种任务。知识库系统和事务性数据组织 一样,具有共享性、安全保密、完整性约束、存取效率 等问题。同时,它还是传统数据库系统的延伸,它不仅 能处理像事实这样的外延信息,而且能利用一定的推 理控制策略,处理诸如关系、规则等具有内涵的知识。 综上所述,面向业务的数据分析和决策系统中的 数据不是从各个业务处理系统简单地抽取出来,而是 经过系统加工、汇总和整理集成在一起的,从而保证 数据分析和决策系统中的信息是关于整个银行一致的 全局信息。它的数据组织是详细的、历史的、全行范围 的,实现了全行范围内数据的一致性和银行范围的信息 共享,以及可以进行全行范围内的决策支持。面向业务 的数据分析和决策系统建设是一个渐近的过程,需要 把各个异质的原始数据融合在一起,不断地建立和完 善相关主题,用以支持结构式的即席查询、分析报告和 决策支持,可使决策人员对一段时间的历史数据进行分 析,以研究银行的过去、现状和未来发展趋势。因此, 开展数据分析决策系统建设,对银行“十二五”信息战 略蓝图实施具有重要意义。衄 2012年・第1期投稿邮箱hnfc@2lcn.net I 55 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务