岩石流变力学试验数据挖掘研究
肖庆华徐卫亚
(河海大学岩土工程研究所
巫德斌
南京210098)
摘要介绍MSAnalysisServices的数据挖掘过程,分析决策树算法的基本原理。对泥板岩岩石力学的一组流变试验数据进行数据挖掘分析,所得结论反应出实验过程中影响岩石应变的重要因素以及它们影响力度的差异。关键词数据挖掘MSAnalysisServices决策树岩石力学蠕变试验中图分类号:TU458文献标识码:A
ADATAMININGCASESTUDYFORTHECREEPTESTDATAOFARGILLITE
XIAOQinghuaXUWeiyaWUDebin
(HohaiUniversity,Nanjing210098)
AbstractThispaperintroducestheprocessofdataminingusingtheMSAnalysisServiceandtheessentialprincipleofthealgorithmoftheDecision-Tree.Thedataminingmethodisusedtoanalyzeasetofthecreeptestdataofargillite.Asaresultofdatamining,severalkeyfactorsarerevealed.Theirimpactsonthedeformationduringthetestarethenassessed.
KeywordsDatamining,MSanalysisservices,Decision-tree,Rockmechanics,Creeptest
对地下硐室围岩的稳定性进行合理的判别[6];利用
1引言
知识发现(KnowledgeDiscoveryinDatabase,KDD)是近年来随着人工智能、数据库技术和统计学的发展而出现的一门新兴的技术[1]。知识发现技术的核心是数据挖掘(DataMining,DM),两者在概念上没有严格区别。数据挖掘的概念可描述为:从数据库中获取正确、新颖、有潜在应用价值和最终可理解的模式的高级处理过程[3]。
KDD、DM目前技术已在很多行业领域取得成功应用。在岩土工程方面如利用数据挖掘的关联规则方法从硐室围岩稳定性的实例数据中挖掘出知识,
数据挖掘的方法从岩爆实例数据中挖掘出知识,并在此基础上建立了岩爆风险估计的智能系统
[7]
等。
岩石流变力学特性是重大岩石工程长期稳定性和耐久性研究的核心问题。岩石流变特性的影响因素有很多:岩石本身的物理性质、应力状况,受载特性,导致物理环境(地下水、地温)等[2]。本文运用MSAnalysisService数据挖掘技术,采用决策树算法,研究了作者所进行的龙滩水电工程泥板岩岩石流变力学实验结果,通过对大量蠕变实验数据的挖掘分析和处理,得到了一些有意义的结论,以更深入地了解岩石蠕变的影响因素及其程度。
收稿日期:2003-05-15;收到修改稿日期:2004-01-08.
基金项目:国家自然科学基金(50128908)和国家重点基础研究发展规划(973)项目(2002CB412707)资助
第一作者简介:肖庆华(1979-),男,在读硕士生,主要从事岩石力学与工程方面的研究.Email:wyxu@hhu.edu.cn216JournalofEngineeringGeology工程地质学报200412(2)
反样本,那么子集Ei所需的信息为I(pi+ni),以属
2MSAnalysisServices数据挖掘技术
SQLServer2000为一大型关系数据库管理系
统。MSSQLServer2000的AnalysisServices组件是用于联机分析处理(OLAP)和数据挖掘的中层服务器,该组件集成了目前较成熟的数据挖掘技术,同时具有很强的扩展功能和联机分析功能。该系统提供友好的用户界面向导、对话框和编辑器,有助于使用者快速有效地执行数据挖掘管理任务。
MSAnalysisService数据挖掘的主要过程可如下描述:先建立数据挖掘模型,再通过选定的数据挖掘算法对相应数据进行分析(模型培训过程),最后以直观的形式表达出分析结果,即经过培训的数据挖掘模型某些属性间的相互作用或规律等。2.1决策树算法原理
MSAnalysisServices提供的决策树算法是基于分类概念的。分类是数据挖掘的一种非常重要的方法。实现分类任务的方法有许多,除决策树方法外,还有神经网络方法、统计学方法、粗糙集方法和贝叶斯分类等等[1]。
MS决策树分类器生成的基本原理可用ID3算法说明。ID3算法是最基础的决策树算法,目前广泛应用是基于它的改进算法。该算法采用分治策略,在树的各个节点上利用特征属性的信息增益(informationgain)大小作为分枝属性选择的启发式函数,选择信息增益最大的特征作为分枝的属性。
设E=D1D2 Dn是n维有穷向量,其中Dj是有穷离散符号集,E中的元素e= (1)在向量空间E上,一棵决策树对任意样本的分类概率同E中正样本和反样本的概率一致; (2)一棵决策树能对一样本作出正确判别所需的期望信息的比特数(信息熵,entropy)为:I(p,n)=-ppnnlg2-lg2 p+np+np+np+n (1) 如果以属性A作为决策树的根节点,A具有n个值{u1,u2, ,un},它将样本集E分成v个子集{E1,E2, ,En}。假设Ei中包含pi个正样本和ni个[4] 性A为根节点所需要的期望信息为: E(A)= i=1 ∀ v pi+ni I(pi+ni)p+n (2) 因此,以属性A为根节点的分类属性的信息增益为: Gain(A)=I(p,n)-E(A) (3) ID3算法选择使Gain(A)最大的属性作为该节点的分枝属性,对于决策树的每个节点使用这条原则,直到决策树建立完毕(每个节点中的样本都属于同一类或者所有的分类属性都用完)。2.2数据挖掘模型 数据挖掘模型是数据挖掘的中央对象。数据挖掘模型是一个虚拟结构,它表示关系或多维数据的分组和预测分析,其结构在许多方面与数据库表的结构相似。但是,数据库表代表的是记录的集合;数据挖掘模型在结构上表示事例的集合。事例由相关记录的若干属性组成。 用一个记录岩石单轴压缩实验结果的数据库例子来说明记录、事例和事例集的概念和它们之间的相互关系。假设该数据库包含图1所示的3个数据表:试件参数数据表、加载情况数据表和应变情况数据表。 图1 Fig.1 记录、事例和事例集的例子 Examplesofrecords,casesandcasecollections 事例集的所有属性,例中试件参数的属性:试件尺寸、含水率、试件形状参数等,还有加载情况的属性:荷载速率、温度、湿度等,都可能会用来对试件的实验结果进行进一步的分析和预测。数据挖掘过程中最重要的任务之一就是确定这些属性在分类和预测中的作用。 若要确定数据挖掘模型中各个特性的相对重要性,该模型需经历称为挖掘模型培训的过程。在培肖庆华等:岩石流变力学试验数据挖掘研究217 训过程中,将向模型提供数据以便进行分析。然后,模型所用的数据挖掘算法以各种方式检查这些数据并进行测试,以便在数据的分类和预测方面得到结论。 3.3数据挖掘模型建立 经过分析,选择好数据挖掘算法后即可建立数据挖掘模型,这是数据挖掘工作的关键步骤。MSAnalysisServices数据挖掘模型的建立过程有建模向导辅助,可按设定的步骤进行。模型建立过程中主要考虑以下几点: 表1泥板岩流变力学实验初始试验数据Table1Originalcreeptestdataofargillite 荷载/加载/kg4444 第一次加载kg 时间t/h4.1810:30 时段t/d0 测点1测点2应变 应变 10-610-6 0237495 0-200 温度/湿度/(#)13131313 (%)88888888 3岩石流变实验数据挖掘分析 3.1 泥板岩流变力学实验 广西红水河龙滩水电站是一座以发电为主,兼有防洪、通航等综合利用效益的巨型工程。拟建218m高的碾压混凝土重力坝,地下洞室与进水口高边坡地层主要以砂岩为主,砂岩、泥板岩互层的中三叠统版纳组岩层(T2b)构成,由于18层泥板岩相对较软,恰好又处于-300m水平,它的变形(边坡开挖和大坝运营期流变)直接威胁到大坝的安全。开展第18层泥板岩流变力学特性及粘弹粘塑本构模型的研究具有重要意义。实验选取的3个试件为位于龙滩水电站坝址区三叠系中统版纳组地层第18层 18(T2b) 4.1819:150.3645834.1913:151.1020834.1918:301.333333 表2泥板岩流变力学实验预处理后的试验数据Table2Pretreatedcreeptestdataofargillite 试件加载本次加承载总温度/编号次序载/N3#23#2 11 98.0098.00 量/N98.0098.00 (#)20.0020.00 湿度/(%)72.0068.00 持续时间/h0.0017.50 应变量/(10-6)0.0063.00 的泥板岩钻孔岩芯,处于进水口高边坡坡脚, 坝基(肩)应力较大部位,其间劈理发育,为坝址区各类岩石中强度相对较低的岩石。 选取龙滩水电站第18层的泥板岩岩芯53320mm试件做成简支梁,在梁上取10个测点贴上应变片,在梁的中央加集中加载,一段时间以后再加荷载,测定10个测点的应变片在各级长期荷载作用下随时间的应变量。根据所测数据来反演泥板岩流变本构模型。在确定模型及参数之前,先对实验数据进行较为深入的分析是十分必要的。3.2 数据预处理 数据预处理的主要目的是将原始数据整理成标准的关系数据表形式:数表的每列表示某一属性,每行表示一个完整记录,即保证数据的完整性与一致性。对于大型数据而言,此项工作将相当繁琐。 根据泥板岩的单轴流变试验的结果数据(表1),经过数据的预处理,得到如表2所示的数据表。数据表以记录的形式给出,每个记录(每行)包括试件编号、加载次序、本次加载量、已承载总量、应变量以及实验时的温度和湿度共7个属性值。数据挖掘模型就是基于这些属性的某种组合。数据挖掘的目的就是通过培训这些记录(共2234条),分析重要属性之间的关联规律。(1)确立目标属性(target)。本文将应变量属性作为分析目标,在决策树中它被放在根节点的位置 上。 (2)选择输入属性(input)。分析记录中所有可能与目标属性相关的其他属性,确定哪些属性是要作为影响因素而加入模型。考虑过多的属性会使挖掘的结果相当复杂、规律性不明显,但有遗漏就可能漏掉某些规律。本例将所有相关属性都作为输入属性。 (3)建立模型。数据挖掘模型的建立可基于关系数表和多维数据集。当所考虑的目标属性涉及的数表不多,数据挖掘模型的结构比较清晰时,可直接基于关系数据库中的数表建立数据挖掘模型。如情况相反时,宜先建立多维数据集进行多维数据分析(OLAP),常用的构造类型有星形和雪花形。对于更复杂的数据,则需要先建立数据仓库。本算例的数据记录只有一个数表、结构非常简单,因此是直接基于关系数表建立的挖掘模型。3.4 几点结论 数据挖掘结果可由数据挖掘模型浏览器和相关218JournalofEngineeringGeology工程地质学报200412(2) 性网络浏览器直接查看,决策树模型浏览器从单个特性的角度查看关系和分布信息,而相关性网络浏览器则从所有特性的角度查看数据挖掘模型,从而为查看整个数据挖掘模型提供了更广阔的视角。 3.4.1决策树模型浏览器 决策树模型浏览器(图2)以相互连成网络的盒子的形式显示挖掘模型中所使用的数据挖掘模型节 点(包括节点的关系以及分配给这些节点的规则或特性)。每个盒子均代表单个决策树中或单个群集中的一个节点。节点带有颜色标记,代表特性的数据密度。节点按照特性因子的级别顺序,从左向右表示。所表示的拆分越是处于树的下方,在数据挖掘模型中造成携带的因子的影响就越小[4]。 图2Fig.2 数据挖掘浏览器 Dataminingmodelbrowser 由图2决策树中可以看出,影响应变量数值的最重要的因素:承载总量(由决策树的第一层定义)、持续时间(由决策树的第二层定义)和湿度(由决策树的第三层定义)。从图2中还可以很明了的发现:试验所得的应变量数据,大部分是在承载总量超过557.62N、持续时间超过3527.25h和湿度小于76%的条件下产生。 在∃预测树%复选框中,可以选择其它属性作为决策树的根节点。在图2中的决策树是以应变量作为根节点的,从而分析影响应变量的某些因素。右侧的三个图框∃内容选择区%、∃特性%和∃节点路径% 是辅助工具,帮助查看结构复杂的决策树及决策树中每个节点的有关信息。 模型浏览器中节点的取值区间由数据挖掘算法决定。决策树算法使用相应的系统参数更改算法的行为,来调整决策树的分支、节点数量等增长情况[4]。 3.4.2相关性网络浏览器 相关性网络浏览器如图3所示。相关性网络图实质上与决策树浏览图是一致的,它们是决策树算法计算结果的两种不同表达方式[4]。它将数据挖掘模型中的所有特性作为节点显示,其中的箭头表肖庆华等:岩石流变力学试验数据挖掘研究219 图3Fig.3 相关性网络浏览器Relationshipnetworkbrowser 明节点间的预测链接。由节点∃承载总量%链接到节点∃应变量10-6%的箭头表示:承载总量特性可以预测应变量特性。双向箭头表示特性可以相互预测。窗口左侧的滑块查看预测链接的强度。滑块位于最上端时,则显示所有预测链接,无论它们对有关节点的影响有多小。当滑块调至最下端,则仅显示最强的预测链接。图3列出的一组相关性网络图是按链接强弱的程度排列的。 从图3可以得出结论:温度与加载次序对岩石应变没有大的影响。随着链接强度的提高,如图3220JournalofEngineeringGeology工程地质学报200412(2) 的(b)、(c)、(d)和(e)所示,分别显示出本次加载、湿度、持续时间和承载总量对应变量的影响力度。根据数据挖掘所得的这些信息来看,本次加载量、湿度、持续时间和承载总量可对应变量进行预测,而且 其影响力度的强弱有着明显不同。图3(f)显示了各属性间的最强链接:加载次序决定持续时间。这与实际情况是相符的,最终的加载时间正是前面各次加载时间的总和。 岩石的流变是一个十分复杂的物理力学过程,因而其真实的本构模型极复杂。影响岩石变形的因素是很多的,在数值计算的过程中确立计算模型不可能把所有因素都考虑进去。通过对实验数据的分析,把握实验过程中影响岩石应变的重要因素以及它们影响力度的差异,对各项更深入的研究工作是很必要的。 网络图的结果显示,泥板岩流变实验中最主要的控制因素是分级加载总量的大小,即应力的大小,各级加载下的变形具有明显的时间相关性,岩石流变特性明显,同时岩石的实验环境中的湿度也具有明显的影响,与工程岩体的实际相符至少在岩体的赋存环境对岩石力学特性的影响方面考虑是不够全面的。通过本文对室内实验数据的分析表明,该岩石的变形对湿度条件反应是相当敏感的(图3c、d所示)。 能够胜任对极其复杂、庞大的数据进行分析的。决策树算法是基于分类的,它不能最终得到某种具体的数值模型,但对于工程上的某些结论影响因素太多时,对原始数据采用该数据挖掘方法进行相关性 分析,能够找出其中相对重要的影响因素,这也是很直接、可靠的。 参考文献 [1]韩家炜,坎伯(Kamber,M.).数据挖掘:概念与技术[M].北京: 机械工业出版社,2001. JiaweiHan,MichelineKamber.DataMining:ConceptsandTechniques.Beijing:ChinaMachinePress,2001. [2]蔡美峰等.岩石力学与工程[M].北京:科学出版社,2002,68~ 74. CaiMeifeng,etal.RockMechanicsandEngineering.Beijing:SciencePress,2002,68~74. [3]钟晓等.数据挖掘综述[J].模式识别与人工智能,2001,14(1): 48~54. Zhongxiao,etal.DataMining:ASurvey.PatternRecognitionandArtificialIntelligence,2001,14(1):48~54. [4]MicrosoftCorporation.MicrosoftSQLServerTM2000AnalysisSer vices.MicrosoftPress.2000,107~190. [5]田金兰,赵庆玉.并行决策树算法的研究.计算机工程与应用 [J].2001,(20):112~114. TianJinlan,ZhaoQingyu.StudyinParallelAlgorithmforDecisionTreeinDataMining.ComputeEngineeringandApplication,2001,(20):112~114. [6]冯夏庭,马平波.基于数据挖掘的地下硐室围岩稳定性判别 [J].岩石力学与工程学报,2001,20(3):306~309. FengXiating,MaPingbo.IdentifyingStabilityofUndergroundOpeningsBasedonDataMining.ChineseJournalofRockMechanicsandEngineering,2001,20(3):306~309. [7]马平波等.基于数据挖掘的深部采场岩爆知识的自动获取[J]. 东北大学学报,2000,21(6):631~633. MaPingbo,etal.Self-ExtractionorRockburstKnowledgeofMiningatGreatDepthUsingDataMining.JournalofNortheasternUniversity(NaturalScience),2000,21(6):631~633. 4结束语 本文介绍了的一个数据挖掘工具MSAnalysis Service,以及它在岩土工程分析中的应用。分析了 决策树算法的基本原理,并用该算法对龙滩水电站一组泥板岩岩石流变试验数据结果进行了数据挖掘分析,对影响该岩石应变的实验过程中的一些物理量进行较为深入的分析。 文中所分析的实验数据结构本身是比较简单的,因而所得的结论也比较明了,但数据挖掘方法是 因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务