您好,欢迎来到小侦探旅游网。
搜索
您的当前位置:首页一种基于语义的Web挖掘方法研究

一种基于语义的Web挖掘方法研究

来源:小侦探旅游网
第13卷第l期 软件导刊 Vl01.13NO.1 2Ol4年1月 Software Guide Jan.2Ol4 一种基于语义的Web挖掘方法研究 李 伟,赵庆展,邓红涛 (石河子大学信息科学与技术学院,新疆石河子832003) 摘 要:在已有的基于Dom—Tree的网页信息提取算法基础上,通过对Html标签进行分类,逐个分析各Html标签所 包含的结构信息,设计了一种自底向上的网页分块方法,并在此基础上,实现了文本相似度比较的网页主题内容信息 块识别算法,提高了主题内容信息块的识别精确度。 关键词:语义Web;Web挖掘;网页分块 中图分类号:TP3II.5 文献标识码:A 文章编号:1672—7800(2014)001—0054—02 表1 HTML标签分类 0 引言 标签 定义 ”HEAD”, ”SCRIPT”. ” 网页块的根标签,在算法 面对互联网海量的信息,政府机关、企事业单位和研 根标签STYI E”,”oBJECT”,”FIEI D— 过程中一旦遇到这种标 S SET”.“FRAMESET”.”IF— 签,就可以直接将其加入 究机构都迫切希望获取与自身工作相关的有价值信息,如 RAME” 网页块池 何方便快捷地获取这些信息就变得至关重要了。本文探 ”D1V”,”TD”,”TAB1 E”,” 讨了一种网页分块方法,能识别出网页中的主题内容信息 标签FTORM '’" FIELDSET"代表一个网页块,只不过 ,块,从而提取出有价值的主题内容。这种方法可以去除网 ER,N。FRAMEs”lcEN 有时其内部内容过少,需 — N0SCRIPT”,”PRE”, BODY”, 要跟其他节点合并成一个 页中的噪音,极大地方便后续数据挖掘与Web分析。 ”HTMI ” 网页块 ”P”,”UI ”,”OL”,”DI ”.” 1 研究现状 排版标 DIR”,”I 】”,“DT .“BI OCK— 签I QU()TE”,”ADDRESS”,”BR”, 表达网页的布局效果,改 ”HR”,”C0I ”,”C0I GR0UP”, 变文字布局 语义信息主要包括网页中包含的HTM1 标签信息、 ”IMG”,”MENU”.”SEI ECT” HTMI DOM树的结构信息、文字内容信息、超链接信息 ”A”。”ABBR”,”ACR()NYM”, 等,现有网页分块算法是在网页分块的过程中完成内容提 ”AREA”。”B”,”BASE”.” 取的 。Site~I evel算法实现了分析一个网站或者网页集 BASEF0NT”,”BD()”,BIG”,” BUTTON”, ”CAPT10N”, ” 内部的所有网页,从中提取导航栏、广告等噪音信息。采 CITE”,”C0DE”,”DD”,” 用正则表达式来改进Site—Level算法则增加了算法的召 DEI ”, ”DFN”, ”EM”, ” FONT”,”H1”,”H2”,”H3”,” 回率 ]。Page—I evel算法能够适应各种不同网页结构的 效果标 H4”,”H5”,”H6”,”I”,”INS”, 表达网页样式标签,改变 内容抽取,算法通过提取一些网页节点来完成分块工 签D ”KBD”,”I ABI E”,”SMAI I ”, 效果 作 “ ,以上工作需要给出标准的网页分块 ],其对不标准 ”STRIKE”。”STR()NG”。” SUB”,”SUP”,”Q”,”S”,” 的分块效果不理想。 SAMP”,”SPAN”,”THEAD”, ”TFoOT”,”TEXTAREA”.” U”,”TT“,”VAR”,”():SMAR 2语义挖掘算法 TTAGTYPE” ”FRAME”。”INPUT”,”ISIN— 2.1网页分块方法 DEX”,”I EGEND”。”I INK”,” 在借鉴上述研究基础上,本文分析了W3C制定的 其它A MAP”,”META”,”OPT10N”, ”0PTGR0UP”,”PARAM”,” 表现为属性标签 HTMI 4.Ol格式规范,将所有规范的Html标签进行分 TD”,”TH”,”TR”。”TB()DY”, 类,分类标签如表1所示。 ”TITI E” 基金项目:国家科技支撑计划项目(2012BAH27B03);石河子大学自然科学与技术创新联合资助一般项目(zRKXYB—I—H23) 作者简介:李伟(1980~)男,硕士,石河子大学信息科学与技术学院讲师,研究方向为Web开发技术、计算机网络。 第1期 李伟,赵庆展,邓红涛:一种基于语义的Web挖掘方法研究 ・55・ 在明确了各html标签的类别之后,利用DomTree中 各标签节点的类别信息和内部文字长度,以及其子标签节 点的类别信息,对DomTree自底向上遍历,在遍历的过程 中不断判断出新的网页块,并加入网页块池中,当遍历到 最上部的html根节点时,算法结束,网页分块完毕。分块 方法的核心伪码如下: INPUT: 某单个网页构建的DomTree,定制标签节点列表 BEGIN ①用DomTree的叶子节点,也就是文字节点建立一个当前 节点队列,开始自底向上遍历;②取当前节点队列的第一个节 点;③如果遇到S型节点,则立即将此节点加入网页块池;④如 果遇到C型节点,则立即将此节点加入网页块池;⑤如果遇到B 型节点,则判断该节点内部的文字长度是否已超过阂值,或者该 节点内部的I 型节点比例是否超过阈值,如果满足上述两个条 件之一,则将此节点加入网页块池;否则将其内部文字长度信息 和自身信息向父节点传递,然后将父节点加入当前节点队列,回 到②;⑥如果遇到L型节点,则将其内部文字长度信息和其自身 信息向父节点传递,然后将父节点加入当前节点队列,回到②; ⑦如果遇到D型或A型节点,则将其内部文字长度信息向父节 点传递,然后将父节点加入当前节点队列,回到②;⑧当前节点 队列为空时,遍历结束,算法终止。 END 2.2挖掘算法 采用基于规则和基于Bayes的语义分析相交的方法 判断每个网页块的类型,然后对它们求交集,只有两个方 法共同认定的主题内容块才能最终被认定。算法的伪码 阐述如下: 爬进 虫秘 2.2.1 基于文本相似度的方法 (1)首先,把所有网页块中,文本长度最大的那个网页 块判定为主题内容块。 (2)用其余网页块逐个与最大的网页块比较文本相似 度。文本相似度的计算如下:①将两个网页块分别切词, 去除停用词后,存储成token流;②对两个token流分别排 序;③对排序后的两个token流计算token的重复数;④ 用token的重复数除以较小的token流中的t墓 oken个数, 得到两个网页块的文本相似度。 (3)若文本相似度大于一个阈值,则该网页块也判定 为主题内容块。 2.2.2 基于Bayes的方法 利用Bayes概率的计算公式,计算出每个网页块是不 是主题内容块的后验概率。若该后验概率大于0.5,则判 定该网页块为主题内容块,否则反之。 2.2.3 求交 两个方法共同判定的主题内容块即为最后认定的主 题内容块。 3 系统设计 语义挖掘的目的就是把对方网站上网页中的某块文 字或者图片等资源下载到自己的数据库或其它的存储形 式,这个过程需要的工作包括:下载网页配置、解析网页配 置、修正结果配置、数据输出配置。配置完毕后,把配置形 成任务(任务以XMI 格式描述),发布到采集服务器群 组,采集爬虫按照任务的描述开始工作,最终把采集到的 结果存储到结果存储服务器。然后用户的信息处理系统 就可以到结果存储服务器上取到数据,作为自己的数据 源。系统设计流程如图1所示。 采集任务定制(B/S模式) (采集服务器1…n)采集服务器管理进程 采集任务发布 叵 亘噩圊 J网页下载线程1 j襄 堕堕塑 堡襄 堑堕 J网页下载线程 l网页下载线程 数据抽取进程1} {数据抽取进程2 J {数据抽取进程n 镖集结果数据/ 业务数据处理进程I J文本方式I (数据库方式 图1系统设计流程 4 结语 本文提出了一套基于语义的网页分块主题内容信息 提取算法,该算法详细剖析了所有符合W3C标准的Html 标签的功能特性,将它们分为类,同时将原先树型架构的 网页语义块层次结构转换成为平行架构,各个语义块相互 独立开来,在此基础上研究主题内容信息提取,给出了提 取算法伪码,两个算法分别计算主题内容信息块,然后求 交,最后得到的信息块既能反映其文本的重要性,又能反 映其内部结构的重要性,防止了单个算法可能导致的偏 差,提高了网页主题内容信息提取的精度和召回率。 参考文献: [1]RUPESH R MEHTA,AMIT MADAAN.web page sectioning n— sing regex based template[M].In Proceedings of World Wide web— conference,2008. [2] sANDIPDEBNATH,PRAsENJIT MITRA,NIRMAI PAI ,et a1. Automatic identification of informative sections of web—pages[M]. IEEE Transactions on Knowledge and Data Engineering,2005. [3]DEEPAYAN cHAKRABARTI,RAVI KUMAR,KUNAI PUNERA. Page—level template detection via isotonic smoothing[M].In Pro~ ceedings of World Wide Web conference。2007. [4]陈晓云,陈伟,王雷,等.基于分类规则树的频繁模式文本分类[J]. 软件学报,2006,17(5):1017-1026. [5] 范众,郑诚,王清毅,等.用naiveBayes方法协调分类Web网页[J3. 软件学报,2001,12(9). [6] 杜兴勇,刘延平,王忠文.Dijkstra算法程序的优化与实现[J].通化 师范学院学报,2008,29(12):19. (责任编辑:杜能钢) 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- xiaozhentang.com 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务