您好,欢迎来到小侦探旅游网。
搜索
您的当前位置:首页基于微博的网络热点发现模型及平台研究

基于微博的网络热点发现模型及平台研究

来源:小侦探旅游网
华中科技大学硕士学位论文

基于微博的网络热点发现模型及平台研究

姓名:张静申请学位级别:硕士专业:管理科学与工程指导教师:蔡淑琴2010-12-28

华中科技大学硕士学位论文

摘 要

凭借创新式的信息生产机制和网络传播机制,微博成为网络热点重要的发源地和传播途径。“光速微博碎片”背后隐藏的实时网络热点,是微博平台独有的优势。如何从海量的“光速碎片”中发现网络热点,是网络信息亟待解决的需求。

本文从网络热点发现的应用及国内外相关研究出发,概述了基于微博的网络热点发现的意义:从海量的“光速微博碎片”中挖掘实时网络热点,减少用户在微博平台的“信息迷失”。提出了基于微博的网络热点发现的中心化研究思路,包括微博及其特点分析、网络热点及其特点分析、微博网络热点发现机制及中心化加工方法的应用。设计并分析了基于微博的网络热点发现的生产加工模型,通过建立微博网络热点相似度和测度方法以及基于传播路径和用户行为的中心化方法,实现了从原材料→零件→热点语料簇的热点发现过程。根据微博网络热点发现的生产加工模型,设计了基于微博的网络热点发现平台,包括语料中心、生产加工图式库以及基于图式匹配的加工过程。通过运用简单丰富的微博元数据,不仅降低了技术实现的门槛,也完善了仅仅基于聚类分析的热点发现的不足,同时还实现了基于定制分类要求的热点发现。最后,根据生产加工模型和平台,设计了实验,并对实验结果进行分析,验证了理论研究成果。

关键词:微博;网络热点发现;中心化;元数据模型

I

华中科技大学硕士学位论文

Abstract

With the innovative production and dissemination mechanisms, micro-blog has played an important role of the birth and transmission of hotspot. The real-time hotspots hidden in the “light-speeded micro-blog fragments” have created the micro-blogging platform a unique advantage. How to find hotspots from the vast amounts of \"light pieces\" has become an urgent demand of internet information.

It was introduced in this thesis that mining real-time hotspot from the mass of the “light pieces” is of great importance on decreasing “lost in information” through literature review. The idea based on the “centralization framework” was proposed, in which micro-blog and its characteristics, network hotspot and its characteristics, hotspot detection mechanism, the application of centralized processing methods were included. Production and processing model of hotspot detection based on micro-blog was designed and analyzed. With the establishment of micro-blog’s similarity measure method and centralized processing methods based on communication path and user behavior, the production and processing hotspot detection process from raw materials to fittings then to hot clusters was realized. According to the model, the hotspot detection platform based on micro-blog was designed, including the corpus centers, production and processing schemas, and production and processing process based on schema matching. With the simple and rich metadata, not only the threshold of technology was lowered, but also the hot cluster analysis based solely on deficiencies identified was improved, and also hotspot detection based on the specified classification condition was carried out. Finally, a real experiment based on the model and platform was built and the experimental results were analyzed to verify the theoretical results.

Keywords: micro-blog; hotspot detection; centralization; meta-data model

II

独创性声明

本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。

学位论文作者签名: 日期: 年 月 日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密□ ,在_____年解密后适用本授权书。

本论文不保密□。

(请在以上方框内打“√”)

学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日

华中科技大学硕士学位论文

1 绪论

1.1 选题背景及意义

本课题来自于国家自然科学基金资助项目《微内容生产加工模式及其支持平台的研究》(71071066)和国家自然科学基金重点项目《移动商务的基础理论与技术方法研究》(70731001)。

随着Web 2.0技术的不断发展和应用,互联网中以微内容为源的Web内容形式的信息传播在时间、空间、效率上已经逐渐确立了非常显著的优势,改变着人类信息产生、生产加工、传播的方式,并以惊人的速度渗透到社会的各个方面。互联网微内容最早由Jakob Nielsen提出,类似于将传播对象分解后形成的数据元、信息元、知识元等小单元。现有文献主要引用学者Cmswiki对微内容的最新定义:“最小的独立的内容数据,如一个简单的链接,一篇网志,一张图片,音频,视频,一个关于作者、标题的元数据,E-mail的主题,RSS的内容列表等等。”互联网微内容包括用户生产的所有数据。

由于互联网微内容具有来源广泛、更新速度快、传播周期短、传播方式多样化、参与性和互动性强等特点,在热点话题形成和传播方面,取得了强大的影响力和引导力。通过回顾过去发生的热点事件容易发现:虽然热点事件最后主要是通过传统媒体的关注和参与形成,但是很多都是直接或间接发源于网络。网络成为社会热点的“先知”和“发源地”。

在这些微内容中,微博以其前所未有的创新式的信息生产机制和网络传播机制,实现了4A(anytime,anywhere,anyone,anything),让即时网络热点变成了现实。在国外,突发事件的实时报道方面,Twitter已经具备了不可比拟的优势,例如2008年奥巴马借力Twitter赢得美国总统竞选、印度孟买连环恐怖袭击事件在Twitter的最先报道和传播等,都显示出微博在信息传播方面的即时性特点。在国内,2009年12月19日21时02分台湾花莲海域发生地震,1分钟后,新浪微博出现全球最早报

1

华中科技大学硕士学位论文

道这场灾难的文字:“地震@@!好强>。<”。微博的作者是台湾女孩萧姗姗,在她发布消息11分钟后,各大论坛和社区开始陆续出现相关报道和讨论,而专业媒体的报道则要更加延迟。

由于微博内容简短,写作门槛低,加之发布渠道更加便捷化、多样化、同步化,使得信息生产趋向于零时间。另外,信息接收渠道的多样化特点减短了信息从发布到传播的路径和时间,使用户在最早时间内接收到消息得到保证,从而实现了信息传播的零时间;微博客转发功能的一键设置加之内容的简单性,使信息接收者在信息的接收、阅读、再转发过程同步完成,与此同时,实现了信息再传播的零时间。微博中的关注与被关注形成了其独特的广播式的信息分享、流动模式,当这些单独的、碎片化的、零散的只言片语和某个大家关注的事件相关联,并在一个主题下集中,就可能汇聚成事件流/思想流,大量积聚后成为网络热点。

然而,微博缺陷也较为明显:信息不成系统、短小、无标题往往会造成信息的无组织现象;由于开放性的网状结构,微博的碎片表现出明显的“无序”和“去中心化”特点。2009年9月22日消息,据国外媒体报道,赫尔辛基信息技术研究所(HIIT)的一份研究报告显示,绝大部分微型博客作者使用无聊的词语更新他们的博客。因此,如何有效地利用海量的“光速碎片”,并提取其中的网络热点,成为网络信息亟待解决的需求,如图1.1所示。

anytime anywhere anyone anything 无序、去中心化

微博碎片

关联碎片汇聚

图1.1 基于微博的网络热点发现

提取网络热点

无意义碎片

去除

目前针对网络热点的研究主要集中在技术方面,如话题检测与跟踪(Topic

2

华中科技大学硕士学位论文

Detection and Tracking,TDT)、信息检索、信息抽取、文本挖掘等,处理的语料是较封闭的网络新闻;在实际应用上,现有微博热点发现机制存在不足,主要表现在只能在各自的微博平台整合、热点维度单一且不能定制、热点形成机制简单(通常由转发数、评论数决定)。本文以解决微内容的信息碎片为切入点,在中心化的基本框架指导下,运用元数据模型、短文本聚类、数据仓库等技术,研究基于微博的网络热点发现模型及平台。

1.2 国内外相关研究综述

1.2.1

话题发现与跟踪的相关研究

1996年,为了应对信息过载和信息迷失问题,美国国防部高等研究计划局(Defense Advanced Research Project Agency, DARPA) 提出话题发现与跟踪(Topic Detection and Tracking, TDT)的研究。该研究主要面向新闻、广播、电视等传统媒体信息流,通过对其进行切分,将主题相关的报道聚集后简短明晰地呈现在用户面前,此外,还包括对新话题/事件相关报道的监测,以及话题的跟踪报道(李保利,2003)。

TDT专注于话题发现与跟踪相关算法的改进和创新,包含5个子任务:新闻报道的切分、新事件识别、报道关系识别、话题识别和话题跟踪。相较于文本挖掘、信息抽取、信息检索等相关自然语言处理技术的研究:TDT的处理对象更加具有时效性,是随时间动态变化的语言信息流,而不是静态、封闭的文本集合,例如各种新的信息;其关注的重点不是大范围的主题信息,而是与特定的话题相关。

与TDT的“话题发现”类似,“基于微博的网络热点发现”需要将大量微博碎片中的关联信息进行聚类,再提取满足网络热点特征的信息。虽然处理的对象更加丰富,但TDT的研究思路和研究成果为网络热点发现提供了成熟的基础技术支撑。通过对微博碎片的特点进行分析,综合应用TDT技术,是比较合理的研究方案。

国外关于TDT的研究成果相对较多。针对广播新闻, Fwalls等(1999)提出了专门的话题发现算法;跨语言TDT系统的提出,实现了更大范围的覆盖面(Leek T,2002);Makkonen J等(2003)提出了带时空依据的话题发现和追踪。基于这些

3

华中科技大学硕士学位论文

研究的商业化服务平台开始出现,例如2000年开始研究的密西根大学NewsInEssence项目(Dragomir,2005)、哥伦比亚大学2002年推出的新闻浏览系统NewsBlaster(Kathleen,2002)、GoogleNews。

最近几年,国内研究人员也开始对TDT进行跟踪和研究。从1999开始台湾国立云林科技大学的黄燕萍、黄纯敏等人研究了TDT及多文档摘要技术,并取得了一定的成果。北京大学李保利等(2003)通过探索不同话题跟踪和话题识别算法,除文本挖掘、文本聚类外,尝试将更多的自然语言处理技术运用到汉语新闻报道中话题跟踪与话题识别中。中科院贾自艳等(2004)运用Single-pass聚类方法,结合新闻报道要素,基于动态进化模型提出了一种事件探测和追踪算法。针对事件特点,中科院于满泉等(2006)基于多层聚类的MLCS算法对话题进行层次化组织,提出了切实可行的单粒度话题识别方法。哈工大赵华等(2006)提出基于内容分析的话题检测算法,用于解决目前话题检测研究中难以区分两次不同的突发事故或事件的问题。北京大学张贝妮(2006)通过比较组Ward’s算法和平均连锁算法,研究聚类的阈值和特征项的维数对文本聚类性能的影响程度,设计出在线新闻话题识别聚类模型。与国外的商业化服务类似,国内也出现了百度新闻(2007)、Google中文资讯等实用的应用系统。 1.2.2

网络舆情的相关研究

刘毅(2007)在《网络舆情研究概论》一书中将网络舆情的定义为:通过互联网表达和传播的各种不同情绪、态度和意见交错的总和。

与网络热点发现的研究相比,网络舆情是以具体应用为目标,在构建系统/平台的过程中采用的技术和方法因应用的要求而不同。网络热点不一定是网络舆情,然而网络舆情必然是网络热点。因此,网络舆情是比网络热点发现更深层次的应用研究。其研究框架主要包括基础理论、支撑技术、应用研究三个层次。

网络舆情基础理论的研究内容主要包括基本概念、相关机制(例如汇集分析、引导控制)等,涉及的学科不仅包含公共管理、新闻传播、社会学、教育学,也涵盖了情报学/信息学。

4

华中科技大学硕士学位论文

网络舆情支撑技术包括信息采集、信息提取、TDT、多文档自动摘要、情感分析等,主要集中于计算机科学/互联网技术等领域。

网络舆情应用研究主要是对网络舆情系统以及网络舆情分析实务的研究工作。通过综合运用当前国内外相关技术,郑军(2007)以热点发现与跟踪模块的设计和实现作为切入点,充分应用话题发现与跟踪取得的数据挖掘和文本聚类研究成果,研究了网络舆情管理与上报监管系统的总体结构。王娟(2007)根据业务流程、系统各用户的角色和职责,研究了网络舆情监控分析系统构建的过程,包括数据库设计、应用系统和安全保密建设、网络结构设计、系统总体架构及平台的建设。网络舆情监控系统的实际应用有助于各级政府部门及时把握当地的社会舆论、市民热点讨论的话题及突发事件的意见等,为各级政府领导的决策提供辅助服务。 1.2.3

短文本聚类的相关研究

除了传播速度快,微博区别于其他普通网络信息(长文本信息)在于文本短小,一般不超过140字。热点发现的研究主要基于文本挖掘的聚类算法。聚类算法是通过一定的阈值,将达到设定阈值相似度的元素聚为一类,相似度的测度通过比较特征值向量完成。传统的研究主要面向长文本信息。在文本特征选择方面,基于统计量和基于潜在语音索引的方法分别表现出针对不同文本特点的适应性,前者包含信息增益、CHI、互信息、词频/倒文档频度等方法,后者则需要引入主成分分析、奇异值分解、线性鉴别等方法并在其基础上衍生。在文本聚类/分类方面,贝叶斯分类器、支撑向量机、神经网络、自组织映射、k近邻、k均值、决策树、关联规则、向量相似度量以及分类器集成等模型得到了广泛应用。但是由于短文本独特的语言特征(稀疏性、实时性、不规范性等),基于词频的传统文本表示模型(布尔模型、概率模型、向量空间模型)和特征提取方法都无法准确表达短文本之间的相似性。

在短文本的特征值选择方面,杨震等(2010)将每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性直接计算其相似性,在此基础上进行短文本层次化聚类,在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足,有效解决了短文本内容聚类问题。黄永光等(2005)在处理变异

5

华中科技大学硕士学位论文

短文本时,首先将文本转换为拼音串表示,然后用这些拼音串组成特征串共同表征该短文本,通过比较特征串的相似度来提高聚类的效果。本文将采用特征串方法,首先通过数据预处理对微博文本进行分词,将分词结果作为候选特征值,然后提出一种新的词频计算方法用于指导特征值的选择。在相似度计算方面,除了传统的特征值方法,本文将引入基于语义和用户行为的中心化模型,提高聚类的准确率。

1.3 论文结构及主要研究内容

微博作为一个新兴的网络媒体和社交平台,是网络热点重要的发源地和传播途径。本文以解决微内容的信息碎片为切入点,在中心化的基本框架指导下,运用元数据模型、短文本聚类、数据仓库等技术,研究基于微博的网络热点发现模型及平台。论文结构如图1.2所示。

论文章节组织及研究内容绪论 背景及意义 相关研究综述 中心化框架 微博分析 网络热点分析热点发现机制中心化方法 模型 语料初加工 相似度深加工生产加工模型平台 平台总体设计语料中心 生产加工模式热点发现过程实验 实验设计 实验结果分析相关技术及理论 元数据模型 短文本聚类 数据仓库 中心化方法生产运作理论

图1.2 论文结构

论文共分为5章,主要研究内容组织如下:

第1章为绪论,从网络热点发现的应用及国内外相关研究出发,概述基于微博的网络热点发现的意义:从海量的“光速微博碎片”中挖掘实时网络热点,减少用户在微博平台的“信息迷失”;

6

华中科技大学硕士学位论文

第2章提出微博网络热点发现的中心化研究思路,包括微博及其特点分析、网络热点及其特点分析、微博热点发现机制及中心化加工方法的应用;

第3章研究微博网络热点发现的生产加工模型,建立基于传播路径和用户行为的中心化方法。通过对微博语料先后进行预处理初加工和聚类、中心化深加工,实现从原材料→零件→热点语料簇的热点发现过程;

第4章研究基于微博的网络热点发现平台,包括语料中心、生产加工图式库以及基于图式匹配的加工过程。通过微博平台的开放性特性和丰富的元数据,完善仅仅基于聚类分析的热点发现的不足,实现基于定制分类要求的热点发现;

第5章根据模型,设计实验,并对实验结果进行分析,提出改进方向。

7

华中科技大学硕士学位论文

2 微博网络热点发现的中心化思路

2.1 基于微博的网络热点描述

2.1.1

微博及特征

根据维基百科(Wikipedia,2010)的定义,微博(Micro-blogging,Microblog)是一种允许用户及时更新简短文本(通常少于200字)并可以公开发布的博客形式。出现最早、发展最快的微博是Twitter,它在维基百科的定义是一个社交网络及微博客服务;国内发展比较成熟的微博包括新浪微博、腾讯微博、搜狐微博、网易微博、人民网微博等。DCCI预计,2010年底,中国互联网微博累计活跃注册账户数将突破6500万个,未来三年,各家微博服务商的微博账户数的年增长率在140%~200%内。

微博是一个基于用户关系的信息分享、传播以及获取平台。微博的便捷性、即时性、开放性以及交流、分享信息的需求促进了微博的快速发展。作为即时网络的代表之一,区别于其他网络信息平台,微博在信息产生和传播模式方面表现出覆盖面广、实时、互动性强、元数据简单丰富等特征,如表2.1所示。

表2.1 各类网络信息平台比较

信息平台 信息覆盖面 传播速度 用户参与度新闻网站 论坛 博客 SNS 微博

单一 受限于主题 受限于作者

广泛 广泛

中 慢 慢 中 快

低 中 中 高 高

开放程度

高 中 中 低 中

信息组织方式

无 树状 无 网状 网状

元数据 少、简单少、简单少、简单多、复杂多、简单

8

华中科技大学硕士学位论文

(1) 信息覆盖面广。据国外媒体2010年6月9日报道,Twitter用户每日发布的消息数量达6500万,国内新浪微博每天转发、评论和原创的微博总数也达到几千万条。从传媒的即时新闻报道、企业新产品的宣传,到个人用户的实时见闻、心得等,便捷性和强大的传播力量,以及生活化、娱乐化、即时化三大需求驱动力量让微博平台快速发展为信息的海洋,覆盖了不同行业、群体。

(2) 传播速度快。由于其内容简短,写作门槛低,加之发布渠道更加便捷化、多样化、同步化,使得信息生产趋向于零时间;另外,多样化的信息接收渠道(短信、实时消息软件、电子邮件、MP3 、网页)保证了用户可以在第一时间接收到消息,缩短了从信息源发布到信息传播的路径和时间,从而实现了信息传播的零时间;微博客转发功能的一键设置加之内容的简单性,使信息接收者在接收信息、阅读信息、再转发信息的过程可同步完成,与此同时,又实现了信息再传播的零时间。

(3) 互动性强。与社交网站双向互动的紧密人际关系不同,微博通过单向的跟随关系将社交关系进行简化,这种关注与被关注的方式形成了微博独特的广播式的信息分享、流动模式。这种模式具有裂变化特点,具体说来,微博中用户U的“粉丝”群体构成一个小世界网络,通过“粉丝”转发和评论进行信息传播。这种新的信息传播形态“既不是传统媒体的线性传播(One To One),也不是网络媒体的网络传播(One To N),而是一种裂变传播(One To N To N)”,传播依此循环,直至无限。

(4) 元数据简单丰富。相比新闻媒体、论坛社区、博客只能提供简单的发布时间、发布人、URL等元数据,微博平台提供的元数据丰富很多,正所谓“麻雀虽小,五脏俱全”。除了140字的内容主体外,微博还通过开放API接口以结构化方式记录了丰富的元数据信息,主要包括微博文本及用户两大主体。其中微博文本元数据包含标识、内容主体、发布时间、作者、评论数、转发数等,用户元数据则包含标识、所在城市、关注人数、粉丝数、标签等。此外,通过微博文本的作者属性可以映射到具体用户,这种关系元数据有助于更加准确全面的描述微博数据源。同时,由于微博的开放性,其元数据具有良好的可扩展性。正如Twitter推出的一个“注释(annotations)”的功能,允许Twitter第三方开发者为推讯添加更多元数据,几乎可以添加任何信息,并且这种注释容量最后可能达到2k。

9

华中科技大学硕士学位论文

广泛的信息覆盖面扩展了网络热点发现的范围:在中国社科院2009年12月出版的《社会蓝皮书》中,勃兴中的微博被评价为“杀伤力最强的舆论载体”,《社会蓝皮书》特别指出,中国微博的一大特点就是“强烈关注时事”。 大量用户的参与加上便捷、快速的传播渠道使“第一时间”发现网络热点成为可能:由普通网民临时客串的“公民报道者”,赶在传统媒体报道和政府新闻发布的前面,第一时间在微博上发布第一手的信息,对突发事件进行“现场直播”。而简单丰富的微博元数据降低了技术实现的门槛。伴随着微博网站的高速发展,这些存在于虚拟世界的信息片段、由关注与被关注构成的交互方式、几分钟就能横穿半个地球的超级传播速度正在真实地影响人们的生活方式。 2.1.2

网络热点及特征

熊家余(2000)在“社会热点成因分析”中提到,针对当今中国社会而言,社会热点主要受到一下几个方面因素的影响:“改革引发的震荡;新旧观念的碰撞;转型期的负面效应;群体行为的新选择;社会关注度高的事件。”在网络环境下,这些因素的影响体现在时代的大背景下信息的产生和传播过程中。

周亚东等(2007)针对网络舆情分析的需求,给出了网络热点话题定义,即网络热点话题指:“以网络为传播媒介,被一定人群广泛、持续关注,并能够反映网络舆论状况的信息集合,其中包括对网络热点话题内涵的语义化描述以及话题的传播方式等。”

“社会热点”和“网络舆情” 涉及新闻传播学、情报学/信息学、社会学、教育学、公共管理等学科,对社会的影响结果是检测热点话题的重要指标。而本文从信息/知识管理、企业生产与运作管理、系统科学出发,主要根据信息的语义、结构研究网络热点的形成机制,网络热点的评测并不限于对社会舆论的影响。同时,基于微博丰富的元数据可以实现定制分类的热点发现,由此形成的热点将受限于定制分类的约束条件,与全体范围的热点存在不同。

本文将网络热点定义为:以网络为传播媒介,在指定分类条件下被一定人群广

10

华中科技大学硕士学位论文

泛、持续关注的信息集合,其中包括对网络热点内涵的语义化描述以及演化的生命周期等。网络热点具有以下特征:

(1) 关注程度高。用户和媒体的广泛关注是网络热点最基本的特征,强调用户的关注行为对于网络热点形成的影响。从信息发布者角度来看,网络热点通常是被多个信息源多次报道或转载的事件、现象等。对于微博来说,短时间内成千上万的原创、转发和评论,表明用户关注其发展趋势或者正在发表建议/看法等。

(2) 含有定制分类特性。指定分类条件进行网络热点发现时,由于数据源是根据分类条件进行筛选的,最终获取的网络热点也是分别属于相应的分类。例如武汉地区的民生热点,就可能与全球范围内的综合热点不同。

(3) 具有完整的生命周期。从生命周期角度来看,网络热点的关注持续时间较长,其活跃程度必定要经历一个由低到高再转入低的出生、生长、成熟和死亡的演变过程。 2.1.3

微博的中心化

微博碎片的无序、去中心化容易造成用户在互联网世界中的“信息过载、信息迷失”。要提高Web内容服务质量,必须关注数据与过程的中心化(Centralization)和去中心化(Decentralization)问题(Goethals et al., 2007)。

中心化的概念最早追溯到19世纪。应用统计学的思想,中心化仅作为用于估计样本点的集中化程度的参数而出现(Jordan,1869)(McCreary,2001)。目前,中心化的研究对象主要集中于复杂网络,其中被引入和应用的中心化指标达11种之多(Costenbader,2003),包括度指标(DC)、紧密度指标(CC)、介数指标(BC)、特征向量指标(EC)、流介数指标(FBC)、子图指标(SC)、影响力指标(IC)等。

对类似google这样的搜索引擎得到的搜索结果进行基于中心化的合并融合,对于提高搜索的准确性及相关性有重要意义(Paltoglou et al., 2008)。针对搜索结果合并融合问题,Craswell等(1999)提出了特征距离评级算法与参考统计两种方法,通过提取文档中包含的搜索词语的数目来判断不同文档的关联度。另外也有学者从

11

华中科技大学硕士学位论文

离群性角度来研究中心化问题,Knorr等(2000)针对海量、多维数据集的离群问题,通过对比分析各种离群值发现算法,提出基于距离的离群值发现算法;Hido等(2008)提出的一种基于uLSIF的离群值发现算法,适用于在训练集不含离群值的情况下发现测试集中的离群值,通过在半参数模型中直接估计训练集和测试集的密度比率,对调整参数的值进行客观优化。此外,Yeung等(2009)针对当前社会网络服务中数据封闭、中心化集权控制带来的信息离散问题,提出了运用关联数据、语义网本体技术、OpenID、权限控制等技术构建开放的去中心化社会网络框架,实现用户对自身信息和行为的自主控制和不同社会网络之间的信息共享。

微博热点发现需要将大量信息片段汇聚到不同主题。“无序”、“去中心化”的微博碎片是原材料,这些信息碎片根据事件流/思想流在同一主题下汇集,并在大量积聚后成为热门话题。如果将该过程逆向来看,那么主题首先是已经确定并存在的,微博用户分别围绕这些主题发布信息。因此在网络热点发现的过程中,可以假设这些主题已经存在,然后把微博碎片聚集到对应的主题下。将主题当成样本点,需要估计微博碎片对样本点的集中化程度,可以用中心化指标进行衡量。

微博碎片根据事件流/思想流在同一主题下汇集,并在大量积聚后成为热门话题。微博的中心化就是应用文本聚类等中心化方法,发现微博碎片内在的关联关系,并根据这种关联将这些信息片段汇聚到不同主题。微博的中心化结果经过评测后可以被判别是否属于网络热点。

2.2 微博热点发现现状及中心化思路

2.2.1

基于微博的网络热点发现机制

微博创新式的信息生产机制和网络传播机制使即时网络热点变成了现实。与论坛、即时通讯工具、短信、Email、博客、SNS相比,微博最大的不同在于信息发布实时化、信息传播零障碍,其在开放程度、互动性方面也有很大的优势,社会化、个性化、自媒体特性更加突出。由于微博更注重信息的新闻性,更注重具体的事件

12

华中科技大学硕士学位论文

与观点表达,使新闻与舆论有机融为一体,从而实现持续互动与有效传播,实现新闻拓展,推进传播深化。

微博在进行信息传播时呈现出传播阶段和模式的多级化:第一级的传播由于其传播文本的碎片化和传播形式的针对性,呈现出一种分众传播的状态;第二级的传播由于与网络大众媒体的深度链接和融合,其传播模式逐渐升级为大众传播状态,达到更大的传播效果。当这些单独的、碎片化的、零散的只言片语和某个大家关注的事件相关联,并在一个主题下集中,就可能汇集成事件流/思想流,大量积聚后成为热门话题。

目前,在微博平台内部和外部都有热门话题的相关应用,例如新浪微博的“热门话题榜”,玩聚网的“聚RT”。从热门话题形成的机制来看,两者主要依据传播路径的广度和深度进行判定。新浪将包含相同关键词的微博聚合在一起,统计转发数、评论数,依次推出热门话题榜;玩聚RT 则根据微博中提及的链接和RT标志自动聚合一条消息被 Twitter 等各种微博用户转发的次数,并据此生成热门消息榜单。

通过这种方式形成的热门话题维度比较单一,一般只能从时间维进行分类,例如“最近一小时”、“昨天”、“最近一周”等,若需要根据地域、行业等进行分类,以上机制不能实现。新浪微博和玩聚网最大的不同在于后者的信息源来自于各种外部微博,更加全面。

本文设计的网络热点发现模型将集成各种微博平台的数据,保证信息源的综合与全面;同时,通过合理利用微博开放的API接口提供的丰富元数据,一方面使用短文本聚类技术代替简单的关键字聚类,一方面还可以基于传播路径和用户行为元数据的中心化方法完善聚类结果,更特别的是可以根据元数据属性对数据源进行划分,完善现有单一维度热点发现的不足,实现多维度或定制分类条件下的热点发现。几种不同的网络热点发现机制如图2.1所示。

13

华中科技大学硕士学位论文

Sina SinaTwitterSinaTwitter 指定分类条件 关键字聚类 统计评论/转发数 关键字聚类 统计评论/转发数筛选数据源 短文本聚类 中心化热点发现方法 评论/转发数C 评论/转发数C热度H时间T 热门话题榜 (最近1h、最近1d…)时间T热门话题榜 (最近1h、最近1d…)时间T 地域P网络热点 (最近1h@武汉…) 中心化网络热点发现(本文)

热门话题榜(新浪微博) 热门话题榜(玩聚网)

图2.1 基于微博的网络热点发现机制

2.2.2 微博的中心化加工方法

微博热点发现需要将大量信息片段汇聚到不同主题。“无序”、“去中心化”的微博碎片是原材料,这些信息碎片根据事件流/思想流在同一主题下汇集,并在大量积聚后成为热门话题。如果将该过程逆向来看,那么主题首先是已经确定并存在的,微博用户分别围绕这些主题发布信息。因此在网络热点发现的过程中,可以假设这些主题已经存在,然后把微博碎片聚集到对应的主题下。将主题当成样本点,需要估计微博碎片对样本点的集中化程度,可以用中心化指标进行衡量。

与基于传统新闻语料的话题发现与跟踪相同,文本聚类是发现主题最成熟的技术,因此对140字微博文本本身进行聚类是最基础的重要加工。然而,与传统新闻语料不同,微博文本具有短小、无标题特性,在文本特征选择时需要考虑短文本独

14

华中科技大学硕士学位论文

特的稀疏性、实时性、不规范性等语言特征;同时,微博碎片产生和传播的实时特性,也对聚类分析的效率有较高要求。

与基于传统新闻语料的话题发现与跟踪不同,除了140字文本本身,微博提供了丰富的微博属性、用户信息、传播信息等元数据。对这些元数据进行中心化加工,并通过微博文本标识、用户标识、传播标识与微博文本建立联系,可以更加准确的设计聚类加工过程。例如,经过认证的活跃用户发布的微博、转发和评论次数多的微博在聚类时可以赋予更高的权重。同时,根据丰富的元数据可以非常方便地对微博碎片进行分类,有助于满足指定分类条件下的热点发现要求,例如同城热点、行业热点、人群热点等。

基于微博的网络热点发现是一个微内容生产加工过程,主要包括微博语料的获取、预处理初加工和中心化深加工,而重点在于中心化的应用。运用中心化框架指导深加工过程,主要包括微博文本的聚类和微博元数据的中心化,虽然聚类分析中的特征向量选择、相似度计算都是典型的中心化过程,但是与微博元数据中心化采用的指标和计算方法存在很大不同,同时微博文本聚类是基础,微博元数据中心化是辅助,因此本文将两者进行区分,分别对应下文的短文本聚类和中心化。

15

华中科技大学硕士学位论文

3 基于微博的网络热点发现模型

3.1 微博语料数据仓库构建过程

3.1.1

微博元数据模型

元数据是描述数据的数据,根据一定规则,从原始数据源中抽取出一系列结构化的特征数据单元,用于描述原始数据的各项属性。目前的研究认为元数据模型包括两个层次:描述数据自身的元数据,即那些只与数据自己相关的信息,例如数据标识信息、产生的时间、质量、长度、发布信息等;描述数据之间关系的元数据,用于描述各个数据集是通过什么样的关系构成一个有机的整体,例如包含关系、引用关系等(张颖,2001)。

微博提供的信息包括140字微博文本及其传播路径、用户信息及其关系网络,微博文本和用户信息通过作者关联。根据元数据模型的两个层次可以建立以下分类:

(1) 微博文本元数据。主要是描述微博文本自身的数据,例如标识ID、关键字、类型、发布时间、文本长度、作者标识、评论数、转发数、发布渠道等。

(2) 用户元数据。主要是描述微博用户自身的数据,例如标识ID、姓名、认证标识、性别、所在城市、简介、关注人数、粉丝数、微博数、标签等。

(3) 微博传播路径元数据。通过微博类型(原创、转发、评论),结合其中的微博标识、用户标识可以跟踪微博的传播路径,该类元数据主要包含转发/被转发、评论/被评论的微博标识,其实例构成一个网络集合。

(4) 用户关系网络元数据。根据所在城市可以形成基于地域的网络元数据,根据关注/粉丝、自定义标签可以形成基于兴趣的网络元数据。

(5) 微博-用户关系元数据。单一微博和用户之间通过“作者标识”建立简单对应关系,传播过程中形成的微博集合通过“作者标识”建立复杂网络关系。

随着微博平台的进一步开放,微博包含的信息也将进一步增加,根据热点发现的实际需要,这种元数据模型具有良好的扩展性。

16

华中科技大学硕士学位论文

3.1.2

微博语料初加工方法

通过网络爬虫从各个微博平台抓取的原始数据构成网络热点发现的语料,需要经过预处理、元数据抽取等初加工才能进一步分析,加工过程如图3.1所示:

x1 输入 f1(x) f2(x) 输出 y2 y1 yn x2 xn 原材料X

fn(x) 初加工方法F(X) 图3.1 微博语料初加工过程

零件Y

原材料X{x1, x2, …, xn}是通过网络爬虫抓取的未经任何处理的原始数据集合,主要包含微博文本及用户信息。由于各个微博平台的结构不同,原始数据的表现形式各有差异。原材料输入后,需要经过一系列加工工序,对应的加工方法用F(X){f1(x), f2(x), …, fn(x)}表示。经过初级加工的原材料将转变为符合标准和规范的零件Y{y1, y2, …, yn},并存储到标准统一的数据仓库,数据仓库的构建过程将在下一节说明。

其中,微博语料初加工的方法有:

(1) 数据清洗。主要包括清除抓取过程中未处理的HTML标签,根据微博文本的长度去除无意义的空值,根据微博的唯一标识去除重复值等。

(2) 数据转换。包括编码转换(例如将新浪微博中通过UNICODE编码格式存储的用户标签数据转换为GB2312编码格式的数据)、数据值冲突的检测与处理(例如将“0/1”和“男/女”两种方式表示的用户性别值统一转换为“男/女”,或者将不同微博平台使用的地域属性值转换为统一标准进行表示)等。

(3) 分词。虽然微博文本只有140字,但是作为信息主体,仍然需要通过分词提取其中的关键字,为文本聚类做好准备工作。

(4) 元数据抽取。根据元数据模型抽取原始语料中对应的属性信息,以规范的结构化方式表示,其中关系型元数据需要单独建立存储单元。

17

华中科技大学硕士学位论文

3.1.3

微博数据仓库构建

经过初加工产生的微博语料零件根据来源的微博平台分别存储在独立的数据库,不能满足数据整合的需求。微博数据仓库的构建不仅可以对分析需要的数据进行有效集成,而且还能根据主题按多维模型予以组织,为基于定制分类要求的热点发现提供准确的语料库,以便进行多角度、多层次的分析。

首先,需要将经过预处理的各个微博平台语料进行集成。由于各个微博平台的元数据类型有所差异,为了保证数据完整性,集成后的数据仓库中的元数据类型扩展为所有微博平台元数据类型的并集,并对共同的元数据类型进行标识,随着新的微博平台加入,元数据类型也随之扩展。同时,为了区分数据来源以及避免数据值的冲突(尤其是微博标识和用户标识),需要对数据增加平台标识,可以采用在微博标识和用户标识前增加代表微博平台的代号。

数据集成后,需要根据主题按多维模型予以组织。根据五种主要的微博元数据分类,可以将集成的数据划分为五个主题:微博文本集、用户集、微博传播路径集、用户关系网络集、微博-用户关系集;根据常见的时间、地域维度,可以将集成的数据划分为时间、地域主题;根据数据填充的比率(如共同元数据类型的数据填充比率较高)和来源微博平台,可以将集成的数据划分为紧密/稀疏、微博平台主题。更多主题可以根据热点发现的定制分类要求进行划分,体现出微博数据仓库良好的扩展性。

3.2 基于短文本聚类和中心化模型的相似度分析

3.2.1

微博文本特征选择及聚类分析

根据产生方式,微博内容可以分成原创、评论、转发三类,其中评论和转发类型都可以追溯到某条原创的微博,并且讨论的话题与该原创微博保持一致。因此在对微博进行聚类分析时,只考虑原创类型,评论和转发类型的微博将在中心化模型中作为度指标的权重因子。

18

华中科技大学硕士学位论文

在文本特征选择方面,由于短文本独特的语言特征(稀疏性、实时性、不规范性等),需要对传统的基于词频的特征提取方法进行改进。鉴于从140字的文本中抽取的关键词重复出现的情况非常少见,如果直接根据其本身包含的关键词的词频来确定特征项,容易出现找不到特征项的情况;如果直接将分词得到的关键词全部作为特征项,就无法区分各个词的权重。为此,本文将全部微博语料分词后产生的关键词集合在一起,并将关键词在该集合中的出现次数作为其词频,然后基于这个词频指导特征项的选择,最后采用向量空间模型表示微博文本特征,如S=(w1, w2, …, wn),其中w1, w2, …, wn为微博文本中对应的特征项权重。

在对微博文本进行聚类分析时,本文采用经典的余弦距离来描述微博文本之间的相似度。假设微博文本S1=(w1, w2, …, wn)和S2=(v1, v2, …, vn),则两者之间的相似度如3.1所示:

(3.1)

其中,H为特征项集合,w1, w2, …, wn和v1, v2, …, vn分别是文本S1和S2中对应的特征项权重。 3.2.2

基于传播路径和用户行为的中心化模型

应用统计学思想中的中心化概念,本文建立的中心化模型将用于估计微博语料之间的集中化程度,该模型与微博文本聚类共同作用于微博相似度测度,两者没有明显的依赖关系,可以对微博文本聚类结果应用中心化模型,调整相似度结果,也可以在中心化模型下再应用微博文本聚类。

参考中心化研究最多的复杂网络应用,本文基于传播网络和用户行为,主要引入度指标(DC)、介数指标(BC)、紧密度指标(CC)、影响力指标(IC)四种,应用这些指标评价的结果将以权重因子在相似度测量中进行体现。

度指标(DC)和介数指标(BC)是研究微博传播路径和影响力的参数,以待评估的原创类型微博为根节点,所有与之关联的微博(包括直接评论和转发,二次评论和二次转发,以及基于评论的转发和基于转发的评论)构成树状结构,如图3.2所示。

19

华中科技大学硕士学位论文

原创微博 L=0 评论1 评论2 转发1 转发2 L=1 二次评论 …… n次评论 基于评论2的转发…… 基于转发2的评论…… 二次转发 …… n次转发 L=n

图3.2 微博树状传播路径

度指标用于描述各节点在传播网络中的影响范围,其值为与之关联微博的数量,子节点y的度指标定义为:

(3.2)

其中:d(y)是节点y包含的子节点数。

介数指标则用于描述子节点对根节点的影响力,子节点y的介数指标定义为:

(3.3)

其中:Ly是节点y与根节点之间的距离,即节点y所在层次。

通过将度指标和介数指标结合,基于微博转播路径的根节点的度-介数指标可表示为:

(3.4)

其中:N为全部节点集合,表示随着传播路径层次的加深,子节点对根节点的影响力将逐渐降低。

紧密度指标(CC)主要基于微博文本元数据和用户元数据,用于描述语料在指定元数据下的属性值的相似程度,用Cc表示,常用的运用紧密度指标的元数据类型如所在城市、用户标签(代表用户的兴趣),分别将同一城市和拥有共同兴趣爱好的用

20

华中科技大学硕士学位论文

户进行聚合,该指标的结果将作为权重因子影响与用户关联的微博的相似度。

影响力指标(IC)主要基于用户关系网络元数据,根据用户的认证标志、微博数、粉丝数、关注人数等元数据的属性值描述用户的影响力,微博y的作者对应的用户的影响力指标定义为:

(3.5)

其中:Na、Nb、Nc、Nd分别代表认证标志、微博数、粉丝数、关注人数,为了区分四者的重要程度,引入α、β、γ、δ作为权重。 3.2.3

微博相似度测度方法

将微博文本聚类结果和中心化模型结合,即本文提出的微博相似度测度方法。其中聚类分析主要是基于微博文本的特征项相似度,中心化模型则充分利用微博丰富的元数据,通过引入度指标(DC)、介数指标(BC)、紧密度指标(CC)、影响力指标(IC),计算除微博文本外的其他元数据属性值对相似度的影响。原创类型的微博Y1和Y2相似度测度方法定义如3.2、3.3、3.4所示:

(3.6)

(3.7)

(3.8)

其中,S1和S2分别代表Y1和Y2的微博文本部分,M1和M2分别代表Y1和Y2

的元数据部分,Y1和Y2的相似度由微博文本的相似度和元数据的中心化程度共同决定,λ为权重因子。 3.2.4

基于相似度的微博语料深加工

初加工后产生的微博语料零件按主题有组织地存储在数据仓库中。根据定制分类要求从数据仓库中选择需要的零件,再应用相似度测度方法产生语料簇集合,最后根据这些集合的大小发现网络热点。本文用深加工模型描述相似度测度的过程,

21

华中科技大学硕士学位论文

如图3.3所示。

z1 z2 zn y1 y2 yn 输入 g1(y) g2(y) 深加工方法G(X)

输出 语料中心Y 热点语料簇Z

图3.3 微博语料深加工过程

其中,语料中心是指数据仓库,将经过初加工的零件集成后按主题有组织的存储,然后基于定制分类要求选择对应主题的语料,在经过深加工后生成热点语料簇。深加工方法即微博相似度测度方法,包括微博文本聚类和中心化两种。

3.3 网络热点发现的生产加工模型

本节根据生产运作原理描述基于微博的网络热点发现模型。

典型的生产加工过程可以简化为:“原材料→零件→产品”。与此对应,基于微博的网络热点发现过程可以用“原始语料→语料中心→热点语料簇”表示。其中,原始语料是通过网络爬虫从各种微博平台抓取得到;语料中心汇集了经过预处理之后的微博语料,通过数据仓库进行存储;热点语料簇则是在定制分类要求下选择合适的语料进行聚类、中心化加工等操作后生成。

从原材料到零件、从零件到产品的两个加工过程中的工具分别对应“数据预处理”、“相似度测度”方法。数据预处理作为初加工方法,主要包含对原始语料进行数据清洗、数据转换、分词、元数据抽取等操作;经过初加工后生成零件被存放到数据仓库从而形成语料中心;深加工方法主要包括短文本聚类、基于传播路径和用户行为的中心化方法。

基于微博的网络热点发现的生产加工模型如图3.4所示。

22

华中科技大学硕士学位论文

x1 Internet 微博平台 网络 爬虫 f1(x) xn x2 原材料X 输入 f2(x) …… fn(x) 初加工方法F(X) 输出 y2 y1 yn 零件Y 数据仓库-语料中心定制分类要求 集成 输入 g1(y) g2(y) z1 输出 z2 zn 筛选 网络热点 选定主题语料 深加工方法G(X) 热点语料簇Z

图3.4 基于微博的网络热点发现的生产加工模型

23

华中科技大学硕士学位论文

4 基于微博的网络热点发现平台

4.1 平台总体设计

本文构建的平台集成多个微博平台数据,可进行定制分类的热点发现(即指定类别的热点),并且反映传播路径和用户行为的影响。该平台以中心化基本框架为指导,综合运用元数据模型、短文本聚类等技术,根据指定分类要求进行图式匹配并发现微博热点。语料中心和生产加工图式库是平台的两大主体。在定制分类要求下,分别从语料中心和生产加工图式库选取合适的语料和加工方法,依次完成初加工、深加工,最后从热点语料簇中获取网络热点。平台设计方案如图4.1所示。

网络爬虫 原始数据抓取 元数据模型 元数据属性抽取 数据仓库技术 数据集成 语料中心(可扩展微博数据仓库) 基于微博的定制分类网络热点发现平台 语料选择 图式匹配 热点发现及评测 生产加工图式库 语料预处理图式 预处理技术 数据清洗f1(x) 数据转换f2(x) 分词f3(x) 元数据抽取f4(x) 短文本聚类图式 短文本聚类 TF*IDF 文本特征选择 聚类分析 中心化图式 中心化模型 度-介数指标 紧密度指标 影响力指标

图4.1 平台总体设计

24

华中科技大学硕士学位论文

4.2 语料中心

4.2.1

原始数据抓取

与新闻发布系统、博客、论坛的发展类似,新的微博平台的建立都是仿照成熟的微博平台(如Twitter、新浪微博等),在数据类型和数据组织方式具有一定的相似性。例如每个微博平台都提供了微博文本和用户两大主体的相关信息,并且具有一些通用的属性(具体可参见4.2.2节)。微博平台的开放性给数据获取带来了便捷,网络热点发现的原始数据主要通过网络爬虫从各大微博平台进行采集。本文关注的数据主要是微博及用户两类,通过两层检索即可获取。

其中,第一层为微博数据,在类似新浪“微博广场”的列表页面可以实时采集用户最新发布的微博,由于没有经过条件过滤,符合随机样本的要求;第二层为用户数据,由于微博列表不仅包含微博信息,还有一个重要的元数据“用户标识”,即微博文本的作者,通过该标识可以设置用户数据的路径检索的规则。

在原始数据抓取过程中,可以把微博列表中的微博项当成种子链接,从种子链接出发,只需要再进行更深一层的用户数据抓取即可。另外,微博平台属于半开放状态,需要登录才有权限看到列表及用户数据,因此需要抓取工具支持cookie登录。

总体而言,微博平台的开放性给数据获取带来了便捷,简单清晰的数据结构对网络爬虫的功能要求不高,现有的开源网络爬虫软件完全可以胜任。然而,由于微博数据产生的速度很快,各个微博平台的数据类型和页面结构也有一些差异,在选取网络爬虫工具时,应该考虑抓取效率、数据存储方法、多线程支持等方面的性能。 4.2.2

基于元数据模型的属性抽取

从各个微博平台抓取的原始数据包含丰富的元数据,在进行语料预处理的过程中,最重要的操作就是根据元数据模型抽取对应的属性及属性值。

根据对现有主流微博平台的页面结构进行分析,发掘其信息组织方式,将得到的结果整理并归类,主要包含微博文本和用户两大信息主体。根据元数据模型总结

25

华中科技大学硕士学位论文

微博和用户的属性如表4.1、4.2所示。该属性根据元数据类型的扩充随之扩展。

表4.1 微博属性

属性名称 标识ID 关键字 类型 发布时间 文本长度 作者标识 评论数 转发数 评论作者标识 发布渠道

属性值描述 微博的唯一标识 微博文本分词后的结果集 原创、转发、评论 微博的发布时间 微博文本包含的字符数 发布人对应的标识ID 微博的评论次数 微博的转发次数 发表评论的作者标识 网页、手机、客户端等

所属元数据模型 微博文本元数据 微博文本元数据

微博文本元数据、微博传播路径元数据 微博文本元数据 微博文本元数据

微博文本元数据、微博传播路径元数据 微博文本元数据、微博传播路径元数据 微博文本元数据、微博传播路径元数据 微博-用户关系元数据、微博传播路径元数据微博文本元数据、微博传播路径元数据

表4.2 用户属性

属性名称 标识ID 姓名 性别 所在城市 简介 博客 认证标识 关注人数 粉丝数 微博数 标签

属性值描述 用户的唯一标识 姓名 性别 所在城市 用户个人介绍 用户拥有的博客地址 身份认证标识 用户关注的用户数 用户拥有的粉丝数 用户发表的微博数 描述用户兴趣的Tag

所属元数据模型 用户元数据 用户元数据

用户元数据、用户关系网络元数据 用户元数据、用户关系网络元数据 用户元数据 用户元数据

用户元数据、用户关系网络元数据 用户元数据、用户关系网络元数据 用户元数据、用户关系网络元数据 用户元数据

用户元数据、用户关系网络元数据

26

华中科技大学硕士学位论文

4.2.3

可扩展微博数据仓库

微博数据仓库用于集成经过初加工的各个微博平台的数据,方便根据主题进行组织,以数据集市的方式存储,有效满足基于定制分类要求的热点发现。首先,建立一个存储完整数据集的数据集市,包含微博本身及与之关联的用户信息。然后,根据元数据模型分类,分别建立各个主题的数据集市,例如以微博为中心的微博文本数据集市,以用户为中心的用户数据集市,存储微博传播路径的数据集市,存储用户关系网络的数据集市,存储微博-用户关系的数据集市。

除了根据主题组织数据之外,数据仓库区别于数据库还表现在多维存储,在应用定制分类要求时,可以快速便捷地抽取相关维度的数据,或者按条件筛选不同粒度的数据。图4.2描述了基于时间-地域-微博平台三维的数据集市,对于需要根据时间、地域、微博平台获取数据非常方便。

图4.2 时间-地域-微博平台三维数据集市

27

华中科技大学硕士学位论文

4.3 生产加工图式库

4.3.1

语料预处理加工图式

在进行热点发现之前,需要对抓取的原始语料进行初加工,做好准备工作,这个过程通过语料预处理图式完成。与常见的初加工方法对应,将该图式分解成数据清洗、数据转换、分词、元数据抽取四个图式(fn(x),x表示原始语料),各个图式的任务参见表4.3。

表4.3 语料预处理图式任务描述

图式

任务描述

清除抓取过程中未处理的无意义的HTML标签; 删除全角空格,转换全角符号;

数据清洗f1(x)

根据微博文本长度,删除无意义的空值(转发类型的微博文本除外); 根据微博文本标识,删除重复值; 根据用户标识,删除重复值。

根据数据结构组织的特点,将微博文本分别转换为原创、转发、评论三种,并增加“类型”字段; 统一编码格式;

数据转换f2(x)

将繁体中文转换为简体格式;

根据元数据模型统一各个微博平台枚举类型属性的值,包括用户性别、用户所在城市等。

对微博文本和用户简介等较长的文本进行中文分词处理,提取关键词及

分词f3(x)

其词频和词性。

根据元数据模型抽取原始语料中对应的属性信息,并拆分为不同字段进

元数据抽取f4(x)

行存储,对于关系型元数据,则需要单独建立存储单元。

28

华中科技大学硕士学位论文

4.3.2

短文本聚类图式

短文本聚类主要包括文本特征选择及聚类分析。

在文本特征选择方面,由于短文本具有稀疏性、实时性、不规范性等特征,使用传统方法容易出现特征向量稀疏的不足,需要对传统的基于词频的特征提取方法进行改进。鉴于从140字的文本中抽取的关键词重复出现的情况非常少见,如果直接根据其本身包含的关键词的词频来确定特征项,容易出现找不到特征项的情况;如果直接将分词得到的关键词全部作为特征项,就无法区分各个词的权重。为此,将全部微博语料分词后产生的关键词集合在一起,并将关键词在该集合中的出现次数作为其词频,然后基于这个词频指导特征项的选择,最后采用向量空间模型表示微博文本特征。

在对微博文本进行聚类分析时,本文采用经典的余弦距离来描述微博文本之间的相似度。

短文本聚类图式g1(y)可以用以下过程进行描述:

(1) 将微博文本经过分词后得到的关键词集合筛选后作为特征项。

(2) 将所有特征项集合在一起,计算各个词语出现的频率,作为参考词频tfi,定义为:

(4.1)

其中:N表示所有特征项出现的次数之和,ni表示第i个特征项出现的次数。 (3) 应用TF*IDF得到特征项的权重wi,定义为:

(4.2)

(4) 采用向量空间模型表示微博文本特征,如:

(4.3)

其中w1, w2, …, wn为微博文本中对应的特征项的权重。

(5) 随机选取一个微博语料作为种子,形成初始热点簇,比较其他语料与种

29

华中科技大学硕士学位论文

子语料的相似度

(6) 若

,那么语料S2形成一个新的种子及新的初始热点簇;若

,那么将语料S2加入S1所在的热点簇,并更新种子语料的特征项及权

重。其中θ为相似度阈值,更新特征项及权重的方法为:将两个语料的特征项合并后再重新计算权重。

(7) 重复(6)操作,直到所有语料处理结束。 4.3.3

中心化图式

本文在中心化模型中引入度指标(DC)、介数指标(BC)、紧密度指标(CC)、影响力指标(IC),用于估计微博语料之间的集中化程度。这些指标基于传播路径和用户行为以权重因子的方式影响微博相似度,用中心化图式g2(y)表示如下:

(1) 度-介数指标 (DC-BC):基于传播路径计算单个原创类型的微博语料的集中化程度,用Cd·b表示。以某一原创微博为根节点,根据评论和转发的传播路径生成树状结构。子节点yi的度指标定义为式4.4,表示其包含的子节点个数;子节点yi的介数指标定义为式4.5,表示子节点对根节点的影响力;将两者结合,就可以计算以根节点为中心的传播影响力,用度-介数指标表示为式4.6。

(4.4) (4.5)

(4.6)

(2) 紧密度指标(CC):可用于计算两个语料在指定元数据下的属性值的相似程度,用Cc表示。常用的运用紧密度指标的元数据类型如所在城市、用户标签(代表用户的兴趣),在计算语料相似度时,语料作者对应的元数据的相似程度可以作为权重因子。

(3) 影响力指标(IC):基于用户关系网络元数据,根据用户的认证标志、微

30

华中科技大学硕士学位论文

博数、粉丝数、关注人数等元数据的属性值,计算单个微博语料的作者的影响力,用Ci表示,定义为:

(4.7)

其中:Na、Nb、Nc、Nd分别代表认证标志、微博数、粉丝数、关注人数。为了区分四者的重要程度,引入α、β、γ、δ作为权重。

4.4 基于定制分类要求的热点发现

4.4.1

语料选择

区别于现有基于微博的单一维度的网络热点话题应用,本文通过元数据模型和数据仓库技术,可实现定制分类要求的热点发现。定制分类是指选取指定分类范围内的语料进行热点发现,根据元数据模型的支持程度列举几个基本的定制分类及相应的语料如下。需要说明的是,基于元数据模型的可扩展性,定制分类要求也可以有各种新的组合。

基于时间的热点发现:即获取某个时间范围的热点,例如今日热点。需要根据微博发布的时间属性,选择符合时间要求的语料样本,该样本可以通过创建微博-时间数据集市获取。

基于地域的热点发现:即获取某个地域的热点,例如北京市的热点。需要根据微博作者对应用户的所在城市属性,选取符合地域要求的语料样本,该样本可以通过创建微博-地域数据集市获取。

基于用户兴趣的热点发现:针对用户不同的兴趣,获取相应领域的热点,例如互联网热点。需要根据微博作者对应用户的标签属性,选取标签中包含指定兴趣的用户创造的语料作为样本,该样本可以通过创建微博-用户标签数据集市获取。

综合热点发现:将单一条件进行组合,获取综合分类条件的热点,例如今日北京市的互联网热点。需要综合考虑分类条件,选择符合所有条件的语料样本,该样本可以通过创建相应约束条件的数据集市获取。

31

华中科技大学硕士学位论文

4.4.2

图式匹配

基于定制分类要求选择不同的语料后,由于抽取的属性不同,造成加工过程的输入不同,需要进行不同的加工。图式匹配是选择合适加工图式的过程,根据输入值的特点选择与之匹配的加工图式,若缺乏相应图式库,则需要创建新的图式。

针对前面列举的几个基本的定制分类语料,都需要经过预处理图式和短文本聚类图式加工,在运用中心化图式时则有所选择。其中,度-介数指标都可以用到,紧密度指标主要用于基于时间的热点发现、基于地域的热点发现、基于用户兴趣的热点发现,综合热点发现则需要用到所有中心化指标。 4.4.3

热点发现及评测

经过微博文本聚类及中心化图式的加工后,形成了一系列候选热点簇集合。定制分类条件保证了热点发现的多样化和灵活性,文本聚类有利于基于语义相似度生成集合,而中心化加工则反映出人群广泛关注的特点,根据前面网络热点的定义,热点发现的结果将出现在这些候选热点簇集合中。

首先,将候选热点簇集合按照大小进行排列,语料个数多、语料簇最后生成的中心的特征向量权重高,成为热点语料簇的概率越大。然后设定阈值,从候选热点簇中筛选出大于阈值的集合,观察集合中包含语料的发布时间,根据日期、语料个数生成演化周期图。由于热点的生命周期要经历一个由低到高再转入低的出生、生长、成熟和死亡的演变过程,因此根据演化周期图的曲线特点,可以过滤掉那些通过相似度计算所得的热度得分虽高,但不符合热点事件演变特征的集合。最后,将筛选出来的符合演变规律的热点簇集合中的特征项权重按照从高到底进行排列,权重最高的特征项就是最后发现的热点。

与话题发现与检测具有成熟的评测语料库不同,基于微博的热点发现没有成成熟的评测方法。目前,基于其他微内容(如博客、论坛)的热点发现主要根据类似功能的中文成熟系统(如Google资讯、百度新闻)的聚类结果构造测试集,本文在对热点进行评测时也将采用这些成熟系统的聚类结果作为参考,匹配程度可用于指导热点簇筛选的阈值调整。

32

华中科技大学硕士学位论文

5 实验与分析

5.1 实验过程

5.1.1

原始语料抓取及预处理

根据开放程度、用户活跃程度等特性,本实验选择国内市场占有率最高的新浪微博和腾讯微博作为原始语料来源,并采用免费开源的火车采集器(locoy.com)进行数据抓取。火车采集器在功能方面比较成熟和全面,支持Cookie登录、批量采集、简单文本处理、多线程操作,效率较高,采集的数据通过数据库进行存储。以新浪的“微博列表”和相关“用户信息”采集为例,具体采集任务配置如图5.1和图5.2所示。经过3个小时左右,一共抓取有效的新浪微博77361条,腾讯微博14310条。

图5.1 新浪微博列表采集任务配置

33

华中科技大学硕士学位论文

图5.2 新浪微博用户信息采集任务配置

原始语料抓取成功后,参照表4.3的语料预处理图式任务描述依次进行数据清洗、数据转换、分词、元数据抽取操作。其中对微博文本和用户简介等较长的文本进行的分词操作采用了综合性能优秀的权威汉语词法分析器ICTCLAS(ictclas.org),通过将当前网络流行词补充到词典,取得了较好的分词结果。最终得到原创类型的微博59302条,相关用户30290个,其中90%的发布时间分布在2010年10月13日至2010年10月19日之间。

由于实验条件的限制和对语料样本大小的考虑,本实验使用SQL Server 2000数据库建立语料中心,并通过视图建立相关主题数据的集合,用以模拟数据仓库的数据集市效果。 5.1.2

短文本聚类

通过对微博文本进行语法分析发现,用户在发布微博时可以通过“#”声明微博所

34

华中科技大学硕士学位论文

属的话题,微博平台也会不定期推荐话题,用户可以参与并发表包含该话题的微博。对于这种类型的微博文本,如果忽略用户故意引用话题却发布与话题无关的微博的情况,则可以直接引用其所属话题。在本实验中,一共有13757条微博属于这种类型,根据话题包含的微博数降序排列,排名前10的话题如图5.3所示。

图5.3微博数排名前10的话题(取自已声明所属话题的样本)

对于没有显性声明话题的微博文本,我们采用短文本聚类方法进行加工。在本实验中,一共有45545条微博属于这种类型。首先,通过对这些微博文本的分词结果进行调整(例如去除“是”、“ 有”、“ 可以”等未过滤的停用词)和分析,选择出现频率较高的100个关键词,包括房价、传、房产税、世博、限购令、中国、矿难、地震、亚运火炬、海南、股市、台风、加息等,并将互相关联的关键词进行整合,形成特征项集合,例如将“房价”、“房产税”、“限购令”合并为“房价”。然后,计算各个特征项出现的频率作为参考词频tfi,并应用到各个微博文本的向量空间模型。接着,随机选取一个微博文本作为种子,并计算其他微博文本与种子语料的相似度,根据结果形成包含相关微博的热点语料簇,包含微博数较多的语料簇如图5.4所示。

图5.4微博数排名前10的热点语料簇(取自短文本聚类分析结果)

35

华中科技大学硕士学位论文

5.1.3

中心化图式应用

短文本聚类从微博文本的语义切入,通过分词、聚类分析得到热点语料簇,然而,仅仅凭借特征项的权重计算两个微博文本的相似度,无法体现微博的传播特性和用户属性。本实验引入转发数和评论数来描述传播特性,并以用户性别为例描述定制分类要求的热点发现过程。

从传播特性来看,一条被转发/评论1000次的微博和一条没有被转发/评论的微博的影响是有很大不同的;与第N层评论/转发相比,直接评论/转发具有更大的影响力;名人和人气比较旺的用户发布的微博被转发和评论的概率更大,超出微博本身应该具有的影响力。由于获取详细传播路径的难度较大,本实验将传播特性的影响简化为:增加转发数和评论数作为微博权重的调整项,并引入转发因子(转发因子是引用玩聚网的相关统计:在新浪微博中,粉丝数和转发数的比率近似为1:10000,假设明星用户A的粉丝数为88万,则转发因子为880,此时如果他的一条微博被转发了1000次,当期望阈值设置为1时,那么1000/880=1.14,表示该转发数是超过预期的,因此该条微博是很有价值的。)弱化名人影响。在引入转播特性后,图5.4中的“海南暴雨”和“台风鲇鱼”排到了前列,说明这两类话题的微博具有更高的转发和评论数。

将用户性别作为定制分类条件进行实验时,如果只选择女性用户发布的微博作为语料,候选热点语料簇的结果相比图5.4发生了较大变化,具体如图5.5所示。从结果来看,女性用户对“足球”和 “股市”的关注明显较低,“粉红丝带”却引起了共鸣。

引入用户性别属性

图5.5 定制分类条件设为“女性”后的热点语料簇

36

华中科技大学硕士学位论文

5.2 实验结果与分析

通过对候选热点语料簇进行人工手动处理,结合热点演化的生命周期进行判断,本实验选出5个网络热点,并与2010年10月19日的新浪微薄、腾讯微博热门话题榜的前5位进行对比,如表5.1所示。

表5.1 实验结果

序号 1 2 3 4 5

实验结果

海南暴雨 台风鲇鱼 股市 矿难 地震

新浪微博

海南暴雨 台风鲇鱼 降温 足坛反赌风暴 火炬传递

腾讯微博

海南暴雨 降温 我最喜欢的书 分享音乐 世博

结合百度搜索风云榜(top.baidu.com)对结果进行检测时,发现实验结果列出的5个热点均有上榜,其中“台风鲇鱼”占据风云榜首位,总体来看,实验取得了较好的结果。

然而,由于实验是在语料抓取之后的三天完成,因此在预处理和候选语料簇选择的过程中,介入了较多的人工因素干预,例如在词典中加入网络热点流行词等。另外,在百度风云榜排名比较靠前的热点关键词中,实验结果只有一个,“海南暴雨”由于已经出现一段时间,在风云榜中的关注程度呈下降趋势,因此暴露出实验的很多不足,例如原始数据样本偏小,未分析图片内容,未构造微博传播树,未充分应用中心化图式等。这些问题将是今后工作的重点:扩展生产加工图式库,发掘微博元数据的应用以扩展中心化模型;增强实时处理技术的应用,探索更加有效的相似度计算方法;建立有效的热点评测方法;引入传播学、社会科学,探索与网络舆情等实际应用。

37

华中科技大学硕士学位论文

6 结束语

微博作为一个新兴的网络媒体和社交平台,是网络热点重要的发源地和传播途径。本文通过综合运用生产运作理论和信息技术,立足于建立基于微博的网络热点发现平台,从海量的“光速微博碎片”中挖掘实时网络热点,减少用户在微博平台的“信息迷失”。论文的主要贡献如下:

(1) 提出了微博网络热点发现的生产加工模型,将海量的“光速微博碎片”当成原材料,通过对其进行预处理初加工和聚类、中心化深加工,实现从原材料到零件再到热点语料簇的转换;

(2) 建立了基于传播路径和用户行为的中心化模型,通过微博平台的开放性特性和丰富的元数据,完善了仅仅基于聚类分析的热点发现的不足,实现了基于定制分类要求的热点发现。

由于研究从信息/知识管理、企业生产与运作管理、系统科学、信息技术等多种交叉学科,在研究的实际过程中还有一些问题需要解决和改进,这些问题将是今后工作的重点:扩展生产加工模式库,发掘微博元数据的应用以扩展中心化模型;增强实时处理技术的应用,探索更加有效的相似度计算方法;建立有效的热点评测方法;引入传播学、社会科学,探索与网络舆情等实际应用。

38

华中科技大学硕士学位论文

致 谢

随着论文工作的结束,我也即将结束硕士研究生的学习生活。过去两年半一路走来,师长、朋友、家人的帮助让我受益良多。

衷心感谢我的导师蔡淑琴老师在我四年本科和两年半硕士研究生期间给予我的悉心教导和帮助,蔡老师渊博的知识、严谨求实的治学态度让我受益匪浅。在研究方向和方法上,她给予我耐心细致的指导;在实际的研究工作中,无论遇到什么样的问题都能得到蔡老师最大的帮助。学业上,蔡老师始终给予我精心的培养;生活中,蔡老师也始终关心和鼓励我;在人生方向的选择上,蔡老师也给了我很多的建议,在此向蔡老师致以衷心的感谢。

感谢实验室吴颖敏、张星、肖泉、张宇、谭婷婷、Nabeel、湖慕海、马玉涛、周鹏、邓运博士,邱洁、王旸、段磊、王笑、郑婷、袁乾硕士,他们在我的研究工作中给我提供了大量的资料,并提出了很多建议,在我碰到问题和困难时鼓励我,帮助我找到解决办法,这将成为我人生中一段美好的回忆。

最后,感谢父母的支持,感谢所有曾经帮助过我的老师和同学。在以后的人生道路上,我会更加的努力,不辜负大家对我的期望。

39

华中科技大学硕士学位论文

参考文献

[1]

Chang C H, Hsu C N, Lui S C. Automatic information extraction from semi-structured Web pages by pattern discovery[J].Decision Support Systems, 2003, (35):129-147.

[2] Costenbader E. The stability of centrality measures when networks are sampled[J].

Social Network, 2003, 25(4):238-307.

[3] Craswell N, Hawking D, Thistlewaite P. 1999. Merging results from isolated search

engines[C]. In:Auckland, New Zealand. Proceeding of the tenth Australasian database conference.

[4] Dholakia U M, Bagozzi R P, Pearo L K. A social influence model of consumer

participation in network- and small-group-based virtual communities[J]. International Journal of Research in Marketing, 2004:241-263.

[5] Hai Y L, Yu Q F. A measure of authors’ centrality in co-authorship networks based

on the distribution of collaborative relationships[J]. Scientometrics, 2009, 81(2):499-511.

[6] Hido S, Tsuboi Y, Kashima H, Sugiyama M, et al. 2008. Inlier-based Outlier

Detection via Direct Density Ratio Estimation[C]. In: Pisa. ICDM '08. Eighth IEEE International Conference on Data Mining, 223-232.

[7] Jordan. Surles assemblages deslignes[J]. Math, 1869, 70(4):185-190.

[8] Kathleen R, McKeown, Barzilay R B. Tracking and Summarizing News on a Daily

Basis with Columbia’s Newblaster[C]. In Proceedings of the Human Language Tectmology Conferenee, Vancouver, 2002:162-168.

[9] Katz B, Marton G, Felshin S. Question Answering Experiments and Resources[C].

In Proceedings of the Fifteenth Text Retrieval Conference, Maryland, USA, 2006:133-140.

[10] Knorr E M, Ng R T, Tucakov V. 2000.Distance-based outliers: Algorithms and

applications[J]. VLDB Journal: Very Large Databases, 8:237-253.

[11] Leek T, Jin H, Sista S, et a1. The BBN Crosslingual Topic Detection and Tracking

System[C]. In Working Notes of the Third Topic Detection and Tracking Workshop. Vienna, Virginia, 2002:332-346.

[12] MaLkonen J, Ahonen-Myka H, Salmeakivi M. Topic Detection and Tracking with

Spatio-temporal Evidence[C]. In Proceedings of the 25th European Conference Oil Information Retrieval Research (ECIR), Pisa, Italy, 2003:251-265.

40

华中科技大学硕士学位论文

[13] McCreary J. Comparison of centrality estimators for several distributions[J].

Tennessee Technological University Tech.Report, 2001, 3(1):1-24.

[14] Radev D, Otterbacher J, Winkel A. NewsInEssence: Summarizing Online News

Topics[C]. Communications of the ACM, 2005, 48(2):95-98.

[15] Walls F, Jin H, Sista S, et a1. Topic Detection in Broadcast News.[C] In

Proceedings of the DARPA Broadcast News Workshop, Herndon, USA, 1999:193-198.

[16] Ye H M, Cheng W, Dai G Z. Design and Implementation of On-Line Hot Topic

Discovery Model[J]. Wuhan University Journal of Natural Sciences, 2006, 11 (1):021-026.

[17] Yeung C A., Liccardi I, Lu K, et al.2009. Decentralization: The future of online

social networking[C].In:W3C Workshop on the Future of Social Networking Position Papers. [18] 百度新闻.http://news.baidu.com/[OL]. 2007.

[19] 邓尚民, 孙玉伟. 国内外信息抽取研究的文献计量分析[J].图书情报工作, 2006,

50(12):92-94,108.

[20] 龚海军. 网络热点话题自动发现技术研究[D]. 华中师范大学, 2008.

[21] 洪宇, 张宇, 刘挺等. 话题检测与跟踪的评测及研究综述[J]. 中文信息学报.

2007, 21(6):71-87.

[22] 洪宇, 张宇, 刘挺等. 网络舆论传播的无标度特性及其衰减模型的研究[J]. 北

京交通大学学报. 2008, 32(2):67-70.

[23] 黄永光. 面向变异短文本的快速聚类算法[C]. 全国网络与信息安全研讨会,

2005.

[24] 贾自艳, 何清, 张海俊等. 一种基于动态进化模型的事件探测和追踪算法[J].

计算机研究与发展, 2004, 41(7):1273-1280.

[25] 李保利, 俞士汶. 话题识别与跟踪研究[J]. 计算机工程与应用, 2003,

39(17):6-10.

[26] 刘昊. 网络舆论的形成机制与调控策略研究[D]. 电子科技大学, 2004. [27] 刘美玲. BA无标度网络模型的应用及扩展[D]. 武汉理工大学, 2005.

[28] 刘星星. 热点事件发现及事件内容特征自动抽取研究[D]. 华中师范大学,

2009.

[29] 刘毅. 网络舆情研究概论[M]. 天津:天津人民出版社,2007:53-54.

[30] 罗亚平. 基于用户浏览行为的网络热点话题发现模型研究[D]. 北京邮电大学,

41

华中科技大学硕士学位论文

2008.

[31] 王娟. 网络舆情监控分析系统构建[J]. 长春理工大学学报: 高教版, 2007 (12) :

201-203,214.

[32] 王林, 藏冠中, 基于复杂网络社区结构的论坛热点主题发现[J]. 计算机工程.

2008, 34(11):214-216,224.

[33] 王伟, 许鑫. 基于聚类的网络舆情热点发现及分析[J]. 情报分析与研究. 2009,

(3):74-79.

[34] 王丫. 网络新闻流中热点事件识别与跟踪算法的改进与验证[D]. 燕山大学,

2007.

[35] 王永恒. 海量短语信息挖掘技术的研究与实现[D]. 国防科学技术大学, 2006. [36] 熊家余. 社会热点成因分析[J].新闻前哨,2000(04). [37] 杨梅. 网络舆情热点发现的研究[D]. 北京交通大学, 2008.

[38] 杨震, 段立娟, 赖英旭. 基于字符串相似性聚类的网络短文本舆情热点发现技

术[J]. 北京工业大学学报. 2010, 36(5):669-672.

[39] 于满泉, 骆卫华, 许洪波等.话题识别与跟踪中的层次化话题识别技术研究[J].

计算机研究与发展, 2006, 43(3):489-495.

[40] 张贝妮. 在线新闻话题识别中的聚模型设计与聚类算法研究[D]. 北京大学,

2006.

[41] 张婧婧, 李全胜, 达新民. 一种评定复杂网络中心化程度的新方法[J]. 复杂系

统与复杂性科学. 2008, 5(3):68-72.

[42] 张婧婧. 复杂网络中心化的研究[D]. 西安理工大学, 2007. [43] 张颖. 基于“XML”的地理信息元数据系统[D]. 北京大学, 2001.

[44] 赵华, 赵铁军, 张姝. 基于内容分析的话题检测研究[J]. 哈尔滨工业大学学报,

2006, 38(10):1740-1743.

[45] 郑军. 网络舆情监控的热点发现算法研究[D].哈尔滨工程大学, 2007. [46] 郑桢. 基于链接分析的web组合分类器研究[D]. 海南大学, 2008.

[47] 周亚东, 孙钦东, 管晓宏等. 流量内容词语相关度的网络热点话题提取[J]. 西

安交通大学学报. 2007, 41(10):1142-1150.

[48] 周亚东, 孙钦东, 管晓宏等.流量内容词语相关度的网络热点话题提取[J]. 西

安交通大学学报,2007,41(10):1142-1150.

42

基于微博的网络热点发现模型及平台研究

作者:

学位授予单位:

张静

华中科技大学

本文链接:http://d.g.wanfangdata.com.cn/Thesis_D189023.aspx

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- xiaozhentang.com 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务