您好,欢迎来到小侦探旅游网。
搜索
您的当前位置:首页中文微博的热点话题检测及趋势预测算法研究

中文微博的热点话题检测及趋势预测算法研究

来源:小侦探旅游网


摘 要

微博已成为信息时代优秀的主流自媒体平台,作为网民发布、获取信息的关键桥梁,微博话题与现实社会民情紧密相联。对微博热点事件的检测与分析是网络舆情监测工作的一项重点,如何在海量微博数据中提取有效的热点信息,以及如何正确跟踪关键热点信息,已经成为微博数据挖掘的研究重点。

支撑一条微博参与到热点话题的关键因素是微博内容,因此以微博内容为出发点研究微博热点话题的抽取与预测工作是有效的。论文提出一种基于内容的中文微博热点话题检测与趋势预测算法。通过对微博的文本内容特征和传播特征的研究,针对其文本短、词频低、互动功能使用频繁等特点,结合LDA话题抽取结果设计出基于内容的热点话题检测算法(LDA driven Content-based Hot topic detection Algorithm, LDA-CHA);然后基于所检测的热点话题结果,构造基于话题内容参与状态的隐马尔科夫模型(Content Participation-based Hidden Markov Model, CPHMM),有效预测热点话题的短期热度趋势。论文主要工作及创新如下:

(1)分析研究传统热点检测方法的特点,并结合微博自身影响力特征,论文提出基于内容的热点话题检测算法LDA-CHA,同时从语义和词频两个角度考虑微博的文本特征,综合微博转发、评论、点赞等直接传播特征,考察其线性关系并通过因子分析法改进微博热度计算公式,并结合语义权重和词频权重改进话题热度计算公式,有效地提升热点话题检测的准确率。

(2)热点话题的热度趋势预测。通过对热点话题的微博内容参与率和话题热度状态的定义与识别,在LDA-CHA热点检测结果的基础之上,论文构造了用于热点话题趋势预测的隐马尔科夫模型CPHMM,通过训练能够学习出模型参数的局部最优解,经过评估训练所得的预测模型相对可靠,其计算复杂度与输入语料的规模亦在可接受范围内,预测结果具有可信性。

(3)论文基于真实微博数据集,实验验证了热点话题检测结果的准确性,评估了热度趋势预测模型的可靠性,对比实验结果充分证明了论文模型的有效性。

关键词:微博热点,话题检测,趋势预测,LDA,隐马尔科夫模型

I

II

ABSTRACT

Microblog has become the important bridge for publishing and obtaining information. Microblog topics reflect the real conditions of the society. How to extract effective information in the massive microblog hot data, and how to track key hotspot information correctly, have become the focus of research in microblogging data mining.

The key element which makes a micro-blog participate in one hot topic is micro-blog content, so it’s reasonable to extract micro-blog hot topic based on the microblogging content. Through the research on the dissemination features and text features of micro-blog, according to the short text, low word frequency, and the frequent use of interactive functions, the thesis designs a LDA driven Content-based Hot topic detection Algorithm, and then a Content Participation-based Hidden Markov Model is proposed in this paper. The main work and innovation are as follows:

(1) Based on the research status at home and abroad, the algorithm LDA-CHA, considering both the semantic and textual features of micro-blogs, is proposed to extract hot topics. The communication characteristics such as forwarding, comments and praise also have contribution to the attention of a micro-blog. By learning the numerical relationship among them, a function is set up to compute the heat value for one single micro-blog. Then a formula of computing heat value for one topic is proposed combined with the semantic weight and word frequency weight, which effectively improve the accuracy of hot topic detection.

(2) After the definition and recognition of the Microblogging Content Probability and Topic Heat State, the thesis construct CPHMM to forecast the trend of hot topic. The local optimal solution of the model parameters is learned by training procedure. The evaluation prove that the prediction model is relatively reliable, and the complexity and the scale of the input is in the acceptable range. The prediction results have certain credibility.

(3) The work is based on real microblog data set. A series of experiments are designed to verify the accuracy of hot topic detection algorithm and the reliability of the trend prediction algorithm. The experimental results have proved the validity.

KEY WORDS: Microblog Hot Topic, Topic Detection, Trend Prediction, LDA,

Hidden Markov Model

III

IV

目 录

摘 要 ..................................................................................................................... I ABSTRACT ........................................................................................................ III 第1章

绪论 ....................................................................................................... 1 1.1.1 研究背景 ....................................................................................... 1 1.1.2 研究意义 ....................................................................................... 3 1.2 国内外研究现状 ...................................................................................... 5 1.3 论文主要工作及创新 .............................................................................. 7 1.4 论文的组织结构 ...................................................................................... 8 第2章

课题相关理论 ....................................................................................... 9 2.1 文本表示模型 .......................................................................................... 9 2.2 文本特征选择与权重计算 .................................................................... 10

2.2.1 常用特征选择法 ......................................................................... 10 2.2.2 常用权重计算法 ......................................................................... 11 2.3 潜在狄利克雷模型 ................................................................................ 12 2.4 隐马尔可夫模型 .................................................................................... 13

2.4.1 前向算法 ..................................................................................... 15 2.4.2 后向算法 ..................................................................................... 15 2.4.3 前向后向算法 ............................................................................. 16 2.5 本章小结 ................................................................................................ 16 第3章

热点话题检测与趋势预测算法 ......................................................... 17 3.1 热点话题定义 ........................................................................................ 17 3.2 热点话题检测与预测算法框架 ............................................................ 18 3.3 基于内容的热点话题检测算法 ............................................................ 19

3.3.1 数据预处理 ................................................................................. 19 3.3.2 话题抽取与去噪 ......................................................................... 21 3.3.3 基于传播特征的微博热度计算 ................................................. 22 3.3.4 基于词频的话题热度计算校正 ................................................. 24 3.3.5 检测模型评估方法 ..................................................................... 25 3.4 热点话题趋势预测 ................................................................................ 27

V

1.1 研究背景与意义 ...................................................................................... 1

3.4.1 话题热度状态识别 ..................................................................... 27 3.4.2 基于内容参与状态的隐马尔科夫模型 ..................................... 28 3.4.3 预测算法评估方法 ..................................................................... 29 3.5 本章小结 ................................................................................................ 30 第4章

实验与分析 ......................................................................................... 31 4.1 数据集 .................................................................................................... 31 4.2 基于内容的热点话题检测算法实验与评估 ........................................ 32

4.2.1 实验过程 ..................................................................................... 32 4.2.2 实验评估 ..................................................................................... 33 4.3 话题趋势预测算法实验与评估 ............................................................ 37

4.3.1 实验过程 ..................................................................................... 37 4.3.2 实验评估 ..................................................................................... 38 4.4 本章小结 ................................................................................................ 42 第5章

总结与展望 ......................................................................................... 43 5.1 总结 ........................................................................................................ 43 5.2 展望 ........................................................................................................ 44 参考文献 ............................................................................................................... 45 附 录 ................................................................................................................... 49 发表论文和参加科研情况说明 ........................................................................... 51 致 谢 ................................................................................................................... 53

VI

第1章 绪论

第1章 绪论

本章首先阐述论文的研究背景和研究意义,分析关于微博平台热点话题检测与趋势预测的背景,其次分析国内外研究现状,指出热点趋势预测中亟待解决的问题,最后针对这些问题并结合研究内容安排论文结构。

1.1 研究背景与意义 1.1.1 研究背景

在信息化的推动下,社交网络服务(Social Networks Service,SNS)成为Web 2.0下的典型应用。SNS以用户之间的关系为纽带,以信息分享为目的,模拟出一个类似于实际社会中的人际关系网络结构。社交网络中的每个用户节点都推动着信息的产生和传播,因此,相对与传统的网络媒体如主页、论坛和社区等,社交网络拥有更大的用户群和更强的用户黏性。事实上,SNS平台上的用户关系多数正是基于真实世界中的用户关系和用户相近的兴趣爱好而产生的。社交网络中的用户关系维系着真实社会中差序格局的状态,而针对关系而言,差序格局是判断信息强弱、可信与否、扩散快慢的重要依据。社交网络服务的发展验证了“六度分割理论[1]”,即“人际关系脉络方面必然可以通过不超出六位中间人间接认识世上任意其他人”,个体的社交圈会不断扩大并重叠以形成最终的完整社交网络。由于SNS平台的关系型用户网络与真实世界的关系型用户网络存在相互映射的关系,此平台上的信息传播依然符合真实世界人际关系网络里信息传播的基本规律[2]。显然,社会舆情越来越多地体现在社交网络中,对网络舆情的监控及预警成为相关舆情监管部门的工作重点,也使得网络舆情监控需要有强大的科学技术支持。

微博已经成为一种新兴的、使用广泛的、基于用户关系的消息共享和交换平台。最早提供微博服务的是美国的Twitter,Choudhury和Gaonkar等从技术角度定义微博为一种集合了手机传感器、无线网络、信息处理和空间可视这四种要素的多媒体博客[3]。国内的新浪微博和腾讯微博等微博平台,均拥有过亿的用户,极大地方便了民众对信息的发布、获取、共享及传递。在微博应用中,用户可以通过发表不超过140字的短文本以及一些图片来进行状态更新,以记录日常生活、分享有趣的见闻或者吐露对社会问题的感想;用户也能够关注任何符合个人

1

第1章 绪论

兴趣的其他账号,关注之后可以及时收到被关注用户发布的状态消息;用户还能够转发感兴趣的博文、评论有共鸣的内容、为同意的内容点赞、提到某些特殊用户以及参与某个热门话题等。以新浪微博为例,“//@用户名U:”表示转发用户U的一条微博消息,冒号后面是用户U的博文内容,转发后此消息会推送到自己的微博上;“@用户名U”中@表示在微博消息中提到用户U,用户U也会收到在该条博文中被提到的消息提示;“#话题#”表示该微博消息所属的话题信息。微博简单易用的发布方式、多样化的信息传播功能以及大规模的社交关系网络,使得消息在微博平台上能够极快地扩散传播。一旦某条微博具有热点潜力,经过用户关系网的层层转发推送,该微博的受众面会以指数级别上升,并有爆炸式的扩散速度。艾瑞IUT的数据显示[4],截至2010年7月份,新浪微博平台产生的微博总数超过9000万,月覆盖人数4400万,每天产生超过300万条微博,平均每秒有近40条微博被发布。凭借消息传播优势,微博已然成为民众发表和获取信息的主要渠道之一。

作为优秀的SNS平台,微博已经成为社会舆情传播的重要载体,特别是在突发和热点事件中,微博的影响规模和信息传播速度远远超越了普通社交平台和传统新闻媒介。热点话题是网络用户兴趣点的实时聚焦,是热点事件和舆论导向的风向标。网络话题是热门话题的充分条件,热门话题以网络话题为基础,一切可以在互联网上引起关注与讨论的事件或言论,通过吸引大量微博用户和具有影响力的意见领袖参与讨论,热度值升高从而成为热门话题。热门话题继而成为舆论议题的充分条件,在大量的热门话题中,部分事件依靠较大的争议性、公共性、周期性和影响范围,引发较长时间、较大范围的讨论,获得较长的生存期并得到相当数量公众的关注,甚至于引起线下的民众组织活动。由此可见,微博热门话题和社会舆论紧密关联。每一个用户都是热门话题的制造者和传播者,微博热门话题的形成很大程度上反映出微博用户的参与度和关注度,热门话题是对特定时间段社会舆论导向的客观反映,是民众群体意志的体现。不限于此,微博热门言论还会在很大程度上对民众的情感倾向造成影响,微博中充斥着大量正负面消息,一些不法分子甚至妄图通过渗透反动思想的逐渐混淆民众视听,激发民众在真实生活中做出危害社会的活动,微博显然已成为不可小觑的舆论平台。基于这种现状,政府舆论监管部门也越来越多的将监控工作重点转向微博平台,监管工作也愈发需要微博热点话题的科学研究技术的支持。

“作为一种新型的公共话语平台,微博的发展使传统媒介传播机制发生着改变[5]。”微博内容的文本精简,主题突出,聚焦性好,形成了个人电脑和移动终端上完全不同于以往的用户体验与行为方式,是用户情感和意见的直接表达。每个终端的背后都存在着一个真实社区活动的用户,微博的消息传递方式具有很高

2

第1章 绪论

的实时性、可追溯性和可信性。这是一种依赖于所有者社会资源的消息传播方式

[6]

,此特性促进了信息主动、快速地推送;同时,多终端的消息捕获方式提高了

事件的实时性;再者,丰富的用户互动方式(如关注、转发等),使得微博内容在关键用户的影响下,更加迅速、广泛地传播。无论从时间成本、资源占用成本还是用户使用成本来看,微博的内容传播成本很低,造成的直接结果就是:极易产生爆炸性内容,且影响力大,消逝速度快。结合微博消息的传播特点,并考虑到热点话题对真实社会舆论导向的影响力,且微博言论良莠不齐,有必要对关键热点话题进行重点监测,并且预知其发展趋势,甚至对热点信息的传播过程进行人工干涉,最终准确获取舆情信息并合理地正向控制舆论导向,积极促进和谐社会的构建。

综上所述,微博在信息传播方面较其他传统SNS平台的优势显而易见,目前该平台已成为理论研究和应用开发的热点。通过研究微博热门话题的特点及发展趋势,能够有效帮助舆情分析、研究及预警等社会舆情监管工作。与此同时,对微博平台的理论研究也考验着科研人员对海量数据的分析与驾驭能力,在热点话题检测及话题趋势分析方面依旧面临巨大挑战。

1.1.2 研究意义

微博从众多自媒体平台脱颖而出,成为网民互联沟通的关键桥梁,与现实社会紧密耦合。截至目前,微博用户仍在激增,网民通过微博参与社会各类话题讨论的热情急剧高涨,微博平台成为网络舆情的重要发源地。对微博热点事件的检测无疑是舆情监测工作的一项重点。越来越多的科研工作者开始以微博平台为基础,对微博热点话题的抽取及趋势预测工作开展相应研究,以期对网络舆情检测工作有所推动,有效清除公共安全隐患。

首先,网络舆情对公共安全的影响不容忽视,需要快速有效的技术手段支持网络舆情监测。网络舆情是一种新的舆论形态,由于虚拟世界的自由度和自主性相对提高,网络舆情逐渐成为社会舆论的集散地和放大器。积极的舆论能引领和推动社会经济发展,消极反动的舆情也能混淆民众视听并妨碍社会管理。舆论的效力更多体现在热点事件发生之后,特别是在各种复杂因素和利益的推动下,网络舆情的负效应尤其容易放大,加之互联网强大的穿透力、互动力和扩散力,从而加剧了个体问题普遍化、简单问题复杂化、细小问题放大化等恶效应,甚至一些恶劣事件矛头直指政府、公务员等特定群体,故意激化社会矛盾,引发一系列连锁反应危害社会安全,严重影响建设和谐社会的进程。由此可见,加强对网络突发事件尤其是热点事件的舆情研究势在必行。舆情监测是整合网络信息,规范信息传播有序化的必要手段。舆情监测是指针对网络各类信息采取汇集、分类、

3

第1章 绪论

整合等智能处理技术,通过对热点问题和重点领域的内容进行自动采集、自动分类聚类、主题检测、专题聚焦、敏感词过滤、统计分析等处理,形成文字简报、研究报告和图表分析等内容,为决策层全面掌握群众思想动态和舆情动态,提供精准的分析依据[7]。网络信息瞬息万变的特点要求舆情监测具有实时性、全面性和精准性,从而在恰当的时机进行人为干预,及时引导化解舆论危机。2014年8月新浪官方宣称新浪微博对谣言的首次响应时间已经缩短到8个小时,但新浪微博为此投入了大量人力,开销巨大。以往纯人工24小时机械化地过滤关键词的舆情控制方式已经过时,新型的消息传播方式需要更为科学的快速精准的监测手段,更离不开相关核心技术的理论研究。

其次,热点话题检测是舆情监测体系中的关键步骤,也是舆情分析的重要基础工作。以微博为首的社交网络服务平台上时刻充斥着大量的消息,其中大部分内容可能都与社会热点话题无关,这些与热门话题无关的消息被称为噪声。而只有对实时热点话题的研究才最有助于舆情监测分析工作,因此微博热点话题检测工作的总体任务就是,从大量充斥噪声的微博内容中过滤掉与话题无关的内容,再从话题相关博文内容中筛选出热门话题,并将相关微博按照热门话题归类,支持后续研究分析工作。一方面,从社会应用角度,微博热点话题检测能够帮助民众及时了解当前最火爆的公共兴趣话题与事件,也帮助政府舆情监管部门实时获取民生动态,有助于提前捕获威胁民众安全危险信息。另一方面,从理论支持角度,热点话题的检测结果是非常有价值的阶段性数据,该数据能支持很多延伸工作,如分析热点话题的热度趋势、从社会学角度分析热点话题参与群体的属性、从传播学角度研究热点信息的传播路径等。

再者,热点话题趋势预测是最体现舆情监测科学性的阶段,是话题检测工作的有力拓展。网络舆情的演化总是呈现一定规律的,利用科学的方法去把握热点事件生成、扩散和消减的演化规律,有利于政府在舆论引导、谣言遏制等方面做出更客观的决策。如2011年日本海啸引发中国“抢盐”事件,如果能准确预测“抢盐”话题的热度趋势,并分析出潜在的严重后果,能减少很多社会民众的财产损失;又如2015年1月16日歌手姚贝娜因乳腺癌去世,用户参与讨论共2830万条,准确地预测该话题内容热度趋势并分析话题内容组成,就能发现部分媒体的不当报道手段,从而采取合法手段阻止类似行为继续发酵。另外从企业角度出发,通过微博热点趋势预测,能够更精准地定位营销对象并制定合理地营销策略。对于个人,热点趋势的准确预测有助于改善订阅、追踪和话题参与的个性化体验。

总之,微博热点话题的抽取及趋势预测的研究是网络舆情管理的重要组成部分,对促成和谐社会的建设有重大意义,是一个重大且紧迫的时代课题。

4

第1章 绪论

1.2 国内外研究现状

为了充分利用微博蕴含的大量社会信息,国内外许多学者投入了大量精力和时间在各个层面展开对微博的研究工作。在语言分析层面,涉及词汇层(如中文分词、词性标注、去停用词),句法层(如语法分析、实体命名识别),语义层(如语义分析、语义处理);在语言技术层面,涉及信息检测,主题抽取,自动摘要,文本分类,对话系统,情感分析等;在应用层面,对微博文本的研究涉及如电子商务,电子学习,信息监控、舆情监测、民意调查,企业管理等多个领域。

论文关注的话题检测与趋势分析是主题检测与跟踪(Topic Detection and Tracking, TDT)技术的一项工作分支。TDT2004确定了TDT最新5项研究任务

[8]

,其中,主题检测(Topic Detection)要求新主题的发现和主题追踪两项任务共同

完成,主题跟踪(Topic Tracking)负责判断后续主题是否属于某个已发现的主题。潜在狄利克雷(Latent Dirichlet Allocation, LDA)模型是一种主题抽取模型,能够识别大规模文档集(Document Collection)或者语料库(corpus)中潜在的主题信息,且该模型更针对微博文本的特点。

TDT的主要目的是实现对新闻报道的主题抽取和新主题发现。国外对TDT的研究较早,马萨诸塞大学的James Allan等人已经试着将TDT主题检测的技术应用到实践当中[9][10]。Thorsten Brants等人开发了采用基于增量TF-IDF的方法来进行事件检测的系统[11]。Kumaran[12]和YimingYang[13]等人,将自然语言处理技术引入到主题检测中,并验证了自然语言技术确实能够有效地提高主题检测的质量。在国内,从1999年开始TDT系统评测会议引入了汉语。Mohd M等人证明聚类实验集群中聚类和主题的选择对于主题检测和跟踪任务很重要[14]。一种针对BBS的新测试方法包括基于候选主题集的高效主题聚类算法,它显著改善了BBS环境中TDT的精确度和时间复杂度[15]。Jin Y等人提出一个与带有后缀树聚类的语义分析结合的主题检测和跟踪方法,可从新闻文章中有效地检测和跟踪主题[16]。Amayri O等人提出一个统一的统计框架,允许主题聚类和特征选择同时进行,有效地在合理时间内改善了多样高维数据集上的主题检测质量[17]。

从微博内容的角度进行建模能更直接并准确地获得用户的主题模型。Thomas Landauer等人在文献[18]中给出潜在语义分析(Latent Semantic Analysis, LSA)模型,在LSA中,文本用训练出来的向量表示,高维文本向量被映射到潜在语义空间,并可以用来计算相似度。Thomas Hofmann在文献[19][20]中提出概率潜在语义分析(PLSA)模型,PLSA在LSA模型的基础上增加概率表示,在文件和词语之间加入主题层,建立文件-主题、主题-词语的概率模型,使用最大期望算法(EM)与最大似然估计可获得此模型参数;PLSA在性能上、在处理大规模

5

第1章 绪论

数据方面通常比LSA取得更好的效果。David M Blei等人在此基础上,提出狄利克雷LDA主题建模算法[21],在文件和主题之间引入Dirichlet先验(Dirichlet Prior)分布,解决PLSA在文档和主题之间没有统一的概率模型的问题,进而解决参数过多时PLSA容易产生的过拟合问题。之后,Ramage等人在LDA的基础上提出基于监督学习的算法Labeled LDA,能够进行文档-主题的有监督学习[22][23]。

论文所研究的话题趋势预测在国内外也有相关的研究基础。预测分析就是在事实的基础上,经过科学的调查分析,推测事件未来的发展趋势或走向。预测分析中需要采取的手段和方法,叫做预测技术。预测己经被应用在各行各业。如股票价格预测、原油价格预测、天气预报预测、洪水预测、电力市场预测等。Cha M[24]等通过考察入度,转发和提到(即微博中的@功能)三个指标,对用户影响力进行了研究,发现大部分微博网站用以作为排序的入度指标并不能很好的对用户的影响力记性度量,并根据自己的研究成果对如何提高用户在话题中的影响力提出了建设性意见。Weng J[25]等借鉴PageRank算法的思想,独创性地提出了Twitterrank排序策略,用以对Twitter中的用户影响力进行排序,同时考虑话题相似度和关系网络结构来提高算法的有效性。S. jamali[26]等提出了一种建立在分类和回归体系上的话题流行度预测算法。文章中主要使用用户评论数作为评估参数,并且结合社交网络的特征,最后在实际的网站上获得了较好的验证结果。Z.Hong[27]等利用数据挖掘和小波分析的趋势预测算法对网络论坛中的热点话题进行了预测。G.Szabo和B.A.Huberman[28]经过分析YouTube和Digg中用户的早期评论,引进了预测算法分析在线话题的长期发展趋势。M.Cheong[29]等借鉴人工智能领域的BPNN误差反馈式神经网络模型,对网络话题的变化趋势进行预测。Nikolov[30]提出了一种基于Twitter平台上某话题相关推文变化趋势的方法,此方法是一种无参数的随机统计模型。Nikolov认为Twitter是一个庞大的,无法用公式描述的复杂系统,应该用实际数据来对话题趋势问题建立模型。Nikolov提出的模型在真实数据集上取得了良好的效果。Takashi Menjo[31]基于另一个小众社交平台提出了一个预测社会化书签流行度的方法,其基本思想仍然是基于每个社会化书签被分享的数量变化趋势,然而在此基础上,Menjo加入了对于用户影响力的度量,该用户影响力可以从历史数据中获得,如果将社会化书签看做是一个话题,Menjo的研究具有一定的启发意义。

针对话题在新浪微博中的传播和影响,科研人员做了以下工作:Louis Lei Yu[32]认为新浪微博中的话题热度主要由用户转发微博来推动,而大量的转发其实是有小部分账号控制的,这些小部分账号其实就是新浪微博中所谓的“水军”。Fan Yang[33]首先分析了新浪微博中谣言的危害,然后利用新浪微博平台的特性抽取出了相关特征训练分类器,通过真实数据集的验证,分类器获得了较好的效果。

6

第1章 绪论

1.3 论文主要工作及创新

论文提出一种中文微博应用环境下的热点话题检测与趋势预测算法。通过分析微博平台上消息的传播特征以及热门微博的文本内容特征,针对其文本量小、词频度低、频繁互动等特点,论文设计出一个文本特征和传播特征相结合的基于内容的热点话题检测策略LDA-CHA,并在热点话题检测结果的基础上,应用隐马尔科夫模型,根据话题内容参与状态确定合适地观测序列,构造CPHMM算法,有效预测话题短期内的热度变化趋势。主要工作及创新如下:

(1)传统的热点话题抽取算法的设计角度比较单一。可以通过分类算法对微博内容分类形成话题,比如文献[34]介绍的支持向量积分类法、最近邻分类法、朴素贝叶斯分类法。但微博平台时刻涌现出大量新数据,包含各类事先未出现的新话题,因此客观上类别标签及分类数是无法准确确定的,在微博平台上发掘热点话题不适合用分类方法。应用词频统计的思想,词频较高的词语在一定程度上能代表微博热点词,然而微博文本短的特点无形中削弱了词频统计的优势,而且频率统计法本质上切断了词语之间的联系,很容易混淆或割裂文本语义。从用户角度考虑,领袖意见特征也用来辅助判断微博的热度值,但社会舆情类热点不具有明显的意见领袖特征。论文基于此现状,在无监督聚类算法LDA的基础上,提出基于内容的热点话题检测算法LDA-CHA,同时从语义和词频两个角度考虑微博的文本特征并结合消息的直接传播特征,并伴随有效的噪声处理过程,能够从内容匹配和排序结果上提高热点话题检测的准确率。

(2)社会热点话题的受关注程度受意见领袖影响的程度较小,主要由微博文本内容的影响力决定,而已有的话题热度计算方法多把意见领袖特征作为体现微博关注度的指标之一。论文针对检测社会热点的实际需求,从博文内容出发,综合微博转发、评论、点赞等直接传播特征,考察其数量关系并通过因子分析建立微博热度计算公式,之后结合语义权重和词频权重提出话题热度计算公式,作为话题所受关注度大小的评判指标。

(3)热点话题的热度趋势预测。通过对热点话题的微博内容参与率和话题热度状态的定义与识别,在热点话题检测结果的基础之上,论文构造了用于热点话题趋势预测的隐马尔科夫预测模型,通过训练能够学习出模型参数的局部最优解,经过评估训练所得的预测模型相对可靠,其计算复杂度与输入语料的规模亦在可接受范围内,预测结果具有可信性。

7

第1章 绪论

1.4 论文的组织结构

论文分为如下5章:

第1章,绪论。介绍课题的研究意义与国内外研究背景,提出论文的创新点和主要工作。

第2章,相关理论概述。首先介绍常用文本表示模型,然后对常用的几种用于微博文本的特征选择法与权重计算方法进行分析,接着阐述论文相关的话题检测算法与预测算法的基本原理,主要针对LDA算法、隐马尔科夫预测模型和相关参数采样过程进行分析。

第3章,详细介绍基于语义和传播特征的基于内容的热点主题检测及趋势预测算法。算法首先对大量的原始微博文本语料进行分词、去噪等预处理,然后从语义角度对文本集进行聚类,剔除平均概率较低的主题聚类结果,并选择具有代表性的传播特征属性,与文本词频特征相融合构造出特征向量,重新计算剩余高概率主题的热度值,具有高热度值的主题成为热点话题,最后提出一种基于隐马尔科夫模型的热点话题趋势预测模型。

第4章,实验与分析。首先详细介绍数据集的预处理过程和实验验证指标,继而对论文所提算法进行详细的实验验证,其中包括分别仅根据非语义特征和仅根据语义特征对热点话题检测结果的影响,对趋势预测模型算法的有效性进行评估。

第5章,总结与展望。总结论文整体工作,并分析论文中存在的不足,以及展望未来研究方向,探讨论文下一步工作。

8

第2章 课题相关理论

第2章 课题相关理论

2.1 文本表示模型

经典的文本表示模型有语言模型(Language Model, LM)[35]和向量空间模型(Vector Space Model, VSM)[36]。论文中单条微博的文本用向量空间模型表示。

向量空间模型是一个简单高效的文本表示模型,主要过程是:用空间中的一个向量代表文本,向量在特征空间的每一维代表一个特征词(文本中出现的单独的词汇);特征项的权重用对应维度的值来表示,权重衡量了该特征项对文档的代表性。例如对文本D,它的向量空间模型表示为DD(t1,w1;t2,w2;...;tn,wn) ,其中ti是特征项,wi是ti对应的权重,其中1in。对于D,各个特征项互不相同,且不关心特征项的先后顺序关系。把向量空间表示为一个n维坐标系,有特征向量t1,t2,...,tn,对应的权重为w1,w2,...,wn,这样空间中每个向量可以表示一个文本。文本的向量空间模型概念如图2-1所示。

图2-1 文本向量空间模型示意图

向量空间模型将文本数据结构化,使文本之间的关系可以通过向量之间的计算得到。向量空间模型已经在信息过滤、信息检索、关键词自动提取、文本分类等领域中广泛应用。

关于特征项之间线性无关的假设也是向量空间模型的一个缺点。由于自然语言中词语之间存在密切联系,即存在“斜交”情况,并非全部满足假定条件。此外,将汉语复杂的语义关系归纳为简单的数学向量,会掩盖许多有价值的信息。因此,论文也采用潜在狄利克雷模型获取微博的深层潜藏的语义结构,弥补向量空间模型的缺点。论文的热点话题检测模型综合两类算法的优点,充分保留语料的全局信息,更客观地表达了文本数据的相似度。

9

第2章 课题相关理论

2.2 文本特征选择与权重计算 2.2.1 常用特征选择法

目前常用的文本特征选择法有:基于文档频率的特征选择法、信息增益法、互信息法、2 统计量法[37][38]。

(1)文档频率提取特征。在训练语料中出现该词项的文档数是词项的文档频率(Document Frequency, DF)[39]。文档频率作为特征时要满足以下假设:DF值低于设定阈值的词项是低频词,它们不携带或携带较少的信息量,为有效降低特征空间的维度,可将低频词从原始特征空间中去除。该方法思想简单,容易实现。

(2)信息增益特征提取法。信息增益(Information Gain, IG)[40]是一种基于熵的评估方法,信息熵是信息的量化表示,能够衡量一个随机变量给整个系统带来的信息量大小。通过统计某特征项ti在类别Cj中出现与否的文档数来计算ti对类别Cj的信息增益,考虑出现前后的信息熵之差,信息增益计算如公式(2-1)所示。

IG(ti)p(ti)p(Cj|ti)logj1mp(Cj|ti)p(Cj)p(ti)p(Cj|ti)logj1mp(Cj|ti)p(Cj) (2-1)

其中,m为类别数。某个特征项具有的信息增益值越大,代表它对系统的贡献度越大,对全局的重要性也越大。选取特征时,可以将IG值小于设定阈值的词条从原始空间中移除,仅选择较大信息增益值的词条作为特征。

(3)互信息法提取特征。互信息法(Mutual Information, MI)在统计语言模型中应用广泛。互信息值越大,代表特征项与类别之间的关联度越大。对特征项ti与类别Cj,其互信息计算方法如公式(2-2)所示。

MI(ti,Cj)logp(ti|Cj)p(ti) (2-2)

可以计算获得特征ti与所有类别间的互信息值的最大项,如公式(2-3)所示。

MImax(ti)maxmj1MI(ti,Cj) (2-3) 其中,m为类别数。特征选取时,可以将信息增益值低于设定阈值的词项从原始空间中删除,仅选择具有较大信息增益值的词项作为特征。

(4)2统计量法。2统计量法也可用于衡量词条与类别之间的关联度,2统计值越高,特征项与类别的关联度越大,词条携带的信息量越多。2统计值的计算方法如公式(2-4)所示。

N(ADBC)2(ti,Cj) (2-4)

(AC)(BD)(AB)(CD)2其中,N为训练集中的文本数量,A为类别Cj下包含ti的文本数,B为类别

Cj以外但包含ti的文本数,C为类别Cj中不包含ti的文本数,D为类别Cj之外但

10

第2章 课题相关理论

包含ti的文本数。可以计算获得特征ti与所有类别间的2最大值,如公式(2-5)所示。

22(ti)maxmj1(t,Cj) (2-5)

其中,m为类别数。特征选取时,可以将2值小于特定阈值的词条从初始空间中移除,仅选择2值较大的词条作为特征。

2.2.2 常用权重计算法

特征提取后得到向量空间模型的特征项,然后需要用一种权重计算方法确定每个特征的权重。目前最常用的权重计算法主要有两种:一是布尔权重法,二是TF-IDF权重。

(1)布尔权重法。布尔权重法原理简单,特征项ti在文本Dj中的权重wij计算方法如公式(2-6)所示。

1, tfij0 (2-6) wij=0, tf0ij其中,tfij 表示特征项ti在Dj中出现的频度。如果文本Dj包含ti,则ti在Dj的向量表示中对应的权重值为1,否则为0。

(2)TF-IDF权重法。在文本表示模型中,TF-IDF方法[41]是目前最为常用的权重计算法,它弥补了布尔权重法无法体现特征项在文本中的重要程度的缺点。其核心思想是:一个词语在一篇文档中以很高的频率出现,而在其他文档中的出现频率较低,则认为该词语对文档具有很好的区分性。TF-IDF权重计算法的计算如公式(2-7)所示。

WeightTFIDF (2-7)

词频(Term Frequency, TF)是特征在文本中出现的频率。词条在某文本中出现的次数越频繁,说明该词条越能贴切地代表该文本内容,TF的引入强调了具有文档代表性的词条的重要程度。

逆文档频率(Inverse Document Frequency, IDF)是特征在整个文本集中出现的频率的倒数,计算方法如公式(2-8)所示。

IDFlogN (2-8) nN代表整个文档集的文档总数,n表示包含当前特征词项的文本数量。特征词条出现过的文档数越多,代表词条对于文档之间的区分度越差,IDF值越低。IDF的引入可以削弱那些在许多文档中频繁出现而区分度较差的词条的重要性。

TF-IDF权重计算法从词频和逆文档频率两个方面,保证特征项的权重与该特征出现在文本中的频度成正比,与文本集中出现该特征的文本数目成反比。

11

第2章 课题相关理论

2.3 潜在狄利克雷模型

潜在狄利克雷模型(Latent Dirichlet Allocation, LDA)是Blei等人在2003年提出的一种无监督机器学习技术,是一种三层贝叶斯概率模型,包含词语、主题和文档三层结构。LDA可以用来识别大规模文档集(Document Collection)或者语料库(corpus)中潜在的主题信息[21]。模型的三层结构首先假设了不同主题下词语按照不用的概率分布随机产生,一个主题下词语服从多项式分布;其次假设不同文档下主题依照不同的概率随机分布产生;最后对每一个文档从狄利克雷分布中抽样生成该文档的主题分布,结合主题与词语的概率分布生成文档中的每个词语。这种方法更针对微博文本的固有特点。LDA生成过程如下图2-1所示。

图2-1 LDA生成过程[21]

设D为文档集合,M为D中文档的数量,K为文档集合包含的主题个数,V为文档集合对应的词典。形式化语言描述如下:

(1)对于主题k1,...,K,选择一个V维的kDir();

(2)对于给定文档集中的每一个文档di,其中i1,...,D,选择文档的长度

NiPossion();

(3)对于文档集中的文档di,生成iDir();

(4)对于文档di中的每一个单词wi...n,按以下步骤生成:

选择一个主题zi...nMultinomial(i);

根据所选主题zi...n对应的词概率的分布Multinomial(),选择一个单词。

12

第2章 课题相关理论

通过以上步骤,推导出文档d中第i个特征词wi的生成概率P(wi)的计算方法如公式(2-9)所示。

P(wi)P(wi|zij)P(zij) (2-9)

j1K LDA模型的生成概率如公式(2-10)所示。

p(,z,w|,)p(|)p(zn|)p(wn|zn,) (2-10)

n1N其中,,分别为需要估计的参数。常用的参数估计方法有期望最大化、变分推理和Gibbs抽样算法。其中Gibbs抽样算法是马尔科夫链蒙特卡罗 (Markov Chain Monte Carlo, MCMC)[43]方法的简单实现,它不直接计算主题-词语分布 和文本上的主题分布,而是要首先构造一个马尔科夫链。构造马尔科夫链至关重要,构造方法不同则产生的结果也不同。通过抽样产生样本,并用这个样本构造收敛于目标概率函数的马尔科夫链。对一个观察词wn,可以用Gibbs抽样算法来获取词语在主题z上的后验分布P(wn|z)的近似值,根据该值确定其他词的主题分布,然后估算当前观察词wn被确定为其他主题的概率P(znj),之后间接计算主题-词语分布和文本-主题分布。因为Gibbs抽样算法在准确度和运行速度上有一定的优势,所以论文选择Gibbs抽样算法进行参数估计。使用Gibbs抽样算法的基本步骤如下。

(1)初始化zi为1到T之间的某个随机整数,i从1循环到N,N是语料库中出现在文本中的特征词标记个数。此为马尔科夫链的初始状态。

(2)i从1循环到N,将特征词分配给主题,获取马尔科夫链的下一状态。 (3)迭代第二步一定次数以后,认为马尔科夫链接近目标分布,于是取zi

d(i从1循环到N)得当前值作为样本记录下来。对于每一个样本,wj和j的估

算方法如公式(2-11)和(2-12)所示。

 djwjnwjnjndjnd (2-11) (2-12)

d其中,nwj是特征词w属于主题j的次数,nj是主题词j的特征词的个数,nj是文档d中特征词w属于主题j的次数,nd是文档d中主题j的特征词的个数。

2.4 隐马尔可夫模型

话题预测是以话题相关的内容或属性为目标的预测行为。近年的话题预测主要围绕在话题属性方面,如论文关心的话题热度趋势预测等。隐马尔科夫模型

13

第2章 课题相关理论

(Hidden Markov Model, HMM)是一种定量分析法,能够从概率统计方面对话题热度变化趋势进行预测[42]。隐马尔可夫模型是马尔可夫链的一种,它的状态不能被直接观测到,只能通过观测序列观察到,通过某种概率密度分布每个观测序列会表现为各种状态,每一个观测序列可由一个具有相应概率密度分布的隐含状态序列产生。所以,隐马尔可夫模型是一个双重随机过程,它具有一定状态数的隐马尔可夫链和显示随机函数集。HMM逐渐在语音识别、文字识别、移动通信领域取得重大应用成果。

隐马尔科夫模型可以定义为:=(N,M,A,B,) ,其中:

N={q1,q2,...,qN} :表示状态的有限集合; M{v1,v2,...,vM} :表示观察值的有限集合;

A{aij},aijP(qtSj|qt1Si) :表示状态转移概率矩阵;

B={bjk},bjkP(Otvk|qtSj) :表示观察值概率分布矩阵;

={i},iP{q1Si} :表示初始状态概率分布。

隐马尔可夫模型的应用需要满足如下三个假设:设一个随机事件有观察值序列:OO1,O2,...,OT ,该事件隐含一个状态序列:Q=q1,q2,...,qT。

假设一:马尔可夫性假设(状态构成一阶马尔科夫链),即i时刻的状态仅和i-1时刻的状态有关,与之前的状态无关,如公式(2-13)所示。

P(qi|qi1...q1)P(qi|qi1) (2-13)

假设二:不动性假设,即状态与具体时间无关,故论文前提为热点话题在某一时期内不会出现较大的增幅或减幅,如公式(2-14)所示。

P(qi1|qi)P(qj1|qj), 对任意i, j成立 (2-14)

假设三:输出独立性假设,即输出仅和当前状态有关,如公式(2-15)所示。

P(O1,...,OT|q1,...,qT)=P(Ot|qt) (2-15) HMM能够解决三个问题:

(1)评估问题,即对于既定模型,求某个观察值序列的出现概率P(O|); (2)解码问题,即对于既定模型和观察值序列,求最可能产生的状态序列

maxQ{P(Q|O,)};

(3)学习问题,即对于一个已知的观察值序列O,调整参数,使观察值以最大的概率P(O|)出现。

其中,解决这三个问题分别有相应的算法:

(1)评估问题:前向算法,借助前向变量,采用动态规划算法,复杂度

O(N2T) ;

(2)解码问题:Viterbi算法,采用动态规划思想,复杂度O(N2T); (3)学习问题:向前向后算法,EM算法的一个特例,带隐含变量的最大似然估计。

14

第2章 课题相关理论

2.4.1 前向算法

首先利用前向后向算法,训练得到模型,之后通过前向算法和后向算法来评估模型的准确性。

前向变量是指“在时间t,得到t之后的所有观察序列,且时间t的状态是Si”这一事件的概率,记为(t,i)P(O1,...,Ot,qtSi|)。前向算法是通过递归的思维进行计算的,算法过程如下:

(1)初始化。该过程如公式(2-16)所示。

(1,i)(i)b(i,Oi) (2-16)

(2)递归。该过程如公式(2-17)所示。

(t1,j)[(t,j)a(i,j)]b(j,Ot1) (2-17)

iN其中(t1,j)表示t+1时刻,状态为j的概率。b(j,Ot1)表示t+1时刻,状态为j,输出符号为Ot1的概率。(t,j)a(i,j)表示t+1时刻,从状态i转移到状态j的概率。(t,j)a(i,j)把所有概率加和,是真正从时刻t到时刻t+1,转移到

iN状态j的概率。

(3)终结。在模型已知时,输出序列为O的概率,如公式(2-18)所示。

P(O|)(T,i) (2-18)

iN2.4.2 后向算法

后向算法使用的是Viterbi算法,实质上是求解最优路径的问题,即已知观测序列,求解从通过状态路径,出现该观测序列的最大概率。定义(t,i)为t时刻沿状态序列q1,...,qT且qtSi产生O1,...,Ot的最大概率,如公式(2-19)所示。

(t,i)=maxP(q1,...,qt1,qtSi,O1,...,Ot|) (2-19)

使用t(i)记录概率最大路径上当前状态的上一个状态。算法步骤如下: (1)初始化。该过程如公式(2-20)所示。

1(i)ibi(Oi),1(i)0,1iN (2-20)

(2)递归。该过程如公式(2-21)和公式(2-22)所示。

t(j)[max1iNt1(i)aij]bj(Ot),1tT,1jN (2-21)

t(j)argmax1iN[t1(i)aij]bj(Ot),1tT,1jN (2-22)

(3)终结。该过程如公式(2-23)所示。

*p*max1iN[T(i)],qTargmax1iNT(i) (2-23)

(4)路径回溯。该过程如公式(2-24)所示。

15

第2章 课题相关理论

qt*t1(qt*1),tT1,T2,...,1 (2-24)

即初始化的时候,1时刻状态为i的情况下,输出为O1的概率为ibi(O1),那么2时刻开始,需要找到状态j的最大概率,并且状态j输出观察状态Ot最大的那条路径。观察状态序列,得到一个出现概率最大的隐含状态序列。最后使用路径回溯法得到隐含状态序列。

2.4.3 前向后向算法

前向后向算法又叫Baum-Welch算法,用来训练模型。算法步骤如下: (1)初始化。随机给i,aij,bjk赋值(满足概率条件),得到模型0,设i=0。 (2)EM步骤。E步骤由i计算期望值t(i,j)和t(i),如公式(2-25)和公式(2-26)所。

t(i,j)P(qtSi,qt1Sj|O,)P(qtSi,qt1Sj,O|)P(O|)(t,i)a(i,j)bj(Ot1)t1(j)Njt1(t,i)a(i,j)bj(Ot1)t1(j)P(O|) (2-25)

(t,i)a(i,j)b(Oi1j1N)t1(j)t(i)=t(i,j) (2-26)

j1NM步骤用E步骤所得的期望值,重新估计i,aij,bjk,得到模型i+1,计算过程如公式(2-27)、(2-28)和(2-29)所示。

i=1(i) (2-27)

aijT(i,j)tt1T1t1T1 (2-28)

(i)ttkTbj(j)(O,v)it1 (2-29)

(j)tt1(3)循环设计:i=i+1;重复EM步骤,直至i,aij,bjk值收敛。

2.5 本章小结

本章详细介绍了常用文本表示模型,分析了几种常规的用于微博文本的特征选择法与权重计算策略,接着详细阐述LDA话题发现算法和隐马尔科夫模型的基本理论以及相关参数采样过程。

16

第3章 热点话题检测与趋势预测算法

第3章 热点话题检测与趋势预测算法

基于目前微博研究领域的热点检测的成果与缺陷,论文综合微博文本内容特征和传播特征改进了话题热度衡量方法,并利用LDA良好的主题抽取效果,形成完整的LDA驱动的基于内容的热点话题检测算法(LDA driven Content-based Hot topic detection Algorithm, LDA-CHA)。在热点话题的趋势预测方面,论文根据检测阶段单条微博对所属话题的内容贡献度,提出某一话题的微博内容参与率,最终以话题内容参与状态为基础构造隐马尔科夫模型(Content Participation-based Hidden Markov Model, CPHMM)。

3.1 热点话题定义

根据微博平台的信息传播特点,若干条围绕相同观点或同类事件展开的博文形成一个话题。当类似微博数量达到一定阈值,引起相当数量的微博平台用户的广泛关注与讨论,此话题便成为热点话题。论文讨论的微博热点话题是指社会热点话题。根据上文描述,热点话题有三个特征:

(1)热点话题下的微博集合内容相近,其文本之间有较高的相似度; (2)热点话题下的微博数量高于一般话题的微博数量;

(3)热点话题的直观传播特征,即转发、评论、点赞,在数量上要多于一般话题下的微博。

目前与中文微博相关的研究多数基于新浪微博平台,因此热点话题的评判标准来自新浪微博平台的权威话题热度计算方法。新浪微博热点话题评判的标准流程是首先对微博聚类得到话题簇,然后计算话题的热度并排序,最后人工编辑发布到话题榜。其中计算话题热度时建立一套复杂的计算公式,用到的指标包括微博内容信息量、转发数、评论数、点赞数、微博用户的传播力(粉丝数与发博数)以及发布时间等。当以新浪微博数据为基础进行研究时,将新浪热门话题推荐列表作为权威标准结果是可行的。

在已有的研究中,包括新浪的话题榜上榜规则,话题的热度或关注度都使用话题下微博数量进行体现,话题下微博数量越多,代表话题的热度越高。论文沿用该思想,定义话题的热度由该话题下单条微博对该话题的热值贡献度的和来计算,话题热度TH(Topic Heat)的计算方法如公式(3-1)所示。

17

第3章 热点话题检测与趋势预测算法

NTHMHi (3-1)

i1其中,N为该话题的微博集合容量。 MHi表示某条微博对话题的热值贡献度,

3.2 热点话题检测与预测算法框架

论文从最真实的均匀的微博数据中抽取所需话题,之后根据热点话题的定义及热度计算方法去衡量所抽取的话题的热度,最终得到热点话题的检测结果,进而在高热度话题数据上训练隐马尔科夫模型并预测话题的短期热度趋势。微博热点话题检测与趋势预测的总体流程如图3-1所示。

开始微博数据抓取数据存储数据预处理微博文本预处理无效微博过滤话题抽取LDA主题检测话题去噪热点话题识别话题热度计算排序Top1话题Top2话题...话题趋势预测热度状态序列1-11-1-1-1…TopN话题数据提取与分割训练隐马尔科夫模型评估可信度并预测趋势结束图3-1热点话题检测与趋势预测流程

具体步骤如下所述:

(1)数据采集和存储。通过网络爬虫技术及新浪微博提供的开放API,均衡采集各类用户的微博数据;数据涵盖了社会问题、教育、科技、娱乐等领域。

18

第3章 热点话题检测与趋势预测算法

(2)数据预处理。包括筛除无效微博(非中文内容的、只有URL链接的、只包含表情或符号的),对文本分词、去停用词、去除表情及符号。

(3)话题抽取。输入预处理后的微博词集,基于LDA主题聚类算法抽取该时间段微博中出现的话题,并筛除每个话题下的噪声微博。

(4)热点话题识别。根据最终的话题热度计算方法,计算所抽取的话题的热度值,对所有话题按照热度排序,最终识别出热点话题。

(5)话题趋势预测。从识别结果中选择高热度话题,处理相关数据并计算训练所需的观测序列,训练得到可靠的模型并对测试集数据进行预测。

微博热点话题检测与趋势预测整体算法描述如表3-1所示。

表3-1热点话题检测与趋势预测算法描述

热点话题检测与趋势预测算法描述

输入:包含n个文档的微博词集M,微博转发数mt、评论数mc、点赞数ma,预设话题数k 输出:n个热点话题热度值TH排序结果,TopN热点话题的热度状态序列 开始:

Begain LDA-CHA:

=LDA(M,k); // 由基础LDA模型得到文档-主题矩阵

Topiclist=ComputeHeat(,mt,mc,ma); //计算每个话题的热度值

TopNtopics=Rank(Topiclist); //对话题热度值列表排序,选取TopN热点话题 End

Begain CPHMM:

Hotdata=DisposeData(,TopNtopics,M);//筛选并处理热点话题下的微博数据

=Train(0,Hotdata,);//训练隐马尔可夫模型

Hotstatelists=Predict(,Hotdata);//利用学习结果预测话题后续热度状态序列 End

Return TopNtopics, Hotstatelists

3.3 基于内容的热点话题检测算法 3.3.1 数据预处理

通过新浪微博开放的API所得数据主要包含用户ID,微博ID,发表日期,被转发数量,评论条数,点赞数量和微博文本内容,获得的微博数据格式基本规范,但仍需进行预先处理才能作为话题抽取算法的输入集。文本预处理是文本处

19

第3章 热点话题检测与趋势预测算法

理的第一步,该过程将原始文本字符串转化为词条串或者特定符号串[43]。对于微博文本,主要分两个步骤做预处理:无效信息过滤;分词与停用词处理。

(1)无效信息过滤

过滤无效信息是指去除微博内容文本中无意义的文字内容或符号,包括URL、特殊字符、非汉语字符、表情符号、和微博格式相关的格式标记等,然后将有意义的文本内容提取出来,以空格为分隔符进行分隔。特殊字符、URL、表情符号等无法体现话题内容,并且影响到进一步的分词处理工作,属于文本的噪声,因此应当在分此前去除这些内容。此外,新浪微博为用户提供的一些固有格式需要去除,如转发、提醒等功能标记,但是保留“#话题#”格式中的文字内容,因为话题标记能最直接地表达一个话题内容。以微博“#停止伤害动物# 生命平等,动物是人类的朋友!可以不爱,但请不要伤害![愤怒][可怜]@WW http://v.cn/dsaff”为例,无效信息过滤后,微博文本被处理为“停止伤害动物 生命平等 动物是人类的朋友 可以不爱 但请不要伤害”。

(2)分词与停用词处理

对过滤后微博内容,论文采用ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)[44]进行分词及词性标注。ICTCLAS是由中国科学院研制的汉语词法分析系统,具有良好的分词效果。对一条微博分词及词性标注后,可以得到多个“词/词性标记”对。所采用的词性标注集如表3-2所示。

为了提高算法的执行效率和后续话题检测的精准度,词性标注后需要去除文本中的停用词。论文根据常规的自然语言停用词表和人工标记的微博中无意义的词和符号筛选处理微博文本所需要的停用词表。论文采用文献[44]整理的中文停用词库,词库将常用的中文自然语言停用词库综合并用,包括百度停用词库、四川大学机器智能实验室停用词库和哈工大停用词库,包含 1011个中文词的停用词。特别的,如果一条博文经过预处理后内容为空,则从输入集中删除此条微博。

表3-2 汉语词性标注集

标注 n ns nz s v b

词性 名词 地名 其他专名 处所词 动词 区别词

标注 nr nt t f a z

词性 人名 机构团体名 时间词 方位词 形容词 状态词

标注 q p u y r x

词性 量词 介词 助词 语气词 代词 字符串

标注 d c e o m w

词性 副词 连词 叹词 拟声词 数词 标点符号

20

第3章 热点话题检测与趋势预测算法

3.3.2 话题抽取与去噪

经过文本预处理,原始微博语料被精简为能够代表微博内容的微博词集M,如公式(3-2)所示。

M{w11,w12,...,w1n1;...;wm1,wm2,...,wmnm} (3-2)

词集中共剩余m条微博,第i条微博的词语总数用ni表示,wij表示第i条微博的第j个词语,j的最大值为ni。

针对微博文本数量多、内容丰富,噪声多的特点,在话题抽取过程中,预先定义话题类别标签是困难的,对比于一系列文本主题识别的分类算法,论文更倾向于采用聚类算法抽取微博话题。LDA模型是一种无监督学习算法,它可以用来识别大量文档中潜在的主题信息,与普通聚类算法不同,LDA模型无需选取种子,其结果不会根据种子质量的好坏而波动,LDA只需设定最终的主题个数和少量的初始化参数,该聚类过程最终会收敛到一个稳定的结果上。而且,主题个数的确定也有相当科学的方法保障其合理性。

经过参数训练与评估,选取合理的输入参数,与微博词集M一起作为输入来训练LDA模型,最终输出主题-词语,文档-主题两个概率矩阵,分别表示为𝜑和𝜃,这里一条文档即是一条微博。考察文档-主题概率矩阵𝜃,每个元素值代表某文档的文本内容属于某主题的概率。LDA从概率而非二元判别的角度出发,给出输入集中每个文档属于每个主题的可能性大小,一个主题都有或大或小的概率能被任何一篇文档体现,如果不加甄别将全部文档的主题热值贡献度累加,在一定程度上是对主题聚合程度的一种分散,因此概率低于潜在阈值的文档包含的内容对于该主题形成噪声。为了提高话题热度计算精度,有必要去除噪声。

论文提出一种话题去噪策略,提高LDA话题抽取结果的聚合程度。设已经抽取的k个主题,文档-主题概率阈值为PF,去噪策略如公式(3-3)所示。

1,TP2,...,TPk}T{TP (3-3) TP{D1j,D2j,...,Ddjj}TPjD{D,D,...,D|PF}ij12mDi其中,T为去噪后主题集合,TPj为主题集中第j个主题,该主题最终由dj篇文档组成,dj取值在1到m之间,Dij表示在文档-主题矩阵中文档Di属于主题TPj的概率值。

根据上述策略,筛除了每个话题下与之不太相关的文档,当一个主题下包含的文档全部具有相对较高的概率时,主题的聚合性越高,对主题的热度计算准确率越高,不同主题热度值的区分度也更加容易。

TP21

第3章 热点话题检测与趋势预测算法

3.3.3 基于传播特征的微博热度计算

微博热度是对微博内容在整个微博平台上所引起的关注度的描述。一条微博内容引起关注表现在该条微博的引发的扩散动作比较多,以及相关事件或主题的其他博文数量比较多。同类话题内的微博引起的关注度累加,促进该话题的影响力,因此单条微博热度的计算对于所属话题的热度指标计算有直接作用。

最近的研究中,文献[45]使用了文献[46]提出的微博的热度计算方法如公式(3-4)所示。

hbi2reicmifli (3-4)

其中,hbi表示第i条微博的关注度,rei表示第i条微博的转发数,cmi表示第i条微博的评论数,fli表示第i条微博用户的粉丝数。

上述思想认为意见领袖对微博的影响力也具有推动作用。然而惠普实验室通过对Twitter的消息研究发现,微博影响力取决于消息传播的深度和广度,而非粉丝数量[47]。“僵尸粉”的泛滥也使基于粉丝数目的评价体系缺乏科学性。事实上,粉丝对意见领袖的崇拜与追捧心理使得意见领袖的博文有较高的转评赞指标,而论文所讨论的热点话题是指社会热点,不包括意见领袖所发布的私人生活微博。文献[48]根据流行三要素和新闻传播学理论,从微博博主特征、微博内容、传播特征和受众反应四个维度,定量评价了微博热度计量指标,并指出社会舆情事件类话题的热度受博主特征的影响较小,此类微博热度的主要来源是内容、传播和受众反应等特征。社会热点话题涵盖的微博的所有者会涉及多种社会角色,不局限于意见领袖,因此,话题的真正影响力体现在微博内容本身能够引起的关注程度。

根据文献[48]关于微博热度综合评价指标体系研究的理论,论文对公式(3-4)的热度计算方法进行改进,首先去除对粉丝数量的直接计算,意味着消除对意见领袖的过分依赖,保留传播特征并添加受众反应特征修正单条微博热度计算公式,然后从内容特征角度,利用微博的语义概率计算单条微博对所属话题的热值贡献度。其中,传播特征表现为转发数量,受众反应特征表现为评论数量与点赞数量,内容特征表现为微博内容与某话题的相似程度。转评赞数量也在一定程度上体现出意见领袖的影响力,改进思想并没有完全忽略意见领袖对社会热点传播的贡献。根据以上分析,论文改进公式(3-4),沿用转发与评论数量的线性关系,定义单条微博热度SMH(Single Microblogging Heat)的计算方法如公式(3-5)所示。

SMHmtmcma

(3-5)

22

第3章 热点话题检测与趋势预测算法

其中,mt表示转发数量,代表该条微博的传播特征;mc和ma分别表示评论数量和点赞数量,代表该条微博的受众反应特征, ,, 分别代表各特征因子的权重。论文利用SPSS Statistics19.0通过主成分分析法确定因子权重值。

实验样本取自2015年10月5日到2015年12月13日的新浪微博热门周榜的1000条微博,记录每条微博数据的转发数量、评论数量和点赞数量。首先利用SPSS的数据标准化功能将原始数据标准化。之后经过可行性检验,样本KMO检验值为0.593,大于0.5,Bartlett球形检验近似卡方值为91.628,显著性概率为0.000,小于1%,如图3-2所示,证明数据适合做因子分析。

图3-2 KMO和Bartlett检验

通过方差分解,得到主成份分析表如图3-3所示。

图3-3 方差分解主成分提取分析表

根据图3-3中的数据,前两个特征值累计贡献率87.075%,根据累计贡献率大于85%的原则理应选选取前两个特征作为主成分,但只有第一个成分特征值大于1,因此提取成分1为主成分,标记为F1。计算主成分和各特征之间的关系,得到初始因子载荷矩阵,如图3-4所示。

图3-4 初始因子载荷矩阵

23

第3章 热点话题检测与趋势预测算法

利用图3-4中初始因子载荷矩阵的数据,除以主成分对应的特征值开平方,得到主成分中每个特征对应的系数,如表3-5所示。

图3-5 主成分组成关系

由图3-5中的结果,得到主成分因子的计算方法如公式(3-6)所示。

F1=0.500mt0.637mc0.586ma (3-6)

根据图3-3中主成分的贡献率对微博热度影响力进行加权汇总,可得综合因子F与各初始特征之间的关系如公式(3-7)所示。

F0.678F1=0.339mt0.432mc0.397ma (3-7)

综合以上结果,=0.339,=0.432,=0.397,单条微博热度SMH计算方法如公式(3-8)所示。

SMH0.339mt0.432mc0.397ma (3-8)

3.3.4 基于词频的话题热度计算校正

由于每条微博都是以不同的语义概率去体现同一个话题,因此论文定义单条微博sm对话题TP的热值贡献度MH计算方法如公式(3-9)所示。

TPMHsmSMH (3-9)

TP其中,sm表示文档-主题矩阵中微博sm属于话题TP的概率。

话题抽取结果经过去噪处理后,每个话题下保留了概率相对较高的文档,但LDA仅是从语义上判断词语和文档所属的话题,主题数量的选取影响着话题下文档的聚合程度。当一个文档与所属话题内的其他文档相似度比较低时,该文档的热度对整个话题的热度是一种假性促进。因此,为了提高话题热度计算的准确率,论文首次尝试从非语义角度重新计算同一话题下文本内容的相似度,形成话题聚合度指标,用以代表同一话题下文本的聚合程度,作为修正系数,校正话题的热度计算。

为了充分利用文本信息,所有去噪后保留文档包含的词都作为特征词,重复的词只采用一次。特征词的权重采用基于空间向量的TF-IDF,其函数形式如公式(3-10)所示。

24

第3章 热点话题检测与趋势预测算法

N0.01)nijN0.01))2nijtfijlog(wij(tfj1M (3-10)

ijlog(其中,tij为第i个文本中第j个特征项,wij为特征项tij的权重,tfij为特征项

tij在第i个文本中出现的频率,nij为包含tij文本的总数,N为当前文本的总数,M为第i个文本中特征项总数。在语义聚合结果的基础上,使用词频特征权重检验类的聚合程度,相互弥补对方算法不包含的特征维度,这对于提高话题热度计算精度是有效的。

然后,根据设置的文本特征值和特征权重构建微博文本的空间向量模型,即将所有特征值全部转化为维度,构成整个空间的维度。此时,一个微博文本Di可以转化为一个空间向量Dt,如公式(3-11)所示。

Dt(wi1ti1,wi2ti2,...,wijtij,...,wimtim)且1jm (3-11)

其中,tij是文本Di的特征项,wij是特征词tij的权重,m是文本Di特征项的总数。另外,特征项tij在同一文本中无重复,且不考虑其在文本中出现的顺序。

接着采用余弦相似度计算两个文档间的距离。余弦相似度表示为sim(x,y),其值在0到1之间,如公式(3-12)所示。

sim(x,y)cos(x,y)nwk1nxkwykwk12xkwk1n (3-12)

2yk其中,x,y表示两个计算相似度的文本向量,wxk表示向量x的第k个特征词的权重值,wyk表示向量y的第k个特征词的权重值,n表示x与y的特征词数量之和。

定义话题聚合程度TCD(Topic Clustering Degree)计算方法如公式(3-13)所示。

2sim(Di,Dj)TCDi,j1nn(n1),ij (3-13)

其中,n指代话题去噪后包含文档的数量。

于是,公式(3-1)中话题热度TH最终计算表达式校正为如公式(3-14)所示。

THTCDMHi (3-14)

i1N3.3.5 检测模型评估方法

根据TDT话题检测任务评测规范,微博热点话题检测性能的评价主要采用以下指标:召回率、准确率、F值。

25

第3章 热点话题检测与趋势预测算法

召回率R是算法正确检测出属于某个话题的文档数D和所有应该检测出的属于某一个话题的文本数T的比值,如公式(3-15)所示。

RD/T100% (3-15)

准确率P是算法正确检测出属于某个话题的文档数D和算法检测出的属于某个话题的文档数U的比值,如公式(3-16)所示。

PD/U100%

(3-16)

召回率和准确率的取值均在0和1中间,数值越大,代表算法性能越好。 F值是召回率和准确率的加权几何平均值,如公式(3-17)所示。

(21)RPF2100% (3-17)

PR其中,是预设的召回率和准确率的相对权重,论文预设为1。

热点检测比一般话题抽取工作对结果排序要求更严格。为了评估热点话题检测结果的排序准确度,论文借鉴推荐系统的排序评价指标:Kendall’s Tau相关系数;平均排序分。

Kendall’s Tau相关系数[49]刻画两种排序值的统一程度,如公式(3-18)所示。

=CD (3-18) CD其中,C为正序对数目,D表示逆序对数目。所有热点话题结果都是正序对时1,所有热点话题结果都是逆序对时1。

如果话题1~5的真实权威排名次序为:T1,T2,T3,T4,T5,对应10种序关系,即

(T1T2)(T1T3)(T1T4)(T1T5)(T2T3)(T2T4)(T2T5)(T3T4)(T3T5)(T4T5)。而算法Y检测结果排序为:T2,T1,T4,T5,T,3对应于10种序关系,即

(T1T2)(T1T3)(T1T4)(T1T5)(T2T3)(T2T4)(T2T5)(T3T4)(T3T5)(T4T5)。对比以上两组序关系得到3个逆序对,剩余7个为正序对,根据公式(3-18)得到算法Y的值为0.4。

平均排序分(Average Rank Score)[50]从排序位置角度衡量排序准确度。对于热点权威排序中的某一话题tp,它在某算法排序结果中的排序分定义如公式(3-19)所示。

RStpltpL (3-19)

其中,ltp表示话题tp在算法排序列表中的位置,L是所考察算法的排序列表的总长度。所有话题的排序分求平均,得到该算法的平均排序分。排序分值越小,证明算法越趋向于把真正的热点话题排在前面,其热点检测性能越好。

26

第3章 热点话题检测与趋势预测算法

3.4 热点话题趋势预测

热点话题凝聚了微博平台上的主流观点,相比一般低热度社会话题,热点话题有大量用户追随,其趋势研究有更大价值。热点话题的形成依靠大量与同类事件相关的微博,微博内容观点集中且有较高的转发、评论和点赞数量。综合微博的转评赞数据得到该条微博对所属话题的内容贡献度。与话题相关的微博的内容贡献度占所有微博的内容贡献度的比率定义为微博的内容参与率。内容参与率的上升、不变和下降,论文解释为内容参与状态。基于微博的内容参与状态,论文建立了一个以微博内容参与状态为观测序列,以话题热度状态为隐含序列的隐马尔科夫模型,去预测短期内热点话题发展趋势。

3.4.1 话题热度状态识别

论文对热点话题的趋势预测研究主要集中在话题未来短期内热度的变化趋势。话题的热度主要由话题下微博的内容所携带的信息量决定,一般总体上用相关微博的数量表示,话题下微博数量越多,表明该话题受到越大关注,具体地,每条微博内容都对所属话题的热度有不同程度的贡献,贡献大小取决于转发、评论、点赞数量和文本内容与该话题的契合程度,根据3.2节对话题热度的分析与定义,预测阶段的话题热度值TH的计算仍然采用公式(3-14)的方法。

话题热度状态可以采用话题热度值的变化来表示:如果话题热度值增大,则表示话题热度状态为上升态;如果话题热度值减小,那么话题热度状态为下降态。

话题的热度整体上是由所有相关微博的热值贡献度累加而成,单条微博的热值贡献度可以由单条微博热度以一定的语义权重代表,而微博热度的计算主要是从文本内容直接影响力的角度考虑,所以,单条微博的热值贡献度可以代表对所属话题的内容贡献度。因此,单条微博对所属话题的内容贡献度可由公式(3-9)计算得到。那么,给定时间段内,与话题TPj相关的微博对该话题的内容贡献度之和,占该时间段所有微博对各自最相关的话题的内容贡献度之和的比率,定义为该时段话题TPj的微博内容参与率MCP(Microblogging Content Probability),如公式(3-20)所示。

MCPjMHi1djijmaxi1N (3-20)

kj1{MHij}其中,N表示该时段内微博总数,dj表示话题TPj包含的微博数量,MHij表示话题TPj的第i条微博对该话题的热值贡献度。

27

第3章 热点话题检测与趋势预测算法

将所有微博的整体时间跨度分割成r个时间段,对给定话题,可以计算其每个时间段内的微博内容参与率MCP。话题的内容参与状态可以用微博内容参与率的变化来表示:若微博内容参与率比上一时间段增大,则内容参与状态为上升态;若微博内容参与率比上一时间段减小,则内容参与状态为下降态。

话题的内容参与状态可以作为隐马尔科夫模型的观测序列,论文将话题热度状态作为隐含序列,话题的内容参与状态和话题热度状态是论文中隐马尔科夫模型预测话题热度趋势的理论基础。

3.4.2 基于内容参与状态的隐马尔科夫模型

一个话题可能由一个或多个事件组成,文献[7]用灰色预测证明了事件尤其是突发事件的关注度变化剧烈,呈抖动趋势,没有一定的延续性,由此可以推断,话题的热度变化情况与之相近,热度状态序列属于抖动序列,不适合使用灰色预测模型预测热度趋势。而回归分析预测不仅需要大量的真实先验数据,用来计算线性回归方程中的参数,而且热点话题复杂的变化情况需要构造多元线性回归方程,后期每个参数的合理性验证过程更是增加了计算复杂度,因此回归分析法预测热点话题变化趋势亦非明智之举。从客观角度出发,除去前文中分析的微博数量与文本内容等主要因素,由于话题参与者的广泛性与言论自由性等复杂社会效应,话题热度还会受到关键用户节点、实时政策、社会普遍价值观等多中边缘因素影响。在话题发展的每个时刻,话题所处的社会环境都是相同的,有同样的社会效应催生各类消息参与或不参与话题的内容,因此任何时刻话题热度状态都有相对稳定的概率发展到下一状态。话题的这一发展特点符合马尔科夫预测模型的前提条件,即在各个期间或状态时,变量面临的下一个期间或状态的转移概率都是一样的、不随时间变化的。而且,话题热度状态的变化符合无后效性性质,即下一时段的热度状态只与当前时段热度状态有关,而与之前时段的热度状态无关。又因为论文的预测目标是短期内话题的热度状态,符合隐马尔科夫模型的优势,避免了模型不适宜中长期预测的缺点,所以论文选择隐马尔科夫模型进行热点话题短期趋势预测。

依据隐马尔科夫模型的定义,结合热点话题状态分析,社会热点话题下的以话题内容参与状态为基础的隐马尔科夫模型CPHMM依然可以用五元组来表示,即={Q,V,A,B,},其中:

Q为话题热度状态集合,Q{q1,q2,...,qr},如前所述,r是时间段数,所以也是状态数量。话题热度状态是话题热度值的升降状态,是论文预测的目标。用-1表示下降,1表示上升,则状态取值集合为{-1,1}。例如,若下一时间段话题热度值大于上一时间段,则状态取值为1。

28

第3章 热点话题检测与趋势预测算法

V为可观测的话题内容参与状态的集合,V{v1,v2,...,vr}。话题内容参与状

态表示话题下的微博内容参与率的升降状态,代表参与该话题的内容所占的比重。同样用-1表示下降,1表示上升,则状态取值集合为{-1,1}。当下一时间段话题内容参与率大于上一时间段,则状态取值为1。

A为话题热度状态转移概率矩阵,根据状态取值个数,热度状态转移矩阵为22矩阵,共4项。从左到右从上到下依次是热度状态下降态下降态的转移

概率,下降态上升态的转移概率,上升态下降态的转移概率,上升态上升态的转移概率。

B为话题内容参与状态输出概率矩阵,输出概率矩阵为22矩阵,共4项。

从左到右从上到下依次是话题热度状态下降时内容参与状态为下降态的概率,热度状态下降时内容参与状态为上升态的概率,热度状态上升时内容参与状态为下降态的概率,热度状态上升时内容参与状态为上升态的概率。

0.5},即上升态、为初始话题热度状态的概率分布状况,初始有0={0.5,下降态的初始概率平均。

隐马尔科夫预测模型CPHMM的训练是在热点话题检测结果基础上进行的,采用Baum-Welch算法学习。经过3.2节的检测过程,在检测结果中选择若干个热度排名较高的话题,分离它们包含的微博数据。预测的训练与评估过程所使用的话题下的微博,均为去噪后的微博结果,将整个数据合理地分成r个时间段,并按照时间段个数比例5:1划分训练集和测试集。对于每个话题前5/6时间段包含的训练数据,根据公式(3-20),计算每个时段话题的微博内容参与率,从而得到话题内容参与状态序列V{v1,v2,...,vr};序列V'{v1,v2,....,v5r/6}作为观测序列

0.50.510B输入到Baum-Welch算法,其中A0,,0={0.5,0.5},经00.50.501过无监督训练得到话题热度状态转移概率矩阵A和微博内容参与状态概率分布矩阵B。隐马尔科夫预测模型的参数确定后,利用Viterbi算法评估训练模型的可信度,然后利用后向概率对剩余1/6时间段做话题热度状态预测,并根据实际的话题热度状态序列分析预测结果准确性。

3.4.3 预测算法评估方法

一方面,论文考察预测算法CPHMM的实际预测效果。此阶段在测试集数据上进行。对任意一个话题,首先利用后向概率,在训练所得模型基础上计算测试集时段的概率最大的热度状态序列,然后依据话题热度值计算方法计算测试集中各时段的话题热度值,得到实际的话题热度状态序列,将计算结果序列与模型预测结果序列相比较,记录该话题状态不一致的个数。在同样的测试数据上,运行

29

第3章 热点话题检测与趋势预测算法

对比模型算法,得到对比算法预测的最大概率的热度状态序列,同样可得到每个话题下计算结果序列与对比模型预测结果序列的状态不一致数量。同一话题下预测模型输出结果与实际计算结果状态不一致数量越少,证明模型的预测效果越好。

另一方面,评估预测模型CPHMM可信度的算法采用隐马尔科夫的后向算法。按照话题的微博内容贡献度计算方法,分时段计算测试集中热点话题的微博内容参与率,并生成话题参与状态序列,利用后向算法,论文选用Viterbi算法,将生成的话题参与状态序列作为输入,根据输出结果计算得到一个概率最大的话题热度状态序列。按照话题热度值计算方法重新计算训练集中的话题热度值,得到话题热度状态序列,与从后向算法得到的话题热度状态序列进行比较,算出误差值。误差利用下式计算,如公式(3-21)所示。

=NdifferNtotal (3-21)

误差值取值为(0,1],Ntotal表示评估过程中状态序列中状态总数,Ndiffer表示后向算法输出的话题热度状态序列与计算得到的该话题热度状态序列中状态不一致的个数。可信度评估阶段依然要采用用于模型学习过程的训练集数据,如果某个话题的模型输出序列误差值小于经验值0.25,证明之前训练的模型是可信的。

3.5 本章小结

本章详细介绍了基于内容的热点话题检测与趋势预测算法的原理。算法首先根据微博内容的转评赞传播特征,构建了新的话题热度计算方法,并从语义和非语义两个方面保证了话题热度计算方法的准确度,其中在话题抽取完成后提出一种去噪策略;其次,基于热点话题下的话题状态,论文通过改进的隐马尔科夫模型对排行靠前的热点话题的未来热度趋势进行预测。

30

第4章 实验与分析

第4章 实验与分析

本章分别对论文提出的热点话题检测理论和热点话题趋势预测模型进行验证与评估,具体从以下三个方面进行:

(1)论文完整的话题热度计算方法在热点主题检测实验中的效果分析。本实验的对比算法基于Single-Pass聚类和层次聚类,其话题热度计算考虑意见领袖的影响。对比结果证明从语义、词频和内容传播特征方面检测话题是有效的,对热点话题检测准确率有积极的影响。

(2)基于内容的话题热度计算方法更准确。实验中,根据LDA输出的主题-文档矩阵去噪后的结果,首先选用SP&HA算法中的话题热度计算策略作为基准算法,然后用论文改进话题热度计算部分作对比,验证基于内容对话题热度计算并实行语义和词频上的校正是有效的,改进的话题热度计算方法对热点话题筛选的进步效果。

(3)隐马尔科夫预测模型在话题热度趋势预测上的效果分析。实验验证话题的微博内容参与状态对隐马尔科夫模型预测结果的影响,对比实验以意见领袖参与状态为观测序列,证明微博内容参与状态更适合作为隐马尔科夫模型的基础,提高预测模型的可信度。

4.1 数据集

实验中用于热点话题检测的原始语料来自新浪微博平台,时间跨度从2014年8月1日至2014年8月30日,共计254578条微博,包含100个话题,其中热门话题60个,非热门话题40个。数据内容涵盖生活、科技、经济、八卦等各类话题,所属用户的类别与数量分布均匀,最大限度地还原真实微博环境。数据存储在MySQL数据库,包含用户ID,微博ID,发布日期,转发数量,评论数量,点赞数量,博文内容和用户粉丝数字段。

数据预处理主要针对微博的博文内容。依照3.2.2节详细的预处理方法,首先筛除无效微博内容,包括表情、标点符号、URL链接、非中文内容和微博特殊标记;然后采用ICTCLAS分词工具进行分词和词性标注;之后按照采纳的中文停用词库去除停用词,保留名词、动词和形容词。最后过滤掉文本内容为空的微博条目,最终剩余231263条微博数据作为话题抽取的输入集,每条数据的博文内容由若干词条组成,中间用空格分隔。

31

第4章 实验与分析

4.2 基于内容的热点话题检测算法实验与评估 4.2.1 实验过程

根据3.2.3节的话题抽取方法,将预处理后的微博词集输入LDA模型,每条微博单独存为一个文档,微博ID作为文档名。因为语料中包含100个标注的话题,因此主题数量取100,即k100;经过吉布斯抽样,经验参数最终确定为经过 LDA的训练,输出结果包括主题-词语概率矩阵和文档-主=0.5,=0.01。

题概率矩阵,话题热度计算等后续步骤主要利用文档-主题矩阵中的概率关系。部分文档-主题矩阵结果表4-1所示。

表4-1 文档-主题概率矩阵(部分)

微博ID 27561 27562 27563 27564 27565 27566 27567

Topic1 0.0513136056 0.0924565485

Topic2 0.007540373 0.011234576

Topic3 3.618207560735E-5 0.003546853 0.024565614 0.002324432 0.007239468 0.075654646 0.002324432

Topic4 0.025246802 1.052832584405E-4 0.043564641 0.000234436 0.003498754 3.409135159208E-5 0.083256431

0.0004524861 4.1317173179754E-4 0.0212556456 0.0129793101 0.0125565658 0.0023896755

0.059244254 0.092845316 0.005647641 0.006232465

表4-2 热度前10话题内容

序号 1 2 3 4 5 6 7 8 9 10

话题 冰桶挑战 房祖名柯震东吸毒 中国好声音 爸爸去哪儿2 鲁甸地震 古剑奇谭 后会无期 王自如约战罗永浩 范玮琪怀孕 青奥会

热度值TH 908.352 856.274 793.002 689.374 621.428 521.354 501.245 487.859 479.243 450.683

32

第4章 实验与分析

依照公式(3-3)中的去噪策略,参照文档-主题矩阵中概率的分布结果,概率阈值PF选为0.01,此时对于每条微博,满足阈值之上保留的主题数量明显少于筛除的主题数量,尊重一条微博仅显著属于少数几个主题的事实。按阈值筛选文档-主题矩阵中每一列的概率值,每列的筛选结果存储为一个单独的文档集,该文档集对应一个话题,共得到100组聚合程度较高的文档集。

依照公式(3-14)的话题热度计算公式及其相关计算步骤,结合每条微博的转发数、评论数和点赞数字段,计算得到100个话题各自的热度值。对热度值按大小排序,其中热度前10的话题热度值及话题内容如表4-2所示。

表4-2中话题内容的文字表述为人工回归原始预料后所得。

4.2.2 实验评估

论文算法的基准实验采用孙胜平提出的SP&HA聚类热点话题检测算法[46],算法主要基于Single-Pass聚类和层次聚类,热度计算采用公式(3-4)的基于意见领袖的博文热度计算方法,并且不关联微博文档的语义权重和词频权重,以直接加和的形式表示话题热度。论文完整的热点话题检测算法为LDA-CHA。另一对比实验将LDA-CHA中的话题热度计算方法替换为SP&HA中的计算策略,其他步骤保持不变,该算法标记为LDA-HA。LDA模型参数均采用

=0.5,=0.01,k100。三个方法均得到100个按热度排序的话题,每个话题

下有若干相关文档。

对每组话题结果,取热度TopN的话题内容,回归文档人工归纳话题内容,并与数据集标注的热点话题内容比对,记录TopN话题中属于标注热点范围的数量,对三组热点检测结果依次计算准确率P、召回率R和F值,其中,依次取热点结果为N10,20,30,40,50,60,由于标注的热点数量为60,因此N最大取60。每组选取结果中,准确率为N个话题中属于60个标注热点的个数占N的比率;召回率为N个话题中属于60个标注热点的个数占热点总数60的比率。对比结果如图4-1、图4-2、图4-3所示。

(1)准确率评估。从图4-1可以看出,在6组热点结果对比中,有3组LDA-CHA的准确率显著高于其他对比算法,并且3组结果为热度排名较高的结果,说明LDA-CHA在选取较少数量的TopN热点话题时,也能保证较高的准确率。LDA-HA的表现效果很不稳定,整体上准确率都低于论文所提算法LDA-CHA。

33

第4章 实验与分析

100.00%95.00%90.00%准确率P85.00%80.00%75.00%70.00%SP&HALDA-HATop10100.00%100.00%Top2090.00%90.00%95.00%Top3083.33%86.67%90.00%Top4085.00%82.50%87.50%Top5084.00%80.00%82.00%Top6085.00%81.67%85.00%LDA-CHA100.00%TOPN话题 图4-1 准确率P对比结果

图4-1还表明,除去三组表现较好的对比结果,剩余三组不同数量的热点话题集合中,有两组集合上LDA-CHA与SP&HA的准确率相当,进一步证明极少数情况下LDA-CHA的热点检测结果准确率比SP&HA差,LDA-CHA的改进是有一定正向效果的。LDA-HA的部分结果比基准SP&HA算法差,可能是因为同一条微博对多个话题都有贡献而未区分贡献度大小,造成话题热度计算时贡献叠加,降低热度值的准确性。

(2)召回率评估。

85.00%75.00%65.00%召回率R55.00%45.00%35.00%25.00%15.00%SP&HALDA-HALDA-CHATop1016.67%16.67%16.67%Top2030.00%30.00%31.67%Top3041.67%43.33%45.00%Top4056.67%55.00%58.33%Top5070.00%66.67%68.33%Top6085.00%81.67%85.00%TOPN话题 图4-2 召回率R对比结果

34

第4章 实验与分析

在图4-2的结果中,LDA-CHA有3组实验效果优于对比算法,有2组实验结果不低于对比算法,并且3组优秀结果均为热度排名靠前的话题。说明LDA-CHA的热点话题结果中,有较多的话题是真正的热点。

热点检测结果需要准确率和召回率都有较高的水平,因此需要F值指标综合评价算法结果性能。

(3)F值评估。

85.00%75.00%65.00%F值55.00%45.00%35.00%25.00%SP&HALDA-HALDA-CHATop1028.58%28.58%28.58%Top2045.00%45.00%47.50%Top3055.56%48.89%57.76%TOPN话题Top4062.00%68.00%72.91%Top5076.36%72.23%74.54%Top6085.00%81.67%85.00% 图4-3 F值对比结果

在图4-3的F值评价结果中,LDA-CHA有3组实验效果优于对比算法,有2组实验结果不低于对比算法,并且3组优秀结果均为热度排名靠前的话题。

从以上结果可以看出,LDA-CHA算法下的三个指标值均略有提升,证明论文提出的基于内容的热点话题检测模型的性能是有提升的,能够正确判别热点与非热点。

另一方面,从排序结果的优劣角度评估改进的热度计算策略的性能,这项评估借助推荐算法结果的排序评价指标:Kendall’s Tau相关系数和平均排序分。以新浪推荐的前10热门话题为基准,根据公式(3-18)和公式(3-19)计算三个算法的Kendall’s Tau相关系数和平均排序分。计算Kendall’s Tau相关系数时,若话题对中的末位话题不包含在新浪微博推荐列表前10中,此话题对算作逆序对;计算平均排序分时,考察新浪推荐的前10话题在各算法结果列表中的排名,其中算法排序列表的总长度取100,即为算法抽取的话题总数量。

将SP&HA、LDA-HA和LDA-CHA算法热度前10的话题回归文档,与同时段新浪推荐的前10名热门话题比较,如表4-3所示。

35

第4章 实验与分析

序号

SP&HA 热点话题

1 2 3 4 5 6 7 8 9 10

冰桶挑战 中国好声音 爸爸去哪儿2

表4-3 热度计算排序结果对比

LDA-HA 热点话题 冰桶挑战 爸爸去哪儿2 中国好声音

LDA-CHA 热点话题 冰桶挑战

新浪微博 热点话题 冰桶挑战

房祖名柯震东吸毒 房祖名柯震东吸毒 中国好声音 爸爸去哪儿2 鲁甸地震 古剑奇谭 后会无期

爸爸去哪儿2 鲁甸地震 中国好声音 后会无期 古剑奇谭 青奥会 离婚律师 秦时明月

房祖名柯震东吸毒 房祖名柯震东吸毒

鲁甸地震 古剑奇谭 王自如约战罗永浩

后会无期 范玮琪怀孕 湘潭产妇之死

古剑奇谭 鲁甸地震 后会无期

王自如约战罗永浩 王自如约战罗永浩 湘潭产妇之死 范玮琪怀孕

范玮琪怀孕 青奥会

Kendall’s Tau相关系数和平均排序分两个指标的计算结果如表4-4所示。用柱状图直观对比两个指标差异,如图4-5所示。

表4-4 热点检测Top10结果排序评估 算法 SP&HA LDA-HA LDA-CHA

Kendall’s Tau相关系数 平均排序分RS

0.60 0.64 0.73

0.065 0.066 0.063

Kendall’s Tau相关系数平均排序分RSSP&HA0.065 0.73 0.60 0.063 LDA-CHA0.64 SP&HALDA-HALDA-CHA0.066 LDA-HA 平均排序分RS (a) (b)

图4-5热点检测Top10结果排序评估

36

第4章 实验与分析

从两个排序准确度指标的对比结果可以发现,LDA-CHA算法产生的热点话题列表内容及排序更接近同时段新浪推荐的话题内容和排序,有较高的排序准确率。注意到LDA-HA的平均排序分指标比SP&HA的要差,是因为LDA-HA话题的聚类是在语义层面完成的,同一条微博可能会属于多个话题类别,而排序策略没有考虑语义和词频概率,会造成热度等概率叠加的情况,所以排序准确率相对较低。与LDA-HA比较,在同样的话题抽取算法基础上,LDA-CHA采用的热度计算方法决定了较优秀的热点话题排名结果。与SP&HA相比,LDA-CHA的指标提升,说明论文提出的基于内容的话题检测与热度计算的整体策略能够有效融合微博文本内容语义特征和词频特征,在热度评测方面具有进步性。

4.3 话题趋势预测算法实验与评估 4.3.1 实验过程

从上文热点检测结果中选取热度前10的话题,即表4-2提及的10个热点话题,并从数据集中筛选出这些热点话题下的微博。考虑数据集的时间跨度为30天,确定r取30。按照5:1的时间段比例划分每个话题的数据集,前25个时段数据作为训练集,后5个时段数据集作为测试集。

以热度为首的话题“冰桶挑战”为例,按照聚类结果筛选出“冰桶挑战”话题下的微博共4568条,每个时间段关于话题“冰桶挑战”的微博条数分布如表4-5所示。根据公式(3-20)计算每个话题在各时段的微博内容参与率,如表4-6所示。

表4-5 各时段“冰桶挑战”的微博条数

时段编号 微博条数 时段编号 微博条数 时段编号 微博条数

1 2 3 4 5 6 7 8 9 10

0 0 0 0 0 0 0 0 0 0

11 12 13 14 15 16 17 18 19 20

37

0 0 0 0 0 0 0 198 426 596

21 22 23 24 25 26 27 28 29 30

789 632 511 384 203 273 184 144 139 89

第4章 实验与分析

表4-6 各时段“冰桶挑战”的微博内容参与率

时段编号 内容参与率 时段编号 内容参与率 时段编号 内容参与率

1 2 3 4 5 6 7 8 9 10

0 0 0 0 0 0 0 0 0 0

11 12 13 14 15 16 17 18 19 20

0 0 0 0 0 0 0 8% 19% 37%

21 22 23 24 25 26 27 28 29 30

56% 49% 51% 31% 24% 27% 21% 22% 18% 15%

然后得出前25个时段的微博内容参与状态序列。根据表4-6得到“冰桶挑战”的前25时段的微博内容参与状态序列为:000000000000000001111-1-1-1-1。其中,0表示状态空缺,输入时从第一个非0状态开始算起。

将得到的10个热点话题微博内容参与状态序列作为观测序列,与初始模型一起输入Baum-Welch算法进行模型学习,初始参数均取0={0.5,0.5},

0.50.510A0最终得到每个热点话题的隐马尔科夫趋势预测模 ,B001,0.50.5型,每个预测模型的符号均带有下标序号,10个模型依次为1,2,...,10。以“冰0.322240.6777610B桶挑战”为例,最终输出A1,0.5}。 201,1={0.5,0.736220.26378接下来根据学习到的CPHMM模型,利用Viterbi算法预测每个热点话题后5个时段的热度趋势。采用动态规划的思想,得到生成概率最大的热度状态序列。按照之前的约定,1和-1分别代表热度上升和下降。预测结果如表4-7所示。

4.3.2 实验评估

首先,论文从直接证明预测算法预测效果的角度进行了对比实验。论文选取后向算法输出隐马尔科夫预测模型的预测结果,基准实验选取文献[7]建立的隐马尔科夫模型','是一个突发事件下热点话题趋势预测的模型,模型基于意见领袖参与状态,在话题热度状态预测方面有一定预测精度。对比模型标记为0.50.510B0'LOHMM,表示为'={A',B','},其中初始参数有A0',,0.50.50138

第4章 实验与分析

首先根据模型'的定义,分别计算10个热点话题前25个时段的0'={0.5,0.5}。意见领袖参与状态序列,输入Baum-Welch算法训练得到各自的预测模型,分别

由1',2',...,10'表示。然后利用后向概率结合后向算法,得到每个话题后5个时段的话题热度状态序列,如表4-8第三列所示。

表4-7 热度前10的话题模型热度趋势预测结果

序号 1 2 3 4 5 6 7 8 9 10

热点话题 冰桶挑战 房祖名柯震东吸毒 中国好声音 爸爸去哪儿2 鲁甸地震 古剑奇谭 后会无期 王自如约战罗永浩 范玮琪怀孕 青奥会

话题热度状态序列输出

1-11-1-1 -1-11-11 -1-111-1 1-1-11-1 -1-1-11-1 -11-11-1 -1-1-111 111-1-1 111-1-1 1111-1

话题热度状态序列计算

-1-11-1-1 -1-1-111 -11111 1-1-111 -1-1111 -11-1-11 -11-1-11 11-1-11 -1-1-1-1-1 1-111-1

表4-8 前10热度话题的'模型热度趋势预测结果

序号 1 2 3 4 5 6 7 8 9 10

热点话题 冰桶挑战 房祖名柯震东吸毒 中国好声音 爸爸去哪儿2 鲁甸地震 古剑奇谭 后会无期 王自如约战罗永浩 范玮琪怀孕 青奥会

话题热度状态序列'输出

111-1-1 -1-1-1-11 -1-111-1 11-1-11 -1111-1 -1111-1 11-1-1-1 1-1-111 1-1-1-1-1 1-1-1-1-1

话题热度状态序列计算

-1-11-1-1 -1-1-111 -11111 1-1-111 -1-1111 -11-1-11 -11-1-11 11-1-11 -1-1-1-1-1 1-111-1

而根据论文改进的话题热度计算策略,计算10个话题测试集数据在5个测试时段的热度值,进而形成10组长度为5的热度状态序列,结果如表4-8第四列所示。综合表4-7与4-8,统计得到两个模型的预测结果与真实计算结果状态不一致的个数,如图4-6所示。

39

第4章 实验与分析

43210不一致个数CPHMMLOHMM 图4-6 模型预测结果误差对比

由图4-6可看出,针对热度排名前10的话题,论文基于微博内容贡献率的隐马尔科夫预测模型的预测结果更接近真实热度变化情况,与现实情况的误差较小,证明论文隐马尔科夫预测模型在社会热点话题趋势预测方面可信度较高。

另外,论文利用后向算法证明论文训练所得CPHMM模型的可信度。基于热度前10名的话题的训练集数据,采用之前步骤计算的各话题的微博内容参与状态序列,与各自的模型一起输入Viterbi算法,对应输出的前25时段最大概率话题热度状态序列,如表4-9所示。

表4-9 热度前10的话题热度状态序列输出结果

序号 1 2 3 4 5 6 7 8 9 10

热点话题 冰桶挑战 房祖名柯震东吸毒 中国好声音 爸爸去哪儿2 鲁甸地震 古剑奇谭 后会无期 王自如约战罗永浩 范玮琪怀孕 青奥会

话题热度状态序列输出 0000000000000000011111-1-11 0000000000000000111-1-11-1-11 11-1-111111-1-111111-1-1111-1-1-11 11-1-111111-1111111-1-111-111-1-1 0111-11-111111-1-1-1-1-11-1-1-1-1-1-11 11-1-111-1-1-1111-1111-1-11111-1-11 11-1-11111-11-1111-1-1-1-111-1-1-111 000000000001111-111-1-1-1-1-111 0000000000000000000000111 00011-1-1111-1-1-11111-111-111-11

40

第4章 实验与分析

根据公式(3-14)分别计算每个话题的训练集数据在各个时段的热度值,进而得到前25时段对应热度状态序列如表4-10所示。

表4-10 热度前10的话题热度状态序列计算结果

序号 1 2 3 4 5 6 7 8 9 10

热点话题 冰桶挑战 房祖名柯震东吸毒 中国好声音 爸爸去哪儿2 鲁甸地震 古剑奇谭 后会无期 王自如约战罗永浩 范玮琪怀孕 青奥会

话题热度状态序列计算 000000000000000001111-1-1-1-1 000000000000000011-1-111-1-11 11-1-11-1111-1-111111-1-1-1111-111 1-1-1-111111-1-1-11111-1111-111-11 0111-11-1-1111-1-1-1-1-1-1-1-1-1-1-1-111 11-1-1111-1-11-11-111-1-1-111111-11 111-11-111-11-111-1-11-1-11-1-1-1-111 000000000001-111-11-1-1-1-1-1-1-11 000000000000000000000011-1 000111-11111-111111-11-1-111-11

综合10组话题热度状态序列的模型输出结果和计算结果,根据公式(3-21)得到每个话题的误差值,如图4-7所示。

冰桶挑战青奥会0.18范玮琪怀孕0.330.210.2后会无期古剑奇谭0.160.17鲁甸地震0.25房祖名柯震东吸毒0.22中国好声音0.160.2王自如约战罗永浩爸爸去哪儿2 图4-7 热度前10的话题训练集热度状态序列误差

从以上结果可以得出,误差值基本小于0.25,因此,训练所得的隐马尔科夫预测模型CPHMM具有可信度,可以用来预测话题热度趋势。

41

第4章 实验与分析

4.4 本章小结

本章为算法的实验过程与评估分析,首先详细介绍基于内容的热点话题检测算法的检测流程,并从话题检测准确性和热度排名两个方面证明算法的有效性,然后在热点话题检测结果的基础上,介绍论文改进的隐马尔科夫预测模型的学习过程,并利用后向算法和前向算法评估预测模型的可靠性。由实验结果可以看出,基于内容的热点话题检测与预测方法,由于充分考虑了微博文本的语义和词频特征以及传播特征,修正了意见领袖在社会热点话题传播上的夸大作用,算法能够准确发现潜藏于文本中的话题,更精确地给出话题热度排名,并能相对正确地预测热点话题的短期热度发展趋势。在下一步工作中,论文将进一步考察影响热点话题热度的其他非文本特征,补充文本角度的检测方法,提高热点检测和趋势预测的效果。

42

第5章 总结与展望

第5章 总结与展望

5.1 总结

微博已成为国内社交网络服务平台的最主流信息平台,微博的消息传递方式具有很高的实时性、可追溯性和可信性,使民众越多地依靠它获取和发布信息。微博也逐步成为社会舆论的集散中心,微博平台蕴含着大量特别有价值的社会意见信息,通过深层次挖掘其热门话题及其发展规律,不仅方便用户进行兴趣跟踪、热点发现等个性化社交体验,更能为网络舆情监测工作获取重要的情报。针对微博热点话题的巨大社会价值,论文以新浪微博为核心,进行了中文微博热点话题检测与趋势预测方面的研究。

论文充分考虑中文微博的信息发布与传播特点,发现社会热点话题的关注度或热度主要取决于微博内容本身,而微博所属用户的影响力大小对社会焦点事件关注度并没有实质的推动力。论文以微博文本内容为出发点,针对热点话题检测任务提出LDA-CHA算法,依次提取微博文本内容的语义特征、词频特征和传播特征,首先从语义层面进行话题抽取,之后以传播特征为中心,结合微博的语义权重和词频权重,计算话题热度;在热度趋势预测任务中,论文基于热点话题的微博内容参与率改进隐马尔科夫模型,形成预测模型CPHMM,使其更适应社会热点话题的发展特点,更精确地预测话题热度趋势。论文在微博热点话题检测与趋势预测领域做出的贡献有:

(1)研究国内外社交网络服务平台热点话题检测的现状,指出现有检测模型存在的问题:算法设计思路单一,只侧重一种体现微博热度的因素,用单一的建模方式拟合话题热度。针对这一问题,论文首先依照概率模型选取话题抽取结果,并去除低频噪声,之后分析单条微博在传播特征上的热值贡献度,结合微博在语义上和词频上的权重特征,建立话题热度计算方法,以此计算话题热度值并排序得到热点结果。论文热点话题检测方法综合了语义、非语义和传播特征,有效提升了热点话题检测质量。

(2)对单条微博热度的计算方案,已有算法夸大了意见领袖对社会热点信息传播的推动作用。论文针对检测社会热点的实际需求,从博文内容出发,提出一种新的微博热度衡量方法,该方法综合微博转发、评论、点赞等直接传播特征,以大量数据为基础考察其数量关系,利用因子分析法建立微博热度计算公式,避免了各个子特征的贡献度失衡的现象。

43

第5章 总结与展望

(3)热点话题的热度趋势预测。微博内容对所属话题热度有直接贡献,因此定义话题的微博内容参与率。在热点话题检测结果的基础之上,基于热点话题的微博内容参与状态,论文构造出用于热点话题趋势预测的隐马尔科夫预测模型CPHMM,实现简单并且预测准确率可信,经过与基于意见领袖参与状态的隐马尔科夫预测模型对比,CPHMM的可靠性较高。

5.2 展望

论文工作主要围绕微博的热点话题识别与趋势预测两个方面。目前以新浪微博的真实用户数据为研究基础,已经具备较强的权威性。后续研究中可综合其他微博平台的数据集验证论文算法的有效性,并增强算法的普适性。

从前期的工作效果可看出,论文算法将微博文本内容特征和传播特征相结合,并借助LDA语义主题检测和隐马尔科夫模型,构造了一个完整的微博热点主题检测与热点短期趋势预测流程,并且算法效果良好。后续工作将围绕以下几点开展:

(1)由于促成微博影响力的因素纷繁复杂,有更多细微特征可以提取并融合到算法中,提高热点识别准确率。同时,可以尝试多种选择特征的方法。

(2)社会热点话题分类也比较繁杂,如果能有效对社会热点话题分类并按类别分析热度发展趋势,将有助于隐马尔科夫模型提升预测效率和准确率。

44

参考文献

参考文献

[1] Milgram S. The Small World Problem [J]. Psychology Today, 1967, 2(1): 185-195.

[2] Meadows-Klue D. The Tipping Point: How Little Things Can Make a Big Difference [J]. Journal of Direct, Data and Digital Marketing Practice, 2004, 5(4): 580-580.

[3] Gaonkar S, Choudhury R R. Micro-Blog: map-casting from mobile phones to virtual sensor maps [C]. International Conference on Embedded Networked Sensor Systems. SENSYS 2007, Sydney, Nsw, Australia, 2007: 401-402.

[4] 新浪. 中国微博元年市场白皮书[EB/OL]. 中国微博服务,2010-09-22[2016-11-1]. http://www.199it.com/archives/3680.html.

[5] 埃里克·麦格雷著,刘芳. 传播理论史:一种社会学的视角[M]. 中国传媒大学出版社,2009.

[6] Yang J, Counts S. Predicting the Speed, Scale, and Range of Information Diffusion in Twitter [C]. International Conference on Weblogs and Social Media. Icwsm 2010, Washington, Dc, Usa, 2010.

[7] 王酌. 突发事件的微博网络测量和话题趋势预测模型的研究与实现[D]. 北京:北京邮电大学,2015.

[8] Fiscus J G, Doddington G, Garofolo J S, et al.Topic Detection and Tracking Evaluation TDT2 [J]. Proc of the Darpa Broadcast News Worksho, 1998, (1): 521-524. [9] Allan J, Papka R, Lavrenko V. On-line new event detection and tracking [C]. Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. Melbourne, Australia: ACM, 1998: 37-45. [10] Allan J, Harding S, Fisher D, et al.Taking Topic Detection From Evaluation to Practice [C]. Proceedings of the Annual Hawaii International Conference on System Science. Big Island, Hawaii, 2005: 174-184.

[11] Brants T, Chen F, Farahat A. A System for new event detection [C]. SIGIR 2003: Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval. Toronto, Canada, 2003: 330-337.

[12] Kumaran G, Allan J. Text Classification and Named Entities for New Event Detection [C]. Proceedings of the 27th Annual International AMC SIGIR Conference.New York, USA, 2004: 297-304.

[13] Yang Y, Carbonell J, Pierce T. A Study of Retrospective and On-line Event Detection [C]. Proceedings of the 21st Annual International ACM SIGIR Conference

45

参考文献

on Research and Development in Information Retrieval. Melbourne, USA, 1998: 28-26.

[14] Mohd M, Crestani F, Ruthven I. Construction of topics and clusters in Topic Detection and Tracking tasks [C]. Semantic Technology and Information Retrieval (STAIR) 2011 International Conference on IEEE. Putrajaya, Malaysia, 2011: 171-174. [15] Zhao Y, Xu J. A novel method of topic detection and tracking for BBS [C]. Communication Software and Networks (ICCSN) 2011 IEEE 3rd International Conference on IEEE. Xi'an, China, 2011: 453-457.

[16] Jin Y. A topic detection and tracking method combining NLP with suffix tree clustering [C]. Computer Science and Electronics Engineering (ICCSEE) 2012 International Conference on IEEE. Hangzhou, China, 2012, (3): 227-230.

[17] Amayri O, Bouguila N. Online news topic detection and tracking via localized feature selection [C]. Neural Networks (IJCNN) 2013 International Joint Conference on IEEE, Dallas, Texas, USA, 2013: 1-8.

[18] Dumais S T. Latent semantic analysis [J]. Annual Review of Information Science and Technology, 2004, 4(1): 683-692.

[19] Hofmann T. Probabilistic Latent Semantic Indexing [C]. Proceedings of the 22nd Annual ACM Conference on Research and Development in Information Retrieval. Berkeley, California, 1999: 50-57.

[20] Hofmann T. Unsupervised Learning by Probabilistic Latent Semantic Analysis [J]. Machine Learning, 2001, 42(1): 177-196.

[21] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation [J]. Journal of Machine Learning Research, 2003, (3): 993-1022.

[22] Ramage D, Hall D, Nallapati R, et al. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora [C]. Proceedings of EMNLP 2009. Singapore, 2009: 248-256.

[23] Ramage D, Dumais S T, Liebling D J. Characterizing Microblogs with Topic Models [C]. International Conference on Weblogs and Social Media. Washington DC, USA, 2010: 130-137.

[24] Cha M, Haddi H, Benevenuto F, et al. Measuring user influence in twitter [C]. Icwsm 10: International AAAI Conference on Weblogs & Social. Austin, Texas, USA, 2015.

[25] Weng J, Lim E P, Jiang J, et al. TwitterRank: finding topic-sensitive influential twitterers [J]. WSDM, 2010: 261-270.

[26] Jamali S, Rangwala H. Digging Digg: Comment Mining, Popularity Prediction, and Social Network Analysis [M]. IEEE, 2009: 32-38.

46

参考文献

[27] Cheng J J, Liu Y, Cheng H, et al. Growth Trends Prediction of Online Forum Topics Based on Artificial Neural Networks [J]. Journal of Convergence Information Technology, 2011, 6(10): 87-95.

[28] Asur S, Huberman, B.A. Predicting the Future with Social Media [C]. Ieee/wic/acm International Conference on Web Intelligence and Intelligent Agent Technology. Toronto, Canada: IEEE, 2010:492 - 499.

[29] Cheong M, Lee V C. A microblogging-based approach to terrorism informatics: Exploration and chronicling civilian sentiment and response to terrorism events via Twitter [J]. Information Systems Frontiers, 2011, 13(1): 45-59.

[30] Nikolov S. Trend or no trend: a novel nonparametric method for classifying time series [D]. Twitter Inc, 2012.

[31] Menjo T, Yoshikawa M. Trend prediction in social bookmark service using time series of bookmarks [J]. Proceedings of Dews, 2008: 156-166.

[32] Yu L L, Asur S, Huberman B A. Artificial Inflation: The Real Story of Trends and Trend-Setters in Sina Weibo [C]. Ase/ieee International Conference on Social Computing and 2012 Ase/ieee International Conference on Privacy, Security, Risk and Trust. Amsterdam, the Metherlands: IEEE Computer Society, 2012: 514-519. [33] Yang F, Liu Y, Yu X, et al. Automatic detection of rumor on Sina Weibo [C]. ACM SIGKDD Workshop on Mining Data Semantics. Beijing, China: ACM, 2012: 1-7.

[34] Lu S, Yao C. The research of internet public opinion's tracking algorithm [C]. Electric Information and Control Engineering (ICEICE) 2011 International Conference. Wuhan, China: IEEE, 2011: 5536-5538.

[35] Lavrenko V, Croft W B. Relevance based language models [C]. International ACM SIGIR Conference on Research and Development in Information Retrieval. New Orleans, Louisiana, USA: ACM, 2001: 120-127.

[36] Turney P D, Pantel P. From frequency to meaning: vector space models of semantics [J]. Journal of Artificial Intelligence Research, 2010, 37(1): 141-188. [37] Wu D D. Performance evaluation: An integrated method using data envelopment analysis and fuzzy preference relations [J]. European Journal of Operational Research, 2009, 194(1): 227-235.

[38] Guan Q, Ye S, Yao G, et al. Research and Design of Internet Public Opinion Analysis System [J]. Microcomputer Information, 2009, 26(18):173-177.

[39] 李凡,鲁明羽,陆玉昌. 关于文本特征抽取新方法的研究[J]. 清华大学学报:自然科学版,2001,41(7):98-101.

[40] 刘庆和,梁正友. 一种基于信息增益的特征优化选择方法[J]. 计算机工程与应用,2011,47(12):130-132.

47

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- xiaozhentang.com 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务