裴可锋;陈永洲;马静
【摘 要】[目的/意义]随着网络舆情对现实生活的影响越来越大,对其中一些具有负面影响的话题进行追踪与预测具有重要意义。由于微博话题热度时间序列非线性、时变性等特征,因此目前的研究难以对其进行较为理想的预测。[方法/过程]为了提高话题热度预测精度,在LDA和EEMD方法基础上提出了离散话题热度预测模型DTPM ( Discretized Topic Predict Model)模型。首先,引入LDA模型,结合话题具有的内容和外在特征两个方面的热度因素,定义更加符合实际的话题热度计算方法,得到话题热度时间序列。然后,采用EEMD技术对该热度时间序列进行离散分解,利用神经网络等预测方法对各部分进行预测建模,最终汇总得到话题预测结果。[结果/结论]基于真实微博数据进行话题热度预测仿真实验,对比了话题热度时间序列不同处理下的预测精度。试验结果表明,对话题热度时间序列进行离散化的DTPM模型能够有效提高话题热度预测的精
度。%Purpose/Significance] As the online public opinion has more and more influence on real life, tracking and predicting some topics which have negative impact is of great significance. The characteristics of micro-blog topic popularity time series are nonlinear, time-varying and so on, thus it is difficult to predict in an ideal way under current research.
[ Method/Process] In order to improve the prediction accuracy of the topic popularity, this paper puts forward a DTPM ( Discretized Topic Predict Model) model to predict topic pop-ularity based on LDA and EEMD methods. Firstly, the paper introduces LDA model and then combines the topic popularity factors of con-tents and external characteristics to define
a topic popularity calculation method which is more consistent with the reality based on text con-tent strength. Then, EEMD technology is used to decompose the popularity time series, and the prediction methods of neural network and so on are used to model the prediction, and later the result of topic prediction is summarized. [ Result/Conclusion] Based on real micro-blog dataset, this paper conducts a topic popularity prediction simulation experiment and compares the topic prediction accuracy under dif-ferent treatments of the topic popularity time series . The experimental results show that DTPM model which discretizes the topic of popular-ity time series can effectively improve the prediction accuracy. 【期刊名称】《情报杂志》 【年(卷),期】2016(035)012 【总页数】6页(P52-57)
【关键词】话题热度时间序列;LDA;EEMD;DTPM模型 【作 者】裴可锋;陈永洲;马静
【作者单位】南京航空航天大学经济与管理学院 南京 210016;南京航空航天大学经济与管理学院 南京 210016;南京航空航天大学经济与管理学院 南京 210016 【正文语种】中 文 【中图分类】TP391
DOI 10.3969/j.issn.1002-1965.2016.12.010
作为大数据时代的典型例子,基于Internet的社交网络随着Web 2.0的出现在信
息传播中扮演者越来越重要的角色,日益增加的海量互联网用户积累了庞大的用户群体,形成了巨大的虚拟社交网络。其中,微博作为网络社交媒体的代表具有用户量巨大、信息多元、影响力巨大等特点。截止2015年9月,微博月活跃人数达到2.12亿,日活跃用户达到1亿。巨量的用户群体以及用户之间的紧密联系使得微博拥有传统信息媒体所没有的影响力。与此同时,一些不良的网络如抢盐等谣言主题对社会的稳定与安全造成了消极的影响。因此,及时掌握网络舆情主题的发展动态,并对其发展趋势进行预测,有利于对网络环境的监管,从而趋利避害,促进经济与社会的良性发展。
目前,对舆情话题进行预测的研究主要分为以下三类:a.利用过去话题的相似时间序列进行预测。如聂恩伦[1]等人利用K近邻方法对比新话题与旧话题的相似度,对新话题的发展过程进行预测。王卫姣[2]等人结合LDA(Latent Dirichlet Allocation)和KNN(k-NearestNeighbor)方法找到与待预测话题最相关的其他话题,以其热度变化情况来进行预测。但是这种预测方式存在很大的不确定性,预测精度不高。b.利用传统时间序列预测方法,对话题时间序列进行预测。由于话题时间序列具有非线性、多时变、小样本等特点,采用机器学习方法进行预测的研究较多。姬建新[3]利用捕鱼算法优化后的核极限学习机对微博热点话题进行预测。周耀民[4]等人结合经验模态分解EMD(Empirical Mode Decomposition)和自回归积分滑动平均模型ARIMA(Autoregressive Integrated Moving Average Model)方法进行舆情演化分析。舒予[5]等人结合小波分析和人工神经网络对网络舆情进行预测,提高了预测精度。但是这种预测方式仍然存在一些问题,如EMD方法存在模态混合问题,支持向量机和核极限学习机等方法有参数难以确定等问题。c.基于话题传播模型的预测。这种预测方式通过构建话题传播模型,利用现有数据对模型进行训练,从而以此为基础进行预测。韩忠明[6]等人利用自激点过程构建热点话题传播模型,并以此为基础进行预测,能有效预测话题传播趋势。但是这种预测
方式建模过程复杂,可推广性不强。
此外,针对话题热度定义问题,当前研究主要采用的方法包括直接将话题的帖子数或点击数作为话题热度以及综合考虑时间、关注度、转发数、用户等多种因素来定义话题热度的方法。直接采用帖子数或点击数来作为话题热度的方法简单直观,但是忽略了其他热度影响因素,不够合理。如聂恩伦[1]等人在用K近邻方法进行新话题热度预测时采用点击数作为热度标准;何炎祥[7]等人以各话题的发帖量作为话题热度,在此基础上改进了人口模型将其映射在神经网络上,并利用遗传优化的神经网络对事件话题的趋势进行预测。针对这种方法的不足,很多研究者综合考虑了用户、转发数、评论数等众多因素定义了很多话题热度计算方法。如孙永利[8]等人综合考虑了话题关注度、用户参与度以及发帖人等相关因素,并设置相应权重定义了热度熵值来表示话题热度。李情情[9]等人在综合考虑发布者、关注度、时间、转发数和评论数等因素的前提下,通过设置个人认证用户和非个人认证用户等特定用户的权重来计算话题的热度,对热度值计算公式进行改进。虽然这种话题热度定义方法相对合理,但是并没有考虑到文本内容由多个话题组成的情况,缺乏对文本内容进行更深入的分析。
综上所述,本文提出的离散话题热度预测模型DTPM模型在利用LDA模型定义话题热度的基础上,对得到的话题热度时间序列利用集成经验模态分解
EEMD(Ensemble empirical mode decomposition)进行离散化,得到若干个本征模函数和趋势项,然后分别利用神经网络、ARIMA、支持向量机模型三个时间序列预测模型对各个分量进行预测,最后重构计算得到话题热度预测结果。 1.1 LDA模型及EEMD分解方法介绍 LDA模型是Blei[10]等人提出的三层贝叶斯模型,是一种具有文本主题表示能力的非监督产生式概率模型(一元模型)。三层是指:文本,话题和词汇。该模型假设文本是由若干话题混合而成,而话题是由词汇表中的所有词汇混合而成。不同文本的区别在于它们的话题混合比例不同,从
Dirichlet分布中抽样产生。
LDA 模型的生成过程是一个抽样的过程, 它描述了在文档中的词是怎样在隐藏主题下被生成。
(1)对于每个文档d∈D,根据,得到文档d上话题的多项分布参数θd; (2)对于每个话题z∈K,根据,得到话题z上词语的多项分布参数φz; (3)对于文档d中的第i个词φd,i: a)根据多项分布,得到话题Zd,i。 b)根据多项分布,得到词Wd,i。
在LDA中 ,话题( Topic) 由一组语义上相关的词语以及词语在该话题上出现的概率表示。一般情况下,可以基于给定的语料库,通过Gibbs采样的方法训练得到文档-主题概率分布θ和主题-词汇概率分布φ,并以此为基础进行后续研究分析。 EEMD分解方法是在经验模态分解EMD方法的基础上发展得来的,是EMD模型的优化模型。美国国家航天局Huang[11]等人通过对时频率对的深入研究,创造性的提出了EMD方法。该方法从本质上讲是对一个信号进行平稳化处理 , 将信号中不同尺度(频率)的波动或趋势逐级分解开来 , 产生一系列包含了原信号不同时间尺度局部特征信息的imf分量和代表时间序列趋势的趋势项res。但是,EMD方法存在一个缺陷,即常常会出现不同模态之间的混淆,称为模式混叠。为了解决这个缺陷,Wu[12]等人在原有EMD的基础上加入了白噪声从而得到了集成经验模态分解方法。其核心是将高斯白噪声加入信号中进行多次 EMD 分解,最后将多次分解的 imf总体平均定义为最终的imf。实践证明,EEMD方法通过显著减少模态混叠现象可以达到明显改善 EMD 方法分解效果的目的,因此本文以EEMD方法作为话题热度时间序列的离散方法,对其进行离散处理。
1.2 话题热度定义 要进行话题热度预测首先得定义好话题热度。以往的研究中,经常采用所研究主题的帖子数来表示话题热度,但是这样做存在以下两个问题:
a.一篇微博或者一个帖子并不单纯只有一个主题,可能由多个主题混合而成。单纯的帖子数不能表示出这一话题的热度。
b.除了该主题相关帖子数量以外,一些帖子的外在的特征如转发数、评论数,这些因素也是影响一个主题热度的重要因素,需要把这些也考虑进去
因此本文将话题的热度分为两个方面来进行考虑,分别为基于内容的热度因素和基于文本外在特征的热度因素。由于LDA模型可以利用文本-主题矩阵表示出一篇文本中的主题组成情况,因此很多研究中将每篇文本对应主题概率相加得到主题总概率再除以这一时间片总文本数表示该主题热度。这是从文本内容上出发得到的话题热度因素,认为每篇文本都是同等重要,差别在于文本主题分布的不同。但是结合话题文本一些外在的特征如转发数、评论数,每篇文本在计算话题热度时并不是同等重要的。显然,转发数、评论数越高的文本对该时间片下的主题热度分布的影响越大,在计算话题热度的时候应该占到更大的比重。唐晓波[13]等人结合转发数和评论数以信息量的思想提出了计算微博热度的公式如下,:
其中,π表示评论数,ω表示转发数,ε在其理论中取1表示作者,(π+ω+ε)表示关注该微博信息的人数,则1/(π+ω+ε)表示在这个人群中,作为作者发表该微博的概率。但是当转发数和评论数为零时,此时热度计算为0,考虑到微博发布以后总会有人看到,从而产生一定热度影响,因此需要对上述公式进行改进,本文引入微博潜在影响人数因素,限定常数值ε取值大于1表示作者与潜在影响人数之和。至此,本文用(1)式的改进公式来表示基于文本外在特征的热度因素并将其作为文本热度权重。
综上,结合表示文本重要性的基于文本外在特征的热度因素和基于内容的热度因素计算方法,可以定义如下话题热度表示公式:
其中为时间窗口t中话题j的热度,Dt 为时间窗口t中的文本数,θd,j表示第d篇文档第j个话题的分布概率,表示t时间窗口第d篇文档基于文本外在特征的热
度权重,ρ表示为了便于预测计算设置的放大系数。至此,我们基于LDA模型及话题外在热度特征定义了话题热度。
1.3 DTPM模型过程 通过上文提出的话题热度定义方法,我们可以得到各个话题的话题热度时间序列。不难发现,此时得到的话题热度时间序列是不稳定,非线性的非平稳时间序列。从以往的研究中可以发现直接利用神经网络等预测方法对其进行预测,效果并不是很好。因此,本文DTPM模型的主体思想是引入离散的想法,将包含各种影响因素的话题热度时间序列分解成各自具有一定规律的时间序列组合。由于其具有一定规律,相较于原始预测在利用预测方法预测时具有更好的预测效果和精度,最终组合起来提高原有时间序列预测精度。
离散话题预测模型(DTPM)首先需要获取能够表示现实话题热度的话题热度时间序列。本文提出的话题热度定义方法在利用LDA模型对语料库进行分析的基础上结合话题外在热度特征定义话题热度。之后针对话题热度时间序列离散化的需要,考虑到EEMD分解方法能够高效的将非平稳时间序列平稳化,分解为不同尺度(频率)imf时间序列分量和res时间序列分量,同时克服EMD分解中存在的模态混合问题。因此,本文采用EEMD分解方法将话题热度时间序列离散化。与此同时,由于模型目标是对话题热度进行预测,所以还需要结合时间序列预测方法对各个时间序列分量进行预测。研究发现,在时间序列预测研究中,应用较多的预测方法包括神经网络、支持向量机、ARIMA这三种方法。因此,在DTPM模型中拟结合这三种预测方法对话题热度时间序列进行预测,并进行对比,选取最优预测方法。此外,考虑到多步预测的预测准确率步数越多,预测效果越差,因此本文仅采用单步预测方法进行预测。 DTPM预测模型过程如下:
Step1:获取待分析舆情语料库,并对舆情语料库进行预处理
Step2:对舆情语料库划分时间片,对各个时间片的舆情文本进行LDA建模,得
到各自的文本-话题矩阵,并以此为基础,根据本文提出的话题热度定义方法,定义各个话题的热度时间序列。
Step3:选取所需研究的话题,提取其话题热度时间序列,利用EEMD分解方法将其离散化,得到若干不同尺度(频率)imf时间序列分量和res时间序列分量。 Step4:利用时间序列预测方法对原始序列EEMD分解后的各个时间序列分量进行单步预测。采用的时间序列方法包括神经网络、支持向量机、ARIMA方法。 Step5:将离散化后的各个时间序列的预测值逆向组合,还原到原话题的话题热度时间序列,从而得到原时间序列的单步预测结果和预测精度。比较三种预测方法的预测精度,选取预测精度最高的预测方法作为最终预测方法。 模型如图1所示。
2.1 主题热度时间序列获取 本文选取2015年8月31日到2015年10月24日共计55天的微博数据作为数据源,数据内容包括作者id、微博内容、评论数、转发数等信息。获取微博数据后,进行分词、去停用词等预处理,然后以天为单位将数据集划分为55个时间片文本集,再利用LDA模型进行文本处理。研究中以“股市”作为热度研究主题,对比分析了常用话题热度定义方法和本文话题热度定义方法。其中前一种方法利用该主题发帖数占时间片总帖子数比例表示话题热度,本文方法在公式(1)和(2)中的参数设置分别为ε=2,ρ=1000。
两种方法获得的“股市”话题热度如图2所示。可以看出采用本文方法得到的话题热度变化与前一种方法得到的结果总体趋势大致相同,局部上存在较大差别。如在图2第34点本文得出的热度比用帖子数表示的热度要高很多,查看当天的微博文本,发现当天关于股市话题的微博数量虽然不是很多,但是这些微博的评论数和转发数较前一天大量增加了,表明话题热度明显提升,本文方法反映出了这一变化。同理,图3第12点较图2大幅下降的原因是采集的关于“股市”的微博的评论数和转发数较之前大幅下降。综上所述,本文所定义的微博热度时间序列计算方法更
能反映现实的热度变化。
2.2 基于DTPM模型的话题预测结果 对时间序列进行集成经验模态分解的前提是,该时间序列是非平稳的,因此需要对获得的话题时间热度序列进行平稳性分析。本文采用ADF检验方法对时间序列进行检验,判断其是否符合非平稳时间序列要求。检验结果显示t统计量为-2.48,大于显著水平为10%的临界值。所以,在90%的置信度下不能拒绝原假设,认为原始序列是非平稳的。
本文试验主要目的是对比未经过分解的原始序列,以及原始序列经过EMD分解和EEMD分解后分别通过神经网络、支持向量机、ARIMA方法进行预测后的预测精度的差别。首先需要将原始时间序列进行EEMD分解,得到如下所示的分解时间序列。
由图4可知,原始序列被EEMD方法分解为4个imf分量以及一个趋势项res。其中,imf分量围绕着零均值线来回震荡,并且随着分量值的增大,频率由高到低。Res代表的趋势项呈现总体先下降后上升的趋势。
获取分解后的各个时间序列后,就可以结合几种常用的时间序列预测方法对时间序列进行预测,并且利用各种预测精度度量指标进行预测精度对比。
在试验中,将前40个时间序列作为训练集,将后15个时间序列作为测试集。试验环境为acer vn7型号电脑,采用matlab 2014a编程实现。由于上述几个时间序列预测方法都需要对一些参数进行优化才能得到理想的预测结果,在此对各个预测方法进行说明。神经网络方法是机器学习领域的经典方法,试验中采用matlab中自带的神经网络工具箱,经过反复试验采用(5,5,1)形式的输入层、中间层、输出层设置,训练算法采用traingd。支持向量机进行预测试验中采用了libsvm工具箱,采用研究中默认的参数设置。ARIMA方法在编程实现过程中采用了循环的方式自动匹配自回归项,移动平均项数等参数。
通过预测方法获得预测结果后,本文采用平均绝对百分误差(MAPE),根均方误差
(RMSE)、平均绝对误差(MAE)、绝对误差标准差(AESD)这几个指标来评价预测效果。显然,MAPE、RMSE、MAE越小,表示模型预测精度越高;AESD越小,表示模型的预测平稳性越好。各个指标的计算公式如下:
其中,i表示采用预测方法得到的一步预测结果,xi表示时间序列实际值。预测结果如表1所示。
由上表的试验结果可以得到如下几个结论:
a.神经网络预测效果最好,应选为后续预测方法。总体来说,神经网络预测方法能够得到最好的预测结果,ARIMA方法次之,两者预测效果相差不大,支持向量机预测效果最差。支持向量机预测效果较差的主要原因可能是因为模型参数设置的问题,默认参数可能并不能很好的提高预测精度,需要确定最佳参数。
b.原始序列离散化能明显提高预测精度。神经网络和ARIMA方法,采用EMD分解后和EEMD分解后的时间序列进行预测,预测效果比原始序列均有明显提高,其中神经网络总体预测效果稍好于ARIMA预测方法,支持向量机方法效果有提高但不明显。
c.本文采用的离散化方法EEMD效果明显比EMD方法好。本试验对比了EMD分解预测效果和EEMD分解的预测效果。结果表明,采用神经网络和ARIMA预测方法能够大幅度提高预测效果,其中采用EEMD的神经网络方法对预测精度的提高好于ARIMA方法,但是对预测稳定性的提高不如ARIMA方法。然而采用支持向量机方法进行预测的两种分解的效果相差不多,EEMD分解后的预测效果并没有如预期的好于EMD分解。
结合上述结论,针对该话题的预测,应该以神经网络预测方法作为后续的最终预测方法。
本文结合LDA和EEMD技术,构建了用于话题热度预测的离散话题预测模型(DTPM)。首先,针对现有研究中舆情热度表示问题,提出了结合LDA模型,考
虑文本外在热度特征的舆情主题热度定义方法,得到能较为真实表示舆情主题热度的热度时间序列。然后结合集成经验模态分解(EEMD)方法,将话题热度时间序列离散化得到一系列imf时间序列分量和res时间序列趋势项,并且利用几种常用的时间序列预测方法如神经网络、支持向量机等方法进行预测,最后将离散后的各个分量还原为原热度时间序列得到预测值并通过对比三种预测方法的预测精度选定最终预测方法。本文采用现实微博数据进行仿真实验,对比了话题热度时间序列不同处理下的预测精度,证明了DTPM模型能有效提高话题热度预测精度。
【相关文献】
[1] 聂恩伦,陈 黎,王亚强,等.基于K近邻的新话题热度预测算法[J]. 计算机科学,2012(S1):257-260. [2] 王卫姣,陈 黎,王亚强,等. LDA和KNN相结合的帖子热度预测算法[J]. 四川大学学报(自然科学版),2014(3):467-473.
[3] 姬建新. 捕鱼算法优化核极限学习机的微博热点话题预测[J]. 激光杂志,2015(1):128-131. [4] 周耀明,王 波,张慧成. 基于EMD的网络舆情演化分析与建模方法[J]. 计算机工程,2012(21):5-9. [5] 舒 予,张黎俐. 基于小波分析与人工神经网络的网络舆情预测[J]. 情报科学,2016(4):40-42,47. [6] 韩忠明,张 梦,谭旭升,等.基于自激点过程的网络热点话题传播模型[J]. 计算机学报,2016(4):704-716.
[7] 何炎祥,刘健博,刘 楠,等. 基于改进人口模型的微博话题趋势预测[J]. 通信学报,2015(4):5-12. [8] 孙永利,李 东,张 玥. 基于熵值的网络论坛热点话题发现[J]. 计算机工程,2014(6):312-316. [9] 李情情,鲁 燃,朱振方,等. 基于特定用户角色的热度计算方法及应用[J]. 计算机工程与设计,2016(5):1201-1207.
[10] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J].Journal of Machine Learning Research, 2003(3): 993-1000.
[11] Norden E Huang, Zheng Shen, Steven R Long, et al. The empirical mode
decomposition and the hilbert spectrum for nonlinear and non-stationary time series analysis [J]. Proceedings of the Royal Society of Land A, 1998,4.
[12] Wu Z H , Huang N E . Ensemble empirical mode decomposition: A noise-assisted data analysis method[J].Advances in Adaptive Data Analysis,2009,1(1):1-41 [13] 唐晓波,向 坤. 基于LDA模型和微博热度的热点挖掘[J]. 图书情报工作,2014(5):58-63.
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务