CN106557552A - 一种网络话题热度预测方法

2024-10-07

文章推薦指數： 80 %

投票人數：10人

本发明公开了一种网络话题热度预测方法。

它包括话题检测、热度预测建模、预测热度值计算三个步骤。

话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题 ... CN106557552A-一种网络话题热度预测方法 -GooglePatents 一种网络话题热度预测方法 DownloadPDF Info Publicationnumber CN106557552A CN106557552A CN201610958001.6A CN201610958001A CN106557552A CN106557552A CN106557552A CN106557552A CN201610958001A CN201610958001A CN201610958001A CN106557552A CN106557552A CN106557552A Authority CN China Priorartkeywords topic user data timepoint textdata Priorartdate 2016-10-27 Legalstatus(Thelegalstatusisanassumptionandisnotalegalconclusion.Googlehasnotperformedalegalanalysisandmakesnorepresentationastotheaccuracyofthestatuslisted.) Granted Applicationnumber CN201610958001.6A Otherlanguages English(en) Otherversions CN106557552B (zh Inventor 庞琳刘春阳赵志云李雄张旭何扬王萌张小明刘谟 CurrentAssignee(Thelistedassigneesmaybeinaccurate.Googlehasnotperformedalegalanalysisandmakesnorepresentationorwarrantyastotheaccuracyofthelist.) BeihangUniversity NationalComputerNetworkandInformationSecurityManagementCenter OriginalAssignee BeihangUniversityNationalComputerNetworkandInformationSecurityManagementCenter Prioritydate(Theprioritydateisanassumptionandisnotalegalconclusion.Googlehasnotperformedalegalanalysisandmakesnorepresentationastotheaccuracyofthedatelisted.) 2016-10-27 Filingdate 2016-10-27 Publicationdate 2017-04-05 2016-10-27 ApplicationfiledbyBeihangUniversity,NationalComputerNetworkandInformationSecurityManagementCenter filed Critical BeihangUniversity 2016-10-27 PrioritytoCN201610958001.6A priority Critical patent/CN106557552B/zh 2017-04-05 PublicationofCN106557552A publication Critical patent/CN106557552A/zh 2020-08-21 Applicationgranted granted Critical 2020-08-21 PublicationofCN106557552B publication Critical patent/CN106557552B/zh Status Active legal-status Critical Current 2036-10-27 Anticipatedexpiration legal-status Critical Links Espacenet GlobalDossier Discuss 238000000034 method Methods 0.000 title claims abstract description 43 239000011159 matrixmaterials Substances 0.000 claims abstract description 13 230000000875 corresponding Effects 0.000 claims description 2 238000007689 inspection Methods 0.000 claims 1 239000002965 ropes Substances 0.000 claims 1 238000001514 detectionmethod Methods 0.000 description 5 238000004458 analyticalmethod Methods 0.000 description 4 241001269238 Data Species 0.000 description 3 238000004364 calculationmethod Methods 0.000 description 2 238000007405 dataanalysis Methods 0.000 description 2 238000005516 engineeringprocess Methods 0.000 description 2 230000004048 modification Effects 0.000 description 2 238000006011 modificationreaction Methods 0.000 description 2 238000004891 communication Methods 0.000 description 1 230000000644 propagated Effects 0.000 description 1 238000004451 qualitativeanalysis Methods 0.000 description 1 230000000717 retained Effects 0.000 description 1 230000001932 seasonal Effects 0.000 description 1 210000001519 tissues Anatomy 0.000 description 1 230000014599 transmissionofvirus Effects 0.000 description 1 Classifications G—PHYSICS G06—COMPUTING;CALCULATING;COUNTING G06F—ELECTRICDIGITALDATAPROCESSING G06F16/00—Informationretrieval;Databasestructurestherefor;Filesystemstructurestherefor G06F16/30—Informationretrieval;Databasestructurestherefor;Filesystemstructuresthereforofunstructuredtextualdata G06F16/33—Querying G06F16/3331—Queryprocessing G06F16/334—Queryexecution G—PHYSICS G06—COMPUTING;CALCULATING;COUNTING G06F—ELECTRICDIGITALDATAPROCESSING G06F16/00—Informationretrieval;Databasestructurestherefor;Filesystemstructurestherefor G06F16/30—Informationretrieval;Databasestructurestherefor;Filesystemstructuresthereforofunstructuredtextualdata G06F16/35—Clustering;Classification G—PHYSICS G06—COMPUTING;CALCULATING;COUNTING G06F—ELECTRICDIGITALDATAPROCESSING G06F16/00—Informationretrieval;Databasestructurestherefor;Filesystemstructurestherefor G06F16/90—Detailsofdatabasefunctionsindependentoftheretrieveddatatypes G06F16/95—Retrievalfromtheweb G06F16/953—Querying,e.g.bytheuseofwebsearchengines G06F16/9535—Searchcustomisationbasedonuserprofilesandpersonalisation G—PHYSICS G06—COMPUTING;CALCULATING;COUNTING G06Q—DATAPROCESSINGSYSTEMSORMETHODS,SPECIALLYADAPTEDFORADMINISTRATIVE,COMMERCIAL,FINANCIAL,MANAGERIAL,SUPERVISORYORFORECASTINGPURPOSES;SYSTEMSORMETHODSSPECIALLYADAPTEDFORADMINISTRATIVE,COMMERCIAL,FINANCIAL,MANAGERIAL,SUPERVISORYORFORECASTINGPURPOSES,NOTOTHERWISEPROVIDEDFOR G06Q50/00—Systemsormethodsspeciallyadaptedforspecificbusinesssectors,e.g.utilitiesortourism G06Q50/01—Socialnetworking Abstract 本发明公开了一种网络话题热度预测方法。

它包括话题检测、热度预测建模、预测热度值计算三个步骤。

话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题数据。

预测建模部分按照用户设定的时间粒度大小统计话题检测结果中每个时间段内的话题热度值，并计算高斯过程模型关于话题热度统计时间点的协方差矩阵，构建基于高斯过程的预测模型。

预测热度值计算部分针对用户给定的预测时间点，利用构建的高斯过程模型计算话题在给定时间点的热度值。

本发明综合利用信息检索技术、分类技术进行话题检测，利用高斯过程模型来进行话题热度预测，提高了话题预测的实用性和有效性。

Description 一种网络话题热度预测方法技术领域 [0001]本发明涉及一种网络话题热度预测方法，可以自动预测网络中话题在将来给定时间的热度值。

可应用于多种类型的网络数据，适用于网络数据分析、网络舆情监控与分析等。

属于大数据分析、信息检索技术领域。

背景技术 [0002]随着网络技术和信息产品的快速发展，各种网络平台吸引了越来越多的用户，互联网已经成为当前最主要的信息传播媒体之一。

因此，当前许多社会热点话题都在网络上进行传播，很大程度上互联网影响着社会舆论的走向；并且由于互联网具有传播速度快、传播范围广等特点，因此它更难于掌握和预测。

在信息传播方面，特别是在一些重大新闻事件和突发性事件的报道上，互联网表现出传统媒体无法比拟的优势，同时也使用户更加难以预测热点话题将会产生的影响深度和广度。

面对传播速度迅速、影响范围巨大的网络话题，仅靠人工很难进行有效的分析和可靠的预判。

因此，必须充分利用有效的话题热度预测方法，从海量的网络数据中及时对话题的热度变化做出准确预判，从而帮助相关部门和组织机构了解和掌握舆论的发展动态。

[0003]传统的话题热度预测方法研究主要基于病毒传播理论，主要关注网络中用户个体受话题的影响，这种方法需要了解网络的整个拓扑结构，对互联网这种规模巨大的网络而言，其适用性受到极大的影响;其次，这种方法不能从宏观上分析话题在整个网络上的发展和传播态势，因此不能有效预测话题的热度数值。

另外，其他的话题预测方法主要针对话题的发展和演变情况，并且需要话题在网络中的所有信息。

然而，用户要获得话题在网络中的所有相关数据非常困难。

因此，此类方法适用性也严重受限。

发明内容 [0004]本发明要解决的技术问题:克服现有话题热度预测方法的不足，提供一种网络话题热度预测方法，具体而言是一种能自动识别话题相关数据并预测话题将来热度值的方法。

该方法充分考虑了话题的历史热度序列信息，利用有效的基于时间序列的预测算法实现话题热度数值的自动预测。

[0005]本发明的技术解决方案:一种网络话题热度预测方法，它包括话题检测、热度预测建模、预测热度值计算三个步骤。

话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题数据。

预测建模部分按照用户设定的时间粒度大小统计话题检测结果中每个时间段内的话题热度值，并计算高斯过程模型关于话题热度统计时间点的协方差矩阵，构建基于高斯过程的预测模型。

预测热度值计算部分针对用户给定的预测时间点，利用构建的高斯过程模型计算话题在给定时间点的热度值。

[0006]本发明一种网络话题热度预测方法，具体实现步骤如下： [0007]步骤一：用户输入与话题相关的关键词组后，利用信息检索技术从网络文本数据库中把描述该话题的文本数据检索出来，结合相关反馈技术对检索出来的文本数据进行过滤，进一步去掉检索出来的文本数据中与话题不相关的数据，剩下的文本数据即为话题相关文本数据。

[0008]步骤二:对步骤一得到的话题相关文本数据，按照用户给定的时间粒度大小统计话题相关文本数据中包含的每个时间段内的话题热度值，话题热度值就是话题相关文本在一个时间段内的评论总数;话题相关文本数据中包含的各个时间段的话题热度值组合成话题历史热度向量。

而这些进行话题热度统计所在的时间段就是话题历史热度统计时间点，根据话题历史热度统计时间点之间的相互关系计算高斯过程模型的协方差矩阵，进而构建高斯过程预测模型。

[0009]步骤三:对于用户给出的预测时间点，计算该时间点与话题历史热度统计时间点之间的相关度向量，结合话题历史热度向量，利用构建的高斯过程预测模型计算话题在用户给出的预测时间点的热度值。

[0010]其中，在上述步骤一中所述的网络文本数据库存储的是网络爬虫从互联网新闻网站上爬取的Web网页数据，这些数据经过格式化处理被存储到数据中，每条数据包括了新闻内容和评论数，话题的热度由相关新闻网页的评论总数来表示。

[0011]所描述的数据检索采用了通用的solr检索框架，检索查询语句为用户提交的描述待预测话题的关键词组，该关键词组包含多个词语，用户再对检索出来的文本数据进行反馈，把与话题不相关的数据标记处来，然后结合用户的反馈把与话题不相关的检索结果删除掉，剩下的文本数据即为话题相关文本数据。

[0012]其中，在步骤二中所述话题热度值是该话题在一个固定时间段内数据库中报道该话题的所有新闻文本数据的评论总数，该时间段的长度根据用户的需求而定，可以是一天、也可以是一个小时;所述的协方差矩阵是一个正方形矩阵，矩阵的行数和列数等于话题热度值的个数，矩阵的元素表示矩阵的行值和列值分别所表示的两个统计时间点之间的关系，两个时间点越相近，则元素值越大。

[0013]其中，在步骤三中所述的相关度向量表示用户给定的预测时间点与话题历史热度统计时间点之间的关系，用户给定预测时间点与某个话题历史热度统计时间点越相近，则向量中相应的元素值就越大，基于该相关度向量和话题历史热度向量，可以利用已经构建好的高斯过程模型计算出话题在用户给定时间点的热度值。

[0014]本发明与现有技术相比的优点在于：目前的话题热度预测方法大部分是给出定性的分析，不能准确给出话题在将来某个时间点的热度值，另外，当前的热度预测方法需要知道话题的许多信息以及网络的结构信息。

本发明提出的一种话题热度预测方法在结合信息检索和高斯过程模型的基础上，可以自动检测与用户给定话题相关的数据，提高了预测方法的适应性，并且利用高斯过程模型计算出话题的热度值，从而实现话题热度预测的定量分析。

附图说明 [0015]图1是本发明一种网络话题热度预测方法流程示意图。

具体实施方式 [0016]下面结合附图及实施方式对本发明的技术方案作进一步详细的说明。

[0017]如图1所示，本发明一种网络话题热度预测方法，具体实现如下： [0018](一)话题检测 [0019]用户要预测一个话题的热度，本方法需要给定三个输入，即话题关键词组、话题热度统计的时间粒度和要预测的时间点。

话题关键词组包含多个描述话题的词语，本方法设定为3个词语;话题热度统计的时间粒度表示用户需要在多大的时间粒度上分析话题的热度，即在多长的时间段中统计一次话题的热度，本方法设定时间粒度为天，因此，本方法中话题的热度值是指话题在一天内所有新闻报道的评论总数;要预测的时间点即为用户想要知道话题在这个时间点的热度值，由于本方法的时间粒度为天，因此，用户指定具体的一天来表示要预测的时间点。

[0020]利用一个数据库存储爬取的所有历史网络文本数据，当用户提交一个话题相关的关键词组W={wi，W2，W3}，其中Wi(Ki<3)表示一个词语，利用通用的开源检索框架solr从数据库中检索包含这些关键词的文本数据，然后用户对检索出来的文本数据中与话题不相关的文本数据进行标记。

然后利用检索出来的文本数据中排在前面的1〇〇条数据当做正样本，用户标记的数据作为负样本训练一个支持向量机(SVM)分类器。

对检索出来的文本数据中其他的文本，利用训练好的SVM分类器进行分类，把分类结果为负的文本数据从检索结果中删除。

检索结果中保留的文本数据即为与用户话题相关文本数据，以下基于话题相关文本数据集进行话题热度预测。

[0021](二)热度预测建模 [0022]本发明采用高斯过程模型来对话题热度进行预测，该模型的构建需要一组表示话题热度值和时间点的数据对，（t2，X2)，...，（tn，Xn)}，本方法考虑的时间的粒度为天，统计的时间段的大小为一天，Xl(l