面向网络文本大数据的话题检测与跟踪方法、装置与流程

文档序号:13661501阅读:343来源:国知局
面向网络文本大数据的话题检测与跟踪方法、装置与流程

本发明涉及数据处理技术领域,具体涉及一种面向网络文本大数据的话题检测与跟踪方法、装置。



背景技术:

随着互联网信息的大幅膨胀,信息量呈指数增长,浩瀚的网络数据远远超出了人们的掌控能力。公司的房地产分类信息服务平台同样如此,历年积累的数据量非常庞大,用户难以从众多信息中快捷地提取自己所需要的信息。

话题检测与跟踪(topicdetectionandtracking,tdt)是一项针对新闻媒体信息流进行新话题的自动检测和已知话题的后续跟踪的信息处理技术。由于话题检测和跟踪与信息检索和数据挖掘等自然语言处理技术存在着很多的共性,而且它直接面向具备突发性特征的新闻语料,因此,逐渐成为大数据分析的研究热点。

目前的研究仍然以传统基于统计策略的文本分类、信息过滤和聚类等技术为主,忽视了新闻语料本身具备的特点,比如话题的突发性与跳跃性、相关报道的延续与继承性、新闻内容的层次性以及时序性等。

针对上述问题,当前的研究趋势是将多种方法进行融合,并嵌入新闻语料特性实现话题的识别与追踪,比如结合命名实体的话题模型描述、以时间为参数的权重与阈值估计等。虽然这些方法能够在一定程度上提高tdt系统性能,但只是对传统统计策略的一种补充与修正,并没有形成独立于话题检测或跟踪领域特有的研究框架与模型。

如何检测新话题,对已出现话题的识别、跟踪,提高吞吐率,是本领域技术人员亟需解决的问题。



技术实现要素:

针对现有技术中的缺陷,本发明提供了一种面向网络文本大数据的话题检测与跟踪方法、装置,能够检测新话题,对已出现话题的识别、跟踪,提高吞吐率和数据运算效率。

第一方面,本发明提供一种面向网络文本大数据的话题检测与跟踪方法,该方法包括:对中文分词后的文档集构建图模型;

根据图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量;

对前k个特征向量所构成的矩阵进行聚类,获取聚类结果;

根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布;

根据话题的概率分布,判断当前文档是否为新话题或指定话题。

进一步地,根据话题的概率分布,判断当前文档是否为新话题或指定话题,具体包括:

根据话题的概率分布,计算该文档集与历史文档的属性集的相似度;

将具有最大相似度的话题簇与第一相似度阈值比较:

若小于第一相似度阈值,则判断当前文档为新话题;

根据话题的概率分布,计算该文档集与指定话题的相似度;

将计算结果与第二相似度阈值比较:

若大于第二相似度阈值,则判断当前文档属于指定话题。

基于上述任意面向网络文本大数据的话题检测与跟踪方法实施例,进一步地,对中文分词后的文档集构建图模型,具体包括:

将中文分词后文档集中的关键词,作为图模型的节点;

将每个关键词的共现关系,构建相应节点之间的边,图模型包括节点和节点之间的边。

基于上述任意面向网络文本大数据的话题检测与跟踪方法实施例,进一步地,根据图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量,具体包括:

根据图模型,构造拉普拉斯矩阵,并进行分布式存储;

对存储节点各自存储的矩阵进行奇异值分解,获取前k个特征向量。

基于上述任意面向网络文本大数据的话题检测与跟踪方法实施例,进一步地,对前k个特征向量所构成的矩阵进行聚类,获取聚类结果,具体包括:采用k-means算法,对前k个特征向量所构成的矩阵进行聚类,获取聚类结果。

第二方面,本发明提供一种面向网络文本大数据的话题检测与跟踪装置,该装置包括图模型构建模块、特征向量获取模块、聚类模块、话题分布计算模块和检测与跟踪模块,图模型构建模块用于对中文分词后的文档集构建图模型;特征向量获取模块用于根据图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量;聚类模块用于对前k个特征向量所构成的矩阵进行聚类,获取聚类结果;话题分布计算模块用于根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布;检测与跟踪模块用于根据话题的概率分布,判断当前文档是否为新话题或指定话题。

进一步地,检测与跟踪模块具体包括话题检测子模块和话题跟踪子模块,话题检测子模块用于根据话题的概率分布,计算该文档集与历史文档的属性集的相似度;将具有最大相似度的话题簇与第一相似度阈值比较:若小于第一相似度阈值,则判断当前文档为新话题;话题跟踪子模块用于根据话题的概率分布,计算该文档集与指定话题的相似度;将计算结果与第二相似度阈值比较:若大于第二相似度阈值,则判断当前文档属于指定话题。

基于上述任意面向网络文本大数据的话题检测与跟踪装置实施例,进一步地,图模型构建模块具体包括节点构建子模块和边构建子模块,节点构建子模块用于将中文分词后文档集中的关键词,作为图模型的节点;边构建子模块用于将每个关键词的共现关系,构建相应节点之间的边,图模型包括节点和节点之间的边。

基于上述任意面向网络文本大数据的话题检测与跟踪装置实施例,进一步地,特征向量获取模块具体包括分布式存储子模块和奇异值分解子模块,分布式存储子模块用于根据图模型,构造拉普拉斯矩阵,并进行分布式存储;奇异值分解子模块用于对存储节点各自存储的矩阵进行奇异值分解,获取前k个特征向量。

基于上述任意面向网络文本大数据的话题检测与跟踪装置实施例,进一步地,聚类模块具体用于:采用k-means算法,对前k个特征向量所构成的矩阵进行聚类,获取聚类结果。

由上述技术方案可知,本实施例提供的面向网络文本大数据的话题检测与跟踪方法、装置,将中文分词后的文档集建立图模型,实现对话题的显示挖掘,该方法进行聚类运算,直接面向文本大数据,极大提高了数据吞吐率。计算话题的概率分布,快速、准确地实现新话题检测与话题追踪,满足文本大数据要求。

因此,本实施例面向网络文本大数据的话题检测与跟踪方法、装置,能够检测新话题,对已出现话题的识别、跟踪,提高吞吐率和数据运算效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明所提供的一种面向网络文本大数据的话题检测与跟踪方法的方法流程图;

图2示出了本发明所提供的一种面向网络文本大数据的话题检测与跟踪装置的结构示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。

需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

第一方面,本发明实施例所提供的一种面向网络文本大数据的话题检测与跟踪方法,结合图1,该方法包括:

步骤s1,对中文分词后的文档集构建图模型。

步骤s2,根据图模型,构造拉普拉斯矩阵,采用分布式的方法进行特征分解,获取前k个特征向量。

步骤s3,对拉普拉斯矩阵的前k个特征向量所构成的矩阵进行聚类,获取聚类结果。在实际应用过程中,通过mapreduce编程模型实现了分布式谱聚类的应用,分布式存储拉普拉斯矩阵,并对存储节点各自存储的矩阵进行奇异值分解,直接面向文本大数据,极大地提高了吞吐率。

步骤s4,根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布。例如,根据话题的属性向量及聚类结果,计算每篇文档关于话题的概率分布。

步骤s5,根据话题的概率分布,判断当前文档是否为新话题或指定话题。在实际应用过程中,用上述方法将文档表示成一系列属性的集合,通过计算它与历史文档集的相似度,构建文档关于话题的概率分布,有效地自动检测新话题,或实现了对已知话题进行追踪。

由上述技术方案可知,本实施例提供的面向网络文本大数据的话题检测与跟踪方法,将中文分词后的文档集建立图模型,实现对话题的显示挖掘,该方法进行聚类运算,直接面向文本大数据,极大提高了数据吞吐率。计算话题的概率分布,快速、准确地实现新话题检测与话题追踪,满足文本大数据要求。

因此,本实施例面向网络文本大数据的话题检测与跟踪方法,能够检测新话题,对已出现话题的识别、跟踪,提高吞吐率和数据运算效率。

为了进一步提高本实施例面向网络文本大数据的话题检测与跟踪方法的准确性,在话题的检测与追踪方面,根据话题的概率分布,判断当前文档是否为新话题或指定话题时,具体实现过程如下:

根据话题的概率分布,计算该文档集与历史文档的属性集的相似度。

将具有最大相似度的话题簇与第一相似度阈值比较:若小于第一相似度阈值,则判断当前文档为新话题。

根据话题的概率分布,计算该文档集与指定话题的相似度。

将计算结果与第二相似度阈值比较:若大于第二相似度阈值,则判断当前文档属于指定话题。

例如,在进行话题检测时,网络爬虫从互联网上爬取出一篇新的文档后,利用上述步骤将文档表示成一系列属性的集合,计算它与所有的历史文档的属性集的相似度,选择具有最大相似度的话题簇,归类其中。若低于相似度门槛η1,则定义为新话题。

在进行话题追踪时,在历史训练文档中,事先指定一个话题,在新文档到达时计算其与指定话题的相似度,判断当前文档是否属于该话题,若相似度大于阈值η2,则判断当前文档属于指定话题,实现了对已知话题的追踪;若相似度小于η2,则不属于该话题。

在此,本实施例面向网络文本大数据的话题检测与跟踪方法,通过计算与历史文档的相似度,判断是否为新话题,实现话题的检测功能。同时,该方法还能够计算与指定话题的相似度,实现话题的追踪功能。

在图模型构建方面,对中文分词后的文档集构建图模型时,具体实现过程如下:

将中文分词后文档集中的关键词,作为图模型的节点。

将每个关键词的共现关系,构建相应节点之间的边,得到对应的图及其邻接矩阵,图模型包括节点和节点之间的边。

在此,本实施例面向网络文本大数据的话题检测与跟踪方法,通过对关键词及关键词的共现关系,构建图模型的节点和边,实现对话题的显示挖掘,提高话题分布概率计算的准确性。

在特征向量选取方面,根据图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量时,具体实现过程如下:

根据图模型,构造拉普拉斯矩阵,并进行分布式存储。

对存储节点各自存储的矩阵进行奇异值分解,获取前k个特征向量。

在此,本实施例面向网络文本大数据的话题检测与跟踪方法,通过分布式存储拉普拉斯矩阵,并对各个存储节点的矩阵进行处理,极大地提高了数据吞吐率,增强拓展性,即使文档规模越来越大,数据量也越来越大,数据的分布式存储节点也可以根据具体情况而自行增加,增强数据处理的灵活性能。

在聚类实现方面,对拉普拉斯矩阵的前k个特征向量所构成的矩阵进行聚类,获取聚类结果时,具体实现过程如下:采用k-means算法,对拉普拉斯矩阵的前k个特征向量所构成的矩阵进行聚类,获取聚类结果。其中,聚类的结果中每一行所属的类别,就是原来图中的节点,即亦最初的n个数据点分别所属的类别。

在此,本实施例面向网络文本大数据的话题检测与跟踪方法,对拉普拉斯矩阵的前k个特征向量构成的矩阵,使用k-means算法等聚类算法进行聚类,以便于准确、快速地获取各个话题的分布及对应的概率分布状况。

为了进一步提高本实施例面向网络文本大数据的话题检测与跟踪方法的准确性,该方法还能够结合话题的情感倾向性及真伪倾向性进行综合分析,具体执行过程如下:

初次获取web信息,初步处理并存入数据库。

使用向量空间模型进行文本特征构建,使用tf-idf模型计算特征词权重。采用single-pass增量聚类方法,检测话题相似度,获得与主题相关的话题群。

根据话题中时间窗口和话题数量,提取出话题的摘要和关键词,计算话题数量与时间窗口的比值,分值由大到小排列。取分值超过某个阈值以上的话题作为热点话题,呈现给用户。

对已知的热点话题进行二次专题网络抓取,结合利用发帖人id,构造热点话题的用户拓扑网络,并对每个热点话题内的每个子话题的评论建立倒排索引。

读取已处理的话题数据和情感词典,根据情感词典和语法模式库,从语料中抽取情感特征,构造话题分类训练数据集。使用朴素贝叶斯分类算法训练,得到话题观点情感倾向性分类模型。

读入待情感分类的子话题。通过自然语言处理,得到经中文分词和词性标注好的子话题。根据情感词典和语法模式库,从子话题中抽取情感特征,构造测试数据集。分类器读取测试数据和已训练好的话题情感分类模型,保存子话题情感分类结果。

话题观点情感倾向性识别后,对其话题进行真伪倾向性分类。构造用户信誉度、url信誉度、权威结论集数据集。使用朴素贝叶斯分类算法,用户信誉度、url信誉度、权威结论集作为影响因子,通过训练得到话题真伪分类模型。

读入待真伪分类的子话题。根据从话题中抽取出的情感特征,结合url信誉、权威结论集。分类器读取测试数据和已训练好的分类模型,输出子话题真伪性分类的预测结果。

对待分类话题进行解析,得到子话题集。调用对每个子话题进行分类得到的情感分类结果。根据子话题之间的相似度,构建lexrank图模型,利用所构建的图模型,计算子话题的重要性和冗余度,最终输出话题情感分类结果。

结合情感倾向性分类结果:正面、负面。真伪性分类结果:真实、伪造。绘制表格,作为辅助分析,挖掘出观点的影响因子。

在此,本实施例面向网络文本大数据的话题检测与跟踪方法,通过网络爬虫、观点挖掘、信息抽取、机器学习等技术从互联网中获取、发现新的话题,并持续跟踪和关注该话题,通过对得到话题的情感倾向性及真伪倾向性的综合分析,该方法能快速有效地在大数据时代背景下,通过从中挖掘热点主题倾向性走势,分析影响因子,为减少舆论导向对公众的负面影响,为互联网管理的决策提供参考。

第二方面,本发明实施例所提供的一种面向网络文本大数据的话题检测与跟踪装置,结合图2,该装置包括图模型构建模块、特征向量获取模块、聚类模块、话题分布计算模块和检测与跟踪模块,图模型构建模块用于对中文分词后的文档集构建图模型。特征向量获取模块用于根据图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量。聚类模块用于对前k个特征向量所构成的矩阵进行聚类,获取聚类结果。话题分布计算模块用于根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布。检测与跟踪模块用于根据话题的概率分布,判断当前文档是否为新话题或指定话题。

由上述技术方案可知,本实施例提供的面向网络文本大数据的话题检测与跟踪装置,将中文分词后的文档集建立图模型,实现对话题的显示挖掘,该装置进行聚类运算,直接面向文本大数据,极大提高了数据吞吐率。计算话题的概率分布,快速、准确地实现新话题检测与话题追踪,满足文本大数据要求。

因此,本实施例面向网络文本大数据的话题检测与跟踪装置,能够检测新话题,对已出现话题的识别、跟踪,提高吞吐率和数据运算效率。

为了进一步提高本实施例面向网络文本大数据的话题检测与跟踪装置的准确性,在话题的检测与追踪方面,检测与跟踪模块具体包括话题检测子模块和话题跟踪子模块,话题检测子模块用于根据话题的概率分布,计算该文档集与历史文档的属性集的相似度。将具有最大相似度的话题簇与第一相似度阈值比较:若小于第一相似度阈值,则判断当前文档为新话题。话题跟踪子模块用于根据话题的概率分布,计算该文档集与指定话题的相似度。将计算结果与第二相似度阈值比较:若大于第二相似度阈值,则判断当前文档属于指定话题。

在此,本实施例面向网络文本大数据的话题检测与跟踪装置,通过计算与历史文档的相似度,判断是否为新话题,实现话题的检测功能。同时,该装置还能够计算与指定话题的相似度,实现话题的追踪功能。

在图模型构建方面,图模型构建模块具体包括节点构建子模块和边构建子模块,节点构建子模块用于将中文分词后文档集中的关键词,作为图模型的节点。边构建子模块用于将每个关键词的共现关系,构建相应节点之间的边,图模型包括节点和节点之间的边。

在此,本实施例面向网络文本大数据的话题检测与跟踪装置,通过对关键词及关键词的共现关系,构建图模型的节点和边,实现对话题的显示挖掘,提高话题分布概率计算的准确性。

在特征向量选取方面,特征向量获取模块具体包括分布式存储子模块和奇异值分解子模块,分布式存储子模块用于根据图模型,构造拉普拉斯矩阵,并进行分布式存储。奇异值分解子模块用于对存储节点各自存储的矩阵进行奇异值分解,获取前k个特征向量。

在此,本实施例面向网络文本大数据的话题检测与跟踪装置,通过分布式存储拉普拉斯矩阵,并对各个存储节点的矩阵进行处理,极大地提高了数据吞吐率,增强拓展性,即使文档规模越来越大,数据量也越来越大,数据的分布式存储节点也可以根据具体情况而自行增加,增强数据处理的灵活性能。

在聚类实现方面,聚类模块具体用于:采用k-means算法,对前k个特征向量所构成的矩阵进行聚类,获取聚类结果。

在此,本实施例面向网络文本大数据的话题检测与跟踪装置,对拉普拉斯矩阵的前k个特征向量构成的矩阵,使用k-means算法等聚类算法进行聚类,以便于准确、快速地获取各个话题的分布及对应的概率分布状况。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

需要说明的是,附图中的流程图和框图显示了根据本发明的多个实施例的服务器、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的服务器来实现,或者可以用专用硬件与计算机指令的组合来实现。

本发明实施例所提供的配置装置可以是计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的服务器、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的服务器、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个服务器,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以发布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1