一种通过资讯发掘当前热点事件的方法和装置与流程

文档序号:19738240发布日期:2020-01-18 04:48阅读:213来源:国知局
一种通过资讯发掘当前热点事件的方法和装置与流程

【技术领域】

本发明属于信息处理技术领域,具体涉及一种通过资讯发掘当前热点事件的方法和装置。



背景技术:

随着互联网和国内证券市场的快速发展,互联网资讯更新更加频繁,市场上会在短时间内爆发出非常多的资讯信息,过多的资讯信息使得投资者应接不暇,如何在后台的海量资讯集合中准确快速地获取到热点资讯并及时展现给用户,变得非常困难。

目前通常是采用人工配置资讯的方式,对于实时热点关键词,通过大量的人工手动挑选若干与之相关的资讯并展现给用户。但是,由于实时热点更新频繁,人工配置代价比较高,而且人工配置过程相对缓慢,不足以在短时间内得到很好的效果,达不到及时将内容触达用户的速度性要求,也就无法及时为用户投资提供有效参考。鉴于此,克服上述现有技术所存在的缺陷是本技术领域亟待解决的问题。



技术实现要素:

本发明需要解决的技术问题是:

目前互联网资讯更新非常频繁,单纯采用人力分析获取热点资讯的话会导致配置代价较高,配置过程缓慢,无法及时筛选出当前热点事件并呈现给用户,也就无法为用户投资提供有效参考。

本发明通过如下技术方案达到上述目的:

第一方面,本发明提供一种通过资讯发掘当前热点事件的方法,包括:

根据用户检索条件获取最近预设时间段内的多篇资讯新闻,并通过计算得到每篇资讯新闻的一个或多个关键词;

根据每篇资讯新闻对应的一个或多个关键词,计算得到每篇资讯新闻对应的资讯向量;

对各资讯向量进行聚类计算后得到一个或多个簇,对应最近预设时间段内的一个或多个热点事件,并将各热点事件展现给用户;

其中,一个簇表示一个热点事件,每个簇内包含一篇或多篇资讯新闻。

优选的,所述根据用户检索条件获取最近预设时间段内的多篇资讯新闻,并通过计算得到每篇资讯新闻的一个或多个关键词,具体包括:

根据用户输入的检索条件,从一个或多个资讯平台获取最近预设时间段内的多篇资讯新闻,并对各资讯新闻进行清洗,去除无用标签和脏数据;

分别对每篇资讯新闻中的文本进行分词操作,去除无效词,并在剩下的词汇中选取一个或多个词汇作为本篇资讯新闻的关键词;

其中,所述检索条件包括近期时间节点、热度星级和检索词中的一项或多项;所述无效词包括停用词、脏词和噪音词中的一项或多项。

优选的,所述在剩下的词汇中选取一个或多个词汇作为本篇资讯新闻的关键词,具体为:

对于剩下的每个词汇,将该词汇在全资讯中出现的概率和在本篇新闻资讯中出现的概率进行比较;如果该词汇在本篇新闻资讯中出现的概率高于在全资讯中出现的概率,则将该词汇作为本篇资讯新闻的一个关键词。

优选的,所述根据每篇资讯新闻对应的一个或多个关键词,计算得到每篇资讯新闻对应的资讯向量,具体为:

根据每篇资讯新闻对应的一个或多个关键词,获取每篇资讯新闻对应的一个或多个关键词向量;

对于每篇资讯新闻,将其对应的各关键词向量线性相加,得到本篇资讯新闻对应的资讯向量。

优选的,所述对各资讯向量进行聚类计算后得到一个或多个簇具体为:

对于每个资讯向量,将资讯向量标记到高维空间中后分别计算该资讯向量与每个簇中心的夹角余弦值,并与预设阈值进行比较;

根据比较结果判断每篇资讯新闻合适的簇,并基于判断结果分别将各资讯新闻加入其合适的簇中,最终得到一个或多个簇。

优选的,所述根据比较结果判断每篇资讯新闻合适的簇,并基于判断结果分别将各资讯新闻加入其合适的簇中,具体为:

对于每个资讯向量,如果该资讯向量与任一个簇中心的夹角余弦值大于预设阈值,则将本篇资讯新闻加入到该簇中,并重新计算簇心;

如果该资讯向量与每个簇中心的夹角余弦值都小于等于预设阈值,则将本篇资讯新闻作为一个新簇加入到簇列表中。

优选的,在所述对各资讯向量进行聚类计算后得到一个或多个簇后,所述方法还包括:

对资讯新闻的不同资讯参数进行权重的划分,并结合每个簇内资讯新闻对应的资讯参数进行加权计算,得到每个簇的热度值,以便根据热度值对所述一个或多个簇进行热度排名,得到最热的若干个热点事件;其中,所述资讯参数包括资讯数量、资讯发布时间和资讯来源中的一项或多项。

优选的,所述得到最热的若干个热点事件后,所述方法还包括:

将所述最热的若干个热点事件,按照预设排序的方式展现给用户;其中,所述预设排序为热度排序、时间排序或数量排序。

优选的,所述多篇资讯新闻是从一个或多个资讯平台获取,则在所述获取最近预设时间段内的多篇资讯新闻后,所述方法还包括:

对所述多篇资讯新闻分别进行性质分析,从中筛选出一篇或多篇预估性资讯新闻,并记录每篇预估性资讯新闻对应的资讯平台和预估结果;

通过大数据爬虫分析和/或对国家基准资讯平台进行访问,获取与每篇预估性资讯新闻相对应的关联结果;

将每篇预估性资讯新闻的预估结果与对应关联结果进行匹配,得到每篇预估性资讯新闻的准确度,进而得到对应资讯平台的可信度;

则在下一次发掘当前热点事件时,所述获取最近预设时间段内的多篇资讯新闻具体为:从可信度高于预设基准值的一个或多个资讯平台处,获取最近预设时间段内的多篇资讯新闻。

第二方面,本发明提供了一种通过资讯发掘当前热点事件的装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成第一方面所述的通过资讯发掘当前热点事件的方法。

本发明的有益效果是:

本发明可根据用户需求对近期的海量资讯汇总后得到每篇资讯的关键词,再根据关键词计算每篇资讯的资讯向量,最后将每篇资讯的资讯向量进行聚类计算,快速分析出当前的热点事件并呈现给用户,可帮助用户快速定位当前热点事件,并基于当前热点事件进行股票投资交易,为用户投资提供有效参考。

【附图说明】

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种通过资讯发掘当前热点事件的方法流程图;

图2为本发明实施例提供的一种用户输入检索条件获取热点事件的界面示意图;

图3为本发明实施例提供的一种计算资讯新闻中关键词的方法流程图;

图4为本发明实施例提供的一种对资讯向量进行聚类计算以获取热点事件的方法流程图;

图5为本发明实施例提供的一种对资讯平台进行可信度评估的方法流程图;

图6为本发明实施例提供的一种通过资讯发掘当前热点事件的系统组成图;

图7为本发明实施例提供的一种算法处理模块的结构组成图;

图8为本发明实施例提供的一种通过资讯发掘当前热点事件的装置架构图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

在本发明的描述中,术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不应当理解为对本发明的限制。

在本发明各实施例中,符号“/”表示同时具有两种功能的含义,而对于符号“a和/或b”则表明由该符号连接的前后对象之间的组合包括“a”、“b”、“a和b”三种情况。

此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面就参考附图和实施例结合来详细说明本发明。

实施例1:

本发明实施例提供了一种通过资讯发掘当前热点事件的方法,如图1所示,主要包括以下步骤:

步骤10,根据用户检索条件获取最近预设时间段内的多篇资讯新闻,并通过计算得到每篇资讯新闻的一个或多个关键词。

用户利用本发明的系统来获取当前热点事件时,通常会先根据自身需要输入检索条件,所述检索条件具体可以是近期时间节点、热度星级和检索词中的一项或多项。根据用户输入的近期时间节点,系统可筛选最近预设时间范围内的热点事件;根据用户输入的热度星级,系统可筛选出指定热度的热点事件;根据用户输入的检索词,系统可筛选出与检索词相关的热点事件。参考图2,用户输入近期时间节点后,系统可从资讯平台自动获取最近预设时间段(与输入的时间节点对应)内的海量资讯新闻,将获取的所有资讯新闻汇总后,通过计算得到每篇资讯新闻的关键词;其中,每篇资讯新闻可以有一个或多个关键词,以传达本篇资讯新闻的主要信息。

步骤20,根据每篇资讯新闻对应的一个或多个关键词,计算得到每篇资讯新闻对应的资讯向量。

计算资讯向量的过程具体如下:首先,根据每篇资讯新闻对应的一个或多个关键词,获取每篇资讯新闻对应的一个或多个关键词向量,具体可采用word2vec、glove等工具来获取;然后,对于每篇资讯新闻,将其对应的各关键词向量线性相加,得到本篇资讯新闻对应的资讯向量;也就是说,线性相加后得到的向量即为本篇资讯新闻的资讯向量。通过这种方法,计算得到每篇资讯新闻对应的资讯向量。

步骤30,对各资讯向量进行聚类计算后得到一个或多个簇,对应最近预设时间段内的一个或多个热点事件,并将各热点事件展现给用户。

聚类计算是以相似性为基础,通过对多篇资讯新闻的资讯向量进行核心聚类操作,可将内容相似的资讯新闻聚集到一个簇,最终得到一系列的簇,每个簇内包含相似的一篇或多篇资讯新闻。其中,每一个簇就是一个聚类,在逻辑上表示近期的一个热点事件,如此就得到了最近预设时间段内的热点事件,进而呈现给用户。进一步地,得到热点事件后,系统还可找出热点事件相关联的股票一并呈现给用户,帮助用户快速定位当前热点事件及对应股票,并进行相应的股票投资交易,增加了选择股票的机会。

本发明实施例提供的上述发掘当前热点事件的方法中,可根据用户需求对近期的海量资讯汇总后得到每篇资讯的关键词,再根据关键词计算每篇资讯的资讯向量,最后将每篇资讯的资讯向量进行聚类计算,快速分析出当前的热点事件并呈现给用户,可帮助用户快速定位当前热点事件,并基于当前热点事件进行股票投资交易,为用户投资提供有效参考。

进一步参考图3,所述根据用户检索条件获取最近预设时间段内的多篇资讯新闻,并通过计算得到每篇资讯新闻的一个或多个关键词,即步骤10,具体可包括以下步骤:

步骤101,根据用户输入的检索条件,从一个或多个资讯平台获取最近预设时间段内的多篇资讯新闻,并对各资讯新闻进行清洗,去除无用标签和脏数据。

用户输入检索条件后,系统便可从相应的资讯平台自动获取近期的海量资讯新闻;由于此处获取热点事件主要是为投资提供参考,因此所述资讯平台通常是某些主要用于提供财经方面资讯新闻的特定平台,例如财经类、政策类的资讯平台。系统从这些特定的资讯平台获取资讯新闻后,向对各资讯新闻进行一轮数据清洗,去除无用标签和脏数据。其中,所述无用标签是指在获取的资讯新闻中会有一些html的页面格式信息,例如<header></header><p></p>等,这些和资讯的正文是无关的,也就是无用标签,需要去除;所述脏数据指的是资讯新闻文本中的一些干扰性词汇,例如,停用词“的”、“地”以及一些敏感的脏话类词汇。

步骤102,分别对每篇资讯新闻中的文本进行分词操作,去除无效词,并在剩下的词汇中选取一个或多个词汇作为本篇资讯新闻的关键词。

对于每篇资讯新闻,首先对资讯新闻中的文本进行分词操作,得到本篇资讯新闻对应的多个词汇,然后从这些词汇中去除停用词、脏词和噪音词等无效词,再在剩下的词汇中选取一个或多个词汇作为本篇资讯新闻的关键词。其中,选取关键词的过程具体为:对于剩下的每个词汇,将该词汇在全资讯中出现的概率和在本篇新闻资讯中出现的概率进行比较;如果该词汇在本篇新闻资讯中出现的概率高于在全资讯中出现的概率,则将该词汇作为本篇资讯新闻的一个关键词;按照此方法,可在剩下的词汇中选取若干个词汇作为本篇资讯新闻的关键词。

继续参考图4,在步骤30中进行核心聚类计算时,需逐一对每个资讯向量进行处理,利用夹角余弦法分别将每个资讯向量划分到相应的簇中。则所述对各资讯向量进行聚类计算后得到一个或多个簇,对应最近预设时间段内的一个或多个热点事件,即步骤30,具体可包括以下步骤:

步骤301,对于每个资讯向量,将资讯向量标记到高维空间中后分别计算该资讯向量与每个簇中心的夹角余弦值,并与预设阈值进行比较。

对于任一资讯向量,先将该资讯向量标记到高维空间中,再计算该资讯向量与所有的簇中心的夹角余弦值,以此来分别表征该资讯向量与所有的簇之间的相似度,然后分别将计算得到的各夹角余弦值与预设阈值(即相似度阈值)进行比较。其中,此处两向量之间的余弦相似性范围从0到1,越趋近于1表明两个向量之间的相似度越高。

步骤302,根据比较结果判断每篇资讯新闻合适的簇,并基于判断结果分别将各资讯新闻加入其合适的簇中,最终得到一个或多个簇。

对于每个资讯向量,计算得到该资讯向量与任一个簇中心的夹角余弦值后,如果该资讯向量与该簇中心的夹角余弦值大于预设阈值(例如0.9),认为本篇资讯新闻和该簇是一个聚类(即该簇是本篇资讯新闻合适的簇),则将本篇资讯新闻加入到该簇中,记录相关资讯信息,并重新计算簇心;如果该资讯向量与该簇中心的夹角余弦值小于等于预设阈值,则继续比较该资讯向量与下一个簇的相似度,直至找到本篇资讯新闻合适的簇,则将本篇资讯新闻加入到该簇中。其中,簇心的计算方法是将本簇所有的资讯新闻(包括本次新加入的资讯新闻)的资讯向量线性相加,得到的向量记为新的簇心。

对于每个资讯向量,如果比较后发现该资讯向量与每个簇中心的夹角余弦值都小于等于预设阈值,也就是说,将该资讯向量与所有的簇比较后都没有发现本篇资讯新闻合适的簇,则将本篇资讯新闻作为一个新簇加入到簇列表中。通过上述方法对每个资讯向量进行聚类计算后,可得到由相似资讯新闻聚合形成的一个或多个簇,对应一个或多个热点事件。

通过上述步骤301-302得到一个或多个热点事件后,系统还可对各热点事件进行热度排名,得到当前最热的若干个热点事件,具体如下:

对资讯新闻的不同资讯参数进行权重的划分,并结合每个簇内资讯新闻对应的资讯参数进行加权计算,得到每个簇的热度值,以便根据热度值对所述一个或多个簇进行热度排名,得到最热的若干个热点事件,即获取了最优事件结果;其中,所述资讯参数包括资讯数量、资讯发布时间和资讯来源中的一项或多项。通常来说,对于每一个簇,簇内资讯新闻的资讯数量越多,对应事件的热度越高;簇内资讯新闻的资讯发布时间越新,对应事件的热度越高;簇内资讯新闻的资讯来源越多,对应事件的热度越高。通过对不同资讯参数赋予相应权重,然后加权计算即可得到每个簇对应的热点事件的热度。

进一步地,在得到最热的若干个热点事件后,系统可将所述最热的若干个热点事件(即最优事件结果),按照预设排序的方式展现给用户,以便用户及时获取近期的热点事件,并可基于热点事件进行投资;其中,所述预设排序可以是热度排序、时间排序或数量排序等。

另外,系统还可根据用户输入的检索条件自动筛选出满足条件的近期热点事件,并呈现给用户。例如,如果用户输入的热度星级条件为“4”,则系统在计算得到近期热点事件以及各热点事件的热度后,从中筛选出热度星级为4的一个或多个热点事件并呈现给用户;如果用户输入的热度星级条件为“≥4”,则系统从中筛选出热度星级在4以上的一个或多个热点事件并呈现给用户。

进一步地,由前述可知,在步骤10中,所述多篇资讯新闻是从一个或多个资讯平台获取,而所述资讯平台通常是指某些主要用于提供财经方面资讯新闻的特定平台。在从这些资讯平台获取到的多篇资讯新闻中,难免会存在一些带有预估性质的资讯新闻,而这部分资讯新闻中的预估结果是否准确无法得知,对应资讯平台的可信度也无法得知。假设某一资讯平台的可信度较差,其提供的资讯新闻的准确度也较差,那根据这部分资讯新闻进行热点事件挖掘可能会带来一定的误差,影响结果的准确性。

为解决上述问题,在步骤10中,获取最近预设时间段内的多篇资讯新闻后,参考图5,所述方法还可进一步包括:

步骤401,对所述多篇资讯新闻分别进行性质分析,从中筛选出一篇或多篇预估性资讯新闻,并记录每篇预估性资讯新闻对应的资讯平台和预估结果。

此处具体可通过检测每篇资讯新闻中是否有预估性词汇,来确定各资讯新闻是否属于预估性资讯新闻。其中,所述预估性词汇包括但不限于“可能”、“预计”、“预测”、“估计”、“预估”、“大约”等等,如果出现这类词语,则可判断该篇资讯新闻属于预估性资讯新闻。

步骤402,通过大数据爬虫分析和/或对国家基准资讯平台进行访问,获取与每篇预估性资讯新闻相对应的关联结果。

记录下每篇预估性资讯新闻对应的预估结果后,后期可周期性地(例如每天、每周)基于各网络数据进行大数据爬虫分析,和/或对国家基准资讯平台进行数据访问,获取与每篇预估性资讯新闻的内容相对应的关联结果。其中,所述国家基准资讯平台是指具有一定权威性的、可信度较高(通常可高达100%)的权威资讯平台,如人民网、中国证券网。通过大数据分析或权威资讯平台得到的关联结果通常可认为准确度是较高的,因此所述关联结果即可作为标准结果。

步骤403,将每篇预估性资讯新闻的预估结果与对应关联结果进行匹配,得到每篇预估性资讯新闻的准确度,进而得到对应资讯平台的可信度。

通过将预估结果与对应的标准结果进行匹配,可获取预估结果与对应标准结果之间的相似度,相似度越高,该篇预估性资讯新闻的准确度就越高,则对应资讯平台的可信度就越高;反之,相似度越低,该篇预估性资讯新闻的准确度就越低,则对应资讯平台的可信度就越低。之后系统可根据自身需求从中筛选出可信度高于预设基准值的资讯平台,由于这部分资讯平台的可信度较高,对应提供的资讯新闻的准确度也较高,因此后续可继续作为数据源;而其余可信度低于预设基准值的资讯平台,由于这部分资讯平台提供的资讯新闻的准确度较低,因此后续可不再作为数据源。

由此,在下一次再进行发掘当前热点事件时,步骤10中的所述获取最近预设时间段内的多篇资讯新闻具体可为:仅从可信度高于预设基准值的一个或多个资讯平台处,获取最近预设时间段内的多篇资讯新闻。如此一来,通过在数据源处保证资讯新闻的准确性,可进一步保证最终挖掘结果的准确性,提高用户体验。

其中,在将热点事件呈现给用户时,各热点事件对应的资讯来源(即资讯平台)、各资讯来源的可信度、事件标签、事件热度、资讯新闻数量、资讯发布时间(即事件发生时间)等信息也可一并呈现给用户,以便用户获取更全面、细致的信息,用户体验更佳。

实施例2:

在上述实施例1的基础上,本发明实施例提供了一种通过资讯发掘当前热点事件的系统,如图6所示,主要包括:

用户输入模块,用于用户在系统输入检索条件,例如近期时间节点、热度星级和检索词等;

算法处理模块,用于根据用户检索条件获取多篇资讯新闻,计算分析后得到热点事件,并筛选出满足用户检索条件的近期热点事件;

用户输出模块,用于将筛选出的近期热点事件按照指定排序方式(如热度排序、时间排序和数量排序等)展现给用户,以便用户及时获取热点事件,并帮助用户进行基于热点事件的投资。

进一步参考图7,所述算法处理模块具体可包括:

资讯获取模块,用于根据用户输入的检索条件,从一个或多个资讯平台获取最近预设时间段内的多篇资讯新闻,并对各资讯新闻进行清洗,去除无用标签和脏数据。

关键词计算模块,用于通过计算得到每篇资讯新闻的一个或多个关键词,具体为:分别对每篇资讯新闻中的文本进行分词操作,去除无效词,并在剩下词汇中选取一个或多个词汇作为本篇资讯新闻的关键词。

资讯向量计算模块,用于根据每篇资讯新闻对应的一个或多个关键词,计算得到每篇资讯新闻对应的资讯向量。

聚类计算模块,用于对各资讯向量进行聚类计算,得到一个或多个簇,对应一个或多个热点事件,具体为:对于每个资讯向量,将资讯向量标记到高维空间中后分别计算该资讯向量与每个簇中心的夹角余弦值,并与预设阈值进行比较;然后根据比较结果判断每篇资讯新闻合适的簇,并基于判断结果分别将各资讯新闻加入其合适的簇中,最终得到一个或多个簇。

事件筛选模块,用于对热点事件进行热度排名,得到当前最热的若干个热点事件,并根据用户输入的检索条件筛选出满足条件的近期热点事件。

实施例3:

在上述实施例1提供的通过资讯发掘当前热点事件的方法的基础上,本发明还提供了一种可用于实现上述方法的通过资讯发掘当前热点事件的装置,如图8所示,是本发明实施例的装置架构示意图。本实施例的通过资讯发掘当前热点事件的装置包括一个或多个处理器21以及存储器22。其中,图8中以一个处理器21为例。所述处理器21和所述存储器22可以通过总线或者其他方式连接,图8中以通过总线连接为例。

所述存储器22作为一种通过资讯发掘当前热点事件的方法非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如实施例1中的通过资讯发掘当前热点事件的方法。所述处理器21通过运行存储在所述存储器22中的非易失性软件程序、指令以及模块,从而执行通过资讯发掘当前热点事件的装置的各种功能应用以及数据处理,即实现实施例1的通过资讯发掘当前热点事件的方法。

所述存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,所述存储器22可选包括相对于所述处理器21远程设置的存储器,这些远程存储器可以通过网络连接至所述处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述实施例1中的通过资讯发掘当前热点事件的方法,例如,执行以上描述的图1、图3-图5所示的各个步骤。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取存储器(ram,randomaccessmemory)、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1