一种资讯可靠性评价方法、设备和存储介质与流程

文档序号:20919664发布日期:2020-05-29 13:59阅读:173来源:国知局
一种资讯可靠性评价方法、设备和存储介质与流程

本发明涉及数据处理技术领域,尤其涉及一种资讯可靠性评价方法、设备和存储介质。



背景技术:

传统的信息获取方式往往是主动的,比如用户主动浏览门户网站获取最新的新闻资讯,或者通过搜索引擎主动搜索自己感兴趣的资讯。近年来,随着计算机网络和人工智能技术的发展,人们获取信息的方式发生了较大的转变,各种瀑布流信息、智能推送的资讯直接展示在用户眼前,用户在很多时候是被动地接受这些资讯的。在信息获取方式从主动转变到被动的过程中,除了技术的良性发展之外,也伴随着信息爆炸和资讯泛滥,一些虚假资讯甚至谣言快速传播,正面资讯(如健康类资讯)受到负面资讯的负面影响,如何甄别正面资讯的真伪就涉及到了对资讯的可靠性评价,如何有效地评价正面资讯的可靠性成为当前亟待解决的问题。

在谣言识别项目中,重点关注对资讯内容的分析,通过专业人员的检验或网络众包学习,识别资讯中夸大的、不合理的内容,从而推断资讯是否是为谣言。但是无论是依赖专业人员的检验还是网络众包学习都具有较大的局限性,都需要消耗大量的人力成本。由于目前没有高效的谣言识别方法,所以实际上网络众包学习已经成为各个辟谣平台的唯一选择。网络众包学习依赖互联网社交参与度,发挥群策群力的优势,共同标记识别谣言内容,通过统计标记来判断资讯的可靠性,但是网络众包学习对于网络人员的素质和互联网社交参与度要求较高,不适合在网络环境下对大量资讯进行识别。

随着深度学习技术的广泛应用,研究者开始考虑使用深度学习模型来识别谣言,其基本思路仍然是从资讯本身的内容入手,通过对谣言和非谣言的样本进行大量的标注,通过深度学习网络构建出能够区分二者的分类器,从而直接对资讯内容的可靠性进行判断。但是深度学习模型存在以下问题:一、深度学习模型虽然在图像视频领域取得了很好的效果,但在自然语言领域,尤其是在一般人无法做出辨别的资讯评价领域上,难以找到合适的深度学习模型来满足实际要求;二、深度学习模型的可解释性有待进一步深入研究,在实际应用中深度学习模型输出结果是通过大量复杂计算得到的,最终的结果往往不易控制,也无法通过证据直接验证输出结果的好坏。



技术实现要素:

本发明的主要目的在于提供一种资讯可靠性评价方法、设备和存储介质,以解决现有的对资讯的可靠性评价方法人力成本高且准确性低的问题。

针对上述技术问题,本发明是通过以下技术方案来解决的:

本发明提供了一种资讯可靠性评价方法,包括:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;根据预设的随机游走模型以及所述语义网络中的中心节点对应的资讯,对所述资讯库中的每个资讯进行可靠性评分。

其中,所述对资讯库中的所有资讯分别进行深度语义向量编码,包括:在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中;利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词;根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量;根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。

其中,所述根据所述语义相似度矩阵,构建语义网络,包括:对所述语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵;根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图作为语义网络。

其中,根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图,包括:根据所述稀疏语义相似度矩阵,构建带权无向简单图;确定所述带权无向简单图中包含的多个不连通子图;在所述语义相似度矩阵中查询各个不连通子图之间的节点对的相似度;在所述带权无向简单图中,连接相似度最大的节点对,使用最大的所述相似度作为所述连接的权重,构成单连通的带权无向简单图。

其中,所述根据预设的随机游走模型以及所述语义网络中的中心节点对应的资讯,对所述资讯库中的每个资讯进行可靠性评分,包括:基于所述随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分;在所述语义网络的中心节点对应的资讯中,提取关键词和主题,作为所述资讯库的关键词和主题;对所述资讯库的关键词和主题进行深度语义向量编码;分别计算所述资讯库中每个资讯的深度语义向量和所述资讯库的深度语义向量之间的相似度,作为所述每个资讯的言据自证评分;根据所述每个资讯的言据支撑评分和言据自证评分,得到所述每个资讯的可靠性评分。

其中,所述方法还包括:根据所述资讯库中各个资讯的可靠性评分,得到所述资讯库的可靠性评分。

本发明还提供了一种资讯可靠性评价设备,所述资讯可靠性评价设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;根据预设的随机游走模型以及所述语义网络中的中心节点对应的资讯,对所述资讯库中的每个资讯进行可靠性评分。

其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:基于所述随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分;在所述语义网络的中心节点对应的资讯中,提取关键词和主题,作为所述资讯库的关键词和主题;对所述资讯库的关键词和主题进行深度语义向量编码;分别计算所述资讯库中每个资讯的深度语义向量和所述资讯库的深度语义向量之间的相似度,作为所述每个资讯的言据自证评分;根据所述每个资讯的言据支撑评分和言据自证评分,得到所述每个资讯的可靠性评分。

其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:根据所述资讯库中各个资讯的可靠性评分,得到所述资讯库的可靠性评分。

本发明又提供了一种存储介质,所述存储介质上存储有资讯可靠性评价程序,所述资讯可靠性评价程序被处理器执行时实现上述的资讯可靠性评价方法的步骤。

本发明有益效果如下:

本发明的立足点在于评价资讯中观点的可靠性,对资讯进行深度语言向量编码,通过计算资讯两两之间的相似度,构建语义网络,进而可以计算出每个资讯的可靠性评分,本发明准确性高,并且可以有效降低人力成本。进一步地,本发明在评价过程中,不只是依靠待评价资讯自身提供的证据来评价,还需要资讯库中与该资讯有同样观点的其他资讯来支撑,如果资讯库中支撑该观点的其他资讯很少,甚至其他资讯具有与该观点不相容的观点,那么资讯的可靠性就会很低,反之,大量其他资讯都具有与所考虑资讯验证相同观点的证据,那么资讯的可靠性就会很高。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例一的资讯可靠性评价方法的流程图;

图2是根据本发明实施例二的深度语义向量编码的步骤流程图;

图3是根据本发明实施例三的语义网络构建的步骤流程图;

图4是根据本发明实施例四的可靠性评分的步骤流程图;

图5是根据本发明第五实施例的资讯可靠性评价设备的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本发明作进一步地详细说明。

实施例一

根据本发明的实施例一,提供了一种资讯可靠性评价方法。

如图1所示,为根据本发明实施例一的资讯可靠性评价方法的流程图。

步骤s110,对资讯库中的所有资讯分别进行深度语义向量编码。

深度语义向量编码是指通过深度学习技术提取资讯在语义上下文空间的向量表示。通过深度学习技术,描述词在词所在资讯的上下文依赖,能够对词进行更好的语义建模,而向量编码是指将资讯转换成可计算的量,便于计算机进行处理。

步骤s120,根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵。

语言相似度矩阵中包含资讯库中任意两篇资讯的相似度。

步骤s130,根据所述语义相似度矩阵,构建语义网络。

语义网络中的节点为资讯库中的资讯,语义网络中任意两个节点之间的连接具有权重,权重的值为该两个节点的相似度。

步骤s140,根据预设的随机游走模型以及所述语义网络中的中心节点对应的资讯,对所述资讯库中的每个资讯进行可靠性评分。

随机游走模型应用于网络中,用于描述一系列随机步形成路径概率关系的随机过程模型,随机游走从初始节点出发,然后根据网络(语义网络)的结构,依赖预设的转移概率,跳转到下一步,随着迭代步数的增加,转移概率最后趋向于稳定的分布。随机游走模型能够较好地描述网络结构的固有属性,找到对网络有重大作用的中心节点。

在本实施例中,在得到资讯库中各个资讯的可靠性评分之后,还可以根据资讯库中各个资讯的可靠性评分,得到资讯库的可靠性评分。

资讯的可靠性评分越高,资讯的可靠性越高,资讯的可靠性评分越底,资讯的可靠性越低。类似的,资讯库的可靠性评分越高,资讯库的可靠性越高,资讯库的可靠性评分越底,资讯库的可靠性越低。

在本实施例中,可以根据可靠性评分的高低对资讯进行排序,将可靠性评分高的资讯提供给用户。进一步地,根据各个资讯库的可靠性评分,在可靠性评分最高的资讯库中,选取可靠性评分最高的资讯,提供给用户查看。

本实施例提供了一种基于言据自洽的资讯可靠性评价方法。本实施例的立足点在于评价资讯中观点的可靠性,对资讯进行深度语言向量编码,通过计算资讯两两之间的相似度,构建语义网络,进而可以计算出每个资讯的可靠性评分。

本实施例在评价过程中,不只是依靠待评价资讯自身提供的证据来评价,还需要资讯库中与该资讯有同样观点的其他资讯来支撑,如果资讯库中支撑该观点的其他资讯很少,甚至其他资讯具有与该观点不相容的观点,那么资讯的可靠性就会很低,反之,大量其他资讯都具有与所考虑资讯验证相同观点的证据,那么资讯的可靠性就会很高。

下面通过实施例二~实施例四,对实施例一中的步骤进行进一步地说明。其中,实施例二~实施例四将以健康领域为基础进行详细解释。

实施例二

本实施例对深度语义向量编码的步骤进行进一步地描述。

图2为根据本发明实施例二的深度语义向量编码的步骤流程图。

步骤s210,在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中。

常用词是指:在预设网站中出现的技术术语、专业术语、常见名称或者出现频率较高的词语。

预设网站例如是:“a+医学百科”,“39健康网”,“寻医问药网”,“百度医学百科”。

分词工具例如是:结巴分词、nlpir、ltp、thulac、ik-analyzer。

通过抓取预设网站中的词条,获得常用词,扩充分词工具的词典,以便提供较为理想的分词效果。比如:“过敏性鼻炎”是一类鼻炎的常见疾病名词,大部分分词工具都将其切分成“过敏性”和“鼻炎”两个词,经过分词工具的切分后,无法完整而有效的体现专有疾病的含义,对后续的语义分析将产生较大的不利影响。这样,可以指定健康类网站,对健康类网站关于疾病和症状的词条进行抓取,获得常用词。

在选择健康类网站时,选择依据如下:(1)网站有“疾病百科”和“症状百科”两个板块,对疾病和症状都有链接的页面进行详细描述;(2)网站在诸多搜索引擎中过滤掉明确标注为广告链接外搜出的结果较为靠前,且具有较为清晰的网络结构。

将常用词作为用户词典载入分词工具中,这样就可以利用该分词工具对健康资讯库中的每一篇健康资讯进行去符号、去停词、分词操作。

步骤s220,利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词。

对健康资讯库中的各个健康资讯分别进行分词处理,得到多个分词,形成健康资讯数据集。

步骤s230,根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量。

在本实施例中,分布式词向量表示方法可以是基于词嵌入(wordembedding)的分布式向量表示方法。基于词嵌入的分布式向量表示方法来对健康资讯数据集中的分词进行编码(向量表示)。

分布式词向量模型可以是word2vec模型,也可以是glove模型。其中,word2vec模型是一个典型的三层前馈网络,由输入层、隐层(映射层)和输出层表示,该模型通过词在资讯库中的上下文来构建输入和输出,从而发现词的上下文语义关系。可以预先定义维度,比如:使用250维来表示所有词的上下文关系,每一维都是多重语义的复合,称之为分布式语义表示。该word2vec模型的输入和输出向量是每一个词基于词典位置的独热编码,比如:“健康”如果在词典中序号是500,那么除了500这个位置是1,其他的位置全部为0。该word2vec模型有两类训练方法,这两类方法在构建的时候对输入和输出的定义刚好是相反的,一类称之为连续词包(cbow)模型的方法是用上下文词预测词本身,另一类称之为skip-gram的方法则是对应词预测其上下文词,两类训练方法的网络结构和优化方法有少许差异,但都是为了更好地得到词的一个比较“紧致”(dense)的语义表示。

在自然语言处理的多项任务中,由于能够很好的处理通过词的上下文语义来量化词本身的缘故,词的分布式向量表示成为了自然语言量化计算的基石。从而,将健康资讯数据集作为word2vec模型的训练数据集,利用该训练数据集训练该word2vec模型,即:将健康资讯数据集中的分词所形成的序列输入word2vec模型,通过设置合适的参数,比如:词的分布式维度、上下文窗口大小、迭代周期、训练方法等参数,进而使word2vec模型输出每个分词对应的分布式词向量。

步骤s240,根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。

在基于词嵌入的分布式词向量表示方法中,分词的上下文语义具有可加性,这样通过分词的加权平均,就能得到每篇资讯的深度语义向量。

实施例三

本实施例对语义网络的构建进行进一步地描述。

图3是根据本发明实施例三的语义网络构建的步骤流程图。

步骤s310,根据每个资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵。

在语义相似度矩阵中包括资讯库中任意两篇资讯的相似度。

在本实施例中,相似度计算的目的在于发现相似的言据支撑。比如:a资讯表明了a观点,b资讯表明了b观点,如果观点a与观点b有相似的语义,那么,a、b资讯就互为对应的言据支撑,言据支撑的强度可以定义为a、b的语义相似度s(a,b),相似度越高,言据支撑的强度越高,相似度越低,言据支撑的强度越低,在这过程中,a资讯和b资讯的深度语义向量分别为va、vb。

尽管基于词嵌入的分布式词向量表示方法的语义具有可加性,但是在本实施例中,不仅仅通过方向相似度spos(a,b),还要加上幅值相似度sstr(a,b),二者共同度量两篇资讯的相似度。

方向相似度spos(a,b)可以使用余弦相似度,其定义为:

其中,||va||表示取向量va的模运算,||vb||表示取向量vb的模运算。

幅值相似度sstr(a,b)的定义如下:

这样,资讯a、b的相似度可以定义为以上两个相似度的加权和:

s(a,b)=λspos(a,b)+(1-λ)sstr(a,b)

其中,参数λ(0.5<λ<1)为预设值,用于调节方向相似度和幅值相似度的权重。在本实施例中,方向相似度体现了所表达观点在语义空间的方向一致性,而幅值相似度则表明观点在语义空间的力度一致性,方向往往比力度更重要,所以本实施例的值域s(a,b)∈(-λ,1]。

在计算过资讯库中任意两篇资讯的相似度之后,可以根据得到的多个相似度构建语义相似度矩阵。

步骤s320,对语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵。

由于资讯的深度语义向量往往具有较高的维度,因此出现两篇资讯语义完全正交即相似度为0的概率极小,这就表明语义相似度矩阵是稠密的矩阵,之所以会造成矩阵稠密,一方面是由于基于词嵌入的分布式词向量表示方法对各语义分布式表示的结果,另外一方面也是由于资讯库中存在一些与资讯主旨语义关联不大的高频噪声。

为了消除语义中高频噪声的影响,可以对稠密的语义相似度矩阵进行主成份分析(principalcomponentsanalysis,简称pca),在数学上即对其进行奇异值分解(singularvaluedecomposition,简称svd),之后再重构得到一个较为稀疏的表示。重构之后得到的语义相似度矩阵,即是稀疏语义相似度矩阵,其是原始的语义相似度矩阵的一个近似,除了消除一些高频噪声的影响,也能减少后续操作的计算量,从而使得后续的随机游走算法能够更加鲁棒。

步骤s330,根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图作为语义网络。

步骤1,根据所述稀疏语义相似度矩阵,构建带权无向简单图。

带权无向简单图是指关联一对顶点的边有且仅有一条,没有顶点到自身的边(即没有环),并且边上带有权重的图。

利用稀疏语义相似度矩阵作为邻接矩阵,构建带权无向简单图。该带权无向简单图实则为一个语义上下文网络。每篇资讯对应作为带权无向简单图中的一个节点。

步骤2,确定所述带权无向简单图中包含的多个不连通子图。

不连通子图即是和其他子图没有连接的子图。

由于主成份分析去掉了很多节点之间的语义上下文连接,可能造成带权无向简单图不是一个单连通的网络,为了后续的分析需要,需要在带权无向简单图中找到不相连的几个子网络(不连通子图),在不连通的几个子网络中构建桥梁,以便能将整个网络的语义上下文连接起来。

步骤3,在所述语义相似度矩阵中,查询各个不连通子图之间的节点对的相似度。

节点对包括两个节点,在两个不连通子图中,其中一个节点位于一个不连通子图中,另一个节点位于另一个不连通子图中。

为了尽可能不影响到原始的语义上下文,应该尽可能少的连接不连通子图,且尽可能多的包含不连通子图之间的语义上下文。

步骤4,在所述带权无向简单图中,连接相似度最大的节点对,使用最大的所述相似度作为所述连接的权重,构成单连通的带权无向简单图。

在每两个不连通子图之间需要执行:在第一不连通子图中确定第一节点和第二不连通子图中确定第二节点,在语义相似度矩阵中,查询第一节点和第二节点的相似度;在第一不连通子图中包含多个第一节点,在第二不连通子图中包含多个第二节点,查询每个第一节点和每个第二节点的相似度,并对获得的多个相似度进行排序,确定最大的相似度,连接最大的相似度对应的第一节点和第二节点,并且使用该最大的相似度作为该连接的权重,使得第一不连通子图和第二不连通子图连通。

实施例四

本实施例进一步地描述如何对资讯进行可靠性评分。

图4是根据本发明实施例四的可靠性评分的步骤流程图。

步骤s410,基于随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分。

本实施例在语义网络中实施随机游走模型,完成语义网络中每一个节点的言据支撑评分。

例如:健康资讯库中有n篇资讯,语义相似度矩阵为m,其中健康资讯i和j的相似度为sij。资讯i在迭代的第t步的言据支撑评分记为而资讯i的初始言据支撑评分为根据语义相似度矩阵得到:

随机游走模型遵循节点i的言据支撑评分由其他节点在前一步的支撑得分得到,一部分是由相邻节点得到的,另一部分由其他节点随机平均贡献得到,那么节点i得到其他节点在第t+1步的言据支撑评分迭代公式为:

其中,p为预设值,p表示语义网络中的两个节点如果相连的话,从一个节点选择相邻节点游动的概率,而1-p相应的表示随机选择其他相邻或者不相邻的节点的概率,本实施例优选地,0.5≤p≤1。w表示语义网络,i和j为语义网络中的相邻节点,k为i的其他节点(k≠i,并且k≠j),wij为资讯i和j之间的连接的权重,即资讯i和j的相似度;wkj为资讯k和j之间的连接的权重,即资讯k和j的相似度;sik为i和k的相似度。

这样通过初始条件和迭代公式,就可以得到每个节点的言据支撑评分。

步骤s420,在所述语义网络的中心节点对应的资讯中,提取关键词和主题,作为所述资讯库的关键词和主题。

根据语义网络中节点的节点贡献量,来确定语义网络中的中心节点。

节点贡献量的类型包括:度中心(degreecentrality)贡献量、接近中心(closenesscentrality)贡献量、中介中心(betweennesscentrality)贡献量、特征值中心(eigenvectorcentrality)贡献量。

度中心贡献量,为连接该节点的边的个数(如果边是赋权的,那么就是边的赋权和),通常也被简称为度。

接近中心贡献量,一个节点跟语义网络中其余节点集合的平均距离。

中介中心贡献量,在观点传播的桥梁中经过该节点的条数,即担任其它两个结点之间的桥梁的次数。

特征值中心贡献量,是通过对网络邻接矩阵进行特征值分解之后得到特征值最大的特征向量关联的那些节点,跟度中心类似,但是特征值中心还考虑了跟其相连的节点的中心度量。特征值中心既考虑的传播的时间因素,也考虑了传播的空间因素,能将一篇资讯的观点在一个比较短的时间传播到一个比较大的范围。

为了平衡以上提到的四类中心节点类型,综合考虑这四类中心的度量,每一个节点计算这四个中心度量,将最小值的作为自己对中心节点的贡献量,然后在所有节点中寻找对中心节点贡献大的一些节点,就能够找到语义网络中的中心节点对应的健康资讯。进一步地,针对语义网络中的每个节点,分别计算4种类型的节点贡献量,即度中心贡献量、接近中心贡献量、中介中心贡献量和特征值中心贡献量;针对语义网络中的每个节点,确定该节点的4种类型的节点贡献量中的最小值;按照从大到小的顺序对语义网络中各个节点的节点贡献量最小值排序,确定最大的节点贡献量,将最大的节点贡献量对应的节点作为中心节点。也就是说,中心节点对应的4种类型的节点贡献量中的最小值在各个节点中是最大值。

根据中心节点的类型,确定一类或者多类中心节点对应的资讯,并在确定的资讯中提取关键词和主题。

对中心节点对应的资讯内容进行tfidf(termfrequency-inversedocumentfrequency)计算,完成关键词的抽取和基本的主题分析。

当然也可以根据关键词和标题的特点进行提取。由于关键词为资讯中出现最多的词,所以,可以在资讯中提取出现次数最多的词作为该资讯的关键词。由于主题一般出现在资讯的标题位置,所以,可以在资讯的超级文本标记语言(hypertextmarkuplanguage,html)文件中,提取<title>位置的信息作为该资讯的主题。

步骤s430,对所述资讯库的关键词和主题进行深度语义向量编码。

步骤s440,分别计算所述资讯库中每个资讯的深度语义向量和所述资讯库的深度语义向量之间的相似度,作为所述每个资讯的言据自证评分。

步骤s450,根据所述每个资讯的言据支撑评分和言据自证评分,得到所述每个资讯的可靠性评分。

资讯i的深度语义向量为vi,资讯库的深度语义向量为vc,那么资讯i的言据自证评分为eic=cos(vi,vc),最后得到资讯i的可靠性评分为言据自证评分和言据支撑评分的加权和:

ei=αeic+(1-α)rei

在实际的应用中,由于言据自证评分的权重一般要小于言据支撑评分的权重,所以,这里0.5<α<1。

整个资讯库的可靠性得分,可定义为各资讯的可靠性得分的平均:

这样就得到了资讯库中每一篇资讯以及资讯库的可靠性评价。

本实施例结合了资讯本身的内容分析,以及资讯所在资讯库的上下文结构信息,让资讯既有了自证,也有了旁证,让资讯在资讯库的上下文中达到言据自洽,否则如果出现不相容甚至是相悖的结果,那么资讯在资讯库中的可靠性就要大打折扣。

实施例五

本实施例提供一种资讯可靠性评价设备。如图5所示,为根据本发明第五实施例的资讯可靠性评价设备的结构图。

在本实施例中,所述资讯可靠性评价设备500,包括但不限于:处理器510、存储器520。

所述处理器510用于执行存储器520中存储的资讯可靠性评价程序,以实现实施例一~实施例四所述的资讯可靠性评价方法。

具体而言,所述处理器510用于执行存储器520中存储的资讯可靠性评价程序,以实现以下步骤:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;根据预设的随机游走模型以及所述语义网络中的中心节点对应的资讯,对所述资讯库中的每个资讯进行可靠性评分。

其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中;利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词;根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量;根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。

其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:对所述语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵;根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图作为语义网络。

其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:根据所述稀疏语义相似度矩阵,构建带权无向简单图;确定所述带权无向简单图中包含的多个不连通子图;在所述语义相似度矩阵中查询各个不连通子图之间的节点对的相似度;在所述带权无向简单图中,连接相似度最大的节点对,使用最大的所述相似度作为所述连接的权重,构成单连通的带权无向简单图。

其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:基于所述随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分;在所述语义网络的中心节点对应的资讯中,提取关键词和主题,作为所述资讯库的关键词和主题;对所述资讯库的关键词和主题进行深度语义向量编码;分别计算所述资讯库中每个资讯的深度语义向量和所述资讯库的深度语义向量之间的相似度,作为所述每个资讯的言据自证评分;根据所述每个资讯的言据支撑评分和言据自证评分,得到所述每个资讯的可靠性评分。

其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:根据所述资讯库中各个资讯的可靠性评分,得到所述资讯库的可靠性评分。

实施例六

本发明实施例还提供了一种存储介质。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述的资讯可靠性评价方法。

具体而言,所述处理器用于执行存储器中存储的资讯可靠性评价程序,以实现以下步骤:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;根据预设的随机游走模型以及所述语义网络中的中心节点对应的资讯,对所述资讯库中的每个资讯进行可靠性评分。

其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中;利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词;根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量;根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。

其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:对所述语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵;根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图作为语义网络。

其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:根据所述稀疏语义相似度矩阵,构建带权无向简单图;确定所述带权无向简单图中包含的多个不连通子图;在所述语义相似度矩阵中查询各个不连通子图之间的节点对的相似度;在所述带权无向简单图中,连接相似度最大的节点对,使用最大的所述相似度作为所述连接的权重,构成单连通的带权无向简单图。

其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:基于所述随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分;在所述语义网络的中心节点对应的资讯中,提取关键词和主题,作为所述资讯库的关键词和主题;对所述资讯库的关键词和主题进行深度语义向量编码;分别计算所述资讯库中每个资讯的深度语义向量和所述资讯库的深度语义向量之间的相似度,作为所述每个资讯的言据自证评分;根据所述每个资讯的言据支撑评分和言据自证评分,得到所述每个资讯的可靠性评分。

其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:根据所述资讯库中各个资讯的可靠性评分,得到所述资讯库的可靠性评分。

以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1