一种国防科技领域开源信息置信度确定方法及系统与流程

文档序号:18796945发布日期:2019-09-29 19:49阅读:234来源:国知局
一种国防科技领域开源信息置信度确定方法及系统与流程
本发明涉及信息置信度评估分析
技术领域
,特别是涉及一种国防科技领域开源信息置信度确定方法及系统。
背景技术
:开源信息是指能够从公开或半公开渠道获得的信息,在对开源信息进行处理的过程中,可能某一个实体的属性在不同信息来源中会有不同的表现形式,例如某一文章(信息)中记载某型装备(实体)的长度(属性)为26米,而另一篇文章中记载该型装备的长度为20米,此种情况下用户无从判断这两篇文章中的哪篇文章提供的数据更加准确可靠。而国防科技领域是特别关注数据的准确性的,如果数据出现差错,会对相关工作造成严重的后果。技术实现要素:本发明的目的是提供一种国防科技领域开源信息置信度确定方法及系统,以解决用户在获取开源信息时无法判断开源信息可靠性的问题。为实现上述目的,本发明提供了如下方案:一种国防科技领域开源信息置信度确定方法,所述方法包括:获取国防科技领域的开源信息;采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体及所述命名实体对应的属性信息;所述属性信息包括属性和属性值;对所述命名实体及所述命名实体对应的属性信息进行实体统一及实体消歧操作,形成更正后实体及所述更正后实体对应的更正后属性信息;根据所述更正后实体及所述更正后实体对应的更正后属性信息确定所述开源信息的置信度。可选的,所述采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体及所述命名实体对应的属性信息,具体包括:采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体;根据所述命名实体的上下文进行属性抽取,获得所述命名实体对应的属性信息。可选的,所述对所述命名实体及所述命名实体对应的属性信息进行实体统一操作,形成更正后实体及所述更正后实体对应的更正后属性信息,具体包括:采用空间向量模型计算名称不同的所述命名实体周边的词构成的实体特征向量;利用余弦相似度比较名称不同的所述命名实体的实体特征向量,将所述实体特征向量相似但名称不同的命名实体归类为同一个更正后命名实体;采用空间向量模型计算所述更正后命名实体对应的名称不同的属性周边的词构成的属性特征向量;利用余弦相似度比较名称不同的所述属性的属性特征向量,将所述属性特征向量相似但名称不同的属性归类为同一个更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。可选的,所述对所述命名实体及所述命名实体对应的属性信息进行实体消歧操作,形成更正后实体及所述更正后实体对应的更正后属性信息,还包括:采用空间向量模型计算名称相同的多个所述命名实体周边的词构成的实体特征向量;利用余弦相似度比较名称相同的多个所述命名实体的实体特征向量,将名称相同但所述实体特征向量不相似的命名实体归类为不同的更正后命名实体;采用空间向量模型计算所述更正后命名实体对应的名称相同的多个属性周边的词构成的属性特征向量;利用余弦相似度比较名称相同的多个所述属性的属性特征向量,将名称相同但所述属性特征向量不相似的属性归类为不同的更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。一种国防科技领域开源信息置信度确定系统,所述系统包括:开源信息获取模块,用于获取国防科技领域的开源信息;命名实体识别及属性抽取模块,用于采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体及所述命名实体对应的属性信息;所述属性信息包括属性和属性值;实体统一和实体消歧模块,用于对所述命名实体及所述命名实体对应的属性信息进行实体统一和实体消歧操作,形成更正后实体及所述更正后实体对应的更正后属性信息;置信度计算模块,用于根据所述更正后实体及所述更正后实体对应的更正后属性信息确定所述开源信息的置信度。可选的,所述命名实体识别及属性抽取模块,具体包括:命名实体识别单元,用于采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体;属性抽取单元,用于根据所述命名实体的上下文进行属性抽取,获得所述命名实体对应的属性信息。可选的,所述实体统一和实体消歧模块,具体包括:第一实体特征向量计算单元,用于采用空间向量模型计算名称不同的所述命名实体周边的词构成的实体特征向量;第一实体特征向量比较单元,用于利用余弦相似度比较名称不同的所述命名实体的实体特征向量,将所述实体特征向量相似但名称不同的命名实体归类为同一个更正后命名实体;第一属性特征向量计算单元,用于采用空间向量模型计算所述更正后命名实体对应的名称不同的属性周边的词构成的属性特征向量;第一属性特征向量比较单元,用于利用余弦相似度比较名称不同的所述属性的属性特征向量,将所述属性特征向量相似但名称不同的属性归类为同一个更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。可选的,所述实体统一和实体消歧模块,还包括:第二实体特征向量计算单元,用于采用空间向量模型计算名称相同的多个所述命名实体周边的词构成的实体特征向量;第二实体特征向量比较单元,用于利用余弦相似度比较名称相同的多个所述命名实体的实体特征向量,将名称相同但所述实体特征向量不相似的命名实体归类为不同的更正后命名实体;第二属性特征向量计算单元,用于采用空间向量模型计算所述更正后命名实体对应的名称相同的多个属性周边的词构成的属性特征向量;第二属性特征向量比较单元,用于利用余弦相似度比较名称相同的多个所述属性的属性特征向量,将名称相同但所述属性特征向量不相似的属性归类为不同的更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供一种国防科技领域开源信息置信度确定方法及系统,所述方法通过对国防科技领域已有开源信息进行命名实体识别和属性抽取,提取出相应的命名实体和对应的属性;再通过实体统一和实体消歧技术对命名实体和对应属性做进一步的判别更正,提高实体和属性抽取的准确性。在实际使用时,通过对同一实体同一属性在不同资讯来源的相互印证,计算出该开源信息的置信度以及信息源的置信度,为国防科技领域用户提供更加准确的信息服务。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据本发明提供的附图获得其他的附图。图1为本发明提供的国防科技领域开源信息置信度确定方法的方法流程图;图2为本发明提供的国防科技领域开源信息置信度确定方法的基本原理图;图3为本发明提供的国防科技领域开源信息置信度确定系统的系统结构图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明的目的是提供一种国防科技领域开源信息置信度确定方法及系统,通过同一个开源信息在不同信息源的相互印证,计算出该信息的置信度与信息源的置信度指标,以解决用户在获取开源信息时无法判断开源信息可靠性的问题。为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。图1为本发明提供的国防科技领域开源信息置信度确定方法的方法流程图。图2为本发明提供的国防科技领域开源信息置信度确定方法的基本原理图。参见图1和图2,所述国防科技领域开源信息置信度确定方法包括:步骤101:获取国防科技领域的开源信息。开源信息(本发明简称信息)是指能够从公开或半公开渠道获得的信息,本发明中国防科技领域的开源信息主要指国防科技领域的数据资源,数据资源以文本数据为主,一般为新闻资讯、文献资料、研究报告等。整理国防科技领域的数据资源,作为置信度计算的初始数据来源。步骤102:采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体及所述命名实体对应的属性信息。对步骤101形成的数据资源进行命名实体识别操作。命名实体识别是指从文本数据集中自动识别出命名实体,主要识别出文本中的人名、地名、装备名、机构名等专有名词和有意义的时间等实体信息。本发明采用基于crf(conditionalrandomfield,条件随机场)的命名实体识别方法识别出数据资源中的所有命名实体。针对提取出来的命名实体(简称实体),通过实体上下文进行属性抽取。属性抽取的目标是获得特定实体的属性信息,所述属性信息包括属性和属性值。如某型装备为实体,则该型装备的长度、宽度、价格等为该实体对应的属性,而该型装备具体的长度值、宽度值和价格为属性对应的属性值。命名实体及其对应的属性是针对于具体的文本而定的,如“x型轮船的长度是45m”,可提取出命名实体是“x型轮船”,属性名是“长度”,属性值是“45m”。在具体实施过程中无需预先设定命名实体和属性名,而是根据具体文本动态调整。基于条件随机场的命名实体识别方法识别命名实体及属性信息的过程包括:1.构造训练集,从备选数据集(开源信息)中随机选择一部分作为训练集,交由专业人士采用biem标注方式进行标注,b即begin,表示实体的开始,i即intermediate,表示实体的中间,e即end,表示实体的结束,o即other,表示非实体的字。2.通过crf(conditionalrandomfield,条件随机场)算法对训练集进行训练,形成命名实体识别模型。3.采用命名实体识别模型识别出所述开源信息中的所有命名实体;4.根据所述命名实体的上下文进行属性抽取,获得所述命名实体对应的属性信息。进行属性抽取时还可以采用基于模板的属性抽取方法,根据训练样本编写对应的属性抽取模板,进行命名实体的属性抽取。步骤103:对所述命名实体及所述命名实体对应的属性信息进行实体统一和实体消歧操作,形成更正后实体及所述更正后实体对应的更正后属性信息。针对步骤102形成的命名实体和对应属性,进行实体统一和实体消歧操作。其中实体消歧是用来解决同名实体产生歧义问题的技术,实体统一技术是用来解决多个名称指代同一个实体的问题。本发明通过聚类的方法,采用空间向量模型,计算实体周边的词构成的特征向量,再利用余弦相似度进行比较,将描述相似的实体聚成一类,描述不相似的实体归为不同类别,从而解决同一实体的不同名称或同一名称指代不同实体的问题,对命名实体进行更正。实体的属性采用同样的方法进行更正。具体的,采用实体统一技术解决多个名称指代同一个实体的问题,其过程包括:采用空间向量模型计算名称不同的所述命名实体周边的词构成的实体特征向量;利用余弦相似度比较名称不同的所述命名实体的实体特征向量,将所述实体特征向量相似但名称不同的命名实体归类为同一个更正后命名实体;采用空间向量模型计算所述更正后命名实体对应的名称不同的属性周边的词构成的属性特征向量;利用余弦相似度比较名称不同的所述属性的属性特征向量,将所述属性特征向量相似但名称不同的属性归类为同一个更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。例如“x型船只的长度是45m”和“x型轮船约长45m”,根据余弦相似度比较二者的实体特征向量相似,则可认为“x型船只”和“x型轮船”是同一属性;同理,根据余弦相似度比较二者的属性特征向量相似,则可认为“长度”和“长”是同一属性。采用实体消歧技术解决同名实体产生歧义问题的过程包括:采用空间向量模型计算名称相同的多个所述命名实体周边的词构成的实体特征向量;利用余弦相似度比较名称相同的多个所述命名实体的实体特征向量,将名称相同但所述实体特征向量不相似的命名实体归类为不同的更正后命名实体;采用空间向量模型计算所述更正后命名实体对应的名称相同的多个属性周边的词构成的属性特征向量;利用余弦相似度比较名称相同的多个所述属性的属性特征向量,将名称相同但所述属性特征向量不相似的属性归类为不同的更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。步骤104:根据所述更正后实体及所述更正后实体对应的更正后属性信息确定所述开源信息的置信度。对于步骤103实体统一和实体消歧后形成的更正后实体和对应的更正后属性,将相同更正后实体的同一更正后属性的多个属性值进行比对,判断多个属性值是否一致,如装备的战技指标,在不同的信息来源中采用不同的单位制式因此属性值不同,通过单位转换判断各属性值的误差是否在可接受范围之内。在国防装备领域,一般认为误差在0.1%以内的属性值为同一属性值。如果所有数据来源的信息均一致,则提高该信息和信息源的置信度,如果存在不一致的情况,则降低该信息和信息来源的置信度。通常信息指的是一篇文章,信息源指的是发布这一篇文章的机构。通过一篇文章中的多个实体,计算该文章的置信度,通过一个机构发布的多篇文章,来计算该机构的置信度。置信度越高,则表示该结构、该文章或该实体对应属性的属性值的准确度越高。本发明置信度计算采用5分制,开源信息置信度计算过程如下:计算属性值置信度:属性值i的置信度公式如下式(1)所示,其中,vci表示属性值i的置信度,vfi表示属性值i出现的次数,n表示属性值i所属的属性共有n类。计算属性置信度:通过所述更正后实体对应的更正后属性的多个属性值的相同次数占总次数的百分比*5来计算更正后实体对应的更正后属性的属性置信度。例如,若某更正后实体的更正后属性a共出现10次,其中8次该更正后属性a的属性值为a1,则可认为该更正后属性a的属性值为a1的置信度为4;若其余2次该更正后属性a的属性值相同,都为a2,则该更正后属性a的属性值为a2的置信度为1;若其余2次该更正后属性a的属性值不同,如一个为a3另一个为a4,则a3和a4的置信度均为0.5。具体的,属性j的置信度公式如下式(2)所示,其中,acj表示属性j的置信度,表示属性j的第i类属性取值出现的次数,表示属性j的第i类属性取值的置信度,n表示属性j的属性取值共有n类。如表1所示为属性值和属性的置信度计算案例,属性的置信度是通过所有属性值的置信度计算得出的。表1属性值和属性的置信度计算案例类型名称出现次数置信度属性名长度103.4属性值50084.0属性值48010.5属性值53010.5计算实体置信度:以所述更正后实体对应的每个更正后属性的出现次数为权重,计算该更正后实体对应的所有更正后属性的加权平均数,作为该更正后实体的置信度。具体的,实体j的置信度公式如下式(3)所示,其中,ecj表示实体j的置信度,表示实体j的第i类属性总共出现的次数,表示实体j的第i类属性的置信度,n表示实体j共有n类属性。如表2所示为实体的置信度计算案例,实体的置信度是通过所有属性的置信度计算得出的。表2实体的置信度计算案例类型名称出现次数置信度实体xx舰204.13属性长度103.4属性宽度44.8属性射程64.9计算信息的置信度:以每个更正后实体的出现次数为权重,计算该信息所有更正后实体的加权平均数,作为该开源信息的置信度。具体的,信息j的置信度公式如下式(4)所示,其中,icj表示信息j的置信度,表示信息j的第i类实体总共出现的次数,表示信息j的第i类实体的置信度,n表示信息j共有n类实体。如表3所示为信息的置信度计算案例,信息的置信度是通过所有实体值的置信度计算得出的。表3信息的置信度计算案例类型名称出现次数置信度信息xx舰发展趋势104.585实体xx舰-1154.5实体xx舰-244.8实体xx舰-315.0计算信息源的置信度:以每个信息的出现次数为权重,计算信息源所有信息的加权平均数,作为信息源的置信度。置信度越高,表示该信息源发布的数据可信度越高。具体的,信息源j的置信度公式如下式(5)所示,其中,scj表示信息源j的置信度,表示信息源j的第i类信息总共出现的次数,表示信息源j的第i类信息的置信度,n表示信息源j共有n类信息。如表4所示为信息源的置信度计算案例,信息源的置信度是通过所有信息的置信度计算得出的。表4信息源的置信度计算案例类型名称出现次数置信度信息源xx媒体104.53信息xx发展趋势84.5信息xx研究现状64.4信息xx技术研究65.7对外提供服务时,可以在信息和信息源的对应位置标注其置信度的数值,供用户参考,从而为国防科技领域用户提供更加准确的信息服务。同时对同一实体同一属性进行超链接标注,用户可通过该超链接快速查看该属性的其他资讯报道,全面掌握资讯内容。当有新的数据资源(开源信息)更新时,通过本发明方法进行实体和对应属性的抽取,与现有实体和对应属性进行比对,调整该开源信息和相关信息源的置信度。基于本发明提供的置信度确定方法,本发明还提供一种国防科技领域开源信息置信度确定系统,如图3所示,所述系统包括:开源信息获取模块301,用于获取国防科技领域的开源信息;命名实体识别及属性抽取模块302,用于采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体及所述命名实体对应的属性信息;所述属性信息包括属性和属性值;实体统一和实体消歧模块303,用于对所述命名实体及所述命名实体对应的属性信息进行实体统一和实体消歧操作,形成更正后实体及所述更正后实体对应的更正后属性信息;置信度计算模块304,用于根据所述更正后实体及所述更正后实体对应的更正后属性信息确定所述开源信息的置信度。其中,所述命名实体识别及属性抽取模块302,具体包括:命名实体识别单元,用于采用基于条件随机场的命名实体识别方法识别出所述开源信息中的所有命名实体;属性抽取单元,用于根据所述命名实体的上下文进行属性抽取,获得所述命名实体对应的属性信息。其中,所述实体统一和实体消歧模块303,具体包括:第一实体特征向量计算单元,用于采用空间向量模型计算名称不同的所述命名实体周边的词构成的实体特征向量;第一实体特征向量比较单元,用于利用余弦相似度比较名称不同的所述命名实体的实体特征向量,将所述实体特征向量相似但名称不同的命名实体归类为同一个更正后命名实体;第一属性特征向量计算单元,用于采用空间向量模型计算所述更正后命名实体对应的名称不同的属性周边的词构成的属性特征向量;第一属性特征向量比较单元,用于利用余弦相似度比较名称不同的所述属性的属性特征向量,将所述属性特征向量相似但名称不同的属性归类为同一个更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息;第二实体特征向量计算单元,用于采用空间向量模型计算名称相同的多个所述命名实体周边的词构成的实体特征向量;第二实体特征向量比较单元,用于利用余弦相似度比较名称相同的多个所述命名实体的实体特征向量,将名称相同但所述实体特征向量不相似的命名实体归类为不同的更正后命名实体;第二属性特征向量计算单元,用于采用空间向量模型计算所述更正后命名实体对应的名称相同的多个属性周边的词构成的属性特征向量;第二属性特征向量比较单元,用于利用余弦相似度比较名称相同的多个所述属性的属性特征向量,将名称相同但所述属性特征向量不相似的属性归类为不同的更正后属性;所述更正后属性及所述更正后属性对应的属性值构成所述更正后属性信息。本发明方法及系统通过命名实体识别和属性抽取技术提取出数据资源中的实体和对应属性;通过实体统一和实体消歧技术对实体和属性做进一步的判别更正,提高实体和属性抽取的准确性;根据同一实体同一属性的不同资讯报道,印证该信息的置信度以及对应信息源的置信度,能够为国防科技领域用户在查询开源信息时提供更加准确的信息服务。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1