一种确定涉密文本的方法和装置与流程

文档序号:23470398发布日期:2020-12-29 13:12阅读:290来源:国知局
一种确定涉密文本的方法和装置与流程

本公开涉及自然语言处理技术领域,尤其涉及一种确定涉密文本的方法和装置。



背景技术:

文件是否涉密以及该文件的密级是由文件所包含的具体涉密内容决定的,文件中具体的涉密内容称为密点。相关技术中,对涉密文本的确定多由人工完成。人工定密主观性较强,所依据的定密标准不够统一,不同领域,不同的单位定密标准往往差别很大,导致定密结果不准确。



技术实现要素:

为克服相关技术中存在的问题,本公开提供一种确定涉密文本方法和装置。

根据本公开实施例的第一方面,提供一种确定涉密文本的方法,包括:

从文本中获取包含涉密关键词及其上下文信息的子文本;

根据所述子文本,确定所述涉密关键词之间的依存关系;

将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,若匹配成功,则确定所述文本为涉密文本。

在一种可能的实现方式中,所述涉密关键词被设置为按照如下方式确定,包括:

获取文本中的词语;

将所述词语与预设的涉密关键词库中涉密关键词进行匹配;

若匹配成功,则将所述词语确定为涉密关键词。

在一种可能的实现方式中,在所述将所述词语与预设的涉密关键词库中涉密关键词进行匹配之后,还包括:

若匹配不成功,则将所述词语输入至预设的同义词语转换模型,经所述同义词语转换模型,输出所述词语的同义词;

将所述同义词与所述涉密关键词进行匹配。

在一种可能的实现方式中,所述同义词语转换模型包括下述中的至少一种:

音变模型、形变模型、错别字模型和繁体字模型。

在一种可能的实现方式中,从文本中获取涉密关键词及其上下文信息所在的子文本,包括:

确定所述文本中的涉密关键词;

将所述涉密关键词所在位置上下相邻两预设截止符之间的文本确定为所述子文本。

在一种可能的实现方式中,根据所述子文本,确定所述涉密关键词之间的依存关系,包括:

将所述子文本输入至依存句法分析模型,经所述依存句法分析模型,输出所述子文本中的两实体词之间的依存关系。

在一种可能的实现方式中,所述将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,其中,匹配成功的条件被设置为按照下述方式中的至少一种:

所述子文本中的涉密关键词与所述涉密信息规则库中的涉密关键词为相同的词或词义相同的词并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同,

所述子文本中的涉密关键词属于所述涉密信息规则库中的涉密关键词类别范围并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同。

在一种可能的实现方式中,在所述从文本中获取包含涉密关键词及其上下文信息的子文本之前还包括:

在文本的文件格式为非标准格式的情况下,将所述文本的文件格式转换成预设的标准格式。

在一种可能的实现方式中,所述依存关系包括下述中的至少一种:

主谓关系、核心关系、定中关系、数量关系、副词关系及同位语关系。

在一种可能的实现方式中,所述涉密信息规则库包括多个技术领域的涉密信息规则库,在所述将所述关联依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息设置规则库中的涉密关键词的关联依存关系进行匹配之前,还包括:

根据所述子文本的技术领域,确定与所述技术领域相匹配的涉密信息规则库。

在一种可能的实现方式中,所述涉密信息规则库被设置为按照下述方式生成:

将同一技术领域的多个预设的涉密文本进行数据合并;

从合并后的数据中提取所述涉密文本中的涉密关键词;

分析并存储所述涉密关键词之间的依存关系。

根据本公开实施例的第二方面,提供一种确定涉密文本的装置,包括:

获取模块,用于从文本中获取包含涉密关键词及其上下文信息的子文本;

第一确定模块,用于根据所述子文本,确定所述涉密关键词之间的依存关系;

第二确定模块,根据所述子文本,确定所述涉密关键词之间的依存关系;

将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,若匹配成功,则确定所述文本为涉密文本。

在一种可能的实现方式中,包括:所述涉密关键词被设置为按照如下方式确定,包括:

获取文本中的词语;

将所述词语与预设的涉密关键词库中涉密关键词进行匹配;

若匹配成功,则将所述词语确定为涉密关键词。

在一种可能的实现方式中,在所述将所述词语与预设的涉密关键词库中涉密关键词进行匹配之后,还包括:

若匹配不成功,则将所述词语输入至预设的同义词语转换模型,经所述同义词语转换模型,输出所述词语的同义词;

将所述同义词与所述涉密关键词进行匹配。

在一种可能的实现方式中,所述同义词语转换模型包括下述中的至少一种:

音变模型、形变模型、错别字模型和繁体字模型。

在一种可能的实现方式中,所述获取模块包括:

第一确定子模块,确定所述文本中的涉密关键词;

第二确定子模块,将所述涉密关键词所在位置上下相邻两预设截止符之间的文本确定为所述子文本。

在一种可能的实现方式中,所述第一确定模块包括:

第三确定子模块,用于将所述子文本输入至依存句法分析模型,经所述依存句法分析模型,输出所述子文本中的两实体词之间的依存关系。

在一种可能的实现方式中,所述将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,其中,匹配成功的条件被设置为按照下述方式中的至少一种:

所述子文本中的涉密关键词与所述涉密信息规则库中的涉密关键词为相同的词或词义相同的词并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同,

所述子文本中的涉密关键词属于所述涉密信息规则库中的涉密关键词类别范围并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同。

在一种可能的实现方式中,所述装置还包括:

转换模块,用于在文本的文件格式为非标准格式的情况下,将所述文本的文件格式转换成预设的标准格式。

在一种可能的实现方式中,所述依存关系包括下述中的至少一种:

主谓关系、核心关系、定中关系、数量关系、副词关系及同位语关系。

在一种可能的实现方式中,所述装置还包括:

匹配模块,根据所述子文本的技术领域,确定与所述技术领域相匹配的涉密信息规则库。

在一种可能的实现方式中,所述涉密信息规则库被设置为按照下述方式生成:

将同一技术领域的多个预设的涉密文本进行数据合并;

从合并后的数据中提取所述涉密文本中的涉密关键词;

分析并存储所述涉密关键词之间的依存关系。

根据本公开第三方面提供了一种确定涉密文本的装置,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:执行根据本公开任一实施例所述的方法。

根据本公开第四方便提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行根据本公开任一实施例所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果:本公开通过获取文本中的涉密关键词及上下文信息,将涉密关键词之间的依存关系与预设涉密信息规则库中的涉密关键词之间的依存关系进行匹配,相较于传统的人工定密或关键词定密,能够从涉密关键词的上下文语义上确定文本的涉密内容,因而,涉密文本的确定方法更为准确和快速。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种确定涉密文本的方法的流程图。

图2是根据一示例性实施例示出的一种确定涉密文本的装置的框图。

图3是根据一示例性实施例示出的一种确定涉密文本的方法的流程图。

图4是根据一示例性实施例示出的一种确定涉密关键词的方法的流程图。

图5是根据一示例性实施例示出的一种涉密信息规则库的构建方法。

图6是根据一示例性实施例示出的一种确定涉密文本的装置的框图。

图7是根据一示例性实施例示出的一种确定涉密文本的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了方便本领域技术人员理解本公开实施例提供的技术方案,下面先对技术方案实现的技术环境进行说明。

涉密文本中涉密内容的表现形式具有多样性,包括以单独的名称或概念形式存在,比如:某某设备的型号、某某设备的功能指标;还包括以上下文语义形式存在的句子或短文本,比如:项目背景:某某设备型号的飞控软件可实现的飞行速度是akm/h。相关技术中,若通过涉密关键词来确定涉密文本的话,将会漏掉以上下文语义形式存在的句子,并且,有些涉密关键词在一些领域属于涉密范围,在另一些领域则可能不涉密,因此,单纯依靠涉密关键词去确定文本是否为涉密文本的方法并不可靠。

基于类似于上文所述的实际技术需求,本公开提供了一种确定涉密文本的方法。

图3是根据一示例性实施例示出的一种确定涉密文本的方法的流程图。参考图3所示,对待确定的文本的涉密性进行判断,首先进行文本提取301,所述文本提取301包括判断文本文件格式是否属于预设的标准文件格式,如果不属于标准文件格式,需要将其转换为标准的文件格式,所述文件格式可以包括word、ppt、excel、pdf、txt等。第二,对提取后的文本确定涉密关键词302,包括:对文本进行分词及词性标注处理;将分词后的词语在涉密关键词库中进行过滤,当所述涉密关键词库中含有与所述词语完全相同的词,或所述词语的变音词,或所述词语的变形词时,所述文本均被认定为含有所述涉密关键词。第三,对子文本的表示303,包括提取涉密关键词所在的语句,以确定子文本,对所述子文本采用句法树表示或词袋模型表示。最后,根据所述子文本,确定所述涉密关键词之间的依存关系,将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,若匹配成功,则确定所述文本为涉密文本。

图4是根据一示例性实施例示出的一种确定涉密关键词的方法的流程图。参考图4所示,将标准文件格式的文本406输入涉密关键词过滤器407,与涉密关键词库401中存储的涉密关键词进行匹配。其中所述涉密关键词库中的涉密关键词经规格化402后,采用字典树进行存储403。如果没有匹配成功,则进入音变形变过滤器409,可以通过汉子拼音库/词型字库404,对没有匹配成功的词语进行智能字音转换和词型转换。并将转换后的词语再次在涉密关键词库进行匹配,若匹配成功,则所述词语确定为涉密关键词,若匹配失败,则所述词语确定为非涉密关键词,输出上述涉密关键词的命中结果410。

下面结合附图1对本公开所述的确定涉密文本的方法进行详细的说明。图1是根据一示例性实施例示出的一种确定涉密文本的方法流程图。虽然本公开提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本公开实施例提供的执行顺序。

具体的,本公开提供的一种确定涉密文本的方法一种实施例如图1所示,所述方法可以应用于终端或服务器包括:

步骤s101,从文本中获取包含涉密关键词及其上下文信息的子文本。

本公开实施例中,所述涉密关键词包括含有秘密信息的词语,可以包括名词、动词、形容词等。在一个示例中,考虑到电子文本中单个名词或单个动词不涉密,但是名词和数字的组合“名词+数字”或“动词+数字”常常为涉密内容,例如:“该飞行控制软件的飞行速度变快”不涉密,而“该飞行控制软件的飞行速度达到50km/h”则为涉密内容。因此,本公开实施例中,所述涉密关键词可以包括数字。

本公开实施例中,所述子文本的长度不做限制,可以以所述涉密关键词为基准,在所述涉密关键词之前出现的预设长度的句子以及之后出现的预设长度的句子作为所述子文本。在一个示例中,若所述关键词包括文本首个词,则将所述关键词及之后出现的预设长度的句子作为所述子文本,在另一个示例中,若所述关键词包括文本最后一个词,则将所述关键词及之前出现的预设长度的句子作为所述子文本。在一个示例中,可以根据文本的标点符号的标注情况,在两预设标点符号之间的文字作为所述子文本。

步骤s102,根据所述子文本,确定所述涉密关键词之间的依存关系。

本公开实施例中,可以通过关系抽取的方法确定所述涉密关键词之间的依存关系。在一个示例中,所述关系抽取的方法可以包括:基于模式匹配的关系抽取、基于词典的关系抽取以及基于机器学习的关系抽取。所述基于模式匹配的关系抽取包括在执行抽取任务前,构造若干基于词语的词性或语义的模式集合,当进行关系抽取时,将涉密关键词所在的语句片段与模式集合中的模式进行匹配,若匹配成功,则所述语句片段具有对应模式的关系属性;所述基于词典的关系抽取包括:对于词典中的实体词,设置对应的词典入口,作为词典入口的词可以包括动词,如所述子文本中涉密关键词包含所述动词关系,则所述涉密关键词之间的依存关系被抽取;所述基于机器学习的关系抽取包括通过具体的学习算法,在预先标注好的语料的基础上构造分类器,然后将所述分类器应用在语料关系的类别判断中。

本公开实施例中,所述依存关系可以包括实例关系,表示一个事物是另一个事物的实例,例如“是一只”,当当是一只猫;分类关系,表示一个事物是另一个事物的种类,例如“是一种”,足球是一种球;成员关系,表示一个事物是另一个事物的成员,例如“个人与集体”,小红是消防一队的一名消防员;属性关系,表示一个节点具有另一个节点所表示的属性,例如猴子会爬树;聚合关系,表示部分与整体的关系,例如,胳膊是身体的一部分,位置关系,表示事物的方位关系,例如鼠标在桌子上;相近关系,表示事物在形状、内容等方面相似,例如狮子和老虎在森林中都有霸主的地位。需要说明的是,所述依存关系不限于上述举例,所属领域技术人员在本申请技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本申请相同或相似,均应涵盖于本申请保护范围内。

步骤s103,将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,若匹配成功,则确定所述文本为涉密文本。

本公开实施例中,所述将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,包括将子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系进行匹配以及子文本中的涉密关键词与涉密信息规则库中的涉密关键之间的匹配。

本公开实施例中,所述涉密信息规则库中涉密关键词之间的依存关系可以通过预先确定的涉密文本构建。将所述涉密文本的涉密关键词进行存储,并将不同文本中涉密关键词之间的依存关系采用统一的规则进行存储。在一个示例中,可以将所述涉密关键词及所述依存关系通过知识图谱的形式进行存储。将获取到的所述依存关系与预先存储的依存关系进行匹配,若匹配成功,则将所述文本确定为涉密文本。

本公开通过获取文本中的涉密关键词及上下文信息,将涉密关键词之间的依存关系与预设涉密信息规则库中的涉密关键词之间的依存关系进行匹配,相较于传统的人工定密或关键词定密,能够从涉密关键词的上下文语义上确定文本的涉密内容,因而,涉密文本的确定方法更为准确和快速。

在一种可能的实现方式中,所述涉密关键词被设置为按照如下方式确定,包括:

步骤s201,获取文本中的词语;

步骤s202,将所述词语与预设的涉密关键词库中涉密关键词进行匹配;

步骤s203,若匹配成功,则将所述词语确定为涉密关键词。

本公开实施例中,所述涉密关键词库是从已经确定好的涉密文本中提取涉密关键词生成。所述涉密关键词库中的涉密关键词可以包括中文、英文、繁体字、简体字、字母和数字等,还可以包括以上多种形式的混合形式,例如,中文本+字母等。在一个示例中,所述涉密关键词库中的涉密关键词可以通过字典树(trie树)的形式进行存储,包含了同音词和同形词,采用字典树的形式进行存储的优点在于利用字符串的公共前缀来减少查询时间,能够最大限度的减少无价值的字符串的比较,查询效率高。

本公开实施例中,可以对文本进行分词处理,以获取文本中的词语。在一个示例中,可以对所述词语进行词性的标注,从而在所述词语与涉密关键词进行匹配时,更加的准确。在一个示例中,所述词语与涉密关键词完全相同,被确定为两者匹配成功;在另一个示例中,若所述词语的变音词,或变形词与所述涉密关键词相同,也可以被确定为两者匹配成功。

本公开实施例中可以将文本中的词语采用词袋模型(bow,bagofwords),进行存储,bow假定对于一个文本,忽略其词序和语法、句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个密点关键词的出现都是独立的,不依赖于其他密点关键词是否出现。其表示形式如下:

即对于文档doci的wi,如果词库中第j个标记序列出现在wi中,那么该文档此处的向量分量vij就为它的词频否则为0。

如某密点短文本的词袋模型示例如下:

(0,0,0,0,……,1,……,0,0,0,0)

词袋模型中的0表示在密点关键词库中该密点关键词在密点短文本中未出现,若为1或者大于1,则表示密点关键词库中的该密点关键词在密点短文本中出现,数字即为其在密点短文本中出现的次数。

本公开实施例中,通过词袋模型统计词语在文本中出现的次数,进而设置涉密关键词的权重,将在不涉密文本中经常出现的关键词的权值降低,从而提高涉密关键词的准确性。

本公开实施例中,所述涉密关键词库中的词语,用户可以根据需要添加自己专业领域的密点关键词库,用户只需要自定义密点关键词类别与权重,可实时增量添加百万量级词库。操作步骤如下:

a.工具的词库可脱机进行编辑、添加、删除等操作;

b.工具支持导入大批量用户业务特定的密点关键词列表。每行设置一个密点关键词信息,具体格式如下:词、类别、权重。

在一种可能的实现方式中,在所述步骤s202,将所述词语与预设的涉密关键词库中涉密关键词进行匹配,之后还包括:

步骤s211,若匹配不成功,则将所述词语输入至预设的同义词语转换模型,经所述同义词语转换模型,输出所述词语的同义词;

步骤s212,将所述同义词与所述涉密关键词进行匹配。

本公开实施例中,若文本中的词语与涉密关键词库中的涉密关键词不完全相同的时候,则将所述词语输入至预设的同义词语转换模型。本公开实施例中,所述同义词语转换模型是通过将预先标记好的多个同义词作为训练样本进行训练形成的,所述统一词语转换模型通过输入词语后,可以输出与所述词语词义相同的词语。

本公开实施例中,与所述词语词义相同可以具有相同的形式或不同的形式,在一个示例中,相同的形式包括,例如“查询”和“查找”;在一个示例中,不同的形式包括不同种类的文字,例如中文“查找”和英文“lookfor”,在另一个示例中,不同的形式包括音变的文字,例如“航天”的同义词“hangtian”以及“ht”,在另一个示例中,不同的形式还包括形变的文字,例如,“航天”的同义词“舟亢天”,在另一个示例中,不同的形式还包括错别字,例如,“保持干净”的同义词“保持干静”,在另一个示例中,所述不同的形式还包括网络用语,例如,“给力”“猴赛雷”等。

本公开实施例,将没有匹配成功的词语输入同义词转换模型,转换成所述词语的同义词,将所述同义词与涉密关键词再进行匹配,可以进一步的发现所述词语是否具有涉密性,防止漏掉一些在语义上具有涉密性而未存储在涉密关键词库中的词语,保证了匹配结果的准确性。

在一种可能的实现方式中,所述同义词语转换模型包括下述中的至少一种:

音变模型、形变模型、错别字模型和繁体字模型。

本公开实施例中,音变词语表示与词语的词义相同,但形式为所述词语的拼音表达或缩写字母表达,通过将预先标记好的音变词语作为训练样本进行训练,形成对应的音变模型。形变词语表示与词语词义相同,但书写形式与所述词语发生不同,例如“森木木”为“森林”的形变词语,通过将预先标记好的形变词语作为训练样本进行训练,形成对应的形变模型。错别字模型表示与词语的词义相同,但形式为所述词语的别字形式或错字形式,所述别字形式例如“分辨”和“分辩”在不同语境中使用发生混淆,通过将预先标记好的别字词语作为训练样本进行训练,形成对应的别字模型,所述繁体字模型表示与所述词语的词义相同,但形式为所述词语的繁体行驶,例如“中国”的繁体字表示为“中國”。

在一种可能的实现方式中,所述步骤s101,从文本中获取包含涉密关键词及其上下文信息的子文本。包括:

步骤s501,确定所述文本中的涉密关键词;

步骤s502,将所述涉密关键词所在位置上下相邻两预设截止符之间的文本确定为所述子文本。

本公开实施例中,所述预设截止符可以包括标点符号,如句号、逗号、分号、感叹号、省略号等。在一个示例中,句号常常表示一句话的结束,一段语义的结束,因此,可以将涉密关键词所在位置上下相邻两句号之间的文本确定为所述子文本。在另一个示例中,所述预设截止符还可以包括计算机字符,如“换行符”“回车符”,可以将涉密关键词所在位置上下相邻两回车符之间的文本确定为所述子文本。在另一个示例中,可以使用不同的截止符,例如,将所述涉密关键词所在位置到上一个句号之间的文本以及所述涉密关键词所在位置到下一个省略号之间的文本作为所述子文本。

在一种可能的实现方式中,所述步骤s102,根据所述子文本,确定所述涉密关键词之间的依存关系。包括:

步骤s601,将所述子文本输入至依存句法分析模型,经所述依存句法分析模型,输出所述子文本中的两实体词之间的依存关系。

本公开实施例中,依存句法分析包括根据给定的句法结构自动的推导出句子的句法结构,分析句子包含的实体词,以及实体词之间的依存关系。依存句法中实体词与实体词之间依存关系,构成一个依存对,其中一个是核心词,也叫支配词,另一个叫修饰词,也叫从属词。依存关系用一个有向弧表示,叫做依存弧,弧线的起点是支配词(核心词),弧线的终点是被支配词。在一个示例中,可以采用概率上下文无关文法(pcfg)与依存文法相结合的方式生成句法树。

本公开实施例中,所述依存关系可以包括:主谓关系(sbv),例如:我送她一束花,“我”是主语,“送”是谓语;核心关系(hed),指整个句子的核心;动宾关系(vob),例如:我送她一束花,“送”是动词,“花”是直接宾语;前置宾语(fob),例如:他什么书都读,宾语“书”在动词“读”之前;定中关系(att),例如:红苹果;所述依存关系还可以包括副词关系及同位语关系等。

本公开利用依存句法模型子文本中的实体词之间的依存关系进行提取,能够消除不同的语法或词组结构之间的歧义。

在一种可能的实现方式中,所述步骤s103,将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,其中,匹配成功的条件被设置为按照下述方式中的至少一种:

所述子文本中的涉密关键词与所述涉密信息规则库中的涉密关键词为相同的词或词义相同的词并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同,

所述子文本中的涉密关键词属于所述涉密信息规则库中的涉密关键词类别范围,并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同。

本公开实施例中,所述将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,包括将子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系进行匹配以及子文本中的涉密关键词与涉密信息规则库中的涉密关键之间的匹配。所述词义相同的词与上述实施例中的同义词的解释相同,在这里不再赘述。本公开实施例中,在进行关键词匹配的过程中,还包括:所述子文本中的涉密关键词属于所述涉密信息规则库中的涉密关键词类别范围。在一个示例中,例如所述涉密信息规则库中存储的涉密关键词之间的规则关系包括:经销商-卖-水果,那么,若子文本中出现:昨天下午,楼下杂货铺卖的苹果是8块钱1斤,由于,杂货铺属于经销商的类别范围内,苹果也属于水果的类别范围内,因此,所述子文本被确定为涉密文本。

在一种可能的实现方式中,在所述步骤s101,从文本中获取包含涉密关键词及其上下文信息的子文本之前。还包括:

步骤s801,在文本的文件格式为非标准格式的情况下,将所述文本的文件格式转换成预设的标准格式。

本公开实施例中,待确定的文本可以有多种文件格式,例如,所述文件格式可以包括word、ppt、excel、pdf、txt,jpg等,由于不同的文件格式具有不同的文件构建规范,对文本内容的提取方法也会有不同,因此,需要对不同的文件格式转换成统一的标准格式,有利于消除后续涉密关键词进行匹配的时候产生的歧义。在一个示例中,可以通过表1公开的转换方法,将所述文本的文件格式转换成预设的标准格式。

表1

在一种可能的实现方式中,所述依存关系包括下述中的至少一种:

主谓关系、核心关系、定中关系、数量关系、副词关系及同位语关系。

在一种可能的实现方式中,所述涉密信息规则库包括多个技术领域的涉密信息规则库,步骤s103将所述关联依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息设置规则库中的涉密关键词的关联依存关系进行匹配之前,还包括:

步骤s111,根据所述子文本的技术领域,确定与所述技术领域相匹配的涉密信息规则库。

本公开实施例中,所述技术领域可以包括航空、航天、船舶、交通、通信等技术领域,由于一些词语在一些领域属于涉密关键词,在另一些领域不属于涉密关键词,例如,“导航”在交通领域不属于涉密关键词,在航空领域或船舶领域则可能成为关键词,因此,本公开实施例针对不同的领域设置不同的涉密信息规则库。

在一种可能的实现方式中,所述涉密信息规则库被设置为按照下述方式生成:

步骤s113,将同一技术领域的多个预设的涉密文本进行数据合并;

步骤s114,从合并后的数据中提取所述涉密文本中的涉密关键词;

步骤s115,分析并存储所述涉密关键词之间的依存关系。

本公开实施例中,所述涉密信息规则库可以以数据表、知识图谱的形式进行存储。本公开实施例中所述预设的涉密文本包括预先确定为涉密文本的数据,将多个预设的涉密文本进行数据合并,可以从这些数据中,进行词语的提取,标注词语的领域、标注词语的权重的标注等工作,分析并存储词语之间的依存关系。在一个示例中,可以对词语的组合关系进行多种方式的组合,例如可以采用关联规则,挖掘不同词语之间的关联关系。将所述关联关系利用句法规则,将不同的涉密文本合并为统一的涉密信息规则库,然后,结合挖掘到的涉密文本中词语与领域,确定领域主题与各涉密关键词间的依存关系,并进行标准化存储。本公开实施例中,所述涉密信息规则库可以进行涉密关键词的扩展,依存关系的扩展。

图5是根据一示例性实施例示出的一种涉密信息规则库的构建方法。参考图5所示,将多个已确定的涉密文本进行合并,用于概念发现501,包括按领域分词、实体抽取和新概念的发现,实体抽取是在分词的基础上进行实体提取,提取实体词,新概念的发现包括自动构建新的概念,及时处理涉密关键词的更新,完成涉密关键词的扩展。第二,进行涉密关键词的提取502,可以采用信息增益的方法,挖掘出权重相异的涉密关键词,并结合主题抽取模型,形成“关键词+主题词”相互结合的涉密关键词规则。第三,涉密信息规则的构建,可以通过关联规则挖掘算法或人工神经网络模型挖掘涉密关键词的关联规则,挖掘出相似的规则采用统一的语义匹配规则进行存储。最后构建知识图谱504,可以利用挖掘到的涉密关键词的关联规则构建涉密关键词之间的三元组关系,构建同一技术领域的知识图谱。

图2是根据一示例性实施例示出的一种确定涉密文本的装置框图。参照图2,该装置包括获取模块201、第一确定模块202和第二确定模块203。

获取模块201,用于从文本中获取包含涉密关键词及其上下文信息所在的子文本;

第一确定模块202,用于根据所述子文本,确定所述涉密关键词之间的依存关系;

第二确定模块203,用于将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,若匹配成功,则确定所述文本为涉密文本。

在一种可能的实现方式中,包括:所述涉密关键词被设置为按照如下方式确定,包括:

获取文本中的词语;

将所述词语与预设的涉密关键词库中涉密关键词进行匹配;

若匹配成功,则将所述词语确定为涉密关键词。

在一种可能的实现方式中,在所述将所述词语与预设的涉密关键词库中涉密关键词进行匹配之后,还包括:

若匹配不成功,则将所述词语输入至预设的同义词语转换模型,经所述同义词语转换模型,输出所述词语的同义词;

将所述同义词与所述涉密关键词进行匹配。

在一种可能的实现方式中,所述同义词语转换模型包括下述中的至少一种:

音变模型、形变模型和错别字模型。

在一种可能的实现方式中,所述获取模块包括:

第一确定子模块,确定所述文本中的涉密关键词;

第二确定子模块,将所述涉密关键词所在位置上下相邻两预设截止符之间的文本确定为所述子文本。

在一种可能的实现方式中,所述第一确定模块包括:

第三确定子模块,用于将所述子文本输入至依存句法分析模型,经所述依存句法分析模型,输出所述子文本中的两实体词之间的依存关系。

在一种可能的实现方式中,所述将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,其中,匹配成功的条件被设置为按照下述方式中的至少一种:

所述子文本中的涉密关键词与所述涉密信息规则库中的涉密关键词为相同的词或词义相同的词并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同,

所述子文本中的涉密关键词属于所述涉密信息规则库中的涉密关键词类别范围,并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同。

在一种可能的实现方式中,所述装置还包括:

转换模块,用于在文本的文件格式为非标准格式的情况下,将所述文本的文件格式转换成预设的标准格式。

在一种可能的实现方式中,所述依存关系包括下述中的至少一种:

主谓关系、核心关系、定中关系、数量关系、副词关系及同位语关系。

在一种可能的实现方式中,所述装置还包括:

匹配模块,根据所述子文本的技术领域,确定与所述技术领域相匹配的涉密信息规则库。

在一种可能的实现方式中,所述涉密信息规则库被设置为按照下述方式生成:

将同一技术领域的多个预设的涉密文本进行数据合并;

从合并后的数据中提取所述涉密文本中的涉密关键词;

分析并存储所述涉密关键词之间的依存关系。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种确定涉密文本的装置600的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(i/o)的接口612,传感器组件614,以及通信组件616。

处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他可以为装置600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(mic),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。

i/o接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到装置600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位的加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件616还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,装置600可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

图7是根据一示例性实施例示出的一种确定涉密文本的装置700的框图。例如,装置700可以被提供为一服务器。参照图7,装置700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理组件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行上述方法。

装置700还可以包括一个电源组件726被配置为执行装置700的电源管理,一个有线或无线网络接口750被配置为将装置700连接到网络,和一个输入输出(i/o)接口758。装置700可以操作基于存储在存储器732的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器732,上述指令可由装置700的处理组件722执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践本公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1