一种文本涉密检测方法、装置、计算机设备和存储介质与流程

文档序号:31622476发布日期:2022-09-23 23:41阅读:187来源:国知局
一种文本涉密检测方法、装置、计算机设备和存储介质与流程

1.本技术涉及文本涉密检测技术领域,特别是涉及一种文本涉密检测方法、装置、计算机设备和存储介质。


背景技术:

2.在信息安全领域,对文本内容的涉密检测是一个核心功能。其目的为在文件拦截提取后对文件内容进行检查并判定是否涉密。对文件内容判定是否涉密的方法就成为了整个核心功能中核心的核心,所以就需要不断地优化技术方案,使核心功能更完善,更好的为保密监察任务服务。本发明从原有技术缺陷分析入手,介绍本发明的原理及特点。
3.在传统涉密文件处理的过程中通常都使用关键词判定法。所谓关键词检测法即为将有可能产生问题的关键词作为对比规则,比如“机密”这个词就可以作为对比规则。然后通过规则在待检测文本中进行全扫描探测,即在整个文档内容遍历所有字符查找判断是否有相应的规则字符串出现,如果有匹配则返回匹配成功,否则返回匹配失败。匹配成功则意味着有涉密的可能性,需要对客户进行提醒显示。
4.上述方案提到这种办法的好处是简单易操作,逻辑流程简单。但同时也有比较大的弊端。比如使用关键词判定法会产生一些误报。比如“机密”,当出现一个词为“手机密码”时这时使用关键词判定规则就会显示匹配成功。但是“手机密码”其实和机密并没有任何关系,这样就有可能产生一些误报,导致报错率上升,用户体验下降。


技术实现要素:

5.基于此,针对上述技术问题,提供一种文本涉密检测方法、装置、计算机设备和存储介质。
6.第一方面,一种文本涉密检测方法,所述方法包括:
7.获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;
8.根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;
9.,将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。
10.上述方案中,可选的,所述获取待检测文本的内容,所述待检测文本的内容形成对应的字符串具体为:通过tika等解析工具对文件内容进行抽取,所述待检测文本的内容形成对应的字符串。
11.上述方案中,进一步可选的,所述待检测文本为word文档、excel表格、ppt和/或图片格式的文件。
12.上述方案中,进一步可选的,所述预设词库包括现有词典中的所有词语。
13.第二方面,一种文本涉密检测装置,所述装置包括:
14.采集模块:用于获取待检测文本的内容,所述待检测文本的内容形成对应的字符
串;
15.分词模块:用于根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;
16.匹配模块:用于,将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。
17.第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
18.获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;
19.根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;
20.,将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。
21.第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
22.获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;
23.根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。
24.本发明至少具有以下有益效果:
25.本发明基于对现有技术问题的进一步分析和研究,认识到现有的传统涉密文件处理的过程中通常都使用关键词判定法,容易产生一些误报。本发明通过预先对文本内容进行分词操作,通过获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;,将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。本发明简单高效的通过分词技术大大减少了容易产生误报问题的可能性。
附图说明
26.图1为本发明一个实施例提供的一种文本涉密检测方法的流程示意图;
27.图2为本发明一个实施例中文本涉密检测方法的具体流程示意图;
28.图3为一个实施例中计算机设备的内部结构图。
具体实施方式
29.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
30.本技术提供的文本涉密检测方法,在一个实施例中,如图1所示,提供了一种文本涉密检测方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
31.获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;
32.根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;
33.,将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。
34.其中,所述获取待检测文本的内容,所述待检测文本的内容形成对应的字符串具体为:通过tika等解析工具对文件内容进行抽取,所述待检测文本的内容形成对应的字符串。
35.其中,所述待检测文本的内容可以为word文档、excel表格、ppt或者图片格式的文件。其中,所述预设词库包括现有词典中的所有词语。
36.例如,当对这些文件抽取成纯文本内容后即形成了一个可比较的字符串。此时为了满足“手机密码”匹配了“机密”等错误,我们需要做一个语义分词的任务。所谓的分词就是根据一些常用词库等一些通过语义分词出的规则对字符串进行满足语义的词组切分操作。
37.如果有特殊的词我们可以调整分词规则来进行适配。一般情况下分词的结果一定是满足一定语义的,比如“手机密码”只有两种可能的分词情况,一种是将“手机密码”作为一个完整的词,另一种是对“手机”和“密码”进行两个单独的分词。无论是哪种方案都不会出现“手机密码”可以匹配“机密”的这种情况出现。这样我们通过分词和其他的逻辑结合及可以比较精准的对文档的关键词进行匹配。
38.上述文本涉密检测方法中,通过获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;,将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。本发明简单高效的通过分词技术大大减少了容易产生误报问题的可能性。提供了一种新的对文本内容进行涉密监测的技术手段。提高了检出率同时也提高了性能。
39.应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
40.在一个实施例中,提供了一种文本涉密检测装置,包括以下程序模块:采集模块:用于获取待检测文本的内容,所述待检测文本的内容形成对应的字符串;
41.分词模块:用于根据预设词库通过语义分词对所述字符串进行满足语义的词组切分,形成由切分后的词组组成的文本内容;
42.匹配模块:用于,将所述由切分后的词组组成的文本内容与所述关键词进行匹配,若匹配成功,判定待检测文本涉密,输出提示信息。
43.关于文本涉密检测装置的具体限定可以参见上文中对于文本涉密检测方法的限定,在此不再赘述。上述文本涉密检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以
以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
44.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本涉密检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
45.本领域技术人员可以理解,图3中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
46.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,涉及上述实施例方法中的全部或部分流程。
47.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,涉及上述实施例方法中的全部或部分流程。
48.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
49.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
50.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1