一种文本内容的处理方法、计算机设备及存储介质与流程

文档序号:23222125发布日期:2020-12-08 15:04阅读:86来源:国知局
一种文本内容的处理方法、计算机设备及存储介质与流程

本发明涉及信息处理技术领域,特别涉及一种文本内容的处理方法、计算机设备及存储介质。



背景技术:

目前,在电子文件中经常出现敏感词,这些敏感词一般分为强敏感词和弱,敏感词,强敏感词是必须检查出来的敏感词,在电子文件中避免出现的,而但是弱敏感词是尽量检查出来的敏感词,这些敏感词虽然较为敏感,只要不在很大范围内广泛传播,影响也有限;现有技术中对于强敏感词的监测很严格,但是对于弱敏感词,由于分词词典的固定和敏感词所在语境的影响,对弱敏感词进行准确的分词和监测,进而影响对电子文件的应用。



技术实现要素:

为了解决现有技术的问题,能够根据电子文件中的文件大小,对电子文件中的字符串进行不同的分词处理方法,对分词后形成的目标字符串集合采取对应的方法确定弱敏感词,避免因弱敏感词的遗漏影响到电子文件的应用,提高了弱敏感词的查询速率;本发明实施例提供了一种文本内容的处理方法、计算机设备及存储介质。所述技术方案如下:

一方面,一种文本内容的处理方法,所述方法包括步骤:

获取目标文本的大小参数;

根据所述目标文本的大小参数,对所述目标文件进行分词处理得到目标字符串集合,所述目标字符串集合包括多个目标字符串;

当确定所述目标字符串存在预设字符时,发出提示信息。

另一方面,一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的处理方法。

另一方面,一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的处理方法。

本发明提供的一种文本内容的处理方法、计算机设备及存储介质,具有如下技术效果:

基于本发明的以上技术方案,根据电子文件中的文件大小,对电子文件中的字符串采用不同的分词处理方法,得到不同的目标字符串集合,并且对于不同的字符串集合采取不同的方法确定弱敏感词;可见,本发明的技术方案基于文本的文件大小,选择适合的分词处理方法,在基于分词方式生成的目标字符串集合确定弱敏感词,避免出现因分词方法和语境,影响到对弱敏感词的分词准确性,进而避免因敏感词影响到电子文件的应用,提高敏感词的查询速率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文本内容的处理方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供的文本内容的处理方法可以应用于任意具有数据处理能力的计算机设备,该计算机设备可以是终端或服务器,计算机设备在执行本发明实施例提供的视频库的索引表建立方法时,可以是独立执行,也可以通过集群协作的方式执行。

本实施例提供一种文本内容的处理方法,图1是本实施例提供的一种文本内容的处理方法的流程图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,所述方法可以包括步骤:

s101、获取目标文本的大小参数;

具体地,所述目标文本的大小参数代表目标文本的数据量,其中,所述数据量单位可以是字节(b,byte)、千字节(kb)、兆字节(mb)、千兆字节(gb)等。

在本实施例中,所述目标文本是指应用于打印设备的文件,例如,稿件、论文、宣传单等,在本实施例中不做限定。

s103、根据所述目标文本的大小参数,对所述目标文件进行分词处理得到目标字符串集合,所述目标字符串集合包括多个目标字符串;

具体地,所述目标字符串集合是指多个所述目标字符串按照预设顺序进行排列,生成的字符串,其中,所述目标字符串包括第一目标字符串和第二目标字符串,对于同一个目标文本生成的目标字符串,只能是上述两者中一个。

进一步地,所述预设顺序的规则为按照目标字符串长度的由大至小的规则对目标字符串进行排列,能够有利于对目标字符串与敏感词库中敏感词进行对比,提升敏感词的查询速率。

在本实施例中,所述方法还包括如下方法得到目标字符串集合:

对所述目标文本进行字符转换,生成候选字符串集合;

判断所述目标文本的大小参数是否小于预设参数阈值;

当所述目标文本的大小参数小于所述预设参数阈值,对所述候选字符串集合进行分词处理得到第一目标字符串集合;

当所述目标文本的大小参数不小于所述预设参数阈值,对所述候选字符串集合进行分词处理得到第二目标字符串集合。

具体地,所述候选字符串集合包括多个候选字符串,所述候选字符串是指需要进行分词的中文字符串,所述候选字符串是字符串中没有标点分割的连续的字符串,例如,对字符串“甲方未按时办理房屋所有权初始登记或未协助乙方办理房屋所有权转移登记,给乙方造成损失的,甲方应承担责任”进行分词时,字符串中间有标点分割,是不连续的,不能将该字符串作为候选字符串;根据标点的位置,将此字符串分为“甲方未按时办理房屋所有权初始登记或未协助乙方办理房屋所有权转移登记”、“给乙方造成损失的”、“甲方应承担责任”三个子字符串,将每个子字符串作为一个候选字符串,然后对每个候选字符串按照顺序进行排序,形成候选字符串集合。

具体地,所述方法还包括如下方法确定所述第一目标字符串,包括:

将所述候选字符串集合中任一候选字符串与第一停用词库进行匹配;

根据所述候选字符串的匹配度,确定第一停用词;

从所述候选字符串中过滤掉所述第一停用词,生成所述第一目标字符串。

进一步地,多个所述第一目标字符串形成第一目标字符串集合u,其中,u=(u1,u2,……,um),m≥1。

进一步地,所述第一停用词包括预定义词和标点符号;其中,所述预定义词至少包括连词、助词和c语言中int等,例如“和”、“或”、“的”等等。

为了更好的理解,上述方法中从所述候选字符串中过滤掉所述第一停用词,生成所述第一目标字符串,例如,所述候选字符串为“甲方未按时办理房屋所有权初始登记或未协助乙方办理房屋所有权转移登记”,所述第一停用词为“或”,过滤掉“或”后,生成两个第一目标字符串分别为“甲方未按时办理房屋所有权初始登记”和“未协助乙方办理房屋所有权转移登记”。

具体地,所述方法还包括如下确定所述第二目标字符串:

将所述第一目标字符串集合中任一第一目标字符串与第二停用词库进行匹配;

根据所述第一目标字符串的匹配度,确定第二停用词;

从所述第一目标字符串中过滤掉所述第二停用词,生成所述第二目标字符串。

进一步地,多个所述第二目标字符串形成所述第二目标字符串集合v,其中,v=(v1,v2,……,vn),n≥m。

进一步地,所述第二停用词包括预设的具有文字含义的字或词,例如,“去死”、“滚蛋”等侮辱性词语。

优先地,当确定所述第二目标字符串时,采用上述方法确定第一目标字符串,但是,本实施例中不限制确定第一目标字符串的方法。

具体地,无论所述第一目标字符串集或者第二目标字符串集合,其中的目标字符串的长度可以不同,例如,一些字符串为单个字构成的词,此字符串就是一个字大小的字符串,另外,一些字符串为多个字构成的词,此字符串是多个字所对应的字符串;目标字符串长度的不同是由于根据语义进行划分的,便与目标字符串与敏感词库进行对比。

上述实施例中,通过文本的大小参数可以将文本分成两类,当文本的大小参数较小时,该文本利于传播,需要对该文本进行严格的分词处理,避免敏感词遗漏;当文本的大小参数较大时,该文本不利于传播,可以对该文本进行宽松的分词处理,提高敏感词的查询速率,避免因敏感词影响到文件的应用。

s105、当确定所述目标字符串存在预设字符时,发出提示信息;

具体地,所述预设字符串是指敏感词库中词对应的字符串,所述敏感词库为弱敏感词库,即预设字符串集合w,w=(w1,w2,…,wk),其中,所述弱敏感词库可以根据安全专家经验和业务需求等设立,所述弱敏感词库中弱敏感词是指在整个敏感词库中去除强敏感词后,剩余的敏感词,例如,“黄色”、“小姐”等词语。

进一步地,所述预设字符串wj,wj表示第j个的预设字符串,其中,j=1,2,…,k;所述预设字符串wj包括多个字符,wj=(wj1,wji2,…,wjy)。

具体地,所述提示信息包括至少一种信息:语言提示、灯光提示或者停机提示等,本实施例中不做限定。

在本实施例中,所述方法还包括如下方法确定所述第一目标字符串存在预设字符串:

将所述第一目标字符串集合中所述第一目标字符串的长度与所述预设字符串的长度进行对比;

当所述第一目标字符串的长度小于所述预设字符串的长度时,确定所述第一目标字符串未存在所述预设字符串;

当所述第一目标字符串的长度不小于所述预设字符串的长度时,将所述第一目标字符串按照预设匹配规则与所述预设字符串进行匹配。

具体地,所述第一目标字符串ui,ui表示第i个的第一目标字符串,其中,i=1,2,…,m;所述第一目标字符串ui包括多个字符,ui=(ui1,ui2,…,uix)。

为了更好的理解,所述方法还包括如下方法确定所述第一目标字符串存在预设字符串,例如,当x<y时,说明预设字符串比第一目标字符串的在长度方面更长,可以确定ui一定不存在wj,即进一步地可以确定,所述第一目标字符串集合u中未存在所述预设字符串集合w;反之,将所述第一目标字符串按照预设匹配规则与所述预设字符串进行匹配。

具体地,所述第一目标字符串的长度不小于所述预设字符串的长度时,所述第一目标字符串按照预设匹配规则与所述预设字符串进行匹配,还包括;

重新将所述第一目标字符串的长度与所述预设字符串的长度进行对比;

当所述第一目标字符串的长度等于所述预设字符串的长度时,将所述第一目标字符串按照第一预设匹配规则与所述预设字符串进行匹配;

当所述第一目标字符串的长度大于所述预设字符串的长度时,将所述第一目标字符串按照第二预设匹配规则与所述预设字符串进行匹配。

进一步地,所述将所述第一目标字符串按照第一预设匹配规则与所述预设字符串进行匹配,包括:

将所述第一目标字符串中每个字符与所述预设字符串中每个字符进行匹配;

当所述第一目标字符串中每个字符的匹配度满足预设匹配度时,确定所述第一目标字符串存在所述预设字符串。

为了更好的理解,所述将所述第一目标字符串按照第一预设匹配规则与所述预设字符串进行匹配,例如,所述第一目标字符串的长度等于所述预设字符串的长度,即当x=y时,确定当所述第一目标字符串中每个字符的匹配度满足所述预设匹配度,其中,所述预设匹配度可以设置为表征待匹配一端与被匹配的一端完全一致的匹配度,可以理解为,所述第一目标字符串中每个字符可以与所述预设字符串的每个字符完全匹配,即uiz=wjz,z的取值为1……y,则确定ui存在wj,即进一步地可以确定,所述第一目标字符串集合u中存在所述预设字符串集合w;反之,当所述第一目标字符串中任一个字符的匹配度达到所述预设匹配度,则确定ui未存在wj,即进一步地可以确定,所述第一目标字符串集合u中未存在所述预设字符串集合w。

在实际应用中,当所述第一目标字符串为“我是小姐”,且所述预设字符串为“我是小姐”时,所述第一目标字符串与所述预设字符串的每个字符完全匹配,则可以确定所述第一目标字符串存在所述预设字符串为“我是小姐”;当所述第一目标字符串为“我是晓姐”,且所述预设字符串为“我是小姐”时,所述第一目标字符串中字符“晓”与所述预设字符串中字符“小”的匹配度未满足预设匹配,则可以确定所述第一目标字符串未存在所述预设字符串为“我是小姐”。

进一步地,所述将所述第一目标字符串按照第二预设匹配规则与所述预设字符串进行匹配,包括:

将所述第一目标字符串中字符按照预设步长进行拆分;

根据所述拆分后的字符与所述预设字符串的匹配,确定所述第一目标字符串存在所述预设字符串。

进一步地,所述预设步长为所述预设字符串的长度,即所述第一目标字符串中字符所述第一目标字符串中字符按照所述预设字符串的长度进行拆分,可以理解为:所述第一目标字符串中每个字符为起始字符,以所述预设字符串的长度,按照排列顺序拆分成多个待匹配字符,例如,所述第一目标字符串为ui=abcde,wj=cd,可以将ui拆分为ab、bc、cd和de。

进一步地,所述拆分后的字符为待匹配字符,根据所述拆分后的字符与所述预设字符串的匹配,确定所述第一目标字符串存在所述预设字符,可以理解为:将所述待匹配字符依次与所述预设字符串进行匹配,当任一所述待匹配字符的匹配度满足预设匹配度时,中止将所述待匹配字符与所述预设字符串进行匹配,确定所述第一目标字符串存在所述预设字符串,其中,所述预设匹配度可以设置为表征待匹配一端与被匹配的一端完全一致的匹配度;例如,uj中ab与wj中cd进行匹配,其匹配度未满足预设匹配度;则继续进行uj中bc与wj中cd进行匹配,其匹配度也未满足预设匹配度;则继续进行uj中cd与wj中cd进行匹配,其匹配度满足预设匹配,中止匹配,则确定ui存在wj,即进一步地可以确定,所述第一目标字符串集合u中存在所述预设字符串集合w。

在实际应用中,所述第一目标字符串为“我是小姐姐”,所述预设字符串为“小姐”,可以拆分为“我是”、“是小”、“小姐”和“姐姐”,依次将所述第一目标字符串中“我是”、“是小”、“小姐”和“姐姐”与所述预设字符串的“小姐”进行匹配,当所述第一目标字符串中“小姐”与与所述预设字符串的“小姐”的匹配满足预设匹配度时,中止匹配,可以确定所述第一目标字符串存在“小姐”。

优先地,所述第一目标字符串为第一目标字符串集合中任一字符串;所述预设字符串为预设字符串集合中任一字符串;本实施例中不做限定。

在上述实施例中,通过所述第一目标字符串与所预设字符串,能够快速的查询出目标字符串集合中存在敏感词的目标字符串,避免遗漏含有敏感词的目标字符串,提高了弱敏感词的查询速率。

一些实施例中,所述方法还包括如下方法确定所述第一目标字符串存在预设字符串还包括:

当第i个所述第一目标字符串的长度小于第j个所述预设字符串长度,且第i-1个所述第一目标字符串的长度不小于第j个所述预设字符串长度时,将第一目标字符串集合中任一目标字符串的长度与所述预设字符串wi+1的长度进行对比,确定所述第一目标字符串存在预设字符串;其中,u=(u1,u2,……,ui-1)。

上述实施例中,能够省略掉部分第一目标字符串与预设字符串的对比,提高了弱敏感词的查询速率。

在本实施例中,所述方法还包括如下方法确定所述第二目标字符串存在预设字符串:

将所述第二目标字符串集合中任一所述第二目标字符串的长度与所述预设字符串的长度进行对比;

当所述第二目标字符串的长度等于所述预设字符串的长度时,将所述第二目标字符串中每个字符与所述预设字符串中每个字符进行匹配;

当所述第二目标字符串中每个字符的匹配度满足预设匹配度时,确定所述第二目标字符串存在预设字符串。

进一步地,所述第二目标字符串vi,vi表示第i个的第二目标字符串,其中,i=1,2,…,n;所述第一目标字符串vi包括多个字符,vi=(vi1,vi2,…,vix)。

为了更好的理解,所述方法还包括如下方法确定所述第二目标字符串存在预设字符串,例如,当x=y时,确定vi存在wj,即进一步地可以确定,第二目标字符串集合v中存在预设字符串集合w;则反之,当x≠y时,第二目标字符串集合v中未存在预设字符串集合w。

在实际应用中,所述第二目标字符串集合中包括两个第二目标字符串分别为“我”和“小姐”,所述预设字符串为“小姐”;所述第二目标字符串“我”的长度与所述预设字符串“小姐”的长度不相等,则所述第二目标字符串“我”一定不存在所述预设字符串“小姐”;当所述第二目标字符串“小姐”的长度与所述预设字符串“小姐”的长度相等时,将所述第二目标字符串“小姐”中的两个字符“小”和“姐”与所述预设字符串“小姐”中两个字符“小”和“姐”,进行匹配,两者完全匹配时,确定所述第二目标字符串存在预设字符串。

上述实施例中,由于目标文本较大,转换成第二目标字符串集合,可以减少目标字符串数量,有利于与弱敏感词进行比较,能够提高了弱敏感词的查询速率,并且所述第二目标字符串与预设字符串,能够快速的查询出目标字符串集合中存在敏感词的目标字符串,避免遗漏含有敏感词的目标字符串。

本实施例一提供的所述处理方法,能够根据电子文件中的文件大小,对电子文件中的字符串进行不同的分词处理方法,对分词后形成的目标字符串集合采取对应的方法确定弱敏感词,避免因弱敏感词的遗漏影响到电子文件的应用,提高了弱敏感词的查询速率。

本发明的实施例还提供了一种计算机设备,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的文本内容的处理方法。

本发明实施例的计算机设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

本发明的实施例还提供了一种存储介质,所述存储介质可设置于电子设备之中以保存用于实现方法实施例中一种文本内容的处理方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的文本内容的处理方法。

可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1