电子文档敏感词自动处理方法、装置、设备和存储介质与流程

文档序号:32481119发布日期:2022-12-09 22:41阅读:59来源:国知局
电子文档敏感词自动处理方法、装置、设备和存储介质与流程

1.本技术涉及信息安全技术领域,例如涉及电子文档敏感词自动处理方法、装置、设备和存储介质。


背景技术:

2.根据监管和安全的要求,企业内的在线文档都需要对一些敏感词进行屏蔽,比如对用户输入的身份证、手机号码和涉黄等敏感信息进行屏蔽,用屏蔽符号等特殊符号代替。目前实现敏感词屏蔽的方法根据屏蔽时机主要分为两种,一种是对已编写文档的敏感词进行屏蔽,得到敏感词屏蔽文档。将敏感词屏蔽文档保存在数据库中,当收到读取文档请求时直接加载敏感词屏蔽文档。第一种处理方式的缺点是会丢失敏感词,无法满足需要替换或恢复敏感词的应用。另一种敏感词屏蔽的方法是将已编写文档保存在数据库中,在收到读取文档请求时读取已编写文档,对已编写文档的敏感词进行屏蔽,得到敏感词屏蔽文档。加载敏感词屏蔽文档。第二种处理方式的缺点是每次读取文档都需要进行敏感词屏蔽,增加了读取文档的时间,还会造成运算资源的浪费。
3.现有的文档敏感词处理方法存在无法恢复敏感词或浪费运算资源的问题。


技术实现要素:

4.本技术提供一种电子文档敏感词自动处理方法、装置、设备和存储介质,旨在解决无法恢复敏感词或浪费运算资源的问题。
5.为解决上述问题,本技术采用以下技术方案:
6.本文提供了电子文档敏感词自动处理方法,包括:
7.获取已编写文档;
8.对所述已编写文档进行敏感词检测,得到敏感词,并保存所述敏感词;
9.对所述已编写文档进行敏感词屏蔽,得到敏感词屏蔽文档;
10.检测是否收到读取文档请求,若是,则加载所述敏感词屏蔽文档;
11.检测是否收到恢复文档请求,若是,则根据所述敏感词屏蔽文档和所述敏感词恢复所述已编写文档,加载所述已编写文档。
12.优选地,所述对所述已编写文档进行敏感词屏蔽,得到敏感词屏蔽文档,包括:
13.设置屏蔽符号;
14.将所述敏感词屏蔽为所述屏蔽符号,得到所述敏感词屏蔽文档。
15.优选地,所述根据所述敏感词屏蔽文档和所述敏感词恢复所述已编写文档,包括:
16.从缓存中获取所述敏感词;
17.查询所述敏感词对应的敏感词位置;
18.将位于所述敏感词位置的所述屏蔽符号替换为对应的所述敏感词,得到所述已编写文档。
19.优选地,所述对所述已编写文档进行敏感词检测,得到所述敏感词,并保存敏感
词,包括:
20.将所述已编写文档拆分为多个单词;
21.将所述多个单词与预设敏感词数据库进行匹配,得到所述敏感词;
22.保存所述敏感词。
23.优选地,所述获取已编写文档之前,所述方法还包括:
24.检测预设文档数据库中文档正文的末尾是否存在末尾标识符;
25.若是,则将存在所述末尾标识符的文档作为所述已编写文档。
26.优选地,所述得到敏感词屏蔽文档之后,所述方法还包括:
27.将所述敏感词屏蔽文档保存至所述预设文档数据库。
28.优选地,所述加载所述已编写文档之后,所述方法还包括:
29.检测是否收到敏感词替换请求,若是,则查询所述敏感词的近义词,判断所述近义词是否为所述敏感词,若否,则使用所述近义词替换所述敏感词。
30.本技术还提供了一种电子文档敏感词自动处理装置,包括:
31.已编写文档获取模块,用于获取已编写文档;
32.敏感词检测模块,用于对所述已编写文档进行敏感词检测,得到敏感词,并保存所述敏感词;
33.敏感词屏蔽模块,用于对所述已编写文档进行敏感词屏蔽,得到敏感词屏蔽文档;
34.敏感词屏蔽文档加载模块,用于检测是否收到读取文档请求,若是,则加载所述敏感词屏蔽文档;
35.已编写文档恢复模块,用于检测是否收到恢复文档请求,若是,则根据所述敏感词屏蔽文档和所述敏感词恢复所述已编写文档,加载所述已编写文档。
36.本技术还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的电子文档敏感词自动处理方法的步骤。
37.本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的电子文档敏感词自动处理方法的步骤。
38.本技术的电子文档敏感词自动处理方法,包括获取已编写文档;对已编写文档进行敏感词检测,得到敏感词,并保存敏感词;对已编写文档进行敏感词屏蔽,得到敏感词屏蔽文档;检测是否收到读取文档请求,若是,则加载敏感词屏蔽文档;检测是否收到恢复文档请求,若是,则根据敏感词屏蔽文档和敏感词恢复已编写文档,加载已编写文档。对已编写文档进行一次性敏感词屏蔽,保存敏感词,接收到恢复文档请求时只需要根据敏感词屏蔽文档和敏感词恢复被屏蔽的敏感词,能够节省运算资源。
附图说明
39.图1为一实施例的电子文档敏感词自动处理方法的流程示意图;
40.图2为一实施例的对已编写文档进行敏感词屏蔽的流程示意图;
41.图3为一实施例的恢复已编写文档的流程示意图;
42.图4为一实施例的对已编写文档进行敏感词检测的流程示意图;
43.图5为一实施例的筛选已编写文档的流程示意图;
44.图6为一实施例的敏感词替换的流程示意图;
45.图7为一实施例的电子文档敏感词自动处理装置的结构示意框图;
46.图8为一实施例的计算机设备的结构示意框图。
47.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
48.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
49.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、单元、单元和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、单元、单元、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
50.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
51.在一个实施例中,参照图1,是本方案申请的电子文档敏感词自动处理方法的流程示意图,包括以下步骤s1-s6:
52.s1:获取已编写文档。
53.从预设文档数据库中获取已编写文档,已编写文档的末尾带有末尾标识符。预设文档数据库中还存在编写中文档,编写中文档的末尾带有编写中标识符。
54.已编写文档为可以存储和编辑的电子文档。
55.已编写文档包括多种文档要素,示例性,已编写文档包括文档完成时间、文档作者、文档摘要和文档关键词,还可以包括其他文档要素,具体根据实际情况而定,此处不作限定。
56.末尾标识符和编写中标识符均可以为标准库中定义的一个宏,也可以是一个特殊符号,例如“\0”,具体根据实际情况而定,此处不作限定。
57.s2:对所述已编写文档进行敏感词检测,得到敏感词,并保存所述敏感词。
58.将所述已编写文档拆分为多个单词;
59.将所述多个单词与预设敏感词数据库进行匹配,得到所述敏感词;
60.保存所述敏感词。
61.将敏感词保存到缓存中,缓存可以是计算机的缓存,也可以是计算机的内存,还可以是插入计算机的sd卡,具体根据实际情况而定,此处不作限定。
62.敏感词检测能够筛选出已编写文档中的敏感词,保存筛选出的敏感词能够方便后续从缓存中获取敏感词,加快恢复已编写文档的速度。
63.s3:对所述已编写文档进行敏感词屏蔽,得到敏感词屏蔽文档。
64.设置屏蔽符号;
65.将所述敏感词屏蔽为所述屏蔽符号,得到所述敏感词屏蔽文档。
66.屏蔽符号可以是星号,也可以是井号,还可以是其他符号,具体根据实际情况而定,此处不作限定。
67.s4:检测是否收到读取文档请求,若是,则加载所述敏感词屏蔽文档。
68.敏感词屏蔽文档中的敏感词已被屏蔽,后续可以解除敏感词的屏蔽,恢复已编写文档。
69.s5:检测是否收到恢复文档请求,若是,则根据所述敏感词屏蔽文档和所述敏感词恢复所述已编写文档,加载所述已编写文档。
70.从缓存中获取所述敏感词;
71.查询所述敏感词对应的敏感词位置;
72.将位于所述敏感词位置的所述屏蔽符号替换为对应的所述敏感词,得到所述已编写文档。
73.根据敏感词位置能够快速的将屏蔽符号替换为敏感词,将屏蔽符号替换为敏感词,能够将敏感词屏蔽文档还原为已编写文档。
74.每次接收到恢复文档请求只需要恢复被屏蔽的敏感词,能够节省运算资源。
75.将敏感词屏蔽文档恢复为已编写文档,已编写文档能够用于审计和/或二次敏感词匹配等二次应用。
76.优选地,加载已编写文档后,还包括检测是否收到敏感词替换请求,若是,则查询所述敏感词的近义词,判断所述近义词是否为所述敏感词,若否,则使用所述近义词替换所述敏感词。将敏感词替换为非敏感词的近义词,使得已编写文档更加规范,用户能够方便的展示替换敏感词后的文档。
77.本技术实施例的电子文档敏感词自动处理方法,包括获取已编写文档;对已编写文档进行敏感词检测,得到敏感词,并保存敏感词;对已编写文档进行敏感词屏蔽,得到敏感词屏蔽文档;检测是否收到读取文档请求,若是,则加载敏感词屏蔽文档;检测是否收到恢复文档请求,若是,则根据敏感词屏蔽文档和敏感词恢复已编写文档,加载已编写文档。对已编写文档进行一次性敏感词屏蔽,保存敏感词,接收到恢复文档请求时只需要根据敏感词屏蔽文档和敏感词恢复被屏蔽的敏感词,能够节省运算资源。
78.在一个实施例中,参照图2,上述对所述已编写文档进行敏感词屏蔽,得到敏感词屏蔽文档的步骤s3,包括以下步骤s31-s32:
79.s31:设置屏蔽符号。
80.屏蔽符号可以是星号,也可以是井号,还可以是其他符号,具体根据实际情况而定,此处不作限定。
81.s32:将所述敏感词屏蔽为所述屏蔽符号,得到所述敏感词屏蔽文档。
82.敏感词屏蔽文档能够直接用于展示。
83.优选地,得到敏感词屏蔽文档之后,还包括将所述敏感词屏蔽文档保存至所述预
设文档数据库,在预设文档数据库中对敏感词屏蔽文档进行整理具有较高的效率,通过预设文档数据库能够较快的调用敏感词屏蔽文档。
84.本技术实施例的对已编写文档进行敏感词屏蔽,得到敏感词屏蔽文档,包括设置屏蔽符号,将所述敏感词屏蔽为所述屏蔽符号,得到所述敏感词屏蔽文档。敏感词屏蔽文档能够直接用于展示。
85.在一个实施例中,参照图3,上述检测是否收到恢复文档请求,若是,则根据所述敏感词屏蔽文档和所述敏感词恢复所述已编写文档,加载所述已编写文档的步骤s5,包括以下步骤s51-s54:
86.s51:检测是否收到恢复文档请求。
87.恢复文档请求用于取消屏蔽敏感词屏蔽文档中的敏感词。
88.s52:若接收到恢复文档请求,则从缓存中获取所述敏感词。
89.获取敏感词后,能够快速选中敏感词屏蔽文档中被屏蔽的敏感词,取消屏蔽被屏蔽的敏感词。
90.s53:查询所述敏感词对应的敏感词位置。
91.可以在敏感词替换为屏蔽符号时设置标记,根据标记查询敏感词位置;也可以在敏感词替换为屏蔽符号时保存敏感词位置,查询敏感词位置时直接调用已保存的敏感词位置;还可以采用其他方式查询敏感词位置,具体根据实际情况而定,此处不作限定。
92.s54:将位于所述敏感词位置的所述屏蔽符号替换为对应的所述敏感词,得到所述已编写文档。
93.根据敏感词位置能够快速的将屏蔽符号替换为敏感词,将屏蔽符号替换为敏感词,能够将敏感词屏蔽文档还原为已编写文档。
94.每次接收到恢复文档请求只需要恢复被屏蔽的敏感词,能够节省运算资源。
95.s55:加载所述已编写文档。
96.已编写文档能够用于审计和/或二次敏感词匹配等二次应用。
97.本技术实施例的检测是否收到恢复文档请求,若是,则根据敏感词屏蔽文档和敏感词恢复已编写文档,包括检测是否收到恢复文档请求,若接收到恢复文档请求,则从缓存中获取所述敏感词。查询所述敏感词对应的敏感词位置。将位于所述敏感词位置的所述屏蔽符号替换为对应的所述敏感词,得到所述已编写文档。根据敏感词位置能够快速的将屏蔽符号替换为敏感词,将屏蔽符号替换为敏感词,能够将敏感词屏蔽文档还原为已编写文档。每次接收到恢复文档请求只需要恢复被屏蔽的敏感词,能够节省运算资源。
98.在一个实施例中,参照图4,上述对已编写文档进行敏感词检测,得到敏感词,并保存敏感词的步骤s2,包括以下步骤s21-s23:
99.s21:将所述已编写文档拆分为多个单词。
100.可以使用编程语言相关的函数如split将已编写文档拆分为多个单词,也可以使用正则化表达式将已编写文档拆分为多个单词,还可以采用其他的方法进行文档拆分,具体根据实际情况而定,此处不作限定。
101.优选地,将拆分得到的多个单词中的相同单词进行合并,减少单词的数量。
102.s22:将所述多个单词与预设敏感词数据库进行匹配,得到所述敏感词。
103.将各个单词按照在文档中出现的顺序依次和预设敏感词数据库进行匹配,若预设
敏感词数据库中存在对应的单词,则该单词为敏感词。
104.示例性,拆分共得到100个单词,按照单词的先后顺序依次将单词与预设敏感词数据库进行匹配,筛选出第10个、第20个、第40个和第85个单词为敏感词。
105.敏感词包括个人信息,例如身份证和手机号码,还包括涉黄信息。筛选出敏感词后,对敏感词进行屏蔽,得到不含有敏感词的敏感词屏蔽文档。
106.s23:保存所述敏感词。
107.将敏感词保存到缓存中,缓存可以是计算机的缓存,也可以是计算机的内存,还可以是插入计算机的sd卡,具体根据实际情况而定,此处不作限定。
108.本技术实施例的筛选敏感词,包括将已编写文档拆分为多个单词,将多个单词与预设敏感词数据库进行匹配,得到敏感词,保存所述敏感词。敏感词包括个人信息,例如身份证和手机号码,还包括涉黄信息。敏感词检测能够筛选出已编写文档中的敏感词,保存筛选出的敏感词能够方便后续从缓存中获取敏感词,加快恢复已编写文档的速度。
109.在一个实施例中,参照图5,上述获取已编写文档的步骤s1之前,还包括筛选已编写文档,筛选已编写文档包括以下步骤s11
”‑
s12”:
110.s11”:检测预设文档数据库中文档正文的末尾是否存在末尾标识符。
111.预设文档数据库中文档正文的末尾为末尾标识符或编写中标识符,若为末尾标识符,说明该文档已经编写完成,可以进行敏感词屏蔽。若为编写中标识符,说明该文档还在编写中,需要编写完成后再进行敏感词屏蔽。
112.s12”:若是,则将存在所述末尾标识符的文档作为所述已编写文档。
113.筛选出已编写文档后,对已编写文档进行敏感词屏蔽后可以展现给用户。
114.本技术实施例的筛选已编写文档,包括检测预设文档数据库中文档正文的末尾是否存在末尾标识符,若是,则将存在末尾标识符的文档作为已编写文档。预设文档数据库中文档正文的末尾为末尾标识符或编写中标识符,若为末尾标识符,说明该文档已经编写完成,可以进行敏感词屏蔽。若为编写中标识符,说明该文档还在编写中,需要编写完成后再进行敏感词屏蔽。
115.在一个实施例中,参照图6,上述检测是否收到恢复文档请求,若是,则根据所述敏感词屏蔽文档和所述敏感词恢复所述已编写文档,加载所述已编写文档的步骤s5之后,还包括敏感词替换,包括步骤s61
’‑
s62’:
116.s61’:检测是否收到敏感词替换请求,若是,则查询所述敏感词的近义词。
117.按照敏感词出现的先后顺序依次查询敏感词的近义词,示例性,已编写文档中的第1行共有10个单词,查询到第1行的第4个单词为敏感词“身份证号码”,已编写文档中第2行共有12个单词,查询到第2行的第5个单词为敏感词“手机号码”。
118.s62’:判断所述近义词是否为所述敏感词,若否,则使用所述近义词替换所述敏感词。
119.示例性,第一行的第4个单词“身份证号码”的近义词为“id号码”,“id号码”不是敏感词,将“身份证号码”改为“id号码”。第2行的第5个单词“手机号码”的近义词为“个人号码”,“个人号码”不是敏感词,将“手机号码”改为“个人号码”。
120.通过将敏感词替换为非敏感词的近义词,能够更方便的展示敏感词替换后的文档。
121.本技术实施例的敏感词替换,包括检测是否收到敏感词替换请求,若是,则查询敏感词的近义词。判断近义词是否为敏感词,若否,则使用近义词替换敏感词。通过将敏感词替换为非敏感词的近义词,能够更方便的展示敏感词替换后的文档。
122.参照图7,是本方案申请的一种电子文档敏感词自动处理装置的结构示意框图,装置包括:
123.已编写文档获取模块10,用于获取已编写文档;
124.敏感词检测模块20,用于对所述已编写文档进行敏感词检测,得到敏感词,并保存所述敏感词;
125.敏感词屏蔽模块30,用于对所述已编写文档进行敏感词屏蔽,得到敏感词屏蔽文档;
126.敏感词屏蔽文档加载模块40,用于检测是否收到读取文档请求,若是,则加载所述敏感词屏蔽文档;
127.已编写文档恢复模块50,用于检测是否收到恢复文档请求,若是,则根据所述敏感词屏蔽文档和所述敏感词恢复所述已编写文档,加载所述已编写文档。
128.本技术实施例的电子文档敏感词自动处理装置能够实现电子文档敏感词自动处理方法。
129.在一个实施例中,所述敏感词屏蔽模块30还包括:
130.屏蔽符号设置单元,用于设置屏蔽符号;
131.敏感词屏蔽单元,用于将所述敏感词屏蔽为所述屏蔽符号,得到所述敏感词屏蔽文档。
132.在一个实施例中,所述已编写文档恢复模块50还包括:
133.敏感词获取单元,用于从缓存中获取所述敏感词;
134.敏感词位置查询单元,用于查询所述敏感词对应的敏感词位置;
135.屏蔽符号替换单元,用于将位于所述敏感词位置的所述屏蔽符号替换为对应的所述敏感词,得到所述已编写文档。
136.在一个实施例中,所述敏感词检测模块20还包括:
137.已编写文档拆分单元,用于将所述已编写文档拆分为多个单词;
138.敏感词匹配单元,用于将所述多个单词与预设敏感词数据库进行匹配,得到所述敏感词;
139.敏感词保存单元,用于保存所述敏感词。
140.在一个实施例中,所述电子文档敏感词自动处理装置还包括:
141.末尾标识符检测模块,用于检测预设文档数据库中文档正文的末尾是否存在末尾标识符;若是,则将存在所述末尾标识符的文档作为所述已编写文档。
142.在一个实施例中,所述电子文档敏感词自动处理装置还包括:
143.敏感词屏蔽文档保存模块,用于将所述敏感词屏蔽文档保存至所述预设文档数据库。
144.在一个实施例中,所述电子文档敏感词自动处理装置还包括:
145.近义词查询模块,用于检测是否收到敏感词替换请求,若是,则查询所述敏感词的近义词;
146.近义词判断模块,用于判断所述近义词是否为所述敏感词,若否,则使用所述近义词替换所述敏感词。
147.参照图8,本技术实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储敏感词屏蔽文档等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现电子文档敏感词自动处理方法。
148.具体地,上述处理器执行上述电子文档敏感词自动处理方法,包括:
149.获取已编写文档;
150.对所述已编写文档进行敏感词检测,得到敏感词,并保存所述敏感词;
151.对所述已编写文档进行敏感词屏蔽,得到敏感词屏蔽文档;
152.检测是否收到读取文档请求,若是,则加载所述敏感词屏蔽文档;
153.检测是否收到恢复文档请求,若是,则根据所述敏感词屏蔽文档和所述敏感词恢复所述已编写文档,加载所述已编写文档。
154.在一个实施例中,上述处理器对所述已编写文档进行敏感词屏蔽,得到敏感词屏蔽文档,包括:
155.设置屏蔽符号;
156.将所述敏感词屏蔽为所述屏蔽符号,得到所述敏感词屏蔽文档。
157.在一个实施例中,上述处理器根据所述敏感词屏蔽文档和所述敏感词恢复所述已编写文档,包括:
158.从缓存中获取所述敏感词;
159.查询所述敏感词对应的敏感词位置;
160.将位于所述敏感词位置的所述屏蔽符号替换为对应的所述敏感词,得到所述已编写文档。
161.在一个实施例中,上述处理器对所述已编写文档进行敏感词检测,得到所述敏感词,包括:
162.将所述已编写文档拆分为多个单词;
163.将所述多个单词与预设敏感词数据库进行匹配,得到所述敏感词;
164.保存所述敏感词。
165.在一个实施例中,上述处理器获取已编写文档之前,所述方法还包括:
166.检测预设文档数据库中文档正文的末尾是否存在末尾标识符;
167.若是,则将存在所述末尾标识符的文档作为所述已编写文档。
168.在一个实施例中,上述处理器得到敏感词屏蔽文档之后,所述方法还包括:
169.将所述敏感词屏蔽文档保存至所述预设文档数据库。
170.在一个实施例中,上述处理器加载所述已编写文档之后,所述方法还包括:
171.检测是否收到敏感词替换请求,若是,则查询所述敏感词的近义词;
172.判断所述近义词是否为所述敏感词,若否,则使用所述近义词替换所述敏感词。
173.本领域技术人员可以理解,图8中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定。
174.本技术一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现电子文档敏感词自动处理方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
175.具体地,上述处理器执行上述电子文档敏感词自动处理方法,包括:
176.获取已编写文档;
177.对所述已编写文档进行敏感词检测,得到敏感词,并保存所述敏感词;
178.对所述已编写文档进行敏感词屏蔽,得到敏感词屏蔽文档;
179.检测是否收到读取文档请求,若是,则加载所述敏感词屏蔽文档;
180.检测是否收到恢复文档请求,若是,则根据所述敏感词屏蔽文档和所述敏感词恢复所述已编写文档,加载所述已编写文档。
181.在一个实施例中,上述处理器对所述已编写文档进行敏感词屏蔽,得到敏感词屏蔽文档,包括:
182.设置屏蔽符号;
183.将所述敏感词屏蔽为所述屏蔽符号,得到所述敏感词屏蔽文档。
184.在一个实施例中,上述处理器根据所述敏感词屏蔽文档和所述敏感词恢复所述已编写文档,包括:
185.从缓存中获取所述敏感词;
186.查询所述敏感词对应的敏感词位置;
187.将位于所述敏感词位置的所述屏蔽符号替换为对应的所述敏感词,得到所述已编写文档。
188.在一个实施例中,上述处理器对所述已编写文档进行敏感词检测,得到所述敏感词,包括:
189.将所述已编写文档拆分为多个单词;
190.将所述多个单词与预设敏感词数据库进行匹配,得到所述敏感词;
191.保存所述敏感词。
192.在一个实施例中,上述处理器获取已编写文档之前,所述方法还包括:
193.检测预设文档数据库中文档正文的末尾是否存在末尾标识符;
194.若是,则将存在所述末尾标识符的文档作为所述已编写文档。
195.在一个实施例中,上述处理器得到敏感词屏蔽文档之后,所述方法还包括:
196.将所述敏感词屏蔽文档保存至所述预设文档数据库。
197.在一个实施例中,上述处理器加载所述已编写文档之后,所述方法还包括:
198.检测是否收到敏感词替换请求,若是,则查询所述敏感词的近义词;
199.判断所述近义词是否为所述敏感词,若否,则使用所述近义词替换所述敏感词。
200.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。本技术
所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram通过多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
201.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
202.以上所述仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1