本发明实施例涉及信息处理,尤其涉及一种文本数据判断方法、装置、设备及存储介质。
背景技术:
1、随着互联网技术的快速发展,人们可以便捷地通过智能手机、电脑等设备获取各种文档数据,这很容易导致文档所有者的著作权遭到侵害。
2、为了解决以上问题,目前常采用零宽字符对文档中的文本进行处理,实现对文档添加水印的效果。其中,零宽字符为不可见、不可打印的字符。然而,当侵权者对文档中的文本进行复制,并基于复制的文本生成新文档时,由于新文档中不会存在零宽字符,这就会导致水印失效。若侵权者使用并传播新文档,文档所有者则无法对侵权者追究相关的责任。因此,亟需一种文本数据保护方法,对文档中的数据进行保护,避免恶意传播和使用。
技术实现思路
1、本技术实施例提供了一种文本数据判断方法、装置、设备及存储介质,用于保护文档中的数据。
2、一方面,本技术实施例提供了一种文本数据判断方法,该方法包括:
3、从第一文档的文本数据中获取多个第一判定数据;
4、针对任一第一判定数据,基于所述第一判定数据和预设词库,确定第一比较结果;所述预设词库包括多个预设词;
5、从预设判定矩阵中,获取所述第一判定数据对应的第一判定数组;所述预设判定矩阵是基于第二文档的文本数据、所述预设词库以及预设水印数据确定的,所述第二文档是与所述第一文档相对应的原始文档;
6、基于所述第一比较结果以及所述第一判定数组,确定第一水印比特值;
7、基于获得的多个第一水印比特值以及所述预设水印数据,确定所述第一文档的文本数据是否与所述第二文档的文本数据相同。
8、可选地,所述从第一文档的文本数据中获取多个第一判定数据,包括:
9、采用预设窗口对所述第一文档的文本数据进行划分,获得多个第一窗口数据;
10、基于第一预设规则,从所述多个第一窗口数据中确定多个第一判定数据。
11、可选地,所述基于第一预设规则,从所述多个第一窗口数据中确定多个第一判定数据,包括:
12、针对任一第一窗口数据,采用第一哈希编码,对所述第一窗口数据进行编码,获得所述第一窗口数据对应的哈希值;
13、若所述第一窗口数据对应的哈希值是预设水印间隔的倍数,则将所述第一窗口数据作为第一判定数据。
14、可选地,所述基于所述第一判定数据和预设词库,确定第一比较结果,包括:
15、从所述第一判定数据中,获取第一比较词和第二比较词;
16、确定所述第一比较词和所述第二比较词在所述第一判定数据中的第一次序;
17、确定所述第一比较词和所述第二比较词在所述预设词库中的第二次序;
18、若所述第一次序与所述第二次序相同,则将第一预设值设置为所述第一比较结果;否则,将第二预设值设置为所述第一比较结果。
19、可选地,所述从所述第一判定数据中,获取第一比较词和第二比较词,包括:
20、采用第二哈希编码对所述第一判定数据进行编码,获得所述第一判定数据对应的哈希值;
21、采用分词技术,对所述第一判定数据进行分词处理,获得所述第一判定数据对应的至少一个比较词;
22、基于所述第一判定数据对应的哈希值以及至少一个比较词,确定所述第一比较词和所述第二比较词。
23、可选地,所述基于所述第一判定数据对应的哈希值以及至少一个比较词,确定所述第一比较词和所述第二比较词,包括:
24、基于所述第一判定数据对应的哈希值以及至少一个比较词的数量,确定所述第一比较词的位置信息;
25、基于第二预设规则以及所述第一比较词的位置信息,确定所述第二比较词的位置信息;
26、从所述第一判定数据对应的至少一个比较词中,确定所述第一比较词和所述第二比较词,所述第一比较词为所述第一比较词的位置信息对应的比较词,所述第二比较词为所述第二比较词的位置信息对应的比较词。
27、可选地,所述从预设判定矩阵中,获取所述第一判定数据对应的第一判定数组,包括:
28、确定所述第一判定数据在所述多个第一判定数据中所对应的顺序编号k;
29、将所述预设判定矩阵中第k行作为所述第一判定数组。
30、可选地,所述基于所述第一比较结果以及所述第一判定数组,确定第一水印比特值,包括:
31、按照第三预设规则,从所述第一判定数组中获取第三数值;
32、若所述第一比较结果和所述第三数值相同,则将第四预设值设置为所述第一水印比特值;否则,将第五预设值设置为所述第一水印比特值。
33、可选地,所述基于获得的多个第一水印比特值以及所述预设水印数据,确定所述第一文档的文本数据是否与所述第二文档的文本数据相同,包括:
34、获取所述预设水印数据对应的多个第二水印比特值;
35、若所述多个第一水印比特值与相对应的第二水印比特值均相同,则所述第一文档的文本数据与所述第二文档的文本数据相同;否则,所述第一文档的文本数据与所述第二文档的文本数据不同。
36、可选地,所述预设判定矩阵是基于第二文档的文本数据、所述预设词库以及预设水印数据确定的,包括:
37、对所述预设水印数据进行编码处理,获得所述预设水印数据对应的多个第二水印比特值;
38、从所述第二文档的文本数据中获取多个第二判定数据;
39、针对任一第二判定数据,生成所述第二判定数据对应的第二判定数组,所述第二判定数组采用第六预设值进行初始化;
40、基于所述第二判定数据和所述预设词库,确定第二比较结果;
41、基于所述第二判定数据和所述多个第二水印比特值,确定第一参考结果;
42、若所述第二比较结果和所述第一参考结果相同,则将所述第二判定数组中部分位置更新为第七预设值;否则,将所述第二判定数组中部分位置更新为第八预设值;
43、基于获得的多个第二判定数组,组成所述预设判定矩阵。
44、一方面,本技术实施例提供了一种文本数据判断装置,该装置包括:
45、获取模块,用于从第一文档的文本数据中获取多个第一判定数据;
46、确定模块,用于针对任一第一判定数据,基于所述第一判定数据和预设词库,确定第一比较结果;所述预设词库包括多个预设词;
47、所述获取模块,用于从预设判定矩阵中,获取所述第一判定数据对应的第一判定数组;所述预设判定矩阵是基于第二文档的文本数据、所述预设词库以及预设水印数据确定的,所述第二文档是与所述第一文档相对应的原始文档;
48、所述确定模块,用于基于所述第一比较结果以及所述第一判定数组,确定第一水印比特值;
49、所述确定模块,用于基于获得的多个第一水印比特值以及所述预设水印数据,确定所述第一文档的文本数据是否与所述第二文档的文本数据相同。
50、可选地,所述获取模块,具体用于:
51、采用预设窗口对所述第一文档的文本数据进行划分,获得多个第一窗口数据;
52、基于第一预设规则,从所述多个第一窗口数据中确定多个第一判定数据。
53、可选地,所述获取模块,具体用于:
54、针对任一第一窗口数据,采用第一哈希编码,对所述第一窗口数据进行编码,获得所述第一窗口数据对应的哈希值;
55、若所述第一窗口数据对应的哈希值是预设水印间隔的倍数,则将所述第一窗口数据作为第一判定数据。
56、可选地,所述确定模块,具体用于:
57、从所述第一判定数据中,获取第一比较词和第二比较词;
58、确定所述第一比较词和所述第二比较词在所述第一判定数据中的第一次序;
59、确定所述第一比较词和所述第二比较词在所述预设词库中的第二次序;
60、若所述第一次序与所述第二次序相同,则将第一预设值设置为所述第一比较结果;否则,将第二预设值设置为所述第一比较结果。
61、可选地,所述确定模块,具体用于:
62、采用第二哈希编码对所述第一判定数据进行编码,获得所述第一判定数据对应的哈希值;
63、采用分词技术,对所述第一判定数据进行分词处理,获得所述第一判定数据对应的至少一个比较词;
64、基于所述第一判定数据对应的哈希值以及至少一个比较词,确定所述第一比较词和所述第二比较词。
65、可选地,所述确定模块,具体用于:
66、基于所述第一判定数据对应的哈希值以及至少一个比较词的数量,确定所述第一比较词的位置信息;
67、基于第二预设规则以及所述第一比较词的位置信息,确定所述第二比较词的位置信息;
68、从所述第一判定数据对应的至少一个比较词中,确定所述第一比较词和所述第二比较词,所述第一比较词为所述第一比较词的位置信息对应的比较词,所述第二比较词为所述第二比较词的位置信息对应的比较词。
69、可选地,所述获取模块,具体用于:
70、确定所述第一判定数据在所述多个第一判定数据中所对应的顺序编号k;
71、将所述预设判定矩阵中第k行作为所述第一判定数组。
72、可选地,所述确定模块,具体用于:
73、按照第三预设规则,从所述第一判定数组中获取第三数值;
74、若所述第一比较结果和所述第三数值相同,则将第四预设值设置为所述第一水印比特值;否则,将第五预设值设置为所述第一水印比特值。
75、可选地,所述确定模块,具体用于:
76、获取所述预设水印数据对应的多个第二水印比特值;
77、若所述多个第一水印比特值与相对应的第二水印比特值均相同,则所述第一文档的文本数据与所述第二文档的文本数据相同;否则,所述第一文档的文本数据与所述第二文档的文本数据不同。
78、可选地,还包括生成模块,所述生成模块,具体用于:
79、对所述预设水印数据进行编码处理,获得所述预设水印数据对应的多个第二水印比特值;
80、从所述第二文档的文本数据中获取多个第二判定数据;
81、针对任一第二判定数据,生成所述第二判定数据对应的第二判定数组,所述第二判定数组采用第六预设值进行初始化;
82、基于所述第二判定数据和所述预设词库,确定第二比较结果;
83、基于所述第二判定数据和所述多个第二水印比特值,确定第一参考结果;若所述第二比较结果和所述第一参考结果相同,则将所述第二判定数组中部分位置更新为第七预设值;否则,将所述第二判定数组中部分位置更新为第八预设值;
84、基于获得的多个第二判定数组,组成所述预设判定矩阵。
85、一方面,本技术实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本数据判断方法的步骤。
86、一方面,本技术实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述文本数据判断方法的步骤。
87、在本技术实施例中,从第一文档的文本数据中获取多个第一判定数据,针对任一第一判定数据,基于该第一判定数据和预设词库,确定第一比较结果。从预设判定矩阵中,获取第一判定数据对应的第一判定数组,其中,预设判定矩阵是基于第二文档的文本数据、预设词库以及预设水印数据确定的,第二文档是与第一文档相对应的原始文档;基于第一比较结果以及第一判定数组,确定第一水印比特值;最后,基于获得的多个第一水印比特值以及预设水印数据,确定第一文档的文本数据是否与第二文档的文本数据相同。当侵权者通过复制第二文档获得第一文档后,在使用并传播第一文档时,第二文档的所有者仍可以通过上述方法确定出第一文档的文本数据是否与第二文档的文本数据相同,可以有效地对第二文档中的数据进行保护,避免恶意传播和使用。