文本检测方法、设备和介质与流程

文档序号:30387782发布日期:2022-06-11 11:53阅读:98来源:国知局
文本检测方法、设备和介质与流程

1.本公开涉及语言处理技术,更具体地,涉及文本检测方法、设备和介质。


背景技术:

2.随着互联网的深入发展,在网络上可以很容易的获得各种信息。然而,这同样加大了网络中不良内容(如色情、暴力、血腥等内容)的传播。基于此,内容发布平台通常会建立自动检测机制,对已发布的内容进行自动检测以拦截不良内容。但是,现有检测机制无法检测出相对隐晦的不良文本内容(例如通过大量的比喻、反讽等语言修辞方式隐晦描述的不良内容),因此有必要提供一种新的文本检测方案。


技术实现要素:

3.本说明书公开的实施例提供文本检测方法、设备和介质。
4.根据本发明公开的第一方面,提供了文本检测方法,包括:
5.获取目标文本的文本内容以及阅读所述目标文本的用户行为;
6.获得所述文本内容的语义表达;
7.获得所述用户行为的文本表达;
8.根据所述文本内容的语义表达和所述用户行为的文本表达,对所述目标文本进行预测,得到所述目标文本的类别。
9.可选地,所述根据所述文本内容的语义表达和所述用户行为的文本表达,对所述目标文本进行预测,得到所述目标文本的类别包括:
10.根据所述文本内容的语义表达得到第一编码矩阵;
11.根据所述用户行为的文本表达得到所述第二编码矩阵;
12.对所述第一编码矩阵和所述第二编码矩阵进行组合编码,得到联合编码矩阵;
13.使用所述联合矩阵编码进行预测,得到所述目标文本的类别。
14.可选地,所述获得所述文本内容的语义表达,包括:
15.将所述文本内容进行分页,得到每一页文本的文本向量;
16.利用所述每一页文本的文本向量得到所述文本内容的语义矩阵;
17.根据所述文本内容的语义矩阵得到所述文本内容的全局语义信息作为所述文本内容的语义表达。
18.可选地,将所述文本内容进行分页之后,所述方法还包括:
19.获得每一页文本的注意力分布以确定每一页文本的重要程度;
20.所述根据所述语义矩阵得到所述文本内容的全局语义信息作为所述文本内容的语义表达,包括:
21.利用所述每一页文本的注意力分布对所述全局语义信息进行加权处理后作为所述文本内容的语义表达。
22.可选地,所述用户行为包括用户在每一页文本的停留时间,所述获得所述用户行
为的文本表达,包括:
23.根据所述用户在每一页文本的停留时间计算所述用户对于所述目标文本的注意力分布;
24.利用所述用户对于所述目标文本的注意力分布对所述文本内容的语义矩阵进行加权处理,得到所述用户行为的文本表达。
25.可选地,所述使用联合编码矩阵进行预测,得到目标文本的类别,包括:
26.基于注意力机制,根据第一编码矩阵确定目标文本的第一注意力分布;根据文本内容的语义矩阵和第一注意力分布,得到目标文本的基于第一注意力分布的表达;
27.基于注意力机制,根据第二编码矩阵确定目标文本的第二注意力分布;根据文本内容的语义矩阵和第二注意力分布,得到目标文本的基于第二注意力分布的表达;
28.基于注意力机制,根据联合编码矩阵确定目标文本的第三注意力分布;根据文本内容的语义矩阵和第三注意力分布,得到目标文本的基于第三注意力分布的表达;
29.对目标文本的基于第一注意力的表达、基于第二注意力的表达、基于第三注意力的表达进行平均,得到目标文本的第一目标表达;
30.对目标文本的基于第一注意力的表达、基于第二注意力的表达进行平均,得到目标文本的第二目标表达;
31.对目标文本的第一目标表达、第二目标表达、基于第一注意力的表达、基于第二注意力的表达、基于第三注意力的表达进行拼接,得到目标文本的第三目标表达;
32.使用目标文本的第三目标表达进行预测,得到目标文本的类别。
33.可选地,所述使用联合编码矩阵进行预测,得到目标文本的类别,包括:
34.基于注意力机制,根据第一编码矩阵确定目标文本的第一注意力分布;根据文本内容的语义矩阵和第一注意力分布,得到目标文本的基于第一注意力分布的表达;
35.基于注意力机制,根据第二编码矩阵确定目标文本的第二注意力分布;根据文本内容的语义矩阵和第二注意力分布,得到目标文本的基于第二注意力分布的表达;
36.基于注意力机制,根据联合编码矩阵确定目标文本的第三注意力分布;根据文本内容的语义矩阵和第三注意力分布,得到目标文本的基于第三注意力分布的表达;
37.对目标文本的基于第一注意力的表达、基于第二注意力的表达、基于第三注意力的表达进行平均,得到目标文本的第一目标表达;
38.对目标文本的第一目标表达、基于第一注意力的表达、基于第二注意力的表达、基于第三注意力的表达进行拼接,得到目标文本的第四目标表达;
39.使用目标文本的第四目标表达进行预测,得到目标文本的类别。
40.可选地,所述使用联合编码矩阵进行预测,得到目标文本的类别,包括:
41.基于注意力机制,根据联合编码矩阵确定目标文本的第三注意力分布;
42.根据文本内容的语义矩阵和第三注意力分布,得到目标文本的基于第三注意力分布的表达;
43.使用目标文本的基于第三注意力分布的表达进行预测,得到目标文本的类别。
44.可选地,所述用户在每一页文本的停留时间通过以下方式确定:
45.计算多个用户停留在同一页文本上的时间的平均值,将所述平均值作为所述用户在该页文本的停留时间。
46.可选地,所述用户在每一页文本的停留时间通过以下方式确定:
47.获取多个用户停留在同一页文本上的时间和用户的信息,所述用户的信息包括用户的账户名或者用户的ip地址;
48.根据用户的信息查询用户的权重,所述用户的权重根据所述用户的浏览记录确定;
49.根据所述用户的权重,对多个用户停留在同一页文本上的时间进行加权平均,将加权平均后的结果作为所述用户在该页文本的停留时间。
50.可选地,在获取目标文本的文本内容之前,所述方法还包括:
51.获取第一文本的用户的信息,所述用户的信息包括用户的账户名或者用户的ip地址;
52.根据第一文本的用户的信息查找用户的属性,所述用户的属性根据所述用户的浏览记录确定;
53.确定第一文本的具有预设属性的用户的数量;
54.在第一文本的具有预设属性的用户的数量大于第一预设阈值的情况下,将所述第一文本作为所述目标文本。
55.可选地,在获取目标文本的文本内容之前,所述方法还包括:
56.获取第一文本的每一页文本的字数和用户在第一文本的每一页文本的停留时间,计算用户在第一文本的每一页文本的停留时间和字数的比值;
57.获取第一文本的用户的信息,所述用户的信息包括用户的账户名或者用户的ip地址;
58.根据第一文本的用户的信息查找用户的属性,所述用户的属性根据所述用户的浏览记录确定;
59.确定第一文本的具有预设属性的用户的数量;
60.在第一文本的具有预设属性的用户的数量大于第一预设阈值并且存在至少一页文本的所述比值大于第二预设阈值的情况下,将所述第一文本作为所述目标文本。
61.可选地,所述对第一编码矩阵和第二编码矩阵进行组合编码,得到联合编码矩阵,包括:
62.对第一编码矩阵和第二编码矩阵进行拼接,得到第三编码矩阵;
63.对第三编码矩阵使用双向循环神经网络进行编码处理,得到联合编码矩阵。
64.可选地,在得到目标文本的类别后,所述方法还包括:
65.在目标文本的类别为不良类别时,对目标文本的用户的浏览记录进行更新;所述用户的浏览记录用于记录所述用户访问不良类别的文本的次数。
66.根据本发明公开的第二方面,提供了文本检测设备,包括处理器和存储器;所述存储器中存储有计算机指令,所述计算机指令被所述处理器执行时,实现本公开第一方面提供的文本检测方法。
67.根据本发明公开的第三方面,提供了计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时,实现本公开第一方面提供的文本检测方法。
68.本公开实施例提供的文本检测方法、设备和介质,同时考虑目标文本的内容和目标文本的页面阅读时长对目标文本进行分类预测,在目标文本为相对隐晦的不良内容时,
也能够比较可靠地将其识别出来。
69.通过以下参照附图对本说明书的示例性实施例的详细描述,本说明书的实施例的特征及其优点将会变得清楚。
附图说明
70.被结合在说明书中并构成说明书的一部分的附图示出了本说明书的实施例,并且连同其说明一起用于解释本说明书实施例的原理。
71.图1是本说明书一个实施例提供的文本检测服务器的框图;
72.图2是本说明书一个实施例提供的文本检测方法的流程图;
73.图3是本说明书一个实施例提供的文本检测方法的示意图;
74.图4是本说明书一个实施例提供的文本检测设备的框图
具体实施方式
75.现在将参照附图来详细描述本说明书的各种示例性实施例。
76.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本说明书实施例及其应用或使用的任何限制。
77.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
78.《文本检测服务器》
79.本公开实施例提供的文本检测方法,可以由文本检测服务器实施。
80.参见图1所示,该文本检测服务器的硬件配置包括但不限于:处理器1011、存储器1012、接口装置1013、通信装置1014、输入装置1015、输出装置1016。处理器1011可以包括但不限于中央处理器cpu、微处理器mcu等。存储器1012可以包括但不限于rom(只读存储器)、ram(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1013可以包括但不限于usb接口、串行接口、并行接口等。通信装置1014例如能够进行有线通信或无线通信,具体地可以包括wifi通信、蓝牙通信、2g/3g/4g/5g通信等。输入装置1015包括但不限于键盘、鼠标、触摸屏等。输出装置1016包括但不限于显示屏等。尽管服务器也可以包括扬声器、麦克风等等,但是,这些部件与本公开的实施例无关,故在此省略。
81.应用于本公开的实施例中,文本检测服务器的存储器1012用于存储指令,该指令用于控制处理器1011进行操作以执行本公开实施例提供的文本检测方法。
82.图1所示的服务器仅仅是说明性的并且绝不意味着对本公开实施例、其应用或使用的任何限制。本领域技术人员应当理解,尽管前面描述了服务器的多个装置,但是,本公开实施例可以仅涉及其中的部分装置。
83.本领域技术人员可以根据本公开实施例的方案设计指令,指令如何控制处理器进行操作是本领域公知技术,故在此不再详细描述。
84.该文本检测服务器可以为网络上的文本内容提供商,如网络小说平台、新闻平台、评论网站等提供文本检测服务。
85.《文本检测方法》
86.《第一实施例》
87.参见图2和图3所示,说明本公开第一实施例提供的文本检测方法。该文本检测方法由文本检测设备执行,该文本检测设备可以为图1中的文本检测服务器。
88.该文本检测方法,包括步骤s200-s400。
89.s200、获取目标文本的文本内容以及阅读所述目标文本的用户行为。
90.在一个例子中,将目标文本的文本内容进行分页处理,得到目标文本的每一页文本。所述阅读所述目标文本的用户行为,包括:用户在目标文本的每一页文本的停留时间。
91.在一个例子中,目标文本为电子内容,目标文本被呈现在电子设备上的一个页面可以作为目标文本的一页文本。在这种情况下,用户在一页文本(也就是一个页面)上的停留时间,可以根据用户使用电子设备打开该页面后,该电子设备停留在该页面此次被打开的状态的时间来确定。
92.在一个例子中,用户在目标文本的每一页文本的停留时间,通过以下方式确定:计算多个用户停留在同一页文本上的时间的平均值,将该平均值作为所述用户在该页文本的停留时间。
93.也就是说,对于一页文本,使用多个用户停留在该页文本上的时间的平均值作为用户在该页文本的停留时间,可以更准确的体现出该页文本对用户的注意力吸引程度。
94.在一个例子中,用户在目标文本的每一页文本的停留时间,通过以下方式确定:
95.s202、获取多个用户停留在同一页文本上的时间和用户的信息,所述用户的信息包括用户的账户名或者用户的ip地址。
96.s204、根据用户的信息查询用户的权重,所述用户的权重根据所述用户的浏览记录确定。
97.在一个具体的例子中,如果用户访问了大量不良内容,例如用户浏览了大量不良文本、图片、视频,则该用户的权重相对更高。
98.在一个具体的例子中,用户的浏览记录用于记录所述用户访问不良类别的文本的次数。如果用户访问了大量不良类别的文本,则该用户的权重相对更高。
99.s206、根据用户的权重,对多个用户停留在同一页文本上的时间进行加权平均,将加权平均后的结果作为所述用户在该页文本的停留时间。
100.在该例子中,当用户更爱好访问不良内容时,其权重更高,根据用户的权重确定用户在每一页文本的停留时间,可以更准确的体现出该页文本对于喜好访问不良内容的用户的吸引程度,使得最终的分类结果更为准确可靠。
101.s300、获得所述文本内容的语义表达,获得所述用户行为的文本表达。
102.在一个例子中,在步骤s300中,获得文本内容的语义表达,包括步骤s312-s316:
103.s312、将目标文本的文本内容进行分页,得到每一页文本的文本向量。s314、利用每一页文本的文本向量得到所述文本内容的语义矩阵。
104.也就是说,目标文本的每一页文本的文本向量一起构成所述文本内容的语义矩阵,也即,所述文本内容的语义矩阵中包含目标文本的每一页文本的文本向量。
105.在一个例子中,在将目标文本的文本内容进行分页后,生成文本内容的语义矩阵的过程可以包括步骤s3011-s3013:
106.s3011、将目标文本的每一页文本输入至检测模型的分词子模型中,通过分词子模型对每一页文本进行分词处理,根据词典将每一页文本中的词映射为词id(identity,身份
标识),从而将每一页文本转换为词id组成的序列。
107.在一个例子中,目标文本是中文文本,分词子模型可以采用jieba分词算法,jieba分词算法是一种针对中文进行分析的算法。
108.s3012、将每一页文本转换得到的词id组序列输入至检测模型的词向量提取子模型中,通过词向量提取子模型生成每一页文本的词向量矩阵。一页文本的词向量矩阵中含有与该页文本映射出的词id一一对应的词向量,该词向量可以是嵌入式向量,嵌入式向量可以更好的体现词和词之间的关系。
109.s3013、将每一页文本的词向量矩阵输入至检测模型的池化子模型中进行平均池化操作,即将每一页的词向量矩阵在词向量的维度做平均得到一个新的向量,该新的向量即为该页文本的特征向量。一页文本的特征向量和词向量的维度是相同的。
110.目标文本的每一页文本的特征向量共同组成了文本内容的语义矩阵。
111.在一个例子中,根据目标文本的文本内容生成文本内容的语义矩阵,也以使用独立于检测模型的分词模型、词向量提取模型、池化模型实现。也就是说,该检测模型可以不负责生成文本内容的语义矩阵,直接向该检测模型输入文本内容的语义矩阵进行相关检测处理。
112.s316、根据所述文本内容的语义矩阵得到所述文本内容的全局语义信息作为所述文本内容的语义表达。
113.在一个例子中,获得每一页文本的注意力分布以确定每一页文本的重要程度,则根据所述文本内容的语义矩阵得到所述文本内容的全局语义信息作为所述文本内容的语义表达,可以是:利用所述每一页文本的注意力分布对所述全局语义信息进行加权处理后作为所述文本内容的语义表达。
114.在一个例子中,根据所述文本内容的语义矩阵得到所述文本内容的全局语义信息作为所述文本内容的语义表达,可以是:将文本内容的语义矩阵输入至检测模型的第一编码子模型中,由第一编码子模型建模目标文本的全局语义信息,得到所述文本内容的全局语义信息作为所述文本内容的语义表达。
115.第一编码子模型可以使用双向rnn网络实现,通过双向rnn网络,可以深度的考虑每一页面的前后页面对该页面的影响。rnn为递归神经网络(recurrent neural network,rnn),是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。
116.在一个例子中,在步骤s300中,获得所述用户行为的文本表达,包括步骤s322-s324:
117.s322、根据所述用户在每一页文本的停留时间计算所述用户对于目标文本的注意力分布。
118.s324、利用所述用户对于目标文本的注意力分布对所述文本内容的语义矩阵进行加权处理,得到所述用户行为的文本表达。
119.用户在一页文本上的停留时间并不完全等于用户阅读该页文本的时间,例如,用户可能有事离开忘记关闭页面,导致该页面的停留时间过长。在一个例子中,用户在目标文本的各页文本上的停留时间,一起构成目标文本的时间序列。将目标文本的时间序列输入至检测模型的第二编码子模型中,由第二编码子模型对目标文本的时间序列进行平滑处
理,减少个别异常停留时间的影响,使得第二编码矩阵可以更好地体现该目标文本对人类注意力的吸引力。
120.在一个例子中,第二编码子模型可以使用双向rnn网络实现。
121.在另一个例子中,该第二编码子模型可以使用简单平均算法或者加权移动平均算法实现。
122.s400、根据所述文本内容的语义表达和所述用户行为的文本表达,对所述目标文本进行预测,得到所述目标文本的类别。
123.在一个例子中,步骤s400根据所述文本内容的语义表达和所述用户行为的文本表达,对目标文本进行预测,得到目标文本的类别,包括步骤s402-s406:
124.s402、根据所述文本内容的语义表达得到第一编码矩阵,根据所述用户行为的文本表达得到所述第二编码矩阵。
125.文本内容的语义表达可以为向量矩阵形式。在一个例子中,文本内容的语义表达作为第一编码矩阵。在一个例子中,为了便于后续的预测运算,对文本内容的语义表达进行再次编码处理,得到第一编码矩阵。例如,对文本内容的语义表达进行压缩编码处理,得到第一编码矩阵。
126.用户行为的文本表达可以为向量矩阵形式。在一个例子中,用户行为的文本表达作为第二编码矩阵。在一个例子中,为了便于后续的预测运算,对用户行为的文本表达进行再次编码处理,得到第二编码矩阵。例如,对用户行为的文本表达进行压缩编码处理,得到第二编码矩阵。
127.s404、对所述第一编码矩阵和所述第二编码矩阵进行组合编码,得到联合编码矩阵。
128.在一个例子中,对第一编码矩阵和第二编码矩阵进行组合编码,得到联合编码矩阵,可以通过以下步骤实现:
129.s4041、对第一编码矩阵和第二编码矩阵进行拼接,得到第三编码矩阵。
130.s4042、对第三编码矩阵进行重新编码,得到联合编码矩阵。
131.在该例子中,将第三编码矩阵输入至检测模型的第三编码子模型中,由第三编码子模型生成联合编码矩阵。在一个例子中,该第三编码子模型可以使用双向rnn网络实现。
132.本公开实施例中提及的双向rnn网络可以采用lstm(long short term memory networks,长短期记忆网络)、gru(gate recurrent unit,基于门控机制的循环神经网络)或者sru(simple recurrent units,简单循环单元网络)实现。
133.s406、使用所述联合矩阵编码进行预测,得到目标文本的类别。
134.本公开实施例提供的文本检测方法,使用联合编码矩阵进行预测,同时考虑了目标文本的内容和目标文本的页面阅读时长,在目标文本为相对隐晦的不良内容时,也能够比较可靠地将其识别出来。此外,目标文本的页面阅读时长中蕴含着大量的信息,可以极大的提高检测的效率。
135.下面以一个例子说明对步骤s406、使用联合编码矩阵进行预测的过程进行说明。该例子中,步骤s406包括步骤s4061-s4064。在该例子中,可以基于注意力机制进行预测,注意力机制是一个可以专注于输入内容的某一子集(或特征)的神经网络,通过注意力机制可以得到输入内容每一个部分的重要性分布。
136.s4061、基于注意力机制,根据第一编码矩阵确定目标文本的第一注意力分布。根据文本内容的语义矩阵和第一注意力分布,得到目标文本的基于第一注意力分布的表达。根据第一注意力分布,对文本内容的语义矩阵进行加权求和,得到目标文本的基于第一注意力分布的表达。
137.基于注意力机制,根据第二编码矩阵确定目标文本的第二注意力分布。根据文本内容的语义矩阵和第二注意力分布,得到目标文本的基于第二注意力分布的表达。根据第二注意力分布,对文本内容的语义矩阵进行加权求和,得到目标文本的基于第二注意力分布的表达。
138.基于注意力机制,根据联合编码矩阵确定目标文本的第三注意力分布。根据文本内容的语义矩阵和第三注意力分布,得到目标文本的基于第三注意力分布的表达。根据第三注意力分布,对文本内容的语义矩阵进行加权求和,得到目标文本的基于第三注意力分布的表达。
139.在一个具体的例子中,分别通过检测模型的第一注意力子模型、第二注意力子模型、第三注意力子模型,确定上述基于第一注意力分布的表达、基于第二注意力分布的表达、基于第二注意力分布的表达。
140.可以看出,第一注意力是基于内容语义的注意力,第二注意力是基于人类阅读行为的注意力,第三注意力是基于内容语义和人类阅读行为的联合注意。目标文本的基于第一注意力分布的表达,是与内容语义有关的表达。目标文本的基于第二注意力分布的表达,是与人类阅读行为有关的表达。目标文本的基于第三注意力分布的表达,是与内容语义和人类阅读行为均有关的表达。
141.s4062、对目标文本的基于第一注意力的表达、基于第二注意力的表达、基于第三注意力的表达进行平均,得到目标文本的第一目标表达。对目标文本的基于第一注意力的表达、基于第二注意力的表达进行平均,得到目标文本的第二目标表达。
142.s4063、对目标文本的第一目标表达、第二目标表达、基于第一注意力的表达、基于第二注意力的表达、基于第三注意力的表达进行拼接,得到目标文本的第三目标表达。
143.s4064、使用目标文本的第三目标表达进行预测,得到目标文本的类别。
144.也就是说,通过对目标文本的第一目标表达、第二目标表达、基于第一注意力的表达、基于第二注意力的表达、基于第三注意力的表达进行联合学习,得到目标文本的类别。
145.在一个例子中,将目标文本的第三目标表达输入至检测模型的预测子模型中,通过预测子模型进行预测,得到目标文本的类别。
146.在一个例子中,预测子模型采用全连接网络实现。
147.下面说明在应用该检测模型对目标文本进行预测之前,该检测模型的训练过程:
148.获取样本集,所述样本集中包括正样本和负样本。
149.所述正样本由含有不良内容的样本文本的相关数据构成,所述负样本由不含有不良内容的样本文本的相关数据构成。样本文本是否含有不良内容,可以是预先通过人工识别标注。也就是说,正样本的真实类别为不良类别,例如对应于标签“1”。负样本的真实类别为非不良类别,例如对应于标签“0”。
150.样本包括该样本对应的样本文本的页面的内容和页面的停留时间。
151.将样本文本集中的样本输入对检测模型中,使用样本的真实类别作为监督,对检
测模型进行迭代训练。
152.在一个例子中,检测模型从输入到输出可以是一个端到端的神经网络框架,将交叉熵作为目标函数,利用随机梯度下降法进行迭代训练。
153.梯度下降法是迭代法的一种,可以用于求解最小二乘问题,适用于无约束优化问题。
154.在一个例子中,在检测模型包括分词子模型、词向量提取子模型、池化子模型的情况下,样本的词向量的初始值可以通过随机初始化确定,在训练过程中随着训练进行学习。
155.在一个例子中,可以基于tensorflow开源深度学习计算框架来训练检测模型。tensorflow是一个基于数据流编程(dataflow programming)的符号数学系统,可以被应用于机器学习算法的编程实现。
156.本公开实施例提供的文本检测方法,引入了用户的阅读时长作为考虑,通过基于内容语义有关的注意力、基于人类阅读行为的注意力、基于联合注意力的相关表达,使不同注意力关注的重点各有侧重,提升了最终预测结果的准确性。此外,还可以快速找到目标文本的重点,提高检测效率。
157.在一个例子中,在获取目标文本的文本内容之前,该文本检测方法还包括步骤s100。步骤s100用于确定一个文本是否作为目标文本。
158.在一个例子中,步骤s100包括步骤s111-s114。
159.s111、获取第一文本的用户的信息,所述用户的信息包括用户的账户名或者用户的ip地址。
160.s112、根据第一文本的用户的信息查找用户的属性,所述用户的属性根据所述用户的浏览记录确定。
161.在一个具体的例子中,如果用户访问了大量不良内容,例如用户浏览了大量不良文本、图片、视频,则该用户的属性为“异常”,否则该用户的属性为“正常”。
162.在一个具体的例子中,用户的浏览记录用于记录所述用户访问不良类别的文本的次数。如果用户访问了大量不良类别的文本,则该用户的属性为“异常”,否则该用户的属性为“正常”。
163.s113、确定第一文本的具有预设属性的用户的数量。
164.s114、在第一文本的具有预设属性的用户的数量大于第一预设阈值的情况下,将所述第一文本作为所述目标文本。
165.在一个具体的例子中,确定第一文本的具有预设属性的用户的数量,也就是确定第一文本的属性为“异常”的用户的数量。当第一文本吸引了大量属性为“异常”的用户时,说明第一文本为不良文本的可能性比较高,需要对该第一文本进行文本检测,将该第一文本作为目标文本。通过这种方式,可以降低需要预测的文本的数量,将计算资源优先应用到更可疑的文本上,从而节省计算资源、提升整体预测速度。
166.在一个例子中,步骤s100包括步骤s121-s125。
167.s121、获取第一文本的每一页文本的字数和用户在第一文本的每一页文本上的停留时间,计算用户在第一文本的每一页文本上的停留时间和字数的比值。
168.对于一页文本来说,当用户在该页文本的停留时间和该页文本的字数的比值过高时,说明该页文本含有不良内容的可能性较高。
169.s122、获取第一文本的用户的信息,所述用户的信息包括用户的账户名或者用户的ip地址。
170.s123、根据第一文本的用户的信息查找用户的属性,所述用户的属性根据所述用户的浏览记录确定。
171.在一个具体的例子中,如果用户访问了大量不良内容,例如用户浏览了大量不良文本、图片、视频,则该用户的属性为“异常”,否则该用户的属性为“正常”。
172.在一个具体的例子中,用户的浏览记录用于记录所述用户访问不良类别的文本的次数。如果用户访问了大量不良类别的文本,则该用户的属性为“异常”,否则该用户的属性为“正常”。
173.s124、确定第一文本的具有预设属性的用户的数量。
174.s125、在第一文本的具有预设属性的用户的数量大于第一预设阈值并且存在至少一页文本的所述比值大于第二预设阈值的情况下,将所述第一文本作为所述目标文本。
175.相较于前一个例子,该例子进一步结合用户在一页文本的停留时间和该页文本的字数的比值,在第一文本同时满足具有预设属性的用户的数量大于第一预设阈值、存在至少一页文本的所述比值大于第二预设阈值的条件时,说明第一文本为不良文本的可能性比较高,需要对该第一文本进行文本检测,将该第一文本作为目标文本。通过这种方式,可以进一步降低需要预测的文本的数量,将计算资源优先应用到更可疑的文本上,从而节省计算资源、提升整体预测速度。
176.在一个例子中,步骤s100包括步骤s131-s136。
177.s131、确定多个候选文本。
178.s132、获取候选文本的用户的信息,所述用户的信息包括用户的账户名或者用户的ip地址。
179.s133、根据候选文本的用户的信息查找用户的属性,所述用户的属性根据所述用户的浏览记录确定。
180.s134、确定候选文本的具有预设属性的用户的数量。
181.在一个具体的例子中,确定候选文本的具有预设属性的用户的数量,也就是确定候选文本的属性为“异常”的用户的数量。
182.s135、对多个候选文本,根据候选文本的具有预设属性的用户的数量从高到低对多个候选文本进行排序。
183.s136、将排序靠前的候选文本作为目标文本,或者,按照排序先后将候选文本逐一作为目标文本。
184.将排序靠前的候选文本作为目标文本,例如可以是将排序在前30%的候选文本作为目标文本。通过这种方式,可以降低需要预测的文本的数量,从而节省计算资源。
185.按照排序先后将候选文本逐一作为目标文本,可以优先检测更为可疑的候选文本,从而更好地利用计算资源。
186.在一个例子中,在步骤s400预测出目标文本的类别后,所述方法还包括步骤s500。
187.s500、在目标文本的类别为不良类别时,对目标文本的用户的浏览记录进行更新;所述用户的浏览记录用于记录所述用户访问不良类别的文本的次数。
188.通过这种方式可以更新用户的浏览记录,利用更新后的用户的浏览记录可以重新
确定用户的权重、用户的属性,有利于后续对新的目标文本进行预测。
189.《第二实施例》
190.第二实施例和第一实施例的不同之处在于:在第二实施例中,使用联合编码矩阵进行预测的过程为:
191.基于注意力机制,根据第一编码矩阵确定目标文本的第一注意力分布;根据文本内容的语义矩阵和第一注意力分布,得到目标文本的基于第一注意力分布的表达。
192.基于注意力机制,根据第二编码矩阵确定目标文本的第二注意力分布;根据文本内容的语义矩阵和第二注意力分布,得到目标文本的基于第二注意力分布的表达。
193.基于注意力机制,根据联合编码矩阵确定目标文本的第三注意力分布;根据文本内容的语义矩阵和第三注意力分布,得到目标文本的基于第三注意力分布的表达。
194.对目标文本的基于第一注意力的表达、基于第二注意力的表达、基于第三注意力的表达进行平均,得到目标文本的第一目标表达。
195.对目标文本的第一目标表达、基于第一注意力的表达、基于第二注意力的表达、基于第三注意力的表达进行拼接,得到目标文本的第四目标表达。
196.使用目标文本的第四目标表达进行预测,得到目标文本的类别。
197.本公开实施例提供的文本检测方法,引入了用户的阅读时长作为考虑,通过基于内容语义有关的注意力、基于人类阅读行为的注意力、基于联合注意力的相关表达,使不同注意力关注的重点各有侧重,提升了最终预测结果的准确性。此外,还可以快速找到目标文本的重点,提高检测效率。
198.《第三实施例》
199.第三实施例和第一实施例的不同之处在于:在第三实施例中,使用联合编码矩阵进行预测的过程为:
200.基于注意力机制,根据联合编码矩阵确定目标文本的第三注意力分布。根据文本内容的语义矩阵和第三注意力分布,得到目标文本的基于第三注意力分布的表达。
201.使用目标文本的基于第三注意力分布的表达进行预测,得到目标文本的类别。
202.本公开实施例提供的文本检测方法,引入了用户的阅读时长作为考虑,通过基于联合注意力的相关表达,可以提升最终预测结果的准确性。
203.《文本检测设备》
204.图4是本公开的一个实施例提供的文本检测设备30的示意图,该文本检测设备30包括存储器34和处理器32。
205.存储器34中存储有计算机指令,计算机指令被处理器32执行时实现前述任一项实施例的文本检测方法。
206.该文本检测设备可以为图1中的文本检测服务器。
207.该文本检测设备可以为网络上的文本内容提供商,如网络小说平台、新闻平台、评论网站等提供文本检测服务。
208.《计算机可读存储介质》
209.本发明实施例公开了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现前述任一实施例的文本检测方法。
210.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部
分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
211.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
212.本说明书的实施例可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本说明书实施例的各个方面的计算机可读程序指令。
213.计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
214.这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
215.用于执行本说明书的实施例操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本说明书实施例的各个方面。
216.这里参照根据本说明书实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本说明书实施例的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
217.这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
218.也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
219.附图中的流程图和框图显示了根据本说明书的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
220.以上已经描述了本说明书的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1