基于强化学习的文本审核方法和文本审核系统与流程

文档序号：33290255发布日期：2023-02-28 18:59阅读：55来源：国知局

1.本技术涉及传输文本识别技术领域，具体涉及一种基于强化学习的文本审核方法和文本审核系统。

背景技术：

2.在日常中文写作中，人们难以避免出现各种错误，现有传统自动化文本纠错采取的方法多为：设定包含大量容易被拼写错误汉字的混淆文字集，当待纠错的文档中文字与混淆文字集中文字匹配时，用混淆文字集中的文字替换，但这种机械地匹配方式未考虑上下文语义，效果不甚理想；
3.近年来，有研究者采用预训练语言模型(例如bert)结合微调方式进行文本纠错，在实施中，将容易出错的文字用错误文字进行遮掩(mask)替换来构造负训练样本，例如在样本“中国是拥有5000年历史的文明古国”中，将“历史”替换为“厉史”，然后在对预训练语言模型进行微调训练，以此识别错误文字并纠正；
4.然而，现有方法中预训练语言模型主要针对某个位置的错别字进行文本纠正任务，但现实写作中针对单一出位置的错别字出现的错误不仅是将同一位置的字写错，而且还会有重复字、遗漏字等错误类型，面对不同的错误类型时，会导致现有文本审核方法的实践效果和泛化性能较差。

技术实现要素：

5.本技术实施例提供一种基于强化学习的文本审核方法和文本审核系统，至少能保证，本技术方案通过动作选择器得到目标文本序列的纠错动作信息，根据纠错动作信息对待目标文本序列进行纠正处理，同时通过评价器利用强化学习使得动作选择器能获取更为精准的纠错动作信息，使得文本审核方法能够更好地识别各类文本错误，提高文本审核方法的实践效果和泛化性能。
6.第一方面，本技术实施例提供了一种基于强化学习的文本审核方法，应用于文本审核系统，所述文本审核系统包括编码器、动作选择器、解码器和评价器，所述方法包括：
7.通过所述编码器从预设训练语料集中获取目标文本序列，并根据所述目标文本序列得到编码向量；
8.将所述编码向量发送至所述动作选择器，以使所述动作选择器对所述编码向量进行神经网络变换处理，得到纠错动作信息，其中，所述动作选择器中神经网络通过强化学习所得，所述强化学习的动作集合、动作、状态和奖励值分别定义为，所述纠错动作信息对应的纠错动作集、所述纠错动作集中动作、第一纠正文本序列和所述预设训练语料集的样本错误率；
9.将所述编码向量和所述纠错动作信息发送至所述解码器，以使所述解码器根据所述纠错动作信息对所述编码向量对应的目标文本序列进行纠错处理，得到所述第一纠正文本序列；
10.将所述第一纠正文本序列输入所述编码器、所述动作选择器和所述解码器，得到第二纠正文本序列，以使评价器根据所述第一纠正文本序列和所述第二纠正文本序列得到f1分数，使得所述动作选择器根据所述f1分数和所述样本错误率更新所述奖励值，并对所述神经网络进行强化学习训练。
11.在一些实施例中，所述纠错动作集包括复制字符动作、删除字符动作和生产字符动作。
12.在一些实施例中，所述预设训练语料集包括多个样本对，所述样本对包括错误文本序列和正确文本序列，所述预设训练语料集的样本错误率的生成方法包括：
13.根据所述预设训练语料集中多个所述错误文本序列和所述正确文本序列得到，总样本数、多余字错误比例、漏错字错误比例和错别字错误比例；
14.根据所述总样本数、所述多余字错误比例、所述漏错字错误比例和所述错别字错误比例得到所述样本错误率。
15.在一些实施例中，所述神经网络分为目标网络和辅助网络，所述目标网络和所述辅助网络包括第一隐藏层权重矩阵、第二隐藏层权重矩阵和全连接层，所述第一隐藏层权重矩阵和第二隐藏层权重矩阵的激活函数为线性整流函数。
16.在一些实施例中，在对所述神经网络进行强化学习训练的过程中，还包括：
17.根据所述目标网络、所述辅助网络和更新所述奖励值对应的奖励值函数，对所述神经网络中的目标函数进行深度q网络优化训练。
18.在一些实施例中，所述目标网络为目标q网络，所述辅助网络与所述目标q网络的网络结构相同，在所述对所述神经网络中的目标函数进行深度q网络优化训练的过程中，还包括：
19.在所述目标q网络记过n次迭代后，将所述目标q网络的参数整体赋值于所述辅助网络。
20.在一些实施例中，在所述对所述神经网络中的目标函数进行深度q网络优化训练的过程中，还包括：
21.采用贪心策略得到贪心概率和非贪心概率，以所述贪心概率根据所述神经网络的强化学习状态和动作估值函数得到所述强化学习的动作，以非贪心概率根据所述强化学习的动作集合得到所述强化学习的动作。
22.第二方面，本技术实施例提供了一种文本审核系统，所述文本审核系统包括编码器、动作选择器、解码器和评价器；
23.所述编码器，用于从预设训练语料集中获取目标文本序列，并根据所述目标文本序列得到编码向量，并将所述编码向量发送至所述动作选择器；
24.所述动作选择器对所述编码向量进行神经网络变换处理，得到纠错动作信息，并将所述编码向量和所述纠错动作信息发送至所述解码器，其中，所述动作选择器中神经网络通过强化学习所得，所述强化学习的动作集合、动作、状态和奖励值分别定义为，所述纠错动作信息对应的纠错动作集、所述纠错动作集中动作、第一纠正文本序列和所述预设训练语料集的样本错误率；
25.所述解码器，根据所述纠错动作信息对所述错误文本序列进行纠错处理，得到第一纠正文本序列；
26.所述评价器，用于在所述第一纠正文本序列输入所述编码器、所述动作选择器和所述解码器，得到第二纠正文本序列的情况下，根据所述第一纠正文本序列和所述第二纠正文本序列得到f1分数，以使得所述动作选择器根据所述f1分数和所述样本错误率更新所述奖励值，并对所述神经网络进行强化学习训练。
27.第三方面，本技术实施例提供了一种控制器，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任意一项实施例所述的基于强化学习的文本审核方法。
28.第四方面，本技术实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行如第一方面中任意一项实施例所述的基于强化学习的文本审核方法。
29.本技术至少具有以下有益效果：基于强化学习的文本审核方法，应用于文本审核系统，所述文本审核系统包括编码器、动作选择器、解码器和评价器，所述方法通过所述编码器从预设训练语料集中获取目标文本序列，并根据所述目标文本序列得到编码向量，将所述编码向量发送至所述动作选择器，以使所述动作选择器对所述编码向量进行神经网络变换处理，得到纠错动作信息，其中，所述动作选择器中神经网络通过强化学习所得，所述强化学习的动作集合、动作、状态和奖励值分别定义为，所述纠错动作信息对应的纠错动作集、所述纠错动作集中动作、第一纠正文本序列和所述预设训练语料集的样本错误率，将所述编码向量和所述纠错动作信息发送至所述解码器，以使所述解码器根据所述纠错动作信息对所述编码向量对应的目标文本序列进行纠错处理，得到所述第一纠正文本序列，将所述第一纠正文本序列输入所述编码器、所述动作选择器和所述解码器，得到第二纠正文本序列，以使评价器根据所述第一纠正文本序列和所述第二纠正文本序列得到f1分数，使得所述动作选择器根据所述f1分数和所述样本错误率更新所述奖励值，并对所述神经网络进行强化学习训练，其中，本技术方案通过动作选择器得到目标文本序列的纠错动作信息，根据纠错动作信息对待目标文本序列进行纠正处理，同时通过评价器利用强化学习使得动作选择器能获取更为精准的纠错动作信息，使得文本审核方法能够更好地识别各类文本错误，提高文本审核方法的实践效果和泛化性能。
附图说明
30.图1为本技术一实施例提出的基于强化学习的文本审核方法的流程图；
31.图2为本技术另一实施例提出的基于强化学习的文本审核方法中，预设训练语料集的样本错误率的生成方法的流程图；
32.图3为本技术另一实施例提出的基于强化学习的文本审核方法中，对所述神经网络中的目标函数进行深度q网络优化训练的过程中附加方法的流程图；
33.图4为本技术另一实施例提出的基于强化学习的文本审核方法中，对神经网络进行强化学习训练的过程中附加方法的流程图；
34.图5为本技术另一实施例提出的基于强化学习的文本审核方法中，对所述神经网络中的目标函数进行深度q网络优化训练的过程中附加方法的流程图；
35.图6为本技术另一实施例提出的控制器的结构图。
具体实施方式
36.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
37.在一些实施例中，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语第一、第二等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
38.在日常中文写作中，人们难以避免出现各种错误，现有传统自动化文本纠错采取的方法多为：设定包含大量容易被拼写错误汉字的混淆文字集，当待纠错的文档中文字与混淆文字集中文字匹配时，用混淆文字集中的文字替换，但这种机械地匹配方式未考虑上下文语义，效果不甚理想；近年来，有研究者采用预训练语言模型(例如bert)结合微调方式进行文本纠错，在实施中，将容易出错的文字用错误文字进行遮掩(mask)替换来构造负训练样本，例如在样本“中国是拥有5000年历史的文明古国”中，将“历史”替换为“厉史”，然后在对预训练语言模型进行微调训练，以此识别错误文字并纠正；然而，现有方法中该类模型主要针对某个位置的错别字进行文本纠正任务，但现实写作中针对单一出位置的错别字出现的错误不仅是将同一位置的字写错，而且还会有重复字、遗漏字等错误类型，面对不同的错误类型时，会导致现有文本审核方法的实践效果和泛化性能较差。
39.为至少解决上述问题，本技术公开了一种基于强化学习的文本审核方法和文本审核系统，其中，基于强化学习的文本审核方法，应用于文本审核系统，文本审核系统包括编码器、动作选择器、解码器和评价器，方法通过编码器从预设训练语料集中获取目标文本序列，并根据目标文本序列得到编码向量，将编码向量发送至动作选择器，以使动作选择器对编码向量进行神经网络变换处理，得到纠错动作信息，其中，动作选择器中神经网络通过强化学习所得，强化学习的动作集合、动作、状态和奖励值分别定义为，纠错动作信息对应的纠错动作集、纠错动作集中动作、第一纠正文本序列和预设训练语料集的样本错误率，将编码向量和纠错动作信息发送至解码器，以使解码器根据纠错动作信息对编码向量对应的目标文本序列进行纠错处理，得到第一纠正文本序列，将第一纠正文本序列输入编码器、动作选择器和解码器，得到第二纠正文本序列，以使评价器根据第一纠正文本序列和第二纠正文本序列得到f1分数，使得动作选择器根据f1分数和样本错误率更新奖励值，并对神经网络进行强化学习训练，其中，本技术方案通过动作选择器得到目标文本序列的纠错动作信息，根据纠错动作信息对待目标文本序列进行纠正处理，同时通过评价器利用强化学习使得动作选择器能获取更为精准的纠错动作信息，使得文本审核方法能够更好地识别各类文本错误，提高文本审核方法的实践效果和泛化性能。
40.下面结合附图，对本技术实施例作进一步描述。
41.参考图1，图1为本技术另一实施例提出的基于强化学习的文本审核方法的流程图，在一些实施例中，基于强化学习的文本审核方法，应用于文本审核系统，文本审核系统包括编码器、动作选择器、解码器和评价器，基于强化学习的文本审核方法包括但不限于有以下步骤s110、步骤s120、步骤s130和步骤s140；
42.步骤s110，通过编码器从预设训练语料集中获取目标文本序列，并根据目标文本
序列得到编码向量；
43.步骤s120，将编码向量发送至动作选择器，以使动作选择器对编码向量进行神经网络变换处理，得到纠错动作信息，其中，动作选择器中神经网络通过强化学习所得，强化学习的动作集合、动作、状态和奖励值分别定义为，纠错动作信息对应的纠错动作集、纠错动作集中动作、第一纠正文本序列和预设训练语料集的样本错误率；
44.步骤s130，将编码向量和纠错动作信息发送至解码器，以使解码器根据纠错动作信息对编码向量对应的目标文本序列进行纠错处理，得到第一纠正文本序列；
45.步骤s140，将第一纠正文本序列输入编码器、动作选择器和解码器，得到第二纠正文本序列，以使评价器根据第一纠正文本序列和第二纠正文本序列得到f1分数，使得动作选择器根据f1分数和样本错误率更新奖励值，并对神经网络进行强化学习训练。
46.在一些实施例中，本技术中文本审核系统由编码器、解码器和动作选择器、评价器组成，其中，编码器和解码器分别采用变换器transformer模型中编码encoder和解码decoder部分作为网络结构，通过编码-解码机制使文本序列向量化，使本技术中文本审核系统上的文本审核方法可以高效的并行化，提高文本纠错速度，评价器负责对系统中使用算法进行性能上的评估，将待纠错的文本序列输入到文本审核系统中，由动作选择器负责从原始文档中复制字符、删除字符和新生成字符几种动作中选择特定动作；利用强化学习使得系统能够学会选择不同的动作，使得模型能够更好地识别各类错误，泛化性能更强。
47.在一些实施例中，具体的，训练语料集由多个样本对组成，一个样本对的构成形式为《xi,yi》。xi表示一个包含错别字、遗漏、重复字等错误在内的错误文本序列，yi表示xi对应的正确文本序列。例如《中国是一个拥有5000厉史的闻名古国，中国是一个拥有5000年历史的文明古国》为一个样本。
48.在一些实施例中，编码器接受xi作为输入后，通过编码得到输入序列对应的编码向量he。动作选择器接受向量he，经过神经网络变换，输出每种动作被选择的概率，其中，每种动作被选择的概率即为纠错动作信息，解码器与动作选择器通信，接受he作为输入，然后输出一个向量hd，向量hd即为第一纠正文本序列。
49.在一些实施例中，纠错动作集包括复制字符动作、删除字符动作和生产字符动作，纠错动作集对应强化学习的动作集合，具体的，纠错动作集包括三种动作，分别为：复制字符(直接从当前样本对中的xi中选择一个字，即意味着xi中该位置的字符是正确的)、删除字符(即意味着xi中该位置的字符是多余的)、生成字符(从解码器中产生一个新字，从实践来说，遗漏某个字和某个字是错别字均应采取生成字符操作)。
50.在一些实施例中，纠错动作集中对应的复制、删除和生产的字符，通过以下方式得出，对解码器输入的编码向量he或输出的隐藏向量hd进行非线性变化，然后采用softmax函数操作，得到预置词汇表中每个字符对应的权重(所有字符权重和为1)，然后通过argmax操作，在该步输出从预置词汇表中选择的权重最大的字符，该字符即为复制、删除或生成字符。
51.在一些实施例中，将编码向量和纠错动作信息发送至解码器，以使解码器根据纠错动作信息对编码向量对应的目标文本序列进行纠错处理，得到第一纠正文本序列包括以下过程：纠错动作信息包括编码向量对应的每种动作被选择的概率信息，概率信息由经过强化学习的神经网络(包括目标网络和辅助网络)所得到，将编码向量和概率信息发送至解
码器，解码器根据概率信息得到权重最大的纠错动作，解码器通过上述实施例中方法得到待复制、删除和生产的字符信息，同时由于在文本纠错过程中每次是从样本序列中第一个字开始，系统会记录每个动作所在的位置信息，进而根据上述纠错动作、字符信息和位置信息得到纠错或的纠正文本序列，(纠正文本序列包括第一纠正文本序列和第二纠正文本序列)。
52.在一些实施例中，定义强化学习的动作为每次从动作集合中按照概率选择一种动作，定义强化学习的状态为进行一次动作后形成的序列，即执行动作后得到的纠正文本序列。
53.在一些实施例中，f1分数(f1-score)是统计学中用来衡量二分类模型精确度的一种指标，同时兼顾了分类模型的精确率和召回率，可以有效评估本技术中输出的文本纠错结果是否准确，动作选择器根据f1分数和样本错误率更新奖励值包括，将本次动作得到的样本(对应第一纠正文本序列)，输入到文本审核系统，得到第二纠正文本序列，通过评价器在一轮训练后根据第一纠正文本序列和第二纠正文本序列得到f1值，若较上一轮训练后的f1值有提高，则给予奖励，奖励值为：若较上一轮训练后的f1值有降低，则给予惩罚
54.在一些实施例中，本技术方案通过动作选择器得到目标文本序列的纠错动作信息，根据纠错动作信息对待目标文本序列进行纠正处理，同时通过评价器利用强化学习使得动作选择器能获取更为精准的纠错动作信息，达到将待纠错的文本序列输入到文本审核系统中，由动作选择器负责选择操作：从原始文档中复制字符、删除字符和新生成字符；利用强化学习使得系统能够学会选择不同的动作，使得模型能够更好地识别各类错误，泛化性能更强的效果。
55.参考图2，图2为本技术另一实施例提出的基于强化学习的文本审核方法中，预设训练语料集的样本错误率的生成方法的流程图，在一些实施例中，预设训练语料集包括多个样本对，样本对包括错误文本序列和正确文本序列，预设训练语料集的样本错误率的生成方法包括但不限于有以下步骤s210和步骤s220；
56.步骤s210，根据预设训练语料集中多个错误文本序列和正确文本序列得到，总样本数、多余字错误比例、漏错字错误比例和错别字错误比例；
57.步骤s220，根据总样本数、多余字错误比例、漏错字错误比例和错别字错误比例得到样本错误率。
58.在一些实施例中，定义奖励值为：统计在训练语料中各种错误类型所占比例，即样本错误率，具体的，样本错误率的生成方法如下：设总样本数为total_sample，出现多余字错误比例为d_r、出现遗漏字错误比例为s_r、错别字比例为c_r、得到总的错误比例t_cr＝(d_r+s_r+c_r)*total_sample，其中，多余字错误比例为d_r、出现遗漏字错误比例为s_r、错别字比例为c_r可以通过对比错误文本序列和对应的正确文本序列得出。
59.在一些实施例中，神经网络分为目标网络和辅助网络，目标网络和辅助网络包括第一隐藏层权重矩阵、第二隐藏层权重矩阵和全连接层，第一隐藏层权重矩阵和第二隐藏层权重矩阵的激活函数为线性整流函数。
60.在一些实施例中，对目标网络和辅助网络而言，其输入向量为编码器的输出向量he，设隐藏层权重矩阵为w1，采用relu激活函数，偏置量为b1，输出o1＝relu(w1*v+b1)；设第二隐藏层权重矩阵为w2，偏置量为b2，输出o2＝relu(w2*o1+b2)，再通过softmax层得到o3，o3即q
θ
(s,a)和其中，q
θ
(s,a)和分别对应目标网络和辅助网络，实践中还可以采用更多隐藏层来获得更好效果，采用机器学习领域常见的adam梯度下降方法对目标网络和辅助网络进行参数的优化。
61.参考图3，图3为本技术另一实施例提出的基于强化学习的文本审核方法中，对神经网络中的目标函数进行深度q网络优化训练的过程中附加方法的流程图，在一些实施例中，在对神经网络进行强化学习训练的过程中，包括但不限于有以下步骤s310；
62.步骤s310，根据目标网络、辅助网络和更新奖励值对应的奖励值函数，对神经网络中的目标函数进行深度q网络优化训练。
63.在一些实施例中，为了最大化动作价值得分，采用强化学习领域中dqn算法进行优化。定义待优化的目标函数为jq(θ)。r(s,a)为奖励函数(取值为上述两种可能的奖励值)，其中s为状态，a为动作，q
θ
(s,a)为目标q网络，其参数用θ表示；同理，是一个网络结构与目标q网络完全相同的辅助网络，为区别表示，其参数用θ-表示。定义衰减系数γ，目标函数jq(θ)具体函数表示如下所示:
[0064][0065]
参考图4，图4为本技术另一实施例提出的基于强化学习的文本审核方法中，对神经网络进行强化学习训练的过程中附加方法的流程图在一些实施例中，目标网络为目标q网络，辅助网络与目标q网络的网络结构相同，在对神经网络中的目标函数进行深度q网络优化训练的过程中，包括但不限于有以下步骤s410；
[0066]
步骤s410，在目标q网络记过n次迭代后，将目标q网络的参数整体赋值于辅助网络。
[0067]
在一些实施例中，在目标q网络记过n次迭代后，将目标q网络的参数整体赋值于辅助网络，其中，辅助网络不用像目标q网络，每次迭代都更新参数，而是每n次迭代后将q网络的参数整体赋值过来，提升dqn训练的稳定性。
[0068]
参考图5，图5为本技术另一实施例提出的基于强化学习的文本审核方法中，对神经网络中的目标函数进行深度q网络优化训练的过程中附加方法的流程图，在一些实施例中，在对神经网络中的目标函数进行深度q网络优化训练的过程中，包括但不限于有以下步骤s510、步骤s520和步骤s530：
[0069]
步骤s510，根据贪心策略得到贪心概率和非贪心概率；
[0070]
步骤s520，以贪心概率根据神经网络的强化学习状态和动作估值函数得到强化学习的动作；
[0071]
步骤s530，或者，以非贪心概率根据强化学习的动作集合得到强化学习的动作。
[0072]
在一些实施例中，dqn在优化时，采用ε贪心策略，设贪心概率为ε，则非贪心概率为1-ε，同时根据当前状态s和估值函数，以1-ε概率选择argmax
a∈a
q(s,a)，以概率ε从强化学习的动作集合随机选择动作，可以提高本技术中文本审核系统的强化学习训练速度和文本纠
错速度。
[0073]
在一些实施例中，本技术还提出了一种文本审核系统，文本审核系统包括编码器、动作选择器、解码器和评价器；
[0074]
编码器，用于从预设训练语料集中获取目标文本序列，并根据目标文本序列得到编码向量，并将编码向量发送至动作选择器；
[0075]
动作选择器对编码向量进行神经网络变换处理，得到纠错动作信息，并将编码向量和纠错动作信息发送至解码器，其中，动作选择器中神经网络通过强化学习所得，强化学习的动作集合、动作、状态和奖励值分别定义为，纠错动作信息对应的纠错动作集、纠错动作集中动作、第一纠正文本序列和预设训练语料集的样本错误率；
[0076]
解码器，根据纠错动作信息对错误文本序列进行纠错处理，得到第一纠正文本序列；
[0077]
评价器，用于在第一纠正文本序列输入编码器、动作选择器和解码器，得到第二纠正文本序列的情况下，根据第一纠正文本序列和第二纠正文本序列得到f1分数，以使得动作选择器根据f1分数和样本错误率更新奖励值，并对神经网络进行强化学习训练。
[0078]
在一些实施例中，还提出了一种文本审核装置，该文本审核装置设置有上述任意一项实施例的文本审核系统，使文本审核装置具备上述任意一项实施例的基于强化学习的文本审核方法的功能与效果。
[0079]
图6是本发明实施例提供的控制器的结构示意图。
[0080]
本发明的一些实施例提供了一种控制器，控制器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任意一项实施例的基于强化学习的文本审核方法，例如，执行以上描述的图1中的方法步骤s110至步骤s140、图2中的方法步骤s210至步骤s220、图3中的方法步骤s310、图4中的方法步骤s410、图5中的方法步骤s510至步骤s530。
[0081]
本发明实施例的控制器600包括一个或多个处理器610和存储器620，图6中以一个处理器610及一个存储器620为例。
[0082]
处理器610和存储器620可以通过总线或者其他方式连接，图6中以通过总线连接为例。
[0083]
存储器620作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器620可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器620可选包括相对于处理器610远程设置的存储器620，这些远程存储器可以通过网络连接至控制器600，同时，上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0084]
在一些实施例中，处理器执行计算机程序时按照预设间隔时间执行上述任意一项实施例的基于强化学习的文本审核方法。
[0085]
本领域技术人员可以理解，图6中示出的装置结构并不构成对控制器600的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
[0086]
在图6所示的控制器600中，处理器610可以用于调用存储器620中储存的基于强化学习的文本审核方法，从而实现基于强化学习的文本审核方法。
[0087]
基于上述控制器600的硬件结构，提出本发明的文本审核系统的各个实施例，同时，实现上述实施例的基于强化学习的文本审核方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例的基于强化学习的文本审核方法。
[0088]
此外，本发明实施例的还提供了一种文本审核系统，该文本审核系统包括由上述的控制器。
[0089]
在一些实施例中，由于本发明实施例的文本审核系统具有上述实施例的控制器，并且上述实施例的控制器能够执行上述实施例的基于强化学习的文本审核方法，因此，本发明实施例的文本审核系统的具体实施方式和技术效果，可以参照上述任一实施例的基于强化学习的文本审核方法的具体实施方式和技术效果。
[0090]
本发明实施例的还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于执行上述的基于强化学习的文本审核方法，例如，可使得上述一个或多个处理器执行上述方法实施例中的基于强化学习的文本审核方法，例如，执行以上描述的图1中的方法步骤s110至步骤s140、图2中的方法步骤s210至步骤s220、图3中的方法步骤s310、图4中的方法步骤s410、图5中的方法步骤s510至步骤s530。
[0091]
以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络节点上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0092]
本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机可读存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机可读存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。
[0093]
以上是对本技术的较佳实施进行了具体说明，但本技术并不局限于上述实施方式，熟悉本领域的技术人员在不违背本技术精神的前提下还可作出种种等同变形或替换，这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王伟冷洁李国辉刘成陈水辉蔡鑫林雪珊王挺蔡江有亮
技术所有人：华润数字科技有限公司
我是此专利的发明人

上一篇：用于MBR系统的板式膜的清洗剂及清洗方法与流程
上一篇：痕量物质的检测方法、检测装置、电子设备和介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。