语句文本检测方法、系统、电子设备及存储介质与流程

文档序号:25423680发布日期:2021-06-11 21:36阅读:182来源:国知局
语句文本检测方法、系统、电子设备及存储介质与流程

本申请实施例涉及文本处理技术领域,尤其涉及一种语句文本检测方法及系统。



背景技术:

自然语言处理(nlp)是人工智能的一个子领域,目标是让计算机处理或者理解自然语言。现有的解决自然语言理解问题的方法大多基于rnn,cnn以及attention注意力机制。由于attention机制无论在提取文本中跨多个词之间的表征,还是计算速度上都体现出了极大的优势,因此最新提出的解决自然语言理解问题的模型,大多基于attention机制。其中典型的方法有语言模型嵌入(elmo)、生成式预训练转换器(gpt)、基于转换器的双向编码器表示(bert)以及广义自回归预训练模型(xlnet)等。这些模型利用大量的文本和强大的计算力来实现庞大的模型预训练任务,使得预训练后的模型自身就具备高效的文本特征提取能力和语义理解能力,这些特征可以较容易的应用到下游任务,例如文本分类任务,以取得了很好的分类效果。

现有技术中,上述模型所使用的文本大多来自互联网上已有的文字语料,这些文字语料自身是结构完整,并且语义连贯的文本,基于这些文本预训练的模型可以对该类型的文本进行较精准的文本分类。但是在某些应用场景下,比如视频直播以及短视频等涉及到文字的应用场景,提取到的文本均是短视频下面的评论以及直播间的聊天内容。这些语料具有文本长短不一、文字分布不同、语法错误,并且语义不连贯的特点,因此针对这类特殊文本,常规的文本处理技术无法精准的进行语义信息的捕捉。对很长的整体语义是违规的语句,但是由于其中违规成份占比却比较少,故而无法进行精准的检测。除此之外,在违规检测场景,还存在着大量的用户违规对抗行为,如为了不被模型检测到违规,用户会在保证语义不变的情况下,对表达的内容进行变形,给违规检测带来了极大的干扰,故在语句文本表述方式变化的情况下,采用现有技术中的文本处理方式无法有效的对用户违规语句进行检测。



技术实现要素:

本申请实施例提供一种语句文本检测方法及系统,能够通过将语言表征模型来提取语句文本中的词语特征,并结合识别得到的语句主体结构来进行整体语句的理解,通过上述组合识别的方式,大大提升语句文本的违规检测准确性。

在第一方面,本申请实施例提供了一种语句文本检测方法,包括:

获取用户输入的文本信息;

通过预训练后的语言表征模型对所述文本信息进行词语特征提取以得到对应的词语特征信息;

根据句法分析模型对所述文本信息进行句法结构分析以确定所述文本信息的语句主体结构;

根据所述语句主体结构以及所述词语特征信息确定文本检测结果。

进一步的,所述根据所述语句主体结构以及所述词语特征信息确定文本检测结果包括:

根据所述语句主体结构确定文本信息中对应的主体位置;

根据所述主体位置调整对应的词语特征信息的表征权重;

根据所述表征权重以及对应的词语特征信息确定文本检测结果。

进一步的,所述语句主体结构包括主语、谓语和宾语;在所述根据所述表征权重以及对应的词语特征信息确定文本检测结果之前,还包括:

确定主语、谓语和宾语之间的第一连结关系;

根据所述第一连结关系调整对应的词语特征信息的表征权重。

进一步的,在所述确定主语、谓语和宾语之间的第一连结关系之后,还包括:

当检测到的主语、谓语和宾语中出现变形词时,确定所述变形词与文本信息中语句补充结构之间的第二连结关系,所述语句补充结构包括状语、定语和补语;

对应的,所述根据所述第一连结关系调整对应的词语特征信息的表征权重,包括:

根据所述第一连结关系和第二连结关系调整对应的词语特征信息的表征权重。

进一步的,所述文本信息包括第一文本语句和第二文本语句;

在所述根据句法分析模型对所述文本信息进行句法结构解析以确定所述文本信息的语句主体结构之后,还包括:

确定第一文本语句的语句主体结构和第二文本语句的语句主体结构之间的语句连结关系;

根据所述语句连结关系调整对应的词语特征信息的表征权重。

进一步的,在所述根据所述语句主体结构以及所述词语特征信息确定文本检测结果之后,还包括:

当所述文本检测结果为文本违规检测结果时,确定所述用户输入的文本信息包含违规语句信息。

进一步的,所述预训练后的语言表征模型通过如下步骤构建得到:

对获取的语言训练样本进行分词预处理以得到分词语言样本;

对所述语言训练样本进行随机掩膜处理以得到掩膜训练样本;

通过多头自注意网络层对所述分词语言样本以及掩膜训练样本进行训练以得到预训练后的语言表征模型,所述多头自注意网络层包括多个transformer结构。

进一步的,所述句法分析模型包括bert句法分析模型;

所述bert句法分析模型通过如下步骤构建得到:

获取句法样本集合,所述句法样本集合包括违规语句样本以及与所述违规语句样本对应的标注信息;

以所述句法样本集合为输入、句法分析结果为输出对初始的bert句法分析模型进行训练以得到预训练后的bert句法分析模型。

在第二方面,本申请实施例提供了一种语句文本检测系统,包括:

文本获取模块,用于获取用户输入的文本信息;

特征提取模块,用于通过预训练后的语言表征模型对所述文本信息进行词语特征提取以得到对应的词语特征信息;

结构确定模块,用于根据句法分析模型对所述文本信息进行句法结构解析以确定所述文本信息的语句主体结构;

结果确定模块,用于根据所述语句主体结构以及所述词语特征信息确定文本检测结果。

在第三方面,本申请实施例提供了一种语句文本检测电子设备,包括:

存储器以及一个或多个处理器;

所述存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的语句文本检测方法。

在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的语句文本检测方法。

本申请实施例通过采用预训练后的语言表征模型来提取文本信息中的词语特征信息,并通过构建的句法分析模型来对文本信息进行句法结构解析得到语句主体结构,根据语句主体结构来加强语句文本中的关键部分词语的联结强度,降低语句中介词以及其他干扰词的影响,进而准确的捕捉句子的整体语义信息以确定是否违规。本申请实施例的方案能够实现更精准的违规语句检测。

附图说明

图1是本申请实施例提供的一种语句文本检测方法的流程图;

图2是本申请实施例提供的直播聊天的显示示意图;

图3是本申请实施例提供的进行预训练的语言表征模型的流程示意图;

图4是本申请实施例提供的语句连接关系确定的流程示意图;

图5是本申请实施例提供的进行文本检测的具体流程示意图;

图6是本申请实施例提供的进行违规检测的网络结构的具体示意图;

图7是本申请实施例提供的进行词语表征权重调整的流程示意图;

图8是本申请实施例提供的一种语句文本检测系统的结构示意图;

图9是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在某些应用场景下,比如视频直播以及短视频等应用场景,提取到的文本均是短视频下面的评论以及直播间的聊天内容。这些语料具有文本长短不一、文字分布不同、语法错误,并且语义不连贯的特点,因此针对这类特殊文本,常规的文本处理技术无法精准的进行语义信息的捕捉。对很长的整体语义是违规的语句,但是由于其中违规成本占比却比较少,故而无法进行精准的检测。除此之外,在违规检测场景,还存在着大量的用户违规对抗行为,如为了不被模型检测到违规,用户会在保证语义不变的情况下,对表达的内容进行变形,给违规检测带来了极大的干扰。基于此,本申请提供的实施例通过采用预训练后的语言表征模型来提取文本信息中的词语特征信息,并通过构建的句法分析模型来对文本信息进行句法结构解析得到语句主体结构,根据语句主体结构来加强语句文本中的关键部分词语的联结强度,降低语句中介词以及其他干扰词的影响,进而准确的捕捉句子的整体语义信息以确定是否违规。本申请实施例的方案能够实现更精准的违规语句检测。

名字解释:

nlp:自然语言处理。

注意力转移机制(attention,transformer):应用于nlp中的一种定位关键词或特征的方法,这里主要使用self-attention,即句子中不同词之间自我的注意力权重计算方法。

多语义结构信息:自然语言中的文字,具有词法,句法和语义的信息,其中语义在一定程度编码了整句话所表达的含义,一句话中的词与词的主谓宾关系提供了描述语义的结构化信息。

预训练:使用没有标注的数据,采用无监督学习的方法,对数据中的某些词以一定概率屏蔽掉,送入神经网络模型中预测这些被屏蔽掉的词,目的使得神经网络可以学习到这些词的深层语义表征;

lstm:长短期记忆网络(longshort-termmemory),一种特殊的循环神经网络,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题而提出。

cnn:卷积神经网络(convolutionalneuralnetworks),是一种深度学习模型或类似于人工神经网络的多层感知器,主要用于图像数据,文本数据的特征提取。

图1给出了本申请实施例提供的一种语句文本检测方法的流程图,本实施例中提供的语句文本检测方法可以由语句文本检测设备执行,该语句文本检测设备可以通过软件和/或硬件的方式实现,该语句文本检测设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。一般而言,该语句文本检测设备可以是电脑,手机,平板或后台服务器等。

下述以后台服务器为执行语句文本检测方法的设备为例,进行描述。参照图1,该语句文本检测方法具体包括:

s101:获取用户输入的文本信息。

本步骤主要是为了获取到用户输入的文本信息,具体的,在直播聊天中,可以获取到用户输入的文字信息,图2是本申请实施例提供的直播聊天的显示示意图,如图2所示,可以获取到图2中方框框选的文字信息,然后判断获取对应的文字信息来进行语句是否存在违规情况。除了可以获取直播场景中的文字内容外,还可以应用于弹幕中文字语句内容的获取等。

s102:通过预训练后的语言表征模型对所述文本信息进行词语特征提取以得到对应的词语特征信息。

本步骤主要是对文本信息进行词语特征的获取,目的是为了获取到一句话中的所有词的信息。比如当前检测到的文本信息是“今天天气真是太好了。”通过上述语言表征模型得到的分词结果为:今天、天气、真是、太、好、了;进行分词之后,可以得到文本语句中出现的所有词语,词语是理解整体语义的基础,通过提取上述词语特征信息为后续语句理解提供数据基础。本申请实施例中提及的包括有词语信息以及其在语句中的语义信息。

本申请实施例中语句表征模型包括elmo模型、gpt模型、bert模型或xlnet模型。上述模型可以利用大量的文本和强大的计算力来实现庞大的模型预训练任务,使得预训练后的模型自身就具备高效的文本特征提取能力,这些特征能力可以很容易的应用到下游任务中。但是经过具体的实践发现,上述模型在具体实现上也存在一些细微的差异。比如,elmo是利用双向的lstm结构来进行特征模型构建的,elmo模型会通过从左至右,以及从右至左分别提取文字上下文特征,然后将获取到的上文部分特征和下文部分特征进行合并,最终实现模型构建以及词性的获取。gpt模型仅使用从左至右的特征自编码方式,每一个词只能学习到前面词的语义特征,这样就限制了句子级别的文字语义理解,使得在其与其他整体的语义理解方面上存在一定的能力差异。xlnet模型是基于自回归的特征编码方式进行构建,其只能单独用上文信息或者下文信息,而不能同时里用上下文信息。

相对于gpt模型,bert可以同时学习文字的上下文信息,这样也使得其同时可以在多个整体语句理解任务上会取得更好的准确率。相对于elmo模型,bert处理速度要更快,使用了transformer结构,而不是lstm结构,在多个任务效果也更好,处理速度更快。xlnet是在bert后面提出,其在一些任务上性能好于bert,但是在违规检测的分类任务上,权衡之下,bert模型在性能和处理速度上与xlnet相当,并且bert更通用,也更适合违规分类任务。因此,在本申请实施例中更为优选的可以采用bert模型来进行词语特征的提取,其能够达到更好的效果。

更为优选的,图3是本申请实施例提供的进行预训练的语言表征模型的流程示意图,如图3所示,所述预训练后的语言表征模型通过如下步骤构建得到:

s102a:对获取的语言训练样本进行分词预处理以得到分词语言样本;

s102b:对所述语言训练样本进行随机掩膜处理以得到掩膜训练样本;

s102c:通过多头自注意网络层对所述分词语言样本以及掩膜训练样本进行训练以得到预训练后的语言表征模型,所述多头自注意网络层包括多个transformer结构。

具体的,语言表征模型包括bert模型,bert模型使用的是transformer编码器,并且由于self-attention机制,所以模型上下层直接全部互相连接的。而openaigpt虽然使用的是transformer解码器,但它是一个需要从左到右的受限制的transformer结构,而elmo使用的是双向lstm,虽然是双向的,但是也只是在两个单向的lstm的最高层进行简单的拼接。只有bert模型是真正在所有语句特征提取层中是双向的结构,能够同时捕捉语句上下文整体的语义信息。本申请实施例提及的语言训练样本即是对应的文字训练样本,通过对其进行不断的学习训练得到相应的语言表征模型。

语言模型预训练上,并不在使用标准的从左到右预测下一个词作为目标任务,而是提出了两个新的任务。第一个任务他们称为mlm,即在输入的词序列中,随机的挡上15%的词,然后任务就是去预测挡上的这些词,可以看到相比传统的语言模型预测目标函数,mlm可以从这些挡上的词的全部上下文信息中预测这个词的概率,而不仅仅是单向的信息。比如输入的词是“today、is、a、nice、day”。当去进行预训练时,随机遮挡一个词,比如遮挡到“is”,然后利用上下文信息“today”“a”“nice”“day”去进行模型的预测训练。通过不断重复上述来实现最终的模型参数的学习。

对于传统语言模型,并没有对句子之间的关系进行考虑。为了让模型能够学习到句子之间的关系,提出了第二个目标任务就是预测下一个句子。其实就是一个二元分类问题,50%的时间,输入一个句子和下一个句子的拼接,分类标签是正例,而另50%是输入一个句子和非下一个随机句子的拼接,标签为负例。最后整个预训练的目标函数就是这两种样本进行极大似然学习。最后在微调阶段,不同的任务其只是在输入层和输出层有所区别,然后针对于整个模型所有参数进行微调。进行文字特征的模型预训练时,采用的是无监督的方式来学习文字特征,后续的违规任务需要对预训练好的bert模型进行有监督的训练,以微调模型的参数来学习到哪些语句是存在违规情况的。

更为优选的,在步骤s102c之后还包括:

s102d:获取预训练后的、基于transformer结构的双向编码器表征bert模型,其中,所述bert模型包含多层transformer结构;

删减所述bert模型中的部分transformer结构,生成对应的语言表征模型。通过直接调整bert模型中的transformer结构来获取到更为精准的语言表征模型来进行后续的语句识别。

s103:根据句法分析模型对所述文本信息进行句法结构解析以确定所述文本信息的语句主体结构。

本步骤主要是为了获取到对应的文本信息的语句主体结构,本实施例中提及的语句主体结构包括主语、谓语和宾语。在一句话中,一般最主要的是主谓宾三个结构,通过主谓宾可以表达出语句整体的主要意图。特别是在短视频或者直播视频下方的违规评论,主谓宾结构对于语句理解更为重要,因为违规一般涉及到谩骂、色情或者政治评论等内容,这些内容的特征是只要提及主体结构以及进行相关表达即可传递出评论发布者的主要意图与目的,而不需要理会定语状语补语的位置、其是修饰那部分内容以及定语状语补语的具体含义等。

有些内容,虽然单句表达并不会出现违规情况,但是当两句合在一起的时候,则会产生不一样的意思。比如“约吗?加微信。”上述表述“约吗?”是一个发起邀请的语句,朋友之间吃饭或者看电影等都可以采用上述,上述语句表述也并无不妥;同样的“加微信”这样的表述单独存在也并没有任何问题,有些问题咨询等都可以采用“加微信”这样的表述。但是当两者合在一起的时候,可以确定其存在一定的不好的倾向,从而会出现违规。针对于上述情况,本申请实施例采用如下方式去进行进一步的识别判断。

更为优选的,所述文本信息包括第一文本语句和第二文本语句;图4是本申请实施例提供的语句连接关系确定的流程示意图,如图4所示,在所述根据句法分析模型对所述文本信息进行句法结构解析以确定所述文本信息的语句主体结构之后,还包括:

s1031:确定第一文本语句的语句主体结构和第二文本语句的语句主体结构之间的语句连结关系;

s1032:根据所述语句连结关系调整对应的词语特征信息的表征权重。

比如“约吗?加微信”或者“约吗?微信聊”等通过语句主体结构的识别,可以确定其为动词-动宾结构,当识别到这样的结构内容时,可以提升对应词语的表征权重进而确定语句整体是否出现违规。

本申请实施例中,句法分析模型有多种实施方式,可以采用bert句法分析模型、gpt句法分析模型以及nlp常用的句法分析模型等。采用前两种句法分析模型需要进行预训练,在本申请实施例中可以采用bert句法分析模型来进行语句主体结构的分析进而确定对应的表征权重;具体的,所述bert句法分析模型通过如下步骤构建得到:

获取句法样本集合,所述句法样本集合包括违规语句样本以及与所述违规语句样本对应的标注信息;

以所述句法样本集合为输入、句法分析结果为输出对初始的bert句法分析模型进行训练以得到预训练后的bert句法分析模型。

上述即是有监督的学习训练,其通过不断学学习违规语句的表达方式来捕捉句子的语义结构信息。具体实施时,其可以通过离线对这些违规文字中真正导致违规的句子片段进行标注,然后将标注后的内容形成一个训练集,通过训练模型来对训练集进行不断的训练,使得训练模型能够知晓,真实违规的部分具有什么特点,以此来捕捉句子语义结构信息,而不需要显著的提取句子中词与词之间的动宾关系。将上述模型与bert特征提取网络结合,同样可以达到违规语句语义信息理解的目的。但是采用上述方式的进行学习训练时,需要大量的语句标记,这样使得前期的工作量大大增加,因为要人工标记大量数据增加了开发人员的负担。因此,本申请实施例中更为优选的句法分析模型可以采用nlp中常用的句法分析模型,通过采用常规的句法分析模型的构建来显著提取句子中的主谓宾结构,然后将上述主谓宾结构与bert特征提取网络结合进而提升对应词语的表征权重达到违规语句语义信息深层理解的目的。

s104:根据所述语句主体结构以及所述词语特征信息确定文本检测结果。

本步骤主要是对获取到的语句主体结构以及词语特征信息进行融合进而确定文本检测结果,本申请实施例的确定语句是否违规是bert模型与句法分析模型共同提取到的特征进行融合得出违规与否的判定。

具体的,图5是本申请实施例提供的进行文本检测的具体流程示意图,如图5所示,所述根据所述语句主体结构以及所述词语特征信息确定文本检测结果包括:

s1041:根据所述语句主体结构确定文本信息中对应的主体位置;

s1042:根据所述主体位置调整对应的词语特征信息的表征权重;

s1043:根据所述表征权重以及对应的词语特征信息确定文本检测结果。

通过确定语句主体结构的位置来增加bert模型输出端的对应位置词语的表征权重,然后影响最终的文本检测结果。上述方式能够有效的将语句主体结构与bert模型进行融合进而得到更为有效的违规检测模型。具体的,图6是本申请实施例提供的进行违规检测的网络结构的具体示意图,如图6所示,该网络结构使用了多头注意力转移网络作为输入文本中词粒度的特征提取,如图6中(a)所示,其为bert模型的结构示意图,其主要对输入文本的词语特征进行提取,图6中(b)的为句法分析模型,其主要是对输入文本的主体结构信息进行获取确认,并确定具体的主体结构的对应位置。本申请实施例方法将在网络中使用了句法分析来提取句子中词与词的动宾联结关系,如图中(b)所示,并通过融合已有通过bert模型的词粒度的特征,进而抽取句子中关键的高层语义信息,给出最终的违规分类的概率分布,从而最终确定语句是否违规。

在本申请实施例中构建bert模型时,首先需要预训练,即无监督的方式学习文字的特征。后续的违规任务需要对预训练好的bert模型进行有监督的训练。bert模型中,各个层的名称为multi-headselfattentionlayer(多头自注意网络层),也即是对应图6中的trm。具体的,如图6中左边部分所示,其通过采用bert模型提取出完整语句中的各个分词,提取到的结果是:takes,fu*k,off,my,shirt;提取到的内容不单单包括上述单词,还包括各个单词对应的位置,通过提取词语特征以及对应的位置特征来作为后续语义融合识别的基础。同样的,如图6中右边的模型其采用句法分析模型,会提取到句子中的所有词的内容以及其对应的语句结构信息;比如通过上述句法分析模型可以确定对应的谓语是takesoff,宾语是shirt,识别到对应的词语之后,还需要确定对应位置,也即是确定其在整个句子中的位置,比如在bert模型中每个词有对应的e1、e2.....en来表示具体位置,同样的在句法分析模型中也有e1、e2.....en来表示具体词语对应的位置。在确定了词语位置之后,可以确定对应词语的表征权重,这个表征权重表示该词语对整体语句理解的影响大小。由于语句主体结构对整体的语义影响较为关键,因此,当识别到语句主体结构时,可以提高主谓宾等对应的表征权重来影响用户输入文本的整体语句的判断,最后在模型的尾端输出对应的识别结果。

更进一步的,所述语句主体结构包括主语、谓语和宾语;图7是本申请实施例提供的进行词语表征权重调整的流程示意图,如图7所示,在所述根据所述表征权重以及对应的词语特征信息确定文本检测结果之前,还包括:

s1042a:确定主语、谓语和宾语之间的第一连结关系;

s1042b:根据所述第一连结关系调整对应的词语特征信息的表征权重。

除了要确定对应主谓宾各自的具体位置影响权重之外,还可以确定两者之间的连接关系,根据对应的连接关系来提升其词语的表征权重,比如“abc你”中abc表示对人不尊重的动词,这样当两者结合在一起的时候,会发现整个动宾结构表达的意思是比较偏负面的,当识别到这样的连接关系时,增加动宾结构对应的表征权重来进行语句是否违规的检测。通过上述可以知晓,可以影响词语表征权重的有如下几个方面:第一、语句主体结构,也即是主谓宾对应的词语,可以加强其对应词语对整体语句的影响,然后进行违规检测;第二、主谓宾之间的连接关系,也即是动宾结构或者主动结构等等,通过识别上述内容的并确定两者合并的语义是否有负面影响,进而最终确定语句是否违规。第三、确定两个语句之间的结构关系,比如动词-动宾结构等(“约吗?加微信”),当识别到这种类型的组合时,可以进一步判断两者结合后的语义是否存在违规的情况。

更为具体的,在所述确定主语、谓语和宾语之间的第一连结关系之后,还包括:

当检测到的主语、谓语和宾语中出现变形词时,确定所述变形词与文本信息中语句补充结构之间的第二连结关系,所述语句补充结构包括状语、定语和补语;

对应的,所述根据所述第一连结关系调整对应的词语特征信息的表征权重,包括:

根据所述第一连结关系和第二连结关系调整对应的词语特征信息的表征权重。

现在用户为了进行违规对抗,会才去一些措施,使得在不影响整体语义理解的情况下,修改对应的表述。比如当语句中出现特殊地点或者特殊人的名字的时候,其采用拼音或英文缩写,或者对人的名字中字的顺序进行变形来表示对应的人物时,由于语句库中并没有存在这样的表述,且其放置于整体语句中会产生语句不对应以及机器无法理解语句的情况,但是对于人来说是可以直接通过阅读理解的,而机器由于上述违规对抗的存在没有办法进行精准识别,此时,则可以确定语句中出现了变形词,需要对语句中出现的定状补等内容进行进一步的识别,然后来确定最终的语句整体情况。由于当涉及到敏感事件或者敏感词汇时,现有很多人都会采用变形来逃避对应的审查,并且变形词一般单独看的话有很多都是无意义的,因此,在本申请实施例中结合了定状补等信息来增加对应信息的确认。比如,当检测到出现拼音缩写时,此时语句中还出现了和该名字关联的事件等词汇,则表明其大概率与特殊人名相关,此时可以进一步确定对应的语句是否出现违规,通过上述内容可以更好的应对用户出现的违规对抗行为,使得违规检测的准确性更好。除了可以采用定状补进行确定之外,还可以采用如下方式进行,只要识别到对应的变形词,则确定其存在一定的对抗违规的可能性,此时,可以直接增加对应表征权重来影响最终的检测结果。

在本申请实施例中,在所述根据所述语句主体结构以及所述词语特征信息确定文本检测结果之后,还包括:

当所述文本检测结果为文本违规检测结果时,确定所述用户输入的文本信息包含违规语句信息。

禁止传输所述违规语句信息;或,

屏蔽用户输入的违规语句信息。

当检测到的用有出现违规时,可以禁止用户传输对应的违规语句,也即是对用户输入框的输入完成之后,无法点击确定将上述内容发送出去,也可以是用户发送出去之后,最终出现在直播间聊天记录中的内容是*****等替代符号或者乱码标记的内容。

更为优选的,在所述确定所述用户输入的文本信息包含违规语句信息之后,还包括:

确定所述违规语句信息对应的违规等级;

若所述违规等级处于第一违规范围,则对相应用户进行警告处理;

若所述违规等级处于第二违规范围,则对相应用户进行禁言半个小时处理;

若所述违规等级处于第三违规范围,则对相应用户进行封号处理。

也即是可以针对于用户出现违规的情况进行等级划分,将不同类型或者不同用词程度的划分为不同的违规等级,最终根据具体的违规等级来确定不同的惩罚;当出现最为严重的违规的时候,可以直接对用户进行封号处理,使得其无法使用对应账号进行直播观看,优化直播聊天环境。

在所述确定所述用户输入的文本信息包含违规语句信息之后,还包括:

统计对应用户出现违规语句信息的次数,当所述用户出现违规语句的次数超过预设次数时,对发送违规语句信息的用户进行禁言处理或者封号处理。

通过统计用户违规次数来确定对用户违规的惩罚,根据上述多种形式以及多个维度的违规检测,使得能够对用户违规进行有效的监查以及管控。

本申请实施例的方法的创新部分通过提取句子中的主语,谓语和宾语所对应的关键词位置,进而显著的加强这些句子中关键部分的联结强度,使其更适合违规检测场景中的文字违规分类任务。因为在违规场景中,用户只要表达出关键的文字即可,并不需要完整的,一致的语法,但是语义需要保持不变,以便让其他用户理解。

比如“芬迪男友应聘跳+个签需要处个小对象吗”上述表达,采用了混杂的表述方式在主体结构中加了其他的词语来影响机器对整体语句的理解,但是其他用户在阅读时,是可以明白上述意思的,上述意思整体语义提取的结果也即是“处小对象”,上述内容涉及到违规诱导,但是通过增加“应聘”“跳”等词语会对现有的自然语言理解产生极大的干扰,并且现有的自然语言训练的样本均是较为完整的语句语义,无法对上述内容进行有效的监测。但是通过本申请实施例的方案提取出动宾结构“处小对象”之后,就可以非常明确的获取到具体的语义信息。还有一点,由于上述语句相对较长,如果采用现有的方法其识别,中间“处小对象”等对于整体语义理解的占比并不会太高,因为句子相对较长,也就有每个词语都会对句子结果产生影响,每个词都会有一定的权重来影响到最终结构,由于上述语句中增加了大量无意义的干扰词,这也使得其他无意义的部分对整体语句理解的影响加大,进而躲避掉了违规审查,通过本申请实施例的语句主体结构,也即是动宾结构的提取来简化对应的语句,使得动宾结构对于语句整体的影响大大提高,从而提升了违规检测的准确性。

除了上述的例子之外,当输入的文本信息为“刚傻abc前对象跟我闺蜜吵起来了”,可以知晓其中出现了“傻abc”等变形词,并且增加了“前对象”等作为干扰词来影响整体的语义理解。在进行具体实施时,通过句法可以提取到“跟我闺蜜”“吵起来”这样的动宾结构,然后结合bert模型来进行语义融合识别,进而最终确定语句是否违规。正是抓住了违规场景下用户的这种特点,我们在进行语义信息的抽取过程中,优先提取句子中的主语,谓语和宾语,来指导网络关注这些成分,进而可以忽略介词或其他干扰词的影响,准确的捕捉句子语义信息,达到理解违规句子深层语义的目的。由于显著的引入文本语义结构信息,通过给模型提供额外的词之间的动宾关系,使得模型可以更好的应对用户违规文字的变形,快速捕捉文本真实语义,进而从语义层面判别是否违规。

本申请实施例的提出,在已有的基于bert的强大的文本表征能力的基础上,结合了句子语义结构的信息,可以将句子中词与词之间关系显著的建模,凸显出句子中动词的关键地位,更快速的捕捉用户表述出的文字的关键信息,忽略不重要的干扰词的信息,进而判断是否违规。

本申请实施例通过采用预训练后的语言表征模型来提取文本信息中的词语特征信息,并通过构建的句法分析模型来对文本信息进行句法结构解析得到语句主体结构,根据语句主体结构来加强语句文本中的关键部分词语的联结强度,降低语句中介词以及其他干扰词的影响,进而准确的捕捉句子的整体语义信息以确定是否违规。本申请实施例的方案能够实现更精准的违规语句检测。

在上述实施例的基础上,图8为本申请实施例提供的一种语句文本检测系统的结构示意图。参考图8,本实施例提供的语句文本检测系统具体包括:

文本获取模块21,用于获取用户输入的文本信息;

特征提取模块22,用于通过预训练后的语言表征模型对所述文本信息进行词语特征提取以得到对应的词语特征信息;

结构确定模块23,用于根据句法分析模型对所述文本信息进行句法结构解析以确定所述文本信息的语句主体结构;

结果确定模块24,用于根据所述语句主体结构以及所述词语特征信息确定文本检测结果。

本申请实施例通过采用预训练后的语言表征模型来提取文本信息中的词语特征信息,并通过构建的句法分析模型来对文本信息进行句法结构解析得到语句主体结构,根据语句主体结构来加强语句文本中的关键部分词语的联结强度,降低语句中介词以及其他干扰词的影响,进而准确的捕捉句子的整体语义信息以确定是否违规。本申请实施例的方案能够实现更精准的违规语句检测。

本申请实施例提供的语句文本检测系统可以用于执行上述实施例提供的语句文本检测方法,具备相应的功能和有益效果。

图9是本申请实施例提供的一种电子设备的结构示意图,参照图9,该电子设备包括:处理器31、存储器32、通信模块33、输入装置34及输出装置35。该电子设备中处理器31的数量可以是一个或者多个,该电子设备中的存储器32的数量可以是一个或者多个。该电子设备的处理器31、存储器32、通信模块33、输入装置34及输出装置35可以通过总线或者其他方式连接。

存储器32作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的语句文本检测方法对应的程序指令/模块(例如,语句文本检测系统中的文本获取模块21、特征提取模块22、结构确定模块23和结果确定模块24)。存储器32可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块33用于进行数据传输。

处理器31通过运行存储在存储器32中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的语句文本检测方法。

输入装置34可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。

上述提供的电子设备可用于执行上述实施例提供的语句文本检测方法,具备相应的功能和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器31执行时用于执行一种语句文本检测方法,该语句文本检测方法包括:

获取用户输入的文本信息;

通过预训练后的语言表征模型对所述文本信息进行词语特征提取以得到对应的词语特征信息;

根据句法分析模型对所述文本信息进行句法结构解析以确定所述文本信息的语句主体结构;

根据所述语句主体结构以及所述词语特征信息确定文本检测结果。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如cd-rom、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如dram、ddrram、sram、edoram,兰巴斯(rambus)ram等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器31执行的程序指令(例如具体实现为计算机程序)。

当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的语句文本检测方法,还可以执行本申请任意实施例所提供的语句文本检测方法中的相关操作。

上述实施例中提供的语句文本检测系统、存储介质及电子设备可执行本申请任意实施例所提供的语句文本检测方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的语句文本检测方法。

上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1