词性确认方法、装置、电子设备及存储介质与流程

文档序号:17790583发布日期:2019-05-31 20:09阅读:146来源:国知局
词性确认方法、装置、电子设备及存储介质与流程

本申请涉及互联网技术领域,更具体地,涉及一种词性确认方法、装置、电子设备及存储介质。



背景技术:

在通过网络进行交流的过程中,用户在终端输入各种语句、词语等信息发送到其他用户或者公共平台。但是,在这些交流过程中,可能出现一些有违社会公德、影响社会稳定或者违背法律法规等的负面词汇,带来恶劣的社会影响。



技术实现要素:

鉴于上述问题,本申请提出了一种词性确认方法、装置、电子设备及存储介质,以改善上述问题。

第一方面,本申请实施例提供了一种词性确认方法,该方法包括:从用户的文字信息中查找包括目标词语的信息;将查找到的信息发送给审核终端,从审核终端获取所述查找到的信息是否属于违规信息的判断结果;根据审核终端返回的所述判断结果,计算所述违规信息占所述查找到的信息的比例;根据所述比例确定所述目标词语是否为违规词语。

第二方面,本申请实施例提供了一种词性确认装置,所述装置包括:查找模块,用于从用户的文字信息中查找包括目标词语的信息;收发模块,用于将查找到的信息发送给审核终端,从审核终端获取所述查找到的信息是否属于违规信息的判断结果;计算模块,用于根据审核终端返回的所述判断结果,计算所述违规信息占所述查找到的信息的比例;确定模块,用于根据所述比例确定所述目标词语是否为违规词语。

第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个程序。其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述的方法。

本申请实施例提供的词性确认方法、装置、电子设备及存储介质,从用户的文字信息中查找包括目标词语的信息,再将查找到的信息发送到审核终端进行是否为违规词语的判断。根据审核终端返回的判断结果,计算查找到的信息中违规信息所占比例,根据该比例确定该目标词语是否为违规词语,从而找出那些可能带来不良社会影响的负面词语。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的词性确认系统的交互示意图。

图2示出了本申请一实施例提供的词性确认方法流程示意图。

图3示出了本申请另一实施例提供的词性确认方法的流程图。

图4示出了本申请又一实施例提供的词性确认方法的流程图。

图5示出了本申请再一实施例提供的词性确认方法的流程图。

图6示出了本申请实施例提供的词性确认装置的功能模块图。

图7示出了本申请实施例提供的电子设备的结构框图。

图8是本申请实施例的用于保存或者携带实现根据本申请实施例的词性确认方法的程序代码的存储介质。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

在各种网站以及各种应用程序等的信息交流过程中,会涉及到各种各样的文字信息,如语句以及组成语句的词汇、以及符号等。例如,在视频内容平台,如视频内容网站、视频内容应用程序等,文字信息可能涉及到视频的标题、简介、用户发送的弹幕、用户的聊天信息等。

在这些文字信息中,可能包括一些有违社会公德或者影响社会稳定等的负面词语,如政治敏感词语,谩骂词语等,这些词语通常作为违规词语,需要对其进行拦截或者对相应用户进行处罚等处理,以减少负面词语的出现。为了及时拦截这些包括负面词语的文字信息以及对发送包括负面词语的文字信息的用户进行标记处理等,可以建立包括负面词语的违规词库,违规词库中的词语作为违规词语。将违规词库的词与文字信息进行匹配,若匹配到文字信息中包括违规词库中的词语,则可以判定该文字信息违规,需要进行拦截,或者对发送该文字信息的用户进行处罚。

通常的,违规词库中的词语通过人工标记加入,例如,a词语为负面词语,可以通过人工标记将其加入违规词库。

但是,发明人通过研究发现,有些词语不是通过词语本身可以确定其是否为违规词语的。具体的,有些词语本身词性可能不是负面词语,但是将其放入语句中进行使用时,通常在句子中为负面词语。而有些词语,其本身的词性是负面词语,但是用在语句中时,可能并未表达任何负面信息。也就是说,一个词语的词性到底是不是负面的,需要根据其在语句中的使用确定,而非仅从这个词语本身确定。

因此,发明人提出了本申请实施例的词性确认方法、装置、电子设备及存储介质,用于如图1所示网络连接的服务器以及审核终端中的服务器。该词性确认方法、装置、电子设备及存储介质用于根据词语在具体语言环境中的使用确定其是否为违规词语。具体的,可以从用户的文字信息中查找包括目标词语的信息,再根据包括目标词语的信息中违规信息所占的比例,确定该目标词语是否为违规词语,使违规词语的确定由词语在语句中的使用确定,而非仅仅根据词语本身确定。

下面将通过具体实施例对本申请实施例提供的词性确认方法、装置、电子设备及存储介质进行详细说明。

请参阅图2,示出了本申请实施例提供的词性确认方法的流程图。该词性确认方法根据包括目标词语的信息中,违规信息所占的比例确定目标词语是否为违规词语。在具体的实施例中,所述词性确认方法应用于如图6所示的词性确认装置500以及配置有所述词性确认装置500的电子设备700(图7)。下面将以电子设备为例,说明本实施例的具体流程。其中,本实施例所应用的电子设备可以为服务器,在此不做具体的限定。具体的,该方法包括:

步骤s110:从用户的文字信息中查找包括目标词语的信息。

为了确定某些词语是否为违规词语,可以获取这些词语在具体语言环境中的使用情况。在本申请实施例中,可以定义要确定其是否为违规词语的词语为目标词语。目标词语可以是中文词语、英文词语、中英文混杂的词语、英文字母的组合、符号、符号与文字的组合等,在本申请实施例中并不限定,凡是可能传递负面信息的词语,均可以作为本申请实施例中的目标词语。

可以从用户的文字信息中查找包括目标词语的信息。其中,获取哪些范围内用户的文字信息在本申请实施例中并不限定,可以是预设的平台范围内,例如该平台可以是全网的所有的文字信息,全网的公屏的所有用户的文字信息,某网站的所有用户的文字信息、某应用程序的所有用户的文字信息等。如,该预设的平台为虎牙直播,可以获取虎牙直播中所有用户的文字信息,或者虎牙直播中公屏的所有文字信息。

另外,用户的文字信息可以包括用户的发言,如直播中的弹幕,在公屏的聊天信息等;也可以包括其他文字信息,如文章、新闻、视频的标题、视频的简介、用户的用户名等,在本申请实施例中并不限定。

从用户的文字信息中查找包括目标词语的信息,可以从每条文字信息中查找是否包括目标词语。其中,一条文字信息可以是一条用户发言,一条聊天信息,一个视频的标题,一个视频的简介,一篇文章中的一句话等,一条文字信息的具体定义在本申请实施例中并不限定,可以以便于获取划分出的一条为准。

步骤s120:将查找到的信息发送给审核终端,从审核终端获取所述查找到的信息是否属于违规信息的判断结果。

包括目标词语的各条信息中,有些信息可能因为目标词语的存在而违规,如因为目标词语的存在而表达出了谩骂性的、煽动性的或者政治敏感性的等负面意思,从而违背社会公德、违背法律法规或者影响社会稳定等,成为违规信息;有些信息也可能并不违规,表达的是正常的、健康的意思,作为不违规的信息。因此,可以将查找到的包括目标词语的信息发送给审核终端,以使审核终端对包括目标词语的信息进行是否违规的判断,使服务器可以从审核终端获取到查找到的信息是否属于违规信息的判断结果。

具体的,审核终端可以判断接收到的每条信息是否违规,并且将包括目标词语的信息违规或者不违规的判断结果返回给服务器,服务器接收审核终端返回的判断结果,从而从审核终端获取到查找到的信息是否属于违规信息的判断结果。

步骤s130:根据审核终端返回的所述判断结果,计算所述违规信息占所述查找到的信息的比例。

服务器查找到的包括目标词语包括一条或多条。在审核终端返回的判断结果中,查找到的各条信息中,违规信息具有一定的数量。因此,可以根据判断结果中,违规信息的数量以及查找到的信息的数量,计算违规信息所占的比例。例如,服务器查找到500条包括目标词语的信息,并且将该500条信息发送给审核终端进行审核。若审核终端返回的判断结果中,有400条为违规信息,则违规信息所占比例为80%。

步骤s140:根据所述比例确定所述目标词语是否为违规词语。

根据违规信息在查找到的信息中所占的比例,则可以确定目标词语在实际应用中通常所表达的词性,该词性表示目标词语为违规词语,还是该目标词语不作为违规词语处理。例如,该比例高于一定值,表示目标词语通常用作表达出谩骂性的、煽动性的或者政治敏感性的等负面意思,从而违背社会公德、违背法律法规或者影响社会稳定等,则可以确定该目标词语为违规词语;若比例利于某个值,表示目标词语在实际语言环境中,通常不具有负面意思,表达的是正常的、健康的意思,则可以确定该目标词语不是违规词语。

在本申请实施例中,从用户的文字信息中查找包括目标词语的信息,以根据查找到的信息进行目标词语在实际语境中是否违规的判断。具体可以将包括目标词语的信息发送给审核终端进行判断,并获取审核终端返回的判断结果。根据判断结果,计算违规信息在查找到的信息中所占比例,从而根据该比例的高低确定目标词语是否为违规词语,从而找出那些可能带来不良社会影响的负面词语。

本申请另一实施例提供了一种词性确认方法,包括对违规词语所属类型的确认。具体的,请参见图3,该方法包括:

步骤s210:标注所述目标词语为预设类型的词语。

在违规词语中,可以包括不同类型的违规词语,如谩骂类,政治敏感类,商品广告类,违法违规类等。因此,可以对目标词语进行类型标注,标注所述目标词语为预设类型的词语。其中,预设类型即违规词语对应的不同类型中的任意一种。

具体标注方式可以是,审核终端或者标注终端对网络平台中各种用户的信息进行检查。若检查到某条信息中包括的某个词语可能为某种类型的违规词语,则将该词语标记为该类型,并发送给服务器进行该词语是否为该类型的违规词语的判断。服务器接收到审核终端或者标注终端发送的标注了类型的词语,将该词语作为目标词语,标注该目标词语为审核终端或者标注终端所标注的类型。

在本申请实施例中,审核终端或者标注终端的标注可以通过相关的工作人员实现,如工作人员在审核终端或者标注终端对用户的各种信息进行巡查,并在审核终端或者标注终端将认为是违规词语的词语标注为相应的类型,审核终端或者标注终端将工作人员标注的词语以及词语对应类型发送到服务器。

步骤s220:从用户的文字信息中查找包括目标词语的信息。

在本申请实施例中,可以从当前的用户文字信息中查找包括目标词语的信息。即,从当前产生的或当前存在的信息中查找包括目标词语的信息,如查找直播网站中全网的公屏的当前发言,查找当前所有网络平台中文字信息中包括目标词语的信息等。

查找包括目标词语的信息的具体方式可以包括:对用户的文字信息进行分词,获得各条文字信息中的各个分词词语。例如,语句“你今天去哪儿玩儿了”可以分词为“你/今天/去哪儿/玩儿/了”,包括的分词词语分别为“你”、“今天”、“去哪儿”、“玩儿”、“了”。其中,对文字信息进行分词的具体分词方式在本申请实施例中并不限定,如正向最大匹配法、逆向最大匹配法和双向匹配分词法等基于词典分词算法,如hmm、crf、svm、深度学习等基于统计的机器学习算法,如机器学习算法和词典相结合的算法等。

将文字信息中各个分词词语与目标词语进行匹配。例如,对于文字信息“你今天去哪儿玩儿了”,将其各个分词“你”、“今天”、“去哪儿”、“玩儿”、“了”分别与目标词语进行匹配,判断各个分词词语与目标词语是否一致。其中,当某个分词词语与目标词语的匹配度大于或等于预设匹配度,则判定该分词词语与目标词语一致,可以判定该文字信息中包括目标词语。该匹配度可以是分词词语与目标词语中相同字符的字符数与目标词语字符数的比值,可以是分词词语与目标词语中相同字符的字符数与分词词语字符数的比值,也可以是分词词语与目标词语中相同字符的字符数比上目标词语字符数以及分词词语字符数的平均数。另外,预设匹配度的具体值在本申请实施例中并不限定,例如可以是100%,90%等。

可选的,本申请实施例中,步骤s220之前,还可以将标注为预设类型的目标词语放入质检库。服务器可以从该质检库中获取目标词语,再从用户的文字信息中查找包括目标词语的信息。

步骤s230:将查找到的信息发送给审核终端,从审核终端获取所述查找到的信息是否属于违规信息的判断结果。

当查找到包括目标词语的信息时,需要对该信息是否因目标词语的存在而传递负面信息,成为违规信息。因此,可以将查找到的包括目标词语的信息发送给审核终端。

审核终端可以通过相应的审核界面显示接收到的信息,并且,在显示的信息中,可以将其中的目标词语高亮以提示审核人员。在本申请实施例中,若审核人员判定接收到的信息确实因目标词语的存在成为违规信息,将该信息为违规信息的判断结果反馈给服务器。若审核人员判定接收到的信息不是违规信息,则向服务器返回该信息不是违规信息的判断结果。

可选的,为了准确确定目标词语的类型,可以是审核终端还包括对目标词语所属的预设类型的显示,以使当审核人员判定目标词语在该信息中的类型是该目标词语被标注的预设类型,且该信息为该预设类型的违规信息,向服务器返回该信息为违规信息的判断结果。当服务器接收到审核终端返回的信息为违规信息的判断结果,可以判定该信息是违规信息,且该信息中的目标词语为标注的预设类型。

步骤s240:根据审核终端返回的所述判断结果,计算所述违规信息占所述查找到的信息的比例。

步骤s250:根据所述比例确定所述目标词语是否为所述预设类型的违规词语。

当确定目标词语不是违规词语,可以判定对该目标词语的类型标注无效,即该目标词语不是标注的预设类型,不属于违规词语。若目标词语被放入到质检库,则当判定目标词语不是违规词语,可以将该目标词语移出质检库。

可选的,在本申请实施例中,可以设置违规词库,当确定目标词语为违规词语,可以将目标词语加入到违规词库中。违规词库中的词语表示禁用词语,若匹配到某条用户的信息中包括违规词库中的词语,可以对该信息进行处罚或者对该用户进行处罚,如拦截该信息、警告该用户、禁言该用户、对该用户扣分等,通过词库匹配提高自动处理率,降低人检压力,减少审核成本。

可选的,在本申请实施例中,可以设置各种类型的违规词库,其中,违规词库的各种类型可以与目标词语的各种类型相同,例如目标词语包括谩骂类,政治敏感类,商品广告类,违法违规类,则设置的违规词库可以包括谩骂类的违规词库,政治敏感类的违规词库,商品广告类的违规词库以及违法违规类的违规词库。本申请实施例中目标词语可能标注的类型并不限定,违规词语可能具有的类型也并不限定。

当根据违规信息在查找到的信息中所占比例确定目标词语为违规词语时,可以确定该目标词语为预设类型的违规词语。将违规词语加入违规词库时,可以将违规词语加入对应类型的违规词库。例如,若违规词语被标注为谩骂类,则将违规词语加入到谩骂类的词库。

在本申请实施例中,可以对目标词语的类型进行标注,当确定目标词语为违规词语后,可以确定目标词语为所标注的类型的违规词语,并且,可以将目标词语加入到所标注的类型的违规词库,以便于后续通过违规词库中的词语确定用户违规的类型。

本申请还提供了一实施例,包括具体根据比例确定目标词语是否违规的实施方式。请参见图4,该实施例包括:

步骤s310:从用户的文字信息中查找包括目标词语的信息。

步骤s320:将查找到的信息发送给审核终端,从审核终端获取所述查找到的信息是否属于违规信息的判断结果。

步骤s330:根据审核终端返回的所述判断结果,计算所述违规信息占所述查找到的信息的比例。

步骤s310至步骤s330的具体执行可以参照前述实施例,在此不再赘述。

步骤s340:根据所述比例与比例标准的比较,确定所述目标词语是否为违规词语。

服务器将查找到的信息发送给审核终端进行审核,并根据审核终端返回的信息是否为违规信息的判断结果计算违规信息所占比例。其中,可选的,计算违规信息所占比例时,可以将审核终端返回的判断结果中,违规信息的数量与服务器查找到的信息数量计算比值。可选的,也可以将审核终端返回的判断结果中,违规信息的数量与服务器发送给审核终端的数量计算比值。可选的,为了确保计算比例的信息为所有经审核终端判断后的信息,也可以将审核终端返回的判断结果中,违规信息的数量与审核终端返回的所有信息的数量计算比值。

在发送给审核终端进行审核的信息中,判断结果为违规信息的占一定比例。若该比例过高,表示目标词语被用于传达负面信息的可能性较大,可以将该目标词语作为违规词语。若该比例过低,表示该目标词语被用于传达负面信息的可能性较小,可以不作为违规词语。因此,可以设置比例标准用于作为判断目标词语是否为违规词语的标准。根据所述比例确定所述目标词语是否为违规词语时,可以通过将违规信息所占比例与比例标准的比较,确定目标词语是否为违规词语。

作为一种实施方式,可以设置第一比例作为比例标准,用于作为目标词语是否为违规词语的确定标准。将违规信息所占比例与第一预设比例比较,若违规信息在查找到的信息中所占的比例大于或等于第一比例,表示目标词语在实际应用中违规的可能性很大,可以将该目标词语确定为违规词语。也就是说,根据所述比例确定所述目标词语是否为违规词语时,若所述比例大于或等于第一预设比例,可以确定所述目标词语为违规词语。其中,该第一比例为一个比例值,其具体数值在本申请实施例中并不限定,例如可以是50%,60%,70%,80%,40%至80%间的任意一个值等。

可选的,在该实施方式中,若违规信息在查找到的信息中所占比例小于第一预设比例,可以将目标词语不作为违规词语处理。

可选的,在该实施方式中,为了提高判断结果的准确性,可以多次获取包括目标词语的违规信息所占比例,并根据该比例确定目标词语是否违规。若连续多次确定的结果一致,则判定该确定结果有效。以两次为例,当违规信息在查找到的信息中所占比例大于或等于第一预设比例,再次执行步骤s310至步骤s340,即再次从用户的文字信息中查找包括目标词语的信息,并发送给审核终端进行信息是否属于违规信息的判断。若查找到的信息中,违规信息所占比例仍然大于或等于第一预设比例,则确定目标词语违规。若查找到的信息中,违规信息所占比例小于第一预设比例,再次执行步骤s310至步骤s340。直到连续两次判定违规信息所占比例大于或等于第一预设比例,或者连续两次判定违规信息所占比例小于第一预设比例。若连续两次判定违规信息所占比例小于第一预设比例,则将目标词语不作为违规词语处理。

若只设置第一预设比例判断目标词语是否违规词语,当第一预设比例过大,则可能将一些本来为违规词语的词语作为非违规词语处理;当第一预设比例过小,则可能将一些本来不是违规词语的词语作为违规词语处理。因此,本申请实施例还提供了一种实施方式,与前一实施方式相比,本实施方式还可以设置第二预设比例作为比例标准,该第二预设比例小于第一预设比例。在该实施方式中,若违规信息所占比例大于或等于第一预设比例,确定所述目标词语为违规词语。若违规信息所占比例小于或等于第二预设比例,则该目标词语不作为违规词语处理。例如,第一预设比例设置为80%,第二预设比例设置为50%,当计算获得查找到的信息中,违规信息所占比例小于或等于50%,则目标词语不作为违规词语处理;若违规信息所占比例大于或等于80%,则确定目标词语为违规词语。

可选的,在该实施方式中,若违规信息所占比例小于第一预设比例且大于第二预设比例,可以再次执行所述从用户的文字信息中查找包括目标词语的信息的步骤。也就是说,可以再次执行步骤s310至步骤s340,直到得到违规信息所占比例大于或等于第一预设比例的结果,或者得到违规信息所占比例小于或等于第二预设比例的结果。以前述第一预设比例设置为80%,第二预设比例设置为50%为例,若违规信息所占比例小于80%且大于50%,则再次从用户的文字信息中查找包括目标词语的信息,进行违规信息占查找到的信息的比例的计算,直到计算获得违规信息所占比例大于或等于80%或者违规信息所占比例小于或等于50%。

可以理解的,不同时间,用户的文字信息可能产生不同。例如,以直播平台中直播间的公屏发言作为用户的文字信息,则不同时间,公屏的发言不同,获取到的文字信息有不同。因此,每次执行步骤s310的从用户的文字信息中查找包括目标词语的信息,获取到的信息与其他次获取到的信息有不同,则用作计算违规信息所占比例的标准不同。

可选的,在该实施方式中,目标词语被用于违规信息的比例可能稳定在不高不低的状态,即可能连续多次判定违规信息所占比例小于第一预设比例且大于第二预设比例。因此,在该实施方式中,也可以是,若所述比例小于第一预设比例且大于第二预设比例,且连续判定所述比例小于第一预设比例且大于第二预设比例的次数小于或等于预设次数,再次执行所述从用户的文字信息中查找包括目标词语的信息的步骤;若连续判定所述比例小于第一预设比例且大于第二预设比例的次数大于预设次数,确定所述目标词语为违规词语。也就是说,在该实施方式中,可以是,当判定违规信息所占比例小于第一预设比例且大于第二预设比例,再次执行步骤s310至步骤s340,计算违规信息所占比例,将该比例与第一预设比例与第二预设比例进行比较。若比较结果仍然为违规信息所占比例小于第一预设比例且大于第二预设比例,则再次执行步骤s310至步骤s340,再次计算违规信息所占比例,将该比例与第一预设比例与第二预设比例进行比较。当连续多次皆为违规信息所占比例小于第一预设比例且大于第二预设比例,若连续的次数小于预设次数,则再次执行步骤s310至步骤s340,获取违规信息所占比例是否在第一预设比例与第二预设比例之间。若连续的次数达到预设次数,则可以将目标词语确定为违规词语。

其中,若违规信息所占比例在第一预设比例以及第二预设比例之间的次数还未达到预设次数时,若计算得到的该比例小于第二预设比例,则可以将目标词语不作为违规词语处理;若计算得到的该比例大于第一预设比例,则可以确定目标词语为违规词语。

以第一预设比例设置为80%,第二预设比例设置为50%为例,预设次数为5次为例。若连续5次计算获得的违规信息占查找到的信息中的比例在50%至80%之间,则确定违规信息中的目标词语为违规词语。若违规信息占查找到的信息中的比例在50%至80%之间的次数还未达到5次的情况下,得到违规信息所占比例小于50%,则将该目标词语不作为违规词语处理。或者是若违规信息占查找到的信息中的比例在50%至80%之间的次数还未达到5次的情况下,得到违规信息所占比例大于80%,则将该目标词语确定为违规词语。

在本申请实施例中,可以将确定为违规词语的词语添加到对应的违规词库。

由于随着时间的推移,词语在实际的使用中语义可能会发生变化,原本是违规词语的词,可能变成不违规的词。因此,可选的,在本申请实施例中,对于放入违规词库的词语,还可以再次确定该词语是否为违规词语。例如,可以设置检测周期,每隔一个检测周期,检测违规词库中的词语是否仍属于违规词语。具体检测过程与确定目标词语是否为违规词语的方式一致。也就是说,可以将每一个用于检测的违规词语作为目标词语,执行步骤s310至步骤s340,确定该目标词语是否仍为违规词语。

若确定该目标词语仍为违规词语,则将该目标词语仍留在违规词库中。若确定该目标词语不是违规词语,则将该目标词语不作为违规词语处理,可以将其移出违规词库。

可选的,在本申请实施例中,还可以保存质检记录。例如可以保存对哪些词语确定过是否为违规词语,每个词语的确定结果,查找到的包括相应词语的信息,以及每条信息审核终端对其进行判断的判断结果等任意一种或多种。

可选的,在本申请实施例中,还可以输出目标词语是否确定为违规词语的结果。

在本申请实施例中,可以设置用于确定目标词语是否为违规词语的比例标准,根据该比例标准与违规信息在查找到的信息中所占比例的比较,确定目标词语是否为违规词语,提高确定的准确性。

在本申请实施例中,若比例的计算基数过小,则该比例用于确定目标词语是否为违规词语可能不准确。也就是说,若用于计算违规信息所占比例的信息条数过少,计算获得的比例可能不具有代表性。因此,本申请还提供了一种实施例,用于对比例的计算基数进行控制。具体的,请参见图5,本实施例提供的方法包括:

步骤s410:从用户的文字信息中查找包括目标词语的信息。

步骤s420:将查找到的信息发送给审核终端,从审核终端获取所述查找到的信息是否属于违规信息的判断结果。

步骤s430:判断接收到审核终端返回的信息的数量是否大于或等于预设数量。若是,执行步骤s440;若否,执行步骤s410。

审核终端对接收到的信息是否属于违规信息进行判断,审核终端向服务器返回包括判断结果的信息。其中,审核终端向服务器返回的信息可以是信息本身,也可以是信息的身份标识。当然,审核终端返回的信息的具体展现形式在本申请实施例中并不限定,服务器可以获知审核终端对各条信息的判断结果以及可以统计返回的信息数量即可。

服务器可以实时计算审核终端返回的包括判断结果的信息的数量,判断该数量大于或等于预设数量。若服务器接收到审核终端返回所有信息后,接收到审核终端返回的信息的数量仍然小于预设数量,则可以再次执行步骤s410以及步骤s420。

可选的,由于只有在发送给审核终端的信息的数量大于或等于预设数量的情况下,才可能接收到审核终端返回的信息的数量大于或等于预设数量,因此,在本申请实施例中,可以计算发送给审核终端的信息的数量,当发送给审核终端的信息的数量大于预设数量,再判断接收到审核终端返回的信息的数量是否大于或等于预设数量。

可选的,在本申请实施例中,服务器可以将查找到的包括目标词语的信息发送到审核终端,并且接收到所有审核终端返回的信息后,开始根据审核终端返回的判断结果,计算违规信息站查找到的信息的比例。因此,在本申请实施例中,可以通过判断发送给审核终端的数量是否大于或等于预设数量,判断接收到审核终端返回的信息的数量是否大于或等于预设数量。若发送给审核终端的数量大于或等于预设数量,则判定接收到审核终端返回的数量大于或等于预设数量。

作为一种实施方式,服务器可以从用户的当前文字信息中查找包括目标词语的信息,并且可以计算查找到的信息数量是否大于或等于预设数量。若小于预设数量,服务器可以再次从用户的文字信息中查找包括目标词语的信息,将每次查找到的包括目标词语的信息数量相加,判断查找到的总的信息数量是否大于预设数量。当总共查找到的信息数量大于或等于预设数量,将查找到的信息发送到审核终端,并且可以判定发送给审核终端的信息的数量大于或等于预设数量。

作为一种实施方式,为了减小审核终端的审核压力,可以是每次查找到包括目标词语的信息,就将查找到的信息发送给审核终端进行审核。将多次发送给审核终端的信息数量累计,并判断累计数量是否大于预设数量,直到总共发送给审核终端的信息的数量大于预设数量。例如,每次发送给审核终端信息,对发送到审核终端的信息的数量进行计数,并判断该数量是否大于预设数量。若该数量不大于预设数量,则再次从用户的文字信息中查找包括目标词语的信息,并发送给审核终端,将本次发送给审核终端的信息的数量在前一次发送给审核终端的数量上累计。判断累计后的数量是否大于预设数量,若否,则再次从用户的文字信息中查找包括目标词语的信息,并发送给审核终端,并且将本次发送给审核终端的数量在前一次累计后的数量的基础上再次累计,直到累计到发送给审核终端的信息的数量是否大于预设数量。

作为一种实施方式,为了降低向审核终端发送信息的次数,从而降低服务器的处理压力,可以每隔第一预设时间向审核终端发送一次包括目标词语的信息。在该第一预设时间内每次获取到的信息先存储在服务器,当与上一次向审核终端发送信息的时间差达到第一预设时间,再将该第一预设时间范围内获得的信息发送给审核终端。

在该实施方式中,若两次从预设的平台内用户的文字信息中查找包括目标词语的信息之间的时间间隔过短,该预设的平台内用户的文字信息变化可能不大,两次获取到的包括目标词语的信息可能差别不大。因此,该实施方式中,每次从用户的文字信息中查找包括目标词语的信息可以与前一次之间间隔第二预设时间,该第二预设时间的具体时间值在本申请实施例中并不限定,可以与第一预设时间不同。

在本申请实施例中,预设数量的具体值并不限定,例如可以是200。

步骤s440:根据审核终端返回的所述判断结果,计算所述违规信息占所述查找到的信息的比例。

当接收到审核终端返回的信息大于或等于预设数量,则用于计算违规信息占所述查找到的信息的比例的基数达到标准,可以计算违规信息占查找到的信息的比例。可以理解的,用于计算比例的查找到的信息可以是发送给审核终端的查找到的信息,或者是审核终端返回的所有信息。

步骤s450:根据所述比例确定所述目标词语是否为违规词语。

步骤s410、步骤s420、步骤s440以及步骤s450的具体执行可以参照前述实施例,在此不再赘述。

本申请实施例中,以大于或等于预设数量的信息作为计算比例的基数,也就是说,计算大于或等于预设数量的信息中,违规信息所占的比例,从而是计算获得的比例更具有代表性,使对目标词语是违规词语还是非违规词语的词性确定更为准确。

如图6所示,本申请实施例还提供了一种词性确认装置500。请参见图6,该装置500可以包括查找模块510,收发模块520,计算模块530以及确定模块540。

其中,查找模块510可以用于从用户的文字信息中查找包括目标词语的信息。收发模块520可以用于将查找到的信息发送给审核终端,从审核终端获取所述查找到的信息是否属于违规信息的判断结果。计算模块530可以用于根据审核终端返回的所述判断结果,计算所述违规信息占所述查找到的信息的比例。确定模块540可以用于根据所述比例确定所述目标词语是否为违规词语。

可选的,该装置还可以包括标注模块,用于标注所述目标词语为预设类型的词语。确定模块540可以根据所述比例确定所述目标词语是否为所述预设类型的违规词语。

可选的,确定模块540可以用于若所述比例大于或等于第一预设比例,确定所述目标词语为违规词语。

可选的,确定模块540还可以用于若所述比例小于或等于第二预设比例,则所述目标词语不作为违规词语处理,所述第二预设比例小于所述第一预设比例。

可选的,确定模块540还可以用于若所述比例小于第一预设比例且大于第二预设比例,确定再次调用查找模块510,收发模块520以及计算模块530,重新查找包括目标词语的信息,并计算其中违规信息占所述查找到的信息的比例。直到所述比例大于或等于第一预设比例,确定所述目标词语为违规词语;或者直到所述比例小于或等于第二预设比例,将所述目标词语不作为违规词语处理。

可选的,确定模块540还可以用于若所述比例小于第一预设比例且大于第二预设比例,且连续判定所述比例小于第一预设比例且大于第二预设比例的次数小于或等于预设次数,确定再次调用查找模块510,收发模块520以及计算模块530,重新查找包括目标词语的信息,并计算其中违规信息占所述查找到的信息的比例。直到所述比例大于或等于第一预设比例,确定所述目标词语为违规词语;或者直到所述比例小于或等于第二预设比例,将所述目标词语不作为违规词语处理;或者直到连续判定所述比例小于第一预设比例且大于第二预设比例的次数大于预设次数,确定所述目标词语为违规词语。

可选的,该装置500还可以包括数量判断模块,用于判断接收到审核终端返回的信息的数量是否大于或等于预设数量。当判定大于或等于预设数量,则计算模块530可以用于根据审核终端返回的所述判断结果,计算所述违规信息占所述查找到的信息的比例,确定模块540可以用于根据所述比例确定所述目标词语是否为违规词语。若该数量小于预设数量,则可以再次调用查找模块510以及收发模块520,并判断接收到审核终端返回的信息的数量是否大于或等于预设数量。

可选的,该装置500还可以包括入库模块,用于若确定所述目标词语为违规词语,将所述目标词语添加到对应的违规词库。

本申请实施例还提供了一种词性确认系统600。如图1所述,该词性确认系统600包括服务器610以及审核终端620,服务器610与审核终端620之间网络连接。其中,服务器600可以是一个服务器,或者多个服务器组成的服务器集群。审核终端可以是手机、电脑、智能车载设备、平板电脑等各种智能设备,与服务器网络连接的审核终端可以包括一个或多个,图1中以2给为例,但是可以理解的,该词性确认系统中审核终端的数量不限制为2个。

该词性确认系统中,服务器610可以用于从用户的文字信息中查找包括目标词语的信息,将查找到的信息发送给审核终端620。审核终端620可以用于接收服务器610发送的包括目标词语的信息,并将接收到的信息显示,使审核人员对显示的信息进行是否为违规信息的判断。审核终端620还用于接收审核人员对信息是否为违规信息的判断,并且将判断结果发送给服务器610。

服务器610用于接收审核终端620返回的判断结果,以获取所述查找到的信息是否属于违规信息的判断结果。服务器610还用于根据审核终端620返回的所述判断结果,计算所述违规信息占所述查找到的信息的比例,并根据所述比例确定所述目标词语是否为违规词语。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述的各个方法实施例之间可以相互参照,也可以在符合逻辑的情况下相互结合;上述描述装置、模块以及系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

请参考图7,其示出了本申请实施例提供的一种电子设备700的结构框图。该电子设备700可以是服务器。该电子设备一个或多个处理器710(图中仅示出一个),存储器720以及一个或多个程序。其中,所述一个或多个程序被存储在所述存储器720中,并被配置为由所述一个或多个处理器710执行。所述一个或多个程序配置用于执行前述实施例所描述的方法。

处理器710可以包括一个或者多个处理核。处理器710利用各种接口和线路连接整个电子设备700内的各个部分,通过运行或执行存储在存储器720内的指令、程序、代码集或指令集,以及调用存储在存储器720内的数据,执行电子设备700的各种功能和处理数据。可选地,处理器710可以采用数字信号处理(digitalsignalprocessing,dsp)、现场可编程门阵列(field-programmablegatearray,fpga)、可编程逻辑阵列(programmablelogicarray,pla)中的至少一种硬件形式来实现。处理器710可集成中央处理器(centralprocessingunit,cpu)、图像处理器(graphicsprocessingunit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器710中,单独通过一块通信芯片进行实现。

存储器720可以包括随机存储器(randomaccessmemory,ram),也可以包括只读存储器(read-onlymemory)。存储器720可用于存储指令、程序、代码、代码集或指令集。存储器720可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现上述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图8,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitorycomputer-readablestoragemedium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1