一种违禁信息的检测方法及装置与流程

文档序号:16213313发布日期:2018-12-08 08:01阅读:117来源:国知局
一种违禁信息的检测方法及装置与流程
本申请互联网技术,特别涉及一种违禁信息的检测方法及装置。
背景技术
随着电子商务技术的发展,电子商务网站所提供的各类商品日益丰富,相应地,用户也越来越习惯于在电子商务网站中搜索、购买自身需要的产品。然而,在电子商务网站中,为了赚取更多利润,有些供应商会冒险销售违禁品,如,枪支,药品、毒品等等。同时,为了规避电子商务网站的违禁品检索功能,供应商往往会在产品标题中采用隐晦方式描述产品,如,将枪支描述为“玩具-枪”,将药品描述为“治疗品”等等。针对上述情况,相关技术下,网站服务器通常采用关键词匹配方式进行违禁品检测。然而,采用关键词匹配方式,检测准确率及检测效率很低,这是由于供应商可以随时更换新的描述词汇,从而需要浪费大量的人力进行关键词提取和筛选,大大降低了检测效率,并且由于关键词的提取和筛选具有一定地滞后性,往往无法准确及时地检测到违禁品。技术实现要素:本申请的目的是提供一种违禁信息的检测方法,用于提高违禁信息检测的准确率和效率。本申请实施例提供的技术方案如下:一种违禁信息的检测方法,包括:确定待检测的产品,并获取对应该产品设置的至少两类描述信息;按照设定方式对获得的至少两类描述信息包含的文字进行分词操作,获得待检测分词集合;基于所述待检测分词集合包含的至少一个待检测分词的出现次数,计算所述待检测分词集合包含违禁信息的概率;确定所述概率达到设定门限值时,判定所述至少两类描述信息中包含有违禁信息。可选的,在获得所述至少两类描述信息之后,在进行分词划分之前,进一步包括:基于预设的文本转换条件,对获得的至少两类描述信息进行文本预处理。可选的,所述文本预处理包含以下操作中的任意一种或任意组合:将获得的至少两类描述信息中所有的大写字母转换为小写字母;将获得的至少两类描述信息中所有的全角字符转换为半角字符;将获得的至少两类描述信息中所有的繁体文字转换为简体文字;将获得的至少两类描述信息中的指定特殊字符去除;将获得的至少两类描述信息中的指定词汇去除。可选的,按照设定方式对获得的至少两类描述信息包含的文字进行分词操作,获得待检测分词集合,包括:按照预设的不同粒度,对获得的所述至少两类描述信息中包含的文字进行分词划分,获得划分分词集合,其中,所述粒度表征分词划分时采用的断句方式;将从至少两类描述信息中划分获得的分词进行任意组合,获得组合分词集合;将所述划分分词集合和所述组合分词集合进行汇总,获得待检测分词集合。可选的,基于所述待检测分词集合包含的至少一个待检测分词的出现次数,计算所述待检测分词集合包含违禁信息的概率,包括:从所述待检测分词集合中选定使用的待检测分词,并确定使用的待检测分词的出现次数;确定对应使用的待检测分词预设的权值,所述权值是采用待检测分词样本进行训练学习后获得的;基于使用的待检测分词的出现次数和对应的权值,计算所述待检测分词集合包含违禁信息的概率。可选的,从所述待检测分词集合中选定使用的待检测分词之前,进一步包括:统计待检测分词包含的待检测分词的出现次数;筛选出出现次数最多的n个待检测分词,所述n为预设参数。可选的,确定对应使用的待检测分词预设的权值,包括:确定对应使用的待检测分词预设的至少一个类别的权值;基于使用的待检测分词的出现次数和对应的权值,计算所述待检测分词集合包含违禁信息的概率,包括:基于使用的待检测分词的出现次数和所述至少一个类别的权值,针对所述至少一个类别,计算所述待检测分词集合中包含违禁信息的概率。可选的,确定所述概率达到设定门限值时,判定所述至少两类描述信息中包含有违禁信息,包括:若仅针对一个类别,计算所述待检测分词集合中包含违禁信息的概率,则在确定所述概率达到设定门限值时,判定所述至少两类描述信息中包含有针对所述一个类别的违禁信息;若针对至少两个类别,分别计算所述待检测分词集合中包含违禁信息的概率,则在确定最大概率达到设定门限值时,判定所述至少两类描述信息中包含有针对所述最大概率对应的类别的违禁信息。一种信息检测方法,包括:获取预设产品对应的至少两类描述信息;获取与所述至少两类描述信息对应的分词集合;基于所述分词集合包含的至少一个分词的出现次数及对应的类别,判断所述分词集合是否包含目标信息。可选的,所述至少两类描述信息包括:所述预设产品的产品名称信息、产品分类信息、产品具体信息中任意两类。可选的,基于所述分词集合包含的至少一个分词的出现次数及对应的类别,判断所述分词集合是否包含目标信息,包括:基于所述待检测分词的出现次数,以及所属描述信息的类别对应的权重,计算所述待检测分词集合包含违禁信息的概率。一种存储介质,存储有用于实现违禁信息的检测方法有程序,所述程序被处理器运行时,执行以下步骤:确定待检测的产品,并获取对应该产品设置的至少两类描述信息;按照设定方式对获得的至少两类描述信息包含的文字进行分词操作,获得待检测分词集合;基于所述待检测分词集合包含的至少一个待检测分词的出现次数,计算所述待检测分词集合包含违禁信息的概率;确定所述概率达到设定门限值时,判定所述至少两类描述信息中包含有违禁信息。一种计算机装置,包括一个或多个处理器;以及一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述计算机装置执行上述任一项所述的方法。一种违禁信息的检测装置,其特征在于,包括:获取单元,用于确定待检测的产品,并获取对应该产品设置的至少两类描述信息;处理单元,用于按照设定方式对获得的至少两类描述信息包含的文字进行分词操作,获得待检测分词集合;计算单元,用于基于所述待检测分词集合包含的至少一个待检测分词的出现次数,计算所述待检测分词集合包含违禁信息的概率;判定单元,用于确定所述概率达到设定门限值时,判定所述至少两类描述信息中包含有违禁信息。可选的,在获得所述至少两类描述信息之后,在进行分词划分之前,所述处理单元进一步用于:基于预设的文本转换条件,对获得的至少两类描述信息进行文本预处理。可选的,所述文本预处理包含以下操作中的任意一种或任意组合:将获得的至少两类描述信息中所有的大写字母转换为小写字母;将获得的至少两类描述信息中所有的全角字符转换为半角字符;将获得的至少两类描述信息中所有的繁体文字转换为简体文字;将获得的至少两类描述信息中的指定特殊字符去除;将获得的至少两类描述信息中的指定词汇去除。可选的,按照设定方式对获得的至少两类描述信息包含的文字进行分词操作,获得待检测分词集合时,所述处理单元用于:按照预设的不同粒度,对获得的所述至少两类描述信息中包含的文字进行分词划分,获得划分分词集合,其中,所述粒度表征分词划分时采用的断句方式;将从至少两类描述信息中划分获得的分词进行任意组合,获得组合分词集合;将所述划分分词集合和所述组合分词集合进行汇总,获得待检测分词集合。可选的,基于所述待检测分词集合包含的至少一个待检测分词的出现次数,计算所述待检测分词集合包含违禁信息的概率时,所述计算单元用于:从所述待检测分词集合中选定使用的待检测分词,并确定使用的待检测分词的出现次数;确定对应使用的待检测分词预设的权值,所述权值是采用待检测分词样本进行训练学习后获得的;基于使用的待检测分词的出现次数和对应的权值,计算所述待检测分词集合包含违禁信息的概率。可选的,从所述待检测分词集合中选定使用的待检测分词之前,所述计算单元进一步用于:统计待检测分词包含的待检测分词的出现次数;筛选出出现次数最多的n个待检测分词,所述n为预设参数。可选的,确定对应使用的待检测分词预设的权值时,所述计算单元用于:确定对应使用的待检测分词预设的至少一个类别的权值;基于使用的待检测分词的出现次数和对应的权值,计算所述待检测分词集合包含违禁信息的概率时,所述计算单元用于:基于使用的待检测分词的出现次数和所述至少一个类别的权值,针对所述至少一个类别,计算所述待检测分词集合中包含违禁信息的概率。可选的,确定所述概率达到设定门限值时,判定所述至少两类描述信息中包含有违禁信息时,所述判定单元用于:若仅针对一个类别,计算所述待检测分词集合中包含违禁信息的概率,则在确定所述概率达到设定门限值时,判定所述至少两类描述信息中包含有针对所述一个类别的违禁信息;若针对至少两个类别,分别计算所述待检测分词集合中包含违禁信息的概率,则在确定最大概率达到设定门限值时,判定所述至少两类描述信息中包含有针对所述最大概率对应的类别的违禁信息。本申请实施例中,采用分词操作的方式,从待检测的产品对应的至少两类描述信息中提出待检测分词集合,再基于至少一个待检测分词的出现次数,确定上述至少两类描述信息包含违禁信息的概率达到设定门限值时,判定上述至少两类描述信息中包含有违禁信息。这样,将来源于不同类描述信息的分词进行重组,可以准确地重现待检测分词,从而有效防止产品提供方将违禁信息分割后隐藏在不同处,大大提高了检测准确性,同时,基于待检测分词在不同描述信息中的出现次数,计算包含违禁信息的概率,可以有效缩减检测复杂度以及检测计算量,进而显著地提高了检测效率。附图说明图1为本申请实施例中进行违禁信息检测流程图;图2为本申请实施例中描述信息分布示意图;图3为本申请实施例中用于检测违禁信息的装置结构示意图。具体实施方式为了提高违禁信息检测的准确率和效率,本申请实施例中,采用分词操作的方式,从待检测的产品对应的至少两类描述信息中提出待检测分词集合,再基于至少一个待检测分词的出现次数,确定上述至少两类描述信息包含违禁信息的概率。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。参阅图1所示,本申请实施例中,对违禁信息进行检测的详细流程如下:步骤100:确定待检测的产品,并获取对应该产品设置的至少两类描述信息。实际应用中,所谓的产品的描述信息,是指用于描述产品的名称、形态、型号、功能、应用环境等等的相关信息;本申请实施例中,产品的描述信息中至少包含产品标题和产品详细介绍信息,通常情况下,产品标题设置在产品图片的附近,而产品详细介绍信息,放置在产品图片下方的网页空白处,具体参阅图2所示。进一步地,产品的描述信息中还可以包含还可以包括产品类目和产品提供方身份信息,具体亦可参阅图2所示。由于产品标题是最容易被进行检测的地方,因此,产品提供方有可能将违禁信息隐藏在其他位置,以便逃避检测。因此本申请实施例中,需要对产品的至少两类描述信息进行综合性检测,以提高检测准确性。步骤110:基于预设的文本转换条件,对获得的至少两类描述信息进行文本预处理。本申请实施例中,之所以需要进行文本预处理,是因为为了规避违禁信息检测,产品提供方有可能对各类描述信息包含的违禁信息进行隐藏处理,如,采用大小写混杂方式设置,采用全角半角混杂方式进行设置,采用繁简体混杂方式进行设置、加入特殊字符或停用词将违禁信息间隔开等等。相应的,本申请实施例中,在按照预设的文本转换条件对获得的至少两类描述信息进行文本预处理时,可以采用但不限于以下方式:方式1:将获得的至少两类描述信息中所有的大写字母转换为小写字母。具体的,字母的编码很规律,不同字母之间,同一个字母的大小写编码距离相同,如,针对同一字母,小写的ascii值均比大写的ascii值大32,因此,可以按照此规律进行大小写字母的转换。例如:将“abcdefg”转换为“abcdefg”。方式2:将获得的至少两类描述信息中所有的全角字符转换为半角字符。具体的,全角字符的定义为unicode编码从0xff01~0xff5e,对应的半角字符的unicode编码从0x21~0x7e,空格比较特殊,全角为0x3000,半角为0x20;除空格外,全角字符和半角字符的转换按unicode编码排序顺序对应,按照规则进行转换即可。例如:将“drugs”转换为“drugs”。方式3:将获得的至少两类描述信息中所有的繁体文字转换为简体文字。具体的,可以按照预设的繁体与简体之间的映射关系表进行转换。例如:将“興奮劑”转换为“兴奋剂”。方式4:将获得的至少两类描述信息中所有的指定特殊字符去除。具体的,可以设置包含有需要去除的特殊字符的黑名单,并基于该黑名单进行特殊字符的去除。例如,将“兴……奋――剂”转换为“兴奋剂”,将“子%¥弹”转换为“子弹”。方式5:将获得的至少两类描述信息中所有的指定词汇去除。需要去除的词汇通常为无意义的语气助词或转折词,可以简称为停用词,如,一些常见的停用词包括“的”、“了”、“不管”、“因此”等等,可以预先设置停用词名单,以便随时比对去除。方式5:例如,将“兴的奋了剂”转换为“兴奋剂”,将“子因此弹”转换为“子弹”。当然,进行文本预处理时,可以采用上述5种方式中的任意一种或任意组合。又或者,进一步地,还可以采用其他方式实现文本预处理,上述5种方式仅为举例,在此不再赘述。当然,若确定获得的至少两类描述信息中包含的字符或文字不会影响最后的检测结果,则也可以不执行文本预处理,本实施例仅为举例,在此亦不再赘述。步骤120:按照设定方式对获得的至少两类描述信息包含的文字进行分词操作,获得待检测分词集合。实际应用中,由于产品提供方有可能将违禁信息隐藏在不同类型的描述信息中,所以仅仅对描述信息进行简单地分词划分有可能无法获得准确的待检测分词,因此,本申请实施例中,需要将来自于不同类描述信息的分词进行组合,简言之,上述分词操作包含,分词划分以及分词组合两类操作。首先,需要按照不同粒度,对获得的至少两类描述信息中包含的文字进行分词划分,获得划分分词集合。所谓按照不同粒度进行分词划分,其实质是:同一段文字可以按照不同方式(如,不同停顿方式、不同断句方式)划分出不同的分词,即同一文字可以多次使用。例如:在产品详细介绍信息中存在一段文字为“树胶倒模工具”,那么,可以将这一段文字划分为“树胶”、“倒模”、“工具”,以及“树胶倒模”、“倒模工具”和“树胶倒模工具”。这样,可以尽可以地覆盖到所有的分词情况,以避免后续检测过程中造成漏检的情况。其次,需要将从至少两类描述信息中划分获得的分词(即上述划分分词集合中包含的各个分词)进行任意组合(可以两两组合、三三组合等等),获得组合分词集合。当然,来自于不同类描述信息的同一个分词可以采用前缀区分,例如,假设从产品标题中获得的划分分词为“树胶”和“倒膜”,而从产品提供方身份信息中获得的划分分词为“锁具”和“公司”,那么,经过分词之间的任意组合后,假设获得的组合分词为“树胶锁具”、“锁具倒膜”、“树胶公司”和“倒膜公司”,那么,这些组合分词便可以组成组合分词集合,而其中的“锁具倒膜”这一组合分词有可以涉及到开锁工具的制作,因此,有可能是违禁信息。最后,将划分分词集合和组合分词集合进行汇总,获得待检测分词集合。本申请实施例中,划分分词集合和组合分词集合均为重要的待检测分词,为了提供后续的检测准确性,需要将这两类分词集合进行汇总,以获得待检测分词集合。步骤130:计算待检测分词集合中的各个待检测分词的出现次数,筛选出出现次数最多的n个待检测分词,其中,n为预设参数。假设n=10,则可以针对待检测分词集合中记录的每一个待检测分词进行直方图统计,确定每一个待检测分词的出现次数,再将各个待检测分词按照出现次数从大到小的顺序进行排序,最后,筛选出排位前10的待检测分词,以做进一步处理。由于待检测分词的出现次数,可以代表待检测分词的重要性,因此,在待检测分词的数量较多的情况下,需要先将出现次数较多的待检测分词筛选出来,以提高后续的检测效率。另一方面,若待检测分词的数目较少,全部检测也不会影响检测效率,或者,为了防止产品提供方在出现次数较少的待检测分词中隐藏违禁信息,则也可以不执行步骤130。本申请实施例中,仅以执行步骤130为例进行说明,在此不再赘述。步骤140:将所有待检测分词进行文本向量化。具体的,可以采用“索引+索引值”的方式将待检测分词进行文本向量化,如,可以采用“index1:value1index2:value2…”的形式表示向量化后的待检测分词,其中,index可以为待检测分词的唯一序号,value为待检测分词的出现次数;其中,若执行了步骤130,则若某个待检测分词未被筛选中,则可以作为无效词忽略不计。步骤150:基于待检测分词集合包含的至少一个待检测分词的出现次数,计算上述至少两类描述信息包含违禁信息的概率。具体的,可以将向量化后的文本输入到预先训练好的模型中,这样,每一个待检测分词的出现次数都会决定最后的概率的取值。可选的,在计算包含违禁信息的概率时,可以先确定需要使用的待检测分词,其中,所为需要使用的待检测分词,可以是筛选出的与该设定类目相关的待检测分词(即至少一个待检测分词),也可以是全部的待检测分词。接着,确定使用的每一个待检测分词的出现次数;然后,确定对应使用的待检测分词预设的权值,其中,所谓权值是采用待检测分词样本进行训练学习后获得的;最后,基于使用的每一个待检测分词的出现次数和对应的权值,计算上述获得的至少两类描述信息中包含违禁信息的概率。例如,可以但不限于采用以下公式计算上述概率。p=w1n1+w2n2+winm……公式一其中,p表示概率,wi表示第i个权值,nm表示使用的第m个待检测分词的出现次数。通常情况下,权值与待检测分词之间是存在关联关系的,即wi和nm之间的关系是相对稳定的,一个待检测分词对应的权值是经过迭代训练获得的。具体的,在样本训练过程中,可以分别将每一轮迭代过程中使用的文本向量化后的待检测分词集合映射为多维空间中的一个点,令获得的多个点到达目标直线或目标平面的距离之和最短是终止目标,此时获得的目标直线或目标平面的表达式中的参数便是某个权值的配置值。例如,为了便于描述,以2维坐标系为例。假设文本向量化后的待检测分词集合x1为:1:22:4;其中,每一组数字中“:”之前的数字表示维度,“:”之后的数字表示坐标值,那么,“1:22:4”则表示横坐标为2,纵坐标为4的一个点,即(2,4)。将(2,4)映射至2维坐标系,并确定目标直线x的初始表达式为y=wx+b(假设w和b的初始取值为预设值),那么,计算(2,4)到目标直线x的距离为l1。接着,继续获取后续的作为样本的待检测分词集合x2,假设采用相同方式获得映射后的点为(3,5),那么,计算令(2,4)和(3,5)到达的距离之和最短的直线的表达式,并对目标直线x的初始表达式进行调整,得到更新后的表达式y=w’x+b’.以此类推,可以继续采用待检测分词集合x3、待检测分词集合x4……,继续对目标直线x的表达式进行迭代更新,直到更新后的表达式与更新前的表达式的参数取值的差值低于设定阈值为止。那么,当迭代结束时,可以获得w的最新取值,接着,确定对应w预设的分词类目,将w的最新取值设置为具有相同分词类目的待检测分词的权值,而由于各个待检测分词的权值之和为1,则1-w便是另一个待检测分词的权值。上述权值设置过程仅以两个待检测分词为例,若作为样本的待检测分词集合中包含中两个以上的多个待检测分词时,则在将其映射到多维坐标系并进行迭代后,可以获得多个不同分词类目的待检测分词的权值,在此不再赘述。相应的,公式一中各个权值的取值均可以采用上述方式设置,也可以定期学习更新,在此不再赘述。步骤160:确定计算获得的概率达到设定门限值时,判定上述至少两类描述信息中包含有违禁信息。具体的,在使用公式一计算包含违禁信息的概率时,某一个待检测分词的权值有可能会显著提高上述概率的取值。例如,假设待检测分词集合为{玩具,出现,火枪,倒膜,},其各自的出现次数为6、7、5、4,而其各自的权值为0.3、0.2、0.9、0.5,那么,采用公式一进行计算并进行归一化处理后,假设得到的包含违禁信息的概率为97%,大于预设门限值(假设为80%),则可以肯定当前的待检测产品对应的至少两类描述信息中检测出了违禁信息,并且基于预设分类,“火枪”属于枪支类的概率最高,则可以判定违禁信息属于“枪支类”。上述实施例中,仅以分词具有一类权值为例进行说明。而在实际训练过程中,可选的,训练模型中的各个分词可能会被归属至不同的类别,那么,一个分词在每一个类别下均会具有相应的权值,这样,当文本向量化后的待检测分词输入至训练模型后,会分别针对每一类别输出相应的概率。简言之,可以确定对应使用的待检测分词预设的至少一个类别的权值,再基于使用的待检测分词的出现次数和上述至少一个类别的权值,针对上述至少一个类别,计算待检测分词集合中包含违禁信息的概率。那么,待检测分词针对一个类别的概率值越大,其包含这一类别下的违禁信息的可能性就越大。例如,参阅表1所示,训练样本中共包含11个分词,分别为:中华、香烟、字帖、我、爱、十字绣、牡丹、火枪、玩具、毛绒、儿童,所需分类的类别有3个,分别为:香烟类、枪支类、正常类,那么,经过学习后,训练模型中获得的各个分词在各个类别的权值如下:表1分词香烟类枪支类正常类中华0.40.10.5香烟0.90.040.06字帖0.10.20.7我………爱………十字绣………牡丹………火枪0.030.90.07玩具………毛绒………儿童………假设,后续获得的测试用例为:“出售中华牌香烟”,则从测试用例中划分获得的待检测分词为:出售、中华、牌、香烟;则分别按照步骤100-步骤160介绍的方法,计算测试用例(即待检测分词集合)在每一个类别的分值如下:score(香烟类)=w香烟类(出售)*x香烟类(出售)+w香烟类(中华)*x香烟类(中华)+w香烟类(牌)*x香烟类(牌)+w香烟类(香烟)*x香烟类(香烟)=0*0+0.4*1+0*0+0.9*1=1.3。score(枪支类)=w枪支类(出售)*x枪支类(出售)+w枪支类(中华)*x枪支类(中华)+w枪支类(牌)*x枪支类(牌)+w枪支类(香烟)*x枪支类(香烟)=0*0+0.1*1+0*0+0.04*1=0.14。score(正常类)=w正常类(出售)*x正常类(出售)+w正常类(中华)*x正常类(中华)+w正常类(牌)*x正常类(牌)+w正常类(香烟)*x正常类(香烟)=0*0+0.5*1+0*0+0.06*1=0.56。最后,将3个分值归一化为[0,1]区间,可得分属3个类别的概率:prob(香烟类)=1.3/(1.3+0.14+0.56)=0.65;prob(枪支类)=0.14/(1.3+0.14+0.56)=0.07;prob(正常类)=0.56/(1.3+0.14+0.56)=0.28;可以看出,香烟类的概率最大,且达到设定门限值(0.5),因此判别该测试用例包含有香烟类的违禁词汇。基于上述方案,不但可以从产品的不同类描述信息中有效检测出违禁信息,并且还可以准确获知违禁信息所归属的类目。结合上述方案,可以看出,本申请一个实施例中,若仅针对一个类别,计算所述待检测分词集合中包含违禁信息的概率,则在确定所述概率达到设定门限值时,判定所述至少两类描述信息中包含有针对所述一个类别的违禁信息;若针对至少两个类别,分别计算所述待检测分词集合中包含违禁信息的概率,则在确定最大概率达到设定门限值时,判定所述至少两类描述信息中包含有针对所述最大概率对应的类别的违禁信息。基于上述实施例,进一步地,在一个实施例中,还可以提供一种信息检测方法,包括:获取预设产品对应的至少两类描述信息;获取与所述至少两类描述信息对应的分词集合;基于所述分词集合包含的至少一个分词的出现次数及对应的类别,判断所述分词集合是否包含目标信息。可选的,所述至少两类描述信息包括:所述预设产品的产品名称信息、产品分类信息、产品具体信息中任意两类。可选的,基于所述分词集合包含的至少一个分词的出现次数及对应的类别,判断所述分词集合是否包含目标信息,包括:基于所述待检测分词的出现次数,以及所属描述信息的类别对应的权重,计算所述待检测分词集合包含违禁信息的概率。进一步地,在本申请一个实施例中,还提供一种存储介质,存储有用于实现违禁信息的检测方法有程序,所述程序被处理器运行时,执行以下步骤:确定待检测的产品,并获取对应该产品设置的至少两类描述信息;按照设定方式对获得的至少两类描述信息包含的文字进行分词操作,获得待检测分词集合;基于所述待检测分词集合包含的至少一个待检测分词的出现次数,计算所述待检测分词集合包含违禁信息的概率;确定所述概率达到设定门限值时,判定所述至少两类描述信息中包含有违禁信息。进一步地,在本申请一个实施例中,还提供一种计算机装置,包括一个或多个处理器;以及一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述计算机装置执行上述任一项所述的方法。进一步地,参阅图3所示,在本申请一个实施例中,用于检测违禁信息的装置(即检测装置)至少包括获取单元30、处理单元31、计算单元32和判定单元33,其中:获取单元30,用于确定待检测的产品,并获取对应该产品设置的至少两类描述信息;处理单元31,用于按照设定方式对获得的至少两类描述信息包含的文字进行分词操作,获得待检测分词集合;计算单元32,用于基于所述待检测分词集合包含的至少一个待检测分词的出现次数,计算所述待检测分词集合包含违禁信息的概率;判定单元33,用于确定所述概率达到设定门限值时,判定所述至少两类描述信息中包含有违禁信息。可选的,在获得所述至少两类描述信息之后,在进行分词划分之前,处理单元31进一步用于:基于预设的文本转换条件,对获得的至少两类描述信息进行文本预处理。可选的,所述文本预处理包含以下操作中的任意一种或任意组合:将获得的至少两类描述信息中所有的大写字母转换为小写字母;将获得的至少两类描述信息中所有的全角字符转换为半角字符;将获得的至少两类描述信息中所有的繁体文字转换为简体文字;将获得的至少两类描述信息中的指定特殊字符去除;将获得的至少两类描述信息中的指定词汇去除。可选的,按照设定方式对获得的至少两类描述信息包含的文字进行分词操作,获得待检测分词集合时,处理单元31用于:按照预设的不同粒度,对获得的所述至少两类描述信息中包含的文字进行分词划分,获得划分分词集合,其中,所述粒度表征分词划分时采用的断句方式;将从至少两类描述信息中划分获得的分词进行任意组合,获得组合分词集合;将所述划分分词集合和所述组合分词集合进行汇总,获得待检测分词集合。可选的,基于所述待检测分词集合包含的至少一个待检测分词的出现次数,计算所述待检测分词集合包含违禁信息的概率时,计算单元32用于:从所述待检测分词集合中选定使用的待检测分词,并确定使用的待检测分词的出现次数;确定对应使用的待检测分词预设的权值,所述权值是采用待检测分词样本进行训练学习后获得的;基于使用的待检测分词的出现次数和对应的权值,计算所述待检测分词集合包含违禁信息的概率。可选的,从所述待检测分词集合中选定使用的待检测分词之前,计算单元32进一步用于:统计待检测分词包含的待检测分词的出现次数;筛选出出现次数最多的n个待检测分词,所述n为预设参数。可选的,确定对应使用的待检测分词预设的权值时,计算单元32用于:确定对应使用的待检测分词预设的至少一个类别的权值;基于使用的待检测分词的出现次数和对应的权值,计算所述待检测分词集合包含违禁信息的概率时,计算单元32用于:基于使用的待检测分词的出现次数和所述至少一个类别的权值,针对所述至少一个类别,计算所述待检测分词集合中包含违禁信息的概率。可选的,确定所述概率达到设定门限值时,判定所述至少两类描述信息中包含有违禁信息时,判定单元33用于:若仅针对一个类别,计算所述待检测分词集合中包含违禁信息的概率,则在确定所述概率达到设定门限值时,判定所述至少两类描述信息中包含有针对所述一个类别的违禁信息;若针对至少两个类别,分别计算所述待检测分词集合中包含违禁信息的概率,则在确定最大概率达到设定门限值时,判定所述至少两类描述信息中包含有针对所述最大概率对应的类别的违禁信息。综上所述,本申请实施例中,采用分词操作的方式,从待检测的产品对应的至少两类描述信息中提出待检测分词集合,再基于至少一个待检测分词的出现次数,确定上述至少两类描述信息包含违禁信息的概率达到设定门限值时,判定上述至少两类描述信息中包含有违禁信息。这样,将来源于不同类描述信息的分词进行重组,可以准确地重现待检测分词,从而有效防止产品提供方将违禁信息分割后隐藏在不同处,大大提高了检测准确性,同时,基于待检测分词在不同描述信息中的出现次数,计算包含违禁信息的概率,可以有效缩减检测复杂度以及检测计算量,进而显著地提高了检测效率。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1