社区内容风险评估方法及装置与流程

文档序号:18257938发布日期:2019-07-24 10:26阅读:542来源:国知局
社区内容风险评估方法及装置与流程

本申请涉及互联网领域,特别涉及社区内容安全性评估技术。



背景技术:

在有大量用户原创内容(UGC)产生的内容公开社区或者平台上的日常运营中,对社区展示内容的内容风险评估是必不可少的一环。

这里的风险指类似涉政,涉黄,违规广告推广等内容。

通常我们使用风险占比来衡量社区的洁净度是否符合要求,但由于UGC社区的内容量巨大,对所有的内容进行人工审核需要耗费巨大的人力,在实际业务是中无法实现的。

因此,通常情况下会对全部的UGC内容进行随机抽样,对抽样出来的数据进行人工标注构建抽样集,并用在抽样集计算得到的风险占比来估计整个社区的风险占比。

但是,在实际业务场景中真实的风险数据占比极少(例如,<1%,具体看评估的风险),又受到抽样策略(主要为抽样比,在实际应用中抽样比较低)的影响,导致目前存在一些问题,例如,基于随机抽样集上风险占比估计特别不稳定(即,估计指标的方差较大)。又例如,经常会出现如果抽样数据中偶然抽到了风险数据,则会因为抽样比较小而高估了遗漏的风险量,导致估计的风险占比远远高于实际值。又或者,如果没抽到风险数据,则忽略的潜在的风险。

上文提到的随机抽样,即基于整个社区的内容按照一个固定的抽样比进行随机抽样,从而基于抽样得到的数据集计算指标用于评估整个社区的指标。

虽然上述方式具有逻辑简单,容易实现的好处,但另一方面存在以下缺点:在风险数据极少时,对风险占比指标的估计不稳定,抽样误差较大,准确率不高,同时不容易抽到潜在的遗漏风险数据。



技术实现要素:

本申请的目的在于提供一种社区内容风险评估方法及装置,即使在风险数据极少时,也能够确保对风险占比指标的估计更加稳定,减小抽样误差,提高准确率,同时能够避免由于不容易抽到潜在的遗漏风险数据而影响准确性。

为了解决上述问题,本申请公开了一种社区内容风险评估方法,包括:

对该社区内容的整体内容文本进行分词,获得分词文本,并将每个分词文本转换为文本向量;

对每一个文本向量聚类,构建簇,其中,所述簇中包含所述文本向量对应的分词文本;

确定每一个簇对应的分词文本抽样数,在每一个簇中,按照对应的分词文本抽样数进行分词文本抽样;

在每一个簇中,判断每一个抽样的分词文本是否为风险内容,并统计簇的抽样的分词文本中,被确定为风险内容的分词文本的数量;

根据每一个簇中,被标记为风险内容的分词文本的数量,确定该社区内容的风险召回指标。

在一个优选例中,将每个分词文本转换为文本向量的步骤中,使用预训练的TextCNN二分类模型。

在一个优选例中,将每个分词文本转换为文本向量的步骤中,使用以下任意一种预设的模型:LSTM、word2vec、doc2vec。

在一个优选例中,对每一个文本向量聚类,构建簇的步骤中,使用以下任意一种算法:k-means算法、K-MEDOIDS算法、CLARANS算法。

在一个优选例中,确定每一个簇对应的分词文本抽样数的步骤中,使用以下任意一种方式确定分词文本抽样数:分层定比、非比例分配法、奈曼法。

在一个优选例中,确定每一个簇对应的分词文本抽样数的步骤中,如果簇包含的分词文本的数量在所述社区内容的整体内容文本对应的分词文本的总数中所占的比例低于预设的阈值时,采用非比例分配法确定簇对应的分词文本抽样数。

在一个优选例中,对整体内容文本进行分词,获得分词文本的步骤之前,还包括:

对整体内容文本进行预处理。

本申请还公开了一种社区内容风险评估装置,包括:

文本向量模块,用于对社区内容的整体内容文本进行分词,获得分词文本,并将每个分词文本转换为文本向量;

聚类模块,用于对每一个文本向量聚类,构建簇,其中,所述簇中包含所述文本向量对应的分词文本;

抽样模块,用于确定每一个簇对应的分词文本抽样数,在每一个簇中,按照对应的分词文本抽样数进行分词文本抽样;

风险内容统计模块,用于在每一个簇中,判断每一个抽样的分词文本是否为风险内容,并统计簇的抽样的分词文本中,被确定为风险内容的分词文本的数量;

风险召回指标模块,用于根据每一个簇中,被标记为风险内容的分词文本的数量,确定社区内容的风险召回指标。

本申请还公开了一种社区内容风险评估设备,包括:

存储器,用于存储计算机可执行指令;以及,

处理器,用于在执行计算机可执行指令时实现上述方法中的步骤。

本申请还公开了一种计算机可读存储介质,计算机可读存储介质中存储有计算机可执行指令,计算机可执行指令被处理器执行时实现上述方法中的步骤。

本申请实施方式中,先对需要评估的社区内容的文本进行分词,再将分词文本转换为文本向量,并对文本向量进行聚类,使文本向量对应的分词文本在语义层面形成簇,再对每一个簇确定相应的分词文本抽样数,根据抽样的分词文本中存在的风险内容的分词文本的数量,评估社区内容的风险召回指标,这样做的好处在于,即使在风险数据极少时,也能够确保对风险占比指标的估计更加稳定,减小抽样误差,提高准确率,同时能够避免由于不容易抽到潜在的遗漏风险数据而影响准确性。

本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。

附图说明

图1是根据本申请第一实施方式的社区内容风险评估方法流程示意图;

图2是根据本申请第二实施方式的社区内容风险评估装置结构示意图;

图3是根据本申请实施方式的社区内容风险评估方法的实验测试效果示意图。

具体实施方式

在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。

部分概念的说明:

UGC:User Generated Content,指用户生成内容。

内容风险:指内容中包括诸如涉政敏感言论、色情内容、违规广告推广等风险。

风险内容:指包括涉政敏感言论,色情内容,违规广告推广等风险的内容。

风险占比:指社区内容中所有风险内容的数量与社区内容的总内容数量的比例,即:风险内容量/内容总量。

洁净度:用于衡量社区内容的洁净程度,即:洁净度=1-风险占比。

抽样比:在N个数据中随机抽取n个数据作为抽样集合,则抽样比为n/N。

内容向量:指用向量的形式来表示分词文本。

分层抽样:也叫类型抽样法,它是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。在本申请中,是基于文本向量聚类后构成的簇,对每一个簇中的分词文本进行抽样。

TextCNN:是利用卷积神经网络对文本进行分类的算法。

点估计:又称定值估计,就是用实际抽样指标数值作为总体参数的估计值。点估计的方法简单,一般不考虑抽样误差和可靠程度。

下面概要说明本申请的部分创新点:

本申请在特定的“社区内容风险估计”场景下,针对内容文本的特殊性,提出了先聚类构成簇,再对每一个簇中的分词文本进行抽样评估,并且每一个簇可以根据具体情况确定这个簇对应的分词文本抽样数,从而在风险占比极低,低抽样比的场景下,有效提升基于抽样集的风险召回指标估计值的稳定性和代表性,提高准确率,同时也更易于发现潜在的遗漏内容风险。

进一步的说,通过先将分词文本转换为文本向量,然后将文本向量聚类构成簇,再对每一个簇中的分词文本进行抽样评估,即,分层抽样,能有效地提升抽样集的代表性,减少抽样误差。具体的,常规的分层抽样基于抽样对象的属性或分类进行分层,例如,在人群抽样时,对性别,年龄等进行分层,但是,在本申请中,社区内容都是非结构化数据,没有客观的属性可以用于直接分层。因此,本申请创造性地通过对分词文本从语义层面进行聚类构成簇,把社区内容整体上分隔成具有语义共性的子类,用于后续分层抽样。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步的详细描述。

本申请的第一实施方式涉及一种社区内容风险评估方法,其流程如图1所示,该方法包括以下步骤:

步骤101:文本向量转换

具体的,对社区内容的整体内容文本进行分词,获得分词文本,并将每个分词文本转换为文本向量。

需指出,文本预处理是主要针对社区内容的整体内容文本中出现的一些繁体,特殊符号,emoji表情,中文数字等内容进行清洗或者转换。

需指出,分词是对完成上述预处理的字符串,使用分词算法进行分词处理,获得分词文本。

例如:“今天的天气真好”经过分词之后,得到“今天/天气/真好”。其中,“今天”、“天气”、“真好”是分词文本。

这样做的好处在于,将社区内容往往缺少规范性和标准型,处理效率较低,通过社区内容的整体内容文本进行了有效清理和分割,给后续的风险内容评估提供了方便处理的分词文本。

需指出,目前已有的文本预处理和分词方式都有多种方式,在本申请中并不限于特定的具体方式。

具体的,在本实施例中,采用预训练的TextCNN二分类模型作为词向量模型。其中,该TextCNN二分类模型为针对风险内容识别的二分类模型,可以把TextCNN网络结构的最后一层作为输入文本的内容向量输出。

需指出,本申请的文本向量转换方式并不限于上述TextCNN二分类模型,还可以使用其它模型代替,例如LSTM,word2vec,doc2vec等。

步骤102:文本向量聚类

具体的,在本步骤中,对上述获得的每一个文本向量聚类,构建簇,其中,所述簇中包含所述文本向量对应的分词文本。

具体的,在本实施例中,选择了k-means算法,进一步的,选择固定输出类个数为N,即,构建N个簇。

需指出,本申请的文本向量聚类方式并不限于上述k-means算法,还可以使用其它聚类算法代替。

例如,K-MEDOIDS,CLARANS,等等。

这样做的好处在于,通过对社区内容的整体内容文本预处理及分词,以及文本向量转换后获得的文本向量进行聚类,实际上使分词文本产生了新的属性。而在处理之前,社区内容都是非结构化数据,因此没有客观的属性,对这些分词文本无法进行有效聚类和后续的评估。

换句话说,通过上述步骤,对社区内容的整体内容文本在语义层面进行子类分隔,赋予了每个分词文本一个在基于语义层面的新的属性,相应的,如果分词文本的文本向量的属性相同,则表示它们在语义上也存在一定的共性。

进一步的,通过上述步骤,提升了对社区内容的整体内容文本的每一个分词文本的子类分隔的效果,从而为提升最终分层抽样效果,抽样样本的代表性提供了更好的前提。

步骤103:分词文本抽样

具体的,在本步骤中,确定每一个簇对应的分词文本抽样数,在每一个簇中,按照对应的分词文本抽样数进行分词文本抽样。

具体的,在本实施例中,在通过对转换得到的文本向量进行聚类所构成的簇中,确定每一个簇对应的分词文本抽样数,并进行抽样,可以称为“分层抽样”。

进一步的,分层抽样法也叫类型抽样法,它是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。

这种方法的优点是,抽样的分词文本的代表性比较好,抽样误差比较小。

举例来说,分层抽样的过程包括:把总体各单位分成两个或两个以上的相互独立的完全的组(例如,男性和女性),然后,从两个或两个以上的组中进行简单随机抽样,抽样的数据是相互独立的。可见,在分层抽样中,对总体各单位按主要标志加以分组,分组的标志与关心的总体特征之间有相关性。进一步的,分组和抽样就相当于本实施例中的聚类和抽样。

可以理解,在前面的步骤中完成簇的构建后,原来的分词文本都可以归属到某个簇中,因此,这里的簇即是分层抽样法中层的概念,可使用分层抽样获取每一个簇的分词文本的抽样集。

进一步的,由于分层抽样的效果会受到层内变异情况的影响,也就是当同层的样本变异情况越小时(这里的变异可以理解为内容的主题,风险占比等),分层抽样的效果越好。本申请的实施例中,通过聚类的方式从内容本身的语义进行“层”的分隔,可以尽可能地降低层内变异性,提升分层抽样效果。

具体的,在本步骤中,对每一个簇的分词文本抽样数进行确定的具体方法可以有以下几种:

第一种:分层定比。

具体的,每一个簇的分词文本抽样数与社区内容的整体内容文本对应的所有分词文本的数量的比值相等。

举例来说,分词文本抽样数大小n=50,这个簇总的分词文本数量N=500,则n/N=0.1即为样本比例,每层均按这个比例确定该层样本数。

第二种:非比例分配法。

具体的,当某一个簇总的分词文本数量在社区内容的整体内容文本对应的所有分词文本中所占比例太小,即,低于一个预设的阈值时,为了使得这个簇在语义上的特征能够在抽样中有足够的反映,可以通过人为设定,适当增加这个簇的分词文本抽样数在社区内容的整体的内容文本抽样总数中所占的比例。

第三种:奈曼法。

具体的,每一个簇的分词文本抽样数与这个簇的总分词文本数量及其标准差的积成正比。

在本实施例中,使用上述第二种的“非比例分配方法”抽样方法。

这样做的好处在于,在一些特殊场景下,黑数据,即风险内容的分词文本往往数据量较少,如果按照第一种分层定比的方式进行抽样,黑数据就不容易被抽样到,影响了评估结果的稳定性和准确性。因此,通过非比例分配方法对这个簇的分词文本抽样数有一定的保证,能够更好的平衡估计社区内容的整体内容文本包含的各个簇的分词文本的情况,避免黑数据所在的簇由于数据量较少而未被抽样到。

举例来说,可以设置抽样规则,其中,簇的总分词文本数量为N,分词文本抽样数为n,抽样比为sp,则可按照以下规则抽样:

1)N<100时n=N

2)N<1000时n=100

3)N<10000时sp=5%

4)N<500000时sp=1%

5)N>=500000时n=5000

需指出,本申请的基于簇的分层抽样中,每一个簇的分词文本抽样数的确定方法并不限于以上方式,还可以使用其它分配方案代替,在此不做赘述。

步骤105:统计风险内容的分词文本

具体的,在本步骤中,在每一个簇中,判断每一个抽样的分词文本是否为风险内容,并统计这个簇的抽样的分词文本中,被确定为风险内容的分词文本的数量。

需指出,判断抽样的分词文本是否为风险内容的具体方式,是本领域的公知常识,在此不做赘述。

需指出,由于在上述步骤中,针对数据量较小的黑数据,通过非比例分配法,确定这一个簇对应的分词文本抽样数,因此,在本步骤中,即使黑数据所在的簇的总分词文本数量很小,例如小于1000,但是,仍然可以按照认为设定的标准,例如:按照步骤104中举例的规则,N<1000时n=100,或者,N<100时n=N,由此更加合理地对这个簇进行分词文本的抽样,并判断每一个抽样的分词文本是否为黑数据,即,风险内容,并对这个簇中确定为风险内容的分词文本的数量进行统计。

这样做的好处在于,针对不易发觉的风险内容,即使数据量较少,也更加容易发现,从而使得社区内容风险评估的结果更加稳定和准确。

步骤106:确定风险召回指标

具体的,在本步骤中,根据每一个簇中,被确定为风险内容的分词文本的数量ri,确定所述社区内容的风险召回指标。

具体的,本步骤中,社区内容的风险召回指标的具体计算公式如下:

其中,K表示在上述对每一个文本向量聚类并构建簇的步骤中,得到了K个簇。

其中,Ni表示第i个簇中包含的分词文本的数量。

其中,ni表示在上述确定每一个簇对应的分词文本抽样数的步骤中,对第i个簇确定的分词文本抽样数,也就是抽样额度。

其中,ri表示第i个簇中,经过打标后被标记为风险内容的分词文本的数量,即,确定为风险内容的分词文本的数量。

由此,本实施例获得了这个社区内容的风险评估结果,即,风险召回指标。

下面用一个例子来对随机抽样方法和本申请的基于聚类的分层抽样估计方法的效果进行比较。

如图3示出分词文本的二维映射,其中,左图为原始形态,右图为聚类结果图3中的左图中的点为一个社区中UGC内容在2维平面上的映射,每个点代表一个内容(共30个点),浅色的表示正常数据,深色的表示风险数据。

从图中可以算出实际的风险占比为7%(1/15)。

现在希望从30个点中抽取4条文本向量来构建抽样集,并通过计算抽样集的风险占比来估计社区内容整体的风险占比。

首先,使用随机抽样的方法,则可能出现的估计值如表一,其中有近75%的概率会抽到4个浅色点(无风险内容),即忽视了潜在的遗漏风险;在以23.9%的概率抽到一个深色点(风险内容)时,其风险占比估计值就直接从0上升到了25%,和真实值7%相比对风险产生了高估。

表一.随机抽样出现各种情况的概率及风占比估计

接下来,使用本申请提出的抽样估计方法。

假设通过聚类可以把分词文本分为如图3中的右图的4个簇,再采用非比例分配法在总量抽取4条分词文本的同时保证在每个簇中至少抽一条分词文本,即每个簇抽取一条数据。

此时最终风险评估结果只受到右下角那个簇抽到的数据的影响,可能出现的风险评估结果如表二;其中估计的风险占比为0%的概率降低到33.3%。

需指出,在实际应用中,比起忽视了遗漏的风险,即使会高估风险占比,也希望在抽样中抽到风险数据。

进一步的,有66.7%的概率得到总体风险占比的估计值为10%。

可见,本申请与现有的随机方式相比,本申请的估计更接近真实值,同时更稳定(概率也更高),准确度更高。

表二.基于聚类得到的簇进行分层抽样出现各种情况的概率及风占比估计(其中单簇指的是图中右下的那个簇)

显然,本申请的方法相比于随机抽样,在风险占比极低,低抽样比的场景下,可以更好地发现潜在的遗漏风险,以及获取代表性更强的抽样集和更稳定的指标估计。

需指出,本申请的方法在实际应用场景的效果,收到具体业务场景的数据分布,及聚类算法的效果影响较大。

总的来说,本申请针对提升社区内容风险评估指标(风险占比)的稳定性和精准度,提出基于文本向量聚类的抽样方法。该方法首先对社区内容的整体内容文本的分词文本进行转换,获得文本向量,并对文本向量进行聚类,再基于聚类生成的簇,该簇中包含文本向量所对应的分词文本,使用分层抽样法,对社区文本内容的风险召回指标进行计算和估计。

这样做的好处在于,使用该方法在风险占比极低,低抽样比的场景下,可以有效提升基于抽样集的风险召回指标估计值的稳定性和代表性,同时也更易于发现潜在的遗漏内容风险,提高评估结果的准确性。

本申请的第二实施方式涉及一种社区内容风险评估装置,其结构如图2所示,该社区内容风险评估装置包括:文本向量模块、聚类模块、抽样模块、风险内容统计模块,和风险召回指标模块。

下面具体描述各模块:

文本向量模块,用于对社区内容的整体内容文本进行分词,获得分词文本,并将每一个分词文本转换为文本向量;

聚类模块,用于对每一个文本向量聚类,构建簇,其中,所述簇中包含所述文本向量对应的分词文本;

抽样模块,用于确定每一个簇对应的分词文本抽样数,在每一个簇中,按照对应的分词文本抽样数进行分词文本抽样;

风险内容统计模块,用于在每一个簇中,判断每一个抽样的分词文本是否为风险内容,并统计簇的抽样的分词文本中,被确定为风险内容的分词文本的数量;

风险召回指标模块,用于根据每一个簇中,被标记为风险内容的分词文本的数量,确定社区内容的风险召回指标。

第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。

需要说明的是,本领域技术人员应当理解,上述社区内容风险评估装置的实施方式中所示的各模块的实现功能可参照前述社区内容风险评估方法的相关描述而理解。上述社区内容风险评估装置的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本申请实施例上述社区内容风险评估装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。

相应地,本申请实施方式还提供一种计算机存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。

此外,本申请实施方式还提供一种社区内容风险评估设备,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中,该处理器可以是中央处理单元(Central Processing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称“DSP”)、专用集成电路(Application Specific Integrated Circuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(random access memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。

在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中,以便在必要时可以作为修改的依据。此外应理解,在阅读了本申请的上述公开内容之后,本领域技术人员可以对本申请作各种改动或修改,这些等价形式同样落于本申请所要求保护的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1