1.一种社区内容风险评估方法,其特征在于,包括:
对所述社区内容的整体内容文本进行分词,获得分词文本,并将每一个所述分词文本转换为文本向量;
对每一个所述文本向量聚类,构建簇,其中,每一个所述簇中包含所述文本向量对应的分词文本;
确定每一个簇对应的分词文本抽样数,并在每一个所述簇中,按照对应的所述分词文本抽样数进行分词文本抽样;
在每一个所述簇中,判断每一个抽样的分词文本是否为风险内容,并统计被确定为风险内容的分词文本的数量;
根据每一个所述簇中,被确定为风险内容的分词文本的数量,确定所述社区内容的风险召回指标。
2.如权利要求1的方法,其特征在于,所述将每一个分词后的所述分词文本转换为文本向量的步骤中,使用预训练的TextCNN二分类模型。
3.如权利要求1的方法,其特征在于,所述将每一个分词后的所述分词文本转换为文本向量的步骤中,使用以下任意一种预设的模型:LSTM、word2vec、doc2vec。
4.如权利要求1的方法,其特征在于,所述对每一个所述文本向量聚类,构建簇的步骤中,使用以下任意一种算法:k-means算法、K-MEDOIDS算法、CLARANS算法。
5.如权利要求1的方法,其特征在于,所述确定每一个簇对应的分词文本抽样数的步骤中,使用以下任意一种方式确定所述分词文本抽样数:分层定比、非比例分配法、奈曼法。
6.如权利要求5的方法,其特征在于,所述确定每一个簇对应的分词文本抽样数的步骤中,如果所述簇包含的分词文本的数量在所述社区内容的整体内容文本对应的分词文本的总数中所占的比例低于预设的阈值,采用非比例分配法确定所述簇对应的分词文本抽样数。
7.如权利要求6的方法,其特征在于,所述对整体内容文本进行分词,获得分词后的所述分词文本的步骤之前,还包括:
对所述整体内容文本进行预处理。
8.一种社区内容风险评估装置,其特征在于,包括:
文本向量模块,用于对所述社区内容的整体内容文本进行分词,获得分词文本,并将每一个所述分词文本转换为文本向量;
聚类模块,用于对每一个所述文本向量聚类,构建簇,其中,所述簇中包含所述文本向量对应的分词文本;
抽样模块,用于确定每一个所述簇对应的分词文本抽样数,在每一个所述簇中,按照对应的分词文本抽样数进行分词文本抽样;
风险内容统计模块,用于在每一个所述簇中,判断每一个抽样的分词文本是否为风险内容,并统计被确定为风险内容的分词文本的数量;
风险召回指标模块,用于根据每一个所述簇中,被确定为风险内容的分词文本的数量,确定所述社区内容的风险召回指标。
9.一种社区内容风险评估设备,其特征在于,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行计算机可执行指令时实现如权利要求1至7中任意一项的方法中的步骤。
10.一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机可执行指令,计算机可执行指令被处理器执行时实现如权利要求1至7中任意一项的方法中的步骤。