本申请涉及金融科技领域,尤其涉及一种内容筛选方法和装置、电子设备及存储介质。
背景技术:
1、目前,大多数金融机构在各个对象推荐金融产品的相关内容时,常常希望尽可能地将相似度较高的一系列金融产品的相关内容推送给对象,以提高对象对这一系列的金融产品的感兴趣程度。
2、但是,大多数的内容筛选方法常常是基于金融产品的相关内容的点击量或者曝光量,优先将高点击量、或者高曝光量的内容推荐给对象,这一方式往往无法将同类或者相近的产品内容全部筛选出来,以便将同类或者较为相似的内容一起推送给对象,存在着内容筛选不准确的问题,会导致内容推荐准确性较低。
技术实现思路
1、本申请实施例的主要目的在于提出一种内容筛选方法和装置、电子设备及存储介质,旨在提高内容筛选的准确性,进而更为准确地将相似的内容推荐给对象。
2、为实现上述目的,本申请实施例的第一方面提出了一种内容筛选方法,所述方法包括:
3、获取多个原始内容文本;
4、对每个所述原始内容文本进行关键词提取,得到内容关键词;
5、基于多个所述原始内容文本的点击率对所述内容关键词进行排序,得到关键词序列;
6、针对每个所述原始内容文本,基于所述关键词序列、所述内容关键词,确定所述原始内容文本的内容特征向量;
7、基于所述内容特征向量构建二进制字典树;
8、基于所述二进制字典树对所述原始内容文本和预先获取的第一内容文本进行文本相似度评分,得到文本评分数据;
9、基于所述文本评分数据从多个所述原始内容文本筛选出目标内容文本,其中,所述目标内容文本是与所述第一内容文本的内容相似度符合要求的文本。
10、在一些实施例,所述基于所述内容特征向量构建二进制字典树,包括:
11、对每个所述内容特征向量进行向量转换,得到每个所述原始推荐内容文本的内容特征,并基于多个所述内容特征生成特征数组;
12、基于所述特征数组中数值最大的内容特征,确定字典树深度;
13、基于所述字典树深度,确定从根节点开始,依次向下生成多个叶子节点;
14、基于各个所述内容特征的二进制表示,确定各个所述叶子节点的第一节点值;
15、基于所述根节点、所述叶子节点、和所述第一节点值,生成所述二进制字典树。
16、在一些实施例,所述基于所述二进制字典树对所述原始内容文本和预先获取的第一内容文本进行文本相似度评分,得到文本评分数据,包括:
17、将所述第一内容文本转换成第一内容特征,其中,所述第一内容特征是一个二进制特征;
18、基于所述字典树深度,按照自上而下的顺序,依次将所述二进制字典树的叶子节点与所述第一内容特征的每个二进制位的元素进行异或计算,得到每个所述叶子节点与所述第一内容特征的异或值;
19、基于所述异或值,确定所述原始内容文本的文本评分数据。
20、在一些实施例,所述基于所述异或值,确定所述原始内容文本的文本评分数据,包括:
21、针对所述二进制字典树的根节点到最下一层的叶子节点的路径,将所述路径上的所有叶子节点的异或值进行累加,得到每个所述原始内容文本与所述第一内容文本的异或和;
22、将所述异或和的倒数,作为所述原始内容文本与所述第一内容文本的文本评分数据。
23、在一些实施例,所述针对每个所述原始内容文本,基于所述关键词序列、所述内容关键词,确定所述原始内容文本的内容特征向量,包括:
24、基于所述关键词序列中所述内容关键词的数目,确定所述内容特征向量的向量长度;
25、基于所述内容关键词在所述关键词序列中的所处位置、和所述向量长度,通过独热编码的方式确定所述原始内容文本的内容特征向量。
26、在一些实施例,所述基于多个所述原始内容文本的点击率对所述内容关键词进行排序,得到关键词序列,包括:
27、针对每个所述原始内容文本,获取所述原始内容文本在预定时间内的第一点击量和第一曝光量;
28、基于所述第一点击量确定各个所述内容关键词的第二点击量,并基于所述第一曝光量确定各个所述内容关键词的第二曝光量;
29、基于所述第二点击量和所述第二曝光量,得到所述内容关键词的点击率;
30、基于所述点击率对多个所述内容关键词进行降序排列,得到所述关键词序列。
31、在一些实施例,所述基于所述文本评分数据从多个所述原始内容文本筛选出目标内容文本,包括:
32、基于所述文本评分数据,对多个所述原始内容文本进行排序,得到文本序列;
33、将所述文本序列中,排在前预定名次的所述原始内容文本作为所述目标内容文本。
34、为实现上述目的,本申请实施例的第二方面提出了一种内容筛选装置,所述装置包括:
35、内容获取模块,用于获取多个原始内容文本;
36、关键词提取模块,用于对每个所述原始内容文本进行关键词提取,得到内容关键词;
37、排序模块,用于基于多个所述原始内容文本的点击率对所述内容关键词进行排序,得到关键词序列;
38、向量确定模块,用于针对每个所述原始内容文本,基于所述关键词序列、所述内容关键词,确定所述原始内容文本的内容特征向量;
39、字典树构建模块,用于基于所述内容特征向量构建二进制字典树;
40、相似度评分模块,用于基于所述二进制字典树对所述原始内容文本和预先获取的第一内容文本进行文本相似度评分,得到文本评分数据;
41、筛选模块,用于基于所述文本评分数据从多个所述原始内容文本筛选出目标内容文本,其中,所述目标内容文本是与所述第一内容文本的内容相似度符合要求的文本。
42、为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
43、为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
44、本申请提出的内容筛选方法、内容筛选装置、电子设备及存储介质,其通过获取多个原始内容文本;对每个原始内容文本进行关键词提取,得到内容关键词;基于多个原始内容文本的点击率对内容关键词进行排序,得到关键词序列;针对每个原始内容文本,基于关键词序列、内容关键词,确定原始内容文本的内容特征向量;基于内容特征向量构建二进制字典树;基于二进制字典树对原始内容文本和预先获取的第一内容文本进行文本相似度评分,得到文本评分数据;基于文本评分数据从多个原始内容文本筛选出目标内容文本,其中,目标内容文本是与第一内容文本的内容相似度符合要求的文本,能提高内容筛选的准确性,进而更为准确地将相似的内容推荐给对象。
1.一种内容筛选方法,其特征在于,所述方法包括:
2.根据权利要求1所述的内容筛选方法,其特征在于,所述基于所述内容特征向量构建二进制字典树,包括:
3.根据权利要求2所述的内容筛选方法,其特征在于,所述基于所述二进制字典树对所述原始内容文本和预先获取的第一内容文本进行文本相似度评分,得到文本评分数据,包括:
4.根据权利要求3所述的内容筛选方法,其特征在于,所述基于所述异或值,确定所述原始内容文本的文本评分数据,包括:
5.根据权利要求1所述的内容筛选方法,其特征在于,所述针对每个所述原始内容文本,基于所述关键词序列、所述内容关键词,确定所述原始内容文本的内容特征向量,包括:
6.根据权利要求1所述的内容筛选方法,其特征在于,所述基于所述文本评分数据从多个所述原始内容文本筛选出目标内容文本,包括:
7.根据权利要求1至6任一项所述的内容筛选方法,其特征在于,所述基于多个所述原始内容文本的点击率对所述内容关键词进行排序,得到关键词序列,包括:
8.一种内容筛选装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的内容筛选方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的内容筛选方法。