一种数据挖掘方法、装置及存储介质与流程

文档序号:37153148发布日期:2024-02-26 17:10阅读:11来源:国知局
一种数据挖掘方法、装置及存储介质与流程

本发明涉及数据处理,特别涉及一种数据挖掘方法、装置及存储介质。


背景技术:

1、在大数据时代,各种内容数据基数大且质量参差不齐,优质内容能够简洁、精炼、高效地传递信息,对内容数据和内容发布者数据进行挖掘是有效利用大数据信息的重中之重。例如,对于对帖子数据来说,每一条帖子都代表一条数据,体量往往是更大的,从大量帖子中分析出哪些帖子对业务是有价值的哪些是没有价值的,有价值的优质帖子往往能够带来意想不到的信息价值,如实现优质内容的供给分发,推动内容增长。同样的,优质的帖子创作者也具有重要的信息价值,如实现优质创作者的供给分发并应用到各个业务场景。相关技术中,尚且不存在完善的体系对优质内容和优质创作者进行有效的挖掘,挖掘结果往往具有局限性。

2、因此,如何解决上述技术问题亟待本领域技术人员解决。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种数据挖掘方法、装置、设备及存储介质,能够在保证内容挖掘全面度的基础上实现优质发布主体的挖掘。其具体方案如下:

2、本申请的第一方面提供了一种数据挖掘方法,包括:

3、利用深度学习模型提取各待挖掘数据的先验特征,并利用预先构建的后验特征工程提取各所述待挖掘数据的后验特征,得到各所述待挖掘数据的内容画像;所述内容画像包含所述先验特征和所述后验特征;

4、统计出全部所述待挖掘数据的各发布主体及各所述发布主体与所述待挖掘数据之间的发布关系;

5、将各所述发布主体发布的所述待挖掘发布的所述内容画像映射为各所述发布主体的主体画像,并根据所述主体画像确定出目标发布主体。

6、可选的,所述利用深度学习模型提取各待挖掘数据的先验特征,包括:

7、利用优质图文模型对各所述待挖掘数据的精美性特征进行提取,得到表征数据的精美程度的第一先验特征;

8、和/或,利用图谱分类模型对各所述待挖掘数据的稀有性特征进行提取,得到表征数据的稀有程度的第二先验特征;

9、和/或,利用原创识别模型对各所述待挖掘数据的原创性特征进行提取,得到表征数据的原创程度的第三先验特征。

10、可选的,所述利用预先构建的后验特征工程提取各所述待挖掘数据的后验特征,包括:

11、利用预先构建的所述后验特征工程确定各所述待挖掘数据的基础画像工程特征、互动工程特征及性格相关工程特征;

12、根据各所述待挖掘帖子的基础画像工程特征、互动工程特征及性格相关工程特征生成相应的展现性特征,得到表征数据的展现程度的所述后验特征。

13、可选的,所述根据各所述待挖掘数据子的基础画像工程特征、互动工程特征及性格相关工程特征生成相应的展现性特征,包括:

14、分别判断各所述待挖掘数据的基础画像工程特征、互动工程特征及性格相关工程特征是否满足第一阈值条件,如果是,则判定所述待挖掘数据具有展现性特征,如果否,则判定所述待挖掘数据不具有展现性特征。

15、可选的,所述将各所述发布主体发布的所述待挖掘数据的所述帖子画像映射为各所述发布主体的主体画像,包括:

16、对各所述发布主体发布的全部所述待挖掘数据的所述内容画像中的所述先验特征和所述后验特征分别进行整和计算,得到各所述发布主体对应的映射先验特征和映射后验特征;

17、在内容粒度上对所述映射先验特征和所述映射后验特征进行特征融合,得到映射融合特征,得到各所述发布主体的所述主体画像;所述主体画像包含所述映射先验特征、所述映射后验特征及所述映射融合特征。

18、可选的,所述根据所述主体画像确定出目标发布主体,包括:

19、分别判断所述主体画像中的所述映射先验特征、所述映射后验特征及所述映射融合特征是否满足第二阈值条件,如果是,则判定所述主体画像对应的所述待挖掘数据为目标发布主体。

20、可选的,得到各所述待挖掘数据的内容画像之后,还包括:

21、按照预设画像档位确定所述内容画像的所属档位,并根据所属档位判断对应的所述待挖掘数据是否为目标数据;所述预设画像档位基于所述先验特征和所述后验特征的特征值的排列组合确定得到。

22、可选的,所述数据挖掘方法,还包括:

23、获取种子数据;所述种子数据为具有召回需求特征的数据;

24、利用数据表征模型分别对所述种子数据和目标数据进行特征提取,得到所述种子数据的第一特征向量及目标数据的第二特征向量;

25、计算所述第一特征向量和所述第二特征向量的特征相似度,并根据特征相似度判定对应的目标数据是否为最终数据。

26、本申请的第二方面提供了一种数据挖掘装置,包括:

27、内容画像构建模块,用于利用深度学习模型提取各待挖掘数据的先验特征,并利用预先构建的后验特征工程提取各所述待挖掘数据的后验特征,得到各所述待挖掘数据的内容画像;所述内容画像包含所述先验特征和所述后验特征;

28、统计模块,用于统计出全部所述待挖掘数据的各发布主体及各所述发布主体与所述待挖掘数据之间的发布关系;

29、主体画像构建模块,用于将各所述发布主体发布的所述待挖掘发布的所述内容画像映射为各所述发布主体的主体画像,并根据所述主体画像确定出目标发布主体。

30、本申请的第三方面提供了一种电子设备,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述数据挖掘方法。

31、本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述数据挖掘方法。

32、本申请中,先利用深度学习模型提取各待挖掘数据的先验特征,并利用预先构建的后验特征工程提取各所述待挖掘数据的后验特征,得到各所述待挖掘数据的内容画像;所述内容画像包含所述先验特征和所述后验特征;然后统计出全部所述待挖掘数据的各发布主体及各所述发布主体与所述待挖掘数据之间的发布关系;最后将各所述发布主体发布的所述待挖掘发布的所述内容画像映射为各所述发布主体的主体画像,并根据所述主体画像确定出目标发布主体。可见,本申请针对待挖掘数据,同时对先验特征和后验特征进行提取,使得内容画像反映的帖子特征更加全面,在此基础上,通过内容画像的映射,将内容粒度层面的特征映射到发布主体粒度层面的特征,从而挖掘优质发布主体。即能够在保证内容挖掘全面度的基础上实现优质发布主体的挖掘。



技术特征:

1.一种数据挖掘方法,其特征在于,包括:

2.根据权利要求1所述的数据挖掘方法,其特征在于,所述利用深度学习模型提取各待挖掘数据的先验特征,包括:

3.根据权利要求1所述的数据挖掘方法,其特征在于,所述利用预先构建的后验特征工程提取各所述待挖掘数据的后验特征,包括:

4.根据权利要求3所述的数据挖掘方法,其特征在于,所述根据各所述待挖掘数据子的基础画像工程特征、互动工程特征及性格相关工程特征生成相应的展现性特征,包括:

5.根据权利要求1所述的数据挖掘方法,其特征在于,所述将各所述发布主体发布的所述待挖掘数据的所述帖子画像映射为各所述发布主体的主体画像,包括:

6.根据权利要求5所述的数据挖掘方法,其特征在于,所述根据所述主体画像确定出目标发布主体,包括:

7.根据权利要求1至7任一项所述的数据挖掘方法,其特征在于,得到各所述待挖掘数据的内容画像之后,还包括:

8.根据权利要求7所述的数据挖掘方法,其特征在于,还包括:

9.一种数据挖掘装置,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,用于存储计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至8任一项所述的数据挖掘方法。


技术总结
本申请涉及数据处理技术领域,公开了一种数据挖掘方法、装置及存储介质,包括:利用深度学习模型提取各待挖掘数据的先验特征,并利用预先构建的后验特征工程提取各所述待挖掘数据的后验特征,得到各所述待挖掘数据的内容画像;所述内容画像包含所述先验特征和所述后验特征;统计出全部所述待挖掘数据的各发布主体及各所述发布主体与所述待挖掘数据之间的发布关系;将各所述发布主体发布的所述待挖掘发布的所述内容画像映射为各所述发布主体的主体画像,并根据所述主体画像确定出目标发布主体。能够在保证内容挖掘全面度的基础上实现优质发布主体的挖掘。

技术研发人员:刘艺博,陈猛,张璐,陶明
受保护的技术使用者:上海任意门科技有限公司
技术研发日:
技术公布日:2024/2/25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1