一种基于大数据的用户标签分类方法及系统与流程

文档序号:36722252发布日期:2024-01-16 12:25阅读:22来源:国知局
一种基于大数据的用户标签分类方法及系统与流程

本发明涉及数据处理,尤其涉及一种基于大数据的用户标签分类方法及系统。


背景技术:

1、随着信息技术的快速发展,企业网上学习平台已经成为教育和知识分享的重要途径。用户行为数据是指导教育平台生产运营的主要依据之一,如何进行有效的数据分析是平台运营面临的一个主要问题,平台为了保持客户粘度,往往需要对不同的用户群体进行分类,并根据不同类型的用户需求为用户推荐不同类型的教育课程以便给用户提供更好的课程推送服务。

2、为了准确的对用户进行分类,需要基于用户的基本信息、搜索数据、行为特征等基本信息进行大数据分析,并根据所述大数据分析的结果生成用户的兴趣关键词,并根据所述用户的兴趣关键词进行分类生成用户的兴趣标签,以使根据所述兴趣标签对所述用户进行课程推送。

3、目前对用户兴趣标签进行分类的技术主要包括人工分类、关键词提取或采用简单的分类模型生成用户的兴趣标签,对于人工分类的方式,由于用户的信息数据量极大,人工分类成本过高并且效率低下,不适应大数据时代的发展趋势,而关键词提取无法注重关键词彼此之间的关联性,进而导致兴趣分类的准确性下降,例如用户的需求为旅游攻略,其搜索的关键词为美食及景点,而现有技术基于关键词提取推送的是美食制作课程或地理杂志,并未考虑美食与景点之间的关联性,造成兴趣分类的准确性错误,而简单的分类模型在标签分类的过程中常常丢弃用户的兴趣信息使得用户兴趣信息无法被充分利用,导致资源利用率过低,无法准确分析用户的兴趣分类,造成标签生成的准确率低下。


技术实现思路

1、为了解决上述存在的技术问题,本发明公开了一种基于大数据的用户标签分类方法及系统,提高用户标签分类的效率及准确率。

2、为了实现上述目的,本发明公开了一种基于大数据的用户标签分类方法,包括:

3、获取用户的行为特征数据,并通过预设的关键词提取算法对所述行为特征数据进行关键词提取,生成所述用户对应的若干个关键词;

4、根据预设的关联分析算法对所述用户对应的若干个关键词进行关联挖掘,获得所述若干个关键词对应的关联规则;

5、根据预设的图神经网络将所述关联规则及所述若干个关键词进行节点表征聚合,获得所述若干个关键词对应的关联数据;

6、根据预设的深度神经网络提取所述关联数据的空间特征及时间特征,并将所述关联数据对应的空间特征及时间特征进行融合,获得所述关联数据对应的时空特征;

7、根据所述时空特征,通过预设的标签分类模型进行标签分类,获得所述用户对应的标签。

8、本发明公开了一种基于大数据的用户标签分类方法,包括获取用户的行为特征数据,并通过预设的关键词提取算法对所述行为特征数据进行关键词提取,获得用户对应的若干个关键词,通过对所述行为特征数据进行关键词提取,减少数据处理量,提高数据处理的效率,接着在获得所述用户对应的若干个关键词后,利用预设的关联分析算法对所述若干个关键词进行关联挖掘,考虑各个关键词之间的关联关系,生成所述关键词对应的关联规则,接着利用预设的图神经网络将所述关联规则与所述若干个关键词进行节点表征聚合,生成所述若干个关键词对应的关联数据,所述关联数据不仅包括关键词还包括关键词彼此之间的关联关系,更好的体现用户的行为特征,提高用户分类的准确率,在获得所述关联数据后,利用预设的深度神经网络提取所述关联数据对应的时间特征及空间特征,不仅考虑了用户在搜索时关键词的先后顺序,还考虑了关键词的布局特征,提高了用户分类的准确率,根据所述时空特征,通过预设的标签分类模型生成所述用户的标签,在本发明中,利用预设的关键词提取算法减少数据的处理量,提高标签分类的效率,利用预设的关联分析算法及图神经网络深度挖掘关键词彼此之间的关联关系,为后续进行时空特征分析提高准确的关联数据,接着利用深度神经网络提取所述关联数据对应的时空特征,以便于根据所述时空特征进行标签分类,提高标签分类的准确率。

9、作为优选例子,在所述获取用户的行为特征数据,包括:

10、根据所述用户的登录状态获取用户id,并根据所述用户id从预设的数据库中进行检索,获得所述用户对应的行为特征数据;所述行为特征数据包括用户属性信息、用户行为序列及用户操作;所述用户操作包括登录操作、交易操作及浏览操作。

11、本发明利用用户当前的登录状态获得用户id,根据所述用户id可知当前用户的实际身份,进而根据所述用户id从预设的数据库中继续检索,获得当前用户对应的行为特征数据,以使根据用户之前的行为特征数据对所述用户进行分类,提高分类的准确率。

12、作为优选例子,在所述通过预设的关键词提取算法对所述行为特征数据进行关键词提取,生成所述用户对应的若干个关键词,包括:

13、通过预设的词性标注算法对所述行为特征数据进行词性标注,并结合预设的词语规则对所述行为特征数据进行候选词提取,获得所述行为特征数据对应的候选词集合;

14、根据所述候选词集合,通过预设的mderank算法对所述行为特征数据进行关键词提取,获得所述行为特征数据对应的若干个关键词。

15、本发明基于利用所述mderank算法对所述行为特征数据进行关键词提取,因此在获得所述行为特征数据后,利用预设的词性标注算法对所述行为特征数据进行词性标注并结合预设的词语规则对所述为特征数据进行候选词提取,本发明采用所述mderank算法结合行为特征数据的上下文信息,提高了关键词抽取的准确度,同时对所述行为特征数据进行关键词提取,降低了数据的处理量,提高了分类的效率。

16、作为优选例子,在所述根据预设的关联分析算法对所述用户对应的若干个关键词进行关联挖掘,获得所述若干个关键词对应的关联规则,包括:

17、对所述若干个关键词中的每一个关键词进行扫描并计算所述每一个关键词的支持度及置信度,并将所述每一个关键词的支持度及置信度进行比较,删除支持度小于置信度的关键词,获得所述若干个关键词对应的频繁项集;

18、根据所述频繁项集,通过预设的关联分析算法同时从上往下及从下往上遍历所述频繁项集对应的网格图,并在遍历过程中不断减少搜索空间,获得所述若干个关键词对应的关联规则。

19、本发明对所述关键词进行扫描,获得每一个关键词对应的支持度以及置信度,以便于根据所述支持度及置信度删除所述若干个关键词中关联度不高的关键词,提高数据处理的效率,进而提高标签分类的效率,接着在生成所述频繁项集后,利用预设的关联分析算法对所述生成的频繁项集对应的网格图两端同时进行遍历,挖掘不同关键词之间分别对应的关联关系,进而生成所述关键词对应的关联规则,进而提高用户标签分类的准确率。

20、作为优选例子,在所述根据预设的图神经网络将所述关联规则及所述若干个关键词进行节点表征聚合,获得所述若干个关键词对应的关联数据,包括:

21、根据所述用户的属性信息及所述图神经网络的初级聚合层确定所述若干个关键词中每一个关键词对应的初级聚合向量;

22、根据所述初级聚合向量,通过预设在所述图神经网络的中的k个聚合层,依次针对所述关联规则及所述若干个关键词进行k级向量聚合,获得所述若干个关键词中每一个关键词对应的上一级聚合向量和所述每一个关键词对应的各个邻居关键词的上一级聚合向量,确定所述各个邻居关键词相对于该关键词的权重值;

23、根据每一个关键词的上一级聚合向量、所述各个邻居关键词的上一级聚合向量及相对于该关键词的权重值,确定该关键词的本级聚合向量;

24、根据每一个关键词对应的本级聚合向量及所述图神经网络的中的k个聚合层对所述若干个关键词进行节点表征聚合,获得所述若干个关键词对应的关联数据。

25、本发明设置了图神经网络将所述关联规则与所述若干个关键词进行关联匹配,通过预设在所述图神经网络中的k个聚合层中每一层聚合层深度挖掘每一个关键词与其周边的关键词的关联程度,以使根据所述关联程度将所述若干个关键词与所述关联规则进行聚合,深度确定了每一个关键词之间的关联度,提高了标签分类的准确度。

26、作为优选例子,在所述根据预设的深度神经网络提取所述关联数据的空间特征及时间特征,包括:

27、通过预设在所述深度神经网络模型中的第一卷积层对所述关联数据进行空间分离及时间分离,获得所述关联数据对应的空间信息数据及时间信息数据;

28、通过预设在所述深度神经网络模型中的第二卷积层分别对所述空间信息数据及时间信息数据进行卷积处理,获得所述空间信息数据对应的空间特征及所述时间信息数据对应的时间特征。

29、本发明为了提高标签分类的准确率,通过预设的深度神经网络将关联数据进行空间及时间分离,分为空间信息数据及时间信息数据,以使后续进行所述数据的时空特征提取,在获得所述空间信息数据及所述时间信息数据后,根据所述深度神经网络的第二卷积层对所述信息数据进行特征提取,进而提高所述关键词特征提取的准确率,以使所述提取的特征更符合用户的实际操作,提高标签分类的准确率。

30、作为优选例子,在所述将所述关联数据对应的空间特征及时间特征进行融合,获得所述关联数据对应的时空特征,包括:

31、根据预设在所述深度神经网络中的全连接层对所述空间特征及所述时间特征进行升维处理及特征融合,获得所述关联数据对应的初始时空特征;

32、根据预设的平均函数对所述初始时空特征进行平均处理,获得所述关联数据对应的时空特征。

33、本发明通过深度神经网络的全连接层对空间特征及时间特征进行升维操作及特征融合,以使更好的表述关联数据的时空特征,随后通过平均函数对所述时空特征进行计算使得所获特征具有普遍性,进而提高特征提取的效率及精准度。

34、作为优选例子,在所述根据所述时空特征,通过预设的标签分类模型进行标签分类,获得所述用户对应的标签,包括:

35、将所述时空特征输入到预设的标签分类模型,通过预设在所述标签分类模型中的若干个不同的决策树分别对所述时空特征进行标签预测,获得若干个不同中的第一标签;

36、通过预设的回归计算函数或分类函数对所述若干个不同的第一标签进行处理,获得所述用户对应的标签。

37、本发明利用预设在所述标签分类模型中的不同决策树对所述时空特征进行标签分类,获得若干个不同的第一标签,接着根据所述第一标签做回归处理或分类处理,获得所述用户对应的标签,提高标签分类的准确性。

38、另一方面,本发明公开了一种基于大数据的用户标签分类系统,包括关键词提取模块、关联模块、聚合模块、特征提取模块及标签分类模块;

39、所述关键词提取模块用于获取用户的行为特征数据,并通过预设的关键词提取算法对所述行为特征数据进行关键词提取,生成所述用户对应的若干个关键词;

40、所述关联模块用于根据预设的关联分析算法对所述用户对应的若干个关键词进行关联挖掘,获得所述若干个关键词对应的关联规则;

41、所述聚合模块用于根据预设的图神经网络将所述关联规则及所述若干个关键词进行节点表征聚合,获得所述若干个关键词对应的关联数据;

42、所述特征提取模块用于根据预设的深度神经网络提取所述关联数据的空间特征及时间特征,并将所述关联数据对应的空间特征及时间特征进行融合,获得所述关联数据对应的时空特征;

43、所述标签分类模块用于根据所述时空特征,通过预设的标签分类模型进行标签分类,获得所述用户对应的标签。

44、本发明公开了一种基于大数据的用户标签分类系统,包括获取用户的行为特征数据,并通过预设的关键词提取算法对所述行为特征数据进行关键词提取,获得用户对应的若干个关键词,通过对所述行为特征数据进行关键词提取,减少数据处理量,提高数据处理的效率,接着在获得所述用户对应的若干个关键词后,利用预设的关联分析算法对所述若干个关键词进行关联挖掘,考虑各个关键词之间的关联关系,生成所述关键词对应的关联规则,接着利用预设的图神经网络将所述关联规则与所述若干个关键词进行节点表征聚合,生成所述若干个关键词对应的关联数据,所述关联数据不仅包括关键词还包括关键词彼此之间的关联关系,更好的体现用户的行为特征,提高用户分类的准确率,在获得所述关联数据后,利用预设的深度神经网络提取所述关联数据对应的时间特征及空间特征,不仅考虑了用户在搜索时关键词的先后顺序,还考虑了关键词的布局特征,提高了用户分类的准确率,根据所述时空特征,通过预设的标签分类模型生成所述用户的标签,在本发明中,利用预设的关键词提取算法减少数据的处理量,提高标签分类的效率,利用预设的关联分析算法及图神经网络深度挖掘关键词彼此之间的关联关系,为后续进行时空特征分析提高准确的关联数据,接着利用深度神经网络提取所述关联数据对应的时空特征,以便于根据所述时空特征进行标签分类,提高标签分类的准确率。

45、作为优选例子,所述关键词提取模块包括数据获取单元、词性标注单元及提取单元;

46、所述数据获取单元用于根据所述用户的登录状态获取用户id,并根据所述用户id从预设的数据库中进行检索,获得所述用户对应的行为特征数据;所述行为特征数据包括用户属性信息、用户行为序列及用户操作;所述用户操作包括登录操作、交易操作及浏览操作;

47、所述词性标注单元用于通过预设的词性标注算法对所述行为特征数据进行词性标注,并结合预设的词语规则对所述行为特征数据进行候选词提取,获得所述行为特征数据对应的候选词集合;

48、所述提取单元用于根据所述候选词集合,通过预设的mderank算法对所述行为特征数据进行关键词提取,获得所述行为特征数据对应的若干个关键词。

49、本发明利用用户当前的登录状态获得用户id,根据所述用户id可知当前用户的实际身份,进而根据所述用户id从预设的数据库中继续检索,获得当前用户对应的行为特征数据,以使根据用户之前的行为特征数据对所述用户进行分类,提高分类的准确率,接着基于利用所述mderank算法对所述行为特征数据进行关键词提取,因此在获得所述行为特征数据后,利用预设的词性标注算法对所述行为特征数据进行词性标注并结合预设的词语规则对所述为特征数据进行候选词提取,本发明采用所述mderank算法结合行为特征数据的上下文信息,提高了关键词抽取的准确度,同时对所述行为特征数据进行关键词提取,降低了数据的处理量,提高了分类的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1