一种用户行为模式的识别方法、装置及可读存储介质与流程

文档序号：32006316发布日期：2022-11-02 13:22阅读：42来源：国知局

1.本发明涉及电子技术领域，尤其涉及一种用户行为模式的识别方法、装置及可读存储介质。

背景技术：

2.随着网络的发展，行为模式识别在日常生活中广泛应用。比如，识别用户在运动检测、智能家居、互动游戏、健康看护等场景中的行为模式，从而进行合理推荐。再比如，识别用户在上网购物过程中的行为模式，从而进行精准营销。
3.如何实现用户行为模式的准确识别成为急需解决的技术问题。

技术实现要素：

4.本发明提供了一种用户行为模式的识别方法、装置及可读存储介质，用于实现用户行为模式的识别效率。
5.第一方面，本发明实施例提供了一种用户行为模式的识别方法，包括：
6.获取用户的上网日志数据；
7.基于黑名单对所述上网日志数据进行过滤，获得过滤后的数据；其中，所述黑名单是基于所述用户的历史上网日志数据所构建的，用于筛选所述历史上网日志数据的url字段；
8.对所述过滤后的数据进行多级分类，获得分类后的结果；
9.基于所述分类后的结果，识别出所述用户的当前行为模式。
10.在其中一种可能的实现方式中，在所述获取用户的上网日志数据之前，所述方法还包括：
11.获得所述用户的历史上网日志数据；
12.从所述历史上网日志数据中，筛选出信息值大于第一预设阈值的目标数据，其中，所述信息值用于表征相应数据的特征重要程度；
13.基于弱分类器将所述目标数据分为黑名单临时库，所述黑名单临时库由非主动访问的url字段组成；
14.从所述黑名单临时库中，筛选出提升度大于第二预设阈值的目标库，其中，所述提升度用于表征数据过滤强度；
15.将所述目标库作为所述黑名单。
16.在其中一种可能的实现方式中，所述对所述过滤后的数据进行多级分类，获得分类后的结果，包括：
17.根据预设的分解层级深度，采用信息熵对所述过滤后的数据进行二叉树分解，获得对应数据的多个层级的分类，其中，所述信息熵越小表明相应层级的分类的特征越相似。
18.在其中一种可能的实现方式中，所述基于所述分类后的结果，识别出所述用户的当前行为模式，包括：
19.用预设标准标签库对所述分类后的结果的各个层级的分类进行校验，得到校验后的标签库，所述校验后的标签库用于存放校验后的各个层级的分类对应的行为特征标签；
20.根据所述校验后的标签库，对所述过滤后的数据进行特征识别，获得所述用户的基础行为特征；
21.基于聚类算法和多层分析法将所述用户的基础行为特征进行聚合，识别出用户当前的行为模式。
22.第二方面，本发明实施例还提供了一种用户行为模式的识别装置，包括：
23.获取单元，用于获取用户的上网日志数据；
24.过滤单元，基于黑名单对所述上网日志数据进行过滤，获得过滤后的数据；其中，所述黑名单是基于所述用户的历史上网日志数据所构建的，用于筛选所述历史上网日志数据的url字段；
25.分类单元，用于对所述过滤后的数据进行多级分类，获得分类后的结果；
26.识别单元，基于所述分类后的结果，识别出所述用户的当前行为模式。
27.在其中一种可能的实现方式中，在所述获取单元获取用户的上网日志数据之前，所述识别装置还包括构建单元，所述构建单元用于：
28.获得所述用户的历史上网日志数据；
29.从所述历史上网日志数据中，筛选出信息值大于第一预设阈值的目标数据，其中，所述信息值用于表征相应数据的特征重要程度；
30.基于弱分类器将所述目标数据分为黑名单临时库，所述黑名单临时库由非主动访问的url字段组成；
31.从所述黑名单临时库中，筛选出提升度大于第二预设阈值的目标库，其中，所述提升度用于表征数据过滤强度；
32.将所述目标库作为所述黑名单。
33.在其中一种可能的实现方式中，所述分类单元用于：
34.根据预设的分解层级深度，采用信息熵对所述过滤后的数据进行二叉树分解，获得对应数据的多个层级的分类，其中，所述信息熵越小表明相应层级的分类的特征越相似。
35.在其中一种可能的实现方式中，所述识别单元用于：
36.用预设标准标签库对所述分类后的结果的各个层级的分类进行校验，得到校验后的标签库，所述校验后的标签库用于存放校验后的各个层级的分类对应的行为特征标签；
37.根据所述校验后的标签库，对所述过滤后的数据进行特征识别，获得所述用户的基础行为特征；
38.基于聚类算法和多层分析法将所述用户的基础行为特征进行聚合，识别出用户当前的行为模式。
39.第三方面，本发明实施例还提供了一种识别装置，包括，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前面任一项所述的用户行为模式的识别方法的步骤。
40.第四方面，本发明实施例还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前面任一项所述的用户行为模式的识别方法的步骤。
41.本发明的有益效果如下：
42.本发明实施例提供了一种用户行为模式的识别方法、装置及可读存储介质，首先，获取用户的上网日志数据；然后，基于用户的历史上网日志数据所构建的黑名单，对用户的上网日志数据进行过滤，过滤掉黑名单中url字段所对应的数据；然后，对过滤后的数据进行多级分类，从而获得分类后的结果；然后，基于该分类后的结果，识别出用户的当前行为模式。也就是说，基于用户的历史上网日志数据所构建的黑名单，对用户的当前上网日志数据进行过滤，增加了数据的清洗力度，减少了数据量，从而提高了后续基于过滤后的数据进行多级分类以及行为模式识别的效率。
附图说明
43.图1为本发明实施例提供的一种用户行为模式的识别方法的方法流程图；
44.图2为本发明实施例提供的一种用户行为模式的识别方法中其中一种多级分类示意图；
45.图3为图1中在步骤s101之前的其中一种方法流程图；
46.图4为本发明实施例提供的一种用户行为模式的识别方法中其中一种多级分类示意图；
47.图5为图1中步骤s104的其中一种方法流程图；
48.图6为本发明实施例提供的一种用户行为模式的识别装置的其中一种结构示意图。
具体实施方式
49.本发明的说明书和权利要求书及上述附图中，术语“包括”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
50.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
51.为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。
52.在相关技术中，利用用户上网日志信息进行用户行为模式识别，通用的方法是直接抓取用户全量行为数据，在与全量标准库直接进行对比。由于数据种类复杂、数据量庞大、数据格式不统一，导致行为模式识别资源消耗大，时效性低。
53.鉴于此，本发明实施例提供了一种用户行为模式的识别方法、装置及可读存储介质，用于提高用户行为模式的识别效率。
54.如图1所示，本发明实施例提供了一种用户行为模式的识别方法，包括：
55.s101：获取用户的上网日志数据；
56.在具体实施过程中，可以对用户的上网日志数据进行分布式加载，从而获取用户的上网日志数据，提高了数据处理效率。
57.s102：基于黑名单对所述上网日志数据进行过滤，获得过滤后的数据；其中，所述黑名单是基于所述用户的历史上网日志数据所构建的，用于筛选所述历史上网日志数据的url字段；
58.在其中一种示例性实施例中，在获取用户的历史上网日志数据之后，可以基于该历史上网日志数据构建黑名单。其中，黑名单用于存放非主动访问的统一资源定位符(universal resource locator，url)字段。通过该黑名单可以对历史上网日志数据的url字段进行筛选，从历史上网日志数据中去除掉与黑名单中的url字段对应的数据，从而提高了数据处理精度。
59.在其中一种示例性实施例中，在获取用户的历史上网日志数据之后，可以基于该历史上网日志数据构建黑名单以及白名单，其中，黑名单和白名单均用于存放非主动访问的url字段。可以通过黑名单和白名单对历史上网日志数据的url字段进行筛选，从历史上网日志数据中去除掉与黑名单中的url字段对应的数据，保留与白名单中的url字段对应的数据，从而保证了上网日志数据的清洗力度。当然，在实际应用中，还可以采用其它方法来对上网日志数据进行过滤，在此不做详述。
60.s103：对所述过滤后的数据进行多级分类，获得分类后的结果；
61.在具体实施过程中，在获得过滤后的数据之后，可以对过滤后的数据进行多级分类，确定出分类后的结果。其中，多级分类是指类别本身存在层级的一种多分类问题。多级分类的最大特点是类别间存在明显的亲疏关系，比如，生物分为动物和植物，动物分为脊椎动物和无脊椎动物，植物分为苔藓植物和蕨类植物等，其中，脊椎动物与无脊椎动物更加亲近，而与苔藓植物则比较疏远。在其中一种示例性实施例中，可以采用常规机器学习算法，比如，支持向量机算法、卷积神经网络算法、循环神经网络算法、朴素贝叶斯和决策树等，其认为类别间毫无关联，不考虑类别间的亲疏关系。在其中一种示例性实施例中，可以采用级联模型，先建立各级分类的子分类器，再通过一些技巧将多个子分类器进行融合，比如，先建立一个一级子分类器用来判别动物或植物，再建立两个二级子分类器，分别用来判别是脊椎动物或无脊椎动物，以及苔藓植物或蕨类植物。当然，还可以根据实际应用需要采用其它方法来对过滤后的数据进行多级分类，在此不做限定。如此一来，保证了上网日志数据的分类效率。
62.如图2所示为a商城中商品下设的其中一种多级分类示意图。在图2中，商品为一级分类、二级分类、三级分类。其中，商品的一级分类包括食品和图书；对食品来说，二级分类包括酒水和生鲜；对酒水来说，三级分类包括白酒和红酒；对生鲜来说，三级分类包括壳类和鱼类。对图书来说，二级分类包括儿童和成人；对儿童来说，三级分类包括绘本和漫画；对成人来说，三级分类包括文艺和社会。
63.以学科为例，其一级分类包括文科和理科；对理科来说，二级分类包括数学和物理；对数学来说，三级分类包括模糊数学、传统数学和超数。当然，在实际应用中，除了商品和学科多级分类之外，还可以有其它对象的多级分类情况，并不仅限于此。
64.s104：基于所述分类后的结果，识别出所述用户的当前行为模式。
65.在获得分类后的结果之后，可以识别出用户的当前行为模式，比如，浏览、购买等。
在具体实施过程中，可以根据分类后的结果识别个人画像，推算出该人的兴趣爱好标签，从而识别该人的行为模式。比如，用户u的一级分类为旅游，二级分类为爬山，三级分类为三千米以下的山，相应地，用户u的行为模式可以为喜爱旅游，尤其喜欢三千米以下的爬山活动。由于整个识别过程，先基于用户的历史上网日志数据所构建的黑名单，对用户的上网日志数据进行过滤，再根据过滤后的数据对用户的当前行为模式进行识别，减少了数据量，提高饿了多级分类以及行为模式的识别效率。
66.在本发明实施例中，如图3所示，在步骤s101：获取用户的上网日志数据之前，所述方法还包括：
67.s201：获得所述用户的历史上网日志数据；
68.s202：从所述历史上网日志数据中，筛选出信息值大于第一预设阈值的目标数据，其中，所述信息值用于表征相应数据的特征重要程度；
69.s203：基于弱分类器将所述目标数据分为黑名单临时库，所述黑名单临时库由非主动访问的url字段组成；
70.s204：从所述黑名单临时库中，筛选出提升度大于第二预设阈值的目标库，其中，所述提升度用于表征数据过滤强度；
71.s205：将所述目标库作为所述黑名单。
72.在具体实施过程中，步骤s201至步骤s205的具体实现过程如下：
73.首先，获取用户的历史上网日志数据，可以是通过收集用户的历史浏览记录，根据该历史浏览记录获取用户的历史上网日志数据。该历史上网日志数据可以是一个，还可以是多个，在此不做限定。然后，从该历史上网日志数据中，筛选出信息值大于第一预设阈值的目标数据，其中，信息值用于表征相应数据的特征重要程度。可以根据实际应用需要来设置第一预设阈值的具体数值，比如，第一预设阈值设定为0.3，在其中一种示例性实施例中，可以通过特征工程从历史上网日志数据中筛选出信息值大于第一预设阈值的目标数据。
74.然后，可以基于弱分类器将目标数据分为黑名单临时库，其中，黑名单临时库由非主动访问的url字段组成。在其中一种示例性实施例中，可以将历史上网日志数据中与黑名单临时库中url字段所对应的数据输入到分类模型中，计算特征及其衍生变量的提升度，其中，提升度用于表征黑名单的数据过滤强度。然后，可以筛选出提升度大于第二预设阈值的数据，并存放至目标库，可以将该目标库作为黑名单，从而对黑名单临时库进行更新。其中，可以根据实际应用需要来设置第二预设阈值的具体数值，在此不做限定。比如，黑名单临时库b在一天内的可以过滤掉5万条数据，通过提升度筛选之后，可以过滤10万条数据。如此一来，通过从黑名单临时库中筛选出提升度大于第二预设阈值的目标库，并作为黑名单，保证了黑名单的数据过滤强度，从而保证了对用户上网日志数据的清洗力度，提高了用户行为模式的识别效率。在实际应用中，可以利用弱分类器和提升度训练上网日志信息的黑白名单库，从而增强了数据过滤性，提高了识别过程的操作性。
75.需要说明的是，通常上网日志数据具有数据种类繁多，数据离散化程度高等特点，数据呈扁平化。通过先将数据进行模糊分类，再在不同分类中筛选出提升度较高的目标库，相应地，该目标库的规则较强，有利于在不同分类中进行增强训练，从而提高了数据的过滤精度，保证了后续行为模式识别的效率。
76.在本发明实施例中，步骤s103：对所述过滤后的数据进行多级分类，获得分类后的
结果，包括：
77.根据预设的分解层级深度，采用信息熵对所述过滤后的数据进行二叉树分解，获得对应数据的多个层级的分类，其中，所述信息熵越小表明相应层级的分类的特征越相似。
78.在具体实施过程中，在基于黑名单对上网日志数据进行过滤，获得过滤后的数据之后，可以根据预设的分解层级深度，采用信息熵对过滤后的数据进行二叉树分解，获得对应数据的多个层级的分类。其中，可以根据实际应用的具体需要来设置预设的分解层级深度，在预设的分解层级深度为大于1的整数时，可以实现对过滤后的数据的多级分类。此外，信息熵越小表明相应层级的分类的特征越相似。其中，特征指的是相应分类的独特性，比如，本分类中，用户a和用户b都是旅游达人，两人都喜欢旅游，他们的表现和特征就更加相似。以图4所示的多级分类为例，在第一层的时候，左分支c1的信息熵为0，右分支c2的信息熵为0.5；相应地，左分支c1分解完毕，右分支c2还可以进行第二层的分解；在第二层分解的左分支c21为0，右分支c22为0.3，那么右分支c22还可以继续分解。在实际应用中，可以设定预设的最大分解层次深度，比如，3，则可以产生三级的分类。如此一来，相较于人工分类来说，实现了自动分类，从而提高了分类匹配效率，节约了性能开支。
79.在本发明实施例中，如图5所示，步骤s104：基于所述分类后的结果，识别出所述用户的当前行为模式，包括：
80.s301：用预设标准标签库对所述分类后的结果的各个层级的分类进行校验，得到校验后的标签库，所述校验后的标签库用于存放校验后的各个层级的分类对应的行为特征标签；
81.s302：根据所述校验后的标签库，对所述过滤后的数据进行特征识别，获得所述用户的基础行为特征；
82.s303：基于聚类算法和多层分析法将所述用户的基础行为特征进行聚合，识别出用户当前的行为模式。
83.在具体实施过程中，步骤s301至步骤s303的具体实现过程如下：
84.在获得分类后的结果之后，可以用预设标准标签库对分类后的结果的各个层级的分类进行校验，得到校验后的标签库，去除错误的层级的分类结果，从而提高了标签库的准确性。其中，校验后的标签库用于存放校验后的各个层级的分类对应的行为特征标签。然后，根据校验后的标签库，对过滤后的数据进行特征识别，获得用户的基础行为特征。比如，用户e的基础行为特征有旅游、美食和阅读。然后，基于聚类算法和多层分析法将用户的基础行为特征进行聚合，识别出用户的当前的行为模式。在其中一种示例性实施例中，可以先使用聚类算法较快地将众多特征对象中可以合并的地方进行合并，然后，用多层分析法进行精准的评价分析，从而在提高效率的同时，提高了准确度。
85.需要说明的是，多层分析法可以是层次分析法，其主要是将一个复杂的多目标决策问题作为一个系统，将目标分解为多个目标或准则，进而分解为多目标(或者准则、约束)的若干层次，可以根据相关技术中的多层分析法来对用户的基础行为特征进行处理，在此不做详述。而聚类算法主要是进行相似特征的聚类，在其中一种示例性实施例中，可以采用k均值聚类算法(k-means clustering algorithm)来进行相似特征的聚类，当然，还可以采用相关技术中的其它聚类算法来聚类，在此不做限定。如此一来，结合用户多特征，减少了信息损失，保证了分类结果信息覆盖度高，类间差异大，提高了识别效率。
86.本发明实施例提供的用户行为模式的识别方法，可以应用在大数据用户特征分析，用户行为分析、预测，风险防控，精准营销等方面。即便是在数据源复杂、数据量级巨大的领域仍可以应用，数据可用性较高，同时节省了硬件成本与时间成本。
87.基于同一发明构思，如图6所示，本发明实施实例还提供了一种用户行为模式的识别装置，包括：
88.获取单元10，用于获取用户的上网日志数据；
89.过滤单元20，基于黑名单对所述上网日志数据进行过滤，获得过滤后的数据；其中，所述黑名单是基于所述用户的历史上网日志数据所构建的，用于筛选所述历史上网日志数据的url字段；
90.分类单元30，用于对所述过滤后的数据进行多级分类，获得分类后的结果；
91.识别单元40，基于所述分类后的结果，识别出所述用户的当前行为模式。
92.在本发明实施例中，在获取单元10获取用户的上网日志数据之前，所述识别装置还包括构建单元，所述构建单元用于：
93.获得所述用户的历史上网日志数据；
94.从所述历史上网日志数据中，筛选出信息值大于第一预设阈值的目标数据，其中，所述信息值用于表征相应数据的特征重要程度；
95.基于弱分类器将所述目标数据分为黑名单临时库，所述黑名单临时库由非主动访问的url字段组成；
96.从所述黑名单临时库中，筛选出提升度大于第二预设阈值的目标库，其中，所述提升度用于表征数据过滤强度；
97.将所述目标库作为所述黑名单。
98.在本发明实施例中，分类单元30用于：
99.根据预设的分解层级深度，采用信息熵对所述过滤后的数据进行二叉树分解，获得对应数据的多个层级的分类，其中，所述信息熵越小表明相应层级的分类的特征越相似。
100.在本发明实施例中，识别单元40用于：
101.用预设标准标签库对所述分类后的结果的各个层级的分类进行校验，得到校验后的标签库，所述校验后的标签库用于存放校验后的各个层级的分类对应的行为特征标签；
102.根据所述校验后的标签库，对所述过滤后的数据进行特征识别，获得所述用户的基础行为特征；
103.基于聚类算法和多层分析法将所述用户的基础行为特征进行聚合，识别出用户当前的行为模式。
104.基于同一发明构思，本发明实施例还提供了一种识别装置，包括，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现上面任一项所述的用户行为模式的识别方法的步骤。
105.基于同一发明构思，本发明实施例还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上面任一项所述的用户行为模式的识别方法的步骤。
106.本发明的有益效果如下：
107.本发明实施例提供了一种用户行为模式的识别方法、装置及可读存储介质，首先，
获取用户的上网日志数据；然后，基于用户的历史上网日志数据所构建的黑名单，对用户的上网日志数据进行过滤，过滤掉黑名单中url字段所对应的数据；然后，对过滤后的数据进行多级分类，从而获得分类后的结果；然后，基于该分类后的结果，识别出用户的当前行为模式。也就是说，基于用户的历史上网日志数据所构建的黑名单，对用户的当前上网日志数据进行过滤，增加了数据的清洗力度，减少了数据量，从而提高了后续基于过滤后的数据进行多级分类以及行为模式识别的效率。
108.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
109.本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
110.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
111.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
112.显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：安翔宇
技术所有人：天翼云科技有限公司
我是此专利的发明人

上一篇：一种超柔反光面料的生产工艺的制作方法
上一篇：一种滑坡监测预警方法及系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。