本发明涉及大数据处理及计算机人工智能领域,具体涉及一种基于用户画像和聚类技术识别机票异常搜索用户方法及系统。
背景技术:
1、现有用户通过ota渠道查询和预订机票时,ota会将用户的查询请求再次向中航信等渠道查询实时航班信息,而这过程会被收取流量费用或被航司限制查定比(机票查询次数/预订次数,当ota平台查定比超过一定水平时会被收取费用或者被航司限制资源),所以这个过程中如果用户只查而从不预订,则会对ota平台造成资源浪费,鉴于此有必要对这部分非正常用户进行识别并进行查询限制,以避免不必要的流量费支出和达到优质的查定比水平。
2、当前ota平台识别这种非正常查询用户主要还是基于传统爬虫技术识别方法(统计ip访问频率等统计学方法)或者部分使用机器学习分类算法。
3、对于传统爬虫识别方法随着反扒技术的进化,多账号低频搜索等拟人化行为程度越来越高,传统识别方法难度越来越高,并且其也无法很好识别非爬虫类但是行为异常用户群。
4、对于机器学习分类算法,由于需要前期大量人工标注异常搜索样本,但是这类样本存在获取难度大和获取的类型不全面等问题也会限制机器学习使用效果。
技术实现思路
1、本发明的目的在于提供一种高效基于用户画像和聚类技术识别机票异常搜索用户方法及方法。
2、为解决上述技术问题,本发明提供一种基于用户画像和聚类技术识别机票异常搜索用户方法,包括以下步骤:
3、构建异常搜索用户画像标签;
4、根据异常搜索用户画像标签,获取异常搜索用户行为信息;
5、根据异常搜索用户行为信息,得到待识别用户集;
6、根据异常搜索用户画像标签,对待识别用户集进行聚类分析,得到聚类结果;
7、对聚类结果进行后验,得到机票异常搜索用户。
8、优选地,根据异常搜索用户画像标签,对待识别用户集进行聚类分析,得到聚类结果,具体包括以下步骤:
9、根据异常搜索用户画像标签体系和待识别用户集,构建用户标签体系矩阵;
10、对画像标签体系矩阵进行优化处理,得到优化后矩阵;
11、对优化后矩阵进行聚类分析,得到聚类结果。
12、优选地,所述用户标签体系矩阵为:
13、 ;
14、式中:z代表集合n用户的画像标签体系矩阵;ai代表集合n中第i个用户的标签体系矩阵;aij表示第i个用户在第j个标签的标签值;i为用户数,j为标签数。
15、优选地,所述优化处理为归一化处理;所述归一化处理的公式为:
16、;
17、其中,aij是原始数据,μ是第j个标签均值,δ是第j个标签的标准差;aij’是归一化处理后的数据,归一化后期其转化为均值为0,标准差为1的值;
18、归一化处理后的矩阵为,以归一化处理后的矩阵作为优化后矩阵。
19、优选地,对优化后矩阵进行聚类分析,得到聚类结果,具体包括以下步骤:
20、根据优化后矩阵,确定聚类个数k以及初始聚类中心;
21、计算优化后矩阵与各个初始聚类中心的距离,根据距离对所有优化后矩阵进行划分;
22、分别计算k个聚类簇中特征的均值,将所述均值作为新的聚类中心;
23、直至聚类收敛,得到聚类结果。
24、优选地,确定聚类个数k以及聚类中心,具体包括以下步骤:
25、根据轮廓系数法确定聚类个数k:
26、以优化后矩阵作为用户点,所述轮廓系数的计算公式为:
27、 ;
28、dis_a即用户点到所属同簇内用户点的平均距离,表示为凝聚度;
29、dis_b即用户点到所属非同簇内用户点的平均距离,表示为分离度;
30、随机选择一个点作为第一个聚类中心,然后选择距离该点最远的那个点作为第二个聚类中心,然后再选择距离前两个点的最近距离最大的点作为第三个聚类中心,以此类推,直至选出k个聚类中心为止。
31、优选地,所述距离的计算公式为:
32、;
33、式中:ai和aj表示不同的两个用户,m表示用户的标签体系维度;
34、所述聚类收敛目标为:
35、采用损失函数作为聚类收敛的目标函数,其目标为使得划分类后各簇内误差平方和sse最小:
36、;
37、 ;
38、式中:ei是k个聚类中心的第i个聚类中心的聚类中心点,ei为第i个类的待识别用户集合,a是第i个类中用户的标签体系矩阵向量;
39、在损失函数变化低于最小误差平方和t,且当前迭代次数大于最大迭代次数s时,聚类收敛。
40、优选地,对聚类结果进行后验,得到机票异常搜索用户,具体包括以下步骤:
41、根据异常搜索用户画像标签体系和待识别用户集,构建后验标签体系矩阵;
42、根据后验标签体系矩阵,获取后验行为结果;
43、根据后验行为结果和聚类结果,获取机票异常搜索用户。
44、优选地,所述后验标签体系矩阵为:
45、 ;
46、式中:t代表集合n用户的后验标签体系矩阵;bi代表集合n中第i个用户的标签体系矩阵;bi1表示第i个用户在最近一个月内的机票搜索次数;bi2标签第i个用户在最近一个月内的机票下单次数。
47、本发明还提供一种基于用户画像和聚类技术识别机票异常搜索用户系统,包括:
48、构建模块,用于构建异常搜索用户画像标签;
49、用户行为信息获取模块,用于根据异常搜索用户画像标签,获取异常搜索用户行为信息;
50、待识别用户集获取模块,用于根据异常搜索用户行为信息,得到待识别用户集;
51、聚类分析模块,用于根据异常搜索用户画像标签,对待识别用户集进行聚类分析,得到聚类结果;
52、后验模块,用于对聚类结果进行后验,得到机票异常搜索用户。
53、与现有技术相比,本发明的有益效果为:
54、1、相较于传统ota平台识别异常搜索用户主要基于传统爬虫识别技术(统计访问频率识别高频异常用户群等)存在的识别异常用户群类型单一等缺陷,本发明通过对ota平台用户建立其人群属性、业务行为和偏好等多维度画像特征标签,从多维画像特征洞察分析异常用户群,能够更全面的识别各行为类型的异常搜索用户群,包括多账号低频等异常用户群。
55、2、相较于传统ota平台识别异常搜索用户群需要人工设置识别规则,本发明通过科学的统计假设检验方法进行异常识别,避免人工规则的经验不足和时间成本较高。
56、3、本发明使用聚类分析归类异常搜索用户群,从聚类的各用户群判断异常搜索用户群的方法上,相较于传统通过需要人工业务经验进行人群画像洞察分析和结合业务规则等人工识别方法,本发明中通过对用户群后验下单概率进行分析从而判断异常用户群,避免通过人工判断的经验不足和时间成本。
57、4、相较于传统机器学习的分类用户算法前期需要准备大量人工标注好的异常用户和正常用户样本用于模型训练,本发明在不需要人工标注样本情况下使用聚类算法进行了有效和科学的用户分类。