一种基于大数据的券商客户风险偏好分类方法与流程

文档序号:13761042阅读:1071来源:国知局
一种基于大数据的券商客户风险偏好分类方法与流程

本发明属于数据处理技术领域,涉及一种基于大数据的券商客户风险偏好分类方法。



背景技术:

随着大数据技术的发展和人们对数据中蕴含的特征和价值的重视,各行各业有关大数据开发利用呈现普及化趋势。数据挖掘技术经过十多年的发展,也有了许多经典和成熟的算法。在不同的行业和场景中适用不同的算法。有的学者改进其中的算法,使其效果更佳;也有的学者利用算法挖掘出一般规律。本发明所改进的K-means算法就是其中一种。

国内券商有迫切需求想了解客户特征和需求、为客户提供合适的产品和服务,对客户进行分类管理。结合目前券商的海量数据和数据挖掘技术可以实现券商的上述需求。这主要得益于数据挖掘技术的不断发展和计算机运算能力的提升,包括软件运算速度和数据库运算量。通过不断的改进和调整算法,都可以开发出适合不同行业数据的挖掘算法。

传统的问卷调查或由券商交易系统在线答题来评测识别客户风险偏好。绝大多数的券商都还是依靠客户经理对客户进行问卷调查或者通过交易系统对客户进行在线答题来完成客户风险偏好识别及划分客户风险类别。这样的在线测试,往往只出一些主观试题,依靠客户的选项在自动判断客户的成熟度或风险偏好。存在不全面或局限性。

首先,现有的交易系统在线评测试题量较少,不能全面反映客户特征。现有在线评测需要客户在交易系统上完成。券商为了避免干扰客户交易或引起客户反感,设置的问答试题数目不会太多。这就很难全面而准确地评价客户的风险偏好。也不能十分有效的细分客户类别。

其次,现有的在线评测来判定客户风险偏好不能反映客户的成长和变化。因为个人客户的风险属性受多种主观因素和客观因素的影响,会随着因素的变化而变化。例如,客户会成长,会由不成熟而逐渐发展为某种类型的成熟投资者。只有通过动态的跟踪,才能准确反映客户特征。国内多数券商对客户的分类结果多是一成不变的,影响了客户分类结果的准确性。而本专利申请的算法依据客户交易信息,只有客户存在交易,就能实时提取信息分析,形成持续关注客户的风险属性,并进行动态评估。

再次,经常通过交易系统答题评测容易引起客户反感,而不能获得真实的风险特征。有的客户不重视问卷调查或在线问答,为了尽快完成问卷,经常出现胡乱填几个选项。这就不能真实的反映客户的风险特征和偏好需求。

相比较而言,本次专利申请主要是基于券商数据库中大量的客户交易数据进行实时分析的。算法利用数据挖掘技术分析客户的交易行为,揭示客户的风险偏好特征。因为交易数据不会撒谎,这是对客户准确而精细分类的有效保障。交易数据中不仅能体现客户的财务信息,更能体现客户交易标的的偏好。这些都能真实反映客户的行为及特征。能较全面的挖掘展示客户信息,也能及时的反映客户的变化;还能够避免浪费客户时间做问卷调查。避免了上述多个问题。同时还能降低问卷调查造成的人力物力成本。这些都是本算法的优越性和方便性体现。

归纳而言,本发明的优点是利用券商的自有数据,算法运行起来方便快捷,无需浪费客户时间成本;本算法由经典的聚类分析算法改进而来,提高了聚类的稳定性和可靠性;最大的贡献是算法中聚类中心重新选择的策略和删减聚类数目的策略,这是原来的算法所没有的。

技术方案:

本发明提供了一种磁性颗粒活性炭的制备方法。本发明是采用如下技术方案实现的:

一种基于大数据的券商客户风险偏好分类方法,包括以下步骤:

步骤一)从原始数据中选取要进行分析的变量,再使用主成分分析法对选取的变量进行分析,得到主成分矩阵XF

步骤二)在主成分矩阵XF中确定出K个簇的初始簇心;

步骤三)计算每个簇心与最邻近簇心之间距离;将XF中所有的样本对象分配到最邻近的簇中,然后更新每个簇中对象的数目及离簇心最远的对象与簇心间距离值;按均值调整每个簇簇心,直至所有簇心位置无调整;按照条件1依次计算判断每个簇,条件1为:该簇中对象数目小于最邻近簇的对象数,且该簇与最邻近簇的簇心距离小于2倍的离簇心最远的对象与簇心间距离;删除满足条件1的簇,再使用新的簇心代入步骤三);

步骤四)在步骤三)迭代数次后,得到稳定的主成分矩阵XF的聚类结果;所述聚类结果即为客户的交易类别划分,再结合不同产品的风险值,即可确定客户的交易风险偏好。

进一步的改进,所述中初始簇心的选取方法为:

d)选取主成分矩阵XF中每一种成分的最大值的对象作为初始聚心;

e)从非聚心的对象中找出与已经选出的所有聚心的距离之和最大的点为初始聚心;

f)重复b)直到选出K个初始聚心

进一步的改进,所述步骤一)中要进行分析的变量包括股票型开放基金累计市值与累计资产的比值、创业板累计市值与累计资产的比值、ST股票累计市值与累计资产的比值、新股申购金额(*3处理)与累计资产比值、债券型基金与累计资产比值、A股市值与累计资产比值、货币基金累计市值与累计总市值的比值、A股市值与累计总市值的比值、近3个月A股持仓度、近3个月A股换手率。

进一步的改进,其特征在于,在所述步骤三)中设置簇心最小值,当簇心数量得小于簇心最小值时,停止步骤三)的迭代。

与现有技术相比,本发明具有以下优点

本系统运行依靠券商的数据库,只要用户有交易历史数据,就可以据此判断该用户的投资偏好,这也直接反映客户的风险特征。这正是本系统的优越性和方便性体现。本专利算法能够按客户规模和投资细节准确划分客户。得到的群组结果正确率很高。算法经过改进后速度提升了。稳定性也增加了。应用在券商海量数据库中也能够快速得到结果。比较现有在线问卷的弊端,本算法完全不需要问卷试题。一次建设,今后可以一直使用,总成本上远远低于现有方案。

附图说明:

图1为实施例模型示意图;

图2为邻近簇的合并示意图;

图3为改进K-means聚类分析流程图。

具体实施方式:

实施例

变量的设定

由于证券公司的交易记录都是真实的数据,故不需要空缺值的填补。根据证券公司的业务知识、汇总后字段的分布和模型针对的客户群体做样本选取和变量选择。在方案设计中,经过反复的训练、模型的评估,综合考虑应用的关联性等问题,采用如表1所示的变量输入来映射数据仓库中的数据。其他的映射数据还有场内基金累计市值与累计资产的比值、货币基金累计市值与累计资产比值、债券累计市值与累计资产比值、B股市值与累计资产比值、股票型开放基金累计市值与累计总市值的比值、创业板累计市值与累计总市值的比值、ST股票累计市值与累计总市值的比值、新股申购金额(*3处理)与累计总市值的比值、债券累计市值与累计总市值的比值、B股市值与累计总市值的比值、近3个月盈亏率的波动等等。限于表格的篇幅不一一列举其字段名。

表1客户偏好细分模型分析指标

主成分分析

主成分分析的目的是减少数据集的维数,同时又要保持数据集的方差贡献最大的特征。即保留信息量大的主要成分,忽略系数矩阵中信息量少的成分。这样就能把多指标转化为少数的一些综合指标。本专利应用了主成分分析法,先是将原始数据样本进行z标准化变换消除量纲影响,再求其相关系数矩阵,最后做出成分分析得到成分矩阵。

定义1对于有n个样本的原始矩阵X,n为样本数,p为变量数。

对X进行Z标准化变换的公式如公式(1)所示。

其中xaj为矩阵X的原始数据。消除量纲影响后应用公式(2)计算相关系数矩阵,即X的协方差阵。表 2列举了的部分变量的相关矩阵。篇幅所限,不全部列举。

对协方差阵R计算特征值和正交化单位特征向量ai,i=1,2,...p.由特征向量ai按公式(3)计算可得各综合向量指标Fi

Fi=a1ix1+a2ix2+…+apixp,i=1,2,...,p. 公式(3)

原始样本矩阵经过公式(1)(2)(3)复杂的处理后,得到各成分F的方差累积贡献度如表3所示。表3显示的是前10项综合指标解释的总方差可以代表原有信息的95.23%。本实施例依据这10个综合指标建立样本的主成份矩阵XF。后续的聚类算法将是对这个主成分矩阵XF进行操作,分类出不同的Xi构成的簇。

表2部分变量的相关矩阵

表3 10项综合指标解释的总方差

4.2.3改进的k-means聚类分析

本发明采用改进的K-means聚类分析对客户样本主成分矩阵进行聚类分析来达到客户分类目的。K-means算法是数据挖掘中经典的聚类分析法。K-means算法对大数据量的处理有比较好的适应度,其特点是对异常数据敏感、对数据输入顺序不敏感。由于证券公司客户样本数据庞大,K-means比较适合应用于证券公司的客户分类。

传统K-means聚类步骤:

a.随机选取k个点作为初始聚类中心。

b.计算各个样本到聚类中心的距离,把样本归到离它最近的那个聚类中心所在的簇。

c.对各簇重新按均值计算新的聚类中心。

d.回到b步骤,循环迭代直到各类聚心稳定。

本文算法改进的部分是初始聚心的选择策略和删除临近大簇的小簇两个方面。

(1)改进的初始聚心选择策略

通常初始聚类的数量k都是大于主成分属性数量m。本文选择初始聚类中心的方法为:先取每一种成分的最大值的对象作为m个初始 聚心,接着从其余的样本对象中找出已经选出来的所有聚类中心的距离和最大的点为另一个聚类中心,直到选出k个聚类中心。这样得到的初始聚类中心在样本中的分布相对均匀且受样本的输入顺序影响较小,缺点是牺牲了一点时间,但这对于现代计算机来说,可以忽略不计。

(2)聚类数目K的删减

原始的K-means算法是没有删减聚类中心的。要求使用者不断通过训练来调整设置合理的聚类中心数目K。本文的改进是每轮聚类结束对每个簇中对象数目进行统计,对任意最邻近的两个簇,如果满足如下条件(1)则删除簇i的簇心。

num_Ci<num_Cj且d_Cij<2*max d_Ci 条件1

条件1的解释为:编号i的簇中对象数目小于其最邻近的标号j的簇的对象数,且两个簇的簇心距离要小于2倍的第i簇簇心到其最远对象的距离。

若簇i被删除,这个簇的对象在下次聚类中按距离远近原则重新被分配到最临近的其他簇中,这样的目的是实现簇数目的删减,使簇数量按邻近原则合并达到一个相对合理值。如图2所示的簇C1和C2将有一个被删除,在下次聚类时对象将合并为一个大簇。这样考虑是为了合并紧密的簇。而有些簇的对象数目较少但与其他簇距离偏远,具有独立特征的,不易满足上述距离的不等式,因此不会被删除。

为了易于实现,设计的一个簇结点的信息如表4所示。

表4簇结点信息

改进后的K-means算法流程为:

a.确定K个簇的初始聚心。

b.找出每个簇的最邻近簇,并计算其与最邻近簇簇心之间距离。

c.将所有的样本对象分配到最邻近簇,同时更新每个簇对象数目及簇中与簇心最远的对象距离值。

d.对象分配结束,按均值调整每个簇簇心,若所有簇心位置无调整,算法结束。

e.按照条件(1)计算每个簇,删除满足条件的簇心,每删除一个簇心,K数目减1。修改相应的链表结点指针域保持链表完整。回到步骤b。

经过多次迭代后,可得到稳定的聚类结果,该聚类结果即为客户的交易类别划分,再结合不同产品的风险值,即可确定客户的交易风险偏好。改进的聚类分析方法流程图如图3所示。为了避免特殊的噪声点在上述算法中引起簇不断合并为一个簇。可以在步骤d中增加阈值t,满足簇的总数目小于t时,停止算法。通过几次训练,也可以得到合理的t值设定。

以下为本实施例中实现求解初始聚心以及删除聚心的编程代码

(1)求解初始聚心策略

其代码如下所示:

(2)一次聚类的函数

计算每个观测量到各个聚心的欧氏距离。即按就近原则将每个观测量选入一个类中,然后计算各个类的中心位置,即均值,作为新的聚心。

下面是根据已经确定的聚心对样本进行一次分类的函数代码。

使用计算出来的新聚心重新进行分类,分类完毕后继续计算各类的中心位置,作为新的聚心,如此反复操作,直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小距离的倍数时,或者到达迭代次数的上限时,停止迭代。这个迭代过程在程序中是重新用循环调用上述Classification函数实现的。

一个实例的分类结果

本专利检验中用X证券公司数据进行分析。根据实际业务的需要,模型选择日均资产介于1000元到1000万元之间的客户做为样本进行分析。设置初始的分类在10-75之间,按上文所述算法进行聚类。经过多次的训练,样本客户群体最终在15个分类的时候达到一个相对稳定的结果。15个类别特征描述如表4-5所示。由于证券的交易不同标的本身对应的风险值就不同,因此这15类群体表示15类客户不同的交易风险偏好。

表4-5X公司客户按产品偏好分群聚类结果

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1