金融数据资产的类别标注方法及装置与流程

文档序号:26139783发布日期:2021-08-03 14:23阅读:105来源:国知局
金融数据资产的类别标注方法及装置与流程
本发明实施例涉及数据处理领域,具体而言,涉及一种金融数据资产的类别标注方法及装置。
背景技术
:随着数字化进程的发展,金融行业业务内部产生的数据和可利用的外部数据不断累积,数据规模急剧扩大。然而,数据内容往往分散于各个系统和平台。为了更好更高效地管理和应用数据,行业内纷纷搭建平台实现元数据的统一管理。在此基础上,基于海量金融数据的管理,从业务角度进行分类是必不可少的。传统的金融数据往往采用人工预先设计好的分类框架体系和标准的判断规则(如:企业级数据模型等),人工对数据进行分类。这种方式的缺点是效率低且对专业性要求较高。随着人工智能技术的不断发展,为提高金融数据的分类效率,深度学习技术被用于快速对海量数据进行分类。其原理是:(1)设计并确定一个或多个想要实现的分类体系;(2)通过人工标注,分别获取每个分类体系的训练样本数据;(3)通过双向长短期记忆网络(bidirectionallongshort-termmemory,简称为bilstm)等深度神经网络方法,得到一个多分类的算法模型;(4)运用分类模型,将存量和增量的金融数据分类至某一类别下。最终实现海量数据的自动分类。然而,在相关技术中,将用户提问文本作为分类语料、利用半监督学习方式构建问答库的方法并不适用于对金融数据资产的自动分类。同时,在对金融数据资产的分类方式中,分类体系仅依靠少量专家设计,分类提前预设且固定,无法灵活适应分类目标的快速变化。再者,金融数据资产分类维度较为单一,无法多个角度对数据资产使用和管理,与业务实际场景存在一定脱节。另外,采用深度学习进行金融数据资产分类时,在训练阶段需要标注大量样本,且对标注人员的专业性要求较高,同时分类体系有所变化,就需要重新标注样本,重新训练模型,缺乏灵活性,分类成本较高。最后,金融数据资产分类的准确性受到分词准确性、标注样本数量、训练模型参数等多个因素制约,需要不断调试,综合成本高。针对相关技术中的金融数据资产的类别标注方式脱离真实的业务场景以及无法高效灵活地实现金融数据资产的类别标注的问题,目前尚未提出有效的解决方案。技术实现要素:本发明实施例提供了一种金融数据资产的类别标注方法及装置,以至少解决相关技术中的金融数据资产的类别标注方式脱离真实的业务场景以及无法高效灵活地实现金融数据资产的类别标注的问题。根据本发明的一个实施例,提供了一种金融数据资产的类别标注方法,包括:对金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签;对特定用户展示所述金融数据资产,并接收所述特定用户对所述金融数据资产所添加的用户标签;经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则,并基于所述标签关联规则对所述金融数据资产进行类别标注。在一个示例性实施例中,对金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签,可以包括:至少根据以下方式之一对所述金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签:将所述金融数据资产与预定义的业务规则进行正则匹配,并将与所述金融数据资产正则匹配值达到预定阈值的所述业务规则作为所述专业标签;根据预定义的分类体系通过语义相似度对所述金融数据资产进行标签特征抽取,得到所述专业标签。在一个示例性实施例中,在经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则之前,还可以包括:对所述用户标签进行聚类分析,获取共性的所述用户标签。在一个示例性实施例中,对所述用户标签进行聚类分析,获取共性的所述用户标签,可以包括:分别根据多个聚类个数对所述用户标签进行聚类分析,得到多个所述聚类个数下的轮廓系数;比较多个所述轮廓系数的大小,得到最大轮廓系数;根据与所述最大轮廓系数相对应的所述聚类个数计算所述聚类个数下的各个聚类的中心点,并将离所述聚类的所述中心点最近的词向量作为所述聚类的共性的所述用户标签。在一个示例性实施例中,分别根据多个聚类个数对所述用户标签进行聚类分析,得到多个所述聚类个数下的轮廓系数,可以包括:对所述用户标签进行分词,得到用户标签列表;将所述用户标签列表转换为词向量,得到用户标签向量;根据聚类个数集合中的多个聚类个数对所述用户标签向量进行聚类分析,得到多个所述聚类个数下的轮廓系数,其中,所述聚类个数集合为多个所述聚类个数的集合。在一个示例性实施例中,经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则,并基于所述标签关联规则对所述金融数据资产进行类别标注,可以包括:对所述专业标签和所述用户标签进行关联分析,得到所述专业标签和所述用户标签的多个标签之间的所述标签关联规则及所述标签关联规则的置信度;删除低于预定阈值的所述置信度所对应的所述标签关联规则,对所述标签关联规则进行筛选;根据经过筛选后的所述标签关联规则对所述金融数据资产进行类别标注。在一个示例性实施例中,在基于所述标签关联规则对所述金融数据资产进行类别标注之后,还可以包括:根据经过类别标注后的所述金融数据资产及分类目标,对所述金融数据资产进行分类。在一个示例性实施例中,在对所述金融数据资产进行分类之后,还可以包括:根据更新的所述专业标签和/或用户标签,对所述金融数据资产进行类别标注更新。根据本发明的另一个实施例,提供了一种金融数据资产的类别标注装置,包括:抽取模块,用于对金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签;接收模块,用于对特定用户展示所述金融数据资产,并接收所述特定用户对所述金融数据资产所添加的用户标签;标注模块,用于经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则,并基于所述标签关联规则对所述金融数据资产进行类别标注。根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。通过本发明的上述实施例,由于将用户标签也纳入用于金融数据类别标注的语料中,因此,可以解决相关技术中的金融数据资产的类别标注方式脱离真实的业务场景的问题,另外,由于可以根据业务变化实时获取用户标签,并基于所获取的用户标签自动对金融数据资产进行类别标注,因此,可以解决相关技术中无法高效灵活地实现金融数据资产的类别标注的问题,达到低成本、快速灵活地为金融数据资产标注符合业务实际场景的类别的效果,从而为实现金融数据资产的自动分类提供支持。附图说明此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是本发明实施例的一种金融数据资产的类别标注方法的移动终端的硬件结构框图;图2是根据本发明实施例的金融数据资产的类别标注方法的流程图;图3是根据本发明实施例的金融数据资产的类别标注装置的结构框图;图4是根据本发明可选实施例的金融数据资产的类别标注装置的结构框图;图5是根据相关技术的基于深度学习的金融数据的数据分类方式的流程图;图6是根据本发明可选实施例的金融数据资产自动分类的整体流程图;图7是根据本发明可选实施例的用户标签转换成共性标签的流程图;图8是根据本发明可选实施例的基于关联规则自动补充分类的流程图。具体实施方式为了使本
技术领域
的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为了更好的理解本发明实施例以及可选实施例的技术方案,以下对本发明实施例以及可选实施例中可能出现的应用场景进行说明,但不用于限定以下场景的应用。本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种金融数据资产的类别标注方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的金融数据资产的类别标注方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(networkinterfacecontroller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radiofrequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。在本实施例中提供了一种运行于上述移动终端的金融数据资产的类别标注方法,图2是根据本发明实施例的金融数据资产的类别标注方法的流程图,如图2所示,该流程包括如下步骤:步骤s201,对金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签。步骤s202,对特定用户展示所述金融数据资产,并接收所述特定用户对所述金融数据资产所添加的用户标签。步骤s203,经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则,并基于所述标签关联规则对所述金融数据资产进行类别标注。在本实施例中,步骤s201可以包括:至少根据以下方式之一对所述金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签:将所述金融数据资产与预定义的业务规则进行正则匹配,并将与所述金融数据资产正则匹配值达到预定阈值的所述业务规则作为所述专业标签;根据预定义的分类体系通过语义相似度对所述金融数据资产进行标签特征抽取,得到所述专业标签。在本实施例的步骤s203之前,还可以包括:对所述用户标签进行聚类分析,获取共性的所述用户标签。在本实施例中,对所述用户标签进行聚类分析,获取共性的所述用户标签,可以包括:分别根据多个聚类个数对所述用户标签进行聚类分析,得到多个所述聚类个数下的轮廓系数;比较多个所述轮廓系数的大小,得到最大轮廓系数;根据与所述最大轮廓系数相对应的所述聚类个数计算所述聚类个数下的各个聚类的中心点,并将离所述聚类的所述中心点最近的词向量作为所述聚类的共性的所述用户标签。在本实施例中,分别根据多个聚类个数对所述用户标签进行聚类分析,得到多个所述聚类个数下的轮廓系数,可以包括:对所述用户标签进行分词,得到用户标签列表;将所述用户标签列表转换为词向量,得到用户标签向量;根据聚类个数集合中的多个聚类个数对所述用户标签向量进行聚类分析,得到多个所述聚类个数下的轮廓系数,其中,所述聚类个数集合为多个所述聚类个数的集合。在本实施例中,步骤s203可以包括:对所述专业标签和所述用户标签进行关联分析,得到所述专业标签和所述用户标签的多个标签之间的所述标签关联规则及所述标签关联规则的置信度;删除低于预定阈值的所述置信度所对应的所述标签关联规则,对所述标签关联规则进行筛选;根据经过筛选后的所述标签关联规则对所述金融数据资产进行类别标注。在本实施例的步骤s203之后,还可以包括:根据经过类别标注后的所述金融数据资产及分类目标,对所述金融数据资产进行分类。在本实施例中,在对所述金融数据资产进行分类之后,还可以包括:根据更新的所述专业标签和/或用户标签,对所述金融数据资产进行类别标注更新。通过上述步骤,由于将用户标签也纳入用于金融数据类别标注的语料中,因此,可以解决相关技术中的金融数据资产的类别标注方式脱离真实的业务场景的问题,另外,由于可以根据业务变化实时获取用户标签,并基于所获取的用户标签自动对金融数据资产进行类别标注,因此,可以解决相关技术中无法高效灵活地实现金融数据资产的类别标注的问题,达到低成本、快速灵活地为金融数据资产标注符合业务实际场景的类别的效果,从而为实现金融数据资产的自动分类提供支持。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。在本实施例中还提供了一种金融数据资产的类别标注装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”和“子单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图3是根据本发明实施例的金融数据资产的类别标注装置的结构框图,如图3所示,该装置包括:抽取模块100、接收模块200和标注模块300。所述抽取模块100,用于对金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签。所述接收模块200,用于对特定用户展示所述金融数据资产,并接收所述特定用户对所述金融数据资产所添加的用户标签。所述标注模块300,用于经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则,并基于所述标签关联规则对所述金融数据资产进行类别标注。图4是根据本发明可选实施例的金融数据资产的类别标注装置的结构框图,如图4所示,该装置除包括图3所示的所有模块外,还可以包括:聚类分析模块400、分类模块500和更新模块600。所述抽取模块100还可以包括:匹配单元110和/或抽取单元120。所述聚类分析模块400还可以包括:聚类分析单元410、比较单元420和计算单元430。所述聚类分析单元410还可以包括:分词子单元411、转换子单元412和聚类分析子单元413。所述标注模块300还可以包括:关联分析单元310、筛选单元320和标注单元330。所述匹配单元110,用于将所述金融数据资产与预定义的业务规则进行正则匹配,并将与所述金融数据资产正则匹配值达到预定阈值的所述业务规则作为所述专业标签。所述抽取单元120,用于根据预定义的分类体系通过语义相似度对所述金融数据资产进行标签特征抽取,得到所述专业标签。所述聚类分析模块400,用于在经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则之前,对所述用户标签进行聚类分析,获取共性的所述用户标签。所述聚类分析单元410,用于分别根据多个聚类个数对所述用户标签进行聚类分析,得到多个所述聚类个数下的轮廓系数。所述比较单元420,用于比较多个所述轮廓系数的大小,得到最大轮廓系数。所述计算单元430,用于根据与所述最大轮廓系数相对应的所述聚类个数计算所述聚类个数下的各个聚类的中心点,并将离所述聚类的所述中心点最近的词向量作为所述聚类的共性的所述用户标签。所述分词子单元411,用于对所述用户标签进行分词,得到用户标签列表。所述转换子单元412,用于将所述用户标签列表转换为词向量,得到用户标签向量。所述聚类分析子单元413,用于根据聚类个数集合中的多个聚类个数对所述用户标签向量进行聚类分析,得到多个所述聚类个数下的轮廓系数,其中,所述聚类个数集合为多个所述聚类个数的集合。所述关联分析单元310,用于对所述专业标签和所述用户标签进行关联分析,得到所述专业标签和所述用户标签的多个标签之间的所述标签关联规则及所述标签关联规则的置信度。所述筛选单元320,用于删除低于预定阈值的所述置信度所对应的所述标签关联规则,对所述标签关联规则进行筛选。所述标注单元330,用于根据经过筛选后的所述标签关联规则对所述金融数据资产进行类别标注。所述分类模块500,用于在基于所述标签关联规则对所述金融数据资产进行类别标注之后,根据经过类别标注后的所述金融数据资产及分类目标,对所述金融数据资产进行分类。所述更新模块600,用于在对所述金融数据资产进行分类之后,根据更新的所述专业标签和/或用户标签,对所述金融数据资产进行类别标注更新。需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。为了便于对本发明所提供的技术方案的理解,下面将结合具体场景的实施例进行详细阐述。本实施例提供了一种基于标签的金融数据资产自动分类方法,以解决现有技术所存在的金融数据资产分类维度单一、灵活度差,分类过程中多个步骤需要人工干预(如:大量人工标记)、分类效率低,以及,基于公共词库做处理、分类准确性脱离业务实际的问题。在本实施例中,数据资产是指企业拥有或控制的、能够为企业带来经济利益的、以物理或者电子方式记录的数据资源。图5是根据相关技术的基于深度学习的金融数据的数据分类方式的流程图,如图5所示,该流程包括如下步骤:步骤s501,采集金融数据(元数据),获取样本数据。步骤s502,根据专家经验设计,获得多个分类体系。步骤s503,对每个分类体系进行人工标注,获取每种分类的训练样本。步骤s504,采用深度神经网络算法进行样本训练,获取多个用于分类的算法模型。步骤s505,输入待分类的金融数据,基于分类模型给出的分类结果,对每个金融数据完成分类。上述基于深度学习的金融数据分类体系仅仅依靠少量专家设计,分类提前预设且固定,无法灵活适应分类目标的快速变化。另外,采用上述深度学习方式进行金融数据资产分类时,在训练阶段需要标注大量样本,且对标注人员的专业性要求较高,同时分类体系有所变化,就需要重新标注样本,重新训练模型,缺乏灵活性,分类成本较高。再者,通过上述方式,金融数据资产分类维度较为单一,无法多个角度对数据资产使用和管理,与业务实际场景存在一定脱节。最后,上述基于深度学习的金融数据的数据分类方式金融数据资产分类的准确性受到分词准确性、标注样本数量、训练模型参数等多个因素制约,需要不断调试,综合成本高。基于上述金融数据分类方式存在的多种问题,本实施例提供了一种基于标签的金融数据资产自动分类方法,目的是针对海量金融数据资产,结合专业标签与用户标签,高效、灵活、自动地实现分类,并且能够贴合真实的业务场景自学习,支持用户从多个维度检索和使用金融数据资产,挖掘数据资产价值。图6是根据本发明可选实施例的金融数据资产自动分类的整体流程图,如图6所示,该流程包括如下步骤:步骤s601,采集不同渠道、不同格式来源的金融数据资产(元数据)。步骤s602,基于预定义的规则,采用正则匹配等不同方法,抽取出专业标签。步骤s603,共享金融数据资产和专业标签,支持用户添加标签,实现一人一库。步骤s604,依次采用分词、词向量、聚类等方式,获取基于用户标签的共性标签,并基于用户标签自动分类。步骤s605,针对专业标签和用户标签进行关联分析,获取基于标签的关联规则,实现金融数据资产多维度自动分类。步骤s606,根据专业标签和用户标签的不断变化,自动迭代更新基于标签的分类体系,实现金融数据资产自动分类。在本实施例中,步骤s601可以包括:采集不同数据平台、不同内容格式的全量金融数据,作为数据资产分类的对象和基础。进一步地,采集方式可以包括系统通过互联网文件传输(internetfiletransfer,简称为ift)、网络服务(webservice)、表征状态转移风格(简称为restful)等形式自动采集,通过数据模型设计等工具直接收集,通过文件(如csv、word、excel)批量导入等多种途径。进一步地,采集内容包括业务开展过程中产生的基础数据、加工数据、管理数据的元数据,根据元数据的特点划分基础类型,形成全量的金融数据资产,主要包括系统开发设计的数据库表、字段等基础元数据,加工衍生形成的算法模型、客户标签、数据产品等加工元数据,以及用于业务管理的指标、数据标准等管理元数据。进一步地,将不同类别的金融数据处理成较为规范的金融数据资产展现形式,包括中文名称、英文名称、类型、含义等。金融数据资产样式如表1所示。表1在本实施例中,步骤s602可以包括:预定义专业的业务规则和分类体系,采用不同的技术方法,抽取符合规则的有业务价值的特征,准确高效构建金融数据资产专业标签,实现基于专业标签的首次分类。特定统一的业务标签包括数据资产所属系统、数据库类型、安全等级等。进一步地,基础业务规则包括全行规范的系统简称和全称规则、数据库类型规则等,如数据库类型包括但不限于主流的关系型和非关系型数据库(如oracle、mysql、hive)。分类体系包括企业级数据模型体系、数据安全等级体系等,如数据安全等级体系包括但不限于高安全等级(支付敏感信息、账户鉴别信息、用户鉴别信息)、中安全等级(个人标识信息、个人通信信息、个人行踪行为信息、个人财产信息、个人金融交易信息、个人私密信息)、低安全等级(内部使用信息)。进一步地,针对业务规则,使用正则表达式匹配的方式从金融数据资产元数据中抽取相关信息,如将金融数据资产部分元数据与系统规则进行正则匹配,英文简称命中或中文全称模糊匹配则将标准规则作为每条金融数据资产的“所属系统”专业标签,如“呼叫中心(call-center)系统”、“外部数据管理平台”、“数据资产管理平台”等。结合元数据、数据来源和数据库类型规则,抽取出“需求方服务平台(tradingdesk,简称为td)”、“全球平台(globalplatform,简称为gp)”、“高斯(gauss)平台”、“甲骨文(oracle)”、“关系型数据库管理系统(简称为mysql)”、“数据仓库工具(hive)”等作为“数据库类型”专业标签的内容。进一步地,针对分类体系,根据不同类型的金融数据资产和分类体系特点,采用语义相似度等智能化技术对金融数据资产进行自动盘点,获取专业标签。如针对数据安全等级体系,采用语义相似度计算等方式,基于基础类资产字段和加工类资产含义的关键字,自动盘点获取子节点的专业标签,并根据体系层级关系自动盘点金融数据资产的安全等级。表2是基于专业标签的金融数据资产展示表,如表2所示,基于专业标签的金融数据资产展现形式如下:表2在本实施例中,步骤s603可以包括:通过数据资产查询展示模块,将基于专业标签的金融数据资产向用户开放共享。进一步地,支持用户根据自己的理解,对金融数据资产添加标签。进一步地,每个用户标签关联单个数据资产,向所有用户共享展示,用户在添加标签过程中,可互相参考。同时,每个用户标签关联用户身份标识号(identitydocument,简称为id),又互相独立,实现一人一个标签库。表3是基于用户标签的金融数据资产展示表,如表3所示,基于用户标签的金融数据资产展现形式如下:表3在本实施例中,步骤s604可以包括:采用聚类算法,分析现有的个性化用户标签语料,获取基于用户标签的分类体系,提炼为共性共享的金融数据资产分类。经过处理后的用户标签作为数据资产分类,实现如专业标签一般统一管理的效果。图7是根据本发明可选实施例的用户标签转换成共性标签的流程图,如图7所示,该流程包括如下步骤:步骤s701,加载存量用户标签和自定义的金融词库,利用中文分词库(如jieba)对标签进行分词。步骤s702,通过同义词转换和去重处理,得到较规则、不重复的用户标签列表。步骤s703,利用词向量生成模型(如word2vec),将用户标签列表转换成词向量,获取用户标签向量。步骤s704,利用聚类算法(如k-means、k-means++、minibatchk-means),获取聚类最优解,并将标签向量进行聚类。在本实施例中,k-means算法的一般步骤是:1.首先选择合适的k值(聚类数);2.初始化k个初始质心,默认是k-means++初始化方式,随机选取一个数据点作为第一个质心(即前文中的“中心点”,记为μ),然后计算每个数据点到μ的距离,选取距离最大的数据点作为第二个初始质心,重复计算距离,选取最大距离作为下一个初始质心,直到找到k个初始质心;3.计算每个数据点到k个初始质心的距离,然后把该数据点归类到距离最小的质心(即前文中的“中心点”),直到每个数据点都完成归类;4.计算每一类的新的质心,然后生成k个新的质心;5.如果新的质点和上一次迭代生成的质点一样,则迭代结束;否则重复3、4,直到最大迭代次数;6.输出k个聚类簇。步骤s705,计算每个聚类的中心点,获取离中心最近的词作为这一类的代表词,从而获取基于用户标签的共性标签。具体地,提前加载自定义的金融词库,该词库符合金融行业的业务特点,同时包括同义词库和停用词库。金融词库包括:[银行承兑汇票,押品管理,征信信息,反洗钱,反欺诈,第三方存管,委托贷款,衍生品交易,个人结算,代销资管产品,代销保险,黄金租赁,企业年金,保理融资,进出口押汇,保函,信用证,出口贴现,供应链融资,承销业务,投行顾问,贵金属交易,个人贷款,买入返售,授信担保,柜面渠道,同业渠道,自主设备,手机银行,呼叫中心,短信服务,直销银行,网上商城,微信银行,外部门户,个人网银,客户权益,内控与审计,市场风险,交易管理,公共数据,理财资管,市场利率,周周存,基础数据平台,外部数据管理,大数据应用开发平台,数据湖,准实时……]。停用词库包括:[占,近,对,类,高,转,四,宝,与,出,比,或……]。进一步地,对用户标签进行预处理,将基于用户标签的全量金融数据资产作为初始语料,对每一个用户标签使用jieba分词,去除停用词,得到分词后的用户标签列表。分词后的用户标签列表包括:[信贷,风控,网贷,对私客户,交易,手机银行,交易,个人,基本信息,手机号码,零售,客户,第三方,社会,资产,联合贷,第三方平台,交易,自动提款机(automatedtellermachine,简称为atm),交易,交易,atm,交易,营销,风险,运营,营销,代发,交易,个人信息,资产,综合……]。为进一步降低用户标签的稀疏性,基于同义词库对分词后的列表进行同义词转换,并进行去重处理,从而得到清洗后的含有n个不重复词的用户标签列表。清洗后的用户标签列表包括:[信贷,风控,网贷,对私客户,交易,手机银行,个人信息,零售,第三方,资产,联合贷,atm,营销,运营,代发,综合,基金,托管,现金交易,欺诈,反洗钱……]。进一步地,以列表长度为向量维度,利用word2vec将每一个清洗后的用户标签转换成词向量。表4为将用户标签转换成词向量后的词向量展示表,如表4所示,将用户标签转换成词向量后展现形式如下:表4进一步地,初始化一个[2,num]的聚类个数列表,num=(不重复的用户标签个数n)/2。利用k-means算法,以列表中的聚类个数为必要参数,对用户标签词向量进行k-means聚类分析,并计算得到不同聚类个数情况下的轮廓系数。表5为不同聚类个数情况下的轮廓系数表,如表5所示,不同聚类个数情况下的轮廓系数如下:表5以轮廓系数最大的聚类个数值作为聚类的最优值k,获取最优值k=27。在本实施例中,聚类算法的目的是自动化选择聚类的k值。具体而言,在本实施例中,根据经验预设了k值范围,并利用k-means算法将全量语料进行测试。另外,为自动找到最合适的k值,也可采用minibatchk-means算法,随机抽取语料进行训练,即降低了运算成本,提升计算的性能,也可实现自动找到k值最优解的目标。在本实施例中,minibatchk-means算法的一般步骤是:1.用样本集中的一部分样本来做传统的k-means,这样可以避免样本量太大的计算难题,算法收敛速度会快很多;2.采用无放回的随机采样得到一个合适的批样本大小(batchsize);3.为了增加算法的准确性,一般会多跑几次算法,得到不同的随机采样的聚类簇,选择最优的聚类簇。进一步地,在最优值聚类基础下,计算每个聚类的质心(即前文中的“中心点”),找到每个聚类里离质心最近的词,作为该分类的代表词,从而获取每个聚类的名称,抽象出共性标签。表6为不同聚类的共性标签和聚类中心点表,如表6所示,不同聚类的共性标签和聚类中心点如下:表6从而获取每一类的共性标签。表7为不同聚类的共性标签和聚类中的用户标签列表,如表7所示,不同聚类的共性标签和聚类中的用户标签列表如下:表7进一步地,为自动化生成每个聚类的共性标签,在本实施例中,以离质心最近的词作为代表词。可替代的,也可在去重处理环节,统计不重复词的用户标签列表中,每个词的词频。在完成聚类后,以每个聚类中词频最大的词作为代表词,该方法也能较好地得到每个聚类的共性标签。进一步地,将每个金融数据资产上所有分词处理后的用户标签,按照与共性标签的对应关系,自动映射为相应的共性标签,所属分类允许一个或多个。表8为经过规范化后的用户标签示例表,如表8所示,规范化后,每个金融数据资产上的用户标签具体示例如下:1反欺诈模型网贷,反洗钱,对私客户,交易,营销2手机三要素验证输出结果个人信息,营销,对私客户,第三方3联合贷款客户标识资产,网贷,第三方,交易4近12月atm交易金额占比交易,营销,反洗钱5养老规划月平均工资详细信息营销,交易,个人信息,资产,特征表8在本实施例中,步骤s605可以包括:采用关联分析算法,获取基于标签的关联规则,自动对全量金融数据资产进行多维度分类。图8是根据本发明可选实施例的基于关联规则自动补充分类的流程图,如图8所示,该流程包括如下步骤:步骤s801,获取每个数据资产专业标签和规范化后的用户标签作为训练语料。步骤s802,利用数据挖掘算法(如fpgrowth)进行关联分析,得到标签之间的关联规则和置信度。在本实施例中,fpgrowth算法的一般步骤是:1.第一次扫描数据集,筛选满足最小支持度的项,按照从高到低排序,创建项头表;2.对于每一条数据,按照项头表的顺序进行排序,且过滤掉不满足最小支持度的项。构建频繁模式树(frequentpatterntree,简称为fptree)的时候,根节点记为null;3.第二次扫描数据集,把上一次得到的记录逐条插入到fptree中,节点存在就计数(count)加1,不存在就创建,同事更新项头表的链表;4.通过fptree挖局频繁项集,从项头表最后一项开始,向上遍历父节点,每一条路径上的节点,其count是最后一项节点的count,然后计算所有路径的count之和,由此计算支持度,筛选频繁项集,生成关联规则;5.继续向上遍历项头表,直到项头表遍历结束,输出关联规则。步骤s803,设置置信度阈值,保留超过阈值的基于标签的关联规则。步骤s804,依据关联规则,根据金融数据资产上的现有标签情况,进行基于标签的自动分类。进一步地,以每个金融数据资产上的专业标签,以及规范化后的用户标签为训练语料。表9为训练语料表,如表9所示,规范化后,训练语料展示如下:表9利用fpgrowth算法分析得到专业标签与用户标签之间的关联规则,设置阈值为1.5,置信度超过阈值则为有效关联规则。表10为专业标签与用户标签之间的置信度展示表,如表10所示,标签之间的置信度示例如下:表10得到当前所有标签的关联规则(当前标签:关联标签),示例如下:(特征平台:营销),(反洗钱:高安全等级),(九资:对私客户),(交易:资产),(理财资产配置平台,营销:个人信息,特征),(智能风控平台,反洗钱:高安全等级),(外部数据管理平台,低安全等级,个人信息:第三方,营销),(高安全等级,网贷,营销:反洗钱)……。进一步地,根据金融数据资产当前的专业+规范化用户标签,以及关联规则,对所有的金融数据资产进行标签的补充,从而完成基于标签的多维度自动分类。在本实施例中,步骤s606可以包括:根据资产采集和用户迭代打标,灵活地优化基于标签的分类体系,对金融数据资产进行灵活自动分类。进一步地,随着专业标签和用户标签的不断增加,实时对全量用户标签重新进行预处理和聚类,自动更新聚类个数和共性标签体系;重新对金融数据资产上的标签进行关联分析,自动更新关联规则,实现自动迭代更新基于标签的分类体系,实现金融数据资产的分类根据业务情况自动更新,使得分类贴合业务场景,并且分类准确性不断提升。综上所述,本实施例提供的基于标签的金融数据资产自动分类方法,能够通过多种方式,高效快速地将不同内容、不同格式的数据进行全量收集,从而获取大量无标签语料;根据金融数据资产的内容和规则特征,快速抽取金融数据中的多个规范信息作为“专业标签”,对数据资产进行基于专业标签的基础分类,具有自动、快速的优点;在数据全面和专业基础分类的基础上为用户提供查询和添加个性标签的服务,获取符合业务场景的语料,将分类体系的单一来源扩展为灵活的真实用户提供,具有高效、灵活的优点;通过无监督学习的方式,自动对海量金融数据资产进行分类,减少人力投入,降低对业务人员的要求,具有低成本、快速的优点;通过自定义的金融词库对语料进行预处理,提升分类的准确性;通过对专业标签和用户标签的关联分析,自动挖掘构建成体系的分类规则,对金融数据资产进行自动分类,具备多维度、可拓展性高、快速灵活的优点。本发明根据专业标签和用户标签的更新,对语料进行无监督学习,从而定期迭代更新,具有自动、灵活的优先,使得基于标签的金融数据资产贴合当前业务场景,支撑金融数据资产的检索和使用,使得数据资产最大化成为可能。具体而言,首先,本实施例将专业分类后金融数据资产开放给用户,并提供添加标签功能;将用户标签也纳入用于金融数据分类的语料中,从而获取最贴近业务场景的、较为规范的特征。其次,本实施例采用构建的金融词库,对用户标签进行分词、去停用词等预处理,从而获得规范的标签列表,提升语料的质量。再者,本实施例采用无监督学习的方式,自动获取聚类的最优解,随后基于k-means聚类算法对用户标签进行自动聚类,同时自动计算每个聚类的中心点,以距离中心点最近的标签作为该聚类的共性标签,对用户个性化的标签进行规范化处理,从而实现相对统一分类,减少人工干预。另外,本实施例将用户原始个性化标签映射为标准的共性标签,对每个资产上的专业标签和用户标签情况进行关联分析,挖掘标签之间的关联规则,实现对金融数据资产所属分类的自动扩充和自动分类。最后,本实施例基于标签的分类体系,根据业务变化实时迭代更新,不断优化,具有灵活性和准确性。本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。在一个示例性实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:s1,对金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签;s2,对特定用户展示所述金融数据资产,并接收所述特定用户对所述金融数据资产所添加的用户标签;s3,经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则,并基于所述标签关联规则对所述金融数据资产进行类别标注。在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:u盘、只读存储器(read-onlymemory,简称为rom)、随机存取存储器(randomaccessmemory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。在一个示例性实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:s1,对金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签;s2,对特定用户展示所述金融数据资产,并接收所述特定用户对所述金融数据资产所添加的用户标签;s3,经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则,并基于所述标签关联规则对所述金融数据资产进行类别标注。本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1