交易识别方法、装置、终端设备以及存储介质与流程

文档序号:32661535发布日期:2022-12-23 23:43阅读:28来源:国知局
交易识别方法、装置、终端设备以及存储介质与流程

1.本技术涉及金融监测技术领域,尤其涉及一种交易识别方法、装置、终端设备以及存储介质。


背景技术:

2.temenos系统是金融机构实施跨境交易反洗钱名单扫描的一套系统。通过temenos系统扫描名单,有利于及时发现和监控洗钱活动,遏制洗钱犯罪及其上游犯罪,消除洗钱行为给金融机构带来的潜在金融风险和法律风险。
3.但是,随着金融机构的跨境扫描业务量和名单数据不断增加,temenos名单过滤系统的人工审核量与日俱增,其年任务量超700万次,每人每日审核量达到上千次,有效性提升速度不及业务规模增长速度,其中95%以上的同名疑似匹配为假命中。
4.因此,有必要提出一种交易识别方案。


技术实现要素:

5.本技术的主要目的在于提供一种交易识别方法、装置、终端设备以及存储介质,旨在解决交易识别准确率低的问题,提高反洗钱的效率。
6.为实现上述目的,本技术提供一种交易识别方法,所述交易识别方法包括:
7.获取原始交易信息;
8.基于预设的结构化提取规则及非结构化提取规则,对所述原始交易信息进行特征提取,得到对应的结构化特征及非结构化特征;
9.将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果。
10.可选地,所述原始交易信息至少包括结构化数据、命中文本,所述基于预设的结构化提取规则及非结构化提取规则,对所述原始交易信息进行特征提取,得到对应的结构化特征及非结构化特征的步骤包括:
11.通过结构化解析所述结构化数据,得到所述结构化特征;
12.通过非结构化处理所述命中文本,得到所述非结构化特征。
13.可选地,所述结构化数据包括收汇款银行、收汇款国家、交易金额、实体类型、报文类型、命中域、币种中的一种或多种,所述通过结构化解析所述结构化数据,得到所述结构化特征的步骤包括:
14.将所述收汇款银行进行woe特征工程,得到银行特征;
15.将所述收汇款国家转换为连续评分,得到评分特征;
16.将所述交易金额进行卡方检验,得到检验特征;
17.将所述实体类型进行标准化,得到标准化特征;
18.将所述报文类型划进行划分,得到类型特征;
19.基于所述银行特征、评分特征、检验特征、标准化特征、类型特征、命中域及币种,
得到所述结构化特征。
20.可选地,所述通过非结构化处理所述命中文本,得到所述非结构化特征的步骤包括:
21.将所述命中文本输入预先创建的分类模型中进行分类,得到分类特征;
22.将所述命中文本输入预先创建的序列标注模型中进行序列标注,得到标注特征;
23.基于所述分类特征及所述标注特征,得到非结构化特征。
24.可选地,所述将所述命中文本输入预先创建的序列标注模型中进行序列标注,得到标注特征的步骤包括:
25.将所述命中文本输入预先创建的序列标注模型进行处理,具体处理过程包括:
26.基于第一规则筛选所述命中文本,得到命中句;
27.对所述命中句进行序列标注,得到序列标注实体长度;
28.计算所述命中文本的字符数,得到文本长度;
29.基于所述文本长度及所述序列标注实体长度,得到标注特征。
30.可选地,将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果的步骤之后还包括:
31.基于第二规则筛选预设的数据库,得到命中词;
32.通过滑动窗口统计所述命中词,得到统计结果;
33.比对所述统计结果与所述数据库中的历史结果,判断所述统计结果是否为真命中;
34.若是,则修改所述识别结果为真命中。
35.可选地,所述将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果的步骤之后还包括:
36.若所述识别结果为假,则通过流程自动化处理所述原始交易信息。
37.本技术实施例还提出一种交易识别装置,所述交易识别装置包括:
38.获取模块,用于获取原始交易信息;
39.处理模块,用于基于预设的结构化提取规则及非结构化提取规则,对所述原始交易信息进行特征提取,得到对应的结构化特征及非结构化特征;
40.识别模块,用于将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果。
41.本技术实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交易识别程序,所述交易识别程序被所述处理器执行时实现如上所述的交易识别方法的步骤。
42.本技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有交易识别程序,所述交易识别程序被处理器执行时实现如上所述的交易识别方法的步骤。
43.本技术实施例提出的交易识别方法、装置、终端设备以及存储介质,通过获取原始交易信息;基于预设的结构化提取规则及非结构化提取规则,对所述原始交易信息进行特征提取,得到对应的结构化特征及非结构化特征;将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果。通过提取原始报文的特征,并将特征输入到
预设的交易识别模型中进行识别,得到识别结果,可以解决交易识别准确率低的问题,提高反洗钱的效率。基于本技术方案,从真实世界中反洗钱名单匹配存在的假命中率高的问题出发,提出在交易报文下交易识别的机器学习方法,基于人为的判断行为训练模型,风险识别过程不易受外部因素干扰,能够适应互联网在线业务特点及满足海量交易监测需求,实现比人工更加准确的判断,可以有效提高交易识别结果的准确性。
附图说明
44.图1为本技术交易识别装置所属终端设备的功能模块示意图;
45.图2为本技术交易识别方法第一示例性实施例的流程示意图;
46.图3为本技术交易识别方法的应用流程示意图;
47.图4为本技术交易识别方法第二示例性实施例的流程示意图;
48.图5为图4中步骤s410的步骤细化流程示意图;
49.图6为图4中步骤s420的步骤细化流程示意图;
50.图7为本技术交易识别方法第三示例性实施例的流程示意图;
51.图8为本技术实施例的交易识别方法的流程图。
52.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
53.应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
54.本技术实施例的主要解决方案是:获取原始交易信息;基于预设的结构化提取规则及非结构化提取规则,对所述原始交易信息进行特征提取,得到对应的结构化特征及非结构化特征;将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果。通过提取原始报文的特征,并将特征输入到预设的交易识别模型中进行识别,得到识别结果,可以解决交易识别准确率低的问题,提高反洗钱的效率。基于本技术方案,从真实世界中反洗钱名单匹配存在的假命中率高的问题出发,提出在交易报文下交易识别的机器学习方法,基于人为的判断行为训练模型,风险识别过程不易受外部因素干扰,能够适应互联网在线业务特点及满足海量交易监测需求,实现比人工更加准确的判断,可以有效提高交易识别结果的准确性。
55.本技术实施例涉及的技术术语:
56.证据权重(woe)。woe的全称是“weight of evidence”。对某个离散型变量而言,具有不同的值,按照这些不同的值对不同标签数量进行分组就是分箱操作。是一种编码形式,woe是针对类别变量而言的,所以连续性变量需要提前做好分组。所以,woe主要就是体现组内的好坏占比与整体的差异化程度大小,woe越大,差异越大。
57.lightgbm。gbdt(gradient boosting decision tree)是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。gbdt不仅在工业界应用广泛,通常被用于多分类、点击率预测、搜索排序等任务;在各种数据挖掘竞赛中也是致命武器,据统计kaggle上的比赛有一半以上的冠军方案都是基于gbdt。而lightgbm(light gradient boosting machine)是一个实现gbdt算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消
耗、更好的准确率、支持分布式可以快速处理海量数据等优点。
58.卡方检验(chi-square test,x,2-test)。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
59.bert(bidirectionalencoder representations from transformer)。bert基于transformer的双向编码器表示,是一个预训练的语言表征模型,它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(mlm),以致能生成深度的双向语言表征。bert模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的representation,即:文本的语义表示,然后将文本的语义表示在特定nlp任务中作微调,最终应用于该nlp任务。bert模型训练文本语义表示的过程就好比我们在高中阶段学习语数英、物化生等各门基础学科,夯实基础知识;而模型在特定nlp任务中的参数微调就相当于我们在大学期间基于已有基础知识、针对所选专业作进一步强化,从而获得能够应用于实际场景的专业技能。
60.条件随机场算法(crf算法,conditional random field algorithm)。是一种数学算法,是2001年提出的,基于遵循马尔可夫性的概率图模型。
61.fasttext。fasttext是facebook开源的一个词向量与文本分类工具,在2016年开源,典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。fasttext结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句,还有使用子字(subword)信息,并通过隐藏表征在类别间共享信息。我们另外采用了一个softmax层级(利用了类别不均衡分布的优势)来加速运算过程。
62.tf-idf(term frequency

inverse document frequency)。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了tf-idf以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。
63.支持向量机(support vector machine,svm)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。
64.svm使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),是一个具有稀疏性和稳健性的分类器。svm可以通过核方法(kernel method)进行非线性分类,是常见的核学习(kernel learning)方法之一。
65.本技术实施例考虑到,随着金融机构的跨境扫描业务量和名单数据不断增加,temenos名单过滤系统的人工审核量与日俱增,年任务量超700万次,每人每日审核量达到上千次,有效性提升速度不及业务规模增长速度,其中95%以上的同名疑似匹配为假命中。
66.因此,本技术实施例方案,从真实世界中反洗钱名单匹配存在的假命中率高的问题出发,提出在交易报文下交易识别的机器学习方法,基于人为的判断行为训练模型,风险识别过程不易受外部因素干扰,能够适应互联网在线业务特点及满足海量交易监测需求,实现比人工更加准确的判断,可以有效提高交易识别结果的准确性。
67.具体地,参照图1,图1为本技术交易识别装置所属终端设备的功能模块示意图。该交易识别装置可以为独立于终端设备的、能够进行特征提取、网络模型训练的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等。
68.在本实施例中,该交易识别装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
69.存储器130中存储有操作系统以及交易识别程序,交易识别装置可以将获取的原始交易信息,基于预设的结构化提取规则及非结构化提取规则,对原始交易信息进行特征提取,得到的对应的结构化特征及非结构化特征,将结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到的识别结果等信息存储于该存储器130中;输出模块110可为显示屏等。通信模块140可以包括wifi模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
70.其中,存储器130中的交易识别程序被处理器执行时实现以下步骤:
71.获取原始交易信息;
72.基于预设的结构化提取规则及非结构化提取规则,对所述原始交易信息进行特征提取,得到对应的结构化特征及非结构化特征;
73.将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果。
74.进一步地,存储器130中的交易识别程序被处理器执行时还实现以下步骤:
75.通过结构化解析所述结构化数据,得到所述结构化特征;
76.通过非结构化处理所述命中文本,得到所述非结构化特征。
77.进一步地,存储器130中的交易识别程序被处理器执行时还实现以下步骤:
78.将所述收汇款银行进行woe特征工程,得到银行特征;
79.将所述收汇款国家转换为连续评分,得到评分特征;
80.将所述交易金额进行卡方检验,得到检验特征;
81.将所述实体类型进行标准化,得到标准化特征;
82.将所述报文类型划进行划分,得到类型特征;
83.基于所述银行特征、评分特征、检验特征、标准化特征、类型特征、命中域及币种,得到所述结构化特征。
84.进一步地,存储器130中的交易识别程序被处理器执行时还实现以下步骤:
85.将所述命中文本输入预先创建的分类模型中进行分类,得到分类特征;
86.将所述命中文本输入预先创建的序列标注模型中进行序列标注,得到标注特征;
87.基于所述分类特征及所述标注特征,得到非结构化特征。
88.进一步地,存储器130中的交易识别程序被处理器执行时还实现以下步骤:
89.将所述命中文本输入预先创建的序列标注模型进行处理,具体处理过程包括:
90.基于第一规则筛选所述命中文本,得到命中句;
91.对所述命中句进行序列标注,得到序列标注实体长度;
92.计算所述命中文本的字符数,得到文本长度;
93.基于所述文本长度及所述序列标注实体长度,得到标注特征。
94.进一步地,存储器130中的交易识别程序被处理器执行时还实现以下步骤:
95.基于第二规则筛选预设的数据库,得到命中词;
96.通过滑动窗口统计所述命中词,得到统计结果;
97.比对所述统计结果与所述数据库中的历史结果,判断所述统计结果是否为真命中;
98.若是,则修改所述识别结果为真命中。
99.进一步地,存储器130中的交易识别程序被处理器执行时还实现以下步骤:
100.若所述识别结果为假,则通过流程自动化处理所述原始交易信息。
101.本实施例通过上述方案,具体通过获取原始交易信息;基于预设的结构化提取规则及非结构化提取规则,对所述原始交易信息进行特征提取,得到对应的结构化特征及非结构化特征;将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果。通过提取原始报文的特征,并将特征输入到预设的交易识别模型中进行识别,得到识别结果,可以解决交易识别准确率低的问题,提高反洗钱的效率。基于本技术方案,从真实世界中反洗钱名单匹配存在的假命中率高的问题出发,设计了一套交易识别系统,并在该系统上验证了本技术提出的交易识别方法的有效性,最后经过本技术方法识别方法识别原始报文信息的准确率得到了明显提升。
102.基于上述终端设备架构但不限于上述架构,提出本技术方法实施例。
103.参照图2,图2为本技术交易识别方法第一示例性实施例的流程示意图。所述交易识别方法包括:
104.步骤s210,获取原始交易信息;
105.具体地,temenos系统是金融机构实施跨境交易反洗钱名单扫描的一套系统。通过temenos系统扫描名单,有利于及时发现和监控洗钱活动,追查并没收犯罪所得,遏制洗钱犯罪及其上游犯罪,维护经济安全和社会稳定;消除洗钱行为给金融机构带来的潜在金融风险和法律风险,维护金融安全;发现和切断资助犯罪行为的资金来源和渠道,防范新的犯罪行为;保护上游犯罪受害人的财产权,维护法律尊严和社会正义。但是,随着金融机构的跨境扫描业务量和名单数据不断增加,temenos名单过滤系统的人工审核量与日俱增,年任务量超700万次,每人每日审核量达到上千次,有效性提升速度不及业务规模增长速度,其中95%以上的同名疑似匹配为假命中。在此背景下,提出在交易报文下交易识别的机器学习方法。
106.需要说明的是,本文以temenos系统中获取原始交易信息为优选,以非中文的swift_in报文及guojie报文作为原始交易信息为优选,在其他实施例中,也可以是其他可以获取到原始交易信息的系统及其他类型的报文,本实施例对此不作限定。
107.步骤s220,基于预设的结构化提取规则及非结构化提取规则,对所述原始交易信息进行特征提取,得到对应的结构化特征及非结构化特征;
108.具体地,基于预设的处理规则处理原始交易信息,得到对应的特征数据,其中,预
设的处理规则以结构化解析及非结构化解析作为优选。通过结构化解析所述结构化数据,得到结构化特征;通过非结构化处理所述命中文本,得到非结构化特征。通过提取temenos系统中获取的命中信息、报文、关联实体的特征数据,可以减少数据维度,提取或整理出有效的特征供后续输入lightgbm模型使用。
109.步骤s230,将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果。
110.具体地,交易识别模型用于对输入的特征进行处理,从而对交易报文进行识别,得到识别结果。本技术实施例以lightgbm模型为预设的交易识别模型为优选,在其他实施例,也可以是其他可以处理特征、识别交易信息的模型。
111.例如,作为一种实现方案,将结构化特征及非结构化特征数据输入到lightgbm模型,得到的识别结果仅分为真命中以及假命中两种情况。作为另一种实现方案,将结构化特征及非结构化特征数据输入到lightgbm模型,得到该原始交易信息为真命中的第一结果,然后通过滑动窗口算法计算历史命中信息中的短语的真命中的第二结果,然后在线的识别、比对数据库中的历史结果,针对第二结果对第一结果进行修正,最终得到该原始交易信息是否为真名中的真实结果。其中,上述数据库中的历史结果为人工处理temenos系统的名单匹配的结果。
112.需要说明的是,本技术实施例极注重真命中的召回率,无法确定为真名中的原始交易信息都不考虑,并在交易识别系统运行中不断收集名单团队的反馈,增加后处理规则和优化模型来逐步完善识别准确率。
113.本实施例通过上述方案,具体通过获取原始交易信息;基于预设的结构化提取规则及非结构化提取规则,对所述原始交易信息进行特征提取,得到对应的结构化特征及非结构化特征;将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果。通过提取原始报文的特征,并将特征输入到预设的交易识别模型中进行识别,得到识别结果,可以解决交易识别准确率低的问题,提高反洗钱的效率。
114.参照图3,图3为本技术交易识别方法的应用流程示意图。具体应用流程如下:
115.首先,通过tms(temenos)系统获取命中信息、报文、关联实体为原始交易信息,并分为结构化数据及报文数据,其中,结构化数据包括收汇款银行、收汇款国家、交易金额、实体类型、报文类型、命中域、币种;
116.然后,将收汇款银行进行woe特征工程,得到银行特征;通过aml country score将收汇款国家转换为连续评分,得到评分特征;将交易金额进行卡方检验,得到检验特征;将实体类型进行标准化,得到标准化特征;将报文类型划进行划分,得到类型特征;将命中文本输入预先创建的fasttext和tf-idf+svm分类模型中进行分类,得到分类特征;将命中文本输入预先创建的ner(bert+crf)和textcnn序列标注模型中进行序列标注,得到标注特征;
117.然后,将银行特征、评分特征、检验特征、标准化特征、类型特征、分类特征、标注特征输入到lightgbm模型中判断真假命中,得到识别结果;
118.然后,经过后处理规则的补充对识别结果进行修正,若识别结果为真名中,则经过两次人工审核;若识别结果为加命中,则经过rpa处理之后再进行一次人工审核;
119.最后,将识别结果存储于tms(temenos)反洗钱系统中,作为历史命中结果,为交易
识别模型输出的识别结果提供参照,并增加可解释性的结论。
120.参照图4,图4为本技术交易识别方法第二示例性实施例的流程示意图。基于上述图2所示的实施例,原始交易信息至少包括结构化数据、命中文本,步骤s220,所述基于预设的结构化提取规则及非结构化提取规则,对所述原始交易信息进行特征提取,得到对应的结构化特征及非结构化特征的步骤包括:
121.步骤s410,通过结构化解析所述结构化数据,得到所述结构化特征;
122.本实施例以步骤s410在步骤s420之前实施,在其他实施例中,步骤s410也可以在步骤s420之后实施。
123.具体地,通过结构化解析结构化数据,得到对应的结构化特征。其中,结构化数据至少包括但不限于从temenos系统中获取的收款及汇款的银行代码、收款及汇款国家代码、交易金额、实体类型、报文类型、命中域、币种。
124.例如,对收款及汇款的银行代码做woe特征工程,得到银行特征;通过aml country score对收款及汇款国家代码转换为连续评分,得到评分特征;对交易金额卡方检验,得到检验特征;对实体类型做标准化,得到标准化特征;对报文类型划进行划分,得到类型特征,命中域及币种不做处理。
125.步骤s420,通过非结构化处理所述命中文本,得到所述非结构化特征;
126.具体地,通过非结构化处理命中文本,得到对应的非结构化特征。
127.例如,将命中文本输入预先创建的分类模型中进行分类,得到分类特征;将命中文本输入预先创建的序列标注模型中进行序列标注,得到标注特征;基于所述分类特征及所述标注特征,得到非结构化特征。
128.本实施例通过上述方案,具体通过通过结构化解析所述结构化数据,得到所述结构化特征;通过非结构化处理所述命中文本,得到所述非结构化特征。通过将原始交易信息的输入的数据维度减少,并将原始的特征进行重新组合,以便于lightgbm模型使用,从而实现比人工更加准确的判断。
129.参照图5,图5为图4中步骤s410的步骤细化流程示意图。基于上述图4所示的实施例,结构化数据包括收汇款银行、收汇款国家、交易金额、实体类型、报文类型、命中域、币种中的一种或多种,步骤s410,通过结构化解析所述结构化数据,得到所述结构化特征的步骤包括:
130.步骤s510,将所述收汇款银行进行woe特征工程,得到银行特征;
131.需要说明的是,步骤s510至步骤s550在步骤s560之前实施,本实施例对步骤s510至步骤s550的实施顺序不做限定。
132.具体地,woe是一种有监督的编码方式,将预测的收款及汇款银行代码集中度的属性作为编码的数值,将特征的值规范到相近的尺度上,得到收款银行代码的特征和汇款银行代码的特征,并作为银行特征。例如,取任一银行的前6位银行代码做woe特征工程,样例:bkch(银行代码)、cn(国家代码)、bj(地区代码)、300(分行代码)。
133.步骤s520,将所述收汇款国家转换为连续评分,得到评分特征;
134.具体地,通过预先存储或查询得到收款国家及汇款国家评分,并将收款国家及汇款国家评分转化为连续评分,其中,收款国家及汇款国家评分可以是信用评分、风险评分、可靠度评分等,本技术实施例对此不做限定。
135.例如,通过aml country score得到收款国家及汇款国家评分,并将收款国家及汇款国家评分转化为连续评分。
136.步骤s530,将所述交易金额进行卡方检验,得到检验特征;
137.具体地,将交易金额进行卡方检验特征工程,得到检验特征。卡方检验就是统计原始交易信息的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
138.步骤s540,将所述实体类型进行标准化,得到标准化特征;
139.具体地,将实体类型进行统一标准化格式,得到标准化特征。例如,将姓名类型进行统一标准化格式。
140.步骤s550,将所述报文类型划进行划分,得到类型特征;
141.具体地,通过用户输入逻辑规则,将is报文划分为汇款类、信用证类、其他类。
142.步骤s560,基于所述银行特征、评分特征、检验特征、标准化特征、类型特征、命中域及币种,得到所述结构化特征。
143.具体地,基于银行特征、评分特征、检验特征、标准化特征、类型特征、命中域及币种,得到所述结构化特征。其中,命中域及币种不做处理。
144.本实施例通过上述方案,具体通过将所述收汇款银行进行woe特征工程,得到银行特征;将所述收汇款国家转换为连续评分,得到评分特征;将所述交易金额进行卡方检验,得到检验特征;将所述实体类型进行标准化,得到标准化特征;将所述报文类型划进行划分,得到类型特征;基于所述银行特征、评分特征、检验特征、标准化特征、类型特征、命中域及币种,得到所述结构化特征。通过将原始交易信息的输入的数据维度减少,并将原始的特征进行重新组合,以便于lightgbm模型使用,从而实现比人工更加准确的判断。
145.参照图6,图6为图4中步骤s420的步骤细化流程示意图。基于上述图4所示的实施例,步骤s420,通过非结构化处理所述命中文本,得到所述非结构化特征的步骤包括:
146.步骤s610,将所述命中文本输入预先创建的分类模型中进行分类,得到分类特征;
147.本实施例以步骤s610在步骤s620之前实施,在其他实施例中,步骤s610也可以在步骤s620与步骤s630之间实施。
148.具体地,分类模型可以是softmax、fasttext、tf-idf、svm等可以对命中文本进行分类的分类模型。本实施例以fasttext和tf-idf+svm作为优选。其中,创建并训练分类模型的步骤可以包括:
149.获取训练用的第一数据集;
150.将数据集输入fasttext和tf-idf+svm模型,得到第一训练结果;
151.基于损失函数计算第一训练结果,得到第一修正参数;
152.结合第一修正函数对fasttext和tf-idf+svm模型进行迭代训练,并返回步骤,将第一数据集输入fasttext和tf-idf+svm模型;
153.按照预先设定好的循环次数以此循环,直到模型收敛,得到训练后的fasttext和tf-idf+svm模型。
154.例如,将命中文本输入fasttext和tf-idf+svm模型中进行分类,得到至少但不限于如下四类数据:
155.人名类:temenos系统中所存储的人名黑名单实体;真命中类型的报文;维基网站所存储的名字大全;董监高的名字转拼音;
156.地名类:is报文addr字段;
157.公司名类:temenos系统中所存储的公司黑名单实体;维基网站所存储的公司名大全;
158.其他类:报文未命中部分且不带有人名、地名、公司名特征词。
159.步骤s620,将所述命中文本输入预先创建的序列标注模型中进行序列标注,得到标注特征;
160.具体地,具体地,序列标注模型可以是rnn、lstm、bilstm、ner(bert+crf)、textcnn等可以对命中文本进行序列标注的序列标注模型。本实施例以ner(bert+crf)和textcnn作为优选。将命中文本输入ner(bert+crf)和textcnn模型中进行序列标注,得到标注特征。其中,创建并训练序列标注模型的步骤可以包括:
161.获取训练用的第二数据集;
162.将数据集输入ner(bert+crf)和textcnn模型,得到第二训练结果;
163.基于损失函数计算第二训练结果,得到第二修正参数;
164.结合第二修正函数对ner(bert+crf)和textcnn模型进行迭代训练,并返回步骤,将数据集输入ner(bert+crf)和textcnn模型;
165.按照预先设定好的循环次数以此循环,直到模型收敛,得到训练后的ner(bert+crf)和textcnn模型。
166.步骤s630,基于所述分类特征及所述标注特征,得到非结构化特征。
167.具体地,基于人名特征、公司名特征、地名特征、其他特征及标注特征,得到非结构化特征。
168.进一步地,步骤s620,将所述命中文本输入预先创建的序列标注模型中进行序列标注,得到标注特征的步骤包括:
169.将所述命中文本输入预先创建的序列标注模型进行处理,具体处理过程包括:
170.步骤s621,基于第一规则筛选所述命中文本,得到命中句;
171.具体地,通过用户根据实际情况设定第一规则,基于第一规则筛选命中文本,得到命中句。例如,第一规则为筛选出命中文本中长度超过7个单词的命中句。
172.步骤s622,对所述命中句进行序列标注,得到序列标注实体长度;
173.具体地,将长度超过7个单词的命中句进行序列标注,得到序列标注实体长度。
174.步骤s623,计算所述命中文本的字符数,得到文本长度;
175.具体地,计算命中文本的字符数,得到命中文本长度,以供计算标注特征。
176.步骤s624,基于所述文本长度及所述序列标注实体长度,得到标注特征。
177.具体地,通过计算命中文本长度除以序列标注实体长度,得到max(1,命中文本长度/序列标注实体长度),并作为标注特征输入lightgbm模型。
178.本实施例通过上述方案,具体通过将所述命中文本输入预先创建的分类模型中进行分类,得到分类特征;基于第一规则筛选所述命中文本,得到命中句;对所述命中句进行序列标注,得到序列标注实体长度;计算所述命中文本的字符数,得到文本长度;基于所述文本长度及所述序列标注实体长度,得到标注特征;基于所述分类特征及所述标注特征,得
到非结构化特征。通过将原始交易信息的输入的数据维度减少,并将原始的特征进行重新组合,以便于lightgbm模型使用,从而释放人工审核的工作压力,为当前反洗钱名单赋能减负。
179.参照图7,图7为本技术交易识别方法第三示例性实施例的流程示意图。基于上述图4所示的实施例,步骤s230,将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果的步骤之后还包括:
180.步骤s710,基于第二规则筛选预设的数据库,得到命中词;
181.具体地,通过用户根据实际情况设定第二规则,基于第二规则筛选数据库中的短语,得到命中词。其中,上述数据库以人工处理temenos系统得到的历史命中文本为优选。例如,第二规则为统计人工处理temenos系统得到的历史命中文本中,前后窗口长度为3的短语。
182.步骤s720,通过滑动窗口统计所述命中词,得到统计结果;
183.具体地,统计历史命中文本前后窗口长度为3的短语真假命中的概率,得到统计结果。
184.步骤s730,比对所述统计结果与所述数据库中的历史结果,判断所述统计结果是否为真命中;
185.具体地,人工智能作为类人类智能,在解决其法律责任问题时,都必须对其行为进行解释,探讨人工智能的法律责任问题,应该基于人工智能行为的可解释性的全新路径来推进。人工智能的可解释性,亦即解释人工智能如何在大数据的基础上进行算法决策。因此,在线的识别、并比对历史命中后的输出,作为本技术的解释依据,为lightgbmm模型的识别结果添加可解释的结论,做到尽职免责。
186.步骤s740,若是,则修改所述识别结果为真命中。
187.具体地,因此,若是,则修改识别结果为真命中,并识别结果递交给人工进行审核;若否,则不修改识别结果,并在解释上附带说明假命中的次数。
188.进一步地,步骤s230,将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果的步骤之后还包括:
189.步骤s750,若所述识别结果为假,则通过流程自动化处理所述原始交易信息。
190.具体地,若识别结果为假,则通过机器人以用户在终端设备的手动操作方式处理原始交易信息。通过机器人流程自动化,可以提高运营效率:节省时间并释放员工的能力;增强识别的准确性,可审计性,监视,跟踪和控制业务流程执行。
191.参照图8,图8为本技术实施例的交易识别方法的流程图。如图8所示,首先,从temenos系统中获取原始交易信息,然后,ai智能分析提取特征数据;然后,将特征数据输入light模型,得到识别结果;最后,若识别结果为真名中,则将识别结果递交到人工,进行一次人工审核;若识别结果为假命中,则将swift_in类型的报文进行两次rpa处理,guojie类型的报文分别进行一次rpa处理。
192.本实施例通过上述方案,具体通过获取原始交易信息;基于预设的结构化提取规则及非结构化提取规则,对所述原始交易信息进行特征提取,得到对应的结构化特征及非结构化特征;将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果;基于第二规则筛选预设的数据库,得到命中词;通过滑动窗口统计所述命中词,
得到统计结果;比对所述统计结果与所述数据库中的历史结果,判断所述统计结果是否为真命中;若是,则修改所述识别结果为真命中;若所述识别结果为假,则通过流程自动化处理所述原始交易信息。通过统计历史命中文本命中概率,判断时参照历史命中情况,作为真假命中识别解释输出,为lightgbm模型的输出结果增加了可解释性。
193.此外,本技术实施例还提出一种交易识别装置,所述交易识别装置包括:
194.获取模块,用于获取原始交易信息;
195.处理模块,用于基于预设的结构化提取规则及非结构化提取规则,对所述原始交易信息进行特征提取,得到对应的结构化特征及非结构化特征;
196.识别模块,用于将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果。
197.本实施例实现交易识别的原理及实施过程,请参照上述各实施例,在此不再赘述。
198.此外,本技术实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交易识别程序,所述交易识别程序被所述处理器执行时实现如上所述的交易识别方法的步骤。
199.由于本交易识别程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
200.此外,本技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有交易识别程序,所述交易识别程序被处理器执行时实现如上所述的交易识别方法的步骤。
201.由于本交易识别程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
202.相比现有技术,本技术实施例提出的交易识别方法、装置、终端设备以及存储介质,通过获取原始交易信息;基于预设的结构化提取规则及非结构化提取规则,对所述原始交易信息进行特征提取,得到对应的结构化特征及非结构化特征;将所述结构化特征及非结构化特征输入预设的交易识别模型进行识别,得到识别结果。通过提取原始报文的特征,并将特征输入到预设的交易识别模型中进行识别,得到识别结果,可以解决交易识别准确率低的问题,提高反洗钱的效率。基于本技术方案,从真实世界中反洗钱名单匹配存在的假命中率高的问题出发,提出在交易报文下交易识别的机器学习方法,基于人为的判断行为训练模型,风险识别过程不易受外部因素干扰,能够适应互联网在线业务特点及满足海量交易监测需求,实现比人工更加准确的判断,可以有效提高交易识别结果的准确性。
203.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
204.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
205.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方
法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本技术每个实施例的方法。
206.以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1