一种名单筛查方法及装置与流程

文档序号：17696194发布日期：2019-05-17 21:32阅读：1895来源：国知局

本申请涉及机器学习技术领域，尤其涉及一种基于机器学习的名单筛查方法及装置。

背景技术：

近年来，国内外反洗钱与反恐融资形势日趋严峻，中国人民银行逐年提高反洗钱与反恐怖融资监管标准，并在《金融机构报告涉嫌恐怖融资的可疑交易管理办法》、《金融机构大额交易与可疑交易管理办法》明确要求建立“事前、事中、事后”全流程、全业务场景名单监控机制及系统工具。

与此同时，我国对反洗钱处罚力度也在不断加强。为满足监管要求，进一步加强银行等金融机构反洗钱工作的有效性和合规性。银行需要在本阶段已经满足“事后”名单监控功能的基础上，满足“事前、事中”业务流程中建立符合监管要求的名单监控系统工具与运营管理机制。名单监控功能是满足反洗钱、反恐怖融资、打击毒品犯罪等的重要组成部分。因此，在强监管、重处罚的大背景下，监管体系的建设会越来越趋于严格，各银行名单系统与名单监控机制建设工作势在必行。

根据公司的市场调查显示，除了国有控股商业银行和部分股份制银行有自己的名单筛查系统外，很多城商行、农联社都没有构建名单筛选系统，他们的一般做法是把从数据供应商购买的数据和人民银行下发的数据，手工导入的数据库。需要进行名单筛查的时候，直接通过sql语句从数据库中进行匹配查询。某些搭建了名单筛查系统的银行，抱着应付监管的态度，做出来的系统比较简陋，一般只有一个查询页面，几个输入框，一个查询按钮，通过全匹配的方式去数据库中查询是否存在于某名单。当然也有一些大的银行同时购买名单数据和系统，采用私有部署的方式部署在银行内部，通过人工筛查或者系统api对接方式对外提供筛选服务。

通过上文中的市场调研情况，分析一下目前金融行业在名单监控筛查方面可能存在的问题。首先某些城商行由于规模小，资金不足，加上对反洗钱反融资重视度不够，没有搭建名单筛选系统，客户来银行进行开户、转账等交易时，不能实时对其尽到客户身份识别的义务，而是通过事后核查的方式来应对监管要求，这种方式操作起来很不方便，而且人为参与程度很高，人毕竟不是机器，总有操作失误的时候，隐患很大。为了避免这种人为失误，同时减少业务人员的工作量，某些银行自己内部或者聘请外包人员搭建一套简单的名单筛查系统，基本原理是对sql直查进行简单的包装，通过输入关键字去关系型数据库进行全匹配查询，假如输入关键字有误可能会导致查询不到结果，而且这种系统比较简陋，使用起来对用户很不用好，众所周知，银行业务其实是很复杂的，比如柜面交易、pos机、网银、短信银行，再比如国内、国际，借记卡、信用卡等等，而且制裁名单也有很多种，比如制裁名单、执法名单、负面媒体、pep等。不同的业务场景应该对应不同的制裁名单，名单类型，进行可定制化操作。目前市场上已经存在提供名单数据及系统的供应商，几乎都是国外供应商，国内比较大的银行基本上都已经采购了名单筛查系统，也对这些系统进行了一下调研，首先这些国外供应商系统，价格都比较昂贵，系统出现问题，由于不是本土化服务，沟通解决问题的成本也很高。其次这些系统其实已经存在很多年了，优势是系统比较问题，劣势是这些系统其实有些过时了。通过调研发现，系统匹配算法都是通过穷举规则的方式实现的，存在漏报或者误报的问题。这几年人工智能得到了突飞猛进的发展，很多过去解决不了的问题现在都解决了，很多问题有了更好的解决方法，如何把人工智能用在名单筛查系统上是需要解决的问题。

申请内容

为解决上述技术问题，本申请实施例提供了一种名单筛查方法及装置。

本申请实施例提供的名单筛查方法，包括：

输入检索信息；

所述检索信息未包含证件号码时，利用solr获取所述检索信息对应的至少一条查询结果；

使用名单筛查模型计算所述至少一条查询结果与所述检索信息的相关度，并按照相关度对所述至少一条查询结果进行排序；

从所述至少一条查询结中过滤掉相关度小于等于阈值的查询结果。

本申请实施例中，所述方法还包括：

所述检索信息包含证件号码时，基于第一数据源对所述证件号码进行精确匹配；

如果所述证件号码与所述第一数据源中的目标证件号码精确匹配，则确定所述检索信息精确命中所述目标证件号码对应的对象；

如果所述证件号码与所述第一数据源中的目标证件号码未精确匹配，则对所述检索信息中的名称进行匹配。

本申请实施例中，所述方法还包括：

所述检索信息未包含证件号码时，对所述检索信息中的名称进行匹配。

本申请实施例中，所述对所述检索信息中的名称进行匹配，包括：

如果所述名称为中文，则基于第二数据源对所述名称进行全内容匹配；

如果所述名称不是中文，则利用solr获取所述检索信息对应的至少一条查询结果。

本申请实施例中，所述使用名单筛查模型计算所述至少一条查询结果与所述检索信息的相关度，包括：

计算所述检索信息以及所述至少一条查询结果的特征数据；

将所述特征数据输入到名单筛查模型进行处理，得到所述至少一条查询结果与所述检索信息的相关度。

本申请实施例提供的名单筛查装置，包括：

输入单元，用于输入检索信息；

第一筛查单元，用于所述检索信息未包含证件号码时，利用solr获取所述检索信息对应的至少一条查询结果；

第二筛查单元，用于使用名单筛查模型计算所述至少一条查询结果与所述检索信息的相关度，并按照相关度对所述至少一条查询结果进行排序；使用名单筛查模型计算所述至少一条查询结果与所述检索信息的相关度，并按照相关度对所述至少一条查询结果进行排序；

本申请实施例中，所述装置还包括：

第一匹配单元，用于所述检索信息包含证件号码时，基于第一数据源对所述证件号码进行精确匹配；如果所述证件号码与所述第一数据源中的目标证件号码精确匹配，则确定所述检索信息精确命中所述目标证件号码对应的对象；

第二匹配单元，用于如果所述证件号码与所述第一数据源中的目标证件号码未精确匹配，则对所述检索信息中的名称进行匹配。

本申请实施例中，所述装置还包括：

第二匹配单元，用于所述检索信息未包含证件号码时，对所述检索信息中的名称进行匹配。

本申请实施例中，所述第二匹配单元，用于如果所述名称为中文，则基于第二数据源对所述名称进行全内容匹配；

所述第一筛查单元，用于如果所述名称不是中文，则利用solr获取所述检索信息对应的至少一条查询结果。

本申请实施例中，所述第二筛查单元，包括：

特征提取子单元，用于计算所述检索信息以及所述至少一条查询结果的特征数据；

相关度计算子单元，用于将所述特征数据输入到名单筛查模型进行处理，得到所述至少一条查询结果与所述检索信息的相关度。

本申请实施例的技术方案中，1、不再使用关系型数据库作为检索数据库，引入solr高性能搜索引擎提升查询效率。2、使用solr进行初筛，尽可能多的返回相关数据，保证不会漏报。3、针对中英文输入分别处理，使系统返回结果更符合人们的预期。4、提供多种部署方式：saas，api接入，私有化部署。5、使用机器学习排序算法对查询结果进行匹配，不仅能够降低误报率，而且随着时间推移，通过模型的增强学习，使排序算法更智能。6、采用多种数据格式适配器，能够更加快速、高效的接入新的数据源。7、引入案件管理，嵌入企业的合规审计流程，响应企业内部管理的合规审计、监管机构对企业的合规审计要求。8、为了保证不漏掉结果数据，采用独特的系统部署方式，降低网络io，提高单次请求响应时间，同时间接提高系统并发请求数量。

附图说明

图1为本申请实施例提供的系统逻辑架构图；

图2为本申请实施例提供的多种数据格式适配的示意图；

图3为本申请实施例提供的数据处理过程的示意图；

图4为本申请实施例提供的数据源及分类示意图；

图5为本申请实施例提供的析反洗钱制裁名单系统产品功能的示意图；

图6为本申请实施例提供的应用架构图；

图7为本申请实施例提供的系统技术架构图；

图8为本申请实施例提供的览析反洗钱制裁名单系统部署架构图；

图9为本申请实施例提供的使用机器学习排序算法应用在名单筛查领域的示意图；

图10为本申请实施例提供的名单筛查方法的流程示意图；

图11为本申请实施例提供的另一种名单筛查方法的流程示意图；

图12为本申请实施例提供的名单筛查装置的结构组成示意图。

具体实施方式

随着人工智能的发展和普及推广，越来越多的行业、企业开始考虑使用人工智能、机器学习等技术解决问题。机器学习(machinelearning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

览析反洗钱制裁名单系统中的核心功能名单筛查就是人工智能的一种尝试。传统的筛查系统通过关系型数据库及规则匹配算法返回筛查结果，可能会出现诸如查询效率低、返回结果准确度低、返回结果数量过多或者过少，返回结果排序不正确，没有返回期待的数据等问题。通过研究发现，针对这种情况，可以使用机器学习解决由于使用规则导致的查询慢、准确率低等问题。

针对以上问题，通过统计归纳总结规则的内部逻辑，提取出相应的特征。然后根据实际业务场景标注一批样本数据作为训练数据，经过参数调优、特征工程、交叉验证等训练出算法模型。本申请的系统使用solr作为数据检索服务器，相对于传统数据库使用like匹配查询数据，solr会尽可能多的返回相关数据，尽可能保证目标数据不遗漏。由于返回的数据量比较大，在高并发环境下，数据的网络传输有很大可能成为系统的瓶颈。为了保证系统的性能，本申请设计了一套特殊的系统架构解决网络传输问题。

为了能够更加详尽地了解本申请的特点与技术内容，下面结合附图对本申请的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请。

图1为本申请实施例提供的系统逻辑架构图，包括：数据爬虫系统、览析反洗钱制裁名单系统。

数据爬虫系统

数据爬虫系统包括数据抓取、解析、归一化、增量更新、数据推送等。

1、数据抓取：本系统数据来源很多，包括世界上多个国家和地区的权威机构发布的制裁数据，参照图4，图4为数据源及分类示意图。由于数据来源很多，分布在不同的国家及地区，使用国内网络下载某些数据(比如美国bis)时，下载速度很慢或者不能下载，这时候需要通过代理服务器进行下载。

项目数据源下载方式如下：

(1)使用国内网络下载大部分数据，然后保存到数据服务器；

(2)直接在某香港节点服务器提前下载国内不能访问的数据，然后保存到中转服务器，使用国内网络下载中转服务器数据，然后保存到数据服务器。

2、数据解析：由于数据来源很多，每个数据源的数据格式也不相同，包括txt，json，csv，execl，html等。针对不同的数据格式需要特定的解析程序处理数据，然后把数据解析成结构化数据存储到各自对应的过程表中。

3、归一化：同时每个数据源中的数据包含的内容格式也不一样，系统想要方便的使用数据，就需要对所有数据源进行数据适配，使用统一模型存储数据。多种数据格式适配如图2所示。

4、增量更新：定时更新程序会定时从各自数据源网站下载数据，同时和现有数据进行对比，找出其新增、修改、删除的数据，形成数据更新日志。本申请会保留所有的历史数据，用来应对人行的监管要求。

5、数据推送

(1)数据每天更新两次，0点、12点各一次。

(2)每次更新会统计并记录更新日志，并生成增量更新文件，上传到ftp服务器。

(3)每个月1号生成一次全量数据文件，后面每天生成增量文件，方便数据同步及推送使用。

(4)ftp服务器是数据的唯一出口，环境云、私有部署、测试环境每天从ftp服务器同步数据。

参照图3，图3为数据处理过程的示意图，首先是数据抓取、其次是数据解析、最后是数据归一化。

览析反洗钱制裁名单系统

览析反洗钱制裁名单系统是基于自然语言处理、机器学习技术。为反洗钱合规业务提供全面、高质量名单数据和名单筛查应用系统。名单数据不仅全面覆盖人行反洗钱中心对名单筛查要求并降低被国外制裁机构处罚风险。筛查应用系统相比较传统基于规则的系统，名单筛查准确率更高，误报率更低，节约人工复核成本。

参照图5，览析反洗钱制裁名单系统产品功能如下：

1、名单筛查：基于人工智能的筛查算法。

(1)满足开户名单筛查、存量客户批量筛查。

(2)提供手工在线筛查、api实时筛查、定时任务批量筛查服务。

2、筛查审计

(1)名单筛查日志：记录每一个用户的查询行为，包含查询内容、结果、时间、ip地址等内容。需要从合规角度来审视用户行为。

(2)用户操作日志。

(3)数据更新日志。

3、名单管理

(1)预定义筛查列表：根据不同的业务可以指定筛查名单，最大程度提高筛查相关性，降低干扰。

(2)白名单管理：在银行合规业务处理中，遇到人名命中名单，但经业务人员核实后该人并非名单中实际的人，可以将其加入白名单中，便于日后涉及改人的业务处理不被重复报警。

(3)黑名单管理：可以将行内自有的黑名单数据导入导出到系统中，并且可以在系统中对自有黑名单数据进行查、看、设置等操作。

(4)名单数据浏览：可以对名单数据进行浏览，便于对入库名单的了解及管理。

4、系统管理

包括企业管理、菜单管理、机构管理、用户管理、角色管理、密码管理等。应用架构图6所示，具体地：

1、本系统以saas方式为客户提供数据服务，为了保证系统在高并发环境下的正常使用，使用nginx做负载均衡。

2、为了提高系统的响应速度，本系统使用redis作分布式缓存。

3、使用solr作为检索服务器，检索速度快，并且尽可能多的返回相关数据，保证不漏掉可能的数据。

4、为了保证检索效果，solr初步返回500条数据，合起来大约250k左右，在高并发(tps200)环境下，网络传输压力很大。为了解决这个问题，solr采用master-slaver集群部署，master节点单独部署，slaver节点和应用服务器部署在同一个服务器上面。通过这种部署架构解决数据传输耗时的问题。master-slaver集群适合读取多写入少的应用场景，本系统只是每天两次固定时间涉及到数据更新操作，其余业务都是数据检索业务。所以使用master-slaver集群模式而不是solrcloud集群。

5、使用机器学习排序算法对返回的数据进行排序，虽然返回的数据很多，但是使用机器学习算法模型可以精准、高效的把返回数据按照相关度进行排序，然后把相关度较高的挑选出来，并且把相关性很低的数据过滤掉。

图7为本申请实施例提供的系统技术架构图，包括：算法底层、应用组件、数据产品、系统展现。

图8为本申请实施例提供的览析反洗钱制裁名单系统部署架构图，包括：nginx负载均衡、集群、redis缓存服务、文件图片服务器、postgresql数据库。

本申请实施例的技术方案，1、通过solr检索返回大数据量相关检索结果，保证不会遗漏用户关注的数据。solr是高性能的搜索引擎，利用其特性，针对复杂搜索也能快速返回搜索结果，使用solr返回的结果作初筛，可以快速找到可能的相关数据，然后把这些结果作为输入，使用机器学习排序算法，进行二次匹配，返回最终结果。2、初筛结果尽可能多的返回，保证不漏掉一个可疑名单，因此返回的数据量可能很大，网络io在此时会成为系统的瓶颈，针对这种情况，我们把solr检索服务器和应用服务部署在同一节点，降低数据在网络上的传输时间，提高单次请求响应时间，同时间接提高系统并发请求数量。

图9为本申请实施例提供的使用机器学习排序算法应用在名单筛查领域的示意图，包括：名单数据、智能筛查算法和智能推荐。

图10为本申请实施例提供的名单筛查方法的流程示意图，如图10所示，所述名单筛查方法包括以下步骤：

步骤1001：输入检索信息。

步骤1002：所述检索信息未包含证件号码时，利用solr获取所述检索信息对应的至少一条查询结果。

这里，所述检索信息包含证件号码时，基于第一数据源对所述证件号码进行精确匹配；如果所述证件号码与所述第一数据源中的目标证件号码精确匹配，则确定所述检索信息精确命中所述目标证件号码对应的对象；如果所述证件号码与所述第一数据源中的目标证件号码未精确匹配，则对所述检索信息中的名称进行匹配。

另一方面，所述检索信息未包含证件号码时，对所述检索信息中的名称进行匹配。

进一步，如果所述名称为中文，则基于第二数据源对所述名称进行全内容匹配；

如果所述名称不是中文，则利用solr获取所述检索信息对应的至少一条查询结果。

步骤1003：使用名单筛查模型计算所述至少一条查询结果与所述检索信息的相关度，并按照相关度对所述至少一条查询结果进行排序。

具体地，计算所述检索信息以及所述至少一条查询结果的特征数据；将所述特征数据输入到名单筛查模型进行处理，得到所述至少一条查询结果与所述检索信息的相关度。

步骤1004：从所述至少一条查询结中过滤掉相关度小于等于阈值的查询结果。

图11为本申请实施例提供的另一种名单筛查方法的流程示意图，如图11所示，所述名单筛查方法包括以下步骤：

步骤1101：输入检索信息。

步骤1102：判断检索信息是否包含证件号码，是时，执行步骤1103，否时，执行步骤1106。

步骤1103：对证件号码进行精确匹配。

步骤1104：判断证件号码是否精确匹配，是时，执行步骤1105，否时，执行步骤1106。

步骤1105：精确命中，流程结束。

步骤1106：对检索信息中的名称进行匹配。

步骤1107：判断名称是否为中文，是时，执行步骤1108，否时，执行步骤1112。

步骤1108：对名称进行全内容匹配。

步骤1109：判断是否有返回结果，否时，执行步骤1110，是时，执行步骤1111。

步骤1110：未命中，流程结束。

步骤1111：疑似命中，流程结束。

步骤1112：solr对名称进行全文检索。

步骤1113：对solr的查询结果进行特征提取。

步骤1114：使用模型算法对查询结果进行相关度的排序。

步骤1115：过滤掉相关度较低的查询结果。

步骤1116：判断是否存在查询结果，是时，执行步骤1111，否时，执行步骤1110。

图12为本申请实施例提供的名单筛查装置的结构组成示意图，如图12所示，所述装置包括：

输入单元1201，用于输入检索信息；

第一筛查单元1202，用于所述检索信息未包含证件号码时，利用solr获取所述检索信息对应的至少一条查询结果；

第二筛查单元1203，用于使用名单筛查模型计算所述至少一条查询结果与所述检索信息的相关度，并按照相关度对所述至少一条查询结果进行排序；使用名单筛查模型计算所述至少一条查询结果与所述检索信息的相关度，并按照相关度对所述至少一条查询结果进行排序；

在一实施方式中，所述装置还包括：

第一匹配单元(图中未示出)，用于所述检索信息包含证件号码时，基于第一数据源对所述证件号码进行精确匹配；如果所述证件号码与所述第一数据源中的目标证件号码精确匹配，则确定所述检索信息精确命中所述目标证件号码对应的对象；

第二匹配单元(图中未示出)，用于如果所述证件号码与所述第一数据源中的目标证件号码未精确匹配，则对所述检索信息中的名称进行匹配。

在一实施方式中，所述装置还包括：

第二匹配单元，用于所述检索信息未包含证件号码时，对所述检索信息中的名称进行匹配。

在一实施方式中，所述第二匹配单元，用于如果所述名称为中文，则基于第二数据源对所述名称进行全内容匹配；

所述第一筛查单元1202，用于如果所述名称不是中文，则利用solr获取所述检索信息对应的至少一条查询结果。

在一实施方式中，所述第二筛查单元1203，包括：

特征提取子单元(图中未示出)，用于计算所述检索信息以及所述至少一条查询结果的特征数据；

相关度计算子单元(图中未示出)，用于将所述特征数据输入到名单筛查模型进行处理，得到所述至少一条查询结果与所述检索信息的相关度。

本领域技术人员应当理解，图12所示的名单筛查装置中的各单元的实现功能可参照前述相关描述而理解。图12所示的名单筛查装置中的各单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：窦志成;张世晓;许辉;蔡亚宁;米存仓
技术所有人：北京一览群智数据科技有限责任公司
我是此专利的发明人

上一篇：一种用于电子组装的SMT印刷用智能加锡机的制作方法
上一篇：一种制备黄原胶的工艺的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。