本公开总体上涉及用于分析文档的计算机化方法和系统,更具体地,涉及使用计算机化建模来分析所提取的文档数据并预测机构风险的计算机化系统和方法。
背景技术:
1、在当前的环境中,存在着一组织可能寻求对其他组织的特定活动进行一定程度的监控的许多领域,尤其是当这些活动具有机构风险的可能性时(例如,对组织的损害、对消费者的伤害等)。在某些情况下,监查员试图通过从组织的文档中收集信息来识别机构风险。然而,为了使用当前技术来识别这些风险,人们必须手动地审阅成千上万页的文档,有时无法识别关键的风险影响信息,并且常常无法识别文档之间的联系或相关性。有时,这种人工审查可能如此容易出错或缓慢到这样的程度,即机构风险在被机构变为现实之前没有被识别或减轻。此外,这种人工审查可能使得难以识别组织内可能指示机构风险变化的趋势。在许多情况下,重要文档文件经常分散在多个物理位置上,需要大量的人力来执行完整的审阅。即使在使用基本的计算机化系统来帮助文档审阅的情况下,这样的系统也不能有效地工作,例如因为不完全理解可以帮助风险分析的特定文档类型或主题。
2、在其他环境中,组织可能寻求对其自身的活动进行一定程度的监控,以识别其自身运作的机构风险。然而,在这些情况下,组织通常具有上述缺点。此外,组织可受益于使用从多个组织(例如从在类似行业中运作的其它组织)汇集的数据来识别机构风险的文档分析,但这可能受到难以共享包括个人可识别信息(pii)的文档的阻碍。
3、在某些情况下,组织可以接收大量的分析信息,所述信息包括不需要的或格式不规范的信息。当通过计算机网络接收时,这种不需要的信息加重网络带宽的负担。另外,组织可能无法使用格式不规范的信息,或者为了转换成可用格式而可能不必要地加重处理资源的负担。
4、因此,在机构风险管理行业中需要提供可定制的、正确订制的、快速的和准确的风险分析信息。本发明旨在解决这些和其它挑战。
技术实现思路
1、本公开的一个方面涉及一种用于实体风险管理的计算机实现的系统。该系统包括被配置为存储指令的非暂时性计算机可读介质和被配置为执行所述指令以执行操作的至少一个处理器。所述操作包括在所述系统与数据源之间建立连接,所述数据源远离所述系统并且与第一实体相关联;从所述数据源接收所述第一机构数据;使用自然语言处理(nlp)分类器从所述机构数据中提取模型输入数据;将机器学习模型应用于所提取的模型输入数据以预测与所述第一实体相关联的风险水平,所述机器学习模型已被训练成使用第二机构数据来预测风险水平;基于所预测的风险水平来生成分析数据;以及基于所述分析数据,向可通信地连接到所述系统的管理设备发送警报。
2、本公开的另一方面涉及一种用于活动风险管理的计算机实现的系统。该系统包括被配置为存储指令的非暂时性计算机可读介质和被配置为执行所述指令以执行操作的至少一个处理器。所述操作包括访问与交易或个人中的至少一者相关联的文档数据;将所述文档数据归一化;对归一化的文档数据进行分类;从所分类的文档数据中提取模型输入数据;将机器学习模型应用于所提取的模型输入数据以对所述文档数据评分,所述机器学习模型已被训练为生成指示所述交易或个人的有利性的有利性输出;以及基于经评分的文档数据生成分析数据。
3、本公开的另一方面涉及一种用于提供对模型输出数据的选择性访问的计算机实现的系统。该系统包括被配置为存储指令的非暂时性计算机可读介质和被配置为执行所述指令以执行操作的至少一个处理器。所述操作包括通过应用编程接口(api)从请求者设备接收对数据的api请求,所述api请求标识与所述请求者设备相关联的请求者实体;基于所述api请求来确定数据类型;确定请求者的授权级别;访问与所述数据类型和所述授权级别相对应的第一模型输出数据,所述第一模型输出数据已由被训练为基于文档数据预测风险水平的机器学习模型生成;以及将所述第一模型输出数据发送到所述请求者设备。
4、本公开的其它方面涉及用于执行上述计算机实现的系统的功能的方法。
5、本文还讨论了其它系统、方法和计算机可读介质。
1.一种用于实体风险管理的系统,所述系统包括:
2.根据权利要求1所述的系统,其中:
3.根据权利要求2所述的系统,其中,所述半结构化数据与所述系统被配置成接受的数据结构不一致。
4.根据权利要求1所述的系统,其中,提取所述模型输入数据包括使用所述第一机构数据的数据元素与模型输入数据元素之间的映射。
5.根据权利要求1所述的系统,其中:
6.根据权利要求1所述的系统,其中:
7.根据权利要求1所述的系统,其中:
8.根据权利要求1所述的系统,其中,所述机器学习模型被训练成基于文档源实体的活动的变化来预测所述风险水平。
9.根据权利要求1所述的系统,其中,至少所述第一机构数据或所述第二机构数据与金融资产、金融负债、一时间段内的净收入、一时间段内的盈利或贷款历史数据中的至少一者相关联。
10.根据权利要求1所述的系统,其中:
11.一种活动风险管理的方法,所述方法包括:
12.根据权利要求11所述的方法,其中:
13.根据权利要求12所述的方法,其中,所述半结构化数据与所述系统被配置成接受的数据结构不一致。
14.根据权利要求11所述的方法,其中,提取所述模型输入数据包括使用所述第一机构数据的数据元素与模型输入数据元素之间的映射。
15.根据权利要求11所述的方法,其中:
16.根据权利要求11所述的方法,其中:
17.根据权利要求11所述的方法,其中:
18.根据权利要求11所述的方法,其中,所述机器学习模型被训练成基于文档源实体的活动的变化来预测所述风险水平。
19.根据权利要求11所述的方法,其中,至少所述第一机构数据或所述第二机构数据与金融资产、金融负债、一时间段内的净收入、一时间段内的盈利或贷款历史数据中的至少一者相关联。
20.根据权利要求11所述的方法,其中:
21.一种用于实体风险管理的系统,所述系统包括:
22.根据权利要求21所述的系统,其中:
23.根据权利要求22所述的系统,其中,所述半结构化数据与所述系统被配置成接受的数据结构不一致。
24.根据权利要求21所述的系统,其中,提取所述模型输入数据包括使用所述第一机构数据的数据元素与模型输入数据元素之间的映射。
25.根据权利要求21所述的系统,其中:
26.根据权利要求21所述的系统,其中:
27.根据权利要求21所述的系统,其中:
28.根据权利要求21所述的系统,其中,所述机器学习模型被训练成基于文档源实体的活动的变化来预测所述风险水平。
29.根据权利要求21所述的系统,其中,至少所述第一机构数据或所述第二机构数据与金融资产、金融负债、一时间段内的净收入、一时间段内的盈利或贷款历史数据中的至少一者相关联。
30.根据权利要求21所述的系统,其中:
31.一种活动风险管理的方法,所述方法包括:
32.根据权利要求31所述的方法,其中:
33.根据权利要求32所述的方法,其中,所述半结构化数据与所述系统被配置成接受的数据结构不一致。
34.根据权利要求31所述的方法,提取所述模型输入数据包括使用所述第一机构数据的数据元素与模型输入数据元素之间的映射。
35.根据权利要求31所述的方法,其中:
36.根据权利要求31所述的方法,其中:
37.根据权利要求31所述的方法,其中:
38.根据权利要求31所述的方法,其中,所述机器学习模型被训练成基于文档源实体的活动的变化来预测所述风险水平。
39.根据权利要求31所述的方法,其中,至少所述第一机构数据或所述第二机构数据与金融资产、金融负债、一时间段内的净收入、一时间段内的盈利或贷款历史数据中的至少一者相关联。
40.根据权利要求31所述的方法,其中:
41.一种用于提供对模型输出数据的选择性访问的系统,所述系统包括:
42.根据权利要求41所述的系统,其中,所述文档数据是根据自然语言处理(nlp)技术从一个或更多个文档提取的。
43.根据权利要求41所述的系统,其中,所述非暂时性计算机可读介质包含另外的指令,所述另外的指令在由所述处理器执行时使所述处理器:
44.根据权利要求43所述的系统,其中:
45.根据权利要求41所述的系统,其中,所述数据类型是基于所述api请求中的至少一个数据类型参数确定的,所述数据类型参数标识以下中的至少一项:时间范围、地理区域、金融机构、资产价值、资产价值变化、负债价值、负债价值变化或风险水平阈值。
46.根据权利要求41所述的系统,其中,所述非暂时性计算机可读介质包含另外的指令,所述另外的指令在由所述处理器执行时使所述处理器:
47.根据权利要求41所述的系统,其中,所述非暂时性计算机可读介质包含另外的指令,所述另外的指令在由所述处理器执行时使所述处理器:
48.根据权利要求41所述的系统,其中,所述机器学习模型被训练成基于所述文档数据来预测多个风险水平,所述文档数据是来自不同的金融机构的。
49.根据权利要求41所述的系统,其中,所述机器学习模型是基于文档数据的分类从多个候选机器学习模型中选择的。
50.根据权利要求41所述的系统,其中,所述机器学习模型还被训练成基于人口统计数据或经济数据来预测所述风险水平。
51.一种提供对模型输出数据的选择性访问的方法,所述方法包括:
52.根据权利要求51所述的方法,其中,所述文档数据是根据自然语言处理(nlp)技术从一个或更多个文档提取的。
53.根据权利要求51所述的方法,所述方法还包括:
54.根据权利要求53所述的方法,其中:
55.根据权利要求51所述的方法,其中,所述数据类型是基于所述api请求中的至少一个数据类型参数确定的,所述数据类型参数标识以下中的至少一项:时间范围、地理区域、金融机构、资产价值、资产价值变化、负债价值、负债价值变化或风险水平阈值。
56.根据权利要求51所述的方法,所述方法还包括:
57.根据权利要求51所述的方法,所述方法还包括:
58.根据权利要求51所述的方法,其中,所述机器学习模型被训练成基于所述文档数据来预测多个风险水平,所述文档数据是来自不同的金融机构的。
59.根据权利要求51所述的方法,其中,所述机器学习模型是基于文档数据的分类从多个候选机器学习模型中选择的。
60.根据权利要求51所述的方法,其中,所述机器学习模型还被训练成基于人口统计数据或经济数据来预测所述风险水平。