文本可信模型分析方法、设备和装置与流程

文档序号:18257719发布日期:2019-07-24 10:24阅读:196来源:国知局
文本可信模型分析方法、设备和装置与流程

本发明涉及互联网技术领域,尤其涉及文本可信模型分析方法、 设备和装置。



背景技术:

随着互联网技术的发展,现金支付、现金赔付也逐渐扩展到网络 支付和网络赔付,随之也带来很多问题,给支付公司和个人用户带来 不同程度的资金或其他损失。目前,互联网支付风险事件主要有盗用 事件和欺诈事件。其中,欺诈事件包括个人欺诈、商户欺诈、木马和 钓鱼等。利用病毒木马等非法手段获取利益也逐渐形成一个行业,称 之为黑色产业(简称黑产)。

目前,在互联网金融风险防控中,仍然采用人工审核的方式来识 别互联网金融欺诈,主要针对用户行为,包括操作特点、用户业务行 为、关联图谱信息等。例如,多个人合用一个设备、页面停留时间等。

互联网作为产业领域中自动化程度最高的产业,反欺诈风险防控 的自动化也必然是未来发展的一个方向。



技术实现要素:

鉴于现有技术的以上问题,本发明的实施例提供一种新颖的文本 可信模型解决方法、设备和装置,从而使得投诉中的文本信息也能够 用于互联网金融风险防控。

在风险防控中,目前采用的人工审核方式往往依赖于用户行为。 例如,根据之前支付宝盗用的赔付经验,特别是当赔付开启之后,少 数黑产可能对支付宝进行骗赔。当前,通常采用人工方式审核用户行 为,以判断是否属于黑产骗赔。同时,大量投诉中的文本信息被浪费, 并未用于风险防控的核查中,甚至会与用户行为数据(后文也称为“结 构化行为数据”)混合使用。本申请的发明人注意到,现有技术还没 有考虑过将文本数据与结构化行为数据进行比对。况且,人工往往对 行为数据不敏感,如果使用工具进行手工分析又耗时耗力。

为此,本申请的发明人提出了基于深度学习的文本可信模型解决 方案,其通过对文本数据和用户行为数据进行自动化比对,实现了对 文本数据是否可信的自动化判断。因而,这使得可信的文本数据也能 用于互联网金融反欺诈和风险防控的审核,促进了自动化审核的实现, 降低了成本,提高了效率。

根据本发明的一方面,一种文本可信模型分析方法,包括:使用 第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的 分数;使用第二训练模型对与所述结构化行为数据相对应的文本数据 进行分类并赋予与所属类别相应的分数;将所述结构化行为数据的所 述分数与对应的文本数据的所述分数进行比对;并且根据所述比对的 结果,判断所述对应的文本数据是否可信。这里,所述第一和第二训 练模型可以是已知的任何可用训练模型,包括,但不限于,LightGBM 算法、GBDT算法、LR模型、神经网络等。在一个实施例中,所述 第一训练模型可以与所述第二训练模型相同。在另一实施例中,所述 第一训练模型可以不同于所述第二训练模型。

术语“结构化行为数据”是将用户行为数据进行结构化得到的数 据。其中,结构化,指将行为数据的展现形式从非结构数据转为结构 化数据,以便进行归类和统计。优选地,结构化数据在训练前还可以 进行标签化和/或数值化编码。

优选地,在对文本数据进行模型训练之前,可以将文本数据进行 清洗和/或预处理。“预处理”是指将文本数据、优选经过清洗的文本 数据转换为对应的词向量或词向量矩阵。

例如,如果用户行为是购买一件商品,对应的文本数据可以是用 户针对购买过程的投诉、或者申请退款或赔偿。然而,用户的投诉或 赔偿文本内容与其购买行为可能不一致。例如,黑产可能会通过软件 自动编写欺诈文本进行批量骗赔。在这种情况下,投诉或赔偿文本内 容可能含混不清,或者前后多篇文本的投诉内容基本一致而对应的买 卖行为却完全不同。为此,本申请的发明人提出,通过人工对文本数 据是否可信进行标签来对文本数据进行预处理,从而极大地改善对文 本数据进行模型训练的结果和质量。

按照本发明的优选实施例,所述文本可信模型分析方法还包括在 使用所述第二训练模型对所述文本数据进行分类之前,对所述文本数 据进行预处理,其中,对所述文本数据的所述预处理包括定期地由使 用者,例如投诉或理赔的审理人员,对所述文本数据中的一个或多个 是否可信进行标签。例如,审理人员可以在每次对文本数据进行模型 训练前、每天、每隔几天、每周或者每隔几周对当时的一个或多个文 本数据是否可信进行判断。

按照本发明的优选实施例,审理人员可以通过观察例如显示器上 显示的、与投诉或理赔有关的文本内容、OCR(光学字符识别)图像 内容或者语音转文本内容等,将上述与结构化行为数据明显不符的文 本数据打上“不可信”的标签,并且将该文本数据直接判定为不可信。

在有些情况下,文本数据量可能不是很大,或者初始的文本数据 量很小。于是,审理人员可能足以在有限时间内将明显不可信的文本 数据挑选出来。这样,按照本发明的实施例,可以仅对未被审理人员 挑选出来的文本数据进行模型训练。

按照本发明的优选实施例,基于带有不可信标签的文本数据和剩 余的文本数据,使用半监督学习算法从所述剩余的文本数据检测出不 可信的文本数据并打上不可信标签。所述半监督学习算法例如包括 PU Learning。本领域技术人员能够领会到,其他的适当的半监督学习 算法也是可以的。其中,使用半监督学习算法进行的所述检测包括利 用所述带有不可信标签的文本数据来训练PU Learning模型,并且基 于经训练的PU Learning模型,从所述剩余的文本数据中预测不可信 的文本数据。于是,预测为不可信的文本数据可以被打上不可信标签。 该优选实施例可以针对文本数据量较大的情况。这样,待处理的无标 签文本数据的数目将被最小化。

按照本发明的优选实施例,无论文本数据是否经过PU Learning 的预处理,使用所述第二训练模型对所述文本数据进行的所述分类包 括使用所述第二训练模型仅对没有标签的文本数据进行分类。

按照本发明的优选实施例,所述比对包括分别将所述结构化行为 数据的所述分数和所述对应的文本数据的所述分数进行归一化,并且 对归一化后的两个分数进行假设检验以判断所述结构化行为数据的 所述分数和所述对应的文本数据的所述分数是否属于同一类。

按照本发明的优选实施例,在通过假设检验判定所述结构化行为 数据的所述分数和所述对应的文本数据的所述分数属于同一类时,所 述对应的文本数据被确定为是可信的。

根据本发明的另一方面,一种文本可信模型分析设备,包括:处 理器;以及,存储器,其上存储有可执行指令,其中,所述可执行指 令当被执行时使得所述处理器执行前述的方法。

根据本发明的又一方面,一种机器可读存储介质,其上存储有可 执行指令,其中,所述可执行指令当被执行时使得机器执行前述的方 法。

根据本发明的再一方面,一种文本可信模型分析装置,包括:第 一分类模块,用于通过第一训练模型对结构化行为数据进行分类并赋 予与所属类别相应的分数;第二分类模块,用于通过第二训练模型对 与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类 别相应的分数;以及比对模块,用于将所述结构化行为数据的所述分 数与对应的文本数据的所述分数进行比对,并根据所述比对的结果, 判断所述对应的文本数据是否可信。

从以上可以看出,本发明的实施例的方案能够评价投诉或理赔中 的文本信息是否可信。具体地,本发明的实施例的方案通过将文本数 据与相应的行为数据进行比较来判断文本数据是否可信,从而使得可 以利用投诉或理赔中的海量文本信息进行互联网金融风险防控。

附图说明

本发明的特征、特点、优点和益处通过以下结合附图的详细描述 将变得显而易见。

图1示出了按照本发明的一个实施例的文本可信模型分析方法10的总体流程图。

图2示出了按照本发明的一个实施例的文本可信模型分析设备 200的示意图。

图3示出了按照本发明的一个实施例的文本可信模型分析装置 300的示意图。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论 这些实施方式只是为了使得本领域技术人员能够更好地理解从而实 现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用 性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下, 对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省 略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与 所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或 者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行 组合。

如本文中使用的,术语“包括”及其变型表示开放的术语,含义 是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一 个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个 实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可 以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确 的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整 个说明书中是一致的。

在互联网金融风险防控中,目前仍然通过对用户行为进行人工审 核的方式来识别互联网金融欺诈。面对日益增多的黑产骗赔事件,现 有的风险防控手段效率低下。同时,大量投诉或理赔中的文本信息被 浪费,并未用于风险防控的核查中。为此,本申请的发明人提出了基 于深度学习的文本可信模型解决方案,其通过对文本数据和用户行为 数据进行自动化比对,实现了对文本数据是否可信的自动化判断。

下面,结合附图详细描述本发明的各个实施例。

图1示出了按照本发明的一个实施例的文本可信模型分析方法 100。下面结合图2所示的文本可信模型分析设备200来详细描述图 1的文本可信模型分析方法100。

如图1所示,在方框110,收集用户行为。在互联网金融领域, 用户行为例如可以是用户在相对短的交易时间内重复购买大量相同 的商品,或者用户(例如,赌徒)频繁在午夜(晚上12点)至凌晨 (早上6点)之间进行买卖操作。

在方框112,将用户行为数据结构化,从而得到结构化行为数据。 这可以通过已知的任何适当技术来实现。结构化,指将行为数据的展 现形式从非结构数据转为结构化数据,以便进行归类和统计。优选地, 结构化数据在训练前还可以进行标签化和/或数值化编码。其中,标 签化,指根据业务场景将行为数据打上业务标签,围绕设备并与业务 场景深度结合。为行为数据打标签,通常有以下3个数据维度:时间、 频次、结果。所述结构化行为数据可以存储在存储器210中。

在方框114,例如通过处理器220,使用第一训练模型对结构化 行为数据进行分类并赋予与所属类别相应的分数。所述第一训练模型 可以存储在存储器210中。在一个实施例中,可以采用基于树的算法 来处理结构化行为数据。在另一实施例中,可以采用实体嵌入(entity embedding)来处理结构化行为数据。本领域技术人员能够预见到, 其他适合处理结构化行为数据的深度学习算法也是可行的。在支付宝 的应用场景下,“结构化行为数据”可以被分为以下30个类别:“一 元购”、“付款未发货”、“信用卡套现”、“假冒公检法等公职人员”、 “假冒其他身份”、“假冒支付宝客服”、“假冒领导或亲友”、“共享单 车退款”、“其他兼职类”、“其他平台刷单”、“其他欺诈方式”、“口碑 刷单”、“处理其他电商订单退款被骗”、“处理机票退改签被骗”、“处 理淘宝天猫订单退款被骗”、“开通借呗”、“开通微粒贷”、“开通花呗”、 “投资理财/高额返利类”、“收到商品/服务与约定不符”、“时时彩/ 彩票”、“服饰/手机等实物购买”、“淘宝刷单”、“游戏充值/代练等游 戏相关”、“缴纳淘宝店铺保证金被骗”、“考题购买/资料购买/办证等”、 “话费/流量/会员充值等”、“贷款/办卡/提额类其他”、“软件/应用 (APP)购买”、“违禁其他类”。相应地,在一个实施例中,可以为 隶属于上述30个类别中的每个的结构化行为数据分别赋予1~30分中 的一个分数。本领域技术人员能够领会到,其他的打分方式也是可以 的。此外,对于支付宝或其他的应用场景,也可以预见到其他的分类 方式。

在方框120,获得诸如投诉、申请退款或赔偿的文本数据。在一 个实施例中,获得的文本数据可以存储在存储器210中。在支付宝的 应用场景下,用户可通过支付宝应用程序(APP)的相应端口提交例 如针对购买过程的投诉、或者申请退款或赔偿。于是,可以从支付宝 的服务器获得这类的文本数据。

优选地,在对文本数据进行模型训练之前,可以例如通过处理器 220,将文本数据进行清洗和/或预处理。在方框122,对获得的文本 数据进行清洗。“清洗”包括,但不限于以下操作:去除数字、去除 链接地址、去除停用词、词干化(指的是将单词的派生形式缩减为其 词干的过程,已经有许多词干化的方法,在英文中,如“programming”、 “programmer”、“programmed”、“programmable”等词可以词干化为 “program”)、后缀丢弃(丢弃一个单词的后缀部分,如“programming”、 “programmer”、“programmed”、“programmable”等词可以词干化为 其词根“program”)、词形还原(将语料中的每个词还原为其原形, 或者能表达完整语义的一般形式,如“better”还原为“good”、“running” 还原为“walk”等)、n-gram分析(将字符串按一定最小单元分割为 长度为n的连续子串,保留最有意义的子串,以方便后续分析)、去 除标点符号、去掉空白符、去除特殊字符,等。

“预处理”是指将文本数据、优选经过清洗的文本数据转换为对 应的词向量或词向量矩阵。术语“词向量(Word embedding)”,又叫 Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技 术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概 念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空 间的数学嵌入。词向量技术包括,但不限于:(1)基于统计的方法、 (2)基于图的方法、(3)基于主题模型的方法,以及(4)基于深度 学习的方法。可以将经过清洗的文本数据转换为深度学习,例如神经 网络训练所用的张量,然后解析出每个词及其对应的词向量,最后形 成词向量矩阵。

例如,如果用户行为是购买一件商品,对应的文本数据可以是用 户针对购买过程的投诉、或者申请退款或赔偿。然而,用户的投诉或 赔偿文本内容与其购买行为可能不一致。例如,黑产可能会通过软件 自动编写欺诈文本进行批量骗赔。在这种情况下,投诉或赔偿文本内 容可能含混不清,或者前后多篇文本的投诉内容基本一致而对应的买 卖行为却完全不同。为此,本申请的发明人提出,通过人工对文本数 据是否可信进行标签来对文本数据进行预处理,从而极大地改善对文 本数据进行模型训练的结果和质量。

在方框124,例如通过处理器220,对所述文本数据进行预处理, 其中,对所述文本数据的所述预处理包括定期地由使用者,例如投诉 或理赔的审理人员,对所述文本数据中的一个或多个是否可信进行标 签。例如,审理人员可以在每次对文本数据进行模型训练前、每天、 每隔几天、每周或者每隔几周对当时的一个或多个文本数据是否可信 进行判断。优选地,审理人员可以通过观察例如显示器230上显示的、 与投诉或理赔有关的文本内容、OCR(光学字符识别)图像内容或者 语音转文本内容等,借助于例如输入设备240,将上述与结构化行为 数据明显不符的文本数据打上“不可信”的标签,并且将该文本数据 直接判定为不可信。

在方框126,例如通过处理器220,基于带有不可信标签的文本 数据和剩余的文本数据,使用半监督学习算法迭代地对所述剩余的文 本数据进行分类,并对分类为不可信的文本数据打上不可信标签。在 一个实施例中,所述半监督学习算法例如包括PU Learning。本领域 技术人员能够领会到,其他的适当的半监督学习算法也是可以的。

具体地,基于PU Learning的不可信文本数据检测包括,利用已 经确定不可信的文本数据,例如经由审理人员打上不可信标签的文本 数据(作为反例文档集B)来训练PU Learning模型,并且基于经训 练的PU Learning模型,从所述剩余的文本数据(作为无标注文档U) 中预测不可信的文本数据。然后,可以将预测为不可信的文本数据打 上不可信标签。

在方框128,例如通过处理器220,使用所述第二训练模型仅对 没有标签的文本数据进行分类。所述没有标签的文本数据可以直接来 自原始获得的文本数据,或者来自经清洗的文本数据、经打标处理的 文本数据、或经PU Learning处理的文本数据。在支付宝的应用场景 下,“文本数据”可以被分为以下30个类别:“一元购”、“付款未发 货”、“信用卡套现”、“假冒公检法等公职人员”、“假冒其他身份”、 “假冒支付宝客服”、“假冒领导或亲友”、“共享单车退款”、“其他兼 职类”、“其他平台刷单”、“其他欺诈方式”、“口碑刷单”、“处理其他 电商订单退款被骗”、“处理机票退改签被骗”、“处理淘宝天猫订单退 款被骗”、“开通借呗”、“开通微粒贷”、“开通花呗”、“投资理财/高 额返利类”、“收到商品/服务与约定不符”、“时时彩/彩票”、“服饰/ 手机等实物购买”、“淘宝刷单”、“游戏充值/代练等游戏相关”、“缴 纳淘宝店铺保证金被骗”、“考题购买/资料购买/办证等”、“话费/流量 /会员充值等”、“贷款/办卡/提额类其他”、“软件/应用(APP)购买”、 “违禁其他类”。相应地,在一个实施例中,可以为隶属于上述30个 类别中的每个的文本数据分别赋予1~30分中的一个分数。本领域技 术人员能够领会到,其他的打分方式也是可以的。此外,对于支付宝 或其他的应用场景,也可以预见到其他的分类方式。

在方框130,例如通过处理器220,使用第二训练模型对与所述 结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应 的分数。所述第二训练模型可以存储在存储器210中。这里,所述第 一和第二训练模型可以是已知的任何可用训练模型,包括,但不限于, LightGBM算法、GBDT算法、LR模型、神经网络等。在一个实施 例中,所述第一训练模型可以与所述第二训练模型相同。在另一实施 例中,所述第一训练模型可以不同于所述第二训练模型。

在一个实施例中,所述比对包括分别将所述结构化行为数据的所 述分数和所述对应的文本数据的所述分数进行归一化,并且对归一化 后的两个分数进行假设检验以判断所述结构化行为数据的所述分数 和所述对应的文本数据的所述分数是否属于同一类。所述归一化例如 可以基于过往经验。如果假设检验的概率大于95%,则认为这两个分 值属于同一类。因而,在通过假设检验判定所述结构化行为数据的所 述分数和所述对应的文本数据的所述分数属于同一类时,所述对应的 文本数据被确定为是可信的。例如,先通过一个数据集的数据分布得 到分值对应的百分位数(precentile),根据这个百分位数得到分值准 确率90%;再对这两个分值进行t检验,确定文本数据是否可信。

相应地,针对同一金融事件,结构化行为数据的模型分数与相应 的文本数据的模型分数进行比对。根据比对结果,在方框132输出“该 文本数据可信”并给出相应的解释。例如,所述解释可以为该投诉或 理赔文本与对应的买卖行为相符。或者,在方框134输出为“该文本 数据不可信”并给出相应的解释。例如,所述解释可以为该投诉或理 赔文本与对应的买卖行为不相符。

另一方面,在方框124被打上“不可信”标签的文本数据和/或 在方框126被检测并被打上“不可信”标签的文本数据都将在方框 134输出为“该文本数据不可信”并给出相应的解释。例如,所述解 释可以为该投诉或理赔文本明显与对应的买卖行为不相符。

图2示出了按照本发明的一个实施例的文本可信模型分析设备 200的示意图。如图2所示,文本可信模型分析设备200可以包括存 储器210和处理器220。存储器210上存储有可执行指令,其中,所 述可执行指令当被执行时使得处理器220执行图1所示的方法100。 本领域技术人员能够领会到,处理器220实现的上述所有功能即可由 单独的处理器来实施,也可由多个处理器来分别实施。

此外,文本可信模型分析设备200还包括显示器230,其被配置 为显示所述文本数据,例如投诉或理赔文本,或者与投诉或理赔相关 的OCR图像或语音转换文本。另外,文本可信模型分析设备200还 包括输入器件240,其被配置为供所述使用者为不可信的文本数据打 标签。

按照本发明的实施例还提供一种机器可读存储介质,其上存储有 可执行指令,其中,所述可执行指令当被执行时使得机器执行图1所 示的方法100。

图3示出了按照本发明的一个实施例的文本可信模型分析装置 300的示意图。图3所示的装置300可以利用软件、硬件或软硬件结 合的方式来实现。

如图3所示,文本可信模型分析装置300包括预处理模块310, 用于对接收到的或从存储器获得的文本数据进行预处理。在第一方面, 所述预处理模块310包括用于定期地供使用者对所述文本数据中的 一个或多个是否可信进行标签的模块,其中,在文本数据与对应的结 构化行为数据不相符时,该文本数据被打上不可信标签。

在第二方面,所述预处理模块310还包括检测模块320,用于基 于带有不可信标签的文本数据和剩余的文本数据,使用半监督学习算 法从剩余的文本数据检测出不可信的文本数据并打上不可信标签。在 一个实施例中,所述半监督学习算法例如包括PU Learning。其中, 所述检测模块(320)包括用于利用所述带有不可信标签的文本数据 来训练PU Learning模型,并且基于经训练的PU Learning模型,从 所述剩余的文本数据中预测不可信的文本数据的模块。

文本可信模型分析装置300还包括第二分类模块330,用于通过 第二训练模型对与所述结构化行为数据相对应的文本数据进行分类 并赋予与所属类别相应的分数。优选地,所述第二分类模块330被配 置为仅对没有标签的文本数据进行分类。

文本可信模型分析装置300还包括第一分类模块340,用于通过 第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的 分数。

文本可信模型分析装置300还包括比对模块350,用于将所述结 构化行为数据的所述分数与对应的文本数据的所述分数进行比对,并 根据所述比对的结果,判断所述对应的文本数据是否可信。优选地, 所述比对模块350被配置为分别将所述结构化行为数据的所述分数 和所述对应的文本数据的所述分数进行归一化,并且对归一化后的两 个分数进行假设检验以判断所述结构化行为数据的所述分数和所述 对应的文本数据的所述分数是否属于同一类。其中,在通过假设检验 判定所述结构化行为数据的所述分数和所述对应的文本数据的所述 分数属于同一类时,基于t检验来确定所述对应的文本数据是否可信。

上面结合附图阐述的具体实施方式描述了示例性实施例,但并不 表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整 个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”, 并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描 述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没 有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对 所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式 示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员 能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本 公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公 开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它 变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与 符合本文公开的原理和新颖性特征的最广范围相一致。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1