基于文本列表的用户特征提取方法及装置与流程

文档序号：23157934发布日期：2020-12-04 13:52阅读：96来源：国知局

本申请涉及计算机风控技术领域，具体而言，涉及一种基于文本列表的用户特征提取方法及装置。

背景技术：

在现有的风控业务场景中，企业会尽可能多的使用用户数据构建机器学习模型，在最大化模型性能的前提下，尽可能降低用户数据存储和模型部署的成本。基于此，用户移动设备的应用安装信息对于提高企业风控模型的性能具有十分重要的作用。常规方案中，通常从用户移动设备的应用安装信息提取相关的特征向量，进而输入到后续的风控模型中参与最终的计算和决策。然而，常规方案的信息维护和更新成本较高，特征准确性较低，并且不利于计算机设备的数据存储，而且作为后续风控模型的输入也常会使风控模型产生维数灾难的问题。

技术实现要素：

基于现有设计的不足，本申请提供一种基于文本列表的用户特征提取方法及装置，通过lda话题模型输出的话题特征向量的特征可解释性更强，可以反映用户所属每个预设特征维度对应的话题标签的概率，省去了信息维护和更新成本，同时话题特征向量的维度较低，可以人为进行指定，避免了特征维度过高所带来的维数灾难问题，也使得后续的风控模型发挥更好的性能。

根据本申请实施例的第一方面，提供一种基于文本列表的用户特征提取方法，应用于计算机设备，所述方法包括：

从用户终端中获取用户的应用安装列表信息；

将所述用户安装列表信息转化成文本信息列表，并通过lda话题模型将所述文本信息列表转化为话题特征向量，其中，所述话题特征向量为多个预设维度的特征向量，每个预设特征维度的特征向量用于表示所述用户属于与该预设特征维度对应的话题标签的概率；

将提取出的话题特征向量输入到目标风控模型中对所述目标风控模型进行决策输出。

在第一方面的一种可能的实施方式中，所述将所述用户安装列表信息转化成文本信息列表，并通过lda话题模型将所述文本信息列表转化为话题特征向量的步骤，包括：

将所述用户安装列表信息转化成文本信息列表，获取所述文本信息列表中每个安装包名对应的应用程序标识信息；

根据所述每个安装包名对应的应用程序标识信息确定对应的关键词向量，并所述关键词向量输入到预先训练的lda话题模型，得到多个预设维度的特征向量，作为所述话题特征向量。

在第一方面的一种可能的实施方式中，所述lda话题模型通过以下方式训练得到：

获取预先搜集的多个用户的用户安装列表信息，并从所述用户安装列表信息中获取每个安装包名对应的应用程序标识信息，将所述用户安装列表信息转化为应用程序标识列表；

对所述应用程序标识列表进行分词，得到每个用户的关键词列表；

遍历每个用户的关键词列表，以所有出现过的关键词构建对应的关键词典；

根据构建的所述关键词典将每个用户的关键词列表转化为关键词向量，并将所有用户的关键词向量组成训练样本，根据预设的话题数目和所述训练样本训练获得lda话题模型；

在第一方面的一种可能的实施方式中，还包括：

统计所述构建的关键词典中每个关键词在所有用户的关键词列表中的出现频次；

根据所述每个关键词在所有用户的关键词列表中的出现频次对构建的所述关键词典进行重新编码，得到重新编码后的关键词典，以基于所述重新编码后的关键词典执行所述根据构建的所述关键词典将每个用户的关键词列表转化为关键词向量的步骤。

在第一方面的一种可能的实施方式中，所述将提取出的话题特征向量输入到目标风控模型中对所述目标风控模型进行决策输出的步骤，包括：

将提取出的话题特征向量输入到目标风控模型中，基于所述目标风控模型中的风控匹配规则对所述话题特征向量进行匹配，得到决策输出结果。

根据本申请实施例的第二方面，提供一种基于文本列表的用户特征提取装置，应用于计算机设备，所述装置包括：

获取模块，用于从用户终端中获取用户的应用安装列表信息；

转化模块，用于将所述用户安装列表信息转化成文本信息列表，并通过lda话题模型将所述文本信息列表转化为话题特征向量，其中，所述话题特征向量为多个预设维度的特征向量，每个预设特征维度的特征向量用于表示所述用户属于与该预设特征维度对应的话题标签的概率；

决策输出模块，用于将提取出的话题特征向量输入到目标风控模型中对所述目标风控模型进行决策输出。

基于上述任一方面，本申请通过将用户的应用安装列表信息转化成文本信息列表，并通过lda话题模型将文本信息列表转化为话题特征向量，再将提取出的话题特征向量输入到目标风控模型中对目标风控模型进行决策输出。如此，通过lda话题模型输出的话题特征向量的特征可解释性更强，可以反映用户所属每个预设特征维度对应的话题标签的概率，省去了信息维护和更新成本，同时话题特征向量的维度较低，可以人为进行指定，避免了特征维度过高所带来的维数灾难问题，也使得后续的风控模型发挥更好的性能。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的基于文本列表的用户特征提取方法的流程示意图；

图2示出了本申请实施例所提供的基于文本列表的用户特征提取装置的功能模块示意图；

图3示出了本申请实施例所提供的用于执行上述的基于文本列表的用户特征提取方法的测试终端的组件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其它操作，也可以从流程图中移除一个或多个操作。

如前述背景技术中所获知的技术问题，常规设计中，在提取特征向量进行风控模型决策时，主要包括基于规则与模板的用户特征提取方法和基于tf-idf(termfrequency–inversedocumentfrequency，词频-逆文本频率指数)的用户特征提取方法两类。

例如，基于规则和模板的用户特征提取方法其一般包括以下步骤：

首先，获取用户终端中所记录的用户的应用安装列表信息：例如['com.sdu.didi.gui','com.meituan.qcs.c.android','com.sankuai.meituan.takeoutnew']；

然后，根据应用安装列表信息中的安装包名对应的应用名，将用户的应用安装列表转化为应用程序标识列表，对应上述示例即为['滴滴打车','美团打车','美团外卖']；

接着，人为制定规则和模板，例如[该用户包含“打车”字样的应用个数，该用户包含“外卖”字样的应用占该用户所有应用的占比]；

接着，可以根据人为制定的规则和模板，将用户的应用程序标识列表信息转化为特征向量，对应上述例子即为[2，0.33]；

由此，可以将提取的特征向量输入后续的风控模型参与计算与决策。

此外，基于tf-idf的用户特征提取方法其一般包括以下步骤：

首先，获取用户终端中所记录的用户的应用安装列表信息：例如['com.sdu.didi.gui','com.meituan.qcs.c.android','com.sankuai.meituan.takeoutnew']；

接着，对用户的应用程序标识列表进行分词，同时去除出现频率较高的停止词，得到用户的关键词列表，即['滴滴','打车','美团','打车','美团','外卖']和['王者','荣耀','美团','外卖']；

而后，遍历每个用户的关键词列表，构建一个包含所有出现过词的词典，{1:'滴滴',2:'打车',3:'美团',4:'外卖',5:'王者',6:'荣耀'}；

由此，可以根据预设的tf-idf公式和已构建的词典，对用户的关键词列表进行统计，得到上述示例中两个用户的标准化词频向量分别为[0.167,0.333,0.333,0.167,0,0]和[0,0,0.25,0.25,0.25,0.25]，词典中各关键词的逆文档频率向量为[0,0,-0.176,-0.176,0,0]，将各用户的标准化词频向量与逆文档频率向量逐元素相乘后得到两个用户的特征向量分别为[0,0,-0.059,-0.029,0,0]和[0,0,-0.044,-0.044,0,0]；

最后，可以将提取的特征向量输入后续的风控模型参与计算与决策。

经本申请发明人研究发现，上述基于规则和模板的用户特征提取方法需要人工设计大量的规则和模板，当用户数据变化时，往往也需要对人工设计的规则和模板进行维护和更改，耗费大量精力。同时，这种方法存在较高的主观因素，在实际应用于后续基于机器学习的风控模型时并不一定有效，从而影响特征向量的准确性和后续风控决策的准确性。

此外，上述基于tf-idf的用户特征提取方法提取出的特征向量的维度通常很高，会产生极大的稀疏矩阵，不仅不利于计算机设备的数据存储，而且作为后续风控模型的输入也常会使模型产生维数灾难的问题，绝大多数机器学习算法和模型都无法适配维度如此巨大的稀疏矩阵。

基于上述技术问题的研究发现，本申请发明人经过创造性的研究提出下述方案，请参阅图1，图1示出了本申请实施例提供的基于文本列表的用户特征提取方法的流程示意图，应当理解，在其它实施例中，本实施例的基于文本列表的用户特征提取方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该基于文本列表的用户特征提取方法的详细步骤介绍如下。

步骤s110，从用户终端中获取用户的应用安装列表信息。

步骤s120，将用户安装列表信息转化成文本信息列表，并通过lda话题模型将文本信息列表转化为话题特征向量。

步骤s130，将提取出的话题特征向量输入到目标风控模型中对目标风控模型进行决策输出。

本实施例中，话题特征向量具体为多个预设维度的特征向量，每个预设特征维度的特征向量可以用于表示用户属于与该预设特征维度对应的话题标签的概率。其中，预设特征维度可以由用户根据实际设计需求进行灵活选定，在此不作具体限定。

基于上述设计，本实施例通过lda话题模型输出的话题特征向量的特征可解释性更强，可以反映用户所属每个预设特征维度对应的话题标签的概率，省去了信息维护和更新成本，同时话题特征向量的维度较低，可以人为进行指定，避免了特征维度过高所带来的维数灾难问题，也使得后续的风控模型发挥更好的性能。

在一种可能的实施方式中，对于步骤s120而言，可以通过以下示例性的子步骤来实现，详细描述如下。

子步骤s121，将用户安装列表信息转化成文本信息列表，获取文本信息列表中每个安装包名对应的应用程序标识信息。

子步骤s122，根据每个安装包名对应的应用程序标识信息确定对应的关键词向量，并关键词向量输入到预先训练的lda话题模型，得到多个预设维度的特征向量，作为话题特征向量。

作为一种可能的示例，以上的lda话题模型可以通过以下方式训练得到，详细描述如下。

首先，获取预先搜集的多个用户的用户安装列表信息，并从用户安装列表信息中获取每个安装包名对应的应用程序标识信息，将用户安装列表信息转化为应用程序标识列表。例如用户安装列表信息可以是：['com.sdu.didi.gui','com.meituan.qcs.c.android','com.sankuai.meituan.takeoutnew']和['com.tencent.tmgp.sgame','com.sankuai.meituan.takeoutnew']，对应上述示例，应用程序标识列表可以为['滴滴打车','美团打车','美团外卖']和['王者荣耀','美团外卖']。

接着，对应用程序标识列表进行分词，得到每个用户的关键词列表。

详细地，英文单词之间天然存在空格作为分隔符，但中文的词与词之间不存在空格，所以为了获取到应用程序标识列表中的词组，需要对用户的应用程序标识列表进行分词，得到用户的关键词列表，对应上述示例即为['滴滴','打车','美团','打车','美团','外卖']和['王者','荣耀','美团','外卖']。

在此基础上，可以遍历每个用户的关键词列表，以所有出现过的关键词构建对应的关键词典。

例如，对应上述示例构建的关键词典可以为{1:'滴滴',2:'打车',3:'美团',4:'外卖',5:'王者',6:'荣耀'}。

最后，根据构建的关键词典将每个用户的关键词列表转化为关键词向量，并将所有用户的关键词向量组成训练样本，根据预设的话题数目和训练样本训练获得lda话题模型。

例如，对应上述示例转化的关键词向量可以为[1,2,3,2,3,4]和[5,6,3,4]，然后将[1,2,3,2,3,4]和[5,6,3,4]组成训练样本，根据预设的话题数目和训练样本训练获得lda话题模型。

在一种可能的实施方式中，在上述遍历每个用户的关键词列表，以所有出现过的关键词构建对应的关键词典之后，为了提高特征向量的准确性和可参考性，还可以进一步统计所述构建的关键词典中每个关键词在所有用户的关键词列表中的出现频次。例如，对应上述示例，每个关键词在所有用户的关键词列表中的出现频次分别为{1:1,2:2,3:3,4:2,5:1,6:1}。

然后，可以根据每个关键词在所有用户的关键词列表中的出现频次对构建的关键词典进行重新编码，得到重新编码后的关键词典，以基于重新编码后的关键词典执行根据构建的关键词典将每个用户的关键词列表转化为关键词向量的步骤。

例如，可以根据每个关键词在所有用户的关键词列表中的出现频次，删除关键词典中超低频、无意义的词汇，并对关键词典重新进行编码，例如如果删除频次为1的词汇，那么对应上述示例得到重新编码后后的词典为{2:'打车',3:'美团',4:'外卖',5:'王者',6:'荣耀'}。

进一步地，在一种可能的实施方式中，针对步骤s130，可以将提取出的话题特征向量输入到目标风控模型中，基于目标风控模型中的风控匹配规则对话题特征向量进行匹配，得到决策输出结果。其中，对于不同的目标风控模型，其风控匹配规则不同，可以根据实际的业务需求进行选定，在此不作详细限定。

例如，如果目标风控模型是贷前审批的风控模型，最终得到的决策输出结果是用户的信用评分，可以预先设定一个阈值，对于信用评分高于这个阈值的用户，可以提供贷款批示，如果是低于阈值的用户，那么则拒绝提供贷款批示。

又例如，如果目标风控模型是贷中监控的风控模型，最终得到的决策输出结果喂这个用户是否可以按时还款，是否有逾期风险。

再例如，如果目标风控模型是贷后催收的风控模型，这些用户都是逾期未还款的用户，那么可以判断哪些用户是有较大概率进行还款的人，然后选择这些人进行重点催收。

基于同一发明构思，请参阅图2，示出了本申请实施例提供的基于文本列表的用户特征提取装置110的功能模块示意图，本实施例可以根据上述方法实施例对基于文本列表的用户特征提取装置110进行功能模块的划分。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。比如，在采用对应各个功能划分各个功能模块的情况下，图2示出的基于文本列表的用户特征提取装置110只是一种装置示意图。其中，基于文本列表的用户特征提取装置110可以包括获取模块111、转化模块112以及决策输出模块113，下面分别对该基于文本列表的用户特征提取装置110的各个功能模块的功能进行详细阐述。

获取模块111，用于从用户终端中获取用户的应用安装列表信息。可以理解，该获取模块111可以用于执行上述步骤s110，关于该获取模块111的详细实现方式可以参照上述对步骤s110有关的内容。

转化模块112，用于将用户安装列表信息转化成文本信息列表，并通过lda话题模型将文本信息列表转化为话题特征向量，其中，话题特征向量为多个预设维度的特征向量，每个预设特征维度的特征向量用于表示用户属于与该预设特征维度对应的话题标签的概率。可以理解，该转化模块112可以用于执行上述步骤s120，关于该转化模块112的详细实现方式可以参照上述对步骤s120有关的内容。

决策输出模块113，用于将提取出的话题特征向量输入到目标风控模型中对目标风控模型进行决策输出。可以理解，该决策输出模块113可以用于执行上述步骤s130，关于该决策输出模块113的详细实现方式可以参照上述对步骤s130有关的内容。

在一种可能的实施方式中，转化模块112具体用于：

将用户安装列表信息转化成文本信息列表，获取文本信息列表中每个安装包名对应的应用程序标识信息；

根据每个安装包名对应的应用程序标识信息确定对应的关键词向量，并关键词向量输入到预先训练的lda话题模型，得到多个预设维度的特征向量，作为话题特征向量。

在一种可能的实施方式中，lda话题模型通过以下方式训练得到：

获取预先搜集的多个用户的用户安装列表信息，并从用户安装列表信息中获取每个安装包名对应的应用程序标识信息，将用户安装列表信息转化为应用程序标识列表；

对应用程序标识列表进行分词，得到每个用户的关键词列表；

遍历每个用户的关键词列表，以所有出现过的关键词构建对应的关键词典；

根据构建的关键词典将每个用户的关键词列表转化为关键词向量，并将所有用户的关键词向量组成训练样本，根据预设的话题数目和训练样本训练获得lda话题模型；

在一种可能的实施方式中，转化模块112具体还用于：

在遍历每个用户的关键词列表，以所有出现过的关键词构建对应的关键词典之后，统计所述构建的关键词典中每个关键词在所有用户的关键词列表中的出现频次；

根据每个关键词在所有用户的关键词列表中的出现频次对构建的关键词典进行重新编码，得到重新编码后的关键词典，以基于重新编码后的关键词典执行根据构建的关键词典将每个用户的关键词列表转化为关键词向量的步骤。

在一种可能的实施方式中，决策输出模块113具体用于：

将提取出的话题特征向量输入到目标风控模型中，基于目标风控模型中的风控匹配规则对话题特征向量进行匹配，得到决策输出结果。

基于同一发明构思，请参阅图3，示出了本申请实施例提供的用于执行上述基于文本列表的用户特征提取方法的计算机设备100的结构示意框图，该计算机设备100可以包括基于文本列表的用户特征提取装置110、机器可读存储介质120和处理器130。

本实施例中，机器可读存储介质120与处理器130均位于计算机设备100中且二者分离设置。然而，应当理解的是，机器可读存储介质120也可以是独立于计算机设备100之外，且可以由处理器130通过总线接口来访问。可替换地，机器可读存储介质120也可以集成到处理器130中，例如，可以是高速缓存和/或通用寄存器。

基于文本列表的用户特征提取装置110可以包括存储在机器可读存储介质120的软件功能模块(例如图2中所示的获取模块111、转化模块112以及决策输出模块113)，当处理器130执行基于文本列表的用户特征提取装置110中的软件功能模块时，以实现前述方法实施例提供的基于文本列表的用户特征提取方法。

由于本申请实施例提供的计算机设备100是上述计算机设备100执行的方法实施例的另一种实现形式，且计算机设备100可用于执行上述方法实施例提供的基于文本列表的用户特征提取方法，因此其所能获得的技术效果可参考上述方法实施例，在此不再赘述。

以上所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围，而仅仅是表示本申请的选定实施例。因此，本申请的保护范围应以权利要求的保护范围为准。此外，基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例，都应属于本申请保护的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：顾凌云;谢旻旗;段湾;陈尚伟;张涛;潘峻
技术所有人：上海冰鉴信息科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。