用户挖掘及其模型构建方法、装置及计算机设备与流程

文档序号:17721920发布日期:2019-05-22 02:13阅读:224来源:国知局
用户挖掘及其模型构建方法、装置及计算机设备与流程

本发明涉及大数据技术领域,尤其涉及一种用户挖掘及其模型构建方法、装置及计算机设备。



背景技术:

随着大数据的发展,针对广告投放领域来说,如何高效地获取大量购买产品的潜在用户,现已成为广告投放商的迫切需求。

目前,人工智能技术已广泛应用于广告投放的用户挖掘中,即,基于机器学习模型从广大用户中预测得到目标用户,进而向目标用户推广产品。

然而,在目标用户中,仍可能存在因兴趣爱好等自身原因而对推广产品完全不感兴趣的用户,那么,这一类用户势必不可能成为购买产品的潜在用户,反而增加了广告投放商的投放成本。

由上可知,现有的用户挖掘仍存在准确性不高的问题。



技术实现要素:

为了解决相关技术中存在的用户挖掘的准确率不高的问题,本发明各实施例提供一种用户挖掘及其模型构建方法、装置及计算机设备。

其中,本发明所采用的技术方案为:

根据本发明公开的一方面,一种应用于用户挖掘的模型构建方法,包括:根据目标用户的语义特征表达对待挖掘用户群中的用户进行筛选,得到所包含用户符合语义特征表达的初选用户群;获取所述初选用户群中用户在不同场景的行为数据;基于所述初选用户群中用户在不同场景的行为数据,对所述初选用户群中用户进行多场景行为融合的综合评分;根据所述初选用户群中用户的综合分值,从所述初选用户群中用户在不同场景的行为数据中选取正样本和负样本;通过所述正样本和所述负样本引导机器学习模型进行训练,由完成训练的机器学习模型构建得到用于实现目标用户预测的用户挖掘模型。

根据本发明公开的另一方面,一种用户挖掘方法,包括:获取待挖掘用户群中用户在不同场景的行为数据;调用用户挖掘模型,对所述待挖掘用户群中用户在不同场景的行为数据进行目标用户预测,得到目标用户群;其中,所述用户挖掘模型是通过正样本和负样本引导机器学习模型训练得到的,所述正样本和所述负样本与所述待挖掘用户群中用户在多场景行为融合中的综合分值有关。

根据本发明公开的另一方面,一种应用于用户挖掘的模型构建装置,包括:第一用户筛选模块,用于根据目标用户的语义特征表达对待挖掘用户群中的用户进行筛选,得到所包含用户符合语义特征表达的初选用户群;行为数据获取模块,用于获取所述初选用户群中用户在不同场景的行为数据;用户评分模块,用于基于所述初选用户群中用户在不同场景的行为数据,对所述初选用户群中用户进行多场景综合评分;第二用户筛选模块,用于根据所述初选用户群中用户的综合分值,从所述初选用户群中用户在不同场景的行为数据中选取正样本和负样本;模型构建模块,用于通过所述正样本和所述负样本引导机器学习模型进行训练,由完成训练的机器学习模型构建得到用于实现目标用户预测的用户挖掘模型。

根据本发明公开的另一方面,一种用户挖掘装置,包括:行为数据获取模块,用于获取待挖掘用户群中用户在不同场景的行为数据;目标用户预测模块,用于调用用户挖掘模型,对所述待挖掘用户群中用户在不同场景的行为数据进行目标用户预测,得到目标用户群;其中,所述用户挖掘模型是通过正样本和负样本引导机器学习模型训练得到的,所述正样本和所述负样本与所述待挖掘用户群中用户在多场景行为融合中的综合分值有关。

根据本发明公开的另一方面,一种计算机设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的方法。

根据本发明公开的另一方面,一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。

在上述技术方案中,在基于机器学习模型构建用户挖掘模型时,针对待挖掘用户群中的用户进行多次筛选,以得到纯净的正样本和负样本,由此解决现有技术中用户挖掘的准确性不高的问题。

具体而言,基于待挖掘用户群,根据目标用户的语义特征表达进行第一次用户筛选,并根据用户在多场景行为融合中的综合分值进行第二次用户筛选,得到正样本和负样本,进而通过正样本和负样本引导机器学习模型进行训练,由此构建得到用于实现目标用户预测的用户挖掘模型,由此,进行训练的正样本不仅符合目标用户的语义特征表达,而且在多场景行为融合中具有较高的综合分值,充分地保证了用于训练的样本具有真正意义的正向,进而充分地保证了用户挖掘的准确性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的实施环境的示意图。

图2是根据一示例性实施例示出的一种服务器的硬件结构框图。

图3是根据一示例性实施例示出的一种应用于用户挖掘的模型构建方法的流程图。

图4是图3对应实施例中步骤310在一个实施例的流程图。

图5是图3对应实施例中步骤310在另一个实施例的流程图。

图6是图3对应实施例中步骤350在一个实施例的流程图。

图7是图6对应实施例中步骤351在一个实施例的流程图。

图8是图3对应实施例中步骤390在一个实施例的流程图。

图9是图8对应实施例中步骤393在一个实施例的流程图。

图10是图8对应实施例中步骤393在另一个实施例的流程图。

图11是根据一示例性实施例示出的一种用户挖掘方法的流程图。

图12是图11对应实施例中步骤430在一个实施例的流程图。

图13是一应用场景中一种用户挖掘方法的具体实现示意图。

图14是根据一示例性实施例示出的一种应用于用户挖掘的模型构建装置的框图。

图15是根据一示例性实施例示出的一种用户挖掘装置的框图。

图16是根据一示例性实施例示出的一种计算机设备的框图。

通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1为一种用户挖掘方法所涉及的实施环境的示意图。该实施环境包括用户端110和服务器端130。

具体地,用户端110配置有显示屏幕,以借助显示屏幕向用户展示推荐内容,例如,推荐内容包括广告等。用户端110可以是台式电脑、笔记本电脑、平板电脑、智能手机、掌上电脑等,在此不进行限定。

服务器端130可以是一台服务器,也可以是由多台服务器构成的服务器集群,还可以是由多台服务器构成的云计算中心。其中,服务器是用于向用户提供后台服务的电子设备,例如,后台服务包括用户挖掘及其模型构建服务、广告投放服务等。

当然,根据应用场景的实际需求,不同的后台服务可以部署于不同服务器上,也可以部署于同一服务器上,在此并不进行具体限定。

用户端110与服务器端130通过无线或者有线预先建立网络连接,以通过此网络连接实现用户端110与服务器端130之间的数据传输。例如,所传输的数据包括推荐内容、行为数据等。

对于服务器端130而言,向广告投放商提供用户挖掘服务,即通过用户挖掘模型由待挖掘用户群得到目标用户群,进而向目标用户群中用户投放推荐内容。

通过用户端110与服务器端130之间的交互,对于目标用户群中用户而言,借助用户端110即可接收到服务器端130发送的推荐内容,进而基于配置的显示屏幕进行推荐内容的展示。

图2是根据一示例性实施例示出的一种服务器的硬件结构框图。该种服务器适用于图1所示出实施环境中的服务器端130。

需要说明的是,该种服务器只是一个适配于本发明的示例,不能认为是提供了对本发明的使用范围的任何限制。该种服务器也不能解释为需要依赖于或者必须具有图2中示出的示例性的服务器200中的一个或者多个组件。

服务器200的硬件结构可因配置或者性能的不同而产生较大的差异,如图3所示,服务器200包括:电源210、接口230、至少一存储器250、以及至少一中央处理器(cpu,centralprocessingunits)270。

具体地,电源210用于为服务器200上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口,用于与外部设备交互。例如,进行图1所示出实施环境中用户端110与服务器端130之间的交互。

当然,在其余本发明适配的示例中,接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一usb接口237等,如图2所示,在此并非对此构成具体限定。

存储器250作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统251、应用程序253及数据255等,存储方式可以是短暂存储或者永久存储。

其中,操作系统251用于管理与控制服务器200上的各硬件设备以及应用程序253,以实现中央处理器270对存储器250中海量数据255的运算与处理,其可以是windowsservertm、macosxtm、unixtm、linuxtm、freebsdtm等。

应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序,其可以包括至少一模块(图2中未示出),每个模块都可以分别包含有对服务器200的一系列计算机可读指令。例如,用户挖掘及其模型构建装置可视为部署于服务器200的应用程序253。

数据255可以是存储于磁盘中的照片、图片等,还可以是行为数据、推荐内容等,存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器,并设置为通过至少一通信总线与存储器250通信,以读取存储器250中存储的计算机可读指令,进而实现对存储器250中海量数据255的运算与处理。例如,通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成用户挖掘及其模型构建方法。

此外,通过硬件电路或者硬件电路结合软件也能同样实现本发明,因此,实现本发明并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图3,在一示例性实施例中,一种应用于用户挖掘的模型构建方法适用于图1所示实施环境的服务器端,该服务器端的结构可以如图2所示。

该种应用于用户挖掘的模型构建方法可以由服务器端执行,可以包括以下步骤:

步骤310,根据目标用户的语义特征表达对待挖掘用户群中的用户进行筛选,得到所包含用户符合语义特征表达的初选用户群。

目标用户,是指进行推荐内容投放的用户,也可以理解为,对推荐内容感兴趣的用户。

目标用户的语义特征表达,实质是用于表征目标用户显著特点的文本,例如,关键词等。

符合语义特征表达的用户,则是指具备目标用户显著特点的用户,也即是,对推荐内容感兴趣的用户。

举例来说,假设推荐内容是母婴用品,那么,目标用户则是指可能购买该母婴用品的潜在客户,譬如孕妇或者家里有宝宝的父母等。相应地,该目标用户的语义特征表达包括但不限于:宝宝、育儿、奶粉、奶瓶、尿不湿、手推车、辅食、早教等等。

由此,针对待挖掘用户群中的用户,符合语义特征表达的用户,例如,曾经浏览过辅食相关文章的用户,或者,曾经观看过早教视频的用户等,都有可能成为目标用户,将相应地添加至初选用户群。

而那些不符合语义特征表达的用户,例如,从未浏览过育儿相关文章的用户,或者,从未购买过奶粉的用户等,将视为对推荐内容完全不感兴趣的用户,而未被添加至初选用户群。

也就是说,基于目标用户的语义特征表达对待挖掘用户群中用户进行的第一次用户筛选,剔除了因兴趣爱好等自身原因而对推荐内容完全不感兴趣的用户,使得选取训练样本的用户群由待挖掘用户群缩小至初选用户群,进而有利于确保模型训练的准确性。

步骤330,获取所述初选用户群中用户在不同场景的行为数据。

对于用户而言,场景,是随着用户端中客户端的运行而相应构建的。相应地,行为数据,则是基于用户端中运行的客户端,用户所进行的各种操控行为而生成的。

举例来说,客户端为浏览器客户端,用户可借助浏览器客户端搜索视频、浏览网页中的文章、新闻等,此时,由用户所执行的搜索行为、浏览行为便生成了用户在浏览器场景的行为数据。

或者,客户端为社交客户端,用户可借助社交客户端搜索公众号、浏览订阅号推送的文章等,此时,由用户所执行的搜索行为、浏览行为便生成了用户在社交场景的行为数据。

又或者,客户端为电商平台客户端,用户可借助电商平台客户端搜索心仪商品的图片,进而购买该商品等,此时,由用户所执行的搜索行为、购买行为便生成了用户在电商场景的行为数据。

由上可知,行为数据,实质上记录了用户在场景中所进行的操控行为,简称为用户行为。该行为数据包括但不限于:用户行为的类型、用户行为的发生时间等。其中,用户行为的类型进一步包括:搜索行为、浏览行为、购买行为等。

应当说明的是,用户端所配置的输入组件不同,则用户所进行的各种操控行为也将有所区别。例如,输入组件为鼠标,则用户所进行的各种操控行为可以是单击、双击、拖拽等机械操作,或者,输入组件为触控屏幕,则用户所进行的各种操控行为可以是滑动、点击等手势操作,本实施例对此并未加以限定。

那么,在用户端生成了用户在各种场景的行为数据之后,随着用户端与服务器端之间的交互,对于服务器端而言,便可接收到该用户在各种场景的行为数据,并存储,以便在提供用户挖掘服务时使用。

步骤350,基于所述初选用户群中用户在不同场景的行为数据,对所述初选用户群中用户进行多场景行为融合的综合评分。

可以理解,如果仅考虑用户在某个单一场景中的单一用户行为,相对局限,不仅没有考虑用户在其他场景中的其他用户行为,容易导致模型输入有偏,而且仅简单地依赖于用户行为的行为频次作为用户筛选的依据,无法保证模型输入的纯净度。

为此,本实施例中,首先为用户进行多场景行为融合,然后确定用户在多场景行为融合中的综合评分,以此作为后续第二次用户筛选的依据。

其中,多场景行为融合,是指收集初选用户群中用户在不同场景的行为数据,以便于综合考虑用户在各种场景的各种行为。

综合评分,则反映了初选用户群中用户是否能够成为进行推荐内容投放的用户,也即是,综合评分越高,作为目标用户的概率越大。

可选地,关于综合评分,可以从用户行为的不同维度出发进行,例如,结合用户行为的行为频次和发生时间,以此避免依赖于用户行为的单一维度,进而保证模型输入的纯净度。

步骤370,根据所述初选用户群中用户的综合分值,从所述初选用户群中用户在不同场景的行为数据中选取正样本和负样本。

具体地,正样本,是指初选用户群中综合分值不小于分数阈值的用户在不同场景的行为数据,也即是,通过第一类标签标注的行为数据,该第一类标签用于指示正样本对应的用户属于目标用户类别。

相应地,负样本,则是指初选用户群中综合分值小于分数阈值的用户在不同场景的行为数据,也即是,通过第二类标签标注的行为数据,该第二类标签用于指示负样本对应的用户属于非目标用户类别。

其中,关于负样本的选取,是从初选用户群中用户在不同场景的行为数据中剔除正样本之后,随即选取的。

值得一提的是,用于模型训练的正样本与负样本的数量保持一致。

步骤390,通过所述正样本和所述负样本引导机器学习模型进行训练,由完成训练的机器学习模型构建得到用于实现目标用户预测的用户挖掘模型。

其中,训练,实质上是通过训练样本(正样本和负样本)对机器学习模型的参数加以迭代优化,使得基于此参数构建的指定算法函数收敛。

可选地,机器学习模型可以是随机森林模型、逻辑回归模型、决策树模型等。其中,决策树模型进一步包括自适应提升决策树模型、梯度提升决策树模型。

可选地,指定算法函数包含但不限于:最大期望函数、损失函数等。

也就是说,基于训练样本对机器学习模型进行的训练,用户挖掘模型实质上在行为数据与目标用户之间构建了映射关系。

那么,基于用户挖掘模型所构建的映射关系,将待挖掘用户群中用户在不同场景的行为数据输入至用户挖掘模型,便可预测得到待挖掘用户群中的该用户是否为目标用户。

通过上述过程,正样本和负样本的选取基于初选用户群中用户的综合分值,不同于现有技术基于待挖掘用户群中用户在某个单一场景中单一用户行为的行为频次,避免出现样本偏差问题,充分保证了训练样本(正样本和负样本)的纯净度,更有利于训练得到预测准确率高的用户挖掘模型,进而充分保障了用户挖掘模型构建的准确性。

请参阅图4,在一示例性实施例中,目标用户的语义特征表达包括正向关键词。

如前所述,对于推荐内容是母婴用品而言,宝宝、育儿、奶粉、奶瓶、尿不湿、手推车、辅食、早教等均可作为正向关键词。

相应地,步骤310可以包括以下步骤:

步骤311,获取所述待挖掘用户群中用户浏览过的媒体数据。

其中,媒体数据,可以是文章、图片、视频等。

如前所述,用户可借助用户端中运行的不同客户端进行媒体数据的浏览,例如,用户借助浏览器客户端观看视频、浏览网页中的文章、新闻等,或者,用户借助社交客户端搜索公众号、浏览订阅号推送的文章等,又或者,搜索心仪商品的图片,进而购买该商品等。

应当理解,无论用户基于哪一种客户端进行媒体数据的浏览,客户端都将为用户保存对应的历史浏览记录。

那么,随着用户端与服务器端之间的交互,对于服务器端而言,便可通过历史浏览记录的接收,获取到用户浏览过的媒体数据。

步骤313,在所述媒体数据中,进行所述正向关键词的匹配查找。

在接收到用户浏览过的媒体数据之后,便可通过正向关键词在接收到的媒体数据中进行匹配查找,以确定接收到的媒体数据中是否包含正向关键词。

如前所述,媒体数据可以是文章、图片、视频等,可以理解,文章是文本表达,即包含有关键词,而对于图片、视频来说,则首先需要进行文本转换处理,例如,对视频中的主题、文字部分内容进行关键词提取,或者,对图片进行文本识别,以使图片、视频转换为包含有关键词的文本表达。

基于此,匹配查找,实质是针对媒体数据所包含的关键词,查找是否存在与正向关键词匹配的关键词。

如果查找到与正向关键词匹配的关键词,则确定媒体数据中包含正向关键词,即跳转执行步骤315。

反之,如果未查找到与正向关键词匹配的关键词,则确定媒体数据中不包含正向关键词,即判定待挖掘用户群中的该用户不符合目标用户的语义特征表达。

步骤315,如果所述媒体数据中包含所述正向关键词,则判定所述待挖掘用户群中的该用户符合语义特征表达,将符合语义特征表达的该用户添加至所述初选用户群。

举例来说,假设目标用户被定义为是购买化妆品a的潜在客户,那么,该目标用户的语义特征表达至少包括正向关键词“化妆品a”。

由此,针对待挖掘用户群中的用户来说,只要浏览过关于“化妆品a”的文章、图片、视频等媒体数据,通过正向关键词“化妆品a”在前述媒体数据中的匹配查找,即可判定该用户符合语义特征表达。

由此,在正向关键词的作用下,保证了由正向关键词筛选得到的初选用户群中的用户是真正意义的“正向”,即符合目标用户的语义特征表达,进而有利于基于用户挖掘模型进行的目标用户预测,充分保证了用户挖掘的准确性。

请参阅图5,在一示例性实施例中,目标用户的语义特征表达包括负向关键词。

仍以推荐内容是母婴用品为例进行说明,假设某个用户曾经浏览过关于海马宝宝的文章,虽然该文章涉及了“宝宝”二字,但无法表示该用户即为购买母婴用品的潜在客户,因此,“海马宝宝”可作为负向关键词。

相应地,步骤310还可以包括以下步骤:

步骤312,基于所述初选用户群中用户浏览过的媒体数据,进行所述负向关键词的匹配查找。

同理于正向关键词,匹配查找,是指针对媒体数据所包含的关键词,查找是否存在与负向关键词匹配的关键词。

如果查找到与负向关键词匹配的关键词,则确定媒体数据中包含负向关键词,即跳转执行步骤314。

反之,如果未查找到与负向关键词匹配的关键词,则确定媒体数据中不包含负向关键词,即判定初选用户群中的该用户符合目标用户的语义特征表达,仍然保留在初选用户群中。

步骤314,如果所述媒体数据中包含所述负向关键词,则判定所述初选用户群中的该用户为噪音用户,从所述初选用户群中剔除所述噪音用户。

噪音用户,是指存在于初选用户群,而并非对推荐内容真正感兴趣的用户。

举例来说,假设目标用户被定义为是购买母婴用品的潜在客户,那么,该目标用户的语义特征表达所包括的负向关键词可以有“海马宝宝”等。

由此,针对初选用户群中的用户来说,如果浏览过关于“海马宝宝”的文章、图片、视频等媒体数据,通过负向关键词“海马宝宝”在前述媒体数据中的匹配查找,即判定该用户不符合语义特征表达,属于噪音用户。

也就是说,通过负向关键词的作用,使得初选用户群中的噪音用户被剔除,即剔除了可能存在歧义或者多义的非真正意义的“正向”,进一步保证了初选用户群中用户的纯净度,进而有利于基于用户挖掘模型进行的目标用户预测,充分保障了用户挖掘的准确性。

请参阅图6,在一示例性实施例中,步骤350可以包括以下步骤:

步骤351,针对所述初选用户群中用户在同一场景的行为数据,从用户行为的至少一个维度确定评分系数。

如前所述,用户行为是通过行为数据所记录的用户在场景中进行的操控行为,那么,用户行为的至少一个维度,则可以指相同用户行为的次数、用户行为的发生时间、用户行为的重要性等。

由此,所述评分系数包括但不限于:行为频次、行为时间衰减值和行为权重值。

步骤353,根据所述评分系数,计算得到所述初选用户群中用户对应同一场景的行为分值。

具体地,对所述行为频次、行为时间衰减值和行为权重值进行乘法运算,得到所述初选用户群中用户对应同一场景的行为分值。

对于初选用户群中用户i而言,对应同一场景的行为分值计算过程如计算公式(1)所示:

scorei=weightsource×exp-ln2×time×sigmoid(actioncnt)(1)。

其中,score表示用户i对应场景source的行为分值。weightsource表示对应场景source的行为权重值,行为权重值越高,综合分值越高,反之,行为权重值越低,综合分值越低。

actioncnt表示行为频次,sigmoid()则表示对actioncnt进行归一化处理,也即是,行为频次越高,综合分值越高,反之,行为频次越低,综合分值越低。

time表示行为时间衰减值,进一步地,time=|t1-t2|。

其中,t1表示行为数据中用户行为的发生时间,t2表示进行用户挖掘的当前时间,也可以理解为,系统当前时间。

为此,time实质表征的是行为时间差的绝对值,那么,行为的发生时间距离系统当前时间越近,综合分值越高,反之,行为的发生时间距离系统当前时间越远,综合分值越低。

步骤355,将所述初选用户群中用户对应不同场景的行为分值相加,得到所述初选用户群中用户的综合分值。

对于初选用户群中某个用户而言,综合分值的计算过程如计算公式(2)所示:

其中,score表示综合分值,source0~n表示场景0~n,scorei表示用户i对应于不同场景的行为分值。

在上述实施例的作用下,实现了为用户进行多场景行为融合的综合评分,为第二次用户筛选提供了依据,以此确保了用户挖掘的准确性。

请参阅图7,在一示例性实施例中,步骤351可以包括以下步骤:

步骤3511,针对已进行推荐内容投放的历史用户群,对所述历史用户群中用户在不同场景的行为数据进行显著性分析,得到所述历史用户群中用户在不同场景的显著性分值。

显著性分析,目的在于验证历史用户群中哪些用户更适合进行推荐内容的投放,实质是基于历史用户群中用户在不同场景的行为数据计算对应的显著性分值。

可选地,显著性分值,也即是用户转化率,可以是成交率、点击率、搜索率、浏览率中的任意一种或者几种的组合。

步骤3513,对所述历史用户群中用户在不同场景的显著性分值进行归一化处理,得到多个行为权重值,每一个行为权重值对应一种场景。

应当理解,对于历史用户群中的每一个用户而言,该用户因自身兴趣爱好、行为习惯等原因在不同场景的行为数据各不相同,那么,该用户在不同场景的显著性分值也将有所区别。

例如,该用户更喜欢借助浏览器客户端购物,而不是基于电商平台客户端,那么,对于该用户而言,针对浏览器客户端中产生的行为数据、以及电商平台客户端中产生的行为数据,进行显著性分析,该用户在浏览器场景的显著性分值将明显高于电商场景的显著性分值。

为此,本实施例中,将对该用户在不同场景的显著性分值进行归一化处理,以得到对应于场景的行为权重值,进而更加准确地反映用户对于不同场景的偏好,从而确保用户挖掘的准确性。

举例来说,针对历史用户群中的用户a,假设用户a在场景c1的显著性分值为m1,在场景c2的显著性分值为m2,在场景c3的显著性分值为m3。

那么,对于用户a而言,

当然,行为权重值可以针对不同用户的显著性分值分别配置,也可以基于所有用户的显著性平均分值进行配置,本实施例并非对此构成具体限定。

由此,在进行多场景行为融合时,不同场景基于已进行推荐内容投放的历史用户群而配置了各自对应的行为权重值,不依赖于人工实现,将跟随推荐内容投放时间的变化而相应地变化,进一步确保用户挖掘的准确性。

请参阅图8,在一示例性实施例中,步骤390可以包括以下步骤:

步骤391,分别进行所述正样本和负样本的特征提取。

如前所述,行为数据,记录了用户在场景中的用户行为,行为数据包括但不限于:用户行为的类型、用户行为的发生时间。

为此,特征,是以行为数据为基础,转化得到的一串数字集合,进而以数字的形式唯一地标识行为数据所记录的用户在场景中的用户行为,即实现了对行为数据所记录用户在场景中的用户行为的准确描述。

关于特征提取,可以是将行为数据中的用户行为的类型按照用户行为的发生时间顺序拼接,也可以是对行为数据中用户行为的类型进行累加运算,还可以基于用户行为的发生次数作进一步统计。

举例来说,首先对用户行为的类型按照用户行为的发生时间进行排序,此时,行为数据包括:用户行为的类型1、用户行为的类型2、用户行为的类型3、用户行为的类型1、用户行为的类型1。

在此说明下,用户行为的类型通过数字表示,用户行为的类型相同则表示用户在场景中不同时刻存在相同的用户行为。

基于此,将排序后的用户行为的类型进行拼接,即提取得出特征=[1,2,3,1,1]。

当然,还可以基于连续发生的相同的用户行为,将特征进一步转化为[(1,1),(2,1),(3,1),(1,2)]。

步骤393,对提取到的特征进行特征选择处理,得到目标特征。

可选地,特征选择处理可以基于信息增益、互信息熵、相似度、一致性等进行,本实施例对此并未构成具体限定。

例如,行为数据a提取到的特征为a1,行为数据b提取到的特征为b1,假设由行为数据a预测得到用户属于目标用户,由行为数据b预测得到用户属于非目标用户,而特征a1=特征b1。

那么,基于一致性的特征选择处理,特征a1和特征b1不能够作为目标特征。

通过特征选择,输入至用户挖掘模型的目标特征越纯净,有利于基于用户挖掘模型进行的目标用户预测,充分确保目标用户预测的准确性。

步骤395,根据所述目标特征和所述机器学习模型的参数构建损失函数。

步骤397,在所述损失函数通过所述机器学习模型的反向传播收敛时,由完成训练的机器学习模型构建得到所述用户挖掘模型。

现以指定算法函数为损失函数说明机器学习模型的训练过程。

具体而言,随机初始化机器学习模型的参数,根据当前一个训练样本的特征,基于随机初始化的参数通过前向传播进行概率计算,通过计算的概率预测用户是目标用户还是非目标用户,基于预测得到的用户类别与正确标注(用户的真实类别)之间的dice距离构建损失函数,并进一步地计算该损失函数的损失值。

如果损失函数的损失值未达到最小,则通过反向传播更新机器学习模型的参数,并根据后一个训练样本的特征,基于更新的参数进行概率计算,通过计算的概率重新预测用户类别,基于重新预测得到的用户类别与正确标注之间的dice距离重新构建损失函数,并再次计算重新构建的损失函数的损失值。

如此迭代循环,直至所构建损失函数的损失值达到最小,即视为损失函数收敛,此时,机器学习模型也收敛,并符合预设精度要求,则停止迭代。

否则,迭代更新机器学习模型的参数,并根据其余训练样本的特征和更新的参数,计算由此构建的损失函数的损失值,直至损失函数收敛。

值得一提的是,如果在损失函数收敛之前,迭代次数已经达到迭代阈值,也将停止迭代,以此保证机器学习模型训练的效率。

当机器学习模型收敛并符合预设精度要求时,表示机器学习模型完成训练,便可基于完成训练的机器学习模型构建得到应用于目标用户预测的用户挖掘模型。

请参阅图9,在一示例性实施例中,步骤393可以包括以下步骤:

步骤3931,针对提取得到的每一个特征,计算对应的信息增益。

步骤3933,如果计算得到的信息增益超过增益阈值,则将所述信息增益超过所述增益阈值的特征作为所述目标特征。

特征的信息增益,用于表征特征的有效性,计算公式如(3-1)、(3-2)、(3-3)所示。

其中,y表示由提取到特征所构成的特征集合,y中的特征包括{y1、y2、y3、……ym},每一个特征yi出现的概率为pi,则h(y)表示y的信息熵。

其中,xi表示提取得到的另一个特征且不存在于y中,h(y|x=xi)表示由特征xi构成的特征集合y的信息熵,则h(y|x)表示以xi作为附加条件时y的条件信息熵,也可以理解为,是y加入特征xi的信息熵。

ig(y|x)=h(y)-h(y|x)(3-3)。

其中,h(y)表示y的信息熵,h(y|x)表示y加入特征xi的信息熵,则ig(y|x)表示加入特征xi前后y的信息增益,也可以理解为,是特征xi的信息增益。

也就是说,如果特征xi的信息增益越大,该特征xi使y趋于确定性的程度就越高,亦即使得y中各特征的分布愈纯,那么,该特征xi越有效,在输入至用户挖掘模型时越有利于提高目标用户预测的准确率。

为此,信息增益超过增益阈值的特征可作为目标特征输入至用户挖掘模型。

请参阅图10,在一示例性实施例中,步骤393还可以包括以下步骤:

步骤3932,计算不同目标特征之间的互信息熵。

步骤3934,如果计算得到的互信息熵超过熵阈值,则将所述互信息熵超过所述熵阈值的目标特征作为冗余特征。

步骤3936,将所述冗余特征从所述目标特征中剔除。

互信息熵,用于表征特征之间的冗余程度,也可以理解为,表征了特征之间的相关性,计算公式(4)如下所示:

其中,x表示一个目标特征,y表示另一个目标特征,p(x)表示特征分量x在目标特征x中出现的概率,p(y)表示特征分量y在目标特征y中出现的概率,p(x,y)表示x、y的联合分布概率,则i(x;y)表示目标特征x、y之间的互信息熵。

也就是说,如果互信息熵越大,特征之间的冗余程度越大,此时,输入至用户挖掘模型时反而不利于提高目标用户预测的准确率。

为此,互信息熵超过熵阈值的目标特征将作为冗余特征而被剔除,以此保证目标特征的有效性。

通过上述实施例的配合,实现了基于信息增益和互信息熵的特征选择,相对于现有技术中的粗放式特征输入,即将所有提取到的特征都用于目标用户的预测,避免无效、不真实的特征输入至用户挖掘模型,充分确保所输入的目标特征对模型起到正向作用,从而更有利于提高目标用户预测的准确率。

请参阅图11,在一示例性实施例中,一种用户挖掘模型方法适用于图1所示实施环境的服务器端,该服务器端的结构可以如图2所示。

该种用户挖掘模型方法可以由服务器端执行,可以包括以下步骤:

步骤410,获取待挖掘用户群中用户在不同场景的行为数据。

关于待挖掘用户群中用户在不同场景的行为数据的获取,与前述初选用户群中用户群中用户在不同场景的行为数据的获取过程一致,在此不重复描述。

步骤430,调用用户挖掘模型,对所述待挖掘用户群中用户在不同场景的行为数据进行目标用户预测,得到目标用户群。

其中,所述用户挖掘模型是通过正样本和负样本引导机器学习模型训练得到的,所述正样本和所述负样本与所述待挖掘用户群中用户在多场景行为融合中的综合分值有关。

在一实施例中,如图12所示,步骤430可以包括以下步骤:

步骤431,对所述待挖掘用户群中用户在不同场景的行为数据进行特征提取。

此处,特征提取过程与模型训练中的特征提取过程一致,不重复描述。

步骤433,将提取到的特征输入至所述用户挖掘模型,计算所述待挖掘用户群中用户属于不同用户类别的概率。

本实施例中,目标用户预测,是基于机器学习中设置的分类器实现的,即采用分类器计算候选用户群中用户属于不同用户类别的概率。

其中,用户类别包括目标用户类别和非目标用户类别。

步骤435,根据计算得到的概率,确定所述待挖掘用户群中的用户是否属于目标用户类别,将所述待挖掘用户群中属于目标用户类别的用户添加至所述目标用户群。

举例来说,对于待挖掘用户群中的用户a而言,分别计算用户a属于不同用户类别的概率,假设用户a属于目标用户类别的概率为p1,用户a属于非目标用户类别的概率为p2。

那么,如果p1>p2,则表示用户a属于目标用户类别,即确定待挖掘用户群中用户a为目标用户,反之,如果p1<p2,则表示用户a属于非目标用户类别,即确定待挖掘用户群中用户a并非目标用户。

由此,如果待挖掘用户群中用户a为目标用户,则将用户a添加至目标用户群。

当然,在其他实施例中,为了进一步提高用户挖掘的准确性,还可以设置概率阈值,那么,只有当用户a属于目标用户类别的概率p1超过概率阈值,方可视为目标用户,进而作为目标用户添加至目标用户群。

其中,概率阈值可以根据应用场景的实际需要进行灵活地调整,例如,在对用户挖掘的准确性要求较高的应用场景中,概率阈值设置为0.75,此处并未构成具体限定。

通过如上所述的过程,实现了高效的用户挖掘。

图13是一应用场景中一种用户挖掘方法的具体实现示意图。该应用场景是为广告投放商进行用户挖掘,以得到具有购买母婴类广告所推荐母婴产品的潜在客户。

该应用场景中,包括两路分支:训练分支和预测分支。

训练分支:

基于训练样本,即正样本和负样本,实现用户挖掘模型的构建。其中,正样本和负样本,是基于多次用户筛选得到的,以此提高用户挖掘的准确率。

具体地,如图13所示,通过执行步骤700,根据目标用户的语义特征表达对待挖掘用户群中的用户进行第一次用户筛选,得到初选用户群。

其中,目标用户的语义特征表达不仅可以表示目标用户的基础特征,包括年龄、性别、地域、学历、职业、上网时长、上网场景等,还可以表示目标用户的兴趣特征,包括感兴趣的电商平台、感兴趣的话题搜索、感兴趣的资讯、感兴趣的泛娱乐项目等,甚至还表示用于第一次用户筛选的关键词的kl散度(kullback-leiblerdivergence)特征,包括宝宝、育儿、奶粉、奶瓶、尿不湿、手推车、辅食、早教等,进而充分保证了训练样本的可靠性。

通过执行步骤701至步骤702,基于初选用户群中用户在不同场景的行为数据所确定的综合分值,进行第二次用户筛选,得到正样本和负样本703,以此确保训练样本的纯净度,进而有利于提高模型训练效果。

通过执行步骤704,基于正样本和负样本进行特征提取和选择,得到目标特征,以此确保输入至机器学习模型的特征的有效性,进而有利于提高模型训练效果。

通过执行步骤705,利用目标特征对机器学习模型加以训练,并存储得到用户挖掘模型。

预测分支:

为广告投放商实时预测目标用户群,以将目标用户群中的用户作为潜在客户,定向投放母婴类广告。

具体地,如图13所示,通过执行步骤706至步骤707,基于待挖掘用户群中用户的行为数据,进行特征提取。

通过执行步骤708至步骤709,将提取得到的特征输入至用户挖掘模型进行目标预测,得到目标用户群。

由此,完成了用户挖掘的全过程,使得广告投放商能够基于目标用户群中的用户进行母婴类广告的定向投放。

本应用场景中,实现了模型自训练,即随着训练样本的增加,目标用户的预测能力将随之不断地增强,而且无需人工维护,不仅有利于降低人工成本,提高目标用户预测的智能化,而且有效地提高了目标预测的准确率率。

此外,结合高纯度正负样本的获取、以及有效特征的输入,不仅有利于提高模型的训练效果,而且有利于提高模型的预测效果,以此有效地提升了用户挖掘的准确率。

下述为本发明装置实施例,可以用于执行本发明所涉及的用户挖掘及其模型构建方法。对于本发明装置实施例中未披露的细节,请参照本发明所涉及的用户挖掘及其模型构建方法的方法实施例。

请参阅图14,在一示例性实施例中,一种应用于用户挖掘的模型构建装置900包括但不限于:第一用户筛选模块910、行为数据获取模块930、用户评分模块950、第二用户筛选模块970及模型构建模块990。

其中,第一用户筛选模块910,用于根据目标用户的语义特征表达对待挖掘用户群中的用户进行筛选,得到所包含用户符合语义特征表达的初选用户群。

行为数据获取模块930,用于获取所述初选用户群中用户在不同场景的行为数据。

用户评分模块950,用于基于所述初选用户群中用户在不同场景的行为数据,对所述初选用户群中用户进行多场景行为融合的综合评分。

第二用户筛选模块970,用于根据所述初选用户群中用户的综合分值,从所述初选用户群中用户在不同场景的行为数据中选取正样本和负样本。

模型构建模块990,用于通过所述正样本和所述负样本引导机器学习模型进行训练,由完成训练的机器学习模型构建得到用于实现目标用户预测的用户挖掘模型。

在一示例性实施例中,所述目标用户的语义特征表达包括正向关键词。

相应地,所述第一用户筛选模块910包括但不限于:媒体数据获取单元、第一匹配查找单元和第一用户添加单元。

其中,媒体数据获取单元,用于获取所述待挖掘用户群中用户浏览过的媒体数据。

第一匹配查找单元,用于在所述媒体数据中,进行所述正向关键词的匹配查找。

第一用户添加单元,用于如果所述媒体数据中包含所述正向关键词,则判定所述待挖掘用户群中的该用户符合语义特征表达,将符合语义特征表达的该用户添加至所述初选用户群。

在一示例性实施例中,所述目标用户的语义特征表达还包括负向关键词。

相应地,所述第一用户筛选模块910还包括但不限于:第二匹配查找单元和用户剔除单元。

其中,第二匹配查找单元,用于基于所述初选用户群中用户浏览过的媒体数据,进行所述负向关键词的匹配查找。

用户剔除单元,用于如果所述媒体数据中包含所述负向关键词,则判定所述初选用户群中的该用户为噪音用户,从所述初选用户群中剔除所述噪音用户。

在一示例性实施例中,所述用户评分模块950包括但不限于:确定评分系数单元、行为分值计算单元和行为分值相加单元。

其中,确定评分系数单元,用于针对所述初选用户群中用户在同一场景的行为数据,从用户行为的至少一个维度确定评分系数。

行为分值计算单元,用于根据所述评分系数,计算得到所述初选用户群中用户对应同一场景的行为分值。

行为分值相加单元,用于将所述初选用户群中用户对应不同场景的行为分值相加,得到所述初选用户群中用户的综合分值。

在一示例性实施例中,所述评分系数包括行为权重值。

相应地,所述确定评分系数单元包括但不限于:显著性分析子单元和归一化处理子单元。

其中,显著性分析子单元,用于针对已进行推荐内容投放的历史用户群,对所述历史用户群中用户在不同场景的行为数据进行显著性分析,得到所述历史用户群中用户在不同场景的显著性分值。

归一化处理子单元,用于对所述历史用户群中用户在不同场景的显著性分值进行归一化处理,得到多个行为权重值,每一个行为权重值对应一种场景。

在一示例性实施例中,所述评分系数包括行为频次、行为时间衰减值和行为权重值。

相应地,所述行为分值计算单元包括但不限于:乘法运算子单元。

其中,乘法运算子单元,用于对所述行为频次、行为时间衰减值和行为权重值进行乘法运算,得到所述初选用户群中用户对应同一场景的行为分值。

在一示例性实施例中,所述第二用户筛选模块970包括但不限于:正样本选取单元和负样本选取单元。

其中,正样本选取单元,用于如果所述初选用户群中用户的综合分值超过分数阈值,则将综合分值不小于分数阈值的用户在不同场景的行为数据作为所述正样本。

负样本选取单元,用于从综合分值小于分数阈值的用户在不同场景的行为数据中随机选取得到所述负样本。

在一示例性实施例中,所述模型构建模块990包括但不限于:特征提取单元、特征选择单元、函数构建单元和函数收敛单元。

其中,特征提取单元,用于对所述候选用户群中用户在不同场景的行为数据进行特征提取。

特征选择单元,用于对提取到的特征进行特征选择处理,得到目标特征。

函数构建单元,用于根据所述目标特征和所述机器学习模型的参数构建损失函数。

函数收敛单元,用于在所述损失函数通过所述机器学习模型的反向传播收敛时,由完成训练的机器学习模型构建得到所述用户挖掘模型。

在一示例性实施例中,所述特征选择单元包括但不限于:信息增益计算子单元和特征添加单元。

其中,信息增益计算子单元,用于针对提取得到的每一个特征,计算对应的信息增益。

特征添加单元,用于如果计算得到的信息增益超过增益阈值,则将所述信息增益超过所述增益阈值的特征作为所述目标特征。

在一示例性实施例中,所述特征选择单元还包括但不限于:互信息熵计算子单元、特征定义子单元和特征剔除子单元。

其中,互信息熵计算子单元,用于计算不同目标特征之间的互信息熵。

特征定义子单元,用于如果计算得到的互信息熵超过熵阈值,则将所述互信息熵超过所述熵阈值的目标特征作为冗余特征。

特征剔除子单元,用于将所述冗余特征从所述目标特征中剔除。

请参阅图15,在一示例性实施例中,一种用户挖掘装置1100包括但不限于:行为数据获取模块1110和目标用户预测模块1130。

其中,行为数据获取模块1110,用于获取待挖掘用户群中用户在不同场景的行为数据。

目标用户预测模块1130,用于调用用户挖掘模型,对所述待挖掘用户群中用户在不同场景的行为数据进行目标用户预测,得到目标用户群。

其中,所述用户挖掘模型是通过正样本和负样本引导机器学习模型训练得到的,所述正样本和所述负样本与所述待挖掘用户群中用户在多场景行为融合中的综合分值有关。

在一示例性实施例中,目标用户预测模块1130包括但不限于:特征提取单元、概率计算单元和目标用户判定单元。

其中,特征提取单元,用于对所述待挖掘用户群中用户在不同场景的行为数据进行特征提取。

概率计算单元,用于将提取到的特征输入至所述用户挖掘模型,计算所述待挖掘用户群中用户属于不同用户类别的概率。

目标用户判定单元,用于根据计算得到的概率,确定所述待挖掘用户群中的用户是否属于目标用户类别,将所述待挖掘用户群中属于目标用户类别的用户添加至所述目标用户群。

在一示例性实施例中,所述装置1100还包括但不限于:内容投放模块。

其中,内容投放模块,用于获取推荐内容,将所述推荐内容投放至所述目标用户群。

需要说明的是,上述实施例所提供的装置在进行相关处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即装置的内部结构将划分为不同的功能模块,以完成以上描述的全部或者部分功能。

另外,上述实施例所提供的装置与方法实施例属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。

请参阅图16,在一示例性实施例中,一种计算机设备1000,包括至少一处理器1001、至少一存储器1002、以及至少一通信总线1003。

其中,存储器1002上存储有计算机可读指令,处理器1001通过通信总线1003读取存储器1002中存储的计算机可读指令。

该计算机可读指令被处理器1001执行时实现上述各实施例中的应用于用户挖掘的模型构建方法。

在一示例性实施例中,一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例中的应用于用户挖掘的模型构建方法。

上述内容,仅为本发明的较佳示例性实施例,并非用于限制本发明的实施方案,本领域普通技术人员根据本发明的主要构思和精神,可以十分方便地进行相应的变通或修改,故本发明的保护范围应以权利要求书所要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1