一种人机交互构建用户画像聚类计算方法与流程

文档序号:12786546阅读:489来源:国知局

本发明涉及用户画像领域,尤其涉及一种人机交互构建用户画像聚类计算方法。



背景技术:

用户画像,即用户信息标签化,就是通过收集与分析用户社会属性、生活习惯、行为等主要信息的数据之后,完美地抽象出一个用户的全貌。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。其中,属性是进行用户画像所需要统计的维度,如性别下的男和女,年龄下的少年、青年、中年、老年,收入等级下的贫困,中低,中等,富裕等。

现有技术中用户画像方法主要有两种:通过用户的注册信息直接画出用户画像的方法;对用户的行为进行监测,而后为用户打上各种标签,后台工作人员利用个人经验对所有标签进行分析推导得出用户画像的方法。

但现有技术过于依赖后台工作人员个人因素会导致得到的用户画像结果的差异性很大,同时也很难避免噪音标签对用户画像的干扰,而且也没有考虑到标签的时效性,导致最终得到的用户画像不够精确。



技术实现要素:

本发明提供的人机交互构建用户画像聚类计算方法,通过精确计算行为分值,比较后确定其行为属性,从而获得用户画像,既保证了时效性,又能得到更加精确的用户画像。

本发明提供的技术方案为:

一种人机交互构建用户画像聚类计算方法,包括:

步骤一:获取用户发送的基于自然情景的语句,采用阈值语音降噪算法对输入语句进行滤波降噪,并从用户下达给机器人指令中提取代表用户特征的关键词作为特征标签,并给每个特征标签赋予初始分值和初始加权值,全部特征标签的集合构成标签数据库;

步骤二:根据一段时间内为用户打上的每一种标签的数量、使用频率和使用时间、利用推导规则从标签推导出的属性、推导规则的逻辑强度值,确定每一种标签推导出的各种属性的行为分值;

步骤三:将其中一种标签推导出的其中一种属性的行为分值与预定阈值进行对比,判断是否能够确定用户属性包含所述其中一种属性,若否,则利用所述行为分值连同其他标签下的对应于所述其中一种属性的行为分值推算联合行为属性阈值,通过联合行为属性阈值判断是否能够确定用户属性包含所述其中一种属性;

步骤四:通过多个语义化的用户属性来还原用户的全貌,完成用户画像。

优选的是,所述用户画像信息为描述包括所述用户个性、特点和行为特征的信息。

优选的是,所述步骤二之前,还包括建立标签规则库:

提供标签、属性、以及标签和属性之间的推导规则;

根据所述标签和属性之间的推导规则的强弱设置相应的逻辑强度值。

优选的是,所述行为分值为:

其中,Ii为对应标记为i属性的行为分值,Li0为初始分值,ωio为初始加权值,m为标签数量,f为标签使用频率。

优选的是,还包括获得并存储终端的上报信息,包括:

获得终端通过软件开发包SDK方式传输的源上报信息,或者获得终端通过JS代码方式传输的源上报信息;

对所述源上报信息进行筛选获得上报信息;

将所述上报信息与预设标识符关联存储。

优选的是,还包括:基于所述关联存储的标识信息,调整机器人的指令推送比重。

优选的是,所述步骤三中联合行为属性阈值为:

Ii为对应标签为i属性的行为分值,Ii+1为其他标签为i+1属性的行为分值

优选的是,所述语音降噪算法,包括:

a,通过端点检测将语音帧区分为静音帧和语音帧;

b,对于静音帧,计算当前帧的功率谱值作为噪声功率谱估计值,对于语音帧,计算语音噪声功率谱估计值;

c,将语音帧的功率谱减去噪声功率谱估计值,得到降噪后的语音功率谱;

d,根据降噪后的语音功率谱得出降噪后的语音帧。

优选的是,所述语音噪声功率谱估计值计算公式为:

其中,I为噪声功率谱能量;阈值n为噪音信号的帧号;j=1-5为转换系数,e为自然常数;π为圆周率;fc为噪音信号的频率;τ(t)=0.03t2+0.6t+0.1;t为分解尺度,1≤t≤4。

本发明的有益效果

本发明提供的人机交互构建用户画像聚类计算方法,通过精确计算行为分值,比较后确定其行为属性,从而获得用户画像,既保证了时效性,又能得到更加精确的用户画像。

附图说明

图1为本发明所述的人机交互构建用户画像聚类计算方法的流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。

如图1所示,本发明提供的人机交互构建用户画像聚类计算方法,包括以下步骤:

步骤一:检测用户行为,并从用户下达给机器人指令中提取代表用户特征的关键词作为特征标签,并给每个特征标签赋予初始分值Li0和初始加权值ωio,全部特征标签的集合构成标签数据库;

步骤二:根据一段时间内为用户打上的每一种标签的数量m、使用频率f和使用时间t、利用推导规则从标签推导出的属性、推导规则的逻辑强度值,确定每一种标签推导出的各种属性的行为分值;

其中,Ii为对应标记为i属性的行为分值,Li0为初始分值,ωio为初始加权值,m为标签数量,f为标签使用频率;

步骤三:将其中一种标签推导出的其中一种属性的行为分值与预定阈值进行对比,

当时,则判断是否能够确定用户属性包含该属性;

当时,则利用所述行为分值连同其他标签下的对应于所述其中一种属性的行为分值推算联合行为属性阈值,其中

为联合属性行为阈值,Ii为对应标签为i属性的行为分值,Ii+1为其他标签为i+1属性的行为分值,

当时,确定用户属性包含所述该属性,若否则不包含该属性,其中为联合属性行为阈值平均值,

步骤四:通过多个语义化的用户属性来还原用户的全貌,完成用户画像。优选的是,所述用户画像信息为描述包括所述用户个性、特点和行为特征的信息。

在另一实施例中,步骤S200之前,还包括建立标签规则库;提供标签、属性、以及标签和属性之间的推导规则;根据所述标签和属性之间的推导规则的强弱设置相应的逻辑强度值。

在另一实施例中,还包括获得并存储终端的上报信息,包括:获得终端通过软件开发包SDK方式传输的源上报信息,或者获得终端通过JS代码方式传输的源上报信息;对源上报信息进行筛选获得上报信息;将上报信息与预设标识符关联存储,并关联存储的标识信息,调整机器人的指令推送比重。

实施以人际交互式用户画像计算过程为例,作进一步说明:

首先,检测用户行为,并从用户下达给机器人指令中提取代表用户特征的关键词作为特征标签,并给每个特征标签赋予初始分值Li0和初始加权值ωio,全部特征标签的集合构成标签数据库;标签群还可以是由多个子标签群构成,不同的子标签群与不同维度的属性相对应,例如:用户年龄子标签群与用户年龄维度属性相对应、用户消指令喜好子标签群与用户指令喜好维度属性相对应等,由用户各个不同维度的属性共同构成了用户画像;

然后,根据一段时间内为用户打上的标签“恐龙”的数量m、使用频率f和使用时间t、利用推导规则从标签“恐龙”推导出的属性为“儿童”、,确定标签“恐龙”推导出属性“儿童”的行为分值Ii,并将其与预定阈值进行对比,当时,则确定用户为儿童。

当当对应于用户年龄属性下的的标签“恐龙”的参考值小于或等于阈值时,则引入用户的同样对应于儿童的标签“机器人”作为第二标签,

用标签“恐龙”推导出属性“儿童”的行为分值Ii连同“机器人”推导出属性“儿童”的行为分值Ii+1推算联合行为属性阈值

当时,确定用户属性包含儿童属性,若否,则不包含该属性,其中为联合属性行为阈值平均值。

若时,则引入第三标签“皮球”共同确定属性,且确定用户为儿童;若属性参考叠加值仍小于预定阈值,则依次类推,引入用户的对应于儿童的新的标签作为第四标签、第五标签…,直到所述各标签的参照值加权求和所得的值大于阈值,则确定用户为儿童。

在另一实施例中,阈值语音降噪算法,包括:

a,通过端点检测将语音帧区分为静音帧和语音帧;

b,对于静音帧,计算当前帧的功率谱值作为噪声功率谱估计值,对于语音帧,计算语音噪声功率谱估计值;

c,将语音帧的功率谱减去噪声功率谱估计值,得到降噪后的语音功率谱;

d,根据降噪后的语音功率谱得出降噪后的语音帧。

语音噪声功率谱估计值计算公式为:

其中,I为噪声功率谱能量;阈值n为噪音信号的帧号;j=1-5为转换系数,e为自然常数;π为圆周率;fc为噪音信号的频率;τ(t)=0.03t2+0.6t+0.1;t为分解尺度,1≤t≤4。

通过多个语义化的用户属性来还原用户的全貌,完成用户画像,用户画像信息为描述包括所述用户个性、特点和行为特征的信息。

本发明提供的人机交互构建用户画像聚类计算方法,通过精确计算行为分值,比较后确定其行为属性,从而获得用户画像,既保证了时效性,又能得到更加精确的用户画像。

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1