用户兴趣模型更新方法及相关装置制造方法

文档序号:6633440阅读:401来源:国知局
用户兴趣模型更新方法及相关装置制造方法
【专利摘要】本发明实施例公开了用户兴趣模型更新方法及相关装置。用户兴趣模型通过概念层次树表示,概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键词,一个或多个兴趣关键词归属于同一兴趣类,一个或多个兴趣类归属于同一兴趣簇;方法包括:将用户的操作行为转化为文本,从文本中提取出兴趣关键词;对兴趣关键词聚类,得到至少一个兴趣类;使用聚类得到的兴趣类更新概念层次树。可见,在本发明实施例中,根据用户的操作行为提取兴趣关键词,对新增信息(兴趣关键词)进行聚类,使新增信息不至于杂乱无序得存在于用户兴趣模型中。新增信息即使较多,但聚类后,得到的类别的数目要远小于新增信息的数目,从而可减少对用户兴趣表达的准确度的影响。
【专利说明】用户兴趣模型更新方法及相关装置

【技术领域】
[0001] 本发明涉及通信【技术领域】,具体涉及用户兴趣模型更新方法及相关装置。

【背景技术】
[0002] 用户推荐装置可向用户自动推荐可能感兴趣的网站、文章、新闻、商品等推荐信 息。当前通信领域的用户推荐装置的推荐过程(例如数据分析平台、推送平台)一般包含 用户建模、项目匹配和推荐输出三个阶段。其中,用户兴趣建模在很大程度上决定了推荐的 成功率;用户兴趣建模是获取和维护与用户兴趣、需求或习惯相关的知识的过程,其结果将 产生一个表示用户特有兴趣和需求的用户兴趣模型。
[0003] 当用户兴趣发生改变时,用户兴趣模型也需要进行相应的更新。用户兴趣建模更 新的一种现有方式是从用户反馈中抽取新信息添加到用户兴趣模型中以更新用户兴趣模 型。在增加的新信息的数量比较多的情况下,用户兴趣模型对用户兴趣表达的准确度就会 降低,进而向用户推荐的匹配项的精准度就会受到影响。


【发明内容】

[0004] 本发明的目的在于提供用户模型更新方法及相关装置,以解决在增加的新信息的 数量比较多的情况下,用户兴趣模型对用户兴趣表达的准确度就会降低的问题。
[0005] 本发明提供如下技术方案:
[0006] 根据本发明的第一方面,提供用户兴趣模型更新方法,所述用户兴趣模型通过概 念层次树结构表示,所述概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键 词,一个或多个兴趣关键词归属于同一兴趣类,一个或多个兴趣类归属于同一兴趣簇;
[0007] 所述方法包括:
[0008] 将用户的操作行为转化为文本,从文本中提取出关键词,所述关键词为兴趣关键 词;
[0009] 对提取出的兴趣关键词进行聚类,得到至少一个兴趣类;
[0010] 使用聚类得到的兴趣类更新所述概念层次树。
[0011] 结合第一方面,在第一种可能的实现方式中,所述用户兴趣模型包括短期兴趣模 型和长期兴趣模型;所述概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴趣类被 记录为归属于所述短期兴趣模型;所述概念层次树中的兴趣簇被记录为归属于所述长期兴 趣模型,或者,所述概念层次树中的兴趣簇和表征用户长期兴趣方向的兴趣类被记录为归 属于所述长期兴趣模型。
[0012] 结合第一方面或第一方面第一种可能的实现方式,在使用聚类得到的兴趣类更新 所述概念层次树之后,所述方法还包括:确定更新后的概念层次树中所述聚类得到的兴趣 类所归属的兴趣簇;其中,确定出的兴趣簇表示为增量兴趣簇;使用所述增量兴趣簇更新 所述更新后的概念层次树。
[0013] 结合第一方面第二种可能的实现方式,在第三种可能的实现方式中,每个兴趣类 对应有持续时长和关注度,所述关注度由该兴趣类下包含的各兴趣关键词的出现次数所决 定,所述持续时长用于表征该兴趣类存在的时间跨度和在所述时间跨度内用户操作行为涉 及该兴趣类的频率;所述时间跨度包括用户操作行为首次涉及所述兴趣类的时间与用户操 作行为最后一次涉及所述兴趣类的时间。
[0014] 结合第一方面第三种可能的实现方式,在第四种可能的实现方式中,在所述概念 层次树中不存在与所述聚类得到的兴趣类同名的兴趣类时,所述使用聚类得到的兴趣类更 新所述概念层次树包括:在所述概念层次树中添加所述聚类得到的兴趣类及其下属的兴趣 关键词。
[0015] 结合第一方面第四种可能的实现方式,在第五种可能的实现方式中,在所述概念 层次树中添加所述聚类得到的兴趣类及其下属的兴趣关键词之后,所述方法还包括:将所 添加的、所述聚类得到的兴趣类记录为归属于短期兴趣模型。
[0016] 结合第一方面第三种可能的实现方式,在第六种可能的实现方式中,在所述概念 层次树中存在与所述聚类得到的兴趣类同名的兴趣类时,所述使用聚类得到的兴趣类更新 所述概念层次树包括:将所述聚类得到的兴趣类与所述同名的兴趣类合并,得到合并后的 兴趣类;更新所述合并后的兴趣类对应的持续时长及关注度。
[0017] 结合第一方面第六种可能的实现方式,在第七种可能的实现方式中,在使用聚类 得到的兴趣类更新所述概念层次树之后,所述方法还包括:在合并后的兴趣类的持续时长 达到转换阈值时,将持续时长达到转换阈值的所述兴趣类记录为归属于长期兴趣模型。
[0018] 结合第一方面第三种可能的实现方式,在第八种可能的实现方式中,所述概念层 次树中已存在的兴趣簇和所述增量兴趣簇各自均对应关注度,所述已存在的兴趣簇对应的 关注度由所述已存在的兴趣簇下包含的各兴趣类的关注度所决定;所述增量兴趣簇对应的 关注度由所述增量兴趣簇下包含的各兴趣类的关注度所决定。
[0019] 结合第一方面第八种可能的实现方式,在第九种可能的实现方式中,在所述更新 后的概念层次树中不存在与所述增量兴趣簇同名的兴趣簇时,所述使用所述增量兴趣簇更 新所述更新后的概念层次树包括:向所述更新后的概念层次树中添加所述增量兴趣簇。
[0020] 结合第一方面第八种可能的实现方式,在第十种可能的实现方式中,在所述更新 后的概念层次树中存在与所述增量兴趣簇同名的兴趣簇时,所述使用所述增量兴趣簇更新 所述更新后的概念层次树包括:将所述增量兴趣簇与同名的兴趣簇合并,得到合并后的兴 趣簇;所述增量兴趣簇的关注度与同名兴趣簇的关注度之和为合并后的兴趣簇的关注度。
[0021] 结合第一方面第十种可能的实现方式,在第i^一种可能的实现方式中,所述增量 兴趣簇表示为Un6w,所述Un6w的关注度表示为,所述增量兴趣簇对应的同名兴趣簇 表示为u。,所述u。的关注度表示为,合并后的兴趣簇的关注度表示为,则 =厂 >^仍?/^+(1_尸)><"^/^,_.,T 表示衰减因子。
[0022] 结合第一方面第九种或第十种可能的实现方式,在第十二种可能的实现方式中, 在向所述更新后的概念层次树中添加所述增量兴趣簇之后,或者,将所述增量兴趣簇与同 名的兴趣簇合并之后,所述方法还包括:去除关注度小于最低关注阈值的兴趣簇。
[0023] 根据本发明的第二方面,提供一种用户推荐方法,包括:
[0024] 更新用户兴趣模型;
[0025] 通过所述用户兴趣模型过滤推荐消息;
[0026] 将所述推荐消息推荐给用户;
[0027] 所述用户兴趣模型通过概念层次树结构表示,所述概念层次树按概念层次由高至 低包括兴趣簇、兴趣类和兴趣关键词,一个或多个兴趣关键词归属于同一兴趣类,一个或多 个兴趣类归属于同一兴趣簇;
[0028] 所述更新用户兴趣模型包括:
[0029] 将用户的操作行为转化为文本,从文本中提取出关键词,所述关键词为兴趣关键 词;
[0030] 对提取出的兴趣关键词进行聚类,得到至少一个兴趣类;
[0031] 使用聚类得到的兴趣类更新所述概念层次树。
[0032] 根据本发明的第三方面,提供一种用户兴趣模型更新装置,所述用户兴趣模型通 过概念层次树结构表示,所述概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣 关键词,一个或多个兴趣关键词归属于同一兴趣类,一个或多个兴趣类归属于同一兴趣 簇;
[0033] 所述装置包括:
[0034] 提取单元,用于将用户的操作行为转化为文本,从文本中提取出关键词,所述关键 词为兴趣关键词;
[0035] 聚类单元,用于对提取出的兴趣关键词进行聚类,得到至少一个兴趣类;
[0036] 第一更新单元,用于使用聚类得到的兴趣类更新所述概念层次树。
[0037] 结合第三方面,在第一种可能的实现方式中,所述用户兴趣模型包括短期兴趣模 型和长期兴趣模型;所述装置还包括第一记录单元和第二记录单元,其中:第一记录单元 用于,将所述概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴趣类记录为归属于 所述短期兴趣模型;第二记录单元用于,将所述概念层次树中的兴趣簇记录为归属于所述 长期兴趣模型,或者,将所述概念层次树中的兴趣簇和表征用户长期兴趣方向的兴趣类记 录为归属于所述长期兴趣模型。
[0038] 结合第三方面或第三方面第一种可能的实现方式,在第二种可能的实现方式中, 所述装置还包括:确定单元,用于在所述第一更新单元使用聚类得到的兴趣类更新所述概 念层次树之后,确定更新后的概念层次树中的兴趣类所归属的兴趣族;其中,确定出的兴趣 簇表示为增量兴趣簇;第二更新单元,用于使用所述增量兴趣簇更新所述更新后的概念层 次树。
[0039] 结合第三方面第二种可能的实现方式,在第三种可能的实现方式中,每个兴趣类 对应有持续时长和关注度,所述关注度由该兴趣类下包含的各兴趣关键词的出现次数所决 定,所述持续时长用于表征该兴趣类存在的时间跨度和在所述时间跨度内用户操作行为涉 及该兴趣类的频率;所述时间跨度包括用户操作行为首次涉及所述兴趣类的时间与用户操 作行为最后一次涉及所述兴趣类的时间。
[0040] 结合第三方面第三种可能的实现方式,在第四种可能的实现方式中,所述第一更 新单元用于:在所述概念层次树中存在与所述聚类得到的兴趣类同名的兴趣类时,将所述 聚类得到的兴趣类与所述同名的兴趣类合并,得到合并后的兴趣类;更新所述合并后的兴 趣类对应的持续时长及关注度。
[0041] 结合第三方面第四种可能的实现方式,在第五种可能的实现方式中,所述第二记 录单元用于:在合并后的兴趣类的持续时长达到转换阈值时,将持续时长达到转换阈值的 所述合并后的兴趣类记录为归属于长期兴趣模型。
[0042] 结合第三方面第三种可能的实现方式,在第六种可能的实现方式中,所述概念层 次树中已存在的兴趣簇和所述增量兴趣簇各自均对应关注度,所述已存在的兴趣簇对应的 关注度由所述已存在的兴趣簇下包含的各兴趣类的关注度所决定;所述增量兴趣簇对应的 关注度由所述增量兴趣簇下包含的各兴趣类的关注度所决定。
[0043] 结合第三方面第六种可能的实现方式,在第七种可能的实现方式中,所述第二更 新单元用于:在所述更新后的概念层次树中不存在与所述增量兴趣簇同名的兴趣簇时,向 所述更新后的概念层次树中添加所述增量兴趣簇。
[0044] 结合第三方面第六种可能的实现方式,在第八种可能的实现方式中,所述第二更 新单元用于:在所述更新后的概念层次树中存在与所述增量兴趣簇同名的兴趣簇时,将所 述增量兴趣簇与同名的兴趣簇合并,得到合并后的兴趣簇;所述增量兴趣簇的关注度与同 名兴趣簇的关注度之和为合并后的兴趣簇的关注度。
[0045] 结合第三方面第七或第八种可能的实现方式,在第九种可能的实现方式中,还包 括:去除单元,用于在所述第二更新单元向所述更新后的概念层次树中添加所述增量兴趣 簇之后,或者,在所述第二更新单元将所述增量兴趣簇与同名的兴趣簇合并之后,去除关注 度小于最低关注阈值的兴趣簇。
[0046] 根据本发明的第三方面,提供一种用户推荐装置,包括:
[0047] 用户兴趣模型更新装置,用于更新用户兴趣模型;
[0048] 过滤装置,用于通过所述用户兴趣模型过滤推荐消息;
[0049] 推荐装置,用于将所述推荐消息推荐给用户;
[0050] 所述用户兴趣模型通过概念层次树结构表示,所述概念层次树按概念层次由高至 低包括兴趣簇、兴趣类和兴趣关键词,一个或多个兴趣关键词归属于同一兴趣类,一个或多 个兴趣类归属于同一兴趣簇;
[0051] 所述用户兴趣模型更新装置包括:
[0052] 提取单元,用于将用户的操作行为转化为文本,从文本中提取出关键词,所述关键 词为兴趣关键词;
[0053] 聚类单元,用于对提取出的兴趣关键词进行聚类,得到至少一个兴趣类;
[0054] 第一更新单元,用于使用聚类得到的兴趣类更新所述概念层次树。
[0055] 可见,在本发明实施例中,根据用户的操作行为提取兴趣关键词,同时对新增信息 (兴趣关键词)进行聚类(归类),使新增信息不至于杂乱无序得存在于用户兴趣模型中。 新增信息即使较多,但聚类后,得到的类别的数目要远小于新增信息的数目,从而可减少对 用户兴趣表达的准确度的影响。

【专利附图】

【附图说明】
[0056] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本 领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的 附图。
[0057] 图Ia为本发明实施例提供的通用计算机结构示例图;
[0058] 图Ib为本发明实施例提供的用户兴趣模型示例图;
[0059] 图2a_2c、图5a_5c为本发明实施例提供的用户兴趣模型更新流程图;
[0060] 图3为本发明实施例提供的概念层次树叶节点、父节点示例图;
[0061] 图4a_4b、图6、图8、图9为本发明实施例提供的概念层次树结构示例图;
[0062] 图7为本发明实施例提供的增量兴趣簇示意图;
[0063] 图10-13为本发明实施例提供的用户兴趣模型更新装置结构示例图;
[0064] 图14为本发明实施例提供的用户兴趣模型更新装置或用户推荐装置通用硬件结 构示例图。

【具体实施方式】
[0065] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅 仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。 [0066] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅 仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。 [0067] 用户推荐装置可向用户自动推荐可能感兴趣的网站、文章、新闻、商品等推荐信 息。当前通信领域的用户推荐装置的推荐过程(例如数据分析平台、推送平台)一般包含 用户建模、项目匹配和推荐输出三个阶段。其中,用户兴趣建模在很大程度上决定了推荐的 成功率;用户兴趣建模是获取和维护与用户兴趣、需求或习惯相关的知识的过程,其结果将 产生一个表示用户特有兴趣和需求的用户兴趣模型。
[0068] 项目匹配阶段将以用户兴趣模型为依据,运用各种推荐技术寻找出与其相匹配的 项目,然后再推荐输出给用户。
[0069] 当用户兴趣发生改变时,用户兴趣模型也需要进行相应的更新。用户兴趣模型更 新的一种现有方式是从用户反馈中抽取新信息添加到用户模型中以更新用户兴趣模型。更 具体的,现有用户模型更新可包括直接的信息增补以及涉及权重调整的信息增补两种类 型。
[0070] 其中,前者只是简单地添加了新信息,不会删除或削减无效的旧信息,这样将导致 推荐阶段找出错误的匹配项。
[0071] 后者会适当调整用户模型中新、旧信息的权重,使反映用户最新偏好的新信息在 推荐中起到更为重要的作用,同时无效的旧信息将随其权重的不断减小而最终从模型中被 删除。但推荐阶段的匹配性能很容易受到被增加的新信息数量的影响。毕竟向用户推荐的 匹配项数量是有限的(一般是5-10个),在增加的新信息的数量比较多的情况下,向用户推 荐的匹配项的精准度就会受到影响。
[0072] 本发明实施例要求保护用户兴趣模型更新方法。
[0073] 本方法可由基站、数据分析平台、推送平台等执行。更具体的,可由数据分析平台、 推送平台等的服务器执行。
[0074] 上述基站、服务器作为用户兴趣模型更新方法的执行主体,其通用计算机结构如 图Ia所示,可包括总线、处理器101、存储器102、通信接口 103、输入设备104和输出设备 105。处理器101、存储器102、通信接口 103、输入设备104和输出设备105通过总线相互连 接。处理器101执行存储器102中所存放的程序代码,可执行本发明实施例要求保护的用 户兴趣模型更新方法。
[0075] 上述用户兴趣模型通过概念层次树结构表示。
[0076] 概念层次树是基于本体论方法构建的。树中高层概念是低层概念的概括。
[0077] 图Ib示出了用户兴趣模型(概念层次树)的一个简单的示例性结构,其概念层次 由高到低可包括:兴趣簇、兴趣类、兴趣关键词。一个或多个兴趣关键词归属于同一兴趣类, 一个或多个兴趣类归属于同一兴趣簇。
[0078] 以图Ib所示为例,"世界杯"是"国际足联主席"、"乌龙球"、"帽子戏法"等(兴趣 关键词)的上层概念;"足球"是"世界杯"、"中超联赛"等(兴趣类)的上层概念,"运动" 是"足球"、"篮球"等(兴趣簇)的上层概念。
[0079] 需要说明的是,兴趣簇之上还可有更上层的兴趣簇。例如,足球这一兴趣簇,其上 还有运动这一兴趣簇。或者说,对于运动这一兴趣簇,足球可视为它的兴趣类。
[0080] 其中,兴趣簇一般可用于表征用户的长期兴趣方向(长期关注的主题)。兴趣关键 词和兴趣类一般用于表征用户的短期兴趣方向(即时兴趣)。
[0081] 在本发明其他实施例中,用户兴趣模型在逻辑上可包括短期兴趣模型和长期兴趣 模型。
[0082] 其中,概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴趣类被记录为归 属短期兴趣模型;
[0083] 而概念层次树中的兴趣簇则被记录为归属于所述长期兴趣模型。
[0084] 当然,在一些条件下,兴趣类也可由表征短期兴趣方向转变为表征长期兴趣方向 (本文后续会进行相关介绍),则在此情况下,概念层次树中的兴趣簇和表征用户长期兴趣 方向的兴趣类被记录为归属于长期兴趣模型。
[0085] 采用短期兴趣方向(模型)和长期兴趣方向(模型)来混合表达用户兴趣,可使 用户兴趣的表达更为准确。
[0086] 下面将介绍用户兴趣模型的具体更新(建立)流程。
[0087] 请参见图2a,用户兴趣模型更新(建立)可包括如下步骤:
[0088] Sl :将用户所有操作行为转化为文本,从文本中提取关键词(兴趣关键词)。
[0089] 用户的所有操作行为会被记录,并转化为文本。
[0090] 以基站这一执行主体为例,用户的通话、短信、上网行为(例如浏览、点击、评分、 评论、购买等)均会被记录,并转化为文本。每隔一定时间,基站会进行用户兴趣模型的更 新。例如,每周更新一次。此时,会从一周内记录的文本中提取关键词。
[0091] 如何转化文本,以及如何提取关键词可参考现有的方式,在此不作赘述。
[0092] 需要说明的是,评分、评论、购买明显表征了用户的即时兴趣,而浏览、点击则相对 不明显(因为用户可能只是无目的的浏览、点击),因此,本实施例采用了显示加隐示的方 式采集用户操作信息。
[0093] 在本发明其他实施例中,还可对提取出的兴趣关键词进行过滤,以过滤掉常见词 语,保留重要的词语。
[0094] 过滤方式可有多种,例如可米用 TF-IDF (term frequency - inverse document frequency)的计算方法进行过滤。
[0095] TF-IDF实际上是TF*IDF,TF (词频,Term Frequency)表示词条(关键词)在文档 d中出现的频率,IDF(逆向文件频率,Inverse Document Frequency)体现的是:如果包含 词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
[0096] TF可通过下式计算:
[0097] tJiJ _ V n UkJ
[0098] 式中,nu是某词条(tj在某一特定文件Clj中的出现次数,而分母则是在文件Cl j 中所有字词的出现次数之和,i则表示文件七中所有字词中的第i个。
[0099] IDF可通过下式计算: , \D\
[誦]峨:1〇g^^
[0101] 其中,Id I表示语料库中的文件总数,I Uiti G dj} I表示包含词条ti的文件数目 (即nq尹0的文件数目)。若词条\不在语料库中,就会导致被除数为零,因此一般情况 下使用 l+l UAi G dj} I。
[0102] h 对应的权重 tfidfu = tfi,jX idfp
[0103] 某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可 以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
[0104] 可选择tfidf^大于阈值的n个兴趣关键词进行后续的聚类。
[0105] S2 :对提取出的兴趣关键词进行聚类,得到至少一个兴趣类。
[0106] 为与用户兴趣模型中已存在的兴趣类相区别,可将步骤S2中通过聚类得到的兴 趣类称为新增兴趣类。
[0107] 其中,每一新增兴趣类包含多个提取出的兴趣关键词。无论是已存在的兴趣类还 是新增兴趣类,均会对应特征关键词。
[0108] 上述特征关键词为兴趣类的名称,特征关键词也是所对应的兴趣类中各兴趣关键 词的上层概念。
[0109] 例如,提取出的兴趣关键词包含皇家马德里、小组赛、国际米兰、梅西、面膜、爽肤 水、精油。则会对这些兴趣关键词进行聚类。假定得到两个新增兴趣类,其中一个新增兴趣 类包含皇家马德里、小组赛、国际米兰、梅西,其特征关键词为"欧冠"。另一个新增兴趣类包 含面膜、爽肤水、精油,该新增兴趣类的特征关键词为"护肤"。
[0110] 请参见图3,在概念层次树中,兴趣关键词为叶节点(或称为儿节点),其上的父节 点(或称为上层节点)为兴趣类,以特征关键词为兴趣类的名称。
[0111] 在具体实现时,聚类方式有多种。例如,可采用LDA (Latent Dirichlet Allocation,隐含狄利克雷分配模型)主题聚类、PLSA(概率潜语义分析)主题聚类,根据 LDA或PLSA聚类得到的主题,可作为相应兴趣类的特征关键词。
[0112] 每一兴趣类会对应一个滑动时间窗,滑动时间窗存储的是该兴趣类的持续时长。
[0113] 持续时长用于表征兴趣类存在的时间跨度和在时间跨度内用户操作行为涉及兴 趣类的频率。
[0114] 更具体的,时间跨度包括用户操作行为首次涉及兴趣类的时间与用户操作行为最 后一次(末次)涉及兴趣类的时间。
[0115] 例如,用户首次看"足球"(兴趣类)比赛的时间是2014年1月1日,末次看的时 间是2014年10月10日。那么2014年1月1日至2014年10月10日就是时间跨度。
[0116] 而在时间跨度内用户操作行为涉及兴趣类的频率,可参考下例进行理解:在时间 跨度2014年1月至2014年10月之间,用户看了 27场足球比赛,则在上述时间跨度内,用 户操作行为涉及"足球"这一兴趣类的频率为3次/月。
[0117] 或者说,频率也可表征每隔多长时间用户操作行为涉及兴趣类,仍沿用前例,用户 在2014年1月至2014年10月之间看了 27场足球比赛,则用户的操作行为涉及兴趣类的 频次为〇. 33月/次。
[0118] 更具体的,新增兴趣类对应的时间跨度可包括在本更新周期内用户操作行为首次 涉及兴趣类的时间与用户操作行为最后一次涉及兴趣类的时间。
[0119] 新增兴趣类对应的在时间跨度内用户操作行为涉及兴趣类的频率可参考下例进 行理解:假定时间跨度为7天,用户看了 2场足球比赛,则在上述时间跨度内用户操作行为 涉及"足球"这一兴趣类的频率为3. 5次/天。
[0120] 同时,每一兴趣类还对应关注度。可使用兴趣类下的兴趣关键词的出现次数计算 兴趣类的关注度。最简单的方式就是将兴趣类下包含的各兴趣关键词的出现次数相加,相 加结果即为关注度。或者,也可对出现次数进行加权相加,加权相加结果作为关注度,在此 不作赘述。
[0121] 更具体的,新增兴趣类的关注度是本次更新周期内各兴趣关键词的出现次数的相 加结果或加权相加结果。
[0122] S3 :使用新增兴趣类更新概念层次树。
[0123] 此时,可分两种情况更新。
[0124] 第一种情况,概念层次树中没有与新增兴趣类同名的兴趣类。例如,新增兴趣类为 "欧冠",而请参见图Ib所示的模型,没有"欧冠"这一兴趣类。在第一种情况下,可直接在 概念层次树中添加新增兴趣类"欧冠"及其下属的兴趣关键词(请参见图4a)。
[0125] 新增兴趣类的持续时长如何确定请参见本文前述记载,在此不作赘述。
[0126] 也即,请参见图2b,在概念层次树中不存在与所述聚类得到的兴趣类同名的兴趣 类时,步骤S3可包括:
[0127] S31、在概念层次树中添加聚类得到的兴趣类及其下属的兴趣关键词。
[0128] 第二种情况,概念层次树中已存在与新增兴趣类同名的兴趣类。例如,得到的新增 兴趣类的名称为"欧冠",而概念层次树中已有"欧冠"这一兴趣类。在此种情况下,可将新 增兴趣类与概念层次树中的同名兴趣类进行合并,得到合并后的兴趣类,并更新合并后的 兴趣类对应的持续时长及关注度。
[0129] 也即,请参见图2c,在概念层次树中存在与所述聚类得到的兴趣类同名的兴趣类 时,步骤S3可包括:
[0130] S32、将聚类得到的兴趣类与同名的兴趣类合并,得到合并后的兴趣类;
[0131] 合并后的兴趣类包含新增兴趣类下属的兴趣关键词,以及同名的兴趣类下属的兴 趣关键词。
[0132] 例如,新增兴趣类中包含兴趣关键词"小组赛"和"皇家马德里",其同名兴趣类下 包含兴趣关键词"小组赛"、"国际米兰"和"梅西"。则合并后的兴趣类下包含"小组赛"、"皇 家马德里""国际米兰"和"梅西"四个兴趣关键词。
[0133] S33、更新合并后的兴趣类对应的持续时长及关注度。
[0134] 更具体的,合并后的兴趣类对应的时间跨度的更新主要是对用户操作行为最后一 次(末次)涉及兴趣类的时间进行更新。
[0135] 例如,概念层次树中已存在"足球"这一兴趣类,其对应的时间跨度为2014年1月 1日至2014年8月10日。而新增"足球"兴趣类对应的时间跨度为2014年11月3日至 2014年11月9日。则合并后的兴趣类对应的时间跨度为2014年1月1日至2014年11月 9曰。
[0136] 至于合并后的兴趣类所对应的"频率"也需重新计算。沿用前例来讲,假定,用户 在2014年1月1日至2014年8月10日之间看了 27场足球比赛,在2014年11月3日至 2014年11月9日之间看了 3场足球比赛。则在2014年1月1日至2014年11月9日之 间,用户操作行为涉及"足球"这一兴趣类的频率为3次/月。
[0137] 而合并后的兴趣类对应的关注度,可为新增兴趣类的关注度与同名兴趣类的关注 度之和。
[0138] 此外,还要更新合并后的兴趣类下各兴趣关键词的出现次数。
[0139] 例如,新增兴趣类(名称为"欧冠")中,兴趣关键词"小组赛"的出现次数为10。 其同名兴趣类中"小组赛"的出现次数为5,则合并后,"小组赛"的出现次数更新为15。
[0140] 可见,在本发明实施例中,会对新增信息(兴趣关键词)进行聚类(归类),使新增 信息不至于杂乱无序得存在于用户兴趣模型中。新增信息即使较多,但聚类后,得到的类别 的数目要远小于新增信息的数目,从而可减少对用户兴趣表达的准确度的影响。
[0141] 由于兴趣类一般用于表征用户短期兴趣方向,因此,上述步骤S1-S3 -般为短期 兴趣模型的更新步骤。
[0142] 在本发明其他实施例中,在步骤S31之后,上述方法还可包括如下步骤:
[0143] 将所添加的、聚类得到的兴趣类记录为归属于短期兴趣模型。
[0144] 而若合并后的兴趣类中持续时长达到转换阈值,则合并后的兴趣类可用于表征用 户长期兴趣方向。则可将该兴趣类归属于长期兴趣模型。
[0145] 因此,在本发明其他实施例中,在步骤S33之后,上述方法还可包括如下步骤:
[0146] 在合并后的兴趣类的持续时长达到转换阈值时,将持续时长达到转换阈值的兴趣 类记录为归属于长期兴趣模型。
[0147] 举例来讲,转换阈值的时间跨度为3年,频率为3次/月。如合并后的兴趣类(欧 冠)的时间跨度达到或超过3年,频率达到或超过3次/月。则请参见图4b (图4b被虚线 框起来的部分为长期兴趣模型),则将"欧冠"这一兴趣类归属于长期兴趣模型。
[0148] 请参见图5a,在本发明其他实施例中,上述所有实施例中的用户兴趣模型更新 (建立)还可包括如下步骤:
[0149] S4 :确定更新后的概念层次树中兴趣类所归属的兴趣簇。
[0150] 其中,确定出的兴趣簇可称为增量兴趣簇。
[0151] 在实际应用中,步骤S4可具体包括:
[0152] 确定更新后的概念层次树中聚类得到的兴趣类所归属的兴趣簇。例如,聚类得到 了三个兴趣类"欧冠"、"世界杯"、"护肤"。可确定上述三个兴趣类所归属的兴趣簇。
[0153] 或者,步骤S4也可具体包括:
[0154] 确定更新后的概念层次树中的所有兴趣类所归属的兴趣簇。
[0155] 也即,为"更新后的概念层次树"中各兴趣类重新确定所归属的兴趣簇。
[0156] 前述提及了,兴趣簇之上还可有更上层的兴趣簇。例如,足球这一兴趣簇,其上还 有运动这一兴趣簇。或者说,对于运动这一兴趣簇,足球可视为它的兴趣类。
[0157] 则步骤S4还可涵盖:确定更新后的概念层次树中同一层次的兴趣簇所归属的上 层兴趣族。
[0158] 例如,请参见图4b,步骤S4可用于确定"蓝球"、"足球"、"数码"、"IT产业"、"淘宝" 这些兴趣簇所归属的上层兴趣簇。
[0159] 在具体实施时,可采用与步骤S3类似的聚类算法,例如LDA、PLSA对各兴趣类进行 聚类,属于同一类的兴趣类构成一个兴趣簇。
[0160] 也可采用FPGrowth算法。
[0161] FPGrowth算法的思想基于项集、支持度。项的集合称为项集,如果项集I的相对支 持度满足预定义的最小支持度阈值,则I是频繁项集。
[0162] FPGrowth算法原理是:
[0163] 假定初始项集I = {a, b, c, d…可以组成的事务集T = {ab, ac, cd,abc.... . }, 事务集中的每一元素为一个子集/事务,每一子集/事务包含初始项集中的至少两个元素。
[0164] 例如,子集/事务ab包含初始项集I中的a和b,ab表征a和b在同一文本中出 现,同理,子集/事务ac表示a和c在同一文本中出现,以此类推。
[0165] 事务集中子集所包含的项集元素的最大值可表示为N。以事务集T = {ab,ac,cd, abc}为例,贝U N = 3。
[0166] 现要找到集合S,S中的每一元素为一个子集/事务,每一子集/事务包含初始项 集I中的至少两个元素,并且,S中的元素在T里出现的频率都达到一定的阈值。
[0167] 在本实施例中,初始项集中的元素为兴趣类的名称,事务集中的元素来源于系统 记录的所有文本。
[0168] 例如,初始项集I ={世界杯、欧冠、中超联赛、数码、IT产业、淘宝、亚马逊},事务 集T ={世界杯欧冠、世界杯中超联赛、世界杯欧冠中超联赛、数码IT产业、淘宝亚马逊}。
[0169] 第一步:对I集合里的{a,b,c,d. .}和事务集T进行判断,从I中筛选出1阶项 集,例如子集LI = {a,c,d,f,h},Ll中的元素在T里出现的频率均达到一定阈值。
[0170] 举例来讲,项集I ={世界杯、欧冠、中超联赛、数码、IT产业、淘宝、亚马逊},事务 集T ={世界杯欧冠、世界杯中超联赛、世界杯欧冠中超联赛、数码IT产业、淘宝亚马逊}, 筛选出的Ll ={世界杯、欧冠、数码、IT产业、淘宝、亚马逊}。
[0171] 第二步:对LI的元素进行组合,生成2阶候选项集H2 = {ac,ad,df?,…fh}, 对H2在和事务集T进行判断,从H2中筛选达到阈值的2阶项集,例如2阶项集L2 = {ac,df,dh,fh}。L2中的元素在T里的出现频率均达到一定阈值。
[0172] 仍沿用前例,Ll ={世界杯、欧冠、数码、IT产业、淘宝、亚马逊},则H2 ={世界 杯欧冠、世界杯数码、世界杯IT产业、世界杯淘宝、世界杯亚马逊、欧冠数码、欧冠IT产业、 欧冠淘宝、欧冠亚马逊、数码IT产业……}。
[0173] 筛选出的L2可为{世界杯欧冠、数码IT产业、淘宝亚马逊}。
[0174] 按上述方法一直类推下去,直到n阶候选项集中筛选不出满足阈值的子集。
[0175] 这样就找到了所有满足阈值的集合LS,假定LS = {ac,df,dh,acd,acdh},则LS作 为概率频繁模式项集。
[0176] LS中的元素对应的上层概念可作为兴趣簇的名称。这样就把原始项集中的兴趣类 归属到了兴趣簇。可通过预设的匹配列表将LS中的元素与上层概念进行匹配,在此不作赘 述。
[0177] 需要说明的是,ac、dh、acd、acdh对应同一个上层概念。
[0178] 请参见图6,假定图6中的各兴趣簇的名称在经过FPGrowth算法后得到的LS = {世界杯欧冠中超联赛、世界杯欧冠、欧冠中超联赛、数码IT产业、淘宝亚马逊},LS中各元 素对应的上层概念分别为"足球"、"科技"、"购物",并且,"足球"是"世界杯欧冠中超联赛"、 "世界杯欧冠"和"欧冠中超联赛"的上层概念。
[0179] 将对应同一上层概念的兴趣类归属于同一兴趣簇,并且,该兴趣簇的名称即为该 上层概念。
[0180] 沿用前例,请参见图7,将对应"足球"的"世界杯"、"欧冠"和"中超联赛"这三个 兴趣类归属于一个增量兴趣簇,并且该增量兴趣簇的名称为"足球";将"数码"和"IT产业" 这两个兴趣类归属于一个增量兴趣簇,并且该兴趣簇的名称为"科技";将"淘宝"和"亚马 逊"这两个兴趣类归属于一个增量兴趣簇,并且该兴趣簇的名称为"购物"。
[0181] 同时,将概率频繁模式项集中不包含的初始项集元素对应的兴趣类剪除。
[0182] 例如,LS = {ac,df,dh,acd,acdh},I = {a, b,c,d,e,f,g,h,1},则 "b"、"g"、"l" 并未包含在LS中,需将"b"、"g"、" I "对应的兴趣类进行剪枝。
[0183] 综上,采用FPGrowth算法所对应的步骤可包括:
[0184] 将兴趣类的名称作为初始项集中的元素;
[0185] 获取事务集,所述事务集中的每一元素为一个子集,每一子集包含所述初始项集 中的至少两个元素,表征所述至少两个初始项集元素在同一文本中出现;所述事务集中子 集所包含的项集元素的最大值为N ;
[0186] 从所述初始项集中筛选出一阶项集,所述一阶项集中的元素在所述事务集中的出 现频率均达到预设频率阈值;
[0187] 将所述一阶项集中的元素进行组合,得到i + 1阶侯选集;所述i + 1阶侯选集中每一 元素为一个子集,每一子集包含所述初始项集中的i+1个元素;i大于等于1,小于等于N ;
[0188] 在所述i + 1阶侯选集中存在在所述事务集中的出现频率达到预设频率阈值的元 素时,将所述i+1阶侯选集中出现频率均达到预设频率阈值的元素添加至概率频繁模式项 集,将i加1,返回将i阶项集中元素进行组合,得到i+1阶侯选集的步骤;
[0189] 在所述i + 1阶侯选集中不存在在所述事务集中的出现频率达到预设频率阈值的 元素时,将概率频繁模式项集中的元素对应的上层概念作为增量兴趣簇的名称,将对应同 一上层概念的兴趣类归属于同一增量兴趣簇;
[0190] 将所述概率频繁模式项集中不包含的初始项集元素所对应的兴趣类剪除。
[0191] 需要说明的是,在概念层次树包含多层兴趣簇时,可直接将各层的兴趣簇名称作 为初始项集中的元素,使用FPGrowth算法进行聚类。
[0192] S5 :使用增量兴趣簇更新上述"更新后的概念层次树"。
[0193] 考虑下述两种情况:
[0194] 第一种情况:用户兴趣模型中不存在同名兴趣簇:则在用户兴趣模型(长期兴趣 模型)中添加增量兴趣簇。例如,增量兴趣簇为"足球"、"科技"、"购物",用户兴趣模型中不 存在与"足球"、"科技"、"购物"同名的兴趣簇,则可添加这几个兴趣簇,并将相应的兴趣类 节点挂在其下(请参见图8)。
[0195] 也即,请参见图5b,在更新后的概念层次树中不存在与增量兴趣簇同名的兴趣簇 时,步骤S5可包括:
[0196] S51、向更新后的概念层次树中添加增量兴趣簇。
[0197] 在本发明其他实施例中,在步骤S51之后还可包括如下步骤:
[0198] 将添加的兴趣簇记录为归属于长期兴趣模型。
[0199] 第二种情况:用户兴趣模型(长期兴趣模型)中已存在同名兴趣簇,例如已存在 "足球"、"科技"、"购物"这几个节点,则请参见图5c,步骤S5可包括 :
[0200] S52、将增量兴趣簇与同名的兴趣簇合并,得到合并后的兴趣簇。增量兴趣簇的关 注度与同名兴趣簇的关注度之和为合并后的兴趣簇的关注度。
[0201] 更具体的,所谓的合并,是将增量兴趣簇下属的兴趣类归属于同名兴趣簇之下。
[0202] 需要说明的是,可能会发生兴趣类改变归属的情况。例如,请参见图9,"数码"这 一兴趣类,原与"淘宝"、"亚马逊"一起归属于"购物"。
[0203] 本次新增了 "IT产业"这一兴趣类。并且,在经过FPGrowth算法后,得到的LS为 {世界杯欧冠中超联赛、数码IT产业、淘宝亚马逊}。则"数码"这一兴趣类将由归属于"购 物",改为归属于"科技"。
[0204] 下面将介绍如何计算增量兴趣簇的关注度和合并后的兴趣簇的关注度。
[0205] 由于增量兴趣簇下属的各兴趣类都有自己的关注度,可将增量兴趣簇下各兴趣类 的关注度叠加,将叠加结果作为增量兴趣簇的关注度。
[0206] 如将增量兴趣簇表示为Unrat,将Umw的关注度表示为CW?//,,将已存在的同 名兴趣簇表示为u。,将u。的关注度表示为〇/?/<,将合并后的兴趣簇的关注度表示为 Confitlm。
[0207] 贝忙0咕'〃〃,可通过〔0响乂=厂\〔0</"〇+(1-厂)\〔0/诉"_.计算。
[0208] 式中的T表示衰减因子。
[0209] 在本发明其他实施例中,T的取值范围可为[0, 1]。
[0210] 而若概念层次树中无同名兴趣簇。例如,没有"足球"这一兴趣簇名称,则C6^/z\ 可通过= .计算(对应步骤S51)。
[0211] 在本发明其他实施例中,仍请参见图5a,上述所有实施例在步骤S51或S52之后 (也即步骤S5),还可包括如下步骤:
[0212] S6 :从用户模型中去除关注度小于最低关注阈值的兴趣簇。
[0213] 兴趣簇下的兴趣类、兴趣关键词也一并去除。例如,足球这一兴趣簇被去除了,足 球下的世界杯等兴趣类也将一并去除。
[0214] 在本发明其他实施例中,还可自适应调整长期兴趣模型和短期兴趣模型在个性化 推荐系统中所占的比重。
[0215] 自适应调整可由衰减因子和最低关注阈值的变化触发。
[0216] 而衰减因子和最低关注阈值依人工设置而变化。
[0217] 在本发明其他实施例中,上述所有实施例在更新用户兴趣模型时,还可包括如下 步骤:
[0218] 计算长期兴趣模型和短期兴趣模型所占的比重。
[0219] 更具体的,可采用最小二乘法来确定长期兴趣模型和短期兴趣模型在个性化推荐 系统中所占的比重。
[0220] 最小二乘法的方式如下:
[0221] 假定短期兴趣模型中共有N个兴趣类,其中第i个兴趣类的关注度为Xi,而第i 个兴趣类所归属的兴趣簇的关注度可表示为 yi。需要注意的是,由于可能多个兴趣类对应 同一兴趣簇,例如,第1-3个兴趣类分别是世界杯、欧冠、中超联赛,其均对应足球这一兴趣 簇,则X 1至X3对应的Y1至y3是相等的。
[0222] Yi与Xi之间的关系用Yi = Sc^a1Xi表不。可通过最小偏差平方和来获取aQ和S 1 的具体取值。
[0223] 最小偏差平方和用公式表不为:-(a〇+aixi)]。
[0224] %和即为长期兴趣模型和短期兴趣模型在个性化推荐系统中所占的比重。
[0225] 系统可将Btl和&1提供给用户作为参考。
[0226] 用户可参考系统给出的%和值,自行输入数值,以调整长期兴趣模型和短期兴 趣模型所占的比重。例如,计算得到的%等于0.2, &1等于0.8。用户可根据需要,将%调 整为0.3,将&1调整为0.7。
[0227] %和&1的用处之一是,在项目匹配阶段查找出匹配项后,将根据比重将匹配项推 荐输出给用户。
[0228] 例如,长期兴趣模型的比重为0. 3,短期兴趣模型的比重为0. 7,则推荐给用户的 匹配项中,有70%的匹配项对应长期兴趣,而30%的匹配项对应短期兴趣。
[0229] 前述提及了,在持续时长达到阈值时,兴趣类可由表征短期兴趣方向转化为表征 长期兴趣方向。除此之外,还可根据用户设置的%和将兴趣类由短期兴趣方向转化为长 期兴趣方向:由于关注度与出现次数有关,因此,%和 &1确定后,可预测某一兴趣类中的兴 趣关键词再出现多少次该兴趣类可由表征短期兴趣方向转变为表征长期兴趣,从而将该兴 趣类归属于长期兴趣模型。
[0230] 本发明还要求保护用户推荐方法,本方法可由基站、数据分析平台、推送平台等执 行。更具体的,可由数据分析平台、推送平台等的服务器执行。上述基站、服务器等的通用 计算机结构可参见图la。在此不作赘述。
[0231] 上述用户推荐方法可包括如下步骤:
[0232] 更新用户兴趣模型;
[0233] 通过用户兴趣模型过滤推荐消息;
[0234] 将推荐消息推荐给用户。
[0235] 其中,上述用户兴趣模型通过概念层次树结构表示,上述概念层次树按概念层次 由高至低包括兴趣簇、兴趣类和兴趣关键词,一个或多个兴趣关键词归属于同一兴趣类,一 个或多个兴趣类归属于同一兴趣簇;
[0236] 上述更新用户兴趣模型包括:
[0237] 将用户的操作行为转化为文本,从文本中提取出关键词,上述关键词为兴趣关键 词;
[0238] 对提取出的兴趣关键词进行聚类,得到至少一个兴趣类;
[0239] 使用聚类得到的兴趣类更新上述概念层次树。具体内容请参见本文前述方法部分 的描述,在此不作赘述。
[0240] 本发明实施例所提供的技术方案,同样也适用于用户特征的分析场景。比如根据 用户位置轨迹来分析用户的职业特征的分析场景:
[0241] 通过对用户位置在不同区域类型的移动轨迹,用户兴趣模型(这里可称为用户位 置模型)可表征用户所驻留的位置属性,长期兴趣方向(模型)可表征用户的长期驻留区 域、短期兴趣方向(模型)以及可表征用户的短期驻留区域,以此可以找到用户的驻留位置 特点并判断其职业特征。同时,通过实时更新,也保证了我们对用户职业特征的有效跟踪和 刷新。
[0242] 与之对应,本发明实施例还要求保护用户兴趣模型更新装置。
[0243] 请参见图10,上述用户兴趣模型更新装置100可包括:
[0244] 提取单元1,用于将用户的操作行为转化为文本,从文本中提取出关键词,上述关 键词为兴趣关键词;
[0245] 聚类单元2,用于对提取出的兴趣关键词进行聚类,得到至少一个兴趣类;
[0246] 第一更新单元3,用于使用聚类得到的兴趣类更新上述概念层次树。
[0247] 具体内容请参见本文前述记载,在此不作赘述。
[0248] 在本发明其他实施例中,上述所有实施例中的用户兴趣模型可包括短期兴趣模型 和长期兴趣1吴型。
[0249] 请参见图11,在本发明其他实施例中,上述所有实施例中的用户兴趣模型更新装 置100还可包括第一记录单元4和第二记录单元5,其中:
[0250] 第一记录单元4用于,将上述概念层次树中的兴趣关键词和表征用户短期兴趣方 向的兴趣类记录为归属于上述短期兴趣模型。
[0251] 第二记录单元5用于,将上述概念层次树中的兴趣簇记录为归属于上述长期兴趣 模型,或者,
[0252] 将上述概念层次树中的兴趣簇和表征用户长期兴趣方向的兴趣类记录为归属于 上述长期兴趣模型。
[0253] 在本发明其他实施例中,请参见图12,上述所有实施例中的用户兴趣模型更新装 置100还可包括:
[0254] 确定单元6,用于在上述第一更新单元3使用聚类得到的兴趣类更新上述概念层 次树之后,确定更新后的概念层次树中的兴趣类所归属的兴趣族;其中,确定出的兴趣族表 示为增量兴趣簇;
[0255] 第二更新单元7,用于使用上述增量兴趣簇更新上述更新后的概念层次树。
[0256] 具体内容请参见本文前述记载,在此不作赘述。
[0257] 每个兴趣类对应有持续时长和关注度,上述关注度由兴趣类下包含的各兴趣关键 词的出现次数所决定,上述持续时长用于表征该兴趣类存在的时间跨度和在上述时间跨度 内用户操作行为涉及该兴趣类的频率;上述时间跨度包括用户操作行为首次涉及上述兴趣 类的时间与用户操作行为最后一次涉及上述兴趣类的时间。
[0258] 在本发明其他实施例中,在上述使用聚类得到的兴趣类更新上述概念层次树的方 面,上述所有实施例中的第一更新单元3可用于 :
[0259] 在上述概念层次树中不存在与上述聚类得到的兴趣类同名的兴趣类时,在上述概 念层次树中添加上述聚类得到的兴趣类及其下属的兴趣关键词。
[0260] 需要说明的是,在上述概念层次树中不存在与上述聚类得到的兴趣类同名的兴趣 类时,上述聚类得到的兴趣类表征用户短期兴趣方向。
[0261] 相应的,在本发明其他实施例中,在将上述概念层次树中的兴趣关键词和表征用 户短期兴趣方向的兴趣类记录为归属于上述短期兴趣模型的方面,上述所有实施例中的第 一记录单元4可用于:
[0262] 将所添加的、上述聚类得到的兴趣类记录为归属于短期兴趣模型。
[0263] 或者,在本发明其他实施例中,在上述使用聚类得到的兴趣类更新上述概念层次 树的方面,上述所有实施例中的第一更新单元3可用于 :
[0264] 在上述概念层次树中存在与上述聚类得到的兴趣类同名的兴趣类时,将上述聚类 得到的兴趣类与上述同名的兴趣类合并,得到合并后的兴趣类;
[0265] 更新上述合并后的兴趣类对应的持续时长及关注度。
[0266] 而若合并后的兴趣类的持续时长达到转换阈值,则上述合并后的兴趣类表征用户 长期兴趣方向。
[0267] 相应的,在本发明其他实施例中,在将表征用户长期兴趣方向的兴趣类记录为归 属于上述长期兴趣模型的方面,上述所有实施例中的第二记录单元5可用于:
[0268] 在合并后的兴趣类的持续时长达到转换阈值时,将持续时长达到转换阈值的上述 合并后的兴趣类记录为归属于长期兴趣模型。
[0269] 上述概念层次树中已存在的兴趣簇和上述增量兴趣簇各自均对应关注度,上述已 存在的兴趣簇对应的关注度由上述已存在的兴趣簇下包含的各兴趣类的关注度所决定;上 述增量兴趣簇对应的关注度由上述增量兴趣簇下包含的各兴趣类的关注度所决定。
[0270] 在本发明其他实施例中,在上述使用上述增量兴趣簇更新上述更新后的概念层次 树的方面,上述所有实施例中的第二更新单元7用于:
[0271] 在上述更新后的概念层次树中不存在与上述增量兴趣簇同名的兴趣簇时,向上述 更新后的概念层次树中添加上述增量兴趣簇。
[0272] 或者,上述第二更新单元7可用于:
[0273] 在上述更新后的概念层次树中存在与上述增量兴趣簇同名的兴趣簇时,将上述增 量兴趣簇与同名的兴趣簇合并,得到合并后的兴趣簇;上述增量兴趣簇的关注度与同名兴 趣簇的关注度之和为合并后的兴趣簇的关注度。
[0274] 在本发明其他实施例中,请参见图13,上述所有实施例中的用户兴趣模型更新装 置100还可包括:
[0275] 去除单元8,用于在上述第二更新单元7向上述更新后的概念层次树中添加上述 增量兴趣簇之后,或者,在上述第二更新单元7将上述增量兴趣簇与同名的兴趣簇合并之 后,去除关注度小于最低关注阈值的兴趣簇。
[0276] 相应的,本发明实施例还要求保护用户推荐装置,该系统可包括过滤装置、推荐装 置和前述的用户兴趣模型更新装置。其中:
[0277] 用户兴趣模型更新装置100,用于更新用户兴趣模型;
[0278] 过滤装置,用于通过上述用户兴趣模型过滤推荐消息;
[0279] 推荐装置,用于将上述推荐消息推荐给用户;
[0280] 上述用户兴趣模型更新装置100的结构可参见图10-13及相关记载,在此不作赘 述。
[0281] 图14示出了上述用户兴趣模型更新装置或用户推荐装置的一种通用计算机系统 结构。上述装置可为主机、网关、用户终端(UE)、基站等。
[0282] 更具体的,上述装置可140包括总线、处理器141、存储器142、通信接口 143、输入 设备144和输出设备145。处理器141、存储器142、通信接口 143、输入设备144和输出设 备145通过总线相互连接。其中:
[0283] 总线可包括一通路,在计算机系统各个部件之间传送信息。
[0284] 处理器141可以是通用处理器,例如通用中央处理器(CPU)、网络处理器(Network Processor,简称NP)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit, ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还 可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他 可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0285] 存储器142中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他 应用程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存 储器142可以是只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型 的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其 他类型的动态存储设备、磁盘存储器等等。
[0286] 输入设备144可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像 头、扫描仪、光笔、语音输入装置、触摸屏等。
[0287] 输出设备145可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器 等。
[0288] 通信接口 143可包括使用任何收发器一类的装置,以便与其他设备或通信网络通 信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
[0289] 在作为用户兴趣模型更新装置时,处理器141执行存储器142中所存放的程序代 码,执行以下操作以更新用户兴趣模型:
[0290] 将用户的操作行为转化为文本,从文本中提取出关键词,所述关键词为兴趣关键 词;
[0291] 对提取出的兴趣关键词进行聚类,得到至少一个兴趣类;
[0292] 使用聚类得到的兴趣类更新所述概念层次树。
[0293] 其中,用户兴趣模型可通过概念层次树结构表示,概念层次树按概念层次由高至 低包括兴趣簇、兴趣类和兴趣关键词,一个或多个兴趣关键词归属于同一兴趣类,一个或多 个兴趣类归属于同一兴趣簇。
[0294] 在本发明其他实施例中,上述用户兴趣模型可包括短期兴趣模型和长期兴趣模 型。
[0295] 上述概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴趣类被记录为归 属于短期兴趣模型;
[0296] 而概念层次树中的兴趣簇被记录为归属于长期兴趣模型,或者,概念层次树中的 兴趣簇和表征用户长期兴趣方向的兴趣类被记录为归属于长期兴趣模型。
[0297] 在本发明其他实施例中,上述所有实施例中的处理器141执行存储器142中所存 放的程序代码,还可执行以下操作 :
[0298] 在使用聚类得到的兴趣类更新所述概念层次树之后,确定更新后的概念层次树中 聚类得到的兴趣类所归属的兴趣簇;其中,确定出的兴趣簇表示为增量兴趣簇;
[0299] 使用所述增量兴趣簇更新所述更新后的概念层次树。
[0300] 兴趣类对应持续时长和关注度。其中,关注度由兴趣类下包含的各兴趣关键词的 出现次数所决定,持续时长用于表征所述兴趣类存在的时间跨度和在所述时间跨度内用户 操作行为涉及所述兴趣类的频率,时间跨度包括用户操作行为首次涉及所述兴趣类的时间 与用户操作行为最后一次涉及所述兴趣类的时间。相关描绘请参见本文方法部分的记载, 在此不作赘述。
[0301] 在本发明其他实施例中,在所述概念层次树中不存在与所述聚类得到的兴趣类同 名的兴趣类时,上述所有实施例中的处理器141执行存储器142中所存放的程序代码,所执 行的操作"使用聚类得到的兴趣类更新所述概念层次树"可具体包括:
[0302] 在所述概念层次树中添加所述聚类得到的兴趣类及其下属的兴趣关键词。
[0303] 此外,在本发明其他实施例中,上述所有实施例中的处理器141执行存储器142中 所存放的程序代码,还可执行以下操行 :
[0304] 将所添加的、所述聚类得到的兴趣类记录为归属于短期兴趣模型。
[0305] 在本发明其他实施例中,在所述概念层次树中存在与所述聚类得到的兴趣类同名 的兴趣类时,上述所有实施例中的处理器141执行存储器142中所存放的程序代码,所执行 的操作"使用聚类得到的兴趣类更新所述概念层次树"可具体包括:
[0306] 将所述聚类得到的兴趣类与所述同名的兴趣类合并,得到合并后的兴趣类;
[0307] 更新所述合并后的兴趣类对应的持续时长及关注度。
[0308] 若合并后的兴趣类的持续时长达到转换阈值,则所述合并后的兴趣类用于表征用 户长期兴趣方向。则相应的,在本发明其他实施例中,上述所有实施例中的处理器141执行 存储器142中所存放的程序代码,还可执行以下操行:
[0309] 在合并后的兴趣类的持续时长达到转换阈值时,将持续时长达到转换阈值的所述 兴趣类记录为归属于长期兴趣模型。
[0310] 在本发明其他实施例中,上述所有实施例中的概念层次树中已存在的兴趣簇和所 述增量兴趣簇各自均对应关注度,所述已存在的兴趣簇对应的关注度由所述已存在的兴趣 簇下包含的各兴趣类的关注度所决定;所述增量兴趣簇对应的关注度由所述增量兴趣簇下 包含的各兴趣类的关注度所决定。
[0311] 在本发明其他实施例中,在所述更新后的概念层次树中不存在与所述增量兴趣簇 同名的兴趣簇时,上述所有实施例中的处理器141执行存储器142中所存放的程序代码,所 执行的操作"使用所述增量兴趣簇更新所述更新后的概念层次树"可具体包括:
[0312] 向所述更新后的概念层次树中添加所述增量兴趣簇。
[0313] 在本发明其他实施例中,在所述更新后的概念层次树中存在与所述增量兴趣簇同 名的兴趣簇时,上述所有实施例中的处理器141执行存储器142中所存放的程序代码,所执 行的操作"使用所述增量兴趣簇更新所述更新后的概念层次树"可具体包括:
[0314] 将所述增量兴趣簇与同名的兴趣簇合并,得到合并后的兴趣簇;所述增量兴趣簇 的关注度与同名兴趣簇的关注度之和为合并后的兴趣簇的关注度。
[0315] 在本发明其他实施例中,上述所有实施例中的增量兴趣簇表示为Unew,所 述Un6w的关注度表示为,所述增量兴趣簇对应的同名兴趣簇表示为u。, 所述u。的关注度表示合并后的兴趣簇的关注度表示为,则

【权利要求】
1. 一种用户兴趣模型更新方法,其特征在于,所述用户兴趣模型通过概念层次树结构 表示,所述概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键词,一个或多个 兴趣关键词归属于同一兴趣类,一个或多个兴趣类归属于同一兴趣簇; 所述方法包括: 将用户的操作行为转化为文本,从文本中提取出关键词,所述关键词为兴趣关键词; 对提取出的兴趣关键词进行聚类,得到至少一个兴趣类; 使用聚类得到的兴趣类更新所述概念层次树。
2. 如权利要求1所述方法,其特征在于, 所述用户兴趣模型包括短期兴趣模型和长期兴趣模型; 所述概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴趣类被记录为归属于 所述短期兴趣模型; 所述概念层次树中的兴趣簇被记录为归属于所述长期兴趣模型,或者,所述概念层次 树中的兴趣簇和表征用户长期兴趣方向的兴趣类被记录为归属于所述长期兴趣模型。
3. 如权利要求1或2所述的方法,其特征在于,在使用聚类得到的兴趣类更新所述概念 层次树之后,所述方法还包括: 确定更新后的概念层次树中所述聚类得到的兴趣类所归属的兴趣簇;其中,确定出的 兴趣簇表示为增量兴趣簇; 使用所述增量兴趣簇更新所述更新后的概念层次树。
4. 如权利要求3所述的方法,其特征在于,每个兴趣类对应有持续时长和关注度,所述 关注度由该兴趣类下包含的各兴趣关键词的出现次数所决定,所述持续时长用于表征该兴 趣类存在的时间跨度和在所述时间跨度内用户操作行为涉及该兴趣类的频率; 所述时间跨度包括用户操作行为首次涉及所述兴趣类的时间与用户操作行为最后一 次涉及所述兴趣类的时间。
5. 如权利要求4所述方法,其特征在于,在所述概念层次树中不存在与所述聚类得到 的兴趣类同名的兴趣类时,所述使用聚类得到的兴趣类更新所述概念层次树包括: 在所述概念层次树中添加所述聚类得到的兴趣类及其下属的兴趣关键词。
6. 如权利要求5所述的方法,其特征在于, 在所述概念层次树中添加所述聚类得到的兴趣类及其下属的兴趣关键词之后,所述方 法还包括: 将所添加的、所述聚类得到的兴趣类记录为归属于短期兴趣模型。
7. 如权利要求4所述方法,其特征在于,在所述概念层次树中存在与所述聚类得到的 兴趣类同名的兴趣类时,所述使用聚类得到的兴趣类更新所述概念层次树包括: 将所述聚类得到的兴趣类与所述同名的兴趣类合并,得到合并后的兴趣类; 更新所述合并后的兴趣类对应的持续时长及关注度。
8. 如权利要求7所述方法,其特征在于,在更新所述合并后的兴趣类对应的持续时长 及关注度之后,所述方法还包括: 在合并后的兴趣类的持续时长达到转换阈值时,将持续时长达到转换阈值的所述兴趣 类记录为归属于长期兴趣模型。
9. 如权利要求4所述的方法,其特征在于,所述概念层次树中已存在的兴趣簇和所述 增量兴趣簇各自均对应关注度,所述已存在的兴趣簇对应的关注度由所述已存在的兴趣簇 下包含的各兴趣类的关注度所决定;所述增量兴趣簇对应的关注度由所述增量兴趣簇下包 含的各兴趣类的关注度所决定。
10. 如权利要求9所述方法,其特征在于,在所述更新后的概念层次树中不存在与所 述增量兴趣簇同名的兴趣簇时,所述使用所述增量兴趣簇更新所述更新后的概念层次树包 括: 向所述更新后的概念层次树中添加所述增量兴趣簇。
11. 如权利要求9所述方法,其特征在于,在所述更新后的概念层次树中存在与所述增 量兴趣簇同名的兴趣簇时,所述使用所述增量兴趣簇更新所述更新后的概念层次树包括: 将所述增量兴趣簇与同名的兴趣簇合并,得到合并后的兴趣簇;所述增量兴趣簇的关 注度与同名兴趣簇的关注度之和为合并后的兴趣簇的关注度。
12. 如权利要求11所述的方法,其特征在于,所述增量兴趣簇表示为unOT,所 述Unew的关注度表示为CW?//,,,所述增量兴趣簇对应的同名兴趣簇表示为U。, 所述U。的关注度表示为合并后的兴趣簇的关注度表示为CCWtAim,则 =Txcw诉,,t) +(l-r)xco,成Wu.,T表示衰减因子。
13. 如权利要求10或11所述的方法,其特征在于,在向所述更新后的概念层次树中添 加所述增量兴趣簇之后,或者,将所述增量兴趣簇与同名的兴趣簇合并之后,所述方法还包 括:去除关注度小于最低关注阈值的兴趣簇。
14. 一种用户推荐方法,其特征在于,包括: 更新用户兴趣模型; 通过所述用户兴趣模型过滤推荐消息; 将所述推荐消息推荐给用户; 所述用户兴趣模型通过概念层次树结构表示,所述概念层次树按概念层次由高至低包 括兴趣簇、兴趣类和兴趣关键词,一个或多个兴趣关键词归属于同一兴趣类,一个或多个兴 趣类归属于同一兴趣簇; 所述更新用户兴趣模型包括: 将用户的操作行为转化为文本,从文本中提取出关键词,所述关键词为兴趣关键词; 对提取出的兴趣关键词进行聚类,得到至少一个兴趣类; 使用聚类得到的兴趣类更新所述概念层次树。
15. -种用户兴趣模型更新装置,其特征在于,所述用户兴趣模型通过概念层次树结构 表示,所述概念层次树按概念层次由高至低包括兴趣簇、兴趣类和兴趣关键词,一个或多个 兴趣关键词归属于同一兴趣类,一个或多个兴趣类归属于同一兴趣簇; 所述装置包括: 提取单元,用于将用户的操作行为转化为文本,从文本中提取出关键词,所述关键词为 兴趣关键词; 聚类单元,用于对提取出的兴趣关键词进行聚类,得到至少一个兴趣类; 第一更新单元,用于使用聚类得到的兴趣类更新所述概念层次树。
16. 如权利要求15所述装置,其特征在于, 所述用户兴趣模型包括短期兴趣模型和长期兴趣模型; 所述装置还包括第一记录单元和第二记录单元,其中: 第一记录单元用于,将所述概念层次树中的兴趣关键词和表征用户短期兴趣方向的兴 趣类记录为归属于所述短期兴趣模型; 第二记录单元用于,将所述概念层次树中的兴趣簇记录为归属于所述长期兴趣模型, 或者,将所述概念层次树中的兴趣簇和表征用户长期兴趣方向的兴趣类记录为归属于所述 长期兴趣1吴型。
17. 如权利要求15或16所述的装置,其特征在于,所述装置还包括: 确定单元,用于在所述第一更新单元使用聚类得到的兴趣类更新所述概念层次树之 后,确定更新后的概念层次树中的兴趣类所归属的兴趣族;其中,确定出的兴趣族表不为增 量兴趣簇; 第二更新单元,用于使用所述增量兴趣簇更新所述更新后的概念层次树。
18. 如权利要求17所述的装置,其特征在于,每个兴趣类对应有持续时长和关注度,所 述关注度由该兴趣类下包含的各兴趣关键词的出现次数所决定,所述持续时长用于表征该 兴趣类存在的时间跨度和在所述时间跨度内用户操作行为涉及该兴趣类的频率; 所述时间跨度包括用户操作行为首次涉及所述兴趣类的时间与用户操作行为最后一 次涉及所述兴趣类的时间。
19. 如权利要求18述装置,其特征在于,所述第一更新单元用于: 在所述概念层次树中存在与所述聚类得到的兴趣类同名的兴趣类时,将所述聚类得到 的兴趣类与所述同名的兴趣类合并,得到合并后的兴趣类; 更新所述合并后的兴趣类对应的持续时长及关注度。
20. 如权利要求19所述装置,其特征在于,所述第二记录单元用于: 在合并后的兴趣类的持续时长达到转换阈值时,将持续时长达到转换阈值的所述合并 后的兴趣类记录为归属于长期兴趣模型。
21. 如权利要求18所述的装置,其特征在于,所述概念层次树中已存在的兴趣簇和所 述增量兴趣簇各自均对应关注度,所述已存在的兴趣簇对应的关注度由所述已存在的兴趣 簇下包含的各兴趣类的关注度所决定;所述增量兴趣簇对应的关注度由所述增量兴趣簇下 包含的各兴趣类的关注度所决定。
22. 如权利要求21所述装置,其特征在于,所述第二更新单元用于: 在所述更新后的概念层次树中不存在与所述增量兴趣簇同名的兴趣簇时,向所述更新 后的概念层次树中添加所述增量兴趣簇。
23. 如权利要求21所述装置,其特征在于,所述第二更新单元用于: 在所述更新后的概念层次树中存在与所述增量兴趣簇同名的兴趣簇时,将所述增量兴 趣簇与同名的兴趣簇合并,得到合并后的兴趣簇;所述增量兴趣簇的关注度与同名兴趣簇 的关注度之和为合并后的兴趣簇的关注度。
24. 如权利要求22或23所述的装置,其特征在于,还包括: 去除单元,用于在所述第二更新单元向所述更新后的概念层次树中添加所述增量兴趣 簇之后,或者,在所述第二更新单元将所述增量兴趣簇与同名的兴趣簇合并之后,去除关注 度小于最低关注阈值的兴趣簇。
25. -种用户推荐装置,其特征在于,包括: 用户兴趣模型更新装置,用于更新用户兴趣模型; 过滤装置,用于通过所述用户兴趣模型过滤推荐消息; 推荐装置,用于将所述推荐消息推荐给用户; 所述用户兴趣模型通过概念层次树结构表示,所述概念层次树按概念层次由高至低包 括兴趣簇、兴趣类和兴趣关键词,一个或多个兴趣关键词归属于同一兴趣类,一个或多个兴 趣类归属于同一兴趣簇; 所述用户兴趣模型更新装置包括: 提取单元,用于将用户的操作行为转化为文本,从文本中提取出关键词,所述关键词为 兴趣关键词; 聚类单元,用于对提取出的兴趣关键词进行聚类,得到至少一个兴趣类; 第一更新单元,用于使用聚类得到的兴趣类更新所述概念层次树。
【文档编号】G06F17/30GK104376058SQ201410624042
【公开日】2015年2月25日 申请日期:2014年11月7日 优先权日:2014年11月7日
【发明者】涂丹丹, 许可 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1