一种异构领域用户与资源关联挖掘方法及系统与流程

文档序号:25280426发布日期:2021-06-01 17:26阅读:99来源:国知局
一种异构领域用户与资源关联挖掘方法及系统与流程

本发明涉及一种异构领域用户与资源关联挖掘方法及系统,属于关联挖掘领域。



背景技术:

现有主流推荐算法通过寻找用户和资源共享的特征标签实现用户和资源的语义匹配,仅能建立实体间的显式、浅层关联。异构领域的用户和资源往往缺乏此类显式关联。因此现在急需一种异构领域用户与资源关联挖掘技术。



技术实现要素:

本发明提供了一种异构领域用户与资源关联挖掘方法及系统,解决了背景技术中披露的问题。

为了解决上述技术问题,本发明所采用的技术方案是:

一种异构领域用户与资源关联挖掘方法,包括,

对用户标签集合和资源标签集合中的标签进行扩展,基于知识图谱,获取标签对应语义的概念向量;

根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合;

基于用户标签集合的概念集合和资源标签集合的概念集合,挖掘异构领域用户与资源的关联关系。

在知识图谱中,

采用字符串完全匹配方式,将具有相同名称的标签和概念进行映射;

若标签和概念采用不同的名称指代同一实体,采用名称字符串模糊匹配方法,将标签和概念进行映射;

若一个标签能映射多个概念、并且该标签对应的用户/资源具有其他标签,获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度,相似度最高的概念作为该标签映射对象;

若一个标签能映射多个概念、并且该标签对应的用户/资源没有其他标签,则选择知识图谱中关系边的概率权重最大的概念作为映射对象。

基于社交网络和知识图谱,对用户标签集合和资源标签集合中的标签进行扩展。

概念向量中包括刻画概念语义描述能力的因子,具体为概念所属的分类。

根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合;具体过程为,

根据概念向量和知识图谱中概念之间的语义关系,从知识图谱中抽取尽可能少的概念,对各标签的语义进行尽可能多的概括,获得用户标签集合的概念集合和资源标签集合的概念集合。

一种异构领域用户与资源关联挖掘系统,其特征在于:包括,

概念向量获取模块:对用户标签集合和资源标签集合中的标签进行扩展,基于知识图谱,获取标签对应语义的概念向量;

概念集合获取模块:根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合;

关联挖掘模块:基于用户标签集合的概念集合和资源标签集合的概念集合,挖掘异构领域用户与资源的关联关系。

一种异构领域用户与资源关联挖掘系统,包括,

概念向量获取模块:对用户标签集合和资源标签集合中的标签进行扩展,基于知识图谱,获取标签对应语义的概念向量;

概念集合获取模块:根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合;

关联挖掘模块:基于用户标签集合的概念集合和资源标签集合的概念集合,挖掘异构领域用户与资源的关联关系。

在知识图谱中,

采用字符串完全匹配方式,将具有相同名称的标签和概念进行映射;

若标签和概念采用不同的名称指代同一实体,采用名称字符串模糊匹配方法,将标签和概念进行映射;

若一个标签能映射多个概念、并且该标签对应的用户/资源具有其他标签,获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度,相似度最高的概念作为该标签映射对象;

若一个标签能映射多个概念、并且该标签对应的用户/资源没有其他标签,则选择知识图谱中关系边的概率权重最大的概念作为映射对象。

概念向量获取模块中,基于社交网络和知识图谱,对用户标签集合和资源标签集合中的标签进行扩展。

概念向量中包括刻画概念语义描述能力的因子,具体为概念所属的分类。

概念集合获取模块,根据概念向量和知识图谱中概念之间的语义关系,从知识图谱中抽取尽可能少的概念,对各标签的语义进行尽可能多的概括,获得用户标签集合的概念集合和资源标签集合的概念集合。

本发明所达到的有益效果:本发明对标签进行扩展,基于知识图谱,获取标签对应语义的概念向量,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合,实现了异构领域用户与资源关联关系的挖掘。

附图说明

图1为本发明方法的逻辑框图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

实施例1

如图1所示,一种异构领域用户与资源关联挖掘方法,包括,

步骤1,进行知识图谱中概念和标签的映射。

知识图谱包含的语义信息十分丰富,不同的语义元素表达了不同的语义粒度。例如,“爱因斯坦”的语义表示可以用概念“物理学家”或“科学家”加以表示。显然,两个概念语义粒度不同,最优概念既不能过于宽泛也不能过于细化。

知识图谱中的概念(即实体)及概念间的语义关系并非针对推荐系统构建,因而不少概念在推荐系统和知识图谱中被冠以不同名称。在知识图谱中还存在部分多义概念(不同概念却有相同名称),因此实现准确的概念映射,消除概念歧义,是基于知识图谱设计标签语义表示模型的重要前提。

知识图谱庞大的概念规模、丰富的语义信息等特点对基于知识图谱的语义表示方法提出了新的要求。需要设计能适应具体的精准推荐应用需求,能从复杂结构中合理筛选概念分类、邻接实体等语义信息,并具有最优语义表示粒度的语义表示模型,还要充分考虑模型的计算效率。

具体的映射如下:

最简单的名称字符串完全匹配方式,即采用字符串完全匹配方式,将具有相同名称的标签和概念进行映射。

但是在现实中,往往标签和概念采用不同的名称指代同一实体,因此可采用基于位向量或过滤方法的名称字符串模糊匹配方法,将标签和概念进行映射。

若一个标签能映射多个概念(即多义概念)、并且该标签对应的用户/资源具有其他标签,获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度,相似度最高的概念作为该标签映射对象。

若一个标签能映射多个概念、并且该标签对应的用户/资源没有其他标签,则选择知识图谱中关系边的概率权重最大的概念作为映射对象。

对于多义概念,拟采用算法的基本原理为:同一用户/资源的标签所指代的概念基本都属于相同或相近领域。假设某个标签在知识图谱中根据名称匹配可以映射到多个概念上,则获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度ci,j=1/di,j,di,j为i与j在图谱的概念分类树中通过公共祖先结点连通的最短路径长度,分类相似度最高的概念作为该标签映射对象。如果用户/资源仅有标签i,则选选择知识图谱中关系边的概率权重最大的概念作为映射对象。

例如,假设某用户标签是“苹果、ibm、it”,则标签“苹果”映射的概念应该是指苹果公司而非水果;而在该用户只有“苹果”标签的情况下,根据关系边的权重会被映射成最被广泛接受的概念,即某种水果。

步骤2,对用户标签集合和资源标签集合中的标签进行扩展,基于知识图谱,获取标签对应语义的概念向量。

基于社交网络和知识图谱,对用户标签集合和资源标签集合中的标签进行扩展。

推荐系统中针对新加入的用户或资源往往缺少描述标签和交互记录,从而造成冷启动问题。鉴于现今社交媒体网站大都包含足量的用户社交记录,用户之间的交互数据可用以推断缺失的特征数据,从而对标签进行扩展。

现有推荐系统中,特征标签大都只是对用户兴趣、职业和商品类别的描述,往往难以完全、准确地刻画实体的多维特征,从而影响最后的推荐效果。而利用知识图谱中的语义关系则能扩展出不止于共现关系的特征描述标签,有助于推荐效果的提升。

虽然更多的标签能更丰富地描述用户或资源,但标签扩展难以避免噪音标签的产生,且推荐系统的实际应用需求也限制了标签的数量规模。鉴于现有推荐系统缺少对特征标签的提炼功能,需要设计能生成全面概括所有标签语义,还能有效剔除噪音,且具有较小规模的概念向量算法,用以获取标签对应语义的概念向量。

例如:“休闲”和“娱乐”虽是两个不同的标签,但它们都出现在百科网站中“旅游”词条的解释页面中,因而两者对应的概念向量中在“旅游”的维度上都有值(如tf-idf值),进而可以计算出这两个概念向量的相似度,即“休闲”和“娱乐”的语义相关度。鉴于知识图谱还囊括了概念所属的分类,在构造标签的概念向量时,拟引入刻画概念语义描述能力的因子(具体为概念所属的分类)以增加语义表示的粒度。此外,亦可尝试在超链接网络中应用个性化pagerank算法,用从目标概念结点随机游走至网络中其他结点的概率分布来表示目标概念的语义。或者,将随机游走概率作为链接邻居的权重值,用邻居概念向量的加权和作为目标结点的概念向量,这种模型可视为esa模型的二阶改进。

步骤3,根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法(mdl),获取用户标签集合的概念集合和资源标签集合的概念集合。

根据概念向量和知识图谱中概念之间的语义关系,从知识图谱中抽取尽可能少的概念,对各标签的语义进行尽可能多的概括,获得用户标签集合的概念集合和资源标签集合的概念集合。

在mdl理论中,数据的可压缩度与数据的规律性密切相关。对于一组数据,如果能够找到一个模型可以符合所有数据项的分布,则利用这个模型可以大幅度减少数据编码所需的长度。借鉴该思想,从知识图谱中抽取尽可能少的概念对标签集合中各标签的语义尽可能多的概括。

具体而言,使用概念集c描述输入的标签集x。一个概念c描述一个标签x所需编码长度l(x|c)=-logp(x|c)在知识图谱中是已知的。

那么所需要的编码长度如下:

其中,l(ci)表示编码概念ci所需的描述长度,l*(xi)表示编码标签xi所需的描述长度,其定义如下:

由于标签集合往往包含难以用任何概念进行描述的标签,允许通过直接编码的方法来编码(第一种情况)。需要注意的是,在使用间接编码(第二种情况)时,还需要附加编码所采用的概念序号-log|c|。

步骤4,基于用户标签集合的概念集合和资源标签集合的概念集合,挖掘异构领域用户与资源的关联关系。

上述方法对标签进行扩展,基于知识图谱,获取标签对应语义的概念向量,采用基于最小描述长度算法,获取用户标签集合的概念集合和资源标签集合的概念集合,实现了异构领域用户与资源关联关系的挖掘。

实施例2

一种异构领域用户与资源关联挖掘系统,包括,

映射模块:进行知识图谱中概念和标签的映射。

知识图谱包含的语义信息十分丰富,不同的语义元素表达了不同的语义粒度。例如,“爱因斯坦”的语义表示可以用概念“物理学家”或“科学家”加以表示。显然,两个概念语义粒度不同,最优概念既不能过于宽泛也不能过于细化。

知识图谱中的概念(即实体)及概念间的语义关系并非针对推荐系统构建,因而不少概念在推荐系统和知识图谱中被冠以不同名称。在知识图谱中还存在部分多义概念(不同概念却有相同名称),因此实现准确的概念映射,消除概念歧义,是基于知识图谱设计标签语义表示模型的重要前提。

知识图谱庞大的概念规模、丰富的语义信息等特点对基于知识图谱的语义表示方法提出了新的要求。需要设计能适应具体的精准推荐应用需求,能从复杂结构中合理筛选概念分类、邻接实体等语义信息,并具有最优语义表示粒度的语义表示模型,还要充分考虑模型的计算效率。

具体的映射如下:

最简单的名称字符串完全匹配方式,即采用字符串完全匹配方式,将具有相同名称的标签和概念进行映射。

但是在现实中,往往标签和概念采用不同的名称指代同一实体,因此可采用基于位向量或过滤方法的名称字符串模糊匹配方法,将标签和概念进行映射。

若一个标签能映射多个概念(即多义概念)、并且该标签对应的用户/资源具有其他标签,获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度,相似度最高的概念作为该标签映射对象。

若一个标签能映射多个概念、并且该标签对应的用户/资源没有其他标签,则选择知识图谱中关系边的概率权重最大的概念作为映射对象。

对于多义概念,拟采用算法的基本原理为:同一用户/资源的标签所指代的概念基本都属于相同或相近领域。假设某个标签在知识图谱中根据名称匹配可以映射到多个概念上,则获取该标签对应用户/资源的其他标签,计算该标签概念与其他标签概念的分类相似度ci,j=1/di,j,di,j为i与j在图谱的概念分类树中通过公共祖先结点连通的最短路径长度,分类相似度最高的概念作为该标签映射对象。如果用户/资源仅有标签i,则选选择知识图谱中关系边的概率权重最大的概念作为映射对象。

例如,假设某用户标签是“苹果、ibm、it”,则标签“苹果”映射的概念应该是指苹果公司而非水果;而在该用户只有“苹果”标签的情况下,根据关系边的权重会被映射成最被广泛接受的概念,即某种水果。

概念向量获取模块:对用户标签集合和资源标签集合中的标签进行扩展,基于知识图谱,获取标签对应语义的概念向量。

概念向量获取模块中,基于社交网络和知识图谱,对用户标签集合和资源标签集合中的标签进行扩展。

推荐系统中针对新加入的用户或资源往往缺少描述标签和交互记录,从而造成冷启动问题。鉴于现今社交媒体网站大都包含足量的用户社交记录,用户之间的交互数据可用以推断缺失的特征数据,从而对标签进行扩展。

现有推荐系统中,特征标签大都只是对用户兴趣、职业和商品类别的描述,往往难以完全、准确地刻画实体的多维特征,从而影响最后的推荐效果。而利用知识图谱中的语义关系则能扩展出不止于共现关系的特征描述标签,有助于推荐效果的提升。

虽然更多的标签能更丰富地描述用户或资源,但标签扩展难以避免噪音标签的产生,且推荐系统的实际应用需求也限制了标签的数量规模。鉴于现有推荐系统缺少对特征标签的提炼功能,需要设计能生成全面概括所有标签语义,还能有效剔除噪音,且具有较小规模的概念向量算法,用以获取标签对应语义的概念向量。

例如:“休闲”和“娱乐”虽是两个不同的标签,但它们都出现在百科网站中“旅游”词条的解释页面中,因而两者对应的概念向量中在“旅游”的维度上都有值(如tf-idf值),进而可以计算出这两个概念向量的相似度,即“休闲”和“娱乐”的语义相关度。鉴于知识图谱还囊括了概念所属的分类,在构造标签的概念向量时,拟引入刻画概念语义描述能力的因子(具体为概念所属的分类)以增加语义表示的粒度。此外,亦可尝试在超链接网络中应用个性化pagerank算法,用从目标概念结点随机游走至网络中其他结点的概率分布来表示目标概念的语义。或者,将随机游走概率作为链接邻居的权重值,用邻居概念向量的加权和作为目标结点的概念向量,这种模型可视为esa模型的二阶改进。

概念集合获取模块:根据概念向量和知识图谱中概念之间的语义关系,采用基于最小描述长度算法(mdl),获取用户标签集合的概念集合和资源标签集合的概念集合。

具体为:根据概念向量和知识图谱中概念之间的语义关系,从知识图谱中抽取尽可能少的概念,对各标签的语义进行尽可能多的概括,获得用户标签集合的概念集合和资源标签集合的概念集合。

在mdl理论中,数据的可压缩度与数据的规律性密切相关。对于一组数据,如果能够找到一个模型可以符合所有数据项的分布,则利用这个模型可以大幅度减少数据编码所需的长度。借鉴该思想,从知识图谱中抽取尽可能少的概念对标签集合中各标签的语义尽可能多的概括。

具体而言,使用概念集c描述输入的标签集x。一个概念c描述一个标签x所需编码长度l(x|c)=-logp(x|c)在知识图谱中是已知的。

那么所需要的编码长度如下:

其中,l(ci)表示编码概念ci所需的描述长度,l*(xi)表示编码标签xi所需的描述长度,其定义如下:

由于标签集合往往包含难以用任何概念进行描述的标签,允许通过直接编码的方法来编码(第一种情况)。需要注意的是,在使用间接编码(第二种情况)时,还需要附加编码所采用的概念序号-log|c|。

关联挖掘模块:基于用户标签集合的概念集合和资源标签集合的概念集合,挖掘异构领域用户与资源的关联关系。

一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行异构领域用户与资源关联挖掘方法。

一种计算设备,包括一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行异构领域用户与资源关联挖掘方法的指令。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1