具有隐私保护功能的跨域医疗保健设备推荐方法及系统

文档序号:25421905发布日期:2021-06-11 21:33阅读:89来源:国知局
具有隐私保护功能的跨域医疗保健设备推荐方法及系统

本公开涉及互联网信息技术处理领域,特别涉及一种具有隐私保护功能的跨域医疗保健设备推荐方法及系统。



背景技术:

本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。

目前,由于ai和物联网领域的快速发展,各行各业都涌现出了大量的智能物联网设备。在医疗保健领域,智能物联网设备主要体现为医疗保健设备,市场上有各种类型的医疗保健设备,包括:智能手环、智能戒指、感应头带和智能眼镜,简单的手持设备等。这些设备数量、种类繁多,其价格、质量、功能等方面都各不相同,过量的信息让消费者难以做出选择。推荐系统能有效解决信息过载问题,协助用户从繁杂的信息中筛选出最喜爱的商品。

由于医疗保健设备通常是耐用产品且兼具多种功能,用户购买频率低、数量少,因此,由用户对商品的评分数据构成的用户商品评分矩阵具有稀疏性的特点。这种稀疏的评分矩阵使得上述的医疗保健设备推荐很难有效。考虑到用户通常有购买医疗保健设备之外的其他类型物品的信息,而这信息通常与各种医疗保健产品的用户需求有关且数据丰富。例如,用户在食品领域和户外运动产品领域上的行为数据往往远大于其在医疗保健产品领域的行为数据,而用户的饮食习惯和运动习惯可以反映其对医疗保健产品的需求。将用户在其它相关领域的丰富信息迁移到医疗保健产品领域中,可以有效解决用户在医疗保健产品领域中的数据稀疏问题,提升推荐效果。

这种将用户信息从其它用户数据丰富的领域(也称为辅助域,例如食品、户外运动领域等),迁移到用户数据稀疏的领域(也称为目标域,例如医疗保健设备领域),来帮助目标域进行推荐的方法称为跨域推荐系统。尽管在其他领域中也存在一些跨域推荐模型,但是,一方面这些模型未考虑不同域中项目的差异性,或者未使用辅助域信息来充分表征消费者的特征,经常会导致知识的负迁移,进而影响目标域的推荐性能。另一方面,人们越来越注意自己的信息隐私问题,往往不允许将自己的数据在不进行隐私保护处理的情况下在各个平台共享,现有的跨域推荐模型直接将辅助域中的原始评分信息共享到目标域中,来改进目标域中的推荐性能,导致辅助域用户原始数据隐私泄露,无法保护辅助域中用户的原始数据隐私。

综上所述,现有技术存在的问题是:传统的单域推荐系统面临着用户评分数据稀疏问题;现有的跨域推荐系统一方面无法利用辅助域信息充分表征用户特征,另一方面也无法保护用户在辅助域的原始信息隐私。



技术实现要素:

为了解决现有技术的不足,本公开提供了一种具有隐私保护功能的跨域医疗保健设备推荐方法及系统,为了充分表征用户特征,首先将用户特征总结为领域依赖特征和领域不依赖特征,依赖特征和不依赖特征实现了用户特征在概念层面上的完整划分。然后,基于funk-svd模型和正交非负矩阵三因子分解模型(onmtf)从辅助域用户评分信息中,分别提取了用户的领域依赖特征和领域不依赖特征。最后,将用户在辅助域中的特征迁移到目标域中,融合目标域的信息进行推荐,解决了目标域数据稀疏问题,避免了负迁移,提升了推荐效果。此外,该方法在使用funk-svd模型和onmtf模型分解辅助域评分矩阵的过程中,保留项目潜在因子向量,公开用户潜在因子向量(即领域依赖特征和领域不依赖特征),可以使平台无法根据公开的用户潜在因子向量反推出原始的评分信息,能有效解决在辅助域数据迁移过程中用户的原始数据隐私泄露问题;

为了实现上述目的,本公开采用如下技术方案:

本公开第一方面提供了一种具有隐私保护功能的跨域医疗保健设备推荐方法。

一种具有隐私保护功能的跨域医疗保健设备推荐方法,包括以下过程:

获取目标域关于医疗保健设备的用户和项目的id数据;

对目标域用户id数据和项目id数据分别进行one-hot编码表示;

利用辅助域用户领域依赖特征和辅助域用户领域不依赖特征对目标域one-hot编码表示进行扩展,得到扩展后的特征;

利用扩展后的特征和训练好的因子分解机模型预测目标域用户对项目的评分,根据评分结果进行医疗保健设备的推荐。

进一步的,因子分解机模型的训练,包括以下过程:

使用辅助域上的用户领域依赖特征和用户领域不依赖特征扩展目标域上的one-hot编码表示得到训练样本的特征向量;

将目标域中用户对医疗产品的评分作为回归变量,结合训练样本的特征向量,进行因子分解机模型的训练,且在因子分解机模型的训练过程中自动学习不同特征组合的最佳权重。

进一步的,根据预测的用户对项目的评分结果,将项目按评分从高往低的顺序排序,取排名最高的预设个数项目作为医疗保健设备推荐结果。

进一步的,辅助域用户领域依赖特征和辅助域用户领域不依赖特征的获取方式,包括以下过程:

获取辅助域用户项目评分数据;

根据辅助域用户项目评分数据得到辅助域评分矩阵;

对辅助域评分矩阵进行分解,得到用户领域依赖特征和用户领域不依赖特征。

更进一步的,对每一个辅助域评分矩阵进行funk-svd分解,得到用户领域依赖特征,包括以下过程:

使用随机梯度下降更新公式更新用户潜在向量和项目潜在向量,不断优化预设目标函数直至收敛,根据优化结果得到辅助域上的用户领域依赖特征。

更进一步的,对每一个辅助域评分矩阵进行onmtf分解,得到用户领域不依赖特征。

更进一步的,将用户领域依赖特征以及用户领域不依赖特征迁移至目标域中,各辅助域保留项目潜在因子特征矩阵在本地。

本公开第二方面提供了一种具有隐私保护功能的跨域医疗保健设备推荐系统。

一种具有隐私保护功能的跨域医疗保健设备推荐系统,包括:

数据获取模块,被配置为:获取目标域关于医疗保健设备的用户和项目的id数据;

编码表示模块,被配置为:对目标域用户id数据和项目id数据分别进行one-hot编码表示;

特征扩展模块,被配置为:利用辅助域用户领域依赖特征和辅助域用户领域不依赖特征对目标域one-hot编码表示进行扩展,得到扩展后的特征;

项目推荐模块,被配置为:利用扩展后的特征和训练好的因子分解机模型预测目标域用户对项目的评分,根据评分结果进行医疗保健设备的推荐。

本公开第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的具有隐私保护功能的跨域医疗保健设备推荐方法中的步骤。

本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的具有隐私保护功能的跨域医疗保健设备推荐方法中的步骤。

与现有技术相比,本公开的有益效果是:

1、本公开所述的方法、系统、计算机可读存储介质或电子设备,为了充分表征用户特征,首先将用户特征总结为领域依赖特征和领域不依赖特征,依赖特征和不依赖特征实现了用户特征在概念层面上的完整划分。然后,基于funk-svd模型和正交非负矩阵三因子分解模型(onmtf)从辅助域用户评分信息中,分别提取了用户的领域依赖特征和领域不依赖特征。最后,将用户在辅助域中的领域依赖特征和领域不依赖特征迁移到目标域中,融合目标域的信息进行推荐,解决了目标域数据稀疏问题,避免了负迁移,提升了推荐效果。

2、本公开所述的方法、系统、计算机可读存储介质或电子设备,在使用funk-svd模型和onmtf模型分解辅助域评分矩阵的过程中,保留项目潜在因子向量,公开用户潜在因子向量(即领域依赖特征和领域不依赖特征),可以使平台无法根据公开的用户潜在因子向量反推出原始的评分信息,能有效解决在辅助域数据迁移过程中用户的原始数据隐私泄露问题。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。

图1为本公开实施例1提供的具有隐私保护功能的跨域医疗保健设备推荐方法的流程示意图。

图2为本公开实施例1提供的跨域推荐场景示意图。

图3为本公开实施例1提供的数据扩展示意图。

图4为本公开实施例1提供的具有隐私保护功能的跨域医疗保健设备推荐方法的模型示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。

实施例1:

如图1所示,本公开实施例1提供了一种具有隐私保护功能的跨域医疗保健设备推荐方法,包括以下步骤:

s11:跨域数据整理

具体的,本实施例中,将不同域中的用户项目评分数据构成评分矩阵,按照如图2所示的跨域推荐场景进行整理,假定目标域为d0,辅助域为d1,d2,…,dn,且目标域和所有的辅助域共享相同的用户集合u=(u1,u2,...,um),但是每个域的项目可能是完全不一样的,用i0表示目标域d0的项目集合,用i1,...,in分别表示辅助域d1,d2,…,dn的项目集合。在此基础上,用r0表示目标域d0的评分矩阵,用r1,r2,…,rn分别表示辅助域d1,d2,…,dn的评分矩阵,其中,目标域评分矩阵r0的评分密度要远小于辅助域评分矩阵r1,r2,…,rn的评分密度(评分密度=评分数/(用户数*项目数)*100%)。也就是说,目标域的评分密度低,而辅助域的评分密度高。

s12:将目标域用户项目评分数据转换为训练样本

具体的,目标域中用户u对项目i的评分表示为rui,rui的范围设定为{1,2,3,4,5}。目标域中每一个用户项目评分数据(u,i,rui)可以表示为一个训练样本(idu,idi,rui),其中idu和idi分别表示用户u和项目i的id信息one-hot编码表示。由于用户和项目id信息的one-hot编码表示仅包含用户和项目的id信息的位置特征,不足以充分表示用户和项目特征,所以仅仅基于one-hot编码表示进行学习,推荐性能不理想。为了提升推荐性能,使用辅助域中密集的评分数据来充分挖掘用户特征,并使用挖掘的用户特征扩展目标域中的one-hot编码表示,使得用户特征表达更充分,从而提升目标域推荐性能。

为了充分提取用户特征,首先将用户特征在概念层面上的划分为领域依赖特征和领域不依赖特征。领域依赖特征是用户与该领域项目内容相关的一系列特征,可以视为用户对该领域项目的偏好特征。例如,在音乐领域,用户对音乐的评分的高低通常与用户对音乐风格(例如古典,爵士,民谣,嘻哈等)的偏好有关。领域不依赖特征是用户不依赖于该领域项目内容的一系列特征,可以视为用户的固有特征,例如,不管是在电影还是音乐领域,用户的年龄、性别等特征均可被看作领域不依赖特征。

领域依赖特征反映了用户对该领域项目的偏好信息,用户在不同的辅助域中有不同的领域依赖特征,辅助域越多,则用户的领域依赖特征越丰富,因此领域依赖特征具有很好的多样性。但是,由于目标域和辅助域之间的差异性,导致领域依赖特征的可迁移性不如领域不依赖特征。领域不依赖特征反映了用户固有的特征,其与该领域的项目无关,领域不依赖特征具有很好的可迁移性,但其多样性不如领域依赖特征。因此这两种特征互相补充,有必要将这两种特征结合起来,充分刻画用户特征。

s13:提取用户在辅助域上的领域依赖特征。

具体的,由于funk-svd是一种隐语义模型,可以将用户和项目投射到一个共同的依赖于项目内容的隐因子空间,本实施例使用该模型提取用户的领域依赖特征。

在funk-svd模型中,对每一个辅助域的用户项目评分矩阵求解如下优化问题:

其中是用户潜在因子向量,即用户领域依赖特征;为项目潜在因子向量;k是潜在因子向量的维数。pu和qi通过随机初始化赋予初值。

使用随机梯度下降算法求解该优化问题,迭代公式如下:

qi=qi+γ(euipu-λqi);

pu=pu+γ(euiqi-λpu);

其中,γ为学习速率,λ为正则化参数,可以通过十则交叉验证确定γ和λ的值;表示真实评分值减去预测评分值。

任意一个用户在每一个辅助域上都会分解得到一个用户潜在因子向量pu(即领域依赖特征),对于n个辅助域d1,d2,…,dn,一个用户会得到n个领域依赖特征

s14:提取用户在辅助域上的领域不依赖特征。

具体的,onmtf是正交非负矩阵三因子分解模型,可以将评分矩阵分解为三部分:用户潜在因子矩阵u,项目潜在因子矩阵v和交互矩阵b,而用户潜在因子矩阵u和项目潜在因子矩阵v并不共享隐语义空间。其中,矩阵u表示全体用户的潜在因子隶属度矩阵,这里的潜在因子可以看作是用户的领域不依赖特征,例如用户的年龄,性别,教育背景等不依赖领域的特征。矩阵u中的行向量pu表示用户u的领域不依赖特征。本实施例使用该模型提取用户的领域不依赖特征。

由于onmtf模型要求被分解的评分矩阵不含空值,但辅助域评分矩阵中也有空值,故首先使用评分矩阵中每一行非空评分的均值来填充该行的空值,然后在onmtf模型中,对每一个辅助域的评分矩阵求解如下优化问题:

迭代公式如下:

其中,m是使用评分矩阵中每一行非空评分的均值填充该行空值后的真实评分矩阵(其维度是用户数*项目数),u是用户潜在因子矩阵(其维度是用户数*用户潜在因子向量维度k1),v是项目潜在因子矩阵(其维度是项目数*项目潜在因子维度k2),b是一个用于连接用户潜在因子与项目潜在因子的交互矩阵(其维度是k1*k2),其中u,b,v均为非负矩阵,u,b,v的初始值通过随机初始化赋值,i表示单位矩阵。k1和k2分别表示用户潜在因子向量维度和项目潜在因子维度,其值通过十则交叉验证确定。矩阵u中的行向量即为用户的领域不依赖特征,对于n个辅助域d1,d2,…,dn,一个用户会得到n个领域不依赖特征

s15:扩展目标域训练样本中的one-hot编码表示得到新的训练样本。

具体的,使用辅助域中的用户领域不依赖特征和用户领域依赖特征来扩展目标域训练样本中的one-hot编码表示,得到新的训练样本。最终目标域中的训练样本(idu,idi,rui)将会被扩展为:

其中,m表示目标域中用户数,n0表示目标域中项目数,表示扩展后训练样本的特征向量,rui是目标域中用户评分信息,表示训练样本的标签,结合图3可以更清晰的理解本发明的数据扩展方式。

s16:将目标域中用户对医疗产品的评分作为回归变量,结合扩展后的训练样本的特征向量,基于因子分解机模型进行训练。

具体的,为了避免负迁移,本实施例中使用因子分解机(fm)来融合扩展的特征向量中的不同特征,fm在训练过程中自动学习不同特征组合的最佳权重,且对高维稀疏数据具有良好的性能。高阶fm可以学习到特征之间的非线性关系,具有更好的表达能力,因为二阶fm模型在实际应用中表现良好,也被称为标准fm模型,通常使用二阶fm模型。在本实施例的推荐场景中,二阶fm表达式为:

其中w0,wi和wij分别表示常数项权重(即全局偏置),特征xi的权重,特征xi和特征xj的交叉项的权重,表示模型对用户的预测评分,n表示扩展的特征向量的维数。

与传统的多项式回归不同,fm通过将交互项的权重分解为潜在因子向量的乘积来缓解稀疏性问题,这对高维稀疏数据具有良好的性能。特征xi和特征xj的交互项的权重wij可以表示为:wij=vitvj,其中vi和vj分别表示特征xi和特征xj对应的潜在因子向量,潜在因子向量vi和vj的维度h通过十则交叉验证确定。

为了训练fm模型,最小化以下优化问题:

使用随机梯度下降算法求解该优化问题,迭代公式如下:

其中,n表示扩展的用户特征向量x的维数,h表示潜在因子向量vi的维度;x表示扩展后的目标域用户特征向量,其维度为n;y表示用户真实评分,表示模型对用户的预测评分;s表示训练集;η表示学习率;w0,w,v分别表示常数项权重,一次项权重(w是向量,其维度为n),交叉项权重(v是矩阵,其维度为n*h);λw,λv分别表示常数项正则化系数,一次项正则化系数,交叉项正则化系数;其中参数η,λw,λv可以使用十则交叉验证确认最优值。

s17:预测目标域用户项目评分数据的空缺数据,并根据预测结果对所述用户生成推荐。

具体的,输入由目标域上待预测的用户和待预测项目的one-hot编码表示以及待预测用户在辅助域上的领域依赖特征、领域不依赖特征拼接得到的特征向量,经过训练后的因子分解机模型的预测,输出目标域用户对该项目的评分的预测值,目标域用户对目标域项目的预测评分的公式为:

其中,表示模型对用户的预测评分,w0,w,v分别表示常数项权重,一次项权重(w是向量,其维度为n),交叉项权重(v是矩阵,其维度为n*h);n表示扩展的用户特征向量x的维数,h表示潜在因子向量vi的维度;

最后将目标域用户所有项目的预测评分按照从高往低的顺序进行排序,选取top-n个项目作为对该用户最终的推荐项目列表。

如图4所示,为本实施例提供的具有隐私保护功能的跨域医疗保健设备推荐方法的模型示意图,具体的,包括目标域d0的评分矩阵r0,辅助域d1,d2,…,dn的评分矩阵r1,r2,…,rn;i0为目标域d0的项目数据集合,i1,...,in分别为辅助域d1,d2,…,dn的项目数据集合;u表示目标域和辅助域的共享用户集合。首先使用funk-svd和onmtf算法对辅助域评分矩阵r1,r2,…,rn进行分解;然后将分解得到的领域依赖特征和领域不依赖特征迁移至目标域中,辅助目标域进行评分预测,其中u1,u2,…,un和u1',u'2,...,u'n是分别由用户领域依赖特征和领域不依赖特征组成的矩阵;保留项目潜在因子矩阵v1,v2,…,vn、v1',v2',...,vn',使平台无法根据公开的用户潜在因子向量反推出原始的评分信息,避免在迁移过程中暴露辅助域用户原始数据隐私;最后在目标域中使用因子分解机对扩展的特征向量进行融合,自动学习最佳权重,预测目标域评分数据的缺失数据,根据补充后目标域评分数据得到推荐结果。

实施例2:

本公开实施例2提供了一种具有隐私保护功能的跨域医疗保健设备推荐系统,包括:

数据获取模块,被配置为:获取目标域关于医疗保健设备的用户和项目的id数据;

编码表示模块,被配置为:对目标域用户id数据和项目id数据分别进行one-hot编码表示;

特征扩展模块,被配置为:利用辅助域用户领域依赖特征和辅助域用户领域不依赖特征对目标域one-hot编码表示进行扩展,得到扩展后的特征;

项目推荐模块,被配置为:利用扩展后的特征和训练好的因子分解机模型预测目标域用户对项目的评分,根据评分结果进行医疗保健设备的推荐。

所述系统的工作方法与实施例1提供的具有隐私保护功能的跨域医疗保健设备推荐方法相同,这里不再赘述。

实施例3:

本公开实施例3提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例1所述的具有隐私保护功能的跨域医疗保健设备推荐方法中的步骤,所述步骤为:

获取目标域关于医疗保健设备的用户和项目的id数据;

对目标域用户id数据和项目id数据分别进行one-hot编码表示;

利用辅助域用户领域依赖特征和辅助域用户领域不依赖特征对目标域one-hot编码表示进行扩展,得到扩展后的特征;

利用扩展后的特征和训练好的因子分解机模型预测目标域用户对项目的评分,根据评分结果进行医疗保健设备的推荐。

详细步骤与实施例1提供的具有隐私保护功能的跨域医疗保健设备推荐方法相同,这里不再赘述。

实施例4:

本公开实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的具有隐私保护功能的跨域医疗保健设备推荐方法中的步骤,所述步骤为:

获取目标域关于医疗保健设备的用户和项目的id数据;

对目标域用户id数据和项目id数据分别进行one-hot编码表示;

利用辅助域用户领域依赖特征和辅助域用户领域不依赖特征对目标域one-hot编码表示进行扩展,得到扩展后的特征;

利用扩展后的特征和训练好的因子分解机模型预测目标域用户对项目的评分,根据评分结果进行医疗保健设备的推荐。

详细步骤与实施例1提供的具有隐私保护功能的跨域医疗保健设备推荐方法相同,这里不再赘述。

本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1