用户偏好的推测方法、装置和终端设备与流程

文档序号:15445545发布日期:2018-09-14 23:19阅读:123来源:国知局

本发明涉及数据挖掘技术领域,特别是涉及一种终端用户偏好的推测方法、装置和终端设备,以及使用推测出的偏好向用户推荐信息的方法、装置和终端设备。



背景技术:

作为移动业务的载体,终端是市场开发、市场维护以及数据及信息业务发展的一个重要切入点。如何有效地对终端用户的偏好进行分析,以根据终端用户的偏好向其推荐合适的业务,已成为移动领域亟需解决的问题。

以新闻客户端为例,用户关心的才是真正的头条。为了实现精准推荐,其需要获取用户的个性化特征,以向用户推荐符合用户个性的资讯。然而当新用户第一次安装并打开例如某新闻客户端时,客户端对新用户的阅读习惯、偏好完全不清楚。在这种情况下,如何准确地获知新用户的偏好以提升用户留存率就显得尤为重要。

由此,需要一种能够对终端用户的偏好进行推测的方案。



技术实现要素:

本发明的主要目的在于提供一种终端用户偏好的推测方法、装置和终端设备,其能够根据终端设备上获取的应用信息对终端用户的偏好进行预测。根据预测出的偏好,就能够对用户进行精准的信息推荐。

根据本发明的一个方面,提供了一种终端用户偏好的推测方法,包括:获取终端中多个已安装应用各自的相关信息,相关信息包括应用属性信息和应用使用信息;以及根据相关信息推测终端用户偏好。由此,可以通过对终端上已安装应用进行分析实现对终端用户偏好的推测。

优选地,根据相关信息推测终端用户的偏好可以包括:根据应用属性信息和/或应用使用信息对多个已安装应用进行权重分配;从多个已安装应用的应用属性信息中提取一个或多个关键词;基于应用权重从一个或多个关键词中生成代表终端用户偏好的偏好标签。这样就可以仅根据终端上已安装应用的关键词信息来推测用户的偏好。

优选地,应用属性信息包括应用安装信息,并且,根据应用属性信息和/或应用使用信息对多个已安装应用进行权重分配可以包括:为应用使用信息指示正在运行和/或最近使用的应用分配高权重因子;为应用安装信息指示系统预装的应用分配低权重因子;以及为其他应用分配中间权重因子。这样就能够通过提升经常使用的应用的权重来提升偏好推测的准确性。

优选地,根据应用属性信息和/或应用使用信息对多个已安装应用进行权重分配还可以包括:为应用安装信息指示被广泛安装的应用调低权重因子;以及为应用安装信息指示被小范围安装的应用调高权重因子。这样就能够通过降低区分度不高的应用的权重来进一步提升偏好推测的准确性。

优选地,可以根据下式计算应用权重:其中,是应用使用时长权重,应用使用时长加权公式为其中,t是最近使用的应用的使用时间,taverage是所有应用平均使用时长,λ为常数;weight是分配的权重因子,正在运行和/或最近使用的应用的weight为3,系统预装的应用的weight为1,其他应用的weight为2;installnum是应用在市场上的安装量。

优选地,应用属性信息可以包括应用描述信息,应用描述信息包括具有各自来源权重的应用名、应用分类和/或应用描述内容,并且,从多个已安装应用的应用属性信息中提取一个或多个关键词可以包括:从多个已安装应用的应用描述信息中提取一个或多个关键词;以及基于关键词的来源权重来确定一个或多个关键词的权重,其中基于应用权重从一个或多个关键词中生成代表终端用户偏好的偏好标签可以包括:基于应用权重以及关键词权重从一个或多个关键词中生成代表终端用户偏好的偏好标签。

由此,通过考虑关键词权重来进一步增加本发明偏好推测方案的判断维度。

优选地,可以基于下式计算关键词权重:

weight*log(tf*idf),

其中,应用名和应用分类信息的来源权重weight为1,应用描述内容的来源权重weight为0.3,每个关键词的tf表示单个应用该词出现的次数,每个关键词的idf则表示统计的应用总数除以有该词出现的应用个数。

优选地,根据相关信息推测终端用户的偏好可以包括:根据应用属性信息和/或应用使用信息对多个已安装应用进行权重分配;选取已安装应用及其权重分配与终端用户相类似的预定u个的其他用户;从终端用户的多个已安装应用的应用属性信息中提取一个或多个终端用户应用关键词;从其他用户的多个已安装应用的应用属性信息中提取一个或多个其他用户应用关键词;从一个或多个终端用户关键词和一个或多个其他用户应用关键词中生成代表终端用户偏好的偏好标签。

由此,通过引入类似用户,能够更加准确地推测目标用户的偏好。

优选地,一个或多个终端用户关键词是按权重排序的终端用户关键词向量,一个或多个其他用户关键词是按权重排序的其他用户关键词向量,并且,从一个或多个终端用户关键词和一个或多个其他用户应用关键词中生成代表终端用户偏好的偏好标签可以包括:将终端用户关键词向量和其他用户关键词向量映射到分类标签向量,以各自得到按权重排序的终端用户分类标签向量na和按权重排序的其他用户分类标签向量ru;分别对na和ru内的分类标签的权重进行归一化;合并经归一化的na和ru以得到偏好标签向量ra;以及对偏好标签向量ra内的偏好标签的权重进行归一化以得到经归一化的ra作为代表终端用户偏好的偏好标签。

优选地,在合并经归一化的na和ru之前可以分别向na和ru内的分类标签的权重乘以重要性因子由此,避免数据不充分导致的推测偏差。

优选地,在得到经归一化的ra之后,可以对ra中大于平均权重的偏好标签权重进行降权迭代,直到最大的标签权重小于预定阈值以得到代表终端用户偏好的偏好标签。由此,避免个别标签权重过大,保证对用户偏好的全面且平衡的获取。

根据本发明的另一个方面,还提供了一种面向终端用户的信息推荐方法,包括:获取根据上文述及的方法推测出的终端用户偏好;根据终端用户偏好向用户推荐信息。

优选地,可以根据终端用户偏好向用户推荐信息包括根据终端用户的偏好标签和/或标签权重推荐信息;推荐信息是新闻、文章和/或广告。

根据本发明的又一个方面,还提供了一种终端用户偏好的推测装置,包括:信息获取单元,用于获取终端中多个已安装应用各自的相关信息,相关信息包括应用属性信息和应用使用信息;以及偏好推测单元,用于根据相关信息推测终端用户偏好。

优选地,偏好推测单元可以包括:应用权重分配单元,用于根据应用属性信息和/或应用使用信息对多个已安装应用进行权重分配;关键词提取单元,用于从多个已安装应用的应用属性信息中提取一个或多个关键词;以及偏好标签生成单元,用于基于应用权重从一个或多个关键词中生成代表终端用户偏好的偏好标签。

优选地,偏好推测单元还可以包括:其他用户选取单元,用于选取已安装应用及其权重分配与终端用户相类似的预定u个的其他用户;以及其他用户关键词提取单元,用于从其他用户的多个已安装应用的应用属性信息中提取一个或多个其他用户应用关键词,其中,偏好标签生成单元还基于一个或多个其他用户应用关键词生成偏好标签。

优选地,一个或多个终端用户关键词是按权重排序的终端用户关键词向量,一个或多个其他用户关键词是按权重排序的其他用户关键词向量,并且,偏好推测单元还可以包括:分类标签向量映射单元,用于将终端用户关键词向量和其他用户关键词向量映射到分类标签向量,以各自得到按权重排序的终端用户分类标签向量na和按权重排序的其他用户分类标签向量ru;归一化单元,用于分别对na和ru内的分类标签的权重进行归一化;合并单元,用于合并经归一化的na和ru以得到偏好标签向量ra,其中,归一化单元还对偏好标签向量ra内的偏好标签的权重进行归一化以得到经归一化的ra作为代表终端用户偏好的偏好标签。

优选地,偏好推测单元还可以包括:降权迭代单元,用于在得到经归一化的ra之后,对ra中大于平均权重的偏好标签权重进行降权迭代,直到最大的标签权重小于预定阈值以得到代表终端用户偏好的偏好标签。

根据本发明的再一个方面,还提供了一种面向终端用户的信息推荐装置,包括:上文述及的推测装置,推测装置推测终端用户偏好;信息推荐装置,用于根据推测装置推测出的终端用户偏好向用户推荐信息。

根据本发明的还一个方面,还一种终端设备,包括:存储器,用于存储已安装的应用以及应用的相关信息,相关信息包括应用属性信息和应用使用信息;以及连接至存储器的处理器,用于:获取终端中多个已安装应用各自的相关信息;及根据相关信息推测终端用户偏好。

本发明的终端用户偏好的推测方法/装置、推荐方法/装置及终端设备,从安装在终端上的应用出发,通过对多个已安装应用各自的相关信息进行分析,可以推测出终端用户的偏好。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。

图1是示出了根据本发明一实施例的终端设备的功能框图。

图2是示出了根据本发明一实施例的终端用户偏好的推测方法的示意性流程图。

图3是示出了根据本发明一实施例的根据相关信息推测终端用户的偏好的示意性流程图。

图4是示出了根据本发明另一实施例的根据相关信息推测终端用户的偏好的示意性流程图。

图5是示出了根据本发明另一实施例的根据相关信息推测终端用户的偏好的示意性流程图。

图6是示出了根据本发明一实施例的终端用户偏好的推测装置的功能框图。

图7是示出了根据本发明一实施例的面向终端用户的信息推荐装置的功能框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

图1是示出了根据本发明一实施例的终端设备的功能框图。图1所示的终端设备100可以是智能电话(例如,)、平板电脑(例如,)、便携式计算机等多种移动终端设备。如图1所示,终端设备100至少可以包括存储器110以及连接至存储器110的处理器120。

存储器110可以存储已安装的应用以及应用的相关信息。相关信息可以包括应用属性信息和应用使用信息。处理器120可以获取终端中多个已安装应用各自的相关信息,并根据相关信息推测终端用户偏好。处理器120的具体处理过程可以参见图2,图2是示出了根据本发明一实施例的终端用户偏好的推测方法的示意性流程图。

参见图2,首先可以执行步骤s210,获取终端中多个已安装应用各自的相关信息,相关信息包括应用属性信息和应用使用信息。

此处述及的终端优选可以是智能电话、平板电脑或便携式计算机等多种移动终端设备。终端上安装有诸如ios、安卓或是windows的各类操作系统,操作系统中则可以安装多种应用。安装在终端上的应用可以包括系统预装的应用和用户自定义安装的应用。应用的应用属性信息指的是与应用自身相关的各类信息,例如可以包括应用安装信息(例如是否系统预装)、应用描述信息(例如应用名、应用分类、应用描述内容)等信息。应用使用信息指的是应用在终端上的使用状况信息,如是否正在运行、最近运行、以及运行时长等信息。

应用属性信息和应用使用信息在一定程度上可以反映用户的偏好特征,因此在获取了终端中多个已安装应用各自的相关信息(步骤s210)后,就可以执行步骤s220,根据相关信息推测终端用户的偏好。

综上,本发明的推测方案从安装在终端上的应用出发,通过对多个已安装应用各自的相关信息进行分析,可以推测出终端用户的偏好。本发明述及的偏好可以包括终端用户的用户特征、行为偏好等等,例如可以基于本发明的推测方案推测出终端用户的性别、购物偏好、资讯浏览偏好等等,也就是说,可以利用本发明的推测方案建立终端用户的用户画像,从而可以便于根据用户画像向用户推荐合适的业务信息。下面就本发明的推测方法中根据相关信息推测终端用户的偏好的具体实现过程进行说明。

在如下的示例中,本发明详细描述了多种推测终端用户的偏好的方式。概括来说,可以仅根据待推测终端用户的终端上已安装应用的相关信息来推测用户的偏好,也可以根据待推测终端用户的终端上已安装应用,找出与待推测用户的终端上安装的应用相类似的其它一个或多个终端用户,然后根据其他一个或多个终端用户的偏好来推测待推测终端用户的偏好。另外,还可以将上述两种方式结合起来,综合推测待推测终端用户的偏好。下面分别对上述三种推测方式进行说明。

实施例1

图3是示出了根据本发明一实施例的根据相关信息推测终端用户的偏好的示意性流程图。

参见图3,在步骤310、根据应用属性信息和/或应用使用信息对多个已安装应用进行权重分配。此处可以分别根据应用属性信息和应用使用信息对已安装应用进行权重分配,也可以同时根据应用属性信息和应用使用信息对已安装应用进行权重分配。

1、根据应用属性信息对多个已安装应用进行权重分配

如前文所述,应用属性信息包括可以指示应用是否系统预装的应用安装信息。系统预装的应用不能充分代表用户的偏好,因此可以为应用安装信息指示系统预装的应用分配一个较低的权重因子,例如1。非系统预装的应用为用户自定义安装在终端上的应用,其可以在一定程度上代表用户的偏好,因此可以为应用安装信息指示非系统预装的应用分配一个较高的权重因子,例如2。

2、根据应用使用信息对多个已安装应用进行权重分配

应用使用信息包括应用在终端上的使用状况信息,如是否正在运行、最近运行、以及运行时长等信息。正在运行或最近运行的应用可以代表用户的偏好,因此可以为应用使用信息指示正在运行和/或最近运行的应用分配一个较高的权重因子,例如3。对于没有正在运行和/或最近运行的应用,可以为其分配一个较低的权重因子,例如2。

3、根据应用属性信息和应用使用信息对多个已安装应用进行权重分配

在综合考虑应用安装信息和应用使用信息进行权重分配时,可以为应用使用信息指示正在运行和/或最近使用的应用分配高权重因子,例如3。为应用安装信息指示系统预装的应用分配低权重因子,例如1。为其他应用分配中间权重因子,例如2。其中,对于一个应用被分配两个权重因子的情况,可以选取为其分配的较高的权重因子。例如,对于某个正在使用和/或最近使用的系统预装的应用,根据应用安装信息为其分配的权重因子为1,而根据应用使用信息为其分配的权重因子为3,此时可以选择权重因子较高的3作为该应用的权重。

在为已安装应用分配权重时,还可以考虑已安装应用的市场覆盖率。市场覆盖率较高的应用表明该应用代表了广大用户的普遍需求,不能代表用户的个性化需求。而对于市场覆盖率较低的应用则可以代表用户的个性化需求。基于这种考虑,本发明还可以为应用安装信息指示被广泛安装的应用调低权重因子,并且为应用安装信息指示被小范围安装的应用调高权重因子。

另外,在为已安装应用分配权重时,还可以参考应用的使用时长,即可以为应用分配一个应用使用时长权重应用使用时长权重的计算公式可以为其中,t是最近使用的应用的使用时间,taverage是所有应用平均使用时长,λ为常数。

在一个实施例中,本发明可以根据下式计算应用的权重:

其中,是应用使用时长权重,应用使用时长权重的计算公式可以为其中,t是最近使用的应用的使用时间,taverage是所有应用平均使用时长,λ为常数。weight是分配的权重因子,正在运行和/或最近使用的应用的weight为3,系统预装的应用的weight为1,其他应用的weight为2,installnum是应用在市场上的安装量。

在步骤320、从多个已安装应用的应用属性信息中提取一个或多个关键词。

如前文所述,应用属性信息包括应用描述信息,应用描述信息包括应用名、应用分类、应用描述内容等信息。因此可以从多个已安装应用中每个应用的应用描述信息中提取一个或多个关键词。作为本发明的一个示例,可以分别对已安装应用的应用名、应用分类、应用描述内容进行分词,所得到的分词结果可以作为关键词。在得到关键词后,还可以计算每个关键词的关键词权重,计算关键词权重过程如下。

可以预先分别为应用名、应用分类、应用描述内容设定相应的来源权重,例如应用名和应用分类的来源权重可以设定为1,应用描述内容的来源权重可以设定为0.3。由此,根据关键词的来源就可以确定关键词的权重。

另外,在确定关键词权重时,还可以考虑出现相同关键词出现的次数以及同一关键词出现在不同应用中的次数。基于上述考虑,在一个实施例中,可以根据下式计算关键词权重:

weight*log(tf*idf)

其中,weight表示来源权重,应用名和应用分类信息的来源权重weight为1,应用描述内容的来源权重weight为0.3,每个关键词的tf表示单个应用该词出现的次数,每个关键词的idf则表示统计的应用总数除以有该词出现的应用个数。

在步骤330、基于应用权重从一个或多个关键词中生成代表终端用户偏好的偏好标签。

此处可以将关键词按照关键词所属应用的应用权重的大小顺序进行排列,以选出应用权重较大的关键词,然后基于选出的关键词生成代表终端用户偏好的偏好标签。其中,可以直接将选出的关键词作为代表终端用户偏好的偏好标签,也可以将选出的关键词映射到一个或多个分类标签(例如,社会、娱乐、科技、政治、体育等)下,将该分类标签作为代表终端用户偏好的偏好标签。例如,可以利用同义词关系先将关键词映射到大标签下的小标签,然后再将其归类于某个大标签。

如上文所述,在提取关键词时,还可以为计算关键词的关键词权重。因此也可以基于关键词权重从一个或多个关键词中生成代表终端用户偏好的偏好标签。例如,可以从抽取得到的关键词中选取关键词权重较高的关键词,基于选出的关键词生成代表终端用户偏好的偏好标签。其中,基于关键词生成偏好标签的过程可以参见上文说明,这里不再赘述。

另外,也可以同时基于应用权重和关键词权重从抽取得到的关键词中生成代表终端用户偏好的偏好标签。例如,可以从抽取得到的关键词中选出对应于应用权重较大的应用的关键词,然后从选出的关键词中进一步筛选出关键词权重较大的关键词,再基于进一步筛选出的关键词生成代表终端用户偏好的偏好标签。

实施例2

图4是示出了根据本发明另一实施例的根据相关信息推测终端用户的偏好的示意性流程图。

参见图4,在步骤410、根据应用属性信息和/或应用使用信息对多个已安装应用进行权重分配。关于步骤s410涉及的细节可以参见上文结合图3对步骤s310的描述,这里不再赘述。

在步骤s420,选取已安装应用及其权重分配与待推测的终端用户相类似的预定数量个其他用户(为了便于区分,这里可以称为参照用户,下同)。

作为本发明的一个示例,可以按照应用权重的大小顺序排列终端用户的终端上的已安装应用,以得到应用列表向量va。相应地,按照应用权重的大小顺序排列其他一个或多个终端用户的终端上的已安装应用,以得到一个或多个应用列表向量vb。通过计算向量va和向量vb之间的相似度,可以确定其他一个或多个终端用户是否可以作为待推测终端用户的参照用户。其中,可以通过多种方式来计算向量va和向量vb之间的相似度,例如可以通过余弦相似度计算向量va和向量vb之间的相似度。再例如,还可以根据如下公式计算向量va和向量vb之间的相似度:

其中|va∩vb|表示用户a和用户b应用列表向量的交集。

由于参照用户的终端上所安装的应用以及所安装的应用的权重分配与待推测终端用户相似,因此可以将参照用户的偏好视为待推测终端用户的偏好(步骤s430)。也就是说,可以通过求代表参照用户的偏好的偏好标签,来得到代表待推测终端用户的偏好的偏好标签。由此,步骤s420中提及的其他用户可以优选地是偏好标签已经确定了的终端用户,这样可以将确定为待推测终端用户的参照用户的偏好标签直接视为待推测终端用户的偏好标签。另外,在参照用户的偏好标签未确定的情况下,可以参照上文图2所示的方法来确定参照用户的偏好标签,这里不再赘述。

需要说明的是,在所确定的参照用户为多个时,可以取多个参照用户的偏好标签的并集,然后通过计算集合中所有标签的平均权重,按照权重的大小顺序选出预定数量个标签作为待推测终端用户的偏好标签。

实施例3

如上所述,实施例1根据待推测用户的终端上的已安装应用的信息进行推测。倘若应用安装量过少,稀疏的数据会导致一定的推测偏差。实施例2仅根据参照用户的偏好来推测待推测用户的偏好,也有可能会偏离目标用户的喜好。因此,在实施例3中,可以对上述实施例进行结合。如下将就该实施例进行详细说明。其中,对于已在上文述及的内容,可以参照上文相关说明,这里不再赘述。

图5是示出了根据本发明另一实施例的根据相关信息推测终端用户的偏好的示意性流程图。

参见图5,在步骤s510,根据应用属性信息和/或应用使用信息对多个已安装应用进行权重分配。在步骤s520,选取已安装应用及其权重分配与终端用户相类似的预定数量个其他用户。在步骤s530,从终端用户的多个已安装应用的应用属性信息中提取一个或多个终端用户应用关键词。在步骤s540,从其他用户的多个已安装应用的应用属性信息中提取一个或多个其他用户应用关键词。在步骤s550,从终端用户关键词和其他用户应用关键词中生成代表终端用户偏好的偏好标签。

此处可以将终端用户关键词和其他用户应用关键词按照关键词所属应用的应用权重的大小顺序进行排列,以选出应用权重较大的关键词,然后基于选出的关键词生成代表终端用户偏好的偏好标签。其中,可以直接将选出的关键词作为代表终端用户偏好的偏好标签,也可以将选出的关键词映射到一个或多个分类标签(例如,社会、娱乐、科技、政治、体育等)下,将该分类标签作为代表终端用户偏好的偏好标签。

作为本发明的一个示例,终端用户关键词可以是按权重排序的终端用户关键词向量,其他用户关键词可以是按权重排序的其他用户关键词向量。可以将终端用户关键词向量和其他用户关键词向量映射到分类标签向量,以各自得到按权重排序的终端用户分类标签向量na和按权重排序的其他用户分类标签向量ru。

在得到na和ru后,可以分别对na和ru内的分类标签的权重进行归一化,合并经归一化的na和ru以得到偏好标签向量ra,可以对偏好标签向量ra内的偏好标签的权重进行归一化以得到经归一化的ra作为代表终端用户偏好的偏好标签。

考虑到na内的偏好标签可能较少,但某一个或某几个偏好标签的权重可能较大,因此为了计算方便,在合并经归一化的na和ru之前还可以分别向na和ru内的分类标签的权重乘以重要性因子

在得到经归一化的ra之后,为了避免个别偏好标签权重过大,还可以对ra中大于平均权重的偏好标签权重进行降权迭代,直到最大的标签权重小于预定阈值以得到代表终端用户偏好的偏好标签。例如,可以假设ra中大于平均权重中最小的那个权重是wi,则将所有大于平均权重的标签权重都除以降权因子如此迭代下去直到最大的标签权重小于某个设定的阈值(例如25%)。

至此,结合图2至图5详细说明了本发明的终端用户的偏好的推测方法,基于该方法,本发明还提出了一种面向终端用户的信息推荐方法。具体地,可以利用上文述及的推测方法推测出终端用户的偏好,然后根据所获取的终端用户的偏好,向终端用户推荐合适的信息。例如,可以根据终端用户的偏好标签和/或标签权重来推荐信息,所推荐的信息可以是新闻、文章或广告等信息。

本发明的推测/推荐方法可以应用于多种场景,例如可以应用于用户行为推测、商品推测,尤其适用于像今日头条这种新闻推荐端。

如前文所述,今日头条的口号是“你关心的才是头条”。为了达到良好的新闻推荐效果,新闻推荐客户端需要基于大数据,以用户兴趣为中心,做出合适地推荐。然而对用户量身定制的个性化新闻推荐是需要基于用户已有的数据及反馈的。当一个新用户第一次安装并打开新闻客户端的时候,也即冷启动,新闻客户端对这个新用户的阅读习惯,偏好完全不清楚。在冷启动模式下,如何预测用户的新闻阅读偏好已成为一个难题,用户的新闻阅读初始画像如果预测得准的话,能有效提高用户的留存率。目前一些主流的新闻客户端在冷启动的过程中的推荐策略,主要是推一些当前的热点新闻,精品文章,并且广泛撒网,全方位探索用户的阅读兴趣。再根据用户的阅读行为逐步修正推荐算法,完善用户新闻阅读画像,再进一步做精准推荐,这一过程稍显缓慢。

为解决冷启动推荐盲目的问题,可以利用本发明提出的推测/推荐方法获取针对手机等终端上已安装的应用列表、最近使用过的应用列表、正在运行的应用列表等信息,基于装有类似应用列表的用户的阅读兴趣和该用户应用列表映射到新闻标签向量的算法做协同过滤,再考虑到应用使用时间,系统应用,平均化,避免个别推荐标签占比过大等因素对推荐因素做加权处理。最终获取一个用户新闻兴趣标签的推荐向量及各个标签所占的推荐权重并以此为基础对冷启动用户进行新闻推荐。

下面以本发明的推测/推荐方法应用于智能电话上安装的新闻客户端的冷启动过程进行说明。该过程主要分为如下几个步骤。

1、收集智能电话上应用安装列表,最近在用的应用列表和正在运行的应用列表。最近在用的应用列表和正在运行的应用列表可以通过直接调用api抓取,例如,在安卓系统下,最近使用的应用列表可以直接调用api,list<activitymanager.recenttaskinfo>tasks=getactivitymanager().getrecenttasks(10,0)进行抓取。

2、获取最近使用的应用的使用时间t,应用使用时长加权公式为其中taverage是所有应用平均使用时长,λ为常数。

3、标记应用安装列表中哪些应用是属于系统预装的。

4、获取应用在市场上的大体安装量installnum。

5、对于正在运行的和最近在用的应用权重weight标为3,系统预装的应用权重weight标为1,其余的权重weight标为2,按的值对应用列表进行从大到小排序得到应用列表向量va。

6、对市场上主流应用的应用名,应用分类信息,应用描述进行分词,计算每个关键词的tf(单个应用这个词出现的次数)和idf(统计的应用总数/这个词出现在多少个应用里)

7、应用名和应用分类信息的分词权重weight为1,应用描述分词的权重weight为0.3,按分词weight*log(tf*idf)从高到低排序得到一个关键词向量。

8、将应用的关键词向量映射到新闻的分类标签向量na(新闻的分类标签类似于社会,娱乐,科技,政治,历史,房产等大的标签,可利用同义词关系先将关键词命中大标签下面的小标签,再把关键词归类于某个大标签)。

9、分类标签向量na里每一个标签都对应于一个权重,这个权重来自于步骤7中的关键词向量权重,当一个标签被多个关键词命中的时候取权重最高的那个。

10、计算其他用户应用列表向量与该用户应用列表向量va的相似度,计算公式为其中|va∩vb|表示用户a和用户b应用列表向量的交集。

11、取与用户a应用列表向量最相似的前k个用户并获取他们的新闻标签向量集合{n1,n2,...,nk}。

12、计算{n1,n2,...,nk}中所有标签的平均权重,并从大到小排序取前u个(少于u个则全取)组成推荐新闻标签向量ru。

13、将na和ru两个向量里面新闻标签的权重归一化,即

14、考虑到数据可能不充分的情况,na里所有的标签权重需要乘以一个重要性因子ru里所有的标签权重也乘以一个重要性因子

15、最后的新闻推荐向量标签需要合并na和ru里的向量,对于相同的标签权重相加,按权重从大到小排序得到推荐标签向量ra。

16、将ra里所有标签对应的权重归一化。为避免个别标签推荐权重过大,假设这些标签里大于平均权重中最小的那个权重是wi,则将所有大于平均权重的标签权重都除以降权因子如此迭代下去直到最大的标签权重小于某个设定的阈值(例如25%)。

17、步骤16迭代终止后得到的推荐新闻标签向量,冷启动时即可参照标签向量里各个标签的权重推荐新闻。

与本发明的推测方法、推荐方法相对应,本发明还提出了一种推测装置、推荐装置以及终端设备。

图6是示出了根据本发明一实施例的终端用户偏好的推测装置的功能框图。其中,推测装置600的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图5所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

图6所示的推测装置600可以用来实现图2至图5所示的推测方法,下面仅就推测装置600可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文结合图2至图5的描述,这里不再赘述。

参见图6,推测装置600包括信息获取单元610和偏好推测单元620。信息获取单元610用于获取终端中多个已安装应用各自的相关信息,相关信息包括应用属性信息和应用使用信息。偏好推测单元620用于根据相关信息推测终端用户偏好。

如图6所示,偏好推测单元620可以可选地包括应用权重分配单元621、关键词提取单元622以及偏好标签生成单元623。

应用权重分配单元621用于根据应用属性信息和/或应用使用信息对所述多个已安装应用进行权重分配。关键词提取单元622用于从所述多个已安装应用的应用属性信息中提取一个或多个关键词。偏好标签生成单元623用于基于应用权重从所述一个或多个关键词中生成代表所述终端用户偏好的偏好标签。

如图6所示,偏好推测单元620还可以可选地包括其他用户选取单元624和其他用户关键词提取单元625。

其他用户选取单元624用于选取已安装应用及其权重分配与终端用户相类似的预定u个的其他用户。其他用户关键词提取单元625用于从其他用户的多个已安装应用的应用属性信息中提取一个或多个其他用户应用关键词。其中,偏好标签生成单元623还可以基于一个或多个其他用户应用关键词生成偏好标签。

优选地,终端用户关键词可以是按权重排序的终端用户关键词向量,其他用户关键词可以是按权重排序的其他用户关键词向量,并且,偏好推测单元620还可以可选地包括分类标签向量映射单元626、归一化单元627以及合并单元628。

分类标签向量映射单元626用于将终端用户关键词向量和其他用户关键词向量映射到分类标签向量,以各自得到按权重排序的终端用户分类标签向量na和按权重排序的其他用户分类标签向量ru。归一化单元627用于分别对na和ru内的分类标签的权重进行归一化。合并单元628用于合并经归一化的na和ru以得到偏好标签向量ra,其中归一化单元627还对偏好标签向量ra内的偏好标签的权重进行归一化以得到经归一化的ra作为代表终端用户偏好的偏好标签。

如图6所示,偏好推测单元还可以可选地包括降权迭代单元629,用于在得到经归一化的ra之后,对ra中大于平均权重的偏好标签权重进行降权迭代,直到最大的标签权重小于预定阈值以得到代表终端用户偏好的偏好标签。

图7是示出了根据本发明一实施例的面向终端用户的信息推荐装置的功能框图。其中,推荐装置700的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图6所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

如图7所示,推荐装置700包括推测装置600和信息推荐装置710。推测装置600可以用于推测终端用户偏好,关于推测装置600的结构及具体功能可以参见上文图6相关说明。信息推荐装置710用于根据推测装置500推测出的终端用户偏好向用户推荐信息。同样地,图1所示的终端设备也可以用于实现图7所示的推荐装置700及其推荐方法。

上文中已经参考附图详细描述了根据本发明的终端用户偏好的推测方法、推测装置及终端设备。

此外,根据本发明的方法还可以实现为一种计算机程序,该计算机程序包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者,根据本发明的方法还可以实现为一种计算机程序产品,该计算机程序产品包括计算机可读介质,在该计算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1