一种基于多源信息进行候选集排序的方法和设备与流程

文档序号:11919271阅读:180来源:国知局
一种基于多源信息进行候选集排序的方法和设备与流程

本发明涉及数据处理领域,特别涉及一种基于多源信息进行候选集排序的方法和设备。



背景技术:

现有技术中,在用户在进行搜索时,如果仅仅是根据一些简单特征进行排序,是无法满足用户需求的。

目前,一般的方法是直接利用搜索引擎得到的分值直接进行排序;

但现有方法存在一定的问题,直接利用搜索引擎得到的分值进行排序,无法满足多元用户的需求。



技术实现要素:

针对现有技术中的缺陷,本发明提出了一种基于多源信息进行候选集排序的方法和设备,用以准确对候选集进行排序,进而提高用户的体验。

具体的,本发明提出了以下具体的实施例:

本发明实施例提出了一种基于多源信息进行候选集排序的方法,包括:

获取用户搜索所得到的候选集;其中,所述候选集中包含有多个候选对象;

在预设的预测模型中根据对应所述候选对象以及所述用户的多源信息,以对所述候选对象进行两两之间的热度比对预测和与所述用户之间相关度的比对预测;

基于各比对预测的结果对候选集中的各个候选对象进行排序。

优选的,所述多源信息包含有所述候选对象的热度信息,所述候选对象对应的个人信息以及所述用户的个人信息。

优选的,所述热度比对预测是通过比对当前网络的热门程度来进行的;其中所述热门程度通过点击率,搜索率来进行确定。

优选的,所述相关度的比对预测是通过比对候选对象与所述用户的个人信息的相似程度来进行的;其中所述个人信息包括:所在地的地域信息,家乡的地域信息,年龄信息,偏好信息。

优选的,所述预测模型中包含有学习参数;该方法还包括:

获取标准多源信息;其中,对应所述标准多源信息有比对的实际结果;

在所述预设的预测模型中根据标准多源信息进行预测,得到预测结果;

根据所述预测结果与所述实际结果的差异对所述学习参数进行更新。

本发明实施例还提出了一种基于多源信息进行候选集排序的设备,包括:

获取模块,用于获取用户搜索所得到的候选集;其中,所述候选集中包含有多个候选对象;

预测模块,用于在预设的预测模型中根据对应所述候选对象以及所述用户的多源信息,以对所述候选对象进行两两之间的热度比对预测和与所述用户之间相关度的比对预测;

排序模块,用于基于各比对预测的结果对候选集中的各个候选对象进行排序。

优选的,所述多源信息包含有所述候选对象的热度信息,所述候选对象对应的个人信息以及所述用户的个人信息。

优选的,所述热度比对预测是通过比对当前网络的热门程度来进行的;其中所述热门程度通过点击率,搜索率来进行确定。

优选的,所述相关度的比对预测是通过比对候选对象与所述用户的个人信息的相似程度来进行的;其中所述个人信息包括:所在地的地域信息,家乡的地域信息,年龄信息,偏好信息。

优选的,所述预测模型中包含有学习参数;还包括:

校正模块,用于获取标准多源信息;其中,对应所述标准多源信息有比对的实际结果;

在所述预设的预测模型中根据标准多源信息进行预测,得到预测结果;

根据所述预测结果与所述实际结果的差异对所述学习参数进行更新。

与现有技术相比,本发明实施例提出了一种基于多源信息进行候选集排序的方法和设备,其中,该方法包括:获取用户搜索所得到的候选集;其中,所述候选集中包含有多个候选对象;在预设的预测模型中根据对应所述候选对象以及所述用户的多源信息,以对所述候选对象进行两两之间的热度比对预测和与所述用户之间相关度的比对预测;基于各比对预测的结果对候选集中的各个候选对象进行排序。以此通过多源信息,准确实现了对候选集进行排序,进而提高用户的体验。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种基于多源信息进行候选集排序的方法的流程示意图;

图2为本发明实施例提出的一种基于多源信息进行候选集排序的方法的流程示意图;

图3为本发明实施例提出的一种基于多源信息进行候选集排序的设备的结构示意图;

图4为本发明实施例提出的一种基于多源信息进行候选集排序的设备的结构示意图。

具体实施方式

在下文中,将更全面地描述本公开的各种实施例。本公开可具有各种实施例,并且可在其中做出调整和改变。然而,应理解:不存在将本公开的各种实施例限于在此公开的特定实施例的意图,而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

在下文中,可在本公开的各种实施例中使用的术语“包括”或“可包括”指示所公开的功能、操作或元件的存在,并且不限制一个或更多个功能、操作或元件的增加。此外,如在本公开的各种实施例中所使用,术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

在本公开的各种实施例中,表述“或”或“A或/和B中的至少一个”包括同时列出的文字的任何组合或所有组合。例如,表述“A或B”或“A或/和B中的至少一个”可包括A、可包括B或可包括A和B二者。

在本公开的各种实施例中使用的表述(诸如“第一”、“第二”等)可修饰在各种实施例中的各种组成元件,不过可不限制相应组成元件。例如,以上表述并不限制所述元件的顺序和/或重要性。以上表述仅用于将一个元件与其它元件区别开的目的。例如,第一用户装置和第二用户装置指示不同用户装置,尽管二者都是用户装置。例如,在不脱离本公开的各种实施例的范围的情况下,第一元件可被称为第二元件,同样地,第二元件也可被称为第一元件。

应注意到:如果描述将一个组成元件“连接”到另一组成元件,则可将第一组成元件直接连接到第二组成元件,并且可在第一组成元件和第二组成元件之间“连接”第三组成元件。相反地,当将一个组成元件“直接连接”到另一组成元件时,可理解为在第一组成元件和第二组成元件之间不存在第三组成元件。

在本公开的各种实施例中使用的术语“用户”可指示使用电子装置的人或使用电子装置的装置(例如,人工智能电子装置)。

在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用,单数形式意在也包括复数形式,除非上下文清楚地另有指示。除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本公开的各种实施例中被清楚地限定。

实施例1

本发明实施例提出了一种基于多源信息进行候选集排序的方法,如图1所示,包括:

步骤101、获取用户搜索所得到的候选集;其中,所述候选集中包含有多个候选对象;

具体的,用户在搜索时,例如输入关键词想搜索得到某歌手的歌曲时;或者想得到某些电影,商品等等的信息时,会得到一些结果,以歌曲为例来进行说明,候选集中的的多个候选对象也即搜索得到的多首歌曲;其他的例子与此类似,在此不再进行说明。

步骤102、在预设的预测模型中根据对应所述候选对象以及所述用户的多源信息,以对所述候选对象进行两两之间的热度比对预测和与所述用户之间相关度的比对预测;

具体的,所述多源信息包含有所述候选对象的热度信息,所述候选对象对应的个人信息以及所述用户的个人信息。

以候选对象为歌曲为例来进行说明,多源信息中包含有该歌曲的热度信息(对应受欢迎程度,传播程度,以及影响程度),具体的体现,例如可以通过在百度热门歌曲榜单的位置、在网易热门歌曲榜单位置等来进行判断,还包括:歌曲的演唱者的个人信息,例如该歌手的家乡,目前所在地,年纪信息等等;此外,还包括进行搜索的用户的个人信息,例如该用户的家乡,目前所在地,年纪信息等等。

具体的,根据多源信息对候选对象的热度以及候选对象所对应的个人与用户之间的相关度来进行比对预测,预测该用户期待的排序,其中最希望得到的候选对象位于该排序的最前端,其他的依次排列。

在一个具体的实施例中,所述热度比对预测是通过比对当前网络的热门程度来进行的;其中所述热门程度通过点击率,搜索率来进行确定。

所述相关度的比对预测是通过比对候选对象与所述用户的个人信息的相似程度来进行的;其中所述个人信息包括:所在地的地域信息,家乡的地域信息,年龄信息,偏好信息。

具体的,在一个具体的实施例中,所述“在预设的预测模型中基于多源信息对所述候选对象进行两两之间的热度比对和与所述用户相关度的比对”是基于以下公式来进行的:

其中,y'i为预测值,其中,若y'i的值为1表示候选对象1比候选对象2的得分高;若y'i的值为0表示候选对象1比候选对象2的得分低;i表示为第i个样本;

w1,w2,w3均为学习参数,且均是一维向量,后续可以利用标准数据进行修正学习,以更好进行预测;

表示为在第i个样本中,候选对象1的热门特征列表;例如在百度热门歌曲榜单的位置、在网易热门歌曲榜单位置、热门歌手榜单等等;

表示为在第i个样本中,候选对象2的热门特征列表;例如在百度热门歌曲榜单的位置、在网易热门歌曲榜单位置、热门歌手榜单等等;

表示的是候选对象1与候选对象2的热度差异;

表示为候选对象1的基础信息,例如年龄,所在地等等;

表示为候选对象1的基础信息,例如年龄,所在地等等;

表示的是用户的基础信息;

表示第i个样本中,用户的基础信息与候选对象1的基础信息匹配计算函数;

表示第i个样本中,用户的基础信息与候选对象2的基础信息匹配计算函数

表示候选对象1的离散化年龄特征;

表示候选对象2的离散化年龄特征;

表示候选对象1与所述用户的相关度,其中该相关度与候选对象1的年龄关联极大;

表示候选对象2与所述用户的相关度,其中该相关度与候选对象2的年龄关联极大;

表示候选对象1、候选对象2与所述用户的相关度的差值;

以此,具体的预测过程如图2所示,本模型主要从两块来说明对象1跟对象2在与用户的相似关系,表示对象1跟对象2各自的热度差异;而表示的是对象1跟对象2在与用户本身基础信息是否足够的相似的差异。

表示对象1跟对象2的热度差异值。其中w1是需要学习的参数。

是对象1的个体基础个人信息,与用户的基础个人信息的匹配度计算函数。比如,年龄差值(有一方信息缺失,则默认为年龄均值),所在地差异(进行地域相似性差异化:省份是否相同,市是否相同,区县是否相同;有一方信息缺失,默认为不同省份);家乡所在地差异;偏好相似性(是否有相同的类目偏好,缺失则默认没有相同类目偏好)等等。并且,由于模型可以接受各类的基础个人信息的对比。

表示的是歌手1的基础信息与用户的个人基础信息的相似得分。其中的,是歌手1的年龄离散化的斜率。将年龄进行如此重要化的处理,主要就是考虑到极多的实际场景中,不同的年龄有着极其不一样的斜率。

步骤103、基于各比对预测的结果对候选集中的各个候选对象进行排序。

在一个具体的实施例中,所述预测模型中包含有学习参数;该方法还包括:

获取标准多源信息;其中,对应所述标准多源信息有比对的实际结果;

在所述预设的预测模型中根据标准多源信息进行预测,得到预测结果;

根据所述预测结果与所述实际结果的差异对所述学习参数进行更新。

在一个具体的实施例中,如上述,学习参数为上述公式中的w1,w2,w3,对学习参数进行更新,具体是根据损失函数来进行更新的,具体的损失函数为:

其中,yi是样本i的实际值,而y′i是模型对样本i的预测值。

此外针对不同的学习参数,有不同的方式来进行更新,具体的,针对w1,其更新是基于下述公式来进行的:

针对w2,其更新是基于下述公式来进行的:

针对w3,其更新是基于下述公式来进行的:

其中,具体的参数与上述的含义一致,其中,

对应的表示为在第i个样本中,候选对象1的第1个特征列表中的第j个特征;

对应的表示为在第i个样本中,候选对象1的第2个特征列表中的第j个特征;

对应的表示为在第i个样本中,候选对象1的第3个特征列表中的第j个特征;

对应的表示为在第i个样本中,候选对象2的第1个特征列表(例如以歌手为例,为热门榜单特征列表)中的第j个特征;

对应的表示为在第i个样本中,候选对象2的第2个特征列表中的第j个特征;

对应的表示为在第i个样本中,候选对象2的第3个特征列表中的第j个特征;

对应的表示为在第i个样本中,用户的第j个特征。

本发明实施例1提出了一种基于多源信息进行候选集排序的方法,包括:获取用户搜索所得到的候选集;其中,所述候选集中包含有多个候选对象;在预设的预测模型中根据对应所述候选对象以及所述用户的多源信息,以对所述候选对象进行两两之间的热度比对预测和与所述用户之间相关度的比对预测;基于各比对预测的结果对候选集中的各个候选对象进行排序。以此通过多源信息,准确实现了对候选集进行排序,进而提高用户的体验。

实施例3

本发明实施例还提出了一种基于多源信息进行候选集排序的设备,如图3所示,包括:

获取模块201,用于获取用户搜索所得到的候选集;其中,所述候选集中包含有多个候选对象;

预测模块202,用于在预设的预测模型中根据对应所述候选对象以及所述用户的多源信息,以对所述候选对象进行两两之间的热度比对预测和与所述用户之间相关度的比对预测;

排序模块203,用于基于各比对预测的结果对候选集中的各个候选对象进行排序。

具体的,所述多源信息包含有所述候选对象的热度信息,所述候选对象对应的个人信息以及所述用户的个人信息。

具体的,所述热度比对预测是通过比对当前网络的热门程度来进行的;其中所述热门程度通过点击率,搜索率来进行确定。

具体的,所述相关度的比对预测是通过比对候选对象与所述用户的个人信息的相似程度来进行的;其中所述个人信息包括:所在地的地域信息,家乡的地域信息,年龄信息,偏好信息。

具体的,所述预测模型中包含有学习参数;如图4所示,还包括:

校正模块204,用于获取标准多源信息;其中,对应所述标准多源信息有比对的实际结果;

在所述预设的预测模型中根据标准多源信息进行预测,得到预测结果;

根据所述预测结果与所述实际结果的差异对所述学习参数进行更新。

与现有技术相比,本发明实施例提出了一种基于多源信息进行候选集排序的方法和设备,其中,该方法包括:获取用户搜索所得到的候选集;其中,所述候选集中包含有多个候选对象;在预设的预测模型中根据对应所述候选对象以及所述用户的多源信息,以对所述候选对象进行两两之间的热度比对预测和与所述用户之间相关度的比对预测;基于各比对预测的结果对候选集中的各个候选对象进行排序。以此通过多源信息,准确实现了对候选集进行排序,进而提高用户的体验。

本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述,不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1