特征推荐方法和装置的制造方法_2

文档序号:8299216阅读:来源:国知局
本特征估计模型,将特征加入后对其参数求解,获得更新后的文本特征估计模型。在 这种情况下,参数求解往往非常方便,在一些指定的拟合精度下甚至有闭式解。下面对上述 贪婪特征选择算法进行具体介绍。
[0031] 从Boosting的角度,希望搜索一个方程f来最小化式(1)的目标方程L:
【主权项】
1. 一种特征推荐方法,其特征在于,包括: 根据输出的文本特征估计模型确定样本数据中文本特征的目标值,所述输出的文本特 征估计模型是根据从训练数据中选取的最优组合特征获得的; 根据所述目标值对所述样本数据中的文本特征进行排序,并按照目标值由高到低的顺 序对所述样本数据中的文本特征进行推荐。
2. 根据权利要求1所述的方法,其特征在于,根据从训练数据中选取的最优组合特征 获得所述输出的文本特征估计模型的步骤包括: 获得训练数据的文本特征; 从所述文本特征中穷举选取最优的组合特征; 确定所述组合特征中的至少两个特征分别对应的低秩矩阵; 对所述至少两个特征分别对应的低秩矩阵的内积进行迭代,以生成加项; 利用所述加项更新当前的文本特征估计模型,获得更新后的文本特征估计模型; 当所述更新后的文本特征估计模型满足预定的条件或达到最大迭代次数时,输出获得 的文本特征估计模型。
3. 根据权利要求2所述的方法,其特征在于,所述对所述至少两个特征分别对应的低 秩矩阵的内积进行迭代,以生成加项包括: 将所述至少两个特征分别对应的低秩矩阵的秩设置为指定的阶数,所述指定的阶数为 大于1的整数; 对秩为指定的阶数的低秩矩阵的内积进行迭代,以生成加项。
4. 根据权利要求2所述的方法,其特征在于,所述对所述至少两个特征分别对应的低 秩矩阵的内积进行迭代,以生成加项包括: 将所述至少两个特征分别对应的低秩矩阵的秩设置为初始值; 对秩为初始值的低秩矩阵的内积进行迭代; 对秩为初始值的低秩矩阵的秩按照预定的步长进行递增,对秩递增后的低秩矩阵的内 积进行迭代,以生成加项。
5. 根据权利要求2所述的方法,其特征在于,所述利用所述加项更新当前的文本特征 估计模型,获得更新后的文本特征估计模型包括: 所述更新后的文本特征估计模型为
其中,义(4为更新后的文本特征估计模型,Ajx)为当前的文本特征估计模型,
为所述加项,Cp为选取的最优组合特征中的一个特征,C qS 选取的最优组合特征中另一个特征,\为Cp对应的低秩矩阵,VqS Cq对应的低秩矩阵, 〈<'/>为6与以的内积,II[i,j G x]为一个0/1方程,表示如果特征x中含有值i,j,则 II[i,j G x]的值为1,否则为〇。
6. 根据权利要求2-5任意一项所述的方法,其特征在于,所述从所述文本特征中穷举 选取最优的组合特征包括: 通过贪婪特征选择算法从所述文本特征中穷举选取最优的组合特征。
7. -种特征推荐装置,其特征在于,包括: 确定模块,用于根据输出的文本特征估计模型确定样本数据中文本特征的目标值,所 述输出的文本特征估计模型是根据从训练数据中选取的最优组合特征获得的; 排序模块,用于根据所述确定模块确定的目标值对所述样本数据中的文本特征进行排 序; 推荐模块,用于按照目标值由高到低的顺序对所述样本数据中的文本特征进行推荐。
8. 根据权利要求7所述的装置,其特征在于,还包括: 获得模块,用于获得训练数据的文本特征; 选取模块,用于从所述获得模块获得的文本特征中穷举选取最优的组合特征; 所述确定模块,还用于确定所述选取模块选取的组合特征中的至少两个特征分别对应 的低秩矩阵; 生成模块,用于对所述确定模块确定的至少两个特征分别对应的低秩矩阵的内积进行 迭代,以生成加项; 更新模块,用于利用所述生成模块生成的加项更新当前的文本特征估计模型,获得更 新后的文本特征估计模型; 输出模块,用于当所述更新模块更新后的文本特征估计模型满足预定的条件或达到最 大迭代次数时,输出获得的文本特征估计模型。
9. 根据权利要求8所述的装置,其特征在于,所述生成模块包括: 设置子模块,用于将所述至少两个特征分别对应的低秩矩阵的秩设置为指定的阶数, 所述指定的阶数为大于1的整数; 迭代子模块,用于对秩为指定的阶数的低秩矩阵的内积进行迭代,以生成加项。
10. 根据权利要求8所述的装置,其特征在于,所述生成模块包括: 设置子模块,用于将所述至少两个特征分别对应的低秩矩阵的秩设置为初始值; 迭代子模块,用于对秩为初始值的低秩矩阵的内积进行迭代,对秩为初始值的低秩矩 阵的秩按照预定的步长进行递增,并对秩递增后的低秩矩阵的内积进行迭代,以生成加项。
11. 根据权利要求8所述的装置,其特征在于, 所述更新模块更新后的文本特征估计模型为:
其中,九(I)为更新后的文本特征估计模型,(为为当前的文本特征估计模型,
为所述加项,Cp为选取的最优组合特征中的一个特征,C qS 选取的最优组合特征中另一个特征,\为Cp对应的低秩矩阵,VqS Cq对应的低秩矩阵, 为K与!7'的内积,II [i,j G x]为一个0/1方程,表示如果特征x中含有值i,j,则 II[i,j G x]的值为1,否则为〇。
12. 根据权利要求8-11任意一项所述的装置,其特征在于, 所述选取模块,具体用于通过贪婪特征选择算法从所述文本特征中穷举选取最优的组 合特征。
【专利摘要】本发明提出一种特征推荐方法和装置,该特征推荐方法包括:根据输出的文本特征估计模型确定样本数据中文本特征的目标值,所述输出的文本特征估计模型是根据从训练数据中选取的最优组合特征获得的;根据所述目标值对所述样本数据中的文本特征进行排序,并按照目标值由高到低的顺序对所述样本数据中的文本特征进行推荐。本发明可以实现自动选取有效的组合特征,省时省力,有效地解决了现有的人工特征选择过程中费时费力的难题,并能提高推荐系统的有效性。
【IPC分类】G06F17-30
【公开号】CN104615790
【申请号】CN201510102582
【发明人】夏粉, 程陈, 张潼, 金国庆, 吕荣聪
【申请人】百度在线网络技术(北京)有限公司
【公开日】2015年5月13日
【申请日】2015年3月9日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1