一种构建音视频标准数据集的方法和装置的制造方法

文档序号:9277118阅读:402来源:国知局
一种构建音视频标准数据集的方法和装置的制造方法
【技术领域】
[0001]本发明涉及音视频排序技术领域,特别是涉及一种构建音视频标准数据集的方法和一种构建音视频标准数据集的装置。
【背景技术】
[0002]传统的视频搜索排序模型,一般通过人工的方法设定或者调整模型参数。但是,目前影响视频排序的特征已达百种之多,采用人工方式调整参数越来越困难。最近几年兴起的排序学习算法(learning to rank)将搜索排序问题转换为传统的机器学习问题,该算法能够自动学习视频搜索排序模型的参数,优化搜索结果的排序。其中,标准数据集的质量是影响排序学习算法性能的关键因素。
[0003]现有技术中,绝大多数的标准数据集(包括微软和雅虎公开的数据集)都是通过人工标注的方式进行构建。而人工标注的过程需要耗费大量人力、物力和财力;另外,随着时间的推移,标准标注也会发生变化。因此,自动地获得标准数据集对于排序学习算法至关重要,该课题已成为学术界和工业界的一个热点和难点。

【发明内容】

[0004]本发明实施例所要解决的技术问题是提供一种构建音视频标准数据集的方法,该方法能够自动准确的构建标准数据集,极大地降低了人力成本、时间成本和经济成本。
[0005]相应的,本发明实施例还提供了一种构建音视频标准数据集的装置,用以保证上述方法的实现及应用。
[0006]为了解决上述问题,本发明公开了一种构建音视频标准数据集的方法,包括以下步骤:记录用户搜索的至少一个查询词、每个所述查询词下用户点击的音视频以及每个所述查询词下用户浏览的音视频至搜索点击日志;根据所述搜索点击日志统计每个所述查询词在预设时间内的搜索次数,并输出所述搜索次数大于预设次数的所述查询词;接收所述查询词,根据所述搜索点击日志对所述查询词下每个音视频进行标注打分,并以第一预设格式输出所述查询词下每个所述音视频的标注分数;以第二预设格式保存所述查询词下每个所述音视频对应的所述标注分数和至少一个排序特征分数。
[0007]优选地,所述根据所述搜索点击日志对所述查询词下每个音视频进行标注打分,具体包括以下步骤:S11,统计在所述预设时间内,所述查询词下所述当前音视频的点击数;S12,统计在所述预设时间内,所述查询词下所述当前音视频的浏览次数;S13,根据所述查询词下所述当前音视频的点击数和所述查询词下所述当前音视频的浏览次数计算所述查询词下所述当前音视频的真实点击率;S14,根据所述当前音视频的真实点击率和当前音视频排序位置处的点击偏置值计算所述当前音视频的标注分数;S15,调整所述当前音视频为下一个音视频;S16,重复执行S11-S15,直至完成对所述查询词下每个音视频进行标注打分。
[0008]优选地,根据以下公式计算所述查询词下所述当前音视频的真实点击率:
[0009]real_ctr = video_click/video_impress1n
[0010]其中,video_click为所述查询词下所述当前音视频的点击数,video_impress1n为所述查询词下所述当前音视频的浏览次数。
[0011]优选地,根据以下公式计算所述当前音视频的标注分数:
[0012]label_score = real_ctr_click_bias(i)
[0013]其中,real_Ctr为所述当前音视频的真实点击率,i为所述当前音视频排序位置,click_bias(i)为所述当前音视频排序位置处的点击偏置值。
[0014]优选地,所述当前音视频排序位置处的点击偏置值根据以下步骤获取:随机打乱搜索引擎返回结果的排序;统计当前音视频排序位置处的位置点击率;根据所述当前音视频排序位置处的位置点击率计算所述当前音视频排序位置处的点击偏置值。
[0015]优选地,根据以下公式计算所述当前音视频排序位置处的点击偏置值:
[0016]click_bias (i) = a Xpos_ctr_bias (i)
[0017]其中,i为所述当前音视频排序位置,α为经验偏置系数,pos_ctr_bias(i)为所述当前音视频排序位置处的位置点击率,所述当前音视频排序位置处的位置点击率为所述当前音视频排序位置处的音视频在所述查询词下的点击数与所述查询词在所述预设时间内的搜索次数的比值。
[0018]与现有技术相比,本发明实施例包括以下优点:
[0019]第一,基于用户的搜索点击日志自动构建用于排序学习算法的标准数据集,极大地降低了人力成本、时间成本和经济成本;
[0020]第二,将预设时间内音视频的真实点击率作为音视频的标注分数的一个重要参考,因此,相对于人工标注的方式,数据更加准确;
[0021]第三,由于用户点击受到音视频排序位置的影响,提出了一种测定点击偏置值的方法,并利用点击偏置值减小了点击偏置对音视频标注分数的影响。
[0022]为了解决上述问题,本发明公开了一种构建音视频标准数据集的装置,包括:搜索日志数据库,记录用户搜索的至少一个查询词、每个所述查询词下用户点击的音视频以及每个所述查询词下用户浏览的音视频至搜索点击日志;查询词筛选模块,根据所述搜索点击日志统计每个所述查询词在预设时间内的搜索次数,并输出所述搜索次数大于预设次数的所述查询词;标注打分器,接收所述查询词,根据所述搜索点击日志对所述查询词下每个音视频进行标注打分,并以第一预设格式输出所述查询词下每个所述音视频的标注分数;标准数据集文件库,以第二预设格式保存所述查询词下每个所述音视频对应的所述标注分数和至少一个排序特征分数。
[0023]优选地,所述标注打分器包括:点击数统计单元,统计在所述预设时间内,所述查询词下所述当前音视频的点击数;浏览次数统计单元,统计在所述预设时间内,所述查询词下所述当前音视频的浏览次数;真实点击率计算单元,根据所述查询词下所述当前音视频的点击数和所述查询词下所述当前音视频的浏览次数计算所述查询词下所述当前音视频的真实点击率;标注分数计算单元,根据所述当前音视频的真实点击率和当前音视频排序位置处的点击偏置值计算所述当前音视频的标注分数;调整单元,调整所述当前音视频为下一个音视频。
[0024]优选地,所述真实点击率计算单元根据以下公式计算所述查询词下所述当前音视频的真实点击率:
[0025]real_ctr = video_click/video_impress1n
[0026]其中,video_click为所述查询词下所述当前音视频的点击数,video_impress1n为所述查询词下所述当前音视频的浏览次数。
[0027]优选地,所述标注分数计算单元根据以下公式计算所述当前音视频的标注分数:
[0028]label_score = real_ctr_click_bias(i)
[0029]其中,real_ctr为所述当前音视频的真实点击率,i为所述当前音视频排序位置,click_bias(i)为所述当前音视频排序位置处的点击偏置值。
[0030]优选地,构建音视频标准数据集的装置还包括点击偏置值获取模块,所述点击偏置值获取模块包括:排序随机打乱单元,随机打乱搜索引擎返回结果的排序;位置点击率统计单元,统计当前音视频排序位置处的位置点击率;点击偏置值计算单元,根据所述当前音视频排序位置处的位置点击率计算所述当前音视频排序位置处的点击偏置值。
[0031]优选地,所述点击偏置值计算单元根据以下公式计算所述当前音视频排序位置处的点击偏置值:
[0032]click_bias (i) = a Xpos_ctr_bias (i)
[0033]其中,i为所述当前音视频排序位置,α为经验偏置系数,pos_ctr_bias(i)为所述当前音视频排序位置处的位置点击率,所述当前音视频排序位置处的位置点击率为所述当前音视频排序位置处的音视频在所述查询词下的点击数与所述查询词在所述预设时间内的搜索次数的比值。
[0034]与现有技术相比,本发明实施例包括以下优点:
[0035]第一,基于用户的搜索点击日志自动构建用于排序学习算法的标准数据集,极大地降低了人力成本、时间成本和经济成本;
[0036]第二,将预设时间内音视频的真实点击率作为音视频的标注分数的一个重要参考,因此,相对于人工标注的方式,数据更加准确;
[0037]第三,由于用户点击受到音视频排序位置的影响,提出了一种测定点击偏置值的方法,并利用点击偏置值减小了点击偏置对音视频标注分数的影响。
【附图说明】
[0038]图1是本发明的一种构建音视频标准数据集的方法实施例的步骤流程图;
[0039]图2是本发明的一种构建音视频标
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1