一种生成需求模板的方法、需求识别的方法及其装置与流程

文档序号:12541127阅读:来源:国知局
一种生成需求模板的方法、需求识别的方法及其装置与流程

技术特征:
1.一种生成需求模板的方法,其特征在于,所述方法包括:从搜索日志中获取需求类型的种子查询;将所述需求类型的种子查询泛化为所述需求类型的候选模板;从所述需求类型的候选模板中选取所述需求类型的最终模板;获取需求类型的种子查询的步骤包括:获取预设的所述需求类型的初始种子查询;对搜索日志中记录的所有查询按照层次聚类的方法进行聚类;确定一个聚类层次,使得在该层次下不少于预定比例的初始种子查询被聚到同一个类X中且在该层次下类X包含的查询总数最小,将该层次下的类X包含的所有查询作为所述需求类型的种子查询。2.根据权利要求1所述的方法,其特征在于,将所述需求类型的种子查询泛化为所述需求类型的候选模板的步骤包括:将所述需求类型的种子查询中与所述需求类型所对应的预设实体词匹配的部分替换成所述预设实体词所属类别的通配符;或者,将所述需求类型的种子查询中被类别识别函数识别出来的部分替换成所述类别识别函数所对应类别的通配符,其中所述类别识别函数是根据一个类别的属性定义的用于识别该类别的函数。3.根据权利要求2所述的方法,其特征在于,将所述需求类型的种子查询泛化为所述需求类型的模板的步骤进一步包括:将所述需求类型的种子查询中对所述需求类型的贡献度低于预设贡献度要求的词语替换为用于限制词语长度的长度通配符。4.根据权利要求1所述的方法,其特征在于,从所述需求类型的候选模板中选取所述需求类型的最终模板时,依据所述需求类型的候选模板的以下特征中的至少一个进行:点击特征,用于表征所述需求类型的候选模板覆盖的查询能够引起所述需求类型的页面被点击的概率;相似度特征,用于表征所述需求类型的一个候选模板与所述需求类型的所有候选模板的共性程度;匹配能力特征,用于表征所述需求类型的候选模板匹配所述需求类型的查询的能力。5.根据权利要求4所述的方法,其特征在于,所述需求类型的候选模板W的点击特征采用下列方式计算:其中Click(W)表示W的点击特征,表示W在搜索日志中覆盖的所有查询引起所述需求类型页面被点击的次数,表示W在搜索日志中覆盖的所有查询引起所有页面被点击的次数。6.根据权利要求4所述的方法,其特征在于,所述需求类型的候选模板W的相似度特征采用下列方式计算:其中,Similarity(W)表示W的相似度特征,表示W与所述需求类型的所有其他候选模板之间的相似度之和。7.根据权利要求4所述的方法,其特征在于,所述需求类型的候选模板W的匹配能力特征采用下列方式计算:其中,Match(W)表示W的匹配能力特征,表示W在所述需求类型的查询构成的搜索日志中匹配到的查询的数量,表示W在各种需求类型的查询构成的搜索日志中匹配到的查询的数量。8.一种生成需求模板的方法,其特征在于,所述方法包括:从搜索日志中获取需求类型的种子查询;将所述需求类型的种子查询泛化为所述需求类型的候选模板;从所述需求类型的候选模板中选取所述需求类型的最终模板;获取所述需求类型的种子查询的步骤包括:获取预设的所述需求类型的初始种子查询;使用迭代学习器从搜索日志中学习与所述初始种子查询之间的相似度满足预设要求的查询,并将学习到的查询与所述初始种子查询一并作为所述需求类型的种子查询。9.根据权利要求8所述的方法,其特征在于,将所述需求类型的种子查询泛化为所述需求类型的候选模板的步骤包括:将所述需求类型的种子查询中与所述需求类型所对应的预设实体词匹配的部分替换成所述预设实体词所属类别的通配符;或者,将所述需求类型的种子查询中被类别识别函数识别出来的部分替换成所述类别识别函数所对应类别的通配符,其中所述类别识别函数是根据一个类别的属性定义的用于识别该类别的函数。10.根据权利要求9所述的方法,其特征在于,将所述需求类型的种子查询泛化为所述需求类型的模板的步骤进一步包括:将所述需求类型的种子查询中对所述需求类型的贡献度低于预设贡献度要求的词语替换为用于限制词语长度的长度通配符。11.根据权利要求8所述的方法,其特征在于,从所述需求类型的候选模板中选取所述需求类型的最终模板时,依据所述需求类型的候选模板的以下特征中的至少一个进行:点击特征,用于表征所述需求类型的候选模板覆盖的查询能够引起所述需求类型的页面被点击的概率;相似度特征,用于表征所述需求类型的一个候选模板与所述需求类型的所有候选模板的共性程度;匹配能力特征,用于表征所述需求类型的候选模板匹配所述需求类型的查询的能力。12.根据权利要求11所述的方法,其特征在于,所述需求类型的候选模板W的点击特征采用下列方式计算:其中Click(W)表示W的点击特征,表示W在搜索日志中覆盖的所有查询引起所述需求类型页面被点击的次数,表示W在搜索日志中覆盖的所有查询引起所有页面被点击的次数。13.根据权利要求11所述的方法,其特征在于,所述需求类型的候选模板W的相似度特征采用下列方式计算:其中,Similarity(W)表示W的相似度特征,表示W与所述需求类型的所有其他候选模板之间的相似度之和。14.根据权利要求11所述的方法,其特征在于,所述需求类型的候选模板W的匹配能力特征采用下列方式计算:其中,Match(W)表示W的匹配能力特征,表示W在所述需求类型的查询构成的搜索日志中匹配到的查询的数量,表示W在各种需求类型的查询构成的搜索日志中匹配到的查询的数量。15.一种需求识别的方法,其特征在于,所述方法包括:获取用户查询;在权利要求1至7中任一权项、或者权利要求8至14中任一权项所述生成需求模板的方法得到的最终模板中确定与所述用户查询相匹配的最终模板,并将与所述用户查询相匹配的最终模板所对应的需求类型作为所述用户查询具有的需求。16.一种生成需求模板的装置,其特征在于,所述装置包括:种子获取单元,用于从搜索日志中获取需求类型的种子查询;泛化单元,用于将所述需求类型的种子查询泛化为所述需求类型的候选模板;选取单元,用于从所述需求类型的候选模板中选取所述需求类型的最终模板;所述种子获取单元包括:第一选取单元,用于获取预设的所述需求类型的初始种子查询;聚类单元,用于对搜索日志中记录的所有查询按照层次聚类的方法进行聚类;确定单元,用于确定一个聚类层次,使得在该层次下不少于预定比例的初始种子查询被聚到同一个类X中且在该层次下类X包含的查询总数最小,将该层次下的类X包含的所有查询作为所述需求类型的种子查询。17.根据权利要求16所述的装置,其特征在于,所述泛化单元在将所述需求类型的种子查询泛化为所述需求类型的候选模板时,具体将所述需求类型的种子查询中与所述需求类型对应的预设实体词匹配的部分替换成所述预设实体词所属类别的通配符;或者,将所述需求类型的种子查询中被类别识别函数识别出来的部分替换成所述类别识别函数所对应类别的通配符,其中所述类别识别函数是根据一个类别的属性定义的用于识别该类别的函数。18.根据权利要求17所述的装置,其特征在于,所述泛化单元,还用于将所述需求类型的种子查询中对所述需求类型的贡献度低于预设贡献度要求的词语替换为用于限制词语长度的长度通配符。19.根据权利要求16所述的装置,其特征在于,所述选取单元从所述需求类型的候选模板中选取所述需求类型的最终模板时,依据所述需求类型的候选模板的以下特征中的至少一个进行:点击特征,用于表征所述需求类型的候选模板覆盖的查询能够引起所述需求类型的页面被点击的概率;相似度特征,用于表征所述需求类型的一个候选模板与所述需求类型的所有候选模板的共性程度;匹配能力特征,用于表征所述需求类型的候选模板匹配所述需求类型的查询的能力。20.根据权利要求19所述的装置,其特征在于,所述选取单元采用下列方式计算所述需求类型的候选模板W的点击特征:其中Click(W)表示W的点击特征,表示W在搜索日志中覆盖的所有查询引起所述需求类型页面被点击的次数,表示W在搜索日志中覆盖的所有查询引起所有页面被点击的次数。21.根据权利要求19所述的装置,其特征在于,所述选取单元采用下列方式计算所述需求类型的候选模板W的相似度特征:其中,Similarity(W)表示W的相似度特征,表示W与所述需求类型的所有其他候选模板之间的相似度之和。22.根据权利要求19所述的装置,其特征在于,所述选取单元采用下列方式计算所述需求类型的候选模板W的匹配能力特征:其中,Match(W)表示W的匹配能力特征,表示W在所述需求类型的查询构成的搜索日志中匹配到的查询的数量,表示W在各种需求类型的查询构成的搜索日志中匹配到的查询的数量。23.一种生成需求模板的装置,其特征在于,所述装置包括:种子获取单元,用于从搜索日志中获取需求类型的种子查询;泛化单元,用于将所述需求类型的种子查询泛化为所述需求类型的候选模板;选取单元,用于从所述需求类型的候选模板中选取所述需求类型的最终模板;所述种子获取单元包括:第二选取单元,用于获取预设的所述需求类型的的初始种子查询;学习单元,用于使用迭代学习器从搜索日志中学习与所述初始种子查询之间的相似度满足预设要求的查询,并将学习到的查询与所述初始种子查询一并作为所述需求类型的种子查询。24.根据权利要求23所述的装置,其特征在于,所述泛化单元在将所述需求类型的种子查询泛化为所述需求类型的候选模板时,具体将所述需求类型的种子查询中与所述需求类型对应的预设实体词匹配的部分替换成所述预设实体词所属类别的通配符;或者,将所述需求类型的种子查询中被类别识别函数识别出来的部分替换成所述类别识别函数所对应类别的通配符,其中所述类别识别函数是根据一个类别的属性定义的用于识别该类别的函数。25.根据权利要求24所述的装置,其特征在于,所述泛化单元,还用于将所述需求类型的种子查询中对所述需求类型的贡献度低于预设贡献度要求的词语替换为用于限制词语长度的长度通配符。26.根据权利要求23所述的装置,其特征在于,所述选取单元从所述需求类型的候选模板中选取所述需求类型的最终模板时,依据所述需求类型的候选模板的以下特征中的至少一个进行:点击特征,用于表征所述需求类型的候选模板覆盖的查询能够引起所述需求类型的页面被点击的概率;相似度特征,用于表征所述需求类型的一个候选模板与所述需求类型的所有候选模板的共性程度;匹配能力特征,用于表征所述需求类型的候选模板匹配所述需求类型的查询的能力。27.根据权利要求26所述的装置,其特征在于,所述选取单元采用下列方式计算所述需求类型的候选模板W的点击特征:其中Click(W)表示W的点击特征,表示W在搜索日志中覆盖的所有查询引起所述需求类型页面被点击的次数,表示W在搜索日志中覆盖的所有查询引起所有页面被点击的次数。28.根据权利要求26所述的装置,其特征在于,所述选取单元采用下列方式计算所述需求类型的候选模板W的相似度特征:其中,Similarity(W)表示W的相似度特征,表示W与所述需求类型的所有其他候选模板之间的相似度之和。29.根据权利要求26所述的装置,其特征在于,所述选取单元采用下列方式计算所述需求类型的候选模板W的匹配能力特征:其中,Match(W)表示W的匹配能力特征,表示W在所述需求类型的查询构成的搜索日志中匹配到的查询的数量,表示W在各种需求类型的查询构成的搜索日志中匹配到的查询的数量。30.一种需求识别的装置,其特征在于,所述装置包括:查询获取单元,用于获取用户查询;匹配单元,用于在权利要求16至22中任一权项、或者权利要求23至29中任一权项所述生成需求模板的装置得到的最终模板中确定与所述用户查询相匹配的最终模板,并将与所述用户查询相匹配的最终模板所对应的需求类型作为所述用户查询具有的需求。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1