建立问句生成模型的方法和装置以及问句生成方法和装置的制作方法

文档序号:6656172阅读:212来源:国知局
专利名称:建立问句生成模型的方法和装置以及问句生成方法和装置的制作方法
建立问句生成模型的方法和装置以及问句生成方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种建立问句生成模型的方法和装置以及问句生成方法和装置。
背景技术
问答社区(CQA,Community-basedQuestion Answering)是指诸如百度知道、搜搜问问等由网络用户之间相互提问和回答的知识问答平台。由于其准确性、及时性等优势,近年来得到了迅速的发展。在问答社区中涉及的问答页面通常以提问作为标题,以便与用户 在搜索引擎中输入的query进行匹配,为用户提供想要的信息。在目前的问答社区中有两个问题亟待解决其一、提高基于问答社区的信息搜索技术的准确率。用户在搜索时心里通常是存在一个清晰明确的问句的,不过出于省时省力的考虑会仅输入几个关键词作为query进行搜索。例如用户输入“姚明身高”的query时,想问的问句是“姚明的身高是多少? ”。对用户输入的query进行搜索匹配时,可能会匹配到虽然命中关键词但与用户实际想问的问句相关性较低的页面。其二、如何根据热点需求自动导入提问,等待用户回答。基于对上述两个问题的考量,如何利用搜索日志中的query生成需求明确且易于理解的问句是关键。

发明内容有鉴于此,本发明提供了一种建立问句生成模型的方法和装置以及问句生成方法和装置,以便于利用搜索日志中的query生成需求明确且易于理解的问句。具体技术方案如下一种建立问句生成模型的方法,所述问句生成模型包括问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率;该方法包括A、从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系;B、从统计到的问句中抽取出问句模板,并将问句模板以及问句模板对应的query记录在数据库中;C、计算各query到对应问句模板的概率,并将各query到问句模板的概率记录在所述数据库中。其中,所述点击的问句为点击的页面标题中所包含的问句,且该问句包含对应query进行分词处理后得到的各词语。具体地,所述步骤B中从统计到的问句中抽取出问句模板可以包括将统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式,并记录变量槽与query进行分词处理后得到的各词语的位置关系,从而得到问句模板。
在所述步骤C中,按照公式尸(沙|以)=(c^^.)计算query Qri到问句模板Tp的概率 P (Tp I Qri);其中,C(Qri)表示Qri在所述搜索日志中出现的次数,c (Tp, Qri)表示Qri对应到Tp的次数。一种问句生成方法,该方法包括A、确定用户输入的搜索请求Qr在问句生成模型中的相似query,所述问句生成模型包括问句模板与query之间的对应关系以及各query到对应问句模板的概率;B、从所述相似query在问句生成模型中对应的各问句模板中,为所述Qr选择问句模板;C、利用所述Qr对选择的问句模板进行实例化,得到所述Qr对应的问句。
其中,所述步骤A中确定出的相似query与所述Qr具有相同个数的词语,且与所述Qr至少含有一个相同的词语。 所述步骤B具体包括B11、将所述相似query对应的各问句模板确定为所述Qr对应的候选问句模板;B12、利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率,确定所述Qr到对应各候选问句模板的概率;B13、选择所述Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为所述Qr对应的问句模板。此时,所述Qr到对应各候选问句模板的概率采用如下公式计算f{Tp} ,Qr) = Iog^j ρ(Τρ} \Qrt )p(Qr1 \Qr);
i=\其中,f (Tpj, Qr)为所述Qr到问句模板Tpj的概率,Qri为所述相似query中对应Tpj的相似query, P (Qri I Qr)为Qr与Qri的相似度为步骤A确定出的相似query中对应Tpj的相似query数目,p (Tpj | Qri)为问句生成模型中Qri到问句模板Tpj的概率。所述步骤B13具体包括选择所述Qr到对应各候选问句模板的概率值达到预设的模板概率阈值的候选问句模板作为所述Qr对应的问句模板;或者,选择所述Qr到对应各候选问句模板的概率值排在前NI个的候选问句模板作为所述Qr对应的问句模板,其中NI为预设的正整数。此时更进一步地,在所述步骤C之后还包括利用所述问句的通顺度,或者,利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度,为所述步骤C得到的各问句打分,选择分值排在前N2个的问句作为最终所述Qr对应的问句,其中N2为预设的正整数。或者,所述步骤B具体包括将问句生成模型中所述相似query对应的各问句模板确定为所述Qr对应的问句模板。此时更进一步地,在所述步骤C之后还包括利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度中的一种或组合,为所述步骤C得到的各问句打分,选择分值排在前N3个的问句作为最终所述Qr对应的问句,其中N3为预设的正整数。其中
权利要求
1.一种建立问句生成模型的方法,其特征在于,所述问句生成模型包括问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率;该方法包括 A、从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系; B、从统计到的问句中抽取出问句模板,并将问句模板以及问句模板对应的query记录在数据库中; C、计算各query到对应问句模板的概率,并将各query到问句模板的概率记录在所述数据库中。
2.根据权利要求I所述的方法,其特征在于,所述点击的问句为点击的页面标题中所包含的问句,且该问句包含对应query进行分词处理后得到的各词语。
3.根据权利要求I所述的方法,其特征在于,所述步骤B中从统计到的问句中抽取出问句模板具体包括 将统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式,并记录变量槽与query进行分词处理后得到的各词语的位置关系,从而得到问句模板。
4.根据权利要求I所述的方法,其特征在于,在所述步骤C中,按照公式
5.—种问句生成方法,其特征在于,该方法包括 A、确定用户输入的搜索请求Qr在问句生成模型中的相似query,所述问句生成模型包括问句模板与query之间的对应关系以及各query到对应问句模板的概率; B、从所述相似query在问句生成模型中对应的各问句模板中,为所述Qr选择问句模板; C、利用所述Qr对选择的问句模板进行实例化,得到所述Qr对应的问句。
6.根据权利要求5所述的方法,其特征在于,所述步骤A中确定出的相似query与所述Qr具有相同个数的词语,且与所述Qr至少含有一个相同的词语。
7.根据权利要求5所述的方法,其特征在于,所述步骤B具体包括 BI I、将所述相似query对应的各问句模板确定为所述Qr对应的候选问句模板; B12、利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率,确定所述Qr到对应各候选问句模板的概率; B13、选择所述Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为所述Qr对应的问句模板。
8.根据权利要求7所述的方法,其特征在于,所述Qr到对应各候选问句模板的概率采用如下公式计算
9.根据权利要求7所述的方法,其特征在于,所述步骤B13具体包括 选择所述Qr到对应各候选问句模板的概率值达到预设的模板概率阈值的候选问句模板作为所述Qr对应的问句模板;或者, 选择所述Qr到对应各候选问句模板的概率值排在前NI个的候选问句模板作为所述Qr对应的问句模板,其中NI为预设的正整数。
10.根据权利要求7所述的方法,其特征在于,在所述步骤C之后还包括 利用所述问句的通顺度,或者,利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度,为所述步骤C得到的各问句打分,选择分值排在前N2个的问句作为最终所述Qr对应的问句,其中N2为预设的正整数。
11.根据权利要求5所述的方法,其特征在于,所述步骤B具体包括 将问句生成模型中所述相似query对应的各问句模板确定为所述Qr对应的问句模板。
12.根据权利要求11所述的方法,其特征在于,在所述步骤C之后还包括 利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度中的一种或组合,为所述步骤C得到的各问句打分,选择分值排在前N3个的问句作为最终所述Qr对应的问句,其中N3为预设的正整数。
13.根据权利要求12所述的方法,其特征在于,利用所述Qr到所述问句所使用问句模板的概率,为所述步骤C得到的各问句打分具体为 按照V (qs) = f (Tpc, Qr),得到问句qs的打分值V (qs); 其中,
14.根据权利要求10或12所述的方法,其特征在于,利用所述问句的通顺度,为所述步骤C得到的各问句打分具体为按照
15.根据权利要求10或12所述的方法,其特征在于,利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度,为所述步骤C得到的各问句打分具体为 按照 V(qs)=入 f(Tpc, Qr) + (1_X Kjj/qs),得到问句 qs 的打分值 V(qs); 其中,λ为预设的权值参数,Tpc为得到qs所使用的问句模板,
16.根据权利要求8或13所述的方法,其特征在于,所述P(Qri I Qr)为 K PiQr1 \Qr) = Π sim^tQn tk J ;其中f 、为 Qri 中第 k 个词语 Qri k 和 Qr 中第 k=l——^imVQri _k->lQr _k)—k个词语Qr k之间的相似度。
17.根据权利要求5所述的方法,其特征在于,所述步骤C具体包括 按照所述问句模板记录的变量槽与query进行分词处理后各词语的位置关系,将所述Qr进行分词处理后得到的各词语填充至所述问句模板的变量槽,得到所述Qr对应的问句。
18.一种建立问句生成模型的装置,其特征在于,所述问句生成模型包括问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率;该装置包括日志统计单元、模板抽取单元和概率计算单元; 所述日志统计单元,用于从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系; 所述模板抽取单元,用于从所述日志统计单元统计到的问句中抽取出问句模板,并将问句模板以及问句模板对应的query记录在数据库中; 所述概率计算单元,用于计算各query到对应问句模板的概率,并将各问句到对应模板的概率记录在所述数据库中。
19.根据权利要求18所述的装置,其特征在于,所述点击的问句为点击的页面标题中所包含的问句,且该问句包含对应query进行分词处理后得到的各词语。
20.根据权利要求18所述的装置,其特征在于,所述模板抽取单元具体包括分词处理子单元、变量槽形成子单元和位置记录子单元; 所述分词处理子单元,用于将所述日志统计单元统计到的query进行分词处理; 所述变量槽形成子单元,用于将所述日志统计单元统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式,以形成问句模板,将问句模板以及问句模板对应的query记录在所述数据库中; 所述位置记录子单元,用于记录变量槽与query进行分词处理后得到的各词语的位置关系至所述数据库中。
21.根据权利要求18所述的装置,其特征在于,所述概率计算单元具体按照公式P(Tp\Qri) = ( 计算 query Qri 到问句模板 Tp 的概率 P (Tp | Qri); cKQr1) 其中,c (Qri)表示Qri在所述搜索日志中出现的次数,c (Tp, Qri)表示Qri对应到Tp的次数。
22.一种问句生成装置,其特征在于,该装置包括相似query确定单元、模板选择单元和问句生成单元; 所述相似query确定单元,用于确定用户输入的搜索请求Qr在问句生成模型中的相似query ; 所述模板选择单元,用于从所述相似query在问句生成模型中对应的各问句模板中,为所述Qr选择问句模板; 所述问句生成单元,用于利用所述Qr对所述模板选择单元选择的问句模板进行实例化,得到所述Qr对应的问句; 其中,所述问句生成模型包括问句模板与query之间的对应关系以及各query到对应问句模板的概率。
23.根据权利要求22所述的装置,其特征在于,所述相似query确定单元确定出的相似query与所述Qr具有相同个数的词语,且与所述Qr至少含有一个相同的词语。
24.根据权利要求22所述的装置,其特征在于,所述模板选择单元具体包括候选模板选择子单元、概率计算子单元和模板确定子单元; 所述候选模板选择子单元,用于将所述相似query确定单元确定出的相似query对应的各问句模板确定为所述Qr对应的候选问句模板; 所述概率计算子单元,用于利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率,确定所述Qr到对应各候选问句模板的概率; 所述模板确定子单元,用于选择所述Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为所述Qr对应的问句模板。
25.根据权利要求24所述的装置,其特征在于,所述概率计算子单元采用公式I(Tpj^Qr) = ^Y^piTp\Qr^p{Qr\Qr),计算所述Qr到对应各候选问句模板的概率;1=\ 其中,f (Tpj, Qr)为所述Qr到问句模板Tpj的概率,Qri为所述相似query中对应Tpj的相似query, p (Qri | Qr)为Qr与Qri的相似度,m为所述相似query确定单元确定出的相似query中对应Tpj的相似query数目,p (Tpj | Qri)为问句生成模型中Qri到问句模板Tpj的概率。
26.根据权利要求24所述的装置,其特征在于,所述模板确定子单元选择所述Qr到对应各候选问句模板的概率值达到预设的模板概率阈值的候选问句模板作为所述Qr对应的问句模板;或者, 选择所述Qr到对应各候选问句模板的概率值排在前NI个的候选问句模板作为所述Qr对应的问句模板,其中NI为预设的正整数。
27.根据权利要求24所述的装置,其特征在于,该装置还包括第一问句选择单元,用于利用所述问句的通顺度,或者,利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度,为所述问句生成单元得到的各问句打分,选择分值排在前N2个的问句作为最终所述Qr对应的问句,其中N2为预设的正整数。
28.根据权利要求27所述的装置,其特征在于,所述第一问句选择单元具体按照V(qs)=fLM(qs)或者 V(qs)=入 f(Tpc, Qr) + (1_X Kjj/qs),得到问句 qs 的打分值 V(qs);其中
29.根据权利要求22所述的装置,其特征在于,所述模板选择单元具体将问句生成模型中所述相似query对应的各问句模板确定为所述Qr对应的问句模板。
30.根据权利要求29所述的装置,其特征在于,该装置还包括第二问句选择单元,用于利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度中的一种或组合,为所述问句生成单元得到的各问句打分,选择分值排在前N3个的问句作为最终所述Qr对应的问句,其中N3为预设的正整数。
31.根据权利要求30所述的装置,其特征在于,所述第二问句选择单元具体按照V(qs)=f (Tpc, Qr) >V(qs) = fLM(qs)或者 V (qs)=入 f (Tpc, Qr) + (I-λ ) fLM(qs),得到问句 qs 的打分值V(qs); 其中,
32.根据权利要求28或31所述的装置,其特征在于,所述
33.根据权利要求22所述的装置,其特征在于,所述问句生成单元具体按照所述问句模板记录的变量槽与query进行分词处理后各词语的位置关系,将所述Qr进行分词处理后得到的各词语填充至所述问句模板的变量槽,得到所述Qr对应的问句。
全文摘要
本发明提供了一种建立问句生成模型的方法和装置以及问句生成方法和装置,建立的问句生成模型包括问句模板与搜索请求(query)之间的对应关系以及各query到对应问句模板的概率;其中建立问句模型的方法包括从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系;从统计到的问句中抽取出问句模板,并记录问句模板对应的query;计算各query到对应问句模板的概率。问句生成方法包括确定用户输入的搜索请求Qr在问句生成模型中的相似query;从相似query在问句生成模型中对应的各问句模板中,为Qr选择问句模板;利用Qr对问句模板进行实例化,得到Qr对应的问句。
文档编号G06F17/30GK102737042SQ20111008791
公开日2012年10月17日 申请日期2011年4月8日 优先权日2011年4月8日
发明者方高林, 王海峰, 赵世奇 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1