一种映射查询关键字到相关问题的方法与流程

文档序号：12364222阅读：来源：国知局

技术特征：

1.一种映射查询关键字到相关问题的方法，其特征在于，包括以下步骤：

步骤1：在CQA上进行问题爬取，并记录每个问题所属类别，得到问题集合PS，记PS＝{P₁,P₂,...,P_N}，对于集合PS中的每个问题P_i，通过一个标准的POS tagger程序来抽取其中的名词短语，然后联合其所属类别单词得到对应的主题词集合PTS_i；对于n个单词组成的查询关键字q，记q＝{w₁,w₂,...,w_n}，计算q中每个单词w_i的主题词得分Tgrade(w_i)，并将得分大于阈值θ_t(θ_t∈[0,1])的单词加入q对应的主题词集合；若某个问题的主题词集合包含查询关键字的主题词集合，则将该问题加入查询关键字的候选问题集合CPS_q；q中每个单词w_i主题词得分Tgrade(w_i)的计算公式为：

$<mrow> <mi>T</mi> <mi>g</mi> <mi>r</mi> <mi>a</mi> <mi>d</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>T</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>PTS</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow>$

其中n是q包含的单词数目；w_i是q中的单词；N是PS中包含的问题数目；Times(w_i|PTS_j)是w_i在PTS_j中的出现次数；times(w_i|P_j)是w_i在P_j中的出现次数；

步骤2：对于集合CPS_q中的每一个问题P_c，如果P_c和查询关键字q之间的相关程度越高，越有可能准确反应用户这次的信息检索需求，使用Cor(P_c,q)表示P_c与查询关键字q的相关程度，Cor(P_c,q)的具体计算为：

$<mrow> <mi>C</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>c</mi> </msub> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>Π</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <mi>λ</mi> <mo>×</mo> <mfrac> <mrow> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>P</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mi>λ</mi> </mrow> <mo>)</mo> <mfrac> <mrow> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>Σ</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>|</mo> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <mi>c</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>N</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow>$

其中N_c是CPS_q包含的问题数目；n是q包含的单词数目；w_i是q中的单词；times(w_i|P_c)是w_i在P_c中的出现次数；length(P_c)是P_c包含的单词个数；N是PS中包含的问题数目；λ(λ∈(0,1))为给定的抑制因子；

步骤3：构造一个图G，将集合CPS_q中的每一个问题作为图G的一个节点，然后计算集合CPS_q中的任意两个问题P_i和P_j的主题词覆盖率Cover(P_i,P_j)，若Cover(P_i,P_j)大于给定阈值θ_c(θ_c∈[0,1])，则存在P_i到P_j的一条边；其中主题词覆盖率Cover(P_i,P_j)的计算公式为：

其中PTS_i为问题P_i的主题词集合；||PTS_i||表示集合PTS_i中的元素个数cos(P_i,P_j)是两个问题的余弦相似度；α(α∈(0,1))为给定的抑制因子；

步骤4：对于集合CPS_q中的每一个问题P_c，如果被访问的次数越多，则表明该问题越受欢迎，越有可能是这次关键字查询所对应的问题，使用Wel(P_c)表示P_c的受欢迎程度，Wel(P_c)的具体计算为：

$<mrow> <mi>W</mi> <mi>e</mi> <mi>l</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>c</mi> </msub> </mfrac> <mo>+</mo> <mi>d</mi> <munder> <mo>Σ</mo> <mrow> <mi>v</mi> <mo>&Element;</mo> <mi>a</mi> <mi>d</mi> <mi>j</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <mi>W</mi> <mi>e</mi> <mi>l</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>deg</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mrow> <mo>(</mo> <mi>c</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>N</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow>$

其中N_c是CPS_q包含的问题数目；adj(P_c)为图G中与P_c相连的节点集合；v为集合adj(P_c)中的一个节点；deg(v)为节点v的度；d(d∈(0,1))给定的抑制因子；

步骤5：对于集合CPS_q中的每一个问题P_c，联合其受欢迎程度和与查询关键字的相关程度，计算每个问题的综合得分Grade(P_c)，按照综合性得分从大到小的顺序对CPS_q中的问题进行排序，得到排序后的问题集合RP；综合性得分Grade(P_c)的具体计算为

Grade(P_c)＝log(Cor(P_c|q))+log(Wel(P_c))

其中Cor(P_c|q)为P_c和q的相关程度；Wel(P_c)为P_c的受欢迎程度；

步骤6：初始化一个空集合FP，将RP中的第一个问题加入FP，然后依次选择RP中剩余的每个问题P_r，计算P_r和FP中每个问题的余弦相似度csim，记录最大的余弦相似度maxcsim和对应FP中的问题P_f，将P_r的分数Grade(P_f)加Grade(P_f)到上，同时若maxcsim小于给定阈值θ_s(θ_s∈[0,1])，则将P_r加入FP，否则认为问题P_r和P_f相似，并记录与问题P_f相似的问题个数N_fq；

步骤7：更新FP集合中每个问题的综合得分，并按照更新后的分数从大到小的顺序对FP中的问题排序，返回排序后的集合FP；更新得分的公式为：

$<mrow> <mi>G</mi> <mi>r</mi> <mi>a</mi> <mi>d</mi> <mi>e</mi> <msub> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>f</mi> </msub> <mo>)</mo> </mrow> <mrow> <mi>N</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>G</mi> <mi>r</mi> <mi>a</mi> <mi>d</mi> <mi>e</mi> <msub> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>f</mi> </msub> <mo>)</mo> </mrow> <mrow> <mi>O</mi> <mi>l</mi> <mi>d</mi> </mrow> </msub> </mrow> <msub> <mi>N</mi> <mrow> <mi>f</mi> <mi>q</mi> </mrow> </msub> </mfrac> </mrow>$

其中Grade(P_f)_Old为FP中问题P_s的更新前的分数；N_fq是与P_f相似的问题数目；Grade(P_f)_New是FP中问题P_f的更新后的分数。

2.根据权利要求1所述的一种映射查询关键字到相关问题的方法，其特征在于：在步骤1中，θ_t∈[0.3,0.9]。

3.根据权利要求1所述的一种映射查询关键字到相关问题的方法，其特征在于：在步骤2中，λ∈(0.2,0.9)。

4.根据权利要求1所述的一种映射查询关键字到相关问题的方法，其特征在于：在步骤3中，α∈(0.1,1)，θ_c∈[0.3,0.9]。

5.根据权利要求1所述的一种映射查询关键字到相关问题的方法，其特征在于：在步骤4中，d∈(0.1,1)。

6.根据权利要求1所述的一种映射查询关键字到相关问题的方法，其特征在于：在步骤6中，θ_s∈[0.2,0.9]。

完整全部详细技术资料下载

当前第2页1 2 3