对查询词分类的方法及装置制造方法

文档序号:6485604阅读:156来源:国知局
对查询词分类的方法及装置制造方法
【专利摘要】本发明提供了对查询词分类的方法及装置,其中,该方法包括:确认分类资源库中没有存储当前查询词,对当前查询词进行划分,得到分词结果,分词结果包含至少一个分词;根据当前查询词的分词结果,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,并将该建库查询词的置信度作为相似查询词的置信度,该建库查询词的分类作为该相似查询词的分类;计算当前查询词与相似查询词之间的相似度,由所述相似度和相似查询词的置信度计算出当前查询词的置信度,将相似查询词的分类作为当前查询词的分类,在分类资源库中存储当前查询词、当前查询词的置信度和当前查询词的分类。本发明方案能够实现基于已有分类资源库对新的查询词进行分类。
【专利说明】对查询词分类的方法及装置
【技术领域】
[0001]本发明涉及信息搜索领域,尤其涉及对查询词分类的方法及装置。
【背景技术】
[0002]现有的信息搜索方法包括:
[0003]首先,客户端接收用户输入的查询词,向网络侧服务器发送包含查询词的搜索请求。用户输入的查询词为当前待搜索的查询词,通常将其称为当前查询词。查询词也就是用户进行搜索时输入的关键词,例如,采用百度搜索工具进行搜索时输入的关键词“射雕英雄传电视剧”,即为查询词。
[0004]而后,服务器根据搜索请求搜索出网页条目;为当前查询词设置分类,由分类等多个影响因子对搜索出的众多网页条目进行排序,将排序后的网页条目发送给客户端。
[0005]最后,客户端将排序后的网页条目展示给用户。每个网页条目对应一个网页,用户点击某网页条目,便可展示对应的网页。
[0006]以查询词“发明”为例,图1示出了与“发明”相关的部分网页条目,包括:关于“中国发明网”的网页条目,关于“发明百度百科”的网页条目,关于“发明吧百度贴吧”的网页条目,关于“《我爱发明》官网”的网页条目,关于“发明的最新相关信息”的网页条目;图中的省略号为各网页条目的概述。
[0007]进行排序的影响因子包括多个,分类为其中的一个重要因子。目前多采用离线资源挖掘方法进行查询词分类,具体包括:
[0008]分类资源库中存储了查询词信息,包括查询词、查询词的置信度和分类,进行分类查询词时,由当前查询词在分类资源库中确定出其分类。
[0009]预先在分类资源库中存储查询词信息的方法包括:从搜索日志中选取查询词,采用分类器为选取的各查询词设置置信度和分类,将查询词、查询词的置信度和分类存储到分类资源库。搜索日志中记录了各次搜索数据,每次搜索数据包括查询词及搜索得到的网页条目;分类器根据搜索数据进行学习,得到各查询词的置信度和分类,其中,置信度为相应分类的可信程度。
[0010]现有方案在分类资源库中确定出与当前查询词对应的分类,存在以下缺陷:由于用户通过客户端不断输入新的查询词,即分类资源库中没有的查询词,为了保证能匹配到新的查询词,需要不断进行学习,以在分类资源库中增加查询词及该查询词的分类,这导致资源挖掘的代价比较大;并且,用户输入的查询词千变万化,采用现有方案存储到分类资源库的查询词覆盖率低,很难构建一个完备的分类资源库,以实现对用户输入的任何查询词都可以进行分类。
[0011]如果能基于已有分类资源库实现对新的查询词进行分类,将克服上述缺陷,但目前还没有这方面的技术。

【发明内容】
[0012]本发明提供了一种对查询词分类的方法,该方法能够实现基于已有分类资源库对新的查询词进行分类,从而降低分类资源的挖掘成本、提高搜索结果的排序效率。
[0013]本发明提供了一种对查询词分类的装置,该装置能够实现基于已有分类资源库对新的查询词进行分类,从而降低分类资源的挖掘成本、提高搜索结果的排序效率。
[0014]—种对查询词分类的方法,该方法包括:
[0015]确认分类资源库中没有存储当前查询词,对当前查询词进行划分,得到分词结果,分词结果包含至少一个分词;
[0016]根据当前查询词的分词结果,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,并将该建库查询词的置信度作为相似查询词的置信度,该建库查询词的分类作为该相似查询词的分类;
[0017]计算出当前查询词与相似查询词之间的相似度,由所述相似度和相似查询词的置信度计算出当前查询词的置信度,将相似查询词的分类作为当前查询词的分类,在分类资源库中存储当前查询词、当前查询词的置信度和当前查询词的分类。
[0018]一种对查询词分类的装置,该装置包括判断单元、分词器、索引单元、计算及存储单元;
[0019]所述判断单元,用于确认分类资源库中没有存储当前查询词,向所述分词器发送启动指令;
[0020]所述分词器,用于接收启动指令,对当前查询词进行划分,得到分词结果,传送给索引单元,分词结果包含至少一个分词;
[0021]所述索引单元,用于根据当前查询词的分词结果,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,并将该建库查询词的置信度作为相似查询词的置信度,该建库查询词的分类作为该相似查询词的分类,将相似查询词传送给计算及存储单元;
[0022]所述计算及存储单元,用于计算出当前查询词与相似查询词之间的相似度,由所述相似度和相似查询词的置信度计算出当前查询词的置信度,将相似查询词的分类作为当前查询词的分类,在分类资源库中存储当前查询词、当前查询词的置信度和当前查询词的分类。
[0023]从上述方案可以看出,本发明中,如果确认分类资源库中没有存储当前查询词,也就是当前查询词为新的查询词,则对当前查询词进行划分,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,基于相似查询词计算出当前查询词的置信度,并将相似查询词的分类作为当前查询词的分类。从而,实现了基于已有分类资源库对新的查询词进行分类,减少了资源挖掘的代价,并且,即使用户输入的查询词千变万化,也能完成对用户输入的任意查询词的分类。
【专利附图】

【附图说明】
[0024]图1为由查询词“发明”搜索出的网页条目;
[0025]图2为本发明对查询词分类的方法示意性流程图;
[0026]图3为本发明预先建立分类资源库的方法示意性流程图;
[0027]图4为本发明对查询词分类的装置结构示意图。【具体实施方式】
[0028]为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。
[0029]本发明中,若当前查询词为新的查询词时,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,基于相似查询词计算出当前查询词的置信度,并将相似查询词的分类作为当前查询词的分类。其中,相似查询词即为在分类资源库中与当前查询词相似的查询词。参见图2,为本发明对查询词分类的方法示意性流程图,其包括以下步骤:
[0030]步骤201,确认分类资源库中没有存储当前查询词。
[0031]判断分类资源库中是否存储有当前查询词,如果有,则将对应的分类作为当前查询词的分类,如果没有则执行步骤202,则确认分类资源库中没有存储当前查询词,采用本发明方案对当前查询词进行分类。
[0032]步骤202,对当前查询词进行划分,得到分词结果,分词结果包含至少一个分词。
[0033]将当前查询词划分为一个个独立的分词,具体地,可采用分词器实现划分。例如,将“天龙八部电视剧”划分为“天龙八部”和“电视剧”两个分词。
[0034]步骤203,根据当前查询词的分词结果,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,并将该建库查询词的置信度作为相似查询词的置信度,该建库查询词的分类作为该相似查询词的分类。
[0035]同样以在客户端中输入关键词“天龙八部电视剧”进行搜索的例子进行说明,将分类资源库中包含“天龙八部”的查询词、包含“电视剧”的查询词,以及同时包含“天龙八部”和“电视剧”的查询词,都确定为当前查询词的相似查询词。
[0036]步骤204,计算出当前查询词与相似查询词之间的相似度,由所述相似度和相似查询词的置信度计算出当前查询词的置信度,将相似查询词的分类作为当前查询词的分类,在分类资源库中存储当前查询词、当前查询词的置信度和当前查询词的分类。
[0037]具体地,可由两个查询词中相同字的个数、所占比例等计算相似度。如:两个查询词中的相同字的个数越多,则相似度越高;查询词中相同字占总字数的比例越高,则相似度越闻。
[0038]分类资源库中还对应建库查询词存储了其置信度,从分类资源库中读取相似查询词的置信度;由相似度和相似查询词的置信度计算出当前查询词的置信度,根据需要,可采用多种方法计算当前查询词的置信度,例如:用相似度乘以相似查询词的置信度,将所得的乘积作为当前查询词出的置信度,假设当前查询词A和相似查询词B的相似度为80%,B的置信度为90%,则A的置信度为80% x90% ;或者,用相似度加上相似查询词的置信度,将所得的相加结果作为当前查询词出的置信度;等等。
[0039]如果步骤203中确定出的相似查询词为一个,本步骤计算出的当前查询词的置信度为一个,则基于该相似查询词计算出当前查询词的置信度,将该相似查询词的分类作为当前查询词的分类。
[0040]如果步骤203中确定出的相似查询词为两个以上,本步骤分别基于各个相似查询词计算出当前查询词的置信度,得到的置信度为两个以上,则将数值最大的置信度作为当前查询词的置信度,将最大置信度的查询词的分类作为当前查询词的分类。
[0041]除选择数值最大的置信度作为当前查询词的置信度以外,还可以从计算得到的两个以上置信度中选取一个作为当前查询词的置信度,将选取的置信度对应查询词的分类作为当前查询词的分类。这种情况下,为了保证最后确定的当前查询词的分类有效,还可进行有效性判断,具体地,所述将选取的置信度对应查询词的分类作为当前查询词的分类之前,还包括:判断选取的置信度是否大于设定阈值,如果是,则将选取的置信度对应查询词的分类作为当前查询词的分类;否则,排除选取的该置信度,从其他置信度中再选取一个置信度,继续有效性判断,直到选取的置信度大于设定阈值为止;如果最后仍未找到合适的置信度,则所有置信度中的最大值作为当前查询词的置信度,将最大置信度的查询词的分类作为当前查询词的分类。设定阈值可根据需要设置,例如为40%。
[0042]本发明基于预先建立的分类资源库进行查询词分类,分类资源库中存储了查询词信息,包括查询词、查询词的置信度和分类。预先在分类资源库中存储查询词信息可采用以下方式实现,包括:从搜索日志中选取建库查询词;采用分类器为选取的各建库查询词设置置信度和分类;排除重复的建库查询词,将剩余的建库查询词、建库查询词的置信度和建库查询词的分类存储到分类资源库。参见图3,为本发明预先建立分类资源库的方法示意性流程图,其包括以下步骤:
[0043]步骤301,从搜索日志中选取建库查询词。
[0044]搜索日志中记录了各次搜索数据,每次搜索数据包括查询词及搜索得到的网页条目。从搜索日志中选取建库查询词,得到待分类查询词列表;待分类查询词列表为倒排索引文件,包含从搜索日志中选取的建库查询词以及相应搜索数据在搜索日志中的记录位置;进一步地,待分类查询词列表中的建库查询词可用其标识(ID)表示,每个建库查询词唯一对应一个ID ;这样,在需要时,由该建库查询词的记录位置便可在搜索日志中找到相应的搜索数据。
[0045]步骤302,采用分类器为选取的各建库查询词设置置信度和分类。
[0046]根据分类器的特点,可根据搜索数据进行学习,得到各建库查询词的置信度和分类。本步骤中,由分类器为待分类查询词列表中的各建库查询词设置分类和置信度,在待分类查询词列表中对应各建库查询词记录分类和置信度,得到已分类查询词列表。
[0047]本步骤中,可采用一个分类器为同一建库查询词设置置信度和分类;也可采用两个分类器为同一建库查询词设置置信度和分类,具体地:采用至少两个分类器为同一建库查询词设置分类,将所占比例最高的分类作为相应建库查询词的分类,并将所述比例最高的分类对应的置信度作为相应建库查询词的置信度。例如,采用五个分类器为建库查询词“金山词霸”分类,其中四个分类器学习后的分类都为“软件”、置信度为95%,则将“金山词霸”的分类确定为“软件”、置信度确定为95% ;如果所述四个分类器学习得到的置信度不同,可采用多种方式确定“金山词霸”的置信度,例如:从中选择一个作为“金山词霸”的置信度,或者,对四个置信度求平均,将得到的平均值作为“金山词霸”的置信度。
[0048]采用多个分类器为同一建库查询词设置置信度和分类,最终该建库查询词的类别与置信度由这多个分类器的结果综合决定,对结果的质量要求越高,投票的多数性概率就要求越高。
[0049]步骤303,排除重复的建库查询词,将剩余的建库查询词、建库查询词的置信度和建库查询词的分类存储到分类资源库。
[0050]由于步骤301中选取的建库查询词可能重复,本步骤中,排除已分类建库查询词列表中重复的建库查询词,将剩余的建库查询词、建库查询词的置信度和建库查询词的分类存储到分类资源库。
[0051]将剩下的建库查询词、建库查询词的置信度和建库查询词的分类存储到分类资源库时,可无规则放置,也可按照置信度由高至低的顺序逐层放置。若按照置信度由高至低的顺序逐层放置,图2流程步骤203所述从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词可具体包括:从分类资源库的最高层开始,判断是否存在至少包含一个分词的建库查询词,如果是,则从最高层确定出至少包含一个分词的建库查询词作为相似查询词,否则,判断低一层中是否存在至少包含一个分词的建库查询词,直到确定出相似查询词为止。
[0052]参见图4,为本发明对查询词分类的装置结构示意图,判断单元、分词器、索引单元、计算及存储单元;
[0053]所述判断单元,用于确认分类资源库中没有存储当前查询词,向所述分词器发送启动指令;
[0054]所述分词器,用于接收启动指令,对当前查询词进行划分,得到分词结果,传送给索引单元,分词结果包含至少一个分词;
[0055]所述索引单元,用于根据当前查询词的分词结果,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,并将该建库查询词的置信度作为相似查询词的置信度,该建库查询词的分类作为该相似查询词的分类,将相似查询词传送给计算及存储单元;
[0056]所述计算及存储单元,用于计算出当前查询词与相似查询词之间的相似度,由所述相似度和相似查询词的置信度计算出当前查询词的置信度,将相似查询词的分类作为当前查询词的分类,在分类资源库中存储当前查询词、当前查询词的置信度和当前查询词的分类。
[0057]可选地,所述索引单元确定出的相似查询词为两个以上,所述计算及存储单元计算出当前查询词的置信度为两个以上,将数值最大的置信度作为当前查询词的置信度,将最大置信度的查询词的分类作为当前查询词的分类。
[0058]可选地,所述计算及存储单元包括计算子单元,用于计算出当前查询词与相似查询词之间的相似度,用所述相似度乘以相似查询词的置信度,将所得的乘积作为当前查询词出的置信度。
[0059]可选地,该装置还包括分类资源选取单元、分类资源设置单元和分类资源存储单元;
[0060]所述分类资源选取单元,用于从搜索日志中选取建库查询词;
[0061]所述分类资源设置单元,用于采用分类器为选取的各建库查询词设置置信度和分类;
[0062]所述分类资源存储单元,用于排除重复的建库查询词,将剩余的建库查询词、建库查询词的置信度和建库查询词的分类存储到分类资源库。
[0063]本发明中,如果确认当前查询词为新的查询词后,对当前查询词进行划分,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,基于相似查询词计算出当前查询词的置信度,并将相似查询词的分类作为当前查询词的分类。从而,实现了基于已有分类资源库对新的查询词进行分类,减少了资源挖掘的代价,并且,即使用户输入的查询词千变万化,也能完成对用户输入的任意查询词的分类,提高查询词分类的覆盖率。
[0064]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
【权利要求】
1.一种对查询词分类的方法,其特征在于,该方法包括: 确认分类资源库中没有存储当前查询词,对当前查询词进行划分,得到分词结果,分词结果包含至少一个分词; 根据当前查询词的分词结果,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,并将该建库查询词的置信度作为相似查询词的置信度,该建库查询词的分类作为该相似查询词的分类; 计算出当前查询词与相似查询词之间的相似度,由所述相似度和相似查询词的置信度计算出当前查询词的置信度,将相似查询词的分类作为当前查询词的分类,在分类资源库中存储当前查询词、当前查询词的置信度和当前查询词的分类。
2.如权利要求1所述的方法,其特征在于,确定出的相似查询词为两个以上,计算出当前查询词的置信度为两个以上,将数值最大的置信度作为当前查询词的置信度,将最大置信度的查询词的分类作为当前查询词的分类。
3.如权利要求1所述的方法,其特征在于,所述由所述相似度和相似查询词的置信度计算出当前查询词的置信度包括: 用所述相似度乘以相似查询词的置信度,将所得的乘积作为当前查询词出的置信度。
4.如权利要求1所述的方法,其特征在于,该方法还预先包括: 从搜索日志中选取建库查询词; 采用分类器为选取的各建库查询词设置置信度和分类; 排除重复的建库查询词,将剩余的建库查询词、建库查询词的置信度和建库查询词的分类存储到分类资源库。
5.如权利要求4所述的方法,其特征在于,所述采用分类器为选取的各建库查询词设置置信度和分类包括: 采用至少两个分类器为同一建库查询词设置分类,将所占比例最高的分类作为相应建库查询词的分类,并将所述比例最高的分类对应的置信度作为相应建库查询词的置信度。
6.如权利要求4所述的方法,其特征在于,将剩下的建库查询词、建库查询词的置信度和建库查询词的分类存储到分类资源库时,按照置信度由高至低的顺序逐层放置; 所述从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词包括:从分类资源库的最高层开始,判断是否存在至少包含一个分词的建库查询词,如果是,则从最高层确定出至少包含一个分词的建库查询词作为相似查询词,否则,判断低一层中是否存在至少包含一个分词的建库查询词,直到确定出相似查询词为止。
7.—种对查询词分类的装置,其特征在于,该装置包括判断单元、分词器、索引单元、计算及存储单元; 所述判断单元,用于确认分类资源库中没有存储当前查询词,向所述分词器发送启动指令; 所述分词器,用于接收启动指令,对当前查询词进行划分,得到分词结果,传送给索引单元,分词结果包含至少一个分词; 所述索引单元,用于根据当前查询词的分词结果,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,并将该建库查询词的置信度作为相似查询词的置信度,该建库查询词的分类作为该相似查询词的分类,将相似查询词传送给计算及存储单元; 所述计算及存储单元,用于计算出当前查询词与相似查询词之间的相似度,由所述相似度和相似查询词的置信度计算出当前查询词的置信度,将相似查询词的分类作为当前查询词的分类,在分类资源库中存储当前查询词、当前查询词的置信度和当前查询词的分类。
8.如权利要求7所述的装置,其特征在于,所述索引单元确定出的相似查询词为两个以上,所述计算及存储单元计算出当前查询词的置信度为两个以上,将数值最大的置信度作为当前查询词的置信度,将最大置信度的查询词的分类作为当前查询词的分类。
9.如权利要求7所述的装置,其特征在于,所述计算及存储单元包括计算子单元,用于计算出当前查询词与相似查询词之间的相似度,用所述相似度乘以相似查询词的置信度,将所得的乘积作为当前查询词出的置信度。
10.如权利要求7、8或9所述的装置,其特征在于,该装置还包括分类资源选取单元、分类资源设置单元和分类资源存储单元; 所述分类资源选取单元,用于从搜索日志中选取建库查询词; 所述分类资源设置单元,用于采用分类器为选取的各建库查询词设置置信度和分类; 所述分类资源存储单元,用于 排除重复的建库查询词,将剩余的建库查询词、建库查询词的置信度和建库查询词的分类存储到分类资源库。
【文档编号】G06F17/30GK103455491SQ201210171056
【公开日】2013年12月18日 申请日期:2012年5月29日 优先权日:2012年5月29日
【发明者】罗景 申请人:深圳市世纪光速信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1