检索词重要度的确定方法和装置制造方法

文档序号:6633770阅读:240来源:国知局
检索词重要度的确定方法和装置制造方法
【专利摘要】本发明实施例提供一种检索词重要度的确定方法和装置。该方法包括:接收用户输入的查询语句,提取该查询语句中的检索词;获取所述检索词的特征信息;将所述查询语句和所述查询语句中检索词的特征信息输入预先得到的机器学习模型,获得所述机器学习模型输出的所述查询语句中检索词的重要性权值;其中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以及所述已标注重要性权值的检索词的特征信息进行学习训练得到的。本方案结合用户输入的查询语句中检索词的特征信息,能够动态地得到用户输入的查询语句中不同特征信息的检索词的重要性权值,提高了得到的用户输入的查询语句中检索词的重要性权值的准确率。
【专利说明】检索词重要度的确定方法和装置

【技术领域】
[0001] 本发明实施例涉及信息检索【技术领域】,尤其涉及一种检索词重要度的确定方法和 装直。

【背景技术】
[0002] 现有技术中需要对用户输入的查询语句中的检索词在查询语句中的重要程度进 行确定,从而根据确定结果检索到与查询语句相关度较高的网页内容。
[0003] 现有的确定检索词的重要度的方法为:计算检索词的逆文档频率(Inverse Document Frequency, IDF)值,将IDF值作为反映检索词重要度的数值。
[0004] 上述确定检索词的重要度的方法存在的缺陷在于:第一,IDF值是通过直接统计 得到的,如果统计的数据量较小,则会影响IDF值的准确性;第二,IDF值的计算过程与检索 过程脱离,导致得到的IDF的准确性低;第三,IDF值是静态的,导致对于同一个检索词,在 不同查询语句中的IDF值相同,也即在不同的查询语句中同一个检索词的重要程度一样, 例如"的"由于是停用词,IDF值通常很低,假设为1,静态的IDF值会导致该检索词"的"在 查询语句"的的英文翻译"和查询语句"下载美女的图片"中的重要性相同,进而会导致查 询结果的准确性低。


【发明内容】

[0005] 本发明实施例提供一种检索词重要度的确定方法和装置,以动态确定用户输入的 查询语句中检索词的重要性权值,提高检索词的重要性权值的准确性。
[0006] 第一方面,本发明实施例提供了一种检索词重要度的确定方法,包括:
[0007] 接收用户输入的查询语句,提取该查询语句中的检索词;
[0008] 获取所述检索词的特征信息;
[0009] 将所述查询语句和所述查询语句中检索词的特征信息输入预先得到的机器学习 模型,获得所述机器学习模型输出的所述查询语句中检索词的重要性权值;
[0010] 其中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以 及所述已标注重要性权值的检索词的特征信息进行学习训练得到的。
[0011] 第二方面,本发明实施例提供了一种检索词重要度的确定装置,包括:
[0012] 检索词获取模块,用于接收用户输入的查询语句,提取该查询语句中的检索词;
[0013] 检索词特征信息获取模块,用于获取所述检索词的特征信息;
[0014] 检索词重要性权值确定模块,用于将所述查询语句和所述查询语句中检索词的特 征信息输入预先得到的机器学习模型,获得所述机器学习模型输出的所述查询语句中检索 词的重要性权值;
[0015] 其中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以 及所述已标注重要性权值的检索词的特征信息进行学习训练得到的。
[0016] 本发明实施例提供的检索词重要度的确定方法和装置,预先对包含已标注重要性 权值的检索词的样本查询语句以及所述已标注重要性权值的检索词的特征信息学习训练, 得到机器学习模型,再根据用户输入的查询语句中检索词以及对应的特征信息,利用机器 学习模型,从而得到用户输入的查询语句中检索词的重要性权值。由于训练机器学习模型 利用了样本查询语句中检索词的特征信息,因此利用训练得到的机器学习模型,结合用户 输入的查询语句中检索词的特征信息,能够动态地得到用户输入的查询语句中不同特征信 息的检索词的重要性权值,提高了得到的用户输入的查询语句中检索词的重要性权值的准 确率。

【专利附图】

【附图说明】
[0017] 为了更清楚地说明本发明,下面将对本发明中所需要使用的附图做一简单地介 绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018] 图Ia为本发明实施例一提供的一种检索词重要度的确定方法的流程图;
[0019] 图Ib为本发明实施例一提供的一种短语生成树的示意图;
[0020] 图Ic为采用现有技术得到的一种搜索结果图;
[0021] 图Id为采用本发明实施例的方法得到的与图Ic对应的搜索结果图;
[0022] 图Ie为采用现有技术得到的另一种搜索结果图;
[0023] 图If为图Ie中第一条搜索结果的示意图;
[0024] 图Ig为采用本发明实施例的方法得到的与图Ie对应的搜索结果图;
[0025] 图Ih为图Ig中第一条搜索结果的示意图;
[0026] 图Ii为采用现有技术得到的又一种搜索结果图;
[0027] 图Ij为采用本发明实施例的方法得到的与图Ii对应的搜索结果图;
[0028] 图2为本实施例提供三提供的一种检索词重要度的确定方法的流程图;
[0029] 图3为本发明实施例四提供的一种检索词重要度的确定装置的结构示意图。

【具体实施方式】
[0030] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例 中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部分实施例,而不是全 部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的 限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得 的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图 中仅示出了与本发明相关的部分而非全部内容。
[0031] 实施例一
[0032] 请参阅图la,为本发明实施例一提供的一种检索词重要度的确定方法的流程图。 本发明实施例的方法可以由配置以硬件和/或软件实现的检索词重要度的确定装置来执 行,该实现装置典型的是配置于能够提供检索服务的搜索引擎中。
[0033] 该方法包括:
[0034] 110、接收用户输入的查询语句,提取该查询语句中的检索词。
[0035] 通常,搜索引擎会提供搜索框,用户在搜索框内输入查询语句后,搜索引擎即接收 到用户输入的查询语句。输入查询语句的方式除了通过搜索框主动输入之外,还可以通过 搜索引擎提供给用户的语音输入动作入口实现,通过语音识别技术对用户输入的语音进行 识别,从而得到用户输入的查询语句。
[0036] 检索词是查询语句中的基本单位,利用切词技术,可以提取用户输入的查询语句 中的检索词。
[0037] 120、获取所述检索词的特征信息。
[0038] 本操作具体是获取用户输入的查询语句中每个检索词对应的特征信息。本操作 中既可以获取所述检索词的查询语句无关特征,也还可获取所述检索词的查询语句相关特 征,还可以获取所述检索词的查询语句无关特征和查询语句相关特征。优选是,获取所述检 索词的查询语句相关特征,或者,获取所述检索词的查询语句无关特征和查询语句相关特 征。
[0039] 所述查询语句无关特征可以包括:逆文档频率(inverse document frequency, IDF)、逆查询频率(inverse queryfrequency,IQF)、独立检索比、是否是标点、是否是英文、 是否是ASCII字符串、是否是数字、查询词长度比中的至少一个。通过所述查询语句无关特 征可以描述查询语句中检索词的基础重要性。
[0040] 其中,检索词的独立检索比=检索词本身作为查询语句的检索频次(freq)/所有 包含检索词的查询语句的检索频次;例如:检索词为"淘宝",查询语句"淘宝"的freq为10, 查询语句"淘宝双i^一"的freq为5,查询语句"淘宝马云"的freq为5时,检索词"淘宝" 的独立检索比=l(V(l〇+5+5) = 0? 5。
[0041] 查询词长度比=检索词的字节长度/查询语句的字节长度;例如:检索词"淘宝" 的GB编码字节长度为4,查询语句"淘宝双i^一"的GB编码字节长度为21时,检索词"淘 宝"的查询词长度比=4/21 = 0. 19。
[0042] 其中,检索词的IDF越高,则对应的出现频次越低,即对应的重要性权值越低;反 之,检索词的IDF越低,则对应的出现频次越高,即对应的重要性权值越高。
[0043] 所述查询语句相关特征可以包括:短语生成树重要性特征值、词性、是否是专名中 的至少一个。通过所述查询语句相关特征可以描述查询语句中检索词在所属的查询语句上 下文中的重要程度。
[0044] 下面结合图Ib说明短语生成树重要性特征值。
[0045] 如图Ib所示的短语生成树的根为"淘宝马云双十一",对应用户输入的查询语句, 以"淘宝马云双十一"为根的子树覆盖了"淘宝马云双十一"中至少两个查询词的组合情况, 换言之,以"淘宝马云双十一"为根的子树包括"淘宝双十一"子查询语句、"淘宝马云"子查 询语句和"马云双十一"子查询语句;以"淘宝双十一"子查询语句为根的子树覆盖了"淘宝" 和"双十一"两个检索词,以"淘宝马云"子查询语句为根的子树覆盖了"淘宝"和"马云"两 个检索词,以"马云双十一"子查询语句为根的子树覆盖了"马云"和"双十一"两个检索词。
[0046] 可以采用下述公式计算用户输入的查询语句"淘宝马云双十一"中每一个检索词 的短语生成树重要性特征值: QF(Cv-Mt) = Vamj-~-*a{t) _7] ~ Iog^l0g5-、 wdr(t)
[0048] 其中:t代表检索词;
[0049] QFO-I⑴为检索词的短语生成树重要性特征值;
[0050] IogR为以查询语句作为根的频次的log值;
[0051] IogSi为检索词对应的第i个子查询语句的频次的log值;
[0052] wdr(t)为检索词的重要性词典值(rankdict);
[0053] a (t)为缩放因子,一般取1或者t的独立检索比。
[0054] 130、将所述查询语句和所述查询语句中检索词的特征信息输入预先得到的机器 学习模型,获得所述机器学习模型输出的所述查询语句中检索词的重要性权值;其中,所述 机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以及所述已标注重要 性权值的检索词的特征信息进行学习训练得到的。
[0055] 本操作中,所述样本查询语句可以包括监督样本查询语句和半监督样本查询语 句,其中监督样本查询语句可以包括历史查询语句,半监督样本查询语句可以包括标注查 询语句和/或聚类查询语句。
[0056] 其中,所述历史查询语句可以从用户点击日志中获取,所述历史查询语句所包含 的检索词的重要性权值通过将所述历史查询语句中的检索词与被用户点击的与所述历史 查询语句对应的检索结果中的标题内容进行对比,并根据对比结果确定。具体地,在所述标 题内容中出现的检索词的重要性权值高于在所述标题内容中未出现的检索词的重要性权 值;或者,在所述标题内容中位置靠前的检索词的重要性权值高于在所述标题内容中位置 靠后的检索词的重要性权值。
[0057] 其中,所述标注查询语句所包含的检索词的重要性权值通过人工标注。
[0058] 其中,所述聚类查询语句所包含的检索词的重要性权值根据所述聚类查询语句所 属的聚类簇中各检索词的频率确定。一个聚类簇中包含的查询语句所表达的含义相同或相 近,例如,查询语句"download lady gaga music"、查询语句"lady gaga music"和查询语 句"lady gaga music latest"所属同一个聚类簇,根据各检索词的频率可以确定检索词 "lady gaga"和检索词"music"的重要性权值高于其他检索词。也即,聚类查询语句是从聚 类簇中提取的多条语句,通过将多条语句进行比对获得各条语句所包含检索词的重要性权 值;举例说明,在多条语句中出现次数多的检索词的重要性权值高于在多条语句中出现次 数少的检索词的重要性权值,比如在多条语句中均出现的检索词的重要性权值高于仅在其 中一条语句中出现的检索词的重要性权值。
[0059] 需要说明的是,所述历史查询语句对应监督样本,所述标注查询语句和所述聚类 查询语句对应半监督样本。监督样本利用了高质量的历史查询语句和对应的检索结果,例 如,"download (0? I) lady gaga (0? 5)music (0? 3) latest (0? 1) ",括号中为各检索词的重要 性权值。
[0060] 还需要说明的是,现有技术中,通过IDF值确定检索词重要程度,其中IDF值只能 从单一数据源统计。而本步骤中使用多种样本数据训练机器学习模型,避免了单一数据源 错误可能导致的确定的检索词的重要性权值不准确的问题,本步骤通过融合监督样本和半 监督样本,由于监督样本语句和半监督样本语句中检索词的重要性权值可能不同,因此结 合用户输入的查询语句中检索词的特征信息,能够有效修正用户输入的查询语句中检索词 的重要性权值,提高准确率,进而提高搜索引擎返回的前序搜索结果的相关性。
[0061] 获得所述机器学习模型所采用的学习训练方法可以包括=GBrank模型训练方法, 可以保证检索词的顺序的正确率,为了使得检索词对应的重要性权值位于0-1之间,可以 利用softmax函数将GBrank模型输出结果归一化在0-1之间。以GBrank模型训练方法作 为理论依据提高了机器学习模型的精度,从而提高了得到的用户输入的查询语句中检索词 的重要性权值的准确度。
[0062] 本实施例的技术方案,预先对包含已标注重要性权值的检索词的样本查询语句以 及所述已标注重要性权值的检索词的特征信息学习训练,得到机器学习模型,再根据用户 输入的查询语句中检索词以及对应的特征信息,利用机器学习模型,从而得到用户输入的 查询语句中检索词的重要性权值。由于训练机器学习模型利用了样本查询语句中检索词的 特征信息,因此利用训练得到的机器学习模型,结合用户输入的查询语句中检索词的特征 信息,能够动态地得到用户输入的查询语句中不同特征信息的检索词的重要性权值,提高 了得到的用户输入的查询语句中检索词的重要性权值的准确率。
[0063] 下面通过图Ic-图Ij对比说明采用本实施例方法得到的检索结果。
[0064] 示例 1
[0065] 用户在搜索引擎中获取信息的主要途径是主动输入查询语句,由于用户知识背景 和表达方式的局限,用户习惯以自然语言的方式输入查询语句,例如,用户通过葡萄牙语输 入查询语句"gta cidade de deus desenho da peppa",直译是"电子游戏上帝之城图片粉 红色小猪",也即用户要搜的是GTA上帝之城中人物头像是粉红色小猪的图片,采用现有的 静态的IDF值确定查询语句中的检索词的重要性权值,搜索引擎返回给用户的检索结果如 图lc,可以看出搜索引擎返回的检索结果与表达用户意图的查询语句相关性很小。而采用 本实施例的方法,得到检索词"gta"和检索词"p印pa"的重要性权值高于其他检索词的重 要性权值,搜索引擎根据确定的各检索词的重要性权值返回相应的检索结果如图Ib所示, 可以看出前两条检索结果与表达用户意图的查询语句相关性非常高,从而提升了用户的搜 索体验。
[0066] 示例 2
[0067] 用户输入的查询语句为" como se vais o papagaio com pneu de carro passo a passo",直译是"如何一步一步用汽车轮胎制作鹦鹉",其中检索词"vais"拼写错误,正确写 法为"faz",但现有技术和本实施例中搜索引擎均未正确纠错。采用现有的静态的IDF值确 定查询语句中的检索词的重要性权值,由于检索词"vais"是个错误检索词,对应的IDF值 很高,导致检索词"vais"和检索词"papagaio"的重要性权值高于其他检索词,并以此返回 检索结果如图le,其中第一条检索结果对应的内容如图If所示,可以看出搜索引擎返回的 检索结果与表达用户意图的查询语句相关性非常小。而采用本实施例的方法,得到检索词 "papagaio"和检索词"pneu"的重要性权值高于其他检索词的重要性权值,搜索引擎根据确 定的各检索词的重要性权值返回相应的检索结果如图Ig所示,其中第一条检索结果对应 的具体内容如图Ih所示,可以看出检索结果与表达用户意图的查询语句相关性非常高,包 含了用汽车轮胎制作鹦鹉的详细步骤以及成品。
[0068] 示例 3
[0069] 用户输入的查询语句为"personagens biblicos que sao formados em profissoes",直译是"圣经中训练有素的人物",采用现有的静态的IDF值确定查询语句中 的检索词的重要性权值,导致检索词"formados"和检索词"profissoes"的IDF值较高并以 此返回检索结果如图li,可以看出搜索引擎返回的前几条检索结果均为出现"biblicos" 这个检索词,与表达用户意图的查询语句相关性非常小。而采用本实施例的方法,得到检索 词"biblicos"的重要性权值高于其他检索词的重要性权值,搜索引擎根据确定的各检索词 的重要性权值返回相应的检索结果如图Ij所示,可以看出前几条检索结果基本都包含检 索词"biblicos",与表达用户意图的查询语句相关性非常高。
[0070] 在本实施例中,在获得所述机器学习模型输出的所述查询语句中检索词的重要性 权值之后,所述方法还优选包括:
[0071] 140、对所述机器学习模型输出的所述查询语句中检索词的重要性权值进行至少 一次优化处理。
[0072] 操作140有多种实施方式,不同的优化处理具有不同的有益效果,下面通过具体 实施例分别进行说明。
[0073] 实施例二
[0074] 本实施例提供一种检索词重要度的确定方法。本实施例在上述实施例的基础上, 提供了对所述机器学习模型输出的用户输入的查询语句中检索词的重要性权值进行至少 一次优化处理的优选方案。
[0075] 该优选方法包括:采用下述公式对所述机器学习模型输出的所述查询语句中检索 词的重要性权值进行优化处理: -_ cxpCafiXij))
[0076] Yii = XpP(^Xxij))
[0077] 其中:%为优化后的第i条查询语句的第j个检索词的重要性权值;
[0078] exp()为以自然常数e为底的指数函数;
[0079] Xu为第i条查询语句的第j个检索词对应的特征向量;
[0080] f(Xip为所述机器学习模型输出的第i条查询语句的第j个检索词的重要性权 值;
[0081] a为控制f (Xij)区分度的参数。
[0082] 通过参数a有利于增大用户输入的查询语句中各检索词对应的重要性权值的 区分度,例如,机器学习模型输出的用户输入的查询语句"download(0? I) lady gaga(0? 5) music (0. 3) latest (0. I) "中检索词的重要性权值的区分度为0. 1-0. 5,通过参数a和上述 优化公式,得到 "download(0? I) lady gaga(0? 7)music (0? 5) latest (0? 1) ",将用户输入的 查询语句中检索词的重要性权值的区分度扩大为0. 1-0. 7。
[0083] 本实施例的技术方案,在获得所述机器学习模型输出的所述查询语句中检索词的 重要性权值之后,进行优化处理,增大用户输入的查询语句中各检索词对应的重要性权值 的区分度,从而提高搜索引擎返回的检索结果的相关性。
[0084] 在本实施例中,a值优选采用下述公式确定: N I Ii ,
[0085] mina E r- yM )2 + 人(var (歹u,,…Jili) - var(yu, yi2,…,y;j))2 i=l L!i H _
[0086] 其中:%为优化后的第i条查询语句的第j个检索词的重要性权值;
[0087] 为对所述机器学习模型进行模型训练时使用的第i条查询语句的第j个检索 词的已标注重要性权值;
[0088] Ii为第i个查询语句包含的检索词的数量;
[0089] N为查询语句的总数目;
[0090]入为人为设定参数,在0-1中取值;
[0091] var〇为对括号中的数据取方差值。
[0092] 上述公式提供了参数a的优化理论,优化了机器学习模型输出的用户输入查询 语句中检索词的重要性权值与样本查询语句包含的检索词的已标注重要性权值之间的误 差,也即使机器学习模型的输出值回归样本查询语句中的标注值,同时还优化了机器学习 模型输出的用户输入查询语句中检索词的重要性权值的方差与样本查询语句包含的检索 词的已标注重要性权值的方差之间的误差,换言之,使得机器学习模型输出的用户输入查 询语句中检索词的重要性权值更加接近于样本查询语句包含的检索词的已标注重要性权 值,同时通过参数a有利于控制用户输入查询语句中检索词的重要性权值的区分度。
[0093] 实际计算中入可以取0.9,目的在于增大用户输入查询语句中检索词的重要性权 值的区分度。
[0094] 本实施方式,避免了现有技术中IDF值计算涉及的人工调整参数,缺少理论和数 据支撑的缺陷,提供了参数a的优化理论,通过训练和控制参数a,使得机器学习模型输 出的用户输入查询语句中检索词的重要性权值更加接近于样本查询语句包含的检索词的 已标注重要性权值,同时有利于控制用户输入的查询语句中各检索词对应的重要性权值的 区分度,从而提高搜索引擎返回的检索结果的相关性。
[0095] 实施例三
[0096] 请参阅图2,为本实施例提供三提供的一种检索词重要度的确定方法的流程图。本 实施例在实施例一的基础上,提供了对所述机器学习模型输出的用户输入的查询语句中检 索词的重要性权值进行至少一次优化处理的优选方案。
[0097] 该优选方法包括下述至少一项:
[0098] 210、根据用户输入的查询语句中的检索词的词性,调整机器学习模型输出的该检 索词的重要性权值。
[0099] 具体地,若用户输入的查询语句中的检索词为停用词,则将机器学习模型输出的 该检索词的重要性权值调低;若所述查询语句中的检索词为否定词,则将机器学习模型输 出的该检索词的重要性权值调高;若所述查询语句中的检索词为特殊修饰词,如"最新"、 "目前"和"欢迎",则将机器学习模型输出的该检索词的重要性权值调低。例如,用户输入 的查询语句为"下载王菲音乐最新",则将检索词"最新"的重要性权值调低。
[0100] 220、根据用户输入的查询语句中的检索词的重要性词典值,调整机器学习模型输 出的该检索词的重要性权值。
[0101] 具体地,对于重要性词典值最高但重要性权值不是最高的检索词,将机器学习模 型输出的该检索词的重要性权值调高。
[0102] 230、根据用户输入的查询语句中的检索词的独立检索比值,调整机器学习模型输 出的该检索词的重要性权值。
[0103] 具体地,对于独立检索比值高但重要性权值低的检索词,将机器学习模型输出的 该检索词的重要性权值调高。
[0104] 240、对于属于用户输入的查询语句的主干词或强限定词的检索词,将机器学习模 型输出的该检索词的重要性权值调高。
[0105] 本实施例的技术方案,在获得机器学习模型输出的用户输入的查询语句中检索词 的重要性权值之后,通过用户输入的查询语句中检索词的特征信息,对机器学习模型输出 的用户输入的查询语句中检索词的重要性权值进行优化处理,避免了由于样本查询语句中 标注数据稀疏、存在噪声以及特征覆盖面较窄等多方面的缺陷,修正了机器学习模型直接 输出的用户输入的查询语句中检索词的重要性权值的准确性。
[0106] 需要说明的是,在本实施例中,操作210-操作240都是相互独立的,都是对所述机 器学习模型输出的所述查询语句中检索词的重要性权值进行至少一次优化处理的优选方 案。可以单独执行,也可以组合,当执行多项操作时,执行顺序不限。
[0107] 实施例四
[0108] 请参阅图3,为本发明实施例四提供的一种检索词重要度的确定装置的结构示意 图。该装置包括:检索词获取模块310、检索词特征信息获取模块320和检索词重要性权值 确定模块330。
[0109] 其中,检索词获取模块310用于接收用户输入的查询语句,提取该查询语句中的 检索词;检索词特征信息获取模块320用于获取所述检索词的特征信息;检索词重要性权 值确定模块330用于将所述查询语句和所述查询语句中检索词的特征信息输入预先得到 的机器学习模型,获得所述机器学习模型输出的所述查询语句中检索词的重要性权值;其 中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以及所述已标 注重要性权值的检索词的特征信息进行学习训练得到的。
[0110] 在上述方案中,所述检索词特征信息获取模块320用于执行:获取所述检索词的 查询语句无关特征和查询语句相关特征中的至少一个。
[0111] 进一步地,所述查询语句无关特征可以包括:逆文档频率IDF、逆查询频率IQF和/ 或独立检索比;所述查询语句相关特征可以包括:短语生成树重要性特征值和/或词性。
[0112] 在上述方案中,所述样本查询语句可以包括:历史查询语句、标注查询语句和/或 聚类查询语句。
[0113] 其中,所述历史查询语句所包含的检索词的重要性权值通过将所述历史查询语句 中的检索词与被用户点击的与所述历史查询语句对应的检索结果中的标题内容进行对比, 并根据对比结果确定。
[0114] 所述标注查询语句所包含的检索词的重要性权值通过人工标注。
[0115] 所述聚类查询语句所包含的检索词的重要性权值根据所述聚类查询语句所属的 聚类簇中各检索词的频率确定。
[0116] 在上述方案中,获得所述机器学习模型所采用的学习训练方法可以包括:GBrank 模型训练方法。
[0117] 在上述方案中,所述装置还优选包括:优化处理模块340,用于在所述检索词重要 性权值确定模块330获得所述机器学习模型输出的所述查询语句中检索词的重要性权值 之后,对所述机器学习模型输出的所述查询语句中检索词的重要性权值进行至少一次优化 处理。
[0118] 作为一种优选的优化处理的实施方式,所述优化处理模块340采用下述公式对所 述机器学习模型输出的所述查询语句中检索词的重要性权值进行优化处理:
[0119]

【权利要求】
1. 一种检索词重要度的确定方法,其特征在于,包括: 接收用户输入的查询语句,提取该查询语句中的检索词; 获取所述检索词的特征信息; 将所述查询语句和所述查询语句中检索词的特征信息输入预先得到的机器学习模型, 获得所述机器学习模型输出的所述查询语句中检索词的重要性权值; 其中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以及所 述已标注重要性权值的检索词的特征信息进行学习训练得到的。
2. 根据权利要求1所述的方法,其特征在于,所述特征信息,包括: 获取所述检索词的查询语句无关特征和查询语句相关特征中的至少一个。
3. 根据权利要求2所述的方法,其特征在于,所述查询语句无关特征包括:逆文档频率 IDF、逆查询频率IQF和/或独立检索比; 所述查询语句相关特征包括:短语生成树重要性特征值和/或词性。
4. 根据权利要求1所述的方法,其特征在于,所述样本查询语句包括:历史查询语句、 标注查询语句和/或聚类查询语句; 其中,所述历史查询语句所包含的检索词的重要性权值通过将所述历史查询语句中的 检索词与被用户点击的与所述历史查询语句对应的检索结果中的标题内容进行对比,并根 据对比结果确定; 所述标注查询语句所包含的检索词的重要性权值通过人工标注; 所述聚类查询语句所包含的检索词的重要性权值根据所述聚类查询语句所属的聚类 簇中各检索词的频率确定。
5. 根据权利要求1所述的方法,其特征在于,获得所述机器学习模型所采用的学习训 练方法包括:GBrank模型训练方法。
6. 根据权利要求1-5中任一所述的方法,其特征在于,在获得所述机器学习模型输出 的所述查询语句中检索词的重要性权值之后,所述方法还包括: 对所述机器学习模型输出的所述查询语句中检索词的重要性权值进行至少一次优化 处理。
7. 根据权利要求6所述的方法,其特征在于,采用下述公式对所述机器学习模型输出 的所述查询语句中检索词的重要性权值进行优化处理:
其中:%为优化后的第i条查询语句的第j个检索词的重要性权值; exp O为以自然常数e为底的指数函数; Xij为第i条查询语句的第j个检索词对应的特征向量; f UiP为所述机器学习模型输出的第i条查询语句的第j个检索词的重要性权值; α为控制f (XiP区分度的参数。
8. 根据权利要求7所述的方法,其特征在于,α值采用下述公式确定:
其中:3V为优化后的第i条查询语句的第j个检索词的重要性权值; yij为对所述机器学习模型进行模型训练时使用的第i条查询语句的第j个检索词的 已标注重要性权值; Ii为第i个查询语句包含的检索词的数量; N为查询语句的总数目; λ为人为设定参数,在0-1中取值; var〇为对括号中的数据取方差值。
9. 根据权利要求6所述的方法,其特征在于,对所述机器学习模型输出的所述查询语 句中检索词的重要性权值进行至少一次优化处理,包括下述至少一项: 根据所述查询语句中的检索词的词性,调整机器学习模型输出的该检索词的重要性权 值; 根据所述查询语句中的检索词的重要性词典值,调整机器学习模型输出的该检索词的 重要性权值; 根据所述查询语句中的检索词的独立检索比值,调整机器学习模型输出的该检索词的 重要性权值; 对于属于所述查询语句的主干词或强限定词的检索词,将机器学习模型输出的该检索 词的重要性权值调高。
10. -种检索词重要度的确定装置,其特征在于,包括: 检索词获取模块,用于接收用户输入的查询语句,提取该查询语句中的检索词; 检索词特征信息获取模块,用于获取所述检索词的特征信息; 检索词重要性权值确定模块,用于将所述查询语句和所述查询语句中检索词的特征信 息输入预先得到的机器学习模型,获得所述机器学习模型输出的所述查询语句中检索词的 重要性权值; 其中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以及所 述已标注重要性权值的检索词的特征信息进行学习训练得到的。
11. 根据权利要求10所述的装置,其特征在于,所述检索词特征信息获取模块用于执 行: 获取所述检索词的查询语句无关特征和查询语句相关特征中的至少一个。
12. 根据权利要求11所述的装置,其特征在于,所述查询语句无关特征包括:逆文档频 率IDF、逆查询频率IQF和/或独立检索比; 所述查询语句相关特征包括:短语生成树重要性特征值和/或词性。
13. 根据权利要求10所述的装置,其特征在于,所述样本查询语句包括:历史查询语 句、标注查询语句和/或聚类查询语句; 其中,所述历史查询语句所包含的检索词的重要性权值通过将所述历史查询语句中的 检索词与被用户点击的与所述历史查询语句对应的检索结果中的标题内容进行对比,并根 据对比结果确定; 所述标注查询语句所包含的检索词的重要性权值通过人工标注; 所述聚类查询语句所包含的检索词的重要性权值根据所述聚类查询语句所属的聚类 簇中各检索词的频率确定。
14. 根据权利要求10所述的装置,其特征在于,获得所述机器学习模型所采用的学习 训练方法包括=GBrank模型训练方法。
15. 根据权利要求10所述的装置,其特征在于,所述装置还包括: 优化处理模块,用于在所述检索词重要性权值确定模块获得所述机器学习模型输出的 所述查询语句中检索词的重要性权值之后,对所述机器学习模型输出的所述查询语句中检 索词的重要性权值进行至少一次优化处理。
16. 根据权利要求15所述的装置,其特征在于,所述优化处理模块采用下述公式对所 述机器学习模型输出的所述查询语句中检索词的重要性权值进行优化处理:
其中:%为优化后的第i条查询语句的第j个检索词的重要性权值; exp 0为以自然常数e为底的指数函数; Xij为第i条查询语句的第j个检索词对应的特征向量; f UiP为所述机器学习模型输出的第i条查询语句的第j个检索词的重要性权值; α为控制f (XiP区分度的参数。
17. 根据权利要求16所述的装置,其特征在于,α值采用下述公式确定:
其中:%为优化后的第i条查询语句的第j个检索词的重要性权值; Yij为对所述机器学习模型进行模型训练时使用的第i条查询语句的第j个检索词的 已标注重要性权值; Ii为第i个查询语句包含的检索词的数量; N为查询语句的总数目; λ为人为设定参数,在0-1中取值; var〇为对括号中的数据取方差值。
18. 根据权利要求15所述的装置,其特征在于,所述优化处理模块包括下述至少一项: 第一优化处理单元,用于根据所述查询语句中的检索词的词性,调整机器学习模型输 出的该检索词的重要性权值; 第二优化处理单元,用于根据所述查询语句中的检索词的重要性词典值,调整机器学 习模型输出的该检索词的重要性权值; 第三优化处理单元,用于根据所述查询语句中的检索词的独立检索比值,调整机器学 习模型输出的该检索词的重要性权值; 第四优化处理单元,用于对于属于所述查询语句的主干词或强限定词的检索词,将机 器学习模型输出的该检索词的重要性权值调高。
【文档编号】G06F17/30GK104376065SQ201410636024
【公开日】2015年2月25日 申请日期:2014年11月5日 优先权日:2014年11月5日
【发明者】石磊, 张鹏 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1