查询语句与网页相似度的确定方法、装置、终端及服务器的制造方法

文档序号:6632102阅读:133来源:国知局
查询语句与网页相似度的确定方法、装置、终端及服务器的制造方法
【专利摘要】本发明实施例公开了查询语句与网页相似度的确定方法、装置、终端及服务器。该方法包括:通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句;根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度;其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。本实施例提供的技术方案,可以提高搜索引擎对任一查询语句的网页召回率,使得搜索引擎能够针对表现形式不同而语义相似的各条查询句,返回相差较小的网页集合,提升用户对查询结果的满意度。
【专利说明】查询语句与网页相似度的确定方法、装置、终端及服务器

【技术领域】
[0001] 本发明实施例涉及数据处理【技术领域】,尤其涉及查询语句与网页相似度的确定方 法、装置、终端及服务器。

【背景技术】
[0002] 目前,搜索引擎在为用户提供搜索服务时,通常是先获取用户在搜索栏中所输入 的指令,基于该指令生成查询句,然后计算该查询句与大量网页之间的相关性,最后将相关 性较高的网页所对应的链接作为本次查询结果呈现给用户,W供用户点击查看。
[0003] 由于基于相关性计算的网页排名直接决定了搜索引擎的优劣和用户体验质量,因 此如何能够准确高效的计算出查询语句和网页之间的相关性是搜索引擎的核也问题点。然 而,现有技术在得到用户输入的查询句之后,并未对该查询句进行其他处理,而是采取硬匹 配的方法,直接计算查询语句和网页的相关性,该样一方面使得搜索引擎对与查询语句相 关的网页的召回率较低;另一方面使得搜索引擎分别在表现形式不同而语义相似的各条查 询句下,所得到的网页集合相差较大,用户搜索体验差。


【发明内容】

[0004] 本发明实施例提供查询语句与网页相似度的确定方法、装置、终端及服务器,W提 高搜索引擎对任一查询语句的网页召回率,使得搜索引擎能够针对表现形式不同而语义相 似的各条查询句,返回相差较小的网页集合,提升用户对查询结果的满意度。
[0005] 第一方面,本发明实施例提供了一种查询语句与网页相似度的确定方法,该方法 包括:
[0006] 通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条 候选语句;
[0007] 根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网 页主题句之间的相似度;
[0008] 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到 的用于描述网页主要内容的语句。
[0009] 第二方面,本发明实施例还提供了一种查询语句与网页相似度的确定方法,该方 法包括:
[0010] 云端服务器获取终端发送的目标查询语句;
[0011] 所述云端服务器通过预先创建的短语翻译模型,将所述目标查询语句翻译为具有 相似语义的至少一条候选语句,并下发给所述终端,W指示所述终端根据所述至少一条候 选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度;
[0012] 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到 的用于描述网页主要内容的语句。
[0013] 第H方面,本发明实施例还提供了一种查询语句与网页相似度的确定方法,该方 法包括:
[0014] 终端向云端服务器发送目标查询语句,W指示所述云端服务器通过预先创建的短 语翻译模型,将所述目标查询语句翻译为具有相似语义的至少一条候选语句;
[0015] 所述终端接收所述云端服务器下发的至少一条候选语句,根据所述至少一条候选 语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度;
[0016] 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到 的用于描述网页主要内容的语句。
[0017] 第四方面,本发明实施例提供了一种查询语句与网页相似度的确定装置,该装置 包括:
[0018] 候选翻译模块,用于通过预先创建的短语翻译模型,将目标查询语句翻译为具有 相似语义的至少一条候选语句;
[0019] 相似度确定模块,用于根据所述至少一条候选语句与网页主题句之间的相似度, 确定目标查询语句和网页主题句之间的相似度;
[0020] 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到 的用于描述网页主要内容的语句。
[0021] 第五方面,本发明实施例提供了一种云端服务器,该服务器包括:
[0022] 查询语句获取模块,用于获取终端发送的目标查询语句;
[0023] 查询语句翻译模块,用于通过预先创建的短语翻译模型,将所述目标查询语句翻 译为具有相似语义的至少一条候选语句,并下发给所述终端,W指示所述终端根据所述至 少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似 度;
[0024] 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到 的用于描述网页主要内容的语句。
[0025] 第六方面,本发明实施例提供了一种终端,该终端包括:
[0026] 查询语句发送模块,用于向云端服务器发送目标查询语句,W指示所述云端服务 器通过预先创建的短语翻译模型,将所述目标查询语句翻译为具有相似语义的至少一条候 选语句;
[0027] 相似度确定模块,用于接收所述云端服务器下发的至少一条候选语句,根据所述 至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相 似度;
[0028] 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到 的用于描述网页主要内容的语句。
[0029] 在本发明实施例中,在获取到用户输入的查询语句后,并未采取硬匹配的方法来 直接计算查询语句和网页的相关性,而是:先通过预先创建的短语翻译模型,对查询语句进 行语义相似的转录,W得到多条与该查询语句具有相似语义的候选语句;然后,基于转录 结果与网页主题句之间的相关性,来计算查询语句与网页主题句之间的相关性。本发明实 施例提供的技术方案,一方面能够提高搜索引擎在任一查询语句下的网页召回率,另一方 面使得搜索引擎能够针对表现形式不同而语义相似的各条查询句,返回相差较小的网页集 合,提升用户的搜索体验。

【专利附图】

【附图说明】
[0030] 图1是本发明实施例一提供的一种查询语句与网页相似度的确定方法的流程示 意图;
[0031] 图2是本发明实施例二提供的一种查询语句与网页相似度的确定方法的流程示 意图;
[0032] 图3是本发明实施例H提供的一种查询语句与网页相似度的确定方法的流程示 意图;
[0033] 图4是本发明实施例四提供的一种查询语句与网页相似度的确定方法的流程示 意图;
[0034] 图5A是本发明实施例五提供的一种查询语句与网页相似度的确定方法的流程示 意图;
[00巧]图5B是本发明实施例五提供的一种候选短语之间在组合为候选语句时的连接关 系W意图;
[0036] 图6是本发明实施例六提供的另一种查询语句与网页相似度的确定方法的流程 示意图;
[0037] 图7是本发明实施例走提供的再一种查询语句与网页相似度的确定方法的流程 示意图;
[0038] 图8是本发明实施例八提供的一种优选的查询语句与网页相似度的确定方法的 流程意图;
[0039] 图9是本发明实施例九提供的一种查询语句与网页相似度的确定装置的结构示 意图;
[0040] 图10是本发明实施例十提供的一种云端服务器的结构示意图;
[0041] 图11是本发明实施例十一提供的一种终端的结构示意图;
[0042] 图12是本发明实施例十二提供的一种查询语句与网页相似度的确定方法在信息 检索系统上的应用流程示意图。

【具体实施方式】
[0043] 下面结合附图和实施例对本发明作进一步的详细说明。可W理解的是,此处所描 述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0044] 查询语句和网页的相关性计算是搜索引擎的核也问题点。正是网页的基于相关性 计算的排名决定了搜索引擎的优劣和用户体验质量。查询语句表现形式多种多样,同样的 语义可W用不同的句子表达,而相同的词语也具有多义性。例如,查询"日本收购的中国企 业"的时候,可W采用如下多种查询语句;"被日本收购的中国企业"、"日本收购了哪些中国 企业"、"中国企业日本收购"、"哪些中国企业被日本控股"等等。而一个查询语句,例如"苹 果多少钱",其语义可W指的是:苹果公司的市值、苹果公司新推出产品的价格、用户所在地 的水果的价格等。
[0045] 因此,在计算查询语句和网页的相关性的时候不得不尽力解决该些问题。本发明 实施例从计算查询语句和网页主题句的相关性该一视角出发,部分地刻画查询语句和候选 网页的相关性。特别地,本发明实施例提出一种基于短语统计翻译模型,来计算查询语句与 网页主题句之间相似度的解决方案。
[004引 实施例一
[0047] 图1是本发明实施例一提供的一种查询语句与网页相似度的确定方法的流程示 意图,本实施例可适用于在获取到用户输入的查询语句后,计算该查询语句与网页之间的 相似度的情况,W使得搜索引擎能够基于该相似度来确定网页是否可W作为查询结果中的 候选网页,或者基于相似度对查询语句下的各个候选网页进行排名。
[0048] 该方法可W由查询语句与网页相似度的确定装置来执行,所述装置可W是为用户 提供网页搜索服务的搜索引擎本身,也可W是为搜索引擎提供查询语句与网页相似度计算 的第H方服务器。参见图1,本实施例提供的方法具体包括如下操作:
[0049] 操作110、通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的 至少一条候选语句。
[0050] 在本实施例中,预先创建有短语翻译模型,该模型能够将输入的查询语句,翻译为 与输入的查询语句具有相似语义的至少一条候选语句。具体的创建过程可W是通过对训练 样本集进行学习得到的。其中,训练样本集中包括:基于已知的大量的查询语句样本及相应 的具有相似语义的多条候选语句样本。训练样本集可W是人工预先设定的,也可W是根据 历史统计的用户在搜索引擎中所输入的多个查询语句,W及用户在搜索引擎返回的各个查 询语句下的查询结果中分别点击的网页信息,所实时生成的。本实施例对短语翻译模型的 创建过程不作限定。
[0051] 在获取到用户在搜索引擎中所输入的查询句之后,可将该查询句作为本次要翻译 的目标查询句,输入至预先创建的短语翻译模型中,所得到的输出便是具有相似语义的至 少一条候选语句。
[0052] 操作120、根据至少一条候选语句与网页主题句之间的相似度,确定目标查询语句 和网页主题句之间的相似度。
[0053] 在本实施例中,网页主题句为网页标题,或者基于设定算法对网页内容进行解析 得到的用于描述网页主要内容的语句。
[0054] 在将目标查询语句翻译为具有相似语义的至少一条候选语句之后,可W获取翻译 得到的多条候选语句与网页主题句之间的相似度,对所获取的各个相似度作加权处理,将 处理结果直接作为目标查询语句和网页主题句之间的相似度。其中,各个相似度的权重系 数可W是预先设定的固定值,例如设定各个权重系数均为相等的值,或者依据各条候选语 句与目标查询语句在语义上的相似程度,来设定各权重系数为不相等的值,相似程度越高 的,权重系数越大。具体的,可W实时的将短语翻译模型得到的候选语句在目标查询语句下 的翻译概率,作为该条候选语句的权重系数。
[0055] 针对翻译得到的各条候选语句,可W基于任何用于计算两条语句之间相似度的算 法,来计算其与网页主题句之间的相似度。例如,可W是单独基于n元语言模型字符串匹配 算法,来计算当前所针对的候选语句与网页主题句之间的相似度,n可W取1、2、3或者4等; 或者,同时基于1、2、3和4等n元语言模型符串匹配算法得到各个相似度,然后将该些相似 度加权得到当前所针对的候选语句与网页主题句之间的相似度。
[0056] 在得到查询语句与网页主题句之间的相似度之后,可W将该相似度作为用于计算 查询语句与网页相似度的一个重要特征,进行后续相应处理。查询语句与网页主题句之间 的相似度越高,查询语句与网页相似度也越高,搜索引擎可将相似度高于设定阔值的网页 的相关内容作为查询结果返回给用户。
[0057] 在本实施例中,在获取到用户输入的查询语句后,并未采取硬匹配的方法来直接 计算查询语句和网页的相关性,而是:先通过预先创建的短语翻译模型,对查询语句进行语 义相似的转录,W得到多条与该查询语句具有相似语义的候选语句;然后,基于转录结果与 网页主题句之间的相关性,来计算查询语句与网页主题句之间的相关性。本实施例提供的 技术方案,一方面能够提高搜索引擎在任一查询语句下的网页召回率;另一方面使得搜索 引擎能够针对表现形式不同而语义相似的各条查询句,返回相差较小的网页集合,提升用 户的搜索体验。
[0058] 实施例二
[0059] 图2是本发明实施例二提供的一种查询语句与网页相似度的确定方法的流程示 意图,本实施例在上述实施例一的基础上,进一步增加了 "创建短语翻译模型"的操作。参 见图2,本实施例提供的方法具体包括如下操作:
[0060] 操作210、确定翻译双语对语料;其中,翻译双语对语料中翻译双语对的源语言句 子为查询语句,目标语言句子为网页主题句。
[0061] 操作220、对翻译双语对语料进行训练,W创建短语翻译模型;所述短语翻译模型 的输入为查询语句,输出包括与输入具有相似语义的至少一条候选语句。
[0062] 操作230、通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的 至少一条候选语句。
[0063] 操作240、根据至少一条候选语句与网页主题句之间的相似度,确定目标查询语句 和网页主题句之间的相似度。
[0064] 在本实施例中,在创建短语翻译模型时,所需的训练样本集包括翻译双语对语料, 翻译双语对语料进一步由大量的翻译双语对组成。每个翻译双语对包括源语言句子和目标 语言句子,其中源语言句子为查询语句,目标语言句子为网页主题句。
[0065] 为得到大量的翻译双语对,在确定翻译双语对语料之前,可预先生成查询日志,用 于统计用户在搜索引擎中所输入的各条查询语句,W及用户在搜索引擎根据各条查询语句 相应返回的多个查询结果中所点击的网页信息。进而,可基于查询日志所统计的数据,来确 定相应的翻译双语对。
[0066] 具体的,每个翻译双语对的源语言句子为查询日志中统计的查询语句,目标语言 句子可W是根据查询日志中统计的用户在源语言句子下的查询结果中所点击的网页信息, 得到的与该源语言句子对应的网页主题句。当然,还可将查询日志中,任意具有相似语义的 两条查询语句,分别作为源语言句子和目标语言句子,来组成一个翻译双语对。在此情况 下,目标语言句子也为查询语句,可被视为特殊的网页主题句。另外,其他已有的用于创建 短语翻译模型的训练样本,W及所有可利用的语义相同而文字表现形式不同的句子对,均 可被包括在训练样本集中,W结合翻译双语对语料,来创建短语翻译模型。
[0067] 在本实施例的一种优选的【具体实施方式】中,确定翻译双语对语料,包括:
[0068] 基于用户点击数据,确定翻译双语对语料;
[0069] 其中,用户点击数据包括;查询日志中所统计的用户输入的查询语句,与用户在返 回的多个查询结果中所点击的网页链接之间的映射关系;
[0070] 翻译双语对语料包括:由查询日志中所包含的查询语句,和与该查询语句对应的 网页链接中点击率超过设定点击阔值的网页链接的网页主题句,分别作为源语言句子和目 标语言句子组成的第一翻译双语对;和/或,由查询日志中所包含的满足预设条件的两条 目标查询语句分别作为源语言句子和目标语言句子组成的第二翻译双语对;所述预设条 件,包括;(1)所述两条目标查询语句所分别对应的网页主题句集合之间的相似度大于设 定的第一阔值;(2)所述两条目标查询语句之间的相似度小于设定的第二阔值。
[0071] 在上述优选方式中,第二翻译双语对是通过查找用户点击数据中其对应的网页主 题句所构成的集合非常接近(即满足预设条件中的(1))但表现形式不同(即预设条件中 的(2))的任意两条查询语句得到的。所谓与目标查询语句对应的网页主题句集合,指的是 在所生成的所有第一翻译双语对中,与目标查询语句对应的所有网页主题句构成的集合。
[0072] 在本实施例中,任意两个集合之间的相似度可W为;Ia n B|/|A U Bi,其中Ia U Bl表示为集合A和集合B的交集中元素的个数,Ia n Bl表示为集合A和集合B的并集中 元素的个数。例如,对于用户点击数据中的两条查询语句,与其中第一条查询语句对应的网 页主题句集合为A= Iul, u2,u3,u4, U引;而与其中第二条查询语句对应的网页主题句集合 为6={112,111,113,115,116},其相似度为4/6。该里可^设定第一阔值,例如0.6。如果相似 度大于0. 6,则认为该两个集合"非常接近"。
[0073] 在本实施例中,任意两条目标查询语句之间的相似度,可W通过直接比较该两条 目标查询语句之间的字符串差异值来得到。例如,一条目标查询语句是a b C d,另外一条 目标查询语句是X y a Z,该样他们一共只有一个词a是一样的,因此可W将"两条目标查 询语句中相同词的个数与所有词的个数的比值"作为两条目标查询语句的相似度,即1/7。 假设,设定相似度判别阔值(即第二阔值)为0. 5,则判断相似度小于为0. 5的两条目标查 询语句为"表现形式不同"的两条目标查询语句。
[0074] 在本实施例中,设置翻译双语对语料中翻译双语对的源语言句子为查询语句,目 标语言句子为网页主题句,基于用户点击数据来有效地组织海量的 < 查询语句,网页主题 句〉作为训练数据,进而通过对训练数据的学习来创建面向大规模数据的短语翻译模型, 该样使得短语翻译模型可W基于大规模数据来进行短语之间的基于语义相似的转录,从而 更好地捕捉表现形式多样而语义相同的查询语句,使得搜索引擎对它们的查询结果具有相 似的网页统一资源定位标识符返回集合,提高用户体验。
[007引 实施例H
[0076] 图3是本发明实施例H提供的一种查询语句与网页相似度的确定方法的流程示 意图,本实施例在上述各实施例的基础上,将"确定目标查询语句和网页主题句之间的相似 度"的操作进一步优化为"根据候选语句的翻译概率,W及候选语句与网页主题句之间的相 似度,来确定目标查询语句和网页主题句之间的相似度"。参见图3,本实施例提供的方法具 体包括如下操作:
[0077] 操作310、通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的 至少一条候选语句。
[0078] 操作320、基于如下公式,确定目标查询语句与网页主题句之间的相似度:
[0079]

【权利要求】
1. 一种查询语句与网页相似度的确定方法,其特征在于,包括: 通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选 语句; 根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主 题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用 于描述网页主要内容的语句。
2. 根据权利要求1所述的查询语句与网页相似度的确定方法,其特征在于,在通过预 先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句之前, 还包括: 确定翻译双语对语料;其中,所述翻译双语对语料中翻译双语对的源语言句子为查询 语句,目标语言句子为网页主题句; 对所述翻译双语对语料进行训练,以创建短语翻译模型;所述短语翻译模型的输入为 查询语句,输出包括与输入具有相似语义的至少一条候选语句。
3. 根据权利要求2所述的查询语句与网页相似度的确定方法,其特征在于,确定翻译 双语对语料,包括: 基于用户点击数据,确定翻译双语对语料; 其中,所述用户点击数据包括:查询日志中所统计的用户输入的查询语句,与用户在返 回的多个查询结果中所点击的网页链接之间的映射关系; 所述翻译双语对语料包括:由查询日志中所包含的查询语句,和与该查询语句对应的 网页链接中点击率超过设定点击阈值的网页链接的网页主题句,分别作为源语言句子和目 标语言句子组成的第一翻译双语对;和/或,由查询日志中所包含的满足预设条件的两条 目标查询语句分别作为源语言句子和目标语言句子组成的第二翻译双语对;所述预设条 件,包括:所述两条目标查询语句所分别对应的网页主题句集合之间的相似度大于设定的 第一阈值,所述两条目标查询语句之间的相似度小于设定的第二阈值。
4. 根据权利要求1-3中任一项所述的查询语句与网页相似度的确定方法,其特征在 于,根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页主 题句的相似度,包括: 基于如下公式,确定目标查询语句与网页主题句之间的相似度:
其中,sim(q,t)为目标查询语句q与网页主题句t之间的相似度; N为所述至少一条候选语句的总条数; score (tranSi (q))为通过所述短语翻译模型将目标查询语句翻译为所述至少一条候 选语句中的第i条候选语句transjq)的翻译概率; BLElKtransi (q),t)为 tranSi (q)与 t 之间的相似度。
5. 根据权利要求4所述的查询语句与网页相似度的确定方法,其特征在于,在根据所 述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的 相似度之前,还包括: 基于语言模型字符串匹配算法,计算所述至少一条候选语句与网页主题句的相似度。
6. 根据权利要求5所述的查询语句与网页相似度的确定方法,其特征在于,基于语言 模型字符串匹配算法,计算所述至少一条候选语句与网页主题句的相似度,包括: 按照如下公式,计算所述至少一条候选语句与网页主题句的相似度:
其中,BPUransJq),!:)为transjq)与t对应的惩罚权重,如果transjq)的分词个数 小于等于t的分词个数,则BPUransi (q), t)的取值为exp(l-x/y),x为t的分词个数,y为 tranSi (q)的分词个数,如果tranSi (q)的分词个数大于t的分词个数,则BP Uransi (q),t) 的取值为1 ; Pn为采用n元语言模型所计算的tranSi (q)和t中匹配成功的次数。
7. 根据权利要求4所述的查询语句与网页相似度的确定方法,其特征在于,通过预先 创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句,包括: 对目标查询语句进行短语的划分,得到至少一个查询短语; 遍历各个查询短语,将当前遍历到的查询短语翻译为具有相似语义的至少一个候选短 语; 将各个查询短语对应的至少一个候选短语进行组合,得到至少一条候选语句; 在根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页 主题句的相似度之前,还包括: 按照如下公式,计算通过所述短语翻译模型将目标查询语句翻译为所述至少一条候选 语句中的第i条候选语句transjq)的翻译概率:
其中,K为目标查询语句所包含的查询短语的个数; Pr (ek |fk)为通过所述短语翻译模型将fk翻译为ek的翻译概率,f k为目标查询语句f 的第k个查询短语,ek为候选语句e中的第k个候选短语。
8. 根据权利要求7所述的查询语句与网页相似度的确定方法,其特征在于,在根据所 述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页主题句的相似 度之前,还包括: 按照如下公式,计算Pr(ek|fk):
其中,M为加在ek和fk上的所有特征函数的总个数; hm(ek,fk)为用于表征将fk翻译为ek的翻译概率的第m个特征函数; hm(e' k,fk)为用于表征将fk翻译为e' k的翻译概率的第m个特征函数,e' k为根据所 述短语翻译模型对fk进行翻译得到的各个候选短语; 入m为第m个特征函数的权重。
9. 根据权利要求8所述的查询语句与网页相似度的确定方法,其特征在于,第m个特征 函数为与双向翻译概率对应的函数、与语言模型对应的函数、或者根据短语分词个数得到 的函数。
10. 根据权利要求7所述的查询语句与网页相似度的确定方法,其特征在于,将各个查 询短语对应的至少一个候选短语进行组合,得到至少一条候选语句,包括: 按照如下数据结构方式,存储各个查询短语对应的至少一个候选短语: 分别为各个候选短语创建一个节点,节点包括候选短语和至少一个后继指针,所述至 少一个后继指针用于指向目标查询语句中与该候选短语对应的查询短语的下一个查询短 语所对应的至少一个候选短语节点;并记录目标查询语句中第一个查询短语对应的各个候 选短语所在节点的存储位置; 根据记录的内容,对所存储的候选短语进行读取,以确定至少一条候选语句。
11. 根据权利要求10所述的查询语句与网页相似度的确定方法,其特征在于,节点还 包括将查询短语翻译为候选短语的翻译概率; 根据记录的内容,对所存储的候选短语进行读取,以确定至少一条候选语句,包括: 根据记录的内容,读取存储的各个节点所包括的候选短语; 根据读取结果,生成由各个查询短语对应的至少一个候选短语组合得到的至少一条候 选语句,及各条候选语句的翻译概率; 从所述至少一条候选语句中挑选出翻译概率排名位于前T的候选语句,用于作为与网 页主题句进行相似度计算的候选语句,其中T为大于等于1的整数。
12. -种查询语句与网页相似度的确定方法,其特征在于,包括: 云端服务器获取终端发送的目标查询语句; 所述云端服务器通过预先创建的短语翻译模型,将所述目标查询语句翻译为具有相似 语义的至少一条候选语句,并下发给所述终端,以指示所述终端根据所述至少一条候选语 句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用 于描述网页主要内容的语句。
13. -种查询语句与网页相似度的确定方法,其特征在于,包括: 终端向云端服务器发送目标查询语句,以指示所述云端服务器通过预先创建的短语翻 译模型,将所述目标查询语句翻译为具有相似语义的至少一条候选语句; 所述终端接收所述云端服务器下发的至少一条候选语句,根据所述至少一条候选语句 与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用 于描述网页主要内容的语句。
14. 一种查询语句与网页相似度的确定装置,其特征在于,包括: 候选翻译模块,用于通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似 语义的至少一条候选语句; 相似度确定模块,用于根据所述至少一条候选语句与网页主题句之间的相似度,确定 目标查询语句和网页主题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用 于描述网页主要内容的语句。
15. 根据权利要求14所述的查询语句与网页相似度的确定装置,其特征在于,还包括: 翻译语料确定模块,用于在所述候选翻译模块根据预先创建的短语翻译模型,将目标 查询语句翻译为具有相似语义的至少一条候选语句之前,确定翻译双语对语料;其中,所述 翻译双语对语料中翻译双语对的源语言句子为查询语句,目标语言句子为网页主题句; 翻译模型创建模块,用于对所述翻译双语对语料进行训练,以创建短语翻译模型;所述 短语翻译模型的输入为查询语句,输出包括与输入具有相似语义的至少一条候选语句。
16. 根据权利要求15所述的查询语句与网页相似度的确定装置,其特征在于,所述翻 译语料确定模块,具体用于: 基于用户点击数据,确定翻译双语对语料; 其中,所述用户点击数据包括:查询日志中所统计的用户输入的查询语句,与用户在返 回的多个查询结果中所点击的网页链接之间的映射关系; 所述翻译双语对语料包括:由查询日志中所包含的查询语句,和与该查询语句对应的 网页链接中点击率超过设定点击阈值的网页链接的网页主题句,分别作为源语言句子和目 标语言句子组成的第一翻译双语对;和/或,由查询日志中所包含的满足预设条件的两条 目标查询语句分别作为源语言句子和目标语言句子组成的第二翻译双语对;所述预设条 件,包括:所述两条目标查询语句所分别对应的网页主题句集合之间的相似度大于设定的 第一阈值,所述两条目标查询语句之间的相似度小于设定的第二阈值。
17. 根据权利要求14-16中任一项所述的查询语句与网页相似度的确定装置,其特征 在于,所述相似度确定模块,具体用于: 基于如下公式,确定目标查询语句与网页主题句之间的相似度:
其中,sim(q,t)为目标查询语句q与网页主题句t之间的相似度; N为所述至少一条候选语句的总条数; score (tranSi (q))为通过所述短语翻译模型将目标查询语句翻译为所述至少一条候 选语句中的第i条候选语句transjq)的翻译概率; BLElKtransi (q),t)为 tranSi (q)与 t 之间的相似度。
18. 根据权利要求17所述的查询语句与网页相似度的确定装置,其特征在于,还包括: 候选相似度计算模块,用于在所述相似度确定模块根据所述至少一条候选语句与网页 主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度之前,基于语言模型 字符串匹配算法,计算所述至少一条候选语句与网页主题句的相似度。
19. 根据权利要求18所述的查询语句与网页相似度的确定装置,其特征在于,所述候 选相似度计算模块,具体用于: 按照如下公式,计算所述至少一条候选语句与网页主题句的相似度:
其中,BPUransJq),!:)为transjq)与t对应的惩罚权重,如果transjq)的分词个数 小于等于t的分词个数,则BPUransi (q), t)的取值为exp(l-x/y),x为t的分词个数,y为 tranSi (q)的分词个数,如果tranSi (q)的分词个数大于t的分词个数,则BP Uransi (q),t) 的取值为1 ; Pn为采用n元语言模型所计算的tranSi (q)和t中匹配成功的次数。
20. 根据权利要求17所述的查询语句与网页相似度的确定装置,其特征在于,所述候 选翻译模块,包括: 短语划分单元,用于对目标查询语句进行短语的划分,得到至少一个查询短语; 短语翻译单元,用于遍历各个查询短语,将当前遍历到的查询短语翻译为具有相似语 义的至少一个候选短语; 候选语句确定单元,用于将各个查询短语对应的至少一个候选短语进行组合,得到至 少一条候选语句; 所述装置还包括: 语句翻译概率计算模块,用于在所述相似度确定模块根据所述至少一条候选语句与网 页主题句之间的相似度,确定目标查询语句与网页主题句的相似度之前,按照如下公式,计 算通过所述短语翻译模型将目标查询语句翻译为所述至少一条候选语句中的第i条候选 语句tranSi (q)的翻译概率:
其中,K为目标查询语句所包含的查询短语的个数; Pr (ek |fk)为通过所述短语翻译模型将fk翻译为ek的翻译概率,f k为目标查询语句f 的第k个查询短语,ek为候选语句e中的第k个候选短语。
21. 根据权利要求20所述的查询语句与网页相似度的确定装置,其特征在于,还包括: 短语翻译概率计算模块,用于在所述相似度确定模块根据所述至少一条候选语句与网 页主题句之间的相似度,确定目标查询语句与网页主题句的相似度之前,按照如下公式,计 算 Pr(ek|fk):
其中,M为加在ek和fk上的所有特征函数的总个数; hm(ek,fk)为用于表征将fk翻译为ek的翻译概率的第m个特征函数; hm (e' k,fk)为用于表征将fk翻译为e' k的翻译概率的第m个特征函数,e' k为根据所述 短语翻译模型对fk进行翻译得到的各个候选短语; 入m为第m个特征函数的权重。
22. 根据权利要求21所述的查询语句与网页相似度的确定装置,其特征在于,第m个特 征函数为与双向翻译概率对应的函数、与语言模型对应的函数、或者根据短语分词个数得 到的函数。
23. 根据权利要求20所述的查询语句与网页相似度的确定装置,其特征在于,所述候 选语句确定单元,包括: 短语存储子单元,用于按照如下数据结构方式,存储各个查询短语对应的至少一个候 选短语:分别为各个候选短语创建一个节点,节点包括候选短语和至少一个后继指针,所述 至少一个后继指针用于指向目标查询语句中与该候选短语对应的查询短语的下一个查询 短语所对应的至少一个候选短语节点;并记录目标查询语句中第一个查询短语对应的各个 候选短语所在节点的存储位置; 短语读取子单元,用于根据所述短语存储子单元记录的内容,对所存储的候选短语进 行读取,以确定至少一条候选语句。
24. 根据权利要求23所述的查询语句与网页相似度的确定装置,其特征在于,节点还 包括将查询短语翻译为候选短语的翻译概率; 所述短语读取子单元,具体用于: 根据记录的内容,读取所述短语存储子单元存储的各个节点所包括的候选短语; 根据读取结果,生成由各个查询短语对应的至少一个候选短语组合得到的至少一条候 选语句,及各条候选语句的翻译概率; 从所述至少一条候选语句中挑选出翻译概率排名位于前T的候选语句,用于作为与网 页主题句进行相似度计算的候选语句,其中T为大于等于1的整数。
25. -种云端服务器,其特征在于,包括: 查询语句获取模块,用于获取终端发送的目标查询语句; 查询语句翻译模块,用于通过预先创建的短语翻译模型,将所述目标查询语句翻译为 具有相似语义的至少一条候选语句,并下发给所述终端,以指示所述终端根据所述至少一 条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用 于描述网页主要内容的语句。
26. -种终端,其特征在于,包括: 查询语句发送模块,用于向云端服务器发送目标查询语句,以指示所述云端服务器通 过预先创建的短语翻译模型,将所述目标查询语句翻译为具有相似语义的至少一条候选语 句; 相似度确定模块,用于接收所述云端服务器下发的至少一条候选语句,根据所述至少 一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似 度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用 于描述网页主要内容的语句。
【文档编号】G06F17/30GK104331449SQ201410592231
【公开日】2015年2月4日 申请日期:2014年10月29日 优先权日:2014年10月29日
【发明者】呉先超 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1