一种获取与输入问题相对应的相关问题的方法与设备的制作方法

文档序号:6502327阅读:123来源:国知局
一种获取与输入问题相对应的相关问题的方法与设备的制作方法
【专利摘要】本发明的目的是提供一种用于获取与输入问题相对应的相关问题的方法与设备;获取用户输入的输入问题;对所述输入问题进行分词处理,以确定待处理词组;根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词组;对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相关问题。与现有技术相比,本发明对输入问题进行分词处理,确定待处理的词组,并结合其对应的索引拉链和权重值,确定其中的归并词组,进而,对该归并词组对应的索引问题进行归并处理,获得与用户输入问题对应的相关问题,在保证问题的相关性的前提下同时极大提高了检索速度,提升了用户使用体验。
【专利说明】一种获取与输入问题相对应的相关问题的方法与设备

【技术领域】
[0001] 本发明涉及搜索【技术领域】,尤其涉及一种用于获取与输入问题相对应的相关问题 的技术。

【背景技术】
[0002] 现有技术提供了这样一种供用户检索的方式,用户输入一个问题,检索设备提供 其相应的答案,并且,在呈现该答案的结果页面,显示与该用户的输入问题相关的相关问 题,以供用户进一步点击查看。这种较为特殊的检索系统只关注问题标题间的相似度,对于 问题的内容本身或其他因素不作考虑。
[0003] 现有的检索方案是采用传统的方法,通过遍历的方式进行逐个比较,以确定和用 户的输入问题相关的相关问题。然而,这种检索方式效率低下,导致检索速度太慢,影响了 用户的使用体验。
[0004] 因此,如何准确、高效地确定与用户的输入问题相对应的相关问题,成为本领域技 术人员亟需解决的问题之一。


【发明内容】

[0005] 本发明的目的是提供一种用于获取与输入问题相对应的相关问题的方法与设备。
[0006] 根据本发明的一个方面,提供了一种用于获取与输入问题相对应的相关问题的方 法,其中,该方法包括以下步骤:
[0007] a获取用户输入的输入问题;
[0008] b对所述输入问题进行分词处理,以确定待处理词组;
[0009] c根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词组;
[0010] d对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应 的相关问题。
[0011] 根据本发明的另一方面,还提供了一种用于获取与输入问题相对应的相关问题的 检索设备,其中,该设备包括:
[0012] 获取装置,用于获取用户输入的输入问题;
[0013] 分词装置,用于对所述输入问题进行分词处理,以确定待处理词组;
[0014] 归并确定装置,用于根据所述待处理词组所对应的索引拉链及权重值,确定其中 的归并词组;
[0015] 归并处理装置,用于对所述归并词组所对应的索引问题进行归并处理,确定与所 述输入问题相对应的相关问题。
[0016] 与现有技术相比,本发明对输入问题进行分词处理,确定待处理的词组,并结合其 对应的索引拉链和权重值,确定其中的归并词组,进而,对该归并词组对应的索引问题进行 归并处理,获得与用户输入问题对应的相关问题,在保证问题的相关性的前提下同时极大 提高了检索速度,提升了用户使用体验。
[0017] 进一步地,本发明采用哈希算法,基于位计算,准确、高效地确定与用户的输入问 题相对应的相关问题,同时保证问题的相关性,进一步提高了检索速度,提升了用户的使用 体验。

【专利附图】

【附图说明】
[0018] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它 特征、目的和优点将会变得更明显:
[0019] 图1示出根据本发明一个方面的用于获取与输入问题相对应的相关问题的设备 示意图;
[0020] 图2示出根据本发明一个优选实施例的用于获取与输入问题相对应的相关问题 的设备示意图;
[0021] 图3示出根据本发明另一个优选实施例的用于获取与输入问题相对应的相关问 题的示意图;
[0022] 图4示出根据本发明另一个方面的用于获取与输入问题相对应的相关问题的方 法流程图;
[0023] 图5示出根据本发明一个优选实施例的用于获取与输入问题相对应的相关问题 的方法流程图。
[0024] 附图中相同或相似的附图标记代表相同或相似的部件。

【具体实施方式】
[0025] 下面结合附图对本发明作进一步详细描述。
[0026] 图1示出根据本发明一个方面的用于获取与输入问题相对应的相关问题的设备 示意图。检索设备1包括获取装置101、分词装置102、归并确定装置103和归并处理装置 104。
[0027] 其中,获取装置101获取用户输入的输入问题。具体地,用户通过与用户设备的交 互,例如通过在页面检索框内输入了输入问题,获取装置101通过一次或多次调用该用户 设备所提供的页面接口程序(API),或者,通过调用诸如ASP、JSP或PHP等页面技术,或通 过其他约定的获取方式,获取了该用户输入的输入问题。
[0028] 本领域技术人员应能理解上述获取输入问题的方式仅为举例,其他现有的或今后 可能出现的获取输入问题的方式如可适用于本发明,也应包含在本发明保护范围以内,并 在此以引用方式包含于此。
[0029] 分词装置102对所述输入问题进行分词处理,以确定待处理词组。具体地,分词装 置102根据获取装置101所获取的输入问题,对该输入问题进行分词处理,例如,按照自然 语言处理,将该输入问题切分成短语或字词,将这些切词处理后获得的短语或字词作为待 处理词组;进一步地,该分词装置102还可对该切词处理后获得的短语或字词进一步处理, 如去除其中的无效词,将剩余的短语或字词作为待处理词组,或者,按照该切词处理后获得 的短语或字词的权重相关信息,对这些短语或字词进行筛选处理,以确定待处理词组。
[0030] 本领域技术人员应能理解上述确定待处理词组的方式仅为举例,其他现有的或今 后可能出现的确定待处理词组的方式如可适用于本发明,也应包含在本发明保护范围以 内,并在此以引用方式包含于此。
[0031] 归并确定装置103根据所述待处理词组所对应的索引拉链及权重值,确定其中的 归并词组。具体地,归并确定装置103根据由分词装置102所确定的待处理词组,通过在问 题索引库中进行匹配查询等方式,确定该待处理词组所对应的索引拉链,在此,索引拉链是 按降序排列的问题标识列表,每个索引问题唯一对应一个问题标识;并且,该归并确定装置 103通过匹配查询或直接计算等方式,确定该待处理词组的权重值,进而,根据该待处理词 组所对应的索引拉链及权重值,确定其中的归并词组。
[0032] 例如,该归并确定装置103将由分词装置102所确定的待处理词组按照其权重相 关?目息由商到低排序,保留权重相关?目息最商的8个待处理词组,其余的词组则放弃,若总 数没有8个,则全部保留;接着,该归并确定装置103通过匹配查询或直接计算等方式,确 定这些保留下来的待处理词组的权重值,例如对保留下来的这些待处理词组的权重值进行 归一化,使得它们的权重值总和为1 ;再通过在问题索引库中进行匹配查询等方式,确定该 待处理词组所对应的索引拉链,接着,按顺序遍历,将各个待处理词组的索引拉链的长度相 力口,直到累加的和大于预置结果数,例如检索所需的最大结果数,如2000为止,记录下此时 的待处理词组的编号u ;随后,该归并确定装置103将待处理词组按照权重值由低到高遍 历,顺序累加每个待处理词组的权重值,直到第一次大于该编号为u的待处理词组的权重 值为止,当前的待处理词组及未遍历的待处理词组即为归并词组。
[0033] 在此,该问题索引库中存储有问题标识与索引问题的映射关系,每个索引问题唯 一对应一个问题标识,该问题索引库既可以位于该检索设备1中,也可以位于与该检索设 备1通过网络相连接的第三方设备中。
[0034] 本领域技术人员应能理解上述确定归并词组的方式仅为举例,其他现有的或今后 可能出现的确定归并词组的方式如可适用于本发明,也应包含在本发明保护范围以内,并 在此以引用方式包含于此。
[0035] 归并处理装置104对所述归并词组所对应的索引问题进行归并处理,确定与所述 输入问题相对应的相关问题。具体地,由于归并词组对应的索引问题数量庞大,且其中包 括相互重复的问题,例如归并词组Α对应的索引问题可能也对应归并词组Β,因此,需要对 这些归并词组所对应的索引问题进行归并处理,再从归并处理后的索引问题中确定与该输 入问题最相关的相关问题。在此,归并处理装置104根据归并确定装置103所确定的归并 词组,对该归并词组对应的索引问题进行归并处理,该索引问题例如是索引拉链所对应的 索引问题。该归并处理装置104例如根据该归并词组的排列组合结果,建立权重桶,其中, 该权重桶对应该排列组合结果的权重值;将与该排列组合结果相对应的索引问题归并入该 权重桶,以确定与该输入问题相对应的相关问题;较佳地,该归并处理装置104基于哈希算 法,将与该排列组合结果相对应的索引问题归并入该权重桶,以确定与该输入问题相对应 的相关问题。
[0036] 本领域技术人员应能理解上述对索引问题进行归并处理的方式仅为举例,其他现 有的或今后可能出现的对索引问题进行归并处理的方式如可适用于本发明,也应包含在本 发明保护范围以内,并在此以引用方式包含于此。
[0037] 优选地,检索设备1的各个装置之间是持续不断工作的。具体地,获取装置101获 取用户输入的输入问题;分词装置102对所述输入问题进行分词处理,以确定待处理词组; 归并确定装置103根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词 组;归并处理装置104对所述归并词组所对应的索引问题进行归并处理,确定与所述输入 问题相对应的相关问题。在此,本领域技术人员应理解"持续"是指检索设备1的各装置分 别按照设定的或实时调整的工作模式要求进行输入问题的获取、分词处理、归并词组的确 定、索引问题的归并处理,直至该检索设备1在较长时间内停止获取用户输入的输入问题。
[0038] 在此,检索设备1对输入问题进行分词处理,确定待处理的词组,并结合其对应的 索引拉链和权重值,确定其中的归并词组,进而,对该归并词组对应的索引问题进行归并处 理,获得与用户输入问题对应的相关问题,在保证问题的相关性的前提下同时极大提高了 检索速度,提升了用户使用体验。
[0039] 优选地,所述分词装置102对所述输入问题进行分词处理,并结合分词处理后获 得的词组所对应的权重相关信息,确定所述待处理词组。具体的,分词装置102对获取装置 101所获取的输入问题进行分词处理,获得分词处理后的词组,再按照该分词处理后获得的 词组的权重相关信息,取权重相关信息高于预定阈值的词组,作为待处理词组;或者,按照 该分词处理后获得的词组的权重相关信息,将该分词处理后的词组进行降序排列,再取排 在前面的预定数量的词组作为待处理词组,如将权重相关信息最高的8个词组作为待处理 词组。
[0040] 在此,权重相关信息例如IDF值,IDF为逆向文件频率(Inverse Document Frequency),IDF的主要思想是,如果包含词组t的文档越少,则该词组t的IDF值越大,说 明该词组t具有很好的类别区分能力。
[0041] 例如,分词装置102对获取装置101所获取的输入问题进行分词处理,获得分词处 理后的词组,接着,该分词装置102按照该分词处理后获得的词组的IDF值,取IDF值高于 预定阈值的词组,作为待处理词组;或者,按照该分词处理后获得的词组的IDF值,将该分 词处理后的词组进行降序排列,再取排在前面的预定数量的词组作为待处理词组,如将IDF 值最高的8个词组作为待处理词组,或者,当该分词处理后的词组数量不满8个,则全部予 以保留,以作为待处理词组。
[0042] 在此,检索设备1结合词组对应的权重相关信息,如IDF值,确定待处理词组,进一 步提升了待处理词组的准确性,保证了相关问题的相关性,提高了检索的效率。
[0043] 更优选地,所述分词装置102对所述输入问题进行分词处理,以获得分词处理后 的词组;基于无效词库,对所述分词处理后的词组进行过滤处理,以确定所述待处理词组。 具体地,分词装置102根据获取装置101所获取的输入问题,通过自然语言处理等方式,对 该输入问题进行分词处理,获得分词处理后的词组;接着,该分词装置102再基于无效词 库,对所述分词处理后的词组进行过滤处理,过滤掉其中无实际意义的功能字词,如过滤掉 该无效词库中所包括的"的、了、得、在"等字词,并将经过滤处理后的词组作为待处理词组。
[0044] 在此,该无效词库中存储有无实际意义的功能字词,可以是预设的无效词库,也可 通过用户反馈建立或更新,该无效词库可位于该检索设备1中,也可位于与该检索设备1具 有网络连接的第三方设备中。
[0045] 在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处理,再确定待处 理词组,进一步提升了待处理词组的准确性,保证了相关问题的相关性,提高了检索的效 率。
[0046] 更优选地,分词装置102对获取装置101所获取的输入问题进行分词处理,以获 得分词处理后的词组;再基于无效词库,对该分词处理后的词组进行过滤处理,以获得经过 滤处理的词组;进而,再结合过滤处理后所获得的词组对应的权重相关信息,确定待处理词 组。
[0047] 例如,用户通过与用户设备的交互,在搜索引擎的检索框内输入了输入问题"国际 金价大跌,现在我国的黄金价格如何?下降趋势如何?请专家赐教",获取装置101通过调 用诸如ASP、JSP或PHP等页面技术,获取了该输入问题;分词装置102通过自然语言处理 或其他现有的分词方式,对该输入问题进行分词处理,获得分词处理后的词组"国际"、"金 价"、"大跌"、"现在"、"我国"、"的"、"黄金"、"价格"、"如何"、"下降"、"趋势"、"请"、"专家"、 "赐教",接着,该分词装置102基于无效词库,对上述词组进行过滤处理,如过滤掉"的"、"如 何"、"请"、"专家"、"赐教"这些无实际意义的功能字词,保留经过滤处理的词组"国际"、"金 价"、"大跌"、"现在"、"我国"、"黄金"、"价格"、"下降"、"趋势";进而,该分词装置102再结合 这些过滤处理后所获得的词组对应的权重相关信息,确定待处理词组,如保留IDF值最高 的8个待处理词组"国际"、"金价"、"大跌"、"我国"、"黄金"、"价格"、"下降"、"趋势",作为 待处理词组。
[0048] 本领域技术人员应能理解上述输入问题、分词处理、过滤处理等仅为举例,其他现 有的或今后可能出现的输入问题、分词处理或过滤处理等如可适用于本发明,也应包含在 本发明保护范围以内,并在此以引用方式包含于此。
[0049] 在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处理,再结合过滤 处理后所获得的词组对应的权重相关信息,确定待处理词组,进一步提升了待处理词组的 准确性,保证了相关问题的相关性,提1? 了检索的效率。
[0050] 优选地,该检索设备1还包括权重确定装置(未示出),该权重确定装置根据所述 待处理词组所对应的权重相关信息,确定所述待处理词组的权重值。具体地,权重确定装置 根据分词装置102所确定的待处理词组,通过匹配查询等方式,获取了这些待处理词组的 权重相关信息,如IDF值,进而,根据该输入问题中每个待处理词组的权重相关信息,与该 输入问题中所有待处理词组的权重相关信息的总和,确定其中每个待处理词组的权重值。 以IDF值为例,假设分词装置102对输入问题进行分词处理,共获得了 8个待处理词组,则 权重确定装置通过匹配查询等方式,获得了这8个待处理词组的IDF值,进而,将每个待处 理词组的IDF值分别除以所有8个待处理词组的IDF值的总和,分别得到这8个待处理词 组的权重值。
[0051] 优选地,该检索设备1还包括匹配装置(未示出),该匹配装置根据所述待处理词 组,在问题索引库中进行匹配查询,以获得与所述待处理词组对应的索引拉链。具体地,匹 配装置根据分词装置102所确定的待处理词组,分别根据这些待处理词组,在问题索引库 中进行匹配查找,获取这些待处理词组所分别对应的索引问题,在此,该索引问题中包含该 待处理词组,由于每个待处理词组所对应的索引问题不止一个,且在问题索引库中每一索 引问题都唯一对应有一个问题标识,因此,匹配装置将每个待处理词组所对应的至少一个 索引问题按照问题标识进行倒序排列,所分别获得的索引问题列表即为每个待处理词组所 分别对应的索引拉链。
[0052] 在此,该问题索引库中存储有问题标识与索引问题的映射关系,每个索引问题唯 一对应一个问题标识,该问题索引库既可以位于该检索设备1中,也可以位于与该检索设 备1通过网络相连接的第三方设备中。
[0053] 优选地,所述归并确定装置103根据所述待处理词组所对应的索引拉链及权重 值,并结合所述相关问题对应的预置结果数,确定其中的归并词组。在此,引入预置结果数 来确定归并词组,该预置结果数例如一次检索所需要的检索结果的最大结果数,如2000, 则当用户输入一输入问题,检索设备1检索到的与该输入问题相关的相关问题的数量小于 2000,则全部提供给该用户,如按照预定规则排序后分页提供给该用户;若检索设备1检索 到的相关问题的数量大于2000,则按照预定规则从其中筛选出2000个检索结果,再排序后 分页提供给该用户。此处的预置结果数可以是预设的、也可根据实际检索情况进行调整。
[0054] 例如,对于具有索引拉链及权重值的待处理词组,如权重确定装置已对待处理词 组进行计算,确定了对应的权重值,而匹配装置已根据这些待处理词组,匹配获得了其对应 的索引拉链;则归并确定装置103将这些待处理词组按照其权重值由高到低进行排序,接 着,按顺序遍历,将各个待处理词组的索引拉链的长度相加,直到累加的和大于预置结果 数,例如检索所需的最大结果数,如2000为止,记录下此时的待处理词组的编号u ;随后,该 归并确定装置103将待处理词组按照权重值由低到高遍历,顺序累加每个待处理词组的权 重值,直到第一次大于该编号为u的待处理词组的权重值为止,当前的待处理词组及未遍 历的待处理词组即为归并词组。
[0055] 优选地,所述归并处理装置104包括桶建立单元(未示出)和归并处理单元(未 示出)。其中,桶建立单元根据所述归并词组的排列组合结果,建立权重桶,其中,所述权重 桶对应所述排列组合结果的权重值;归并处理单元将与所述排列组合结果相对应的索引问 题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。具体地,桶建立单元根据 归并确定装置103所确定的归并词组,对这些归并词组进行排列组合,获得排列组合结果, 进而,根据排列组合结果,建立权重桶,如根据每一种排列组合结果建立一个权重桶,或者, 将排列组合结果的权重值相同的,建立一个权重桶。在此,该权重桶对应所述排列组合结果 的权重值。
[0056] 例如,假设由归并确定装置103所确定的归并词组为A、B、C,其中,归并词组A的 权重值为〇. 5、B的权重值为0. 3、C的权重值为0. 2,则该3个归并词组共有8种排列组合 结果,这里将既不包括A也不包括B也不包括C的情况也作为一种排列组合结果,S卩,排列 组合结果有空、A、B、C、AB、AC、BC、ABC,这些排列组合结果所对应的权重值分别为0、0. 5、 0. 3、0. 2、0. 8、0. 7、0. 5、1,在此,排列组合结果所对应的权重值由其中包含的归并词组的权 重值相加而得。假设将排列组合结果的权重值相同的,建立一个权重桶,则桶建立单元根据 这些归并词组的排列组合结果,建立7个权重桶,每个权重桶对应一个权重值。较佳地,桶 建立单元还可按照权重值的大小,对该权重桶进行降序排列,如图3所示,其中,每个归并 词组对应位图中的其中一位。
[0057] 接着,归并处理单元将与该排列组合结果相对应的索引问题归并入所述权重桶, 以确定与所述输入问题相对应的相关问题。例如,对于索引问题X,其仅包含归并词组A,则 将其归并入与A对应的权重桶中,如图3中的3号权重桶;对于索引问题y,假设其既包含归 并词组A也包含归并词组B,则将其归并入与排列组合结果AB相对应的权重桶中,如图3中 的1号权重桶。这样,归并处理单元即可将对应的索引问题归并入对应的权重桶中。例如, 对于由匹配装置所匹配得到的归并词组的索引拉链,归并处理单元将该索引拉链对应的索 引问题归并入对应的权重桶中,如对于归并词组A的索引拉链,其中的索引问题必然包含 该归并词组A,归并处理单元再判断该索引问题是否还包括其他归并词组,以将其归并入准 确的权重桶中。
[0058] 在此,检索设备1通过建立权重桶的方式,进一步提升了对索引问题进行归并处 理的效率,进而提高了检索速度,提升了用户的使用体验。
[0059] 更优选地,所述归并处理单元基于哈希算法,将与所述排列组合结果相对应的索 引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。较佳地,由于索引拉 链的长度太大,归并处理单元可以采用分段处理的方式,顺序处理每个分段,每段的长度为 1 << 14 = 16K,其处理的问题标识的范围为[i*16K,(i+l)*16K)。归并处理单元通过字 典映射,将每一个问题标识(qid)映射到权重桶中,在此,字典是一个用哈希表实现的数据 结构,目的是建立键与值之间的映射关系。键在这里就是qid&((l << 14)-1),而值是问题 标识的命中位图。其中哈希表是根据关键码值而直接进行访问的数据结构。也就是说,它 通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。具体地,归并处理单 元循环处理每个索引拉链,对当前索引拉链的问题标识,只需通过问题标识找到哈希表中 对应的命中位图,将当前归并词组对应的位置为1即可。其中,映射过程如下:
[0060] 1)计算:MASK = (1 << 14)-1 ;
[0061] 2)做与运算,相当于对2的14次方取模,得到key :Key = qid&MASK ;
[0062] 3)通过key更新哈希表(哈希表在这里是一个数组)中对应的位图:hash[key] =flag,其中flag是当前词组对应的位。
[0063] 在此,检索设备1采用哈希算法,基于位计算,准确、高效地确定与用户的输入问 题相对应的相关问题,同时保证问题的相关性,进一步提高了检索速度,提升了用户的使用 体验。
[0064] 优选地,该检索设备1还包括调权确定装置(未示出),该调权确定装置根据所 述归并词组,确定所述待处理词组中的调权词组;其中,所述归并处理单元根据所述调权 词组,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问 题相对应的相关问题。由于有些索引问题只命中了权重值很低的一些待处理词组,对于这 样的索引问题并不需要进行归并处理,因此,将待处理词组划分为归并词组和调权词组,在 此,调权词组为需要重新调整权重的词组。其中,归并词组对应的索引问题需要进行全或归 并处理,而调权词组对应的索引问题则只用来调权,不加入归并。具体地,对于由分词装置 102所确定的待处理词组,归并确定装置103确定了其中的归并词组,则调权确定装置将该 待处理词组中除归并词组以外的词组,作为调权词组。
[0065] 例如,对于由分词装置102所确定的待处理词组,归并确定装置103将这些待处理 词组按照其权重值由高到低进行排序,接着,按顺序遍历,将各个待处理词组的索引拉链的 长度相加,直到累加的和大于预置结果数,例如检索所需的最大结果数,如2000为止,记录 下此时的待处理词组的编号u;随后,该调权确定装置将待处理词组按照权重值由低到高 遍历,顺序累加每个待处理词组的权重值,直到第一次大于该编号为u的待处理词组的权 重值为止,已遍历的待处理词组即为调权词组。
[0066] 随后,归并处理单元根据所述调权词组,将与所述排列组合结果相对应的索引问 题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。该调权词组的处理是在 字典映射之后、结果统计输出之前,过程如下:遍历每个调权词组的索引拉链,得到每一个 问题标识,通过问题标识找到哈希表中对应的命中位图,若其值为0则不作任何处理,否则 将调权词组对应的位置为1。
[0067] 在此,检索设备1综合考虑待处理词组中的调权词组,进一步提升了对索引问题 进行归并处理的准确率与效率,进而提高了检索速度,保证了相关问题的相关性,提升了用 户的使用体验。
[0068] 图2示出根据本发明一个优选实施例的用于获取与输入问题相对应的相关问题 的设备示意图。检索设备1还包括优先级确定装置205和提供装置206。以下参照图2对 该优选实施例进行描述:具体地,获取装置201获取用户输入的输入问题;分词装置202对 所述输入问题进行分词处理,以确定待处理词组;归并确定装置203根据所述归并词组的 排列组合结果,建立权重桶,其中,所述权重桶对应所述排列组合结果的权重值;将与所述 排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关 问题;归并处理装置204对所述归并词组所对应的索引问题进行归并处理,确定与所述输 入问题相对应的相关问题;优先级确定装置205根据所述权重桶所对应的权重值,确定所 述权重桶的优先级;提供装置206按照所述优先级,自所述权重桶中确定所述索引问题,以 作为所述相关问题提供给所述用户。其中,获取装置201、分词装置202、归并确定装置203 和归并处理装置204与图1所示对应装置相同或基本相同,故此处不再赘述,并通过引用的 方式包含于此。
[0069] 其中,优先级确定装置205根据所述权重桶所对应的权重值,确定所述权重桶的 优先级。具体地,由于每个权重桶对应一定的权重值,优先级确定装置205根据该权重桶所 对应的权重值,确定其优先级,如对应权重值越大的权重桶的优先级越高,即,若该权重桶 所对应的排列组合结果的权重值越大,则该权重桶的优先级越高。如图3中所示,0号权重 桶对应的权重值最大,其优先级最高;6号权重桶对应的权重值最小,其优先级最低。
[0070] 提供装置206按照所述优先级,自所述权重桶中确定所述索引问题,以作为所述 相关问题提供给所述用户。具体地,提供装置206按照该权重桶的优先级,顺序自优先级最 高的权重桶中读出其所包括的索引问题,其中,每个权重桶中的索引问题按照问题标识降 序排列,作为相关问题提供给用户。例如如图3中所示,权重桶按照权重值由高到低的顺序 排列,提供装置206按照这些权重桶的优先级,顺序从0号权重桶开始,读出其中的索引问 题,作为与用户的输入问题相对应的相关问题,进而,通过调用JSP、ASP或PHP等网页技术, 或其他约定的展现方式,提供给该用户。
[0071] 在此,检索设备1根据权重桶的优先级,将其中的索引问题作为相关问题提供给 用户,提高了相关问题的相关性,提升了用户的使用体验。
[0072] 图4示出根据本发明另一个方面的用于获取与输入问题相对应的相关问题的方 法流程图。
[0073] 在步骤S401中,检索设备1获取用户输入的输入问题。具体地,用户通过与用户设 备的交互,例如通过在页面检索框内输入了输入问题,在步骤S401中,检索设备1通过一次 或多次调用该用户设备所提供的页面接口程序(API),或者,通过调用诸如ASP、JSP或PHP 等页面技术,或通过其他约定的获取方式,获取了该用户输入的输入问题。
[0074] 本领域技术人员应能理解上述获取输入问题的方式仅为举例,其他现有的或今后 可能出现的获取输入问题的方式如可适用于本发明,也应包含在本发明保护范围以内,并 在此以引用方式包含于此。
[0075] 在步骤S402中,检索设备1对所述输入问题进行分词处理,以确定待处理词组。具 体地,在步骤S402中,检索设备1根据在步骤S401中所获取的输入问题,对该输入问题进 行分词处理,例如,按照自然语言处理,将该输入问题切分成短语或字词,将这些切词处理 后获得的短语或字词作为待处理词组;进一步地,该检索设备1还可对该切词处理后获得 的短语或字词进一步处理,如去除其中的无效词,将剩余的短语或字词作为待处理词组,或 者,按照该切词处理后获得的短语或字词的权重相关信息,对这些短语或字词进行筛选处 理,以确定待处理词组。
[0076] 本领域技术人员应能理解上述确定待处理词组的方式仅为举例,其他现有的或今 后可能出现的确定待处理词组的方式如可适用于本发明,也应包含在本发明保护范围以 内,并在此以引用方式包含于此。
[0077] 在步骤S403中,检索设备1根据所述待处理词组所对应的索引拉链及权重值,确 定其中的归并词组。具体地,在步骤S403中,检索设备1根据在步骤S402中所确定的待处 理词组,通过在问题索引库中进行匹配查询等方式,确定该待处理词组所对应的索引拉链, 在此,索引拉链是按降序排列的问题标识列表,每个索引问题唯一对应一个问题标识;并 且,在步骤S403中,检索设备1通过匹配查询或直接计算等方式,确定该待处理词组的权重 值,进而,根据该待处理词组所对应的索引拉链及权重值,确定其中的归并词组。
[0078] 例如,在步骤S403中,检索设备1将在步骤S402中所确定的待处理词组按照其 权重相关信息由高到低排序,保留权重相关信息最高的8个待处理词组,其余的词组则放 弃,若总数没有8个,则全部保留;接着,在步骤S403中,检索设备1通过匹配查询或直接 计算等方式,确定这些保留下来的待处理词组的权重值,例如对保留下来的这些待处理词 组的权重值进行归一化,使得它们的权重值总和为1 ;再通过在问题索引库中进行匹配查 询等方式,确定该待处理词组所对应的索引拉链,接着,按顺序遍历,将各个待处理词组的 索引拉链的长度相加,直到累加的和大于预置结果数,例如检索所需的最大结果数,如2000 为止,记录下此时的待处理词组的编号u ;随后,在步骤S403中,检索设备1将待处理词组 按照权重值由低到高遍历,顺序累加每个待处理词组的权重值,直到第一次大于该编号为u 的待处理词组的权重值为止,当前的待处理词组及未遍历的待处理词组即为归并词组。 [0079] 在此,该问题索引库中存储有问题标识与索引问题的映射关系,每个索引问题唯 一对应一个问题标识,该问题索引库既可以位于该检索设备1中,也可以位于与该检索设 备1通过网络相连接的第三方设备中。
[0080] 本领域技术人员应能理解上述确定归并词组的方式仅为举例,其他现有的或今后 可能出现的确定归并词组的方式如可适用于本发明,也应包含在本发明保护范围以内,并 在此以引用方式包含于此。
[0081] 在步骤S404中,检索设备1对所述归并词组所对应的索引问题进行归并处理,确 定与所述输入问题相对应的相关问题。具体地,由于归并词组对应的索引问题数量庞大,且 其中包括相互重复的问题,例如归并词组A对应的索引问题可能也对应归并词组B,因此, 需要对这些归并词组所对应的索引问题进行归并处理,再从归并处理后的索引问题中确定 与该输入问题最相关的相关问题。在此,在步骤S404中,检索设备1根据在步骤S403中所 确定的归并词组,对该归并词组对应的索引问题进行归并处理,该索引问题例如是索引拉 链所对应的索引问题。在步骤S404中,检索设备1例如根据该归并词组的排列组合结果, 建立权重桶,其中,该权重桶对应该排列组合结果的权重值;将与该排列组合结果相对应的 索引问题归并入该权重桶,以确定与该输入问题相对应的相关问题;较佳地,在步骤S404 中,检索设备1基于哈希算法,将与该排列组合结果相对应的索引问题归并入该权重桶,以 确定与该输入问题相对应的相关问题。
[0082] 本领域技术人员应能理解上述对索引问题进行归并处理的方式仅为举例,其他现 有的或今后可能出现的对索引问题进行归并处理的方式如可适用于本发明,也应包含在本 发明保护范围以内,并在此以引用方式包含于此。
[0083] 优选地,检索设备1的各个步骤之间是持续不断工作的。具体地,在步骤S401中, 检索设备1获取用户输入的输入问题;在步骤S402中,检索设备1对所述输入问题进行分 词处理,以确定待处理词组;在步骤S403中,检索设备1根据所述待处理词组所对应的索引 拉链及权重值,确定其中的归并词组;在步骤S404中,检索设备1对所述归并词组所对应的 索引问题进行归并处理,确定与所述输入问题相对应的相关问题。在此,本领域技术人员应 理解"持续"是指检索设备1的各步骤分别按照设定的或实时调整的工作模式要求进行输 入问题的获取、分词处理、归并词组的确定、索引问题的归并处理,直至该检索设备1在较 长时间内停止获取用户输入的输入问题。
[0084] 在此,检索设备1对输入问题进行分词处理,确定待处理的词组,并结合其对应的 索引拉链和权重值,确定其中的归并词组,进而,对该归并词组对应的索引问题进行归并处 理,获得与用户输入问题对应的相关问题,在保证问题的相关性的前提下同时极大提高了 检索速度,提升了用户使用体验。
[0085] 优选地,在步骤S402中,检索设备1对所述输入问题进行分词处理,并结合分词处 理后获得的词组所对应的权重相关信息,确定所述待处理词组。具体的,在步骤S402中,检 索设备1对在步骤S401中所获取的输入问题进行分词处理,获得分词处理后的词组,再按 照该分词处理后获得的词组的权重相关信息,取权重相关信息高于预定阈值的词组,作为 待处理词组;或者,按照该分词处理后获得的词组的权重相关信息,将该分词处理后的词组 进行降序排列,再取排在前面的预定数量的词组作为待处理词组,如将权重相关信息最高 的8个词组作为待处理词组。
[0086] 在此,权重相关信息例如IDF值,IDF为逆向文件频率(Inverse Document Frequency),IDF的主要思想是,如果包含词组t的文档越少,则该词组t的IDF值越大,说 明该词组t具有很好的类别区分能力。
[0087] 例如,在步骤S402中,检索设备1对在步骤S401中所获取的输入问题进行分词处 理,获得分词处理后的词组,接着,在步骤S402中,检索设备1按照该分词处理后获得的词 组的IDF值,取IDF值高于预定阈值的词组,作为待处理词组;或者,按照该分词处理后获得 的词组的IDF值,将该分词处理后的词组进行降序排列,再取排在前面的预定数量的词组 作为待处理词组,如将IDF值最高的8个词组作为待处理词组,或者,当该分词处理后的词 组数量不满8个,则全部予以保留,以作为待处理词组。
[0088] 在此,检索设备1结合词组对应的权重相关信息,如IDF值,确定待处理词组,进一 步提升了待处理词组的准确性,保证了相关问题的相关性,提高了检索的效率。
[0089] 更优选地,在步骤S402中,检索设备1对所述输入问题进行分词处理,以获得分词 处理后的词组;基于无效词库,对所述分词处理后的词组进行过滤处理,以确定所述待处理 词组。具体地,在步骤S402中,检索设备1根据在步骤S401中所获取的输入问题,通过自然 语言处理等方式,对该输入问题进行分词处理,获得分词处理后的词组;接着,在步骤S402 中,检索设备1再基于无效词库,对所述分词处理后的词组进行过滤处理,过滤掉其中无实 际意义的功能字词,如过滤掉该无效词库中所包括的"的、了、得、在"等字词,并将经过滤处 理后的词组作为待处理词组。
[0090] 在此,该无效词库中存储有无实际意义的功能字词,可以是预设的无效词库,也可 通过用户反馈建立或更新,该无效词库可位于该检索设备1中,也可位于与该检索设备1具 有网络连接的第三方设备中。
[0091] 在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处理,再确定待处 理词组,进一步提升了待处理词组的准确性,保证了相关问题的相关性,提高了检索的效 率。
[0092] 更优选地,在步骤S402中,检索设备1对在步骤S401中所获取的输入问题进行 分词处理,以获得分词处理后的词组;再基于无效词库,对该分词处理后的词组进行过滤处 理,以获得经过滤处理的词组;进而,再结合过滤处理后所获得的词组对应的权重相关信 息,确定待处理词组。
[0093] 例如,用户通过与用户设备的交互,在搜索引擎的检索框内输入了输入问题"国际 金价大跌,现在我国的黄金价格如何?下降趋势如何?请专家赐教",在步骤S401中,检索 设备1通过调用诸如ASP、JSP或PHP等页面技术,获取了该输入问题;在步骤S402中,检索 设备1通过自然语言处理或其他现有的分词方式,对该输入问题进行分词处理,获得分词 处理后的词组"国际"、"金价"、"大跌"、"现在"、"我国"、"的"、"黄金"、"价格"、"如何"、"下 降"、"趋势"、"请"、"专家"、"赐教",接着,在步骤S402中,检索设备1基于无效词库,对上 述词组进行过滤处理,如过滤掉"的"、"如何"、"请"、"专家"、"赐教"这些无实际意义的功能 字词,保留经过滤处理的词组"国际"、"金价"、"大跌"、"现在"、"我国"、"黄金"、"价格"、"下 降"、"趋势";进而,在步骤S402中,检索设备1再结合这些过滤处理后所获得的词组对应的 权重相关信息,确定待处理词组,如保留IDF值最高的8个待处理词组"国际"、"金价"、"大 跌"、"我国"、"黄金"、"价格"、"下降"、"趋势",作为待处理词组。
[0094] 本领域技术人员应能理解上述输入问题、分词处理、过滤处理等仅为举例,其他现 有的或今后可能出现的输入问题、分词处理或过滤处理等如可适用于本发明,也应包含在 本发明保护范围以内,并在此以引用方式包含于此。
[0095] 在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处理,再结合过滤 处理后所获得的词组对应的权重相关信息,确定待处理词组,进一步提升了待处理词组的 准确性,保证了相关问题的相关性,提1? 了检索的效率。
[0096] 优选地,该方法还包括步骤S407(未示出),该在步骤S407中,检索设备1根据所 述待处理词组所对应的权重相关信息,确定所述待处理词组的权重值。具体地,在步骤S407 中,检索设备1根据在步骤S402中所确定的待处理词组,通过匹配查询等方式,获取了这些 待处理词组的权重相关信息,如IDF值,进而,根据该输入问题中每个待处理词组的权重相 关信息,与该输入问题中所有待处理词组的权重相关信息的总和,确定其中每个待处理词 组的权重值。以IDF值为例,假设在步骤S402中,检索设备1对输入问题进行分词处理, 共获得了 8个待处理词组,则在步骤S407中,检索设备1通过匹配查询等方式,获得了这8 个待处理词组的IDF值,进而,将每个待处理词组的IDF值分别除以所有8个待处理词组的 IDF值的总和,分别得到这8个待处理词组的权重值。
[0097] 优选地,该方法还包括步骤S408(未示出),在步骤S408中,检索设备1根据所述 待处理词组,在问题索引库中进行匹配查询,以获得与所述待处理词组对应的索引拉链。具 体地,在步骤S408中,检索设备1根据在步骤S402中所确定的待处理词组,分别根据这些 待处理词组,在问题索引库中进行匹配查找,获取这些待处理词组所分别对应的索引问题, 在此,该索引问题中包含该待处理词组,由于每个待处理词组所对应的索引问题不止一个, 且在问题索引库中每一索引问题都唯一对应有一个问题标识,因此,在步骤S408中,检索 设备1将每个待处理词组所对应的至少一个索引问题按照问题标识进行倒序排列,所分别 获得的索引问题列表即为每个待处理词组所分别对应的索引拉链。
[0098] 在此,该问题索引库中存储有问题标识与索引问题的映射关系,每个索引问题唯 一对应一个问题标识,该问题索引库既可以位于该检索设备1中,也可以位于与该检索设 备1通过网络相连接的第三方设备中。
[0099] 优选地,在步骤S403中,检索设备1根据所述待处理词组所对应的索引拉链及权 重值,并结合所述相关问题对应的预置结果数,确定其中的归并词组。在此,引入预置结果 数来确定归并词组,该预置结果数例如一次检索所需要的检索结果的最大结果数,如2000, 则当用户输入一输入问题,检索设备1检索到的与该输入问题相关的相关问题的数量小于 2000,则全部提供给该用户,如按照预定规则排序后分页提供给该用户;若检索设备1检索 到的相关问题的数量大于2000,则按照预定规则从其中筛选出2000个检索结果,再排序后 分页提供给该用户。此处的预置结果数可以是预设的、也可根据实际检索情况进行调整。
[0100] 例如,对于具有索引拉链及权重值的待处理词组,如在步骤S407中,检索设备1已 对待处理词组进行计算,确定了对应的权重值,而在步骤S408中,检索设备1已根据这些待 处理词组,匹配获得了其对应的索引拉链;则在步骤S403中,检索设备1将这些待处理词组 按照其权重值由高到低进行排序,接着,按顺序遍历,将各个待处理词组的索引拉链的长度 相加,直到累加的和大于预置结果数,例如检索所需的最大结果数,如2000为止,记录下此 时的待处理词组的编号u ;随后,在步骤S403中,检索设备1将待处理词组按照权重值由低 到高遍历,顺序累加每个待处理词组的权重值,直到第一次大于该编号为u的待处理词组 的权重值为止,当前的待处理词组及未遍历的待处理词组即为归并词组。
[0101] 优选地,所述步骤S404包括子步骤S404a(未示出)和子步骤S404b(未示出)。 其中,在子步骤S404a中,检索设备1根据所述归并词组的排列组合结果,建立权重桶,其 中,所述权重桶对应所述排列组合结果的权重值;在子步骤S404b中,检索设备1将与所述 排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关 问题。具体地,在子步骤S404a中,检索设备1根据在步骤S403中所确定的归并词组,对这 些归并词组进行排列组合,获得排列组合结果,进而,根据排列组合结果,建立权重桶,如根 据每一种排列组合结果建立一个权重桶,或者,将排列组合结果的权重值相同的,建立一个 权重桶。在此,该权重桶对应所述排列组合结果的权重值。
[0102] 例如,假设在步骤S403中,检索设备1所确定的归并词组为A、B、C,其中,归并词组 A的权重值为0. 5、B的权重值为0. 3、C的权重值为0. 2,则该3个归并词组共有8种排列组 合结果,这里将既不包括A也不包括B也不包括C的情况也作为一种排列组合结果,S卩,排 列组合结果有空3、8、(:、483(:、8(:、48(:,这些排列组合结果所对应的权重值分别为0、0.5、 0. 3、0. 2、0. 8、0. 7、0. 5、1,在此,排列组合结果所对应的权重值由其中包含的归并词组的权 重值相加而得。假设将排列组合结果的权重值相同的,建立一个权重桶,则在子步骤S404a 中,检索设备1根据这些归并词组的排列组合结果,建立7个权重桶,每个权重桶对应一个 权重值。较佳地,在子步骤S404a中,检索设备1还可按照权重值的大小,对该权重桶进行 降序排列,如图3所示,其中,每个归并词组对应位图中的其中一位。
[0103] 接着,在子步骤S404b中,检索设备1将与该排列组合结果相对应的索引问题归并 入所述权重桶,以确定与所述输入问题相对应的相关问题。例如,对于索引问题X,其仅包含 归并词组A,则将其归并入与A对应的权重桶中,如图3中的3号权重桶;对于索引问题y, 假设其既包含归并词组A也包含归并词组B,则将其归并入与排列组合结果AB相对应的权 重桶中,如图3中的1号权重桶。这样,在子步骤S404b中,检索设备1即可将对应的索引 问题归并入对应的权重桶中。例如,对于在步骤S408中,检索设备1所匹配得到的归并词 组的索引拉链,在子步骤S404b中,检索设备1将该索引拉链对应的索引问题归并入对应的 权重桶中,如对于归并词组A的索引拉链,其中的索引问题必然包含该归并词组A,在子步 骤S404b中,检索设备1再判断该索引问题是否还包括其他归并词组,以将其归并入准确的 权重桶中。
[0104] 在此,检索设备1通过建立权重桶的方式,进一步提升了对索引问题进行归并处 理的效率,进而提高了检索速度,提升了用户的使用体验。
[0105] 更优选地,在子步骤S404b中,检索设备1基于哈希算法,将与所述排列组合结果 相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。较佳 地,由于索引拉链的长度太大,在子步骤S404b中,检索设备1可以采用分段处理的方式, 顺序处理每个分段,每段的长度为1 << 14 = 16K,其处理的问题标识的范围为[i*16K, (i+l)*16K)。在子步骤S404b中,检索设备1通过字典映射,将每一个问题标识(qid)映射 到权重桶中,在此,字典是一个用哈希表实现的数据结构,目的是建立键与值之间的映射关 系。键在这里就是qid&((l<< 14)-1),而值是问题标识的命中位图。其中哈希表是根据 关键码值而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置 来访问记录,以加快查找的速度。具体地,在子步骤S404b中,检索设备1循环处理每个索 引拉链,对当前索引拉链的问题标识,只需通过问题标识找到哈希表中对应的命中位图,将 当前归并词组对应的位置为1即可。其中,映射过程如下:
[0106] 1)计算:MASK = (1 < < 14)-1 ;
[0107] 2)做与运算,相当于对2的14次方取模,得到key :Key = qid&MASK ;
[0108] 3)通过key更新哈希表(哈希表在这里是一个数组)中对应的位图:hash[key] =flag,其中flag是当前词组对应的位。
[0109] 在此,检索设备1采用哈希算法,基于位计算,准确、高效地确定与用户的输入问 题相对应的相关问题,同时保证问题的相关性,进一步提高了检索速度,提升了用户的使用 体验。
[0110] 优选地,该方法还包括步骤S409 (未示出),在步骤S409中,检索设备1根据所述 归并词组,确定所述待处理词组中的调权词组;其中,在子步骤S404b中,检索设备1根据所 述调权词组,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述 输入问题相对应的相关问题。由于有些索引问题只命中了权重值很低的一些待处理词组, 对于这样的索引问题并不需要进行归并处理,因此,将待处理词组划分为归并词组和调权 词组,在此,调权词组为需要重新调整权重的词组。其中,归并词组对应的索引问题需要进 行全或归并处理,而调权词组对应的索引问题则只用来调权,不加入归并。具体地,对于在 步骤S402中所确定的待处理词组,在步骤S403中,检索设备1确定了其中的归并词组,则 在步骤S409中,检索设备1将该待处理词组中除归并词组以外的词组,作为调权词组。
[0111] 例如,对于在步骤S402中,检索设备1所确定的待处理词组,在步骤S403中,检索 设备1将这些待处理词组按照其权重值由高到低进行排序,接着,按顺序遍历,将各个待处 理词组的索引拉链的长度相加,直到累加的和大于预置结果数,例如检索所需的最大结果 数,如2000为止,记录下此时的待处理词组的编号u ;随后,在步骤S409中,检索设备1将 待处理词组按照权重值由低到高遍历,顺序累加每个待处理词组的权重值,直到第一次大 于该编号为u的待处理词组的权重值为止,已遍历的待处理词组即为调权词组。
[0112] 随后,在子步骤S404b中,检索设备1根据所述调权词组,将与所述排列组合结果 相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。该调权 词组的处理是在字典映射之后、结果统计输出之前,过程如下:遍历每个调权词组的索引拉 链,得到每一个问题标识,通过问题标识找到哈希表中对应的命中位图,若其值为〇则不作 任何处理,否则将调权词组对应的位置为1。
[0113] 在此,检索设备1综合考虑待处理词组中的调权词组,进一步提升了对索引问题 进行归并处理的准确率与效率,进而提高了检索速度,保证了相关问题的相关性,提升了用 户的使用体验。
[0114] 图5示出根据本发明一个优选实施例的用于获取与输入问题相对应的相关问题 的方法流程图。以下参照图5对该优选实施例进行描述:具体地,在步骤S501中,检索设备 1获取用户输入的输入问题;在步骤S502中,检索设备1对所述输入问题进行分词处理,以 确定待处理词组;在步骤S503中,检索设备1根据所述归并词组的排列组合结果,建立权重 桶,其中,所述权重桶对应所述排列组合结果的权重值;将与所述排列组合结果相对应的索 引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题;在步骤S504中,检 索设备1对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的 相关问题;在步骤S505中,检索设备1根据所述权重桶所对应的权重值,确定所述权重桶的 优先级;在步骤S506中,检索设备1按照所述优先级,自所述权重桶中确定所述索引问题, 以作为所述相关问题提供给所述用户。其中,步骤S501-S504与图4所示对应步骤相同或 基本相同,故此处不再赘述,并通过引用的方式包含于此。
[0115] 其中,在步骤S505中,检索设备1根据所述权重桶所对应的权重值,确定所述权重 桶的优先级。具体地,由于每个权重桶对应一定的权重值,在步骤S505中,检索设备1根据 该权重桶所对应的权重值,确定其优先级,如对应权重值越大的权重桶的优先级越高,即, 若该权重桶所对应的排列组合结果的权重值越大,则该权重桶的优先级越高。如图3中所 示,0号权重桶对应的权重值最大,其优先级最高;6号权重桶对应的权重值最小,其优先级 最低。
[0116] 在步骤S506中,检索设备1按照所述优先级,自所述权重桶中确定所述索引问题, 以作为所述相关问题提供给所述用户。具体地,在步骤S506中,检索设备1按照该权重桶的 优先级,顺序自优先级最高的权重桶中读出其所包括的索引问题,其中,每个权重桶中的索 引问题按照问题标识降序排列,作为相关问题提供给用户。例如如图3中所示,权重桶按照 权重值由高到低的顺序排列,在步骤S506中,检索设备1按照这些权重桶的优先级,顺序从 〇号权重桶开始,读出其中的索引问题,作为与用户的输入问题相对应的相关问题,进而,通 过调用JSP、ASP或PHP等网页技术,或其他约定的展现方式,提供给该用户。
[0117] 在此,检索设备1根据权重桶的优先级,将其中的索引问题作为相关问题提供给 用户,提高了相关问题的相关性,提升了用户的使用体验。
[0118] 需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采 用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例 中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的 软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器, 磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例 如,作为与处理器配合从而执行各个步骤或功能的电路。
[0119] 另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被 计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。 而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通 过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行 的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括 用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序 指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或 技术方案。
[0120] 对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在 不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论 从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权 利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有 变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此 夕卜,显然"包括" 一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多 个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来 表示名称,而并不表示任何特定的顺序。
【权利要求】
1. 一种用于获取与输入问题相对应的相关问题的方法,其中,该方法包括以下步骤: a获取用户输入的输入问题; b对所述输入问题进行分词处理,以确定待处理词组; c根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词组; d对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相 关问题。
2. 根据权利要求1所述的方法,其中,所述步骤b包括: -对所述输入问题进行分词处理,并结合分词处理后获得的词组所对应的权重相关信 息,确定所述待处理词组。
3. 根据权利要求1或2所述的方法,其中,所述步骤b包括: -对所述输入问题进行分词处理,以获得分词处理后的词组; -基于无效词库,对所述分词处理后的词组进行过滤处理,以确定所述待处理词组。
4. 根据权利要求1至3中任一项所述的方法,其中,该方法还包括: -根据所述待处理词组所对应的权重相关信息,确定所述待处理词组的权重值。
5. 根据权利要求1至4中任一项所述的方法,其中,该方法还包括: -根据所述待处理词组,在问题索引库中进行匹配查询,以获得与所述待处理词组对应 的索引拉链。
6. 根据权利要求1至5中任一项所述的方法,其中,所述步骤c包括: -根据所述待处理词组所对应的索引拉链及权重值,并结合所述相关问题对应的预置 结果数,确定其中的归并词组。
7. 根据权利要求1至6中任一项所述的方法,其中,所述步骤d包括: dl根据所述归并词组的排列组合结果,建立权重桶,其中,所述权重桶对应所述排列组 合结果的权重值; d2将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问 题相对应的相关问题。
8. 根据权利要求7所述的方法,其中,所述步骤d2包括: -基于哈希算法,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定 与所述输入问题相对应的相关问题。
9. 根据权利要求7或8所述的方法,其中,该方法还包括: -根据所述归并词组,确定所述待处理词组中的调权词组; 其中,所述步骤d2包括: -根据所述调权词组,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以 确定与所述输入问题相对应的相关问题。
10. 根据权利要求7至9中任一项所述的方法,其中,该方法还包括: -根据所述权重桶所对应的权重值,确定所述权重桶的优先级; -按照所述优先级,自所述权重桶中确定所述索引问题,以作为所述相关问题提供给所 述用户。
11. 一种用于获取与输入问题相对应的相关问题的检索设备,其中,该设备包括: 获取装置,用于获取用户输入的输入问题; 分词装置,用于对所述输入问题进行分词处理,以确定待处理词组; 归并确定装置,用于根据所述待处理词组所对应的索引拉链及权重值,确定其中的归 并词组; 归并处理装置,用于对所述归并词组所对应的索引问题进行归并处理,确定与所述输 入问题相对应的相关问题。
12. 根据权利要求11所述的检索设备,其中,所述分词装置用于: -对所述输入问题进行分词处理,并结合分词处理后获得的词组所对应的权重相关信 息,确定所述待处理词组。
13. 根据权利要求11或12所述的检索设备,其中,所述分词装置用于: -对所述输入问题进行分词处理,以获得分词处理后的词组; -基于无效词库,对所述分词处理后的词组进行过滤处理,以确定所述待处理词组。
14. 根据权利要求11至13中任一项所述的检索设备,其中,该设备还包括: 权重确定装置,用于根据所述待处理词组所对应的权重相关信息,确定所述待处理词 组的权重值。
15. 根据权利要求11至14中任一项所述的检索设备,其中,该设备还包括: 匹配装置,用于根据所述待处理词组,在问题索引库中进行匹配查询,以获得与所述待 处理词组对应的索引拉链。
16. 根据权利要求11至15中任一项所述的检索设备,其中,所述归并确定装置用于: -根据所述待处理词组所对应的索引拉链及权重值,并结合所述相关问题对应的预置 结果数,确定其中的归并词组。
17. 根据权利要求11至16中任一项所述的检索设备,其中,所述归并处理装置包括: 桶建立单元,用于根据所述归并词组的排列组合结果,建立权重桶,其中,所述权重桶 对应所述排列组合结果的权重值; 归并处理单元,用于将与所述排列组合结果相对应的索引问题归并入所述权重桶,以 确定与所述输入问题相对应的相关问题。
18. 根据权利要求17所述的检索设备,其中,所述归并处理单元用于: -基于哈希算法,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定 与所述输入问题相对应的相关问题。
19. 根据权利要求17或18所述的检索设备,其中,该设备还包括: 调权确定装置,用于根据所述归并词组,确定所述待处理词组中的调权词组; 其中,所述归并处理单元用于: -根据所述调权词组,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以 确定与所述输入问题相对应的相关问题。
20. 根据权利要求17至19中任一项所述的检索设备,其中,该设备还包括: 优先级确定装置,用于根据所述权重桶所对应的权重值,确定所述权重桶的优先级; 提供装置,用于按照所述优先级,自所述权重桶中确定所述索引问题,以作为所述相关 问题提供给所述用户。
【文档编号】G06F17/30GK104123320SQ201310156783
【公开日】2014年10月29日 申请日期:2013年4月28日 优先权日:2013年4月28日
【发明者】谢双宾, 梁龙军 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1