检索方法、索引建立方法和装置及检索系统的制作方法

文档序号:6597631阅读:186来源:国知局
专利名称:检索方法、索引建立方法和装置及检索系统的制作方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种检索方法、索引建立方法和装置及检 索系统。
背景技术
随着计算机技术和网络技术的飞速发展,出现了海量的网络信息。为了工作和生 活的方便,人们需要利用信息检索技术从网络中获取需要的信息。目前主流的信息检索技 术是基于关键词的信息检索技术。基于关键词的信息检索技术是建立在对被检索内容进行 分词的基础之上。传统的分词方式可分为单字分词和自然语言分词两大类。单词分词将中 文字符串简单切分成单个字,早期的中文搜索引擎大多使用单个字分词。自然语言分词将 中文字符串尽可能切分为符合人类习惯的词汇单元,现有的中文搜索引擎大多使用自然语 言分词。现有的中文搜索引擎先对用户输入的检索短语进行分词,把分词后得到的词语作 为关键词,然后在索引中查找结果。例如,短语“奶啤酒瓶”,若采用正向最大匹配分词方法, 可切分成“奶”和“啤酒瓶”;若采用逆向最大匹配分词算短语,可切分为“奶啤酒”和“瓶”。 又例如,句子“乒乓球拍卖完了”,若采用正向最大匹配分词方法,可切分成“乒乓球拍,,和 “卖完了”;若采用逆向最大匹配分词方法,可切分为“乒乓球”和“拍卖完了”。由此可见,对 同一短语或句子有可能形成两种或两种以上的、且都有效的分词结果,称之为分词歧义。在根据上述多种分词结果检索出的相关文档集中,各分词结果与各文档的相关度 是互不相同的。然而,现有中文搜索引擎,在对这些相关文档集进行排序时,没有考虑到上 述多种分词结果与检索出文档的相关度,以及这些分词结果与检索短语的相关度,致使排 序结果的可靠性较低。

发明内容
本发明实施例提供一种检索方法、索引建立方法和装置及检索系统,使用户能在 排序结果中,快速查找出与检索短语相关度较高的文档,提高了排序结果的可靠性。本发明实施例提供一种检索方法,包括通过至少两种分词方法分别对被检索内容进行分词处理,得到至少两组分词词 汇,以所有分词词汇中互不相同的分词词汇作为关键词;通过预先设置的关键词到文档的关键词索引,检索出与各所述关键词相关的文档 集;确定各所述关键词的置信度,所述关键词的置信度表示所述关键词与所述被检索 内容的相关度;并通过文档到关键词置信度的关键词置信度索引,检索出各所述关键词在 各所述文档中的置信度;根据各所述关键词与各所述文档的第一相关度,对所述文档集进行排序;所述第 一相关度包括所述关键词的置信度、所述关键词在各所述文档中的置信度,和第二相关度;所述第二相关度包括所述关键词在各所述文档中出现的频率、以及与各所述关键词 相关的各所述文档在所有文档中出现的频率。本发明实施例还提供一种索引建立方法,包括通过至少两种分词方法分别对被选择文档进行分词处理,得到至少两组分词词 汇,以所有分词词汇中互不相同的分词词汇作为关键词;采用倒排索引方法建立各所述关键词到所述被选择文档的关键词索引;确定各所述关键词在各所述被选择文档中的置信度;所述关键词在所述被选择文 档中的置信度,表示所述关键词与所述被选择文档的相关度;建立所述被选择文档到各所述关键词在所述被选择文档中的置信度的关键词置 信度索引。本发明实施例还提供一种检索装置,包括检索关键词确定模块,用于通过至少两种分词方法分别对被检索内容进行分词处 理,得到至少两组分词词汇,以所有分词词汇中互不相同的分词词汇作为关键词;文档集检索模块,用于通过预先设置的关键词到文档的关键词索引,检索出与各 所述关键词相关的文档集;第一置信度确定模块,用于确定各所述关键词的置信度;所述关键词的置信度表 示所述关键词与所述被检索内容的相关度第二置信度确定模块,用于通过文档到关键词置信度的关键词置信度索引,检索 出各所述关键词在各所述文档中的置信度;排序模块,用于根据各所述关键词与各所述文档的第一相关度,对所述文档集进 行排序;所述第一相关度包括所述关键词的置信度、所述关键词在各所述文档中的置信 度,和第二相关度;所述第二相关度包括所述关键词在各所述文档中出现的频率、以及与 各所述关键词相关的各所述文档在所有文档中出现的频率。本发明实施例还提供一种索引建立装置,包括文档关键词确定模块,用于通过至少两种分词方法分别对被选择文档进行分词处 理,得到至少两组分词词汇,以所有分词词汇中互不相同的分词词汇作为关键词;关键词索引建立模块,用于采用倒排索引方法建立各所述关键词到所述被选择文 档的关键词索引;第三置信度确定模块,用于确定各所述关键词在各所述被选择文档中的置信度; 所述关键词在所述被选择文档中的置信度,表示所述关键词与所述被选择文档的相关度;关键词置信度索引建立模块,用于建立所述被选择文档到各所述关键词在所述被 选择文档中的置信度的关键词置信度索引。本发明实施例还提供一种检索系统,包括上述检索装置和上述索引建立装置。本发明实施例检索方法,通过至少两种分词方法对被检索内容进行分词处理,得到能全面反映被检索内容的分词结果,并根据对各分词结果评估得出各关键词的置信度。 在根据各关键词结果检索出相关文档集后,根据各关键词的置信度、各分词在相关文档中 置信度以及各分词的TF-IDF值,对检索出的相关文档集进行排序,使更接近于用户需求的 相关文档排在前列。由于本实施例中将各关键词的置信度和各关键词在各文档中的置信度 作为排序因素,使得关键词置信度高的相应文档排在关键词置信度低的相应文档之前,从而提高了检索系统排序结果的可靠性,而且使用户快速找到所需求的信息。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根 据这些附图获得其他的附图。图Ia为本发明检索方法实施例流程图;图Ib为本发明检索方法实施例的应用场景图;图2为本发明索引建立方法实施例流程图;图3为本发明检索装置实施例一结构示意图;图4为本发明检索装置实施例二结构示意图;图5为本发明索引建立装置实施例一结构示意图;图6为本发明索引建立装置实施例二结构示意图;图7为本发明检索系统实施例结构示意图。
具体实施例方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。搜索引擎根据分词方法得到的分词结果,在数据库中检索出与分词结果相关的文 档。中文分词是中文搜索引擎的基础,对中文搜索引擎的检索性能有着重要的影响。查全 率是指检索出的相关文档数与检索系统中相关文档总量的比率,是衡量检索系统检索相关 文献能力的尺度。由此,中文分词方法得到的分词结果不全面、不准确,则会直接影响检索 系统的查全率。以下以中文搜索引擎为例进行说明本发明检索方法、索引建立方法和装置 及检索系统进行说明,本发明还可适应其它中文检索系统。图Ia为本发明检索方法实施的流程图,图Ib为本发明检索方法实施例的应用场 景图,本实施例的执行主体可为图Ib中所示的检索装置。如图Ia所示,本实施例包括步骤11 通过至少两种分词方法分别对被检索内容进行分词处理,得到至少两组 分词词汇,以所有分词词汇中互不相同的分词词汇作为关键词;上述被检索内容可以是用户在浏览器上输入的短语或句子。采用不同的中文分词 方法对相同的语句或短语进行分词,有可能产生不同的分词结果,从而导致不同的检索结 果。用户向搜索引擎输入的被检索内容,往往是用户自己所理解的含义。对于具有歧义的被 检索内容来说,搜索引擎所使用的分词方法并不能确定用户所理解的含义。例如,具有歧义 的检索词“奶啤酒瓶”,不同的用户有不同的理解,用户A需要的检索结果为有关“奶啤酒” 的瓶子的信息,而用户B需要的检索结果为有关“奶”和“啤酒瓶”的信息,而用户C需要的 检索结果为有关“奶啤酒”和“瓶”的信息。由于检索结果是根据分词结果进行检索的,如 果搜索引擎只采用一种分词方法对用户输入的被检索内容进行分词,则检索结果会丢失一部分信息。因此,检索结果要么大部分信息与“奶”、“啤酒瓶”相关,要么大部分信息与“奶 啤酒”、“瓶”相关。如果搜索引擎采用两种以上的分词方法,例如同时采用正向最大匹配分词方法和 逆向最大匹配分词方法,对用户输入的被检索内容“奶啤酒瓶”进行分词,则得到的分词结 果为奶、啤酒瓶、奶啤酒、瓶。那么根据分词结果检索出的文档集合既包含“啤酒瓶”的信 息,也包含“奶啤酒”的信息。由于搜索引擎提高了查全率,因而检索结果既能满足于用户 A的需求,也能满足用户B的需求,同时也能满足用户C的需求。搜索引擎采用两种以上的分词方法,对用户输入的被检索内容进行分词后,若各 分词方法得到的各组分词词汇完全相同,则将其中一个分词方法的一组分词词汇作为关键 词。例如短语“人民共和国”,利用正向最大匹配分词方法、与利用逆向最大匹配分词方法得 到两组分词词汇均为“人民”和“共和国”,则将“人民”和“共和国”两个词作为关键词。若各分词方法得到的各组分词词汇不完全相同,则将各个分词方法的各组分词词 汇共同作为关键词,以尽可能多检索出与被检索内容相关的文档。例如,句子“乒乓球拍卖 完了”,可切分成“乒乓球拍”和“卖完了” ;也可切分为“乒乓球”和“拍卖完了”,则将“乒乓 球拍”、“卖完了”、乒乓球”和“拍卖完了”四个词共同作为关键词。又例如短语“中华人民共和国万岁”,利用正向最大匹配分词方法得到的一组分词 词汇为“中华人民”、“共和国”和“万岁”;利用逆向最大匹配分词方法得到的一组分词词汇 为“中华”、“人民共和国”和“万岁”。则将“中华”、“中华人民”、“共和国”和“万岁”及“人 民共和国”。又例如,“奶啤酒瓶”,采用正向最大匹配分词方法得到分词结果“奶”、“啤酒”和 “瓶”;采用逆向最大匹配分词方法得到分词结果“奶啤酒”和“瓶”。则两种分词方法的分 词词汇“奶”、“啤酒”、“瓶”和“奶啤酒”共同作为关键词。步骤12 通过预先设置的关键词到文档的关键词索引,检索出与各关键词相关的 文档集。搜索引擎通过文档中关键词为文档建立了倒排索引,以利于通过关键词快速检索 到含有该关键词的文档。建立倒排索引的过程为分析文档内容后,通过分词方法从文档中 提取出多个关键词。关键词存储在词汇表中,词汇表中的每个关键词对应一个倒排表,该表 中记录了该关键词出现的文档集合、在该文档中的出现位置以及出现的频率。在处理复杂 的多关键字查询时,可在倒排表中先完成有关查询文档地址的交、并等逻辑运算,得到结果 后再对文档进行存取,提高查找速度。在检索时,通过词汇表中的关键词索引,从倒排表中查找到该关键词出现的文档、 在该文档中的出现位置等信息。然后从数据库中提取出该文档。在步骤13 确定各关键词的置信度;搜索引擎采用两种以上的分词方法,对用户输入的被检索内容进行分词后,如果 各分词方法的各组分词词汇不完全相同,则需对各分词词汇(关键词)进行评估,得出各 关键词与用户输入的被检索内容之间的相关度,也就是各关键词的置信度。确定各关键词 的置信度具体方法可为根据各分词方法的分词准确度,确定各组分词词汇的准确度权值; 根据各组分词词汇的准确度权值,确定各关键词的置信度。其中,各组分词词汇的准确度权 值为各组分词词汇对应的分词方法的准确度,与各分词方法的准确度之和的比值。
具体地,各关键词的置信度确定,可采用对各分词方法的准确度进行加权求和的形式,各分词方法的准确率通过长期对分词方法的可信度统计获得。例如,“奶啤酒瓶”,采 用正向最大匹配分词方法得到分词结果“奶”、“啤酒”和“瓶”;采用逆向最大匹配分词方 法得到分词结果“奶啤酒”和“瓶”;假设正向最大匹配分词方法的准确率为90%,逆向最 大匹配分词方法的准确率为80%。正向最大匹配分词方法的分词结果权重为90% /(90% +80% ) =0.53,逆向最大匹配分词方法的分词结果权重为80%/(90%+80%) =0.47。 加权之后正向最大匹配分词方法的各分词置信度为(奶,0. 53)(瓶,0. 53)(啤酒,0. 53), 逆向最大匹配分词方法的各分词置信度(奶啤酒,0. 47)(瓶,0. 47)。则最终作为关键词的 各分词的置信度为(奶,0. 53)(啤酒,0. 53)(瓶,1.0)(奶啤酒,0. 47)。步骤14 通过文档到关键词置信度的关键词置信度索引,检索出各关键词在各文 档中的置信度;上述关键词的置信度为关键词与用户输入的被检索内容之间的相关度。步骤14 检索的是各关键词在检索出的各文档中的置信度,作为该关键词与包含该关键词的文档的 相关度的一种度量因素。步骤15 根据各关键词与各文档的第一相关度,对各文档进行排序。其中,关键词的置信度、关键词在各文档中的置信度,和第二相关度;第二相关度 包括关键词在各文档中出现的频率、以及与各关键词相关的各文档在所有文档中出现的频率。某个词在一篇文档中出现的频率,称为词频(Term Frequency,简称TF),具体可 为某个词在一篇文档中出现的次数与该文档中包含的词的个数之间的比值。如果某个词 在一篇文档中出现的频率越高,并且在其他文档中很少出现,则认为该词具有很好的类别 区分能力。与某个词相关的文档在所有文档中出现的频率,称之为反文档频率(Inverse Document Frequency,简称IDF)。如果包含词的文档越少,IDF越大,则说明词条具有很好 的类别区分能力。使用TF-IDF可以判断某个词在某篇文档里的重要性,可以判断是否可用 该词来表达文档所包含的含义。例如,根据关键词检索出的文档为文档1和文档2。通过关键词置信度索引,查找 出关键词“奶”、“啤酒”、“瓶”和“奶啤酒”在文档1中的置信度分别为A1、B1、C1和D1,在文 档2中的置信度分别为A2、B2、C2和D2 ;上述关键词与用户输入的被检索内容“奶啤酒瓶” 的相关度(即各关键词的置信度)分别为0. 53,0. 53、1. 0,0. 47。各文档1的排序值计算 方式可如下文档1 的排序值 X 0. 53XA1XTFa1/IDFA1+0. 53 X Bl X TFb1/IDFB1+1 XClX TFci/ IDFci+0. 47XD1XTFd1/IDFd1 ;文档2 的排序值 Y 0. 53XA2XTFA2/IDFA2+0. 53 XB2 X TFB2/IDFB2+1 X C2 X TFc2/ IDFC2+0. 47XD2XTFD2/IDFD2 ;如果文档1的排序值X大于文档2的排序值Y,则在最终的检索结果中文档1排在 文档2之前;否则,文档2排在文档1之前。本发明实施例检索方法,通过至少两种分词方法对被检索内容进行分词处理,得 到能全面反映被检索内容的分词结果,并根据对各分词结果评估得出各关键词的置信度。 在根据各关键词结果检索出相关文档集后,根据各关键词的置信度、各分词在相关文档中置信度以及各分词的TF-IDF值,对检索出的相关文档集进行排序,使更接近于用户需求的 相关文档排在前列。由于本实施例中将各关键词的置信度和各关键词在各文档中的置信度 作为排序因素,使得关键词置信度高的相应文档排在关键词置信度低的相应文档之前,从 而提高了检索系统排序结果的可靠性,而且使用户更容易找到所需求的信息。图2为本发明索引建立方法实施例的流程图,本实施例的执行主体可为图Ib中所 示的索引建立装置。如图2所示,本实施例包括步骤21 通过至少两种分词方法分别对被选择文档进行分词处理,得到至少两组 分词词汇,以所有分词词汇中互不相同的分词词汇作为关键词;为检索系统中的文档集建立索引时,先选取一篇文档进行分析,并使用多个分词 方法对该文档进行分词,得到多组分词词汇。步骤22 采用倒排索引方法建立各关键词到被选择文档的关键词索引;
将所有分词词汇中互不相同的分词词汇作为关键词,在关键词和包含该关键词的 上述文档之间建立倒排索引。具体过程可为将关键词存储在关键词汇表中,关键词汇表用 于存储检索系统中所有关键词。然后,将包含该关键词的文档的编号存储在关键词索引表 中该关键词相应记录中,以根据该关键词查找到与该关键词相关的文档。其中关键词索引 表还可以存储该关键词出现在该文档中的位置。关键词索引表的结构可为关键词一>{(文档1的编号、出现位置),(文档2的编号、出现位置)}。步骤23 确定各关键词在被选择文档中的置信度;例如,“奶啤酒瓶”,采用正向最大匹配分词方法得到分词结果“奶”、“啤酒”和 “瓶”;采用逆向最大匹配分词方法得到分词结果“奶啤酒”和“瓶”。上述正向最大匹配分 词方法得到分词词汇“奶”和“啤酒”,与逆向最大匹配分词方法得到分词词汇“奶啤酒”,之 间不完全相同。则对两种分词方法的分词词汇“奶”、“啤酒”、“瓶”和“奶啤酒”,计算其在索 引内容“奶啤酒瓶”中的置信度,该置信度为上述分词词汇与索引内容“奶啤酒瓶”的相关 度的一种度量因素。计算出每个关键词的置信度后,将每个关键词的置信度存储在置信度 表中。又例如,被检索内容为“长整形”。文档A中包含有“使用长整形变量”,通过分词方 法一得到的分词结果为“使用”、“长整形”和“变量”,通过分词方法二得到的分词结果为 “使用”、“长”和“整形变量”;文档B中包含有“上嘴唇过长整形”,通过分词方法一得到的分 词结果为“上嘴唇”、“过长”和“变量”,通过分词方法二得到的分词结果为“上嘴唇”、“过” 和“长整形”。假设在文档A和文档B中,“长整形”出现的次数相同。而通过长期的分词方 法可信度统计可知,分词方法一的可信度高于分词方法二。在对检索结果排序时,如果引入 本实施例中的置信度,文档A会排在文档B之前。步骤24 建立被选择文档到各关键词在被选择文档中的置信度的关键词置信度 索引。为关键词与包含该关键词的所有文档之间建立关键词索引后,在检索时可根据关 键词检索到包含该关键词的所有文档。为使检索出与该关键词相关的文档之后,通过该文 档查找出该关键词在该文档中的置信度,还需建立关键词置信度索引。上述关键词索引为 一级索引,关键词置信度索引为二级索引。关键词置信度索引表的具体结构如下所示文档N—>{(关键词1在关键词词汇表中位置,关键词1置信度在置信度表中位置),(关键词2在关键词词汇表中位置,关键词2置信度在置信度表中位置)……}。本实施例索引建立方法,通过多种分词方法对检索系统中被选择文档进行分词, 得到能全面反映该文档的关键词。除根据关键词为该被选择文档建立索引外,还在该被选 择文档和该关键词在该被选择文档中的置信度之间建立了关键词置信度索引。从而不仅可 通过多个关键词检索到该被选择文档,而且还对检索出的文档集的排序提供了一种更接近 于用户需求的排序依据,提高了检索系统排序结果的可靠性。图3为本发明检索装置实施例一结构示意图,如图3所示,本实施例包括检索关 键词确定模块31、文档集检索模块32、第一置信度确定模块33、第二置信度确定模块34和 排序模块35。检索关键词确定模块31,用于通过至少两种分词方法分别对被检索内容进行分词 处理,得到至少两组分词词汇,若不同组的分词词汇不完全相同,以所有分词词汇中互不相 同的分词词汇作为关键词。文档集检索模块32,用于通过预先设置的关键词到文档的关键 词索引,检索出与各关键词相关的文档集。第一置信度确定模块33,用于确定各关键词的置 信度;关键词的置信度表示关键词与被检索内容的相关度。第二置信度确定模块34,用于 通过文档到关键词置信度的关键词置信度索引,检索出各关键词在各文档中的置信度。排 序模块35,用于根据各关键词与各文档的第一相关度,对文档集进行排序;第一相关度包 括关键词的置信度、关键词在各文档中的置信度,和第二相关度;第二相关度包括关键 词在各文档中出现的频率、以及与各关键词相关的各文档在所有文档中出现的频率。图4为本发明检索装置实施例二结构示意图。如图4所示,在图3对应实施例的 基础上,第一置信度确定模块33包括第一权值确定子模块331和第一置信度确定子模块 332。第一权值确定子模块331,用于根据各分词方法的分词准确度,确定各组分词词汇 的准确度权值。第一置信度确定子模块332,用于根据各组分词词汇的准确度权值,确定各 关键词的置信度。图3、图4中各功能模块的工作机理参见图1对应实施例的描述。本发明实施例检索装置,通过至少两种分词方法对被检索内容进行分词处理,得 到能全面反映被检索内容的分词结果,并根据对各分词结果评估得出各关键词的置信度。 在根据各关键词结果检索出相关文档集后,根据各关键词的置信度、各分词在相关文档中 置信度以及各分词的TF-IDF值,对检索出的相关文档集进行排序,使更接近于用户需求的 相关文档排在前列。由于本实施例中将各关键词的置信度和各关键词在各文档中的置信度 作为排序因素,使得关键词置信度高的相应文档排在关键词置信度低的相应文档之前,从 而提高了检索系统排序结果的可靠性,而且使用户更容易找到所需求的信息。图5为本发明索引建立装置实施例一结构示意图,如图5所示,本实施例包括文档关键词确定模块51、关键词索引建立模块52、第三置信度确定模块53和关键词置信度索 引建立模块54。文档关键词确定模块51,用于通过至少两种分词方法分别对被选择文档进行分词 处理,得到至少两组分词词汇;若不同组的分词词汇不完全相同,以所有分词词汇中互不相 同的分词词汇作为关键词。关键词索引建立模块52,用于采用倒排索引方法建立各关键词 到被选择文档的关键词索引。第三置信度确定模块53,用于确定各关键词在各被选择文档中的置信度;关键词在被选择文档中的置信度,表示关键词与被选择文档的相关度。关键词 置信度索引建立模块54,用于建立被选择文档到各关键词在被选择文档中的置信度的关键 词置信度索引。图6为本发明索引装置实施例二结构示意图。如图6所示,在图5对应实施例的 基础上,第三置信度确定模块53,包括第二权值确定子模块531和第三置信度确定子模块 532。第二权值确定子模块531,用于根据各分词方法的分词准确度,确定各组分词词汇 的准确度权值。第三置信度确定子模块532,用于根据各组分词词汇的准确度权值,确定各 关键词的置信度。图5、图6中各功能模块的工作机理参见图1对应实施例的描述。本发明实施例索引建立装置,通过多种分词方法对检索系统中被选择文档进行分 词,得到能全面反映该文档的关键词。除根据关键词为该被选择文档建立索引外,还在该被 选择文档和该关键词在该被选择文档中的置信度之间建立了关键词置信度索引。从而不仅 可通过多个关键词检索到该被选择文档,而且还对检索出的文档集的排序提供了一种更接 近于用户需求的排序依据,提高了检索系统排序结果的可靠性。图7为本发明检索系统实施例结构示意图,如图7所示,本实施例包括检索装置 71和索引建立装置72。其中,检索装置71的具体工作机理参见图3和图4对应实施例中 描述;索引建立装置72的具体工作机理参见图5和图6对应实施例中描述。本发明实施例检索系统,通过至少两种分词方法对被检索内容进行分词处理,得 到能全面反映被检索内容的关键词,从而根据关键词尽可能检索出与被检索内容相关的所 有文档。同时,在为检索系统中文档集建立索引时,利用至少两种分词方法对被选择文档进 行分词处理,得到能全面反映被选择文档内容的关键词,从而建立关键词到被选择文档之 间的关键词索引。以根据关键词索引尽可能检索出与关键词相关的所有文档,从而进一步 提高了检索系统的查全率。本领域普通技术人员可以理解实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序 在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括R0M、RAM、磁碟或者 光盘等各种可以存储程序代码的介质。最后应说明的是以上实施例仅用以说明本发明的技术方案,而非对其限制;尽 管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解其依然 可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替 换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精 神和范围。
权利要求
一种检索方法,其特征在于,包括通过至少两种分词方法分别对被检索内容进行分词处理,得到至少两组分词词汇,以所有分词词汇中互不相同的分词词汇作为关键词;通过预先设置的关键词到文档的关键词索引,检索出与各所述关键词相关的文档集;确定各所述关键词的置信度,所述关键词的置信度表示所述关键词与所述被检索内容的相关度;并通过文档到关键词置信度的关键词置信度索引,检索出各所述关键词在各所述文档中的置信度;根据各所述关键词与各所述文档的第一相关度,对所述文档集进行排序;所述第一相关度包括所述关键词的置信度、所述关键词在各所述文档中的置信度,和第二相关度;所述第二相关度包括所述关键词在各所述文档中出现的频率、以及与各所述关键词相关的各所述文档在所有文档中出现的频率。
2.根据权利要求1所述的检索方法,其特征在于,所述确定各所述关键词的置信度包括根据各所述分词方法的分词准确度,确定各组分词词汇的准确度权值; 根据所述各组分词词汇的准确度权值,确定各所述关键词的置信度。
3.根据权利要求2所述的检索方法,其特征在于,所述根据各所述分词方法的分词准 确度,确定各组分词词汇的准确度权值,包括将各组分词词汇对应的分词方法的准确度,与各所述分词方法的准确度之和的比值, 作为各组分词词汇的准确度权值。
4.一种索引建立方法,其特征在于,包括通过至少两种分词方法分别对被选择文档进行分词处理,得到至少两组分词词汇,以 所有分词词汇中互不相同的分词词汇作为关键词;采用倒排索引方法建立各所述关键词到所述被选择文档的关键词索引; 确定各所述关键词在各所述被选择文档中的置信度;所述关键词在所述被选择文档中 的置信度,表示所述关键词与所述被选择文档的相关度;建立所述被选择文档到各所述关键词在所述被选择文档中的置信度的关键词置信度 索引。
5.根据权利要求4所述的索引建立方法,其特征在于,所述确定各所述关键词在所述 被选择文档中的置信度,包括根据各所述分词方法的分词准确度,确定各组分词词汇的准确度权值; 根据所述各组分词词汇的准确度权值,确定各所述关键词的置信度。
6.一种检索装置,其特征在于,包括检索关键词确定模块,用于通过至少两种分词方法分别对被检索内容进行分词处理, 得到至少两组分词词汇,以所有分词词汇中互不相同的分词词汇作为关键词;文档集检索模块,用于通过预先设置的关键词到文档的关键词索引,检索出与各所述 关键词相关的文档集;第一置信度确定模块,用于确定各所述关键词的置信度;所述关键词的置信度表示所 述关键词与所述被检索内容的相关度;第二置信度确定模块,用于通过文档到关键词置信度的关键词置信度索引,检索出各所述关键词在各所述文档中的置信度;排序模块,用于根据各所述关键词与各所述文档的第一相关度,对所述文档集进行排 序;所述第一相关度包括所述关键词的置信度、所述关键词在各所述文档中的置信度,和 第二相关度;所述第二相关度包括所述关键词在各所述文档中出现的频率、以及与各所 述关键词相关的各所述文档在所有文档中出现的频率。
7.根据权利要求6所述的检索装置,其特征在于,所述第一置信度确定模块,包括第 一权值确定子模块,用于根据各所述分词方法的分词准确度,确定各组分词词汇的准确度 权值;第一置信度确定子模块,用于根据所述各组分词词汇的准确度权值,确定各所述关键 词的置信度。
8.一种索引建立装置,其特征在于,包括文档关键词确定模块,用于通过至少两种分词方法分别对被选择文档进行分词处理, 得到至少两组分词词汇,以所有分词词汇中互不相同的分词词汇作为关键词;关键词索引建立模块,用于采用倒排索引方法建立各所述关键词到所述被选择文档的 关键词索引;第三置信度确定模块,用于确定各所述关键词在各所述被选择文档中的置信度;所述 关键词在所述被选择文档中的置信度,表示所述关键词与所述被选择文档的相关度;关键词置信度索引建立模块,用于建立所述被选择文档到各所述关键词在所述被选择 文档中的置信度的关键词置信度索引。
9.根据权利要求8所述的索引建立装置,其特征在于,所述第三置信度确定模块,包括第二权值确定子模块,用于根据各所述分词方法的分词准确度,确定各组分词词汇的 准确度权值;第三置信度确定子模块,用于根据所述各组分词词汇的准确度权值,确定各所述关键 词的置信度。
10.一种检索系统,其特征在于,包括如权利要求6至7任一项所述的检索装置和如 权利要求8至9任一项所述的索引建立装置。
全文摘要
本发明提供一种检索方法、索引建立方法和装置及检索系统。该检索方法包括通过至少两种分词方法分别对被检索内容进行分词处理,以所有分词词汇中互不相同的分词词汇作为关键词;通过预先设置的关键词到文档的关键词索引,检索出与各关键词相关的文档集;确定各关键词的置信度,关键词的置信度表示关键词与被检索内容的相关度;并通过文档到关键词置信度的关键词置信度索引,检索出各关键词在各文档中的置信度;根据各关键词与各文档的第一相关度,对文档集进行排序;第一相关度包括关键词的置信度、关键词在各文档中的置信度,关键词在各文档中出现的频率、以及与各关键词相关的各文档在所有文档中出现的频率。
文档编号G06F17/30GK101819578SQ20101010087
公开日2010年9月1日 申请日期2010年1月25日 优先权日2010年1月25日
发明者余孟春, 袁行远, 谢清禄 申请人:青岛普加智能信息有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1