一种文本检索的方法及装置的制作方法

文档序号:6575146阅读:146来源:国知局
专利名称:一种文本检索的方法及装置的制作方法
技术领域
本发明涉及一种文本检索的方法及装置,属于网络通讯技术领域。
背景技术
目前常用的文本检索的方法有归并查找的方法和位图打点的方法,这两种方法都是根 据各文本的编码顺序确定文本地址,且只建立了标题索引和全文索引,并同时根据标题索 引和全文索引进行检索,由于文本地址只是由编码顺序确定,导致在文本读取不完全的情 况下,有些重要的文本没有被检索到,从而影响了检索的准确率,采用对标题索引和全文 索引一起检索的方式,导致检索时间过长,从而影响了系统的检索性能。

发明内容
本发明提供了一种文本检索的方法及装置,以解决现有技术中存在在文本读取不完全 的情况下,有些重要的文本不能被检索到,同时采用标题索引和全文索引一起检索的方式, 导致检索时间过长,从而影响了检索的准确率和系统的检索性能的问题,为此本发明采用 如下的技术方案
本发明实施例提供了一种文本检索的方法,包括,
生成编码信息,并根据文本库中的文本权重确定文本地址,所述编码信息用于指示文 本的顺序;
根据生成的编码信息和确定的文本地址建立索引项,所述索引项包括标题索引、全文
索引、高频词标题位图、高频词全文位图和超高频词文本偏移地址位根据査询的语素通过标题索引并根据超高频词文本偏移地址位图进行过滤后检索出
对应文本,若检索的结果满足预定的要求,则结束检索;若检索的结果不满足预定的要求,
则根据查询的语素通过全文索引并根据高频词标题位图和高频词全文位图进行过滤后检
索出对应文本。
本发明实施例还提供了一种文本检索的装置,包括
文本地址确定模块,用于生成编码信息,并根据文本库中的文本权重确定文本地址,所述编码信息用于指示文本的顺序;
索引项确定模块,用于根据文本地址确定模块生成的编码信息和确定的文本地址建立 索引项,所述索引项包括标题索引、全文索引、高频词标题位图、高频词全文位图和超高 频词文本偏移地址位检索模块,用于根据查询的语素通过索引项确定模块中的标题索引并根据超高频词文 本偏移地址位图进行过滤后检索出对应文本,若检索的结果满足预定的要求,则结束检索; 若检索的结果不满足预定的要求,则根据査询的语素通过索引项确定模块中的全文索引并 根据高频词标题位图和高频词全文位图进行过滤后检索出对应文本。
综上所述的一种文本检索的方法及装置,所述标题索引,用于记录标题对应文本的编 码信息和文本地址;所述全文索引,用于记录全文对应文本的编码信息和文本地址,所述 全文包括标题和内容;所述高频词标题位图,用于记录各高频词出现在标题的对应文本的 编码信息和文本地址;所述高频词全文位图,用于记录各高频词出现在全文的对应文本的 编码信息和文本地址;所述超高频词文本偏移地址位图,用于记录各超高频词出现在标题 的对应文本中占据文本地址最大的文本在标题索引的文本地址中的偏移地址;所述高频词 表示文本覆盖率在预定区间内的词,所述超高频词表示文本覆盖率超过所述预定区间内最 大值的词。
本发明实施方式提供的技术方案在标题索引和全文索引的基础上增加了高频词标题 位图、高频词全文位图和超高频词文本偏移地址位图,在检索的过程中先通过标题索引和 超高频词文本偏移地址位图检索,当检索的结果不符合预定的要求时再通过全文索引、高 频词标题位图、高频词全文位图进行检索,这样能够加快检索的速度,从而提高了检索的 准确率和系统的检索性能。


为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附 图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领 域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的 附图。
图l是本发明实施例所述的一种文本检索方法的流程示意图;; 图2是本发明实施例所述的根据文本库中的文本权重确定文本地址的流程示意图; 图3是本发明实施例所述的根据查询的语素通过标题索引并根据超高频词文本偏移地 址位图进行过滤后检索出对应文本的流程示意图;图4是本发明实施例所述的根据査询的语素通过全文索引并根据高频词标题位图和高
频词全文位图进行过滤后检索出对应文本的流程示意图5是本发明实施例所述的具体实施例一具体检索过程的流程示意图; 图6是本发明实施例所述的一种文本检索装置的结构示意图; 图7是本发明实施例所述的文本地址确定模块1具体的结构示意图1; 图8是本发明实施例所述的检索模块3具体的结构示意图9是本发明实施例所述的检索模块3达不到预定的要求时进行检索的具体结构示意图。
具体实施例方式
下面结合说明书附图来说明本发明的具体实施方式
。本说明书主要以本发明在即时通 信服务中的应用作为最佳实施例,当然,实际应用中也可以用于网络邮件服务系统、网络 协同工作服务系统等其它互联网服务系统。
在本发明实施方式提供的一种文本检索方法的技术方案中,如图1所示,首先,生成 编码信息,并根据文本库中的文本权重确定文本地址,所述编码信息用于指示文本的顺序; 然后,根据生成的编码信息和确定的文本地址建立索引项,所述索引项包括标题索引、全 文索引、高频词标题位图、高频词全文位图和超高频词文本偏移地址位图;所述标题索引, 用于记录标题对应文本的编码信息和文本地址;所述全文索引,用于记录全文对应文本的 编码信息和文本地址,所述全文包括标题和内容;所述高频词标题位图,用于记录各高频 词出现在标题的对应文本的编码信息和文本地址;所述高频词全文位图,用于记录各高频 词出现在全文的对应文本的编码信息和文本地址;所述超高频词文本偏移地址位图,用于 记录各超高频词出现在标题的对应文本中占据文本地址最大的文本在标题索引的文本地 址中的偏移地址;所述高频词表示文本覆盖率在预定区间内的词,所述预定的区间可以为 [50%, 80%],具体若查询的语素的文本覆盖率在50%到80%区间内,则所述査询的语素可 认为是高频词,所述超高频词表示文本覆盖率超过所述预定区间内最大值的词;所述预定 区间内最大值可以为80%,具体若查询的语素的文本覆盖率超过80%,则所述查询的语素 可认为是超高频词;最后,根据查询的语素通过标题索引并根据超高频词文本偏移地址位 图进行过滤后检索出对应文本,若检索的结果满足预定的要求,则结束检索;若检索的结 果不满足预定的要求,则根据査询的语素通过全文索引并根据高频词标题位图和高频词全 文位图进行过滤后检索出对应文本,所述预定的要求,是根据对检索结果的要求确定的,具体可以表示检索到的文本包含了需要的文本,也可以表示检索到的文本数大于预定值, 若查询者只是想大概的查询一下结果,并没有很高的要求,则所述预定值可以小一些,比 如30或50,若查询者要求精确度高,想全面的査询,则所述预定值可以大一些,比如300 或500;所述预定的要求还可以表示满足文本质量等级的文本数大于特定阈值,所述文本 质量等级是根据查询的语素与检索到的文本的匹配度确定的,所述特定阈值可以根据查询 者的具体要求来确定,比如可以为50,也可以为IOO,若査询者只是想大概的查询一下结 果,并没有很高的要求,则可以把査询的语素与检索到的文本的匹配度设置的小一些,比 如匹配度设置为30%或50%,若查询者要求精确度高,想全面的查询,则可以把査询的语 素与检索到的文本的匹配度设置的大一些,比如80%或90%。
进一步地,如图2所示,所述根据文本库中的文本权重确定文本地址的过程具体可以 为,首先,读取文本库中的一篇文本,解析文本中的字段,并生成分词结果;然后,根据 生成的所述分词结果,决定各字段的组合方式,确定当前文本的权重并更新文本的相关性 权重,所述更新文本的相关性权重可以根据检索过程中对文本相关性加权获得,所述文本 相关性加权可以根据加权因子的重要性获得文本的相关性权重,所述加权因子可以包括文 本修改时间、语素个数、语素排行、网页的级别技术(PageRank)、外链个数和内链个数 等;最后,重复上述过程直到读取文本库中所有生成编码信息的文本,根据确定的文本的 权重和更新的文本的相关性权重确定文本地址。
在上述技术方案中,如图3所示,所述根据查询的语素通过标题索引并根据超高频词 文本偏移地址位图进行过滤后检索出对应文本的具体过程可以为首先,确定查询的语素 为单语素或多语素;所述语素是组成某意义的语法单位,所述单语素可以理解为单个字或 单个外语单词,所述多语素可以理解为多个字或多个外语单词,例如,"我"为单语素, "您好"为多语素,"hello"为单语素;"happy birthday"为多语素,然后,若查询的语 素为单语素,则根据标题索引确定所述语素覆盖标题对应的编码信息和文本地址,从而检 索到相应的文本。若查询的语素为多语素且所述多语素中全部为中心词,则先将所述语素 中低频词进行归并查找检索到与所述低频词相应的文本,所述归并查找的具体过程可以 为,先根据标题索引和全文索引分别确定各査询语素所覆盖的对应文本地址,后将所述对 应文本地址进行归并,例如,若将语素A、 B和C进行归并查找,则先根据标题索引和全文 索引分别确定语素A、 B和C覆盖的对应文本地址,之后将所述对应文本地址进行归并,语 素A覆盖的对应文本地址为一个归并段,语素B覆盖的对应文本地址为一个归并段,语素C 覆盖的对应文本地址为一个归并段。归并査找后再对所述语素中的超高频词根据标题索引判断所述超高频词是否命中检索到的所述低频词相应文本的标题,若没命中,则结束检索; 若命中,则跳过所述低频词归并査找时同一归并段中超高频词文本偏移地址的对应文本和 当前文本之间检索到的文本,读取跳过后的文本直到所述超高频词没有命中标题为止,从 而获得检索到的文本,所述低频词表示文本覆盖率小于所述预定区间内最小值的词,所述 中心词又可称为定位词,可以表示多语素中紧紧围绕着进行论述的词,例如,"你是个聪 明的人"这个多语素中"人"就是中心词,聪明是非中心词。
若查询的语素为多语素且所述多语素中含有非中心词,则先采用所述查询的语素为多 语素且所述多语素中全部为中心词的检索方法进行检索,若检索的结果满足预定的要求, 则结束检索,若检索的结果不满足预定的要求,则对所述多语素中的中心词进行归并査找, 若通过归并查找获得的文本与已查到的文本重叠,则所述重叠的文本为检索到的文本,并 对所述重叠的文本相关性加权,否则根据文本权重显示检索到的文本。
在上述方案中,如图4所示,所述根据查询的语素通过全文索引并根据高频词标题位 图和高频词全文位图进行过滤后检索出对应文本的具体过程可以为,首先,确定査询的语 素为全低频词或高低频词或全高频词;然后,若查询的语素为全低频词,则对所述语素中 的低频词采用位图打点检索到对应文本,所述位图打点的具体过程为,将各低频词根据标 题索引和全文索引检索到的相应文本依次打点,直到所述低频词的文字个数与所打点数相 同,此低频词检索完毕,重复上述过程直到语素中所有的低频词均检索完毕,则将各低频 词检索到的相应文本合起来即为检索到的文本。若查询的语素为高低频词,则对所述语素 中的低频词采用位图打点检索到对应文本,根据高频词标题位图确定所述语素中的高频词 覆盖标题对应的文本,若通过低频词获得的文本与通过高频词获得的文本重叠,则所述重 叠的文本为检索到的文本,并对所述重叠的文本相关性加权,否则根据文本权重显示检索 到的文本。
若查询的语素为全高频词,则首先根据高频词标题位图确定所述语素中的高频词覆盖 标题对应的文本,若检索的结果满足预定的要求,则结束检索,若检索的结果不满足预定 的要求,则继续根据高频词全文位图确定所述语素中的高频词覆盖全文对应的文本。
具体实施例一、本实施例以查询的语素为"世界人民世界和平世界未來"为例根据 建好的索引项进行检索,具体的步骤如图5所示,
步骤一、确定所査询的语素为多语素,含有中心词"世界"以及非中心词"人民、和 平、未来";
歩骤二、若所述查询的语素中"世界未来"是低频词,"世界人民"是高频词,"世界和平"是超高频词,则对"世界未来"进行归并查找检索到相应的文本;
步骤三、判断"世界和平"根据标题索引是否命中检索到的文本的标题,若没命中, 则结束检索,通过"世界未来"检索到的相应文本即为检索结果;若命中,则执行步骤四;
步骤四、跳过"世界未来"检索时同一归并段中"世界和平"对应文本偏移地址的对 应文本和当前文本之间检索到的文本,所述"世界和平"对应文本偏移地址是根据超高频 文本偏移地址位图得到的,读取跳过后的文本直到"世界和平"没有命中检索到的文本的 标题为止,从而获得相应的文本;
步骤五、判断获得的相应文本是否符合预定的要求,若检索的结果满足预定的要求, 则结束检索;若检索的结果不满足预定的要求,则执行步骤六;
步骤六、确定所述査询的语素为高低频词,则将"世界未来"通过位图打点检索到相 应的文本,根据高频词标题位图检索到与"世界人民"相应文本的编码信息和文本地址, 从而检索到相应的文本;
步骤七、判断通过"世界未来"检索到的文本与通过"世界人民"检索到的文本是否 重叠,若重叠,执行歩骤八,若不重叠,则结束检索,根据文本的权重显示检索到的文本;
歩骤八、所述重叠的文本即为检索的最终文本,并将所述重叠的文本相关性加权,从 而更新文本的相关性权重。
本发明实施例提供的一种文本检索装置的技术方案,如图6所示,包括
文本地址确定模块l,用于生成编码信息,并根据文本库中的文本权重确定文本地址, 所述编码信息用于指示文本的顺序;
索引项确定模块2,用于根据文本地址确定模块l生成的编码信息和确定的文本地址建 立索引项,所述索引项包括标题索引、全文索引、高频词标题位图、高频词全文位图和超 高频词文本偏移地址位图;所述标题索引,用于记录标题对应文本的编码信息和文本地址; 所述全文索引,用于记录全文对应文本的编码信息和文本地址,所述全文包括标题和内容; 所述高频词标题位图,用于记录各高频词出现在标题的对应文本的编码信息和文本地址; 所述高频词全文位图,用于记录各高频词出现在全文的对应文本的编码信息和文本地址; 所述超高频词文本偏移地址位图,用于记录各超高频词出现在标题的对应文本中占据文本 地址最大的文本在标题索引的文本地址中的偏移地址;所述高频词表示文本覆盖率在预定 区间内的词,所述超高频词表示文本覆盖率超过所述预定区间内最大值的词;
检索模块3,用于根据查询的语素通过索引项确定模块2中的标题索引并根据超高频词 文本偏移地址位图进行过滤后检索出对应文本,若检索的结果满足预定的要求,则结束检
1索;若检索的结果不满足预定的要求,则根据查询的语素通过索引项确定模块2中的全文 索弓I并根据高频词标题位图和高频词全文位图进行过滤后检索出对应文本。
在上述技术方案中,如图7所示,所述文本地址确定模块l具体包括
分词子模块ll,用于读取文本库中的一篇文本,解析文本中的字段,并生成分词结果;
权重确定子模块12,用于根据分词子模块ll生成的所述分词结果,决定各字段的组合 方式,确定当前文本的权重并更新文本的相关性权重;
文本地址生成子模块13,用于通过读取文本库中所有生成编码信息的文本根据权重确 定子模块12确定的文本的权重和更新的文本的相关性权重确定文本地址。
在上述技术方案中,如图8所示,所述检索模块3包括
第一语素确定子模块31,用于确定查询的语素为单语素或多语素,若为单语素,则送 入单语素检索子模块,若为多语素,则送入多语素检索子模块;
所述单语素检索子模块32,用于将所述单语素根据标题索引确定所述语素覆盖标题对 应的编码信息和文本地址,从而检索到相应的文本;
所述多语素检索子模块33,包括
判断子模块331,用于判断所述多语素中是否全部为中心词,若是,则送入中心词检 索子模块332,若否,则送入非中心词检索子模块333;
所述中心词检索子模块332,用于先将所述语素中的低频词进行归并查找检索到与所 述低频词相应的文本,再对所述语素中的超高频词根据标题索引判断所述超高频词是否命 中检索到的所述低频词相应文本的标题,若没命中,则结束检索;若命中,则跳过所述低 频词归并查找时同 一归并段中超高频词文本偏移地址的对应文本和当前文本之间检索到 的文本,读取跳过后的文本直到所述超高频词没有命中标题为止,所述低频词表示文本覆 盖率小于所述预定区间内最小值的词;
所述非中心词检索子模块333,用于先采用所述中心词检索子模块332进行检索,若检 索的结果满足预定的要求,则结束检索,若检索的结果不满足预定的要求,则对所述多语 素中的中心词进行归并查找,若通过归并查找获得的文本与已查到的文本重叠,则所述重 叠的文本为检索到的文本,并对所述重叠的文本相关性加权,否则根据文本权重显示检索 到的文本。
在上述技术方案中,如图9所示,所述检索模块3还包括
第二语素确定子模块34,用于确定査询的语素为全低频词或高低频词或全高频词,若 为全低频词,送入全低频词检索子模块35;若为高低频词,则送入高低频检索子模块36;若为全高频词,则送入全高频词检索子模块36;
全低频词检索子模块35,用于对所述语素中的低频词采用位图打点检索到对应文本;
高低频词检索子模块36,用于对所述语素中的低频词采用位图打点检索到对应文本, 根据高频词标题位图确定所述语素中的高频词覆盖标题对应的文本,当两次获得的文本重 叠时,对所述重叠的文本相关性加权;
全高频词检索子模块37,用于首先根据高频词标题位图确定所述语素中的高频词覆盖 标题对应的文本,若检索的结果满足预定的要求,则结束检索,若检索的结果不满足预定 的要求,则继续根据高频词全文位图确定所述语素中的高频词覆盖全文对应的文本。
在上述技术方案中,所述预定的要求,是根据对检索结果的要求确定的,具体可以表 示检索到的文本包含了需要的文本,也可以表示检索到的文本数大于预定值,若査询者只 是想大概的查询一下结果,并没有很高的要求,则所述预定值可以小一些,比如30或50, 若査询者要求精确度高,想全面的査询,则所述预定值可以大一些,比如300或500;所述 预定的要求还可以表示满足文本质量等级的文本数大于特定阈值,所述文本质量等级是根 据查询的语素与检索到的文本的匹配度确定的,所述特定阈值可以根据查询者的具体要求 来确定,比如可以为50,也可以为IOO,若查询者只是想大概的查询一下结果,并没有很 高的要求,则可以把查询的语素与检索到的文本的匹配度设置的小一些,比如匹配度设置 为30%或50%,若査询者要求精确度高,想全面的查询,则可以把查询的语素与检索到的 文本的匹配度设置的大一些,比如80%或90%。
上述装置中包含的各模块的处理功能的具体实现方式在之前的方法实施例中已经描 述,在此不再重复描述。
本发明实施例所述的一种文本检索的方法及装置,本发明实施方式提供的技术方案在 标题索引和全文索引的基础上增加了高频词标题位图、高频词全文位图和超高频词文本偏 移地址位图,在检索的过程中先通过标题索引和超高频词文本偏移地址位图检索,起到了 快速归并的效果,提高了系统的性能,当检索的结果不符合预定的要求时再通过全文索引、 高频词标题位图、高频词全文位图进行检索,在大幅度提高了系统性能的同时,提高了好 结果的召回率,从而提高了检索的准确率和系统的准确率和召回率,提高了用户的体验。
以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此,任 何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都 应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围 为准。
权利要求
1、一种文本检索的方法,其特征在于,包括,生成编码信息,并根据文本库中的文本权重确定文本地址,所述编码信息用于指示文本的顺序;根据生成的编码信息和确定的文本地址建立索引项,所述索引项包括标题索引、全文索引、高频词标题位图、高频词全文位图和超高频词文本偏移地址位图;根据查询的语素通过标题索引并根据超高频词文本偏移地址位图进行过滤后检索出对应文本,若检索的结果不满足预定的要求,则根据查询的语素通过全文索引并根据高频词标题位图和高频词全文位图进行过滤后检索出对应文本。
2、 根据权利要求l所述的方法,其特征在于,所述标题索引、全文索引、高频词标题 位图、高频词全文位图和超高频词文本偏移地址位图具体为所述标题索引,用于记录标题对应文本的编码信息和文本地址;所述全文索引,用于 记录全文对应文本的编码信息和文本地址,所述全文包括标题和内容;所述高频词标题位 图,用于记录各高频词出现在标题的对应文本的编码信息和文本地址;所述高频词全文位 图,用于记录各高频词出现在全文的对应文本的编码信息和文本地址;所述超高频词文本 偏移地址位图,用于记录各超高频词出现在标题的对应文本中占据文本地址最大的文本在 标题索引的文本地址中的偏移地址;所述高频词表示文本覆盖率在预定区间内的词,所述 超高频词表示文本覆盖率超过所述预定区间内最大值的词。
3、 根据权利要求l所述的方法,其特征在于,所述根据文本库中的文本权重确定文本 地址的过程具体包括读取文本库中的一篇文本,解析文本中的字段,并生成分词结果;根据生成的所述分词结果,决定各字段的组合方式,确定当前文本的权重并更新文本 的相关性权重;重复上述过程直到读取文本库中所有生成编码信息的文本,根据确定的文本的权重和 更新的文本的相关性权重确定文本地址。
4、 根据权利要求2所述的方法,其特征在于,所述根据查询的语素通过标题索引并根 据超高频词文本偏移地址位图进行过滤后检索出对应文本的具体过程包括确定查询的语素为单语素或多语素;若查询的语素为单语素,则根据标题索引确定所述语素覆盖标题对应的编码信息和文本地址,从而检索到相应的文本;若査询的语素为多语素且所述多语素中全部为中心词,则先将所述语素中低频词进行 归并查找检索到与所述低频词对应的文本,再对所述语素中的超高频词根据标题索引判断 所述超高频词是否命中检索到的所述低频词对应文本的标题,若没命中,则结束检索;若 命中,则跳过所述低频词归并査找时同一归并段中超高频词文本偏移地址的对应文本和当 前文本之间检索到的文本,读取跳过后的文本直到所述超高频词没有命中标题为止,从而 获得检索到的文本,所述低频词表示文本覆盖率小于所述预定区间内最小值的词;若査询的语素为多语素且所述多语素中含有非中心词,则先采用所述查询的语素为多 语素且所述多语素中全部为中心词的检索方法进行检索,若检索的结果满足预定的要求, 则结束检索,若检索的结果不满足预定的要求,则对所述多语素中的中心词进行归并查找, 若通过归并查找获得的文本与已查到的文本重叠,则所述重叠的文本为检索到的文本,并 对所述重叠的文本相关性加权,否则根据文本权重显示检索到的文本。
5、 根据权利要求2所述的方法,其特征在于,所述根据査询的语素通过全文索引并根 据高频词标题位图和高频词全文位图进行过滤后检索出对应文本的具体过程为确定查询的语素为全低频词或高低频词或全高频词;若查询的语素为全低频词,则对所述语素中的低频词采用位图打点检索到对应文本; 若查询的语素为高低频词,则对所述语素中的低频词采用位图打点检索到对应文本, 根据高频词标题位图确定所述语素中的高频词覆盖标题对应的文本,若通过低频词获得的 文本与通过高频词获得的文本重叠,则所述重叠的文本为检索到的文本,并对所述重叠的 文本相关性加权,否则根据文本权重显示检索到的文本;若査询的语素为全高频词,则首先根据高频词标题位图确定所述语素中的高频词覆盖 标题对应的文本,若检索的结果满足预定的要求,则结束检索,若检索的结果不满足预定 的要求,则继续根据高频词全文位图确定所述语素中的高频词覆盖全文对应的文本。
6、 根据权利要求1或2或4或5所述的方法,其特征在于,所述预定的要求,是根据对 检索结果的要求确定的,具体包括检索到的文本包含需要的文本,或检索到的文本数大 于预定值,或满足文本质量等级的文本数大于特定阈值,所述文本质量等级是根据查询的 语素与检索到的文本的匹配度确定的。
7、 一种文本检索的装置,其特征在于,包括文本地址确定模块,用于生成编码信息,并根据文本库中的文本权重确定文本地址, 所述编码信息用于指示文本的顺序;索引项确定模块,用于根据文本地址确定模块生成的编码信息和确定的文本地址建立 索引项,所述索引项包括标题索引、全文索引、高频词标题位图、高频词全文位图和超高频词文本偏移地址位图;检索模块,用于根据查询的语素通过索引项确定模块中的标题索引并根据超高频词文 本偏移地址位图进行过滤后检索出对应文本,若检索的结果不满足预定的要求,则根据查 询的语素通过索引项确定模块中的全文索引并根据高频词标题位图和高频词全文位图进 行过滤后检索出对应文本。
8、 根据权利要求7所述的装置,其特征在于,所述索引项确定模块中的标题索引、全 文索引、高频词标题位图、高频词全文位图和超高频词文本偏移地址位图具体为-所述标题索引,用于记录标题对应文本的编码信息和文本地址;所述全文索引,用于 记录全文对应文本的编码信息和文本地址,所述全文包括标题和内容;所述高频词标题位 图,用于记录各高频词出现在标题的对应文本的编码信息和文本地址;所述高频词全文位 图,用于记录各高频词出现在全文的对应文本的编码信息和文本地址;所述超高频词文本 偏移地址位图,用于记录各超高频词出现在标题的对应文本中占据文本地址最大的文本在 标题索引的文本地址中的偏移地址;所述高频词表示文本覆盖率在预定区间内的词,所述 超高频词表示文本覆盖率超过所述预定区间内最大值的词;
9、 根据权利要求7所述的装置,其特征在于,所述文本地址确定模块具体包括 分词子模块,用于读取文本库中的一篇文本,解析文本中的字段,并生成分词结果; 权重确定子模块,用于根据分词子模块生成的所述分词结果,决定各字段的组合方式,确定当前文本的权重并更新文本的相关性权重;文本地址生成子模块,用于通过读取文本库中所有生成编码信息的文本根据权重确定 子模块确定的文本的权重和更新的文本的相关性权重确定文本地址。
10、 根据权利要求8所述的装置,其特征在于,所述检索模块包括 第一语素确定子模块,用于确定查询的语素为单语素或多语素,若为单语素,则送入单语素检索子模块,若为多语素,则送入多语素检索子模块;所述单语素检索子模块,用于将所述单语素根据标题索引确定所述语素覆盖标题对应 的编码信息和文本地址,从而检索到相应的文本;所述多语素检索子模块,包括判断子模块,用于判断所述多语素中是否全部为中心词,若是,则送入中心词检索子 模块,若否,则送入非中心词检索子模块;所述中心词检索子模块,用于先将所述语素中的低频词进行归并査找检索到与所述低 频词相应的文本,再对所述语素中的超高频词根据标题索引判断所述超高频词是否命中检 索到的所述低频词相应文本的标题,若没命中,则结束检索;若命中,则跳过所述低频词 归并査找时同一归并段中超高频词文本偏移地址的对应文本和当前文本之间检索到的文 本,读取跳过后的文本直到所述超高频词没有命中标题为止,从而获得检索到的文本,所 述低频词表示文本覆盖率小于所述预定区间内最小值的词;所述非中心词检索子模块,用于先采用所述中心词检索子模块进行检索,若检索的结 果满足预定的要求,则结束,若检索的结果不满足预定的要求,则对所述多语素中的中心 词进行归并查找,若通过归并査找获得的文本与已査到的文本重叠,则所述重叠的文本为 检索到的文本,并对所述重叠的文本相关性加权,否则根据文本的权重显示检索到的文本。
11、 根据权利要求8所述的装置,其特征在于,所述检索模块还包括 第二语素确定子模块,用于确定查询的语素为全低频词或高低频词或全高频词,若为全低频词,送入全低频词检索子模块;若为高低频词,则送入高低频检索子模块;若为全高频词,则送入全高频词检索子模块;全低频词检索子模块,用于对所述语素中的低频词采用位图打点检索到对应文本; 高低频词检索子模块,用于对所述语素中的低频词采用位图打点检索到对应文本,根据高频词标题位图确定所述语素中的高频词覆盖标题对应的文本,若通过低频词获得的文本与通过高频词获得的文本重叠,则所述重叠的文本为检索到的文本,并对所述重叠的文本相关性加权,否则根据文本权重显示检索到的文本;全高频词检索子模块,用于首先根据高频词标题位图确定所述语素中的高频词覆盖标题对应的文本,若检索的结果满足预定的要求,则结束检索,若检索的结果不满足预定的要求,则继续根据高频词全文位图确定所述语素中的高频词覆盖全文对应的文本。
12、 根据权利要求7或8或10或11所述的装置,其特征在于,所述预定的要求,是根据 对检索结果的要求确定的,具体包括检索到的文本包含需要的文本,或检索到的文本数 大于预定值,或满足文本质量等级的文本数大于特定阈值,所述文本质量等级是根据查询 的语素与检索到的文本的匹配度确定的。
全文摘要
一种文本检索的方法及装置,首先,生成编码信息,并根据文本库中的文本权重确定文本地址,然后,根据生成的编码信息和确定的文本地址建立索引项,所述索引项包括标题索引、全文索引、高频词标题位图、高频词全文位图和超高频词文本偏移地址位图,最后,根据查询的语素通过标题索引并根据超高频词文本偏移地址位图进行过滤后检索出对应文本,若检索的结果满足预定的要求,则结束检索;若检索的结果不满足预定的要求,则根据查询的语素通过全文索引并根据高频词标题位图和高频词全文位图进行过滤后检索出对应文本。本发明实施方式提供的技术方案能够加快检索的速度,从而提高了检索的准确率和系统的检索性能。
文档编号G06F17/30GK101599078SQ200910088750
公开日2009年12月9日 申请日期2009年7月10日 优先权日2009年7月10日
发明者哲 袁 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1