基于索引表检索的方法及装置的制造方法

文档序号:8258743阅读:678来源:国知局
基于索引表检索的方法及装置的制造方法
【技术领域】
[0001]本申请涉及信息检索技术领域,具体涉及一种基于索引表进行检索的方法及装置。
【背景技术】
[0002]互联网技术的发展给人类的生活带来了极大的方便,各种各样的内容充斥着网络,如何在互联网的海洋中找到自己关注的内容也是互联网开发者们一直努力解决的问题。每一个网站都有自己的搜索引擎,现有技术中的网站的搜索引擎在接收到用户发起的搜索请求后,会通过接口将搜索到的相关结果反馈给用户。
[0003]因此,如何通过一种如何准确、快速地利用这种索引结构搜索到相关搜索信息并反馈给用户成为了亟待解决的一技术问题。

【发明内容】

[0004]本申请的目的在于提供一种基于索引表进行检索的方法及装置。
[0005]为了达成上述目的,本申请揭示了一种基于索引表进行检索的方法,包括:为收集的文本分配文本标识,并对所述文本进行分词处理;根据所述文本处理后得到的各分词提取所述文本的参数信息,并依据所述文本的参数信息更新索引表;识别用户输入的搜索词并对所述搜索词进行分词,根据分词处理所得到的多个分词中的每一个分别在所述索引表中进行遍历,输出遍历结果。
[0006]进一步地,根据所述文本处理后得到的各分词提取所述文本的参数信息,并依据所述文本的参数信息更新索引表,包括:统计所述文本处理后得到的各分词在所述文本内出现的次数以及出现的位置,并依据各分词在所述文本内出现的次数以及出现的位置形成所述文本内各分词的共生信息进行存储;将所述文本标识绑定在所述文本内各分词的共生信息中,将绑定处理后的各分词的共生信息与索引表中的相应分词建立对应关系从而更新所述索引表。
[0007]进一步地,依据各分词在所述文本内出现的次数以及出现的位置形成所述文本内各分词的共生信息进行存储,包括:以内存区块的方式对各分词的共生信息进行存储,一个内存区块存储一个或多个文本内各分词的共生信息,属于同一个文本的所有分词的共生信息被分配至同一个内存区块,每个内存区块内待存储的各分词的共生信息由当前可用的最尚地址开始进彳丁存储。
[0008]进一步地,在每个内存区块内设置有时间戳,所述时间戳记录每个内存区块内最近一次的存储时间;以单向环形链表组织多个内存区块,以头指针和尾指针分别标识起始内存区块和结束内存区块,从头指针到尾指针的方向上,各内存区块的时间戳所显示的存储时间距当前时间越来越远。
[0009]进一步地,将绑定处理后的各分词的共生信息与索引表中的相应分词建立对应关系从而更新所述索引表,包括:采用双向环形链表建立所述索引表,所述索引表中每个节点对应一分词并存储与所述分词对应的共生信息;对于绑定处理后的各分词的共生信息,根据所述各分词中的每一个,在所述索引表的节点上进行遍历,当命中某一分词时,在命中的所述分词对应的节点上存储绑定处理后的对应分词的共生信息,或,当没有命中的分词时,在所述索引表中的空白节点上创建所述没有命中的分词,并在所述空白节点上存储经绑定处理后的所述没有命中的分词的共生信息。
[0010]进一步地,周期性对所述索引表中的所有节点的有效性进行查询,当节点内存储的绑定处理后的所有分词的共生信息失效时,在所述索引表中屏蔽所述节点;当所述节点被屏蔽的时长超过一预设门限,清空所述节点,保留所述节点的内存空间。
[0011]进一步地,识别用户输入的搜索词并对所述搜索词进行分词,根据分词处理所得到的多个分词中的每一个分别在所述索引表中进行遍历,输出遍历结果,包括:识别用户输入的搜索词并对所述搜索词进行分词,根据分词处理所得到的多个分词中的每一个分别在所述索引表中进行遍历,获得命中的多个节点;针对命中的每一个节点,分别获取所述节点内所存储的所有共生信息形成一组共生信息,从而得到与所述命中的节点数对应的多组共生信息;由所述多组共生信息中提取出具有同一文本标识的共生信息,对于具有同一文本标识的共生信息,成对地比较所述同一文本标识的共生信息中对应分词在文本中出现的位置以及出现的次数,当所述对应分词在文本中出现的位置之间的距离小于或等于一第一门限且所述次数小于或等于一第二门限时,将所述同一文本标识进行输出。
[0012]进一步地,根据所述文本处理后得到的各分词提取所述文本的参数信息,并依据所述文本的参数信息更新索引表,包括:计算所述分词的个数,将所述分词的个数作为文本长度,还记录所述文本长度的获取时间;将所述文本标识、所述文本长度或所述文本长度的获取时间中一种或多种的组合,与所述文本进行合并作为文本信息对象,根据所述文本信息对象更新索引表。
[0013]进一步地,根据所述文本信息对象更新索引表,包括:将文本标识作为源码,与预设的掩码经过按位运算或逻辑运算映射为操作数,将所述映射得到的操作数作为内存地址;根据所述内存地址对所述文本标识对应的文本信息对象进行存储。
[0014]进一步地,根据所述文本信息对象更新索引表,包括:周期性检测为所存储的文本信息对象设置的有效位标识,当所述文本信息对象内文本长度的获取时间距当前时间超过一预设时长,将所述文本信息对象的有效位标识设置为失效。
[0015]进一步地,识别用户输入的搜索词并对所述搜索词进行分词,根据分词处理所得到的多个分词中的每一个分别在所述索引表中进行遍历,输出遍历结果,包括:识别用户输入的搜索词并对所述搜索词进行分词,根据分词处理所得到的多个分词中的每一个分别在所述索引表内所存储的有效的文本信息对象的文本中进行遍历,将命中的文本信息对象输出。
[0016]为了达成上述目的,本申请还揭示了一种基于索引表进行检索的装置,包括:分词配置模块,用于为收集的文本分配文本标识,并对所述文本进行分词处理;索引更新模块,用于根据所述文本处理后得到的各分词提取所述文本的参数信息,并依据所述文本的参数信息更新索引表;检索模块,用于识别用户输入的搜索词并对所述搜索词进行分词,根据分词处理所得到的多个分词中的每一个分别在所述索引表中进行遍历,输出遍历结果。
[0017]与现有技术相比,本申请可以获得包括以下技术效果:
[0018]I)本申请集合了对索引表进行建立和更新的机制,并依托于上述索引表进行搜索,能够更加合理高效快速的捕捉到用户发起的搜索请求的目标结果。
[0019]2)本申请通过接口搜索到的相关结果进行分词并获取共生信息形成索引结构从而对索引表进行建立和更新,从而大大降低了存储的数据量,并且加快了在索引表中检索遍历的速度,以便于更加合理高效快速的捕捉到用户发起的搜索请求的目标结果。
[0020]当然,以上技术效果并不一定要同时达成。
【附图说明】
[0021]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0022]图1为本申请实施例的方法流程示意图。
[0023]图2为图1中步骤S102的方法流程示意图。
[0024]图3为图1中步骤S104的方法流程示意图。
[0025]图4为图1中步骤S102?S104的方法流程示意图。
[0026]图5为本申请实施例的装置结构图。
[0027]图6为本申请实施例的又一装置结构图。
[0028]图7为本申请实施例的又一装置结构图。
【具体实施方式】
[0029]以下将配合附图及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
[0030]如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
[0031]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1