一种词语关联表的生成方法及装置的制造方法

文档序号:8445629阅读:367来源:国知局
一种词语关联表的生成方法及装置的制造方法
【技术领域】
[0001]本发明涉及数据处理技术领域,特别涉及一种词语关联表的生成方法及装置。
【背景技术】
[0002]随着信息技术的飞速发展,当今社会进入了信息爆炸时代,人们越来越多地借助网络来寻找自己需要的信息,因此,检索成为人们工作、生活不可或缺的一部分。
[0003]人们通常使用搜索引擎来进行检索,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。
[0004]现有技术中,搜索引擎在对信息进行组织和处理时,会直接存储信息内容本身,以地点为例,如果地点是北京,则在地点字段中保存文字北京,这样需要大量的存储空间,并且在后续提供检索服务时,检索速度较慢。

【发明内容】

[0005]本发明提供一种词语关联表的生成方法及装置,用以实现节约资源存储空间、提高检索速度的目的。
[0006]本发明提供一种词语关联表的生成方法,包括:
[0007]从词典数据表的多条数据资源信息中选取多个词的标识;
[0008]对于所述多个词中的每两个词,在词语关联表中查找该两个词的标识是否存在;
[0009]若不存在,则初始该两个词的关联深度值至初始值,并将该两个词的标识以及关联深度值作为词语关联表的数据项进行存储。
[0010]在本发明一实施例中,所述对于所述多个词中的每两个词,在词语关联表中查找该两个词的标识是否存在之后,还包括:
[0011]若存在,则将该两个词的关联深度值加上第一预设数值。
[0012]在本发明一实施例中,所述多条数据资源信息中的各条数据资源信息包括数据资源发布者,数据资源发布时间,数据资源的属性,数据资源中的人物、地点、机构,数据资源的关键词中的一项或多项,所述各条数据资源信息中各项信息以其各自在词典表中的标识的形式存储在所述词典数据表中。
[0013]在本发明一实施例中,所述方法还包括:
[0014]对于所述词语关联表中的各数据项,以预设周期检查当前时刻距离初始的存储时刻是否超出指定时长;
[0015]若是,则将该数据项对应的关联深度值减去第二预设数值。
[0016]在本发明一实施例中,所述方法还包括:
[0017]对于所述词语关联表中的各数据项,当该数据项对应的关联深度值为指定数值时,删除该数据项。
[0018]本发明还提供一种词语关联表的生成装置,包括:
[0019]选取模块,用于从词典数据表的多条数据资源信息中选取多个词的标识;
[0020]查找模块,用于对于所述多个词中的每两个词,在词语关联表中查找该两个词的标识是否存在;
[0021]处理模块,用于所述查找模块在词语关联表中未查找该两个词的标识,则初始该两个词的关联深度值至初始值,并将该两个词的标识以及关联深度值作为词语关联表的数据项进行存储。
[0022]在本发明一实施例中,所述处理模块还用于:
[0023]若所述查找模块在词语关联表中查找到该两个词的标识,则将该两个词的关联深度值加上第一预设数值。
[0024]在本发明一实施例中,所述多条数据资源信息中的各条数据资源信息包括数据资源发布者,数据资源发布时间,数据资源的属性,数据资源中的人物、地点、机构,数据资源的关键词中的一项或多项,所述各条数据资源信息中各项信息以其各自在词典表中的标识的形式存储在所述词典数据表中。
[0025]在本发明一实施例中,所述装置还包括:
[0026]检查模块,用于对于所述词语关联表中的各数据项,以预设周期检查当前时刻距离初始的存储时刻是否超出指定时长;
[0027]所述处理模块,还用于若所述检查模块检查当前时刻距离初始的存储时刻超出指定时长,则将该数据项对应的关联深度值减去第二预设数值。
[0028]在本发明一实施例中,所述装置还包括:
[0029]删除模块,用于对于所述词语关联表中的各数据项,当该数据项对应的关联深度值为指定数值时,删除该数据项。
[0030]本发明实施例的一些有益效果可以包括:
[0031]本发明实施例中,从词典数据表的多条数据资源信息中选取多个词的标识,对于多个词中的每两个词,在词语关联表中查找该两个词的标识是否存在,若不存在,则初始该两个词的关联深度值至初始值,并将该两个词的标识以及关联深度值作为词语关联表的数据项进行存储。若存在,则将该两个词的关联深度值加上第一预设数值。由此,本发明在词语关联表中存储词的标识,相比于现有技术中存储词本身,节约了资源存储空间。进一步,本发明在词语关联表中查找两个词的标识是否存在,相比于现有技术中查找词本身,能够提高查找速度。此外,本发明在词语关联表中存储每两个词的标识以及关联深度值,以备后续搜索使用。
[0032]本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0033]下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
【附图说明】
[0034]附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0035]图1为本发明一实施例中词语关联表的生成方法的流程图;
[0036]图2为本发明一实施例提供的词典表的结构字段示意图;
[0037]图3为本发明一实施例提供的词典数据表的结构字段示意图;
[0038]图4为本发明一实施例提供的词语关联表的结构字段示意图;
[0039]图5为本发明一实施例中词语关联表的生成装置的结构示意图;
[0040]图6为本发明另一实施例中词语关联表的生成装置的结构示意图;以及
[0041]图7为本发明又一实施例中词语关联表的生成装置的结构示意图。
【具体实施方式】
[0042]以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0043]图1所示为本发明一实施例中词语关联表的生成方法的流程图,该方法包括以下步骤 S11-S13:
[0044]步骤S11,从词典数据表的多条数据资源信息中选取多个词的标识。
[0045]在该步骤中,多条数据资源信息中的各条数据资源信息包括数据资源发布者,数据资源发布时间,数据资源的属性,数据资源中的人物、地点、机构,数据资源的关键词中的一项或多项,所述各条数据资源信息中各项信息以其各自在词典表中的标识的形式存储在所述词典数据表中。
[0046]步骤S12,对于多个词中的每两个词,在词语关联表中查找该两个词的标识是否存在。
[0047]步骤S13,若不存在,则初始该两个词的关联深度值至初始值,并该两个词的标识以及关联深度值作为词语关联表的数据项进行存储。
[0048]在该步骤中,例如初始值取0,当然还可以取其它数值。
[0
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1