一种词典表的生成及其应用方法及装置的制造方法

文档序号:8445627阅读:360来源:国知局
一种词典表的生成及其应用方法及装置的制造方法
【技术领域】
[0001]本发明涉及数据处理技术领域,特别涉及一种词典表的生成方法及装置,以及一种词典表的应用方法及装置。
【背景技术】
[0002]随着信息技术的飞速发展,当今社会进入了信息爆炸时代,人们越来越多地借助网络来寻找自己需要的信息,因此,检索成为人们工作、生活不可或缺的一部分。
[0003]人们通常使用搜索引擎来进行检索,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。
[0004]现有技术中,搜索引擎在对信息进行组织和处理时,会直接存储信息内容本身,以人物为例,如果人物是张三,则在人物字段中保存文字张三,这样需要大量的存储空间,并且在后续提供检索服务时,检索速度较慢。

【发明内容】

[0005]本发明提供一种词典表的生成方法及装置,以及一种词典表的应用方法及装置,用以实现节约资源存储空间、提高检索速度的目的。
[0006]本发明提供一种词典表的生成方法,包括:
[0007]计算一个或多个词的哈希hash值;
[0008]分配所述一个或多个词各自即将在词典表中的标识;
[0009]将所述一个或多个词本身、各自即将在词典表中的标识以及各自对应的hash值作为所述词典表的数据项进行存储。
[0010]在本发明一实施例中,所述方法还包括:
[0011]当存在新词即将存储至所述词典表时,计算所述新词的hash值;
[0012]查找所述词典表的数据项中是否已存在所述新词的hash值;
[0013]若不存在,则分配所述新词即将在所述词典表中的标识,并将所述新词本身、其即将在所述词典表中的标识以及其对应的hash值作为所述词典表的数据项存储至所述词典表中。
[0014]在本发明一实施例中,所述查找所述词典表的数据项中是否已存在所述新词的hash值之后,还包括:
[0015]若存在,则确定所述词典表中已存在所述新词,从而对所述新词不再进行存储操作。
[0016]本发明还提供一种词典表的应用方法,包括:
[0017]若当前需要对词进行存储时,向词典表发送查找该词的标识的查找请求,其中,所述查找请求中携带有该词的hash值;
[0018]接收所述词典表根据该词的hash值查找到的该词的标识;
[0019]存储该词的标识,以实现对该词的存储。
[0020]相应的,本发明还提供一种词典表的应用方法,包括:
[0021 ] 接收查找词典表中某词的标识的查找请求,其中,所述查找请求中携带有该词的hash 值;
[0022]根据该词的hash值查找该词的标识;
[0023]返回该词的标识。
[0024]本发明还提供一种词典表的生成装置,包括:
[0025]计算模块,用于计算一个或多个词的哈希hash值;
[0026]分配模块,用于分配所述一个或多个词各自即将在词典表中的标识;
[0027]存储模块,用于将所述一个或多个词本身、各自即将在词典表中的标识以及各自对应的hash值作为所述词典表的数据项进行存储。
[0028]在本发明一实施例中,所述装置还包括:
[0029]查找模块,用于当存在新词即将存储至所述词典表时,所述计算模块计算所述新词的hash值之后,查找所述词典表的数据项中是否已存在所述新词的hash值;
[0030]所述分配模块,还用于若所述查找模块查找所述词典表的数据项中不存在所述新词的hash值,则分配所述新词即将在所述词典表中的标识;
[0031]所述存储模块,还用于将所述新词本身、其即将在所述词典表中的标识以及其对应的hash值作为所述词典表的数据项存储至所述词典表中。
[0032]在本发明一实施例中,所述装置还包括:
[0033]处理模块,用于若所述查找模块查找所述词典表的数据项中存在所述新词的hash值,则确定所述词典表中已存在所述新词,从而对所述新词不再进行存储操作。
[0034]本发明还提供一种词典表的应用装置,包括:
[0035]请求发送模块,用于若当前需要对词进行存储时,向词典表发送查找该词的标识的查找请求,其中,所述查找请求中携带有该词的hash值;
[0036]标识接收模块,用于接收所述词典表根据该词的hash值查找到的该词的标识;
[0037]标识存储模块,用于存储该词的标识,以实现对该词的存储。
[0038]相应的,本发明还提供一种词典表的应用装置,包括:
[0039]请求接收模块,用于接收查找词典表中某词的标识的查找请求,其中,所述查找请求中携带有该词的hash值;
[0040]标识查找模块,用于根据该词的hash值查找该词的标识;
[0041 ] 标识发送模块,用于返回该词的标识。
[0042]本发明实施例的一些有益效果可以包括:
[0043]本发明实施例中,计算一个或多个词的hash值,并分配一个或多个词各自即将在词典表中的标识,随后将一个或多个词、各自即将在词典表中的标识以及各自对应的hash值作为词典表的数据项进行存储。由于hash值是一串字符,从而在词典表中查找词时,可以以hash值(即字符形式)进行查找,相比于现有技术中以词本身(即文字形式)查找,查找更灵活、速度更快。进一步,词典表中存储了各个词的标识,从而在后续工作中可以以词的标识进行存储,而无需存储词本身,节约了资源存储空间。
[0044]本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0045]下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
【附图说明】
[0046]附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0047]图1为本发明一实施例中词典表的生成方法的流程图;
[0048]图2为本发明一实施例中词典表的应用方法的流程图;
[0049]图3为本发明另一实施例中词典表的应用方法的流程图;
[0050]图4为本发明一实施例中词典表的生成装置的结构示意图;
[0051]图5为本发明另一实施例中词典表的生成装置的结构示意图;
[0052]图6为本发明又一实施例中词典表的生成装置的结构示意图;
[0053]图7为本发明一实施例中词典表的应用装置的结构不意图;以及
[0054]图8为本发明另一实施例中词典表的应用装置的结构不意图。
【具体实施方式】
[0055]以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0056]图1所示为本发明一实施例中词典表的生成方法的流程图,该方法包括以下步骤S11-S13:
[0057]步骤Sll,计算一个或多个词的hash值。
[0058]步骤S12,分配一个或多个词各自即将在词典表中的标识。
[0059]步骤S13,将一个或多个词本身、各自即将在词典表中的标识以及各自对应的hash值作为词典表的数据项进行存储。
[0060]本发明实施例中,计算一个或多个词的hash值,并分配一个或多个词各自即将在词典表中的标识,随后将一个或多个词本身、各自即将在词典表中的标识以及各自对应的hash值作为词典表的数据项进行存储。由于hash值是一串字符,从而在词典表中查找词时,可以以hash值(即字符形式)进行查找,相比于现有技术中以词本身(即文字形式)查找,查找更灵活、速度更快。进一步,词典表中存储了各个词的标识,从而在后续工作中可以以词的标识进行存储,而无需存储词本身,节约了资源存储空间。
[0061]上文步骤SI I中提及的词的hash值,可以是词的MD5 (Message DigestAlgorithm,消息摘要算法第五版)值,如可以截取MD5值的前16位;还可以值词的SHAl (Secure HashAlgorithm,安全哈希算法)值;还可以通过其它算法计算词的hash值,本发明不限于此。
[0062]在本发明一实施例中,词典表的数据项中除了可以包括词本身、词的标识以及词的hash值这些字段外,还可以包括词对应的文档属性、更新时间等,如在电视节目数据中,词对应的文档属性包括词对应的频道、栏目等。这里,词典表、词本身、词的标识以及词的hash值这些字段的可以分别表示为tixmain-data-term、value、ID、termkey,当然,此处仅是示意性的,并不限制本发明。
[0063]在本发明另一实施例中,当存在新词即将存储至词典表时,计算该新词的hash值,随后查找词典表的数据项中是否已存在该新词的hash值,若不存在,则分配该新词即将在词典表中的标识,并将该新词本身、其即将在词典表中的标识以及其对应的hash值作为词典表的数据项存储至词典表中。反之,若存在,确定词典表中已存在该新词,从而对该新词不再进行存储操作。
[0064]此外,为了防止一个表过大,导致查询或存储不便捷,本发明实施例中的词典表可以由多个表组成,这些表满足哈希均匀分布。
[0065]在得到上文所述的词典表之后,该词典表可以应用在后续的查找或存储数据资源的工作中。图2所示为本发明一实施例中词典表的应用方法的流程图,该方法包括以下步骤 S21-S23:
[0066]步骤S21,若当前需要对词进行存储时,向词典表发送查找该词的标识的查找请求,其中,该查找请求中携带有该词的hash值。
[0067]步骤S22,接收词典表根据该词的hash值查找到的该词的标识。
[0068]步骤S23,存储该词的标识,以实现对该词的存储。
[0069]本实施例中,在当前需要对词进行存储时,可以从词典表中查找到该词的标识,从而存储该词的标识,以实现对该词的存储,节约了资源存储空间。进一步,若当前储存了词的标识,则可以根据词的标识从词典表中查找到该词本身,从而实现灵活查找数据资源的目的。
[0070]上文步骤S21中提及的词的hash值,可以是词的MD5 (Message DigestAlgorithm,消息摘要算法第五版)值,如可以截取MD5值的前16位;还可以值词的SHAl (Secure HashAlgorithm,安全哈希算法)值;还可以通过其它算法计算词的hash值,本发明不限于此。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1