一种信息搜索方法及装置的制造方法

文档序号:8445626阅读:309来源:国知局
一种信息搜索方法及装置的制造方法
【技术领域】
[0001]本发明涉及数据处理技术领域,特别涉及一种信息搜索方法及装置。
【背景技术】
[0002]随着信息技术的飞速发展,当今社会进入了信息爆炸时代,人们越来越多地借助网络来寻找自己需要的信息,因此,检索成为人们工作、生活不可或缺的一部分。
[0003]人们通常使用搜索引擎来进行检索,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。
[0004]现有技术中,搜索引擎在对信息进行组织和处理时,会直接存储信息内容本身,例如,北京植物园包括很多展区,如树木园、月季园、牡丹园等,则会保存文字北京植物园包括很多展区,如树木园、月季园、牡丹园等,这样需要大量的存储空间。并且,在后续提供检索服务时,检索速度较慢。

【发明内容】

[0005]本发明提供一种信息搜索方法及装置,用以实现灵活、快速的搜索信息的目的。
[0006]本发明提供一种信息搜索方法,包括:
[0007]从词典数据表中获取一条或多条数据资源信息,并从所述数据资源信息中提取至少一个资源关键词各自的标识;
[0008]根据所述至少一个资源关键词各自的标识,在词语关联表中查找各个资源关键词对应的关联词汇的标识;
[0009]在所述词典表中查找所述关联词汇的标识对应的各关联词汇;
[0010]搜索与所述各关联词汇相关的数据资源。
[0011]在本发明一实施例中,所述词典数据表中的各条数据资源信息包括数据资源的标识,数据资源发布者,数据资源发布时间,数据资源的属性,数据资源中的人物、地点、机构,数据资源的关键词中的一项或多项,所述各条数据资源信息中各项信息的词汇以其各自在词典表中的标识的形式存储在所述词典数据表中。
[0012]在本发明一实施例中,所述从词典数据表中获取一条或多条数据资源信息,包括:
[0013]根据给定的一个或多个数据资源的标识,从词典数据表中查找相应的数据资源信息。
[0014]在本发明一实施例中,所述词语关联表的数据项架构包括关联的两个词的标识和对应的关联深度值。
[0015]在本发明一实施例中,所述根据所述至少一个资源关键词各自的标识,在词语关联表中查找各个资源关键词对应的关联词汇的标识,包括:
[0016]根据所述至少一个资源关键词各自的标识,从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识,作为各个资源关键词对应的关联词汇的标识。
[0017]在本发明一实施例中,所述根据所述至少一个资源关键词各自的标识,从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识,包括:
[0018]从词语关联表中选择所述至少一个资源关键词各自的标识对应的至少一个数据项;
[0019]对所述至少一个数据项的关联深度值进行降序排列;
[0020]选取前η个关联深度值对应的数据项;
[0021]将所述选取的数据项的词的标识作为满足预设数值条件的词的标识。
[0022]本发明还提供一种信息搜索装置,包括:
[0023]提取模块,用于从词典数据表中获取一条或多条数据资源信息,并从所述数据资源信息中提取至少一个资源关键词各自的标识;
[0024]第一查找模块,用于根据所述至少一个资源关键词各自的标识,在词语关联表中查找各个资源关键词对应的关联词汇的标识;
[0025]第二查找模块,用于在所述词典表中查找所述关联词汇的标识对应的各关联词汇;
[0026]搜索模块,用于搜索与所述各关联词汇相关的数据资源。
[0027]在本发明一实施例中,所述词典数据表中的各条数据资源信息包括数据资源的标识,数据资源发布者,数据资源发布时间,数据资源的属性,数据资源中的人物、地点、机构,数据资源的关键词中的一项或多项,所述各条数据资源信息中各项信息的词汇以其各自在词典表中的标识的形式存储在所述词典数据表中。
[0028]在本发明一实施例中,所述提取模块还用于:
[0029]根据给定的一个或多个数据资源的标识,从词典数据表中查找相应的数据资源信息。
[0030]在本发明一实施例中,所述第一查找模块还用于:
[0031]根据所述至少一个资源关键词各自的标识,从词语关联表中选择对应的关联深度值满足预设数值条件的词的标识,作为各个资源关键词对应的关联词汇的标识。
[0032]本发明实施例的一些有益效果可以包括:
[0033]本发明实施例中,由于词典数据表中存储了数据资源信息各项信息的词汇的标识,因而可以直接从数据资源信息中提取至少一个资源关键词各自的标识,进而利用至少一个资源关键词各自的标识在词语关联表中查找各个资源关键词对应的关联词汇的标识,实现灵活、快速的信息搜索的目的。进一步,在查找各个资源关键词对应的关联词汇的标识后,在词典表中查找关联词汇的标识对应的各关联词汇,从而搜索与各关联词汇相关的数据资源,实现了搜索与给定的数据资源相关的信息。
[0034]本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0035]下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
【附图说明】
[0036]附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0037]图1为本发明一实施例中信息搜索方法的流程图;
[0038]图2为本发明一实施例提供的词典数据表的结构字段示意图;
[0039]图3为本发明一实施例提供的词典表的结构字段示意图;
[0040]图4为本发明一实施例提供的词语关联表的结构字段示意图;
[0041]图5为本发明一实施例中步骤S12的流程图;以及
[0042]图6为本发明一实施例中信息搜索装置的结构示意图。
【具体实施方式】
[0043]以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0044]图1所示为本发明一实施例中信息搜索方法的流程图,该方法包括以下步骤S11-S14:
[0045]步骤S11,从词典数据表中获取一条或多条数据资源信息,并从数据资源信息中提取至少一个资源关键词各自的标识。
[0046]这里提及的词典数据表中存储有多条数据资源信息,各条数据资源信息包括数据资源的标识,数据资源发布者,数据资源发布时间,数据资源的属性,数据资源中的人物、地点、机构,数据资源的关键词中的一项或多项,所述各条数据资源信息中各项信息的词汇以其各自在词典表中的标识的形式存储在词典数据表中。
[0047]在该步骤中,可以根据给定的一个或多个数据资源的标识,从词典数据表中查找相应的数据资源信息。如图2所示为本发明一实施例提供的词典数据表的结构字段示意图,图2中,id表示该条数据资源的标识,published表示数据资源发布时间,f2t_props表示数据资源的属性,t2f_t_uid表示数据资源发布者,t2n_nr表示人物,t2n_ns表示地点,t2n_nt表示机构,t2t_t_terms表示数据资源的关键词。
[0048]步骤S12,根据至少一个资源关键词各自的标识,在词语关联表中查找各个资源关键词对应的关联词汇的标识。
[0049]这里提及的词语关联表可以包括:人物关联表,地点关联表,机构关联表,属性关联表等,本发明不限于此。下文提及的词语关联表中nr (表示人物)、nt (表示机构)或ns(表示地点)均视为不同的词语关联表,但每个关联表数据结构保持一致。
[0050]词语关联性表可以表示为Tzn_terms,其包括两个字段分别为rel和weight,其中,rel记录了关联的两个词的ID (标识),ID来源于词典表,形如ID.1D,两个标识ID可以以”分隔,weight记录了两个词的关联深度值。词语关联表中的数据项可以记录指定天数内的词语间关联性,如Tzn_terms_dO为所有词汇信息集合,Tzn_terms_dl为一天内的词语关联表,还可以有d3(三天内)表或d7(七天内)表等等。进一步,词语关联表的数据项可以记录不同属性信息的词语关联性,如Tzn_nr_dl为最近一天人物的词语关联表,Tzn_ns_d3为最近三天地点的词语关联表,Tzn_nt_d7为最近七天机构的词语关联表,Tzn_terms_d3为最近三天所有属性的词语关联表,等等。
[0051]步骤S13,在词典表中查找关联词汇的标识对应的各关联词汇。
[0052]这里提及的词典表,其数据项架构可以包括词的标识、词的hash值以及词本身。此外,还可以包括词对应的文档属性、更新时间等,如在电视节目数据中,词对应的文档属性包括词对应的频道、栏目等。这里,词典表可以表示为tixmain_term_data,当然,此处仅是示意性的,并不限制本发明。如图3所示为本发明一实施例提供的词典表的结构字段示意图,图3中,termid表示词的标识,termkey表示词的hash值,termvalue表示词本身,termprop表示词对应的文档属性,updated表示词的更新时间。
[0053]进一步,词典表中词的hash值,可以是词的MD5 (Message Digest Algorithm,消息摘要算法第五版)值,如可以截取MD5值的前16位;还可以是词的SHAl (Secure HashAlgorithm,安全哈希算法)值;还可以通过其它算法计算词的hash值,本发明不限于此。
[0054]步骤S14,搜索与各关联词汇相关的数据资源。
[0055]本发明实施例中,由于词典数据表中存储了数据资源信息各项信息的词汇的标识,因而可以直接从数据资源信息中提取至少一个资源关键词各自的标识,进而利用至少一个资源关键词各自的标识在词语关联表中查找各个资源关键词对应的关联词汇的标识,实现灵活、快速的信息搜索的目的。进一步,在查找各个资源关键词对应的关联词汇的标识后,在词典表中查找关联词汇的标识对应的各关联词汇,从而搜索与各关联词汇相关的数据资源,实现了搜索与给定的数据资源相关的信息。
[0056]在本发明一优选实施例中,上文提及的rel,其生成规则为:第一个词的ID(标识)来自词典数据表中数据资源的关键词,第二个词的ID(标识)来自词典数据表中的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1