存储数据的方法和设备的制造方法

文档序号:8259004阅读:306来源:国知局
存储数据的方法和设备的制造方法
【技术领域】
[0001]本发明涉及互联网领域,特别涉及存储数据的方法和设备。
【背景技术】
[0002]目前,在网络搜索查询时,用户的查询词中会包含大量的精确意图,这些精确意图是无法通过网页粒度得到满足,是需要在查询时直接返回答案的。例如:查询“刘德华的身高”,期望返回“174CM”;查询“身高超过180cm的明星”,期望返回结果如“古巨基,郑少秋”等身高在规定范围的明星列表;输入“唐宋八大家”,期望返回“柳宗元”等人。
[0003]然而,传统的搜索产品是通过比对用户的查询词和收录网页的文本匹配程度返回网页链接作为查询结果,通过相关性算法保证返回的结果符合用户的查询意图。但是,用户需要连接到所找到的网页,进行阅读,才能得到所需要的答案。
[0004]目前,一些搜索公司开始采用知识库系统对知识进行结构化描述,建立实体间关系,但是现有知识库系统通常使用节点-边-节点三元组的简单数据结构来表示实体属性和实体关系,这样会产生存在许多相同实体的冗余节点。
[0005]另一方面,使用三元组的知识库由于表示过于松散,也存在查询时需要对返回结果进行大量的过滤及数据组合拼接操作的问题,不便于后期的查询操作。
[0006]因此,需要一种节省存储空间,又便于查询的数据存储的方法和设备。

【发明内容】

[0007]本发明所要解决的一个技术问题是提供了一种节省存储空间,又便于查询的数据存储的方法和设备。
[0008]根据本发明的一个方面,提供了一种存储数据的方法,包括:
[0009]从网页中获取与实体相关的实体相关数据,实体相关数据包括表示实体的实体数据、描述实体的属性的实体属性数据、以及描述两个实体之间的关系的实体间关系数据;
[0010]将实体数据和与其对应的实体属性数据关联地存储在实体数据库中;以及
[0011]将实体间关系数据存储在关系数据库中。
[0012]由此,将实体数据及其属性数据集中存储在实体数据库,而将实体间关系数据区分存储到关系数据库;这种数据存储方法避免了数据存储冗余和查询聚合,节省存储空间,又便于查询。另外,实体数据字段可以对应一个或多个可变属性字段实体,使得同一实体的属性数据信息整合存储,避免了在线查询时需要聚合大量的属性信息的问题,也不需要对查询返回结果进行大量的过滤及数据组合拼接操作,从而大量地节省了查询时间,进一步提升了用户体验。
[0013]优选地,实体数据库中针对一个实体的记录可以包括实体数据字段和一个或多个与实体数据字段相关联的可变属性字段,其中,将实体数据存储在实体数据字段中,将实体属性数据存储在可变属性字段中。
[0014]优选地,关系数据库中的每条记录可以包括两个节点和边信息,其中,将分别表示两个实体的两个实体数据分别存储在两个节点中,将表示两个实体之间的关系的实体间关系数据存储在边信息中。
[0015]优选地,实体数据库中针对一个实体的记录还可以包括元信息字段。
[0016]实体相关数据还可以包括与实体相关的元信息,元信息是使实体区别于其他实体的信息。
[0017]该方法还可以包括:将元信息存储在实体数据库中针对实体的记录中的元信息字段中。
[0018]这样,作为实体数据中的核心信息数据,元信息,就将不同的实体和实体数据进行了区分,特别是相同实体名称的不同实体。以便后期在对实体查询的时候可以准确地获得实体的相关信息。
[0019]优选地,实体相关数据还可以包括描述实体的类别的实体类别数据。该方法还可以包括:将与实体类别数据对应的类别标签存储在实体数据库中针对实体的记录中的元信息字段中,作为元信息字段中存储的内容的一部分。
[0020]其中,在类别数据库中,对应地存储有多个实体类别数据和类别标签,多个实体类别数据被划分为多个层次,较低层次的实体类别数据从属于与其关联的较高层次的实体类别数据。
[0021]这样,将实体类别数据分层次存储,使得实体相关数据的存储结构灵活,分类清晰。
[0022]优选地,在类别数据库中,可以与每个实体类别数据关联地存储有针对该实体类别数据所表示的实体类别定义的实体类别相关属性。
[0023]获取实体属性数据的步骤可以包括:
[0024]从类别数据库获得针对该实体所属的实体类别定义的实体类别相关属性;以及
[0025]从网页中获取描述该实体类别相关属性的实体属性数据。
[0026]这样,可以根据实体类别有针对性地获取实体属性数据,便于响应后期针对性地查询操作。在获取实体属性数据时,针对具体的实体,可以根据其类别,有针对性地获取实体属性数据,而不必去考虑与其无关的实体属性数据。例如,不会针对演员获取其国土面积。
[0027]优选地,可以将从多个网页获取的针对同一个实体的实体相关数据整合在一起;和/或
[0028]将所获取的实体相关数据转换为用标准方式表示的实体相关数据。
[0029]这样,将所获得的同一实体相关数据整理,并将表达方式不同的实体相关数据统一化处理,避免了存储冗余问题。
[0030]优选地,当针对同一个实体的同一个实体属性所获取的多个实体属性数据不同时,可以保留置信度高的实体属性数据,并删除置信度低的实体属性数据。
[0031]这样,可以保证所存储的实体属性数据的可靠性和准确性。
[0032]根据本发明的另一个方面,提供了一种用于存储数据的设备,包括:
[0033]数据获取装置,用于从网页中获取与实体相关的实体相关数据,数据获取装置包括:
[0034]实体数据获取装置,用于从网页中获取表示实体的实体数据;
[0035]属性数据获取装置,用于从网页中获取描述实体的属性的实体属性数据;以及
[0036]关系数据获取装置,用于从网页中获取描述两个实体之间的关系的实体间关系数据;
[0037]实体数据库存储装置,用于将实体数据和与其对应的实体属性数据关联地存储在实体数据库中;以及
[0038]关系数据库存储装置,用于将实体间关系数据存储在关系数据库中。
[0039]优选地,实体数据库中针对一个实体的记录可以包括实体数据字段和一个或多个与实体数据字段相关联的可变属性字段,实体数据库存储装置可以包括:
[0040]实体数据存储装置,用于将实体数据存储在实体数据字段中;以及
[0041]属性数据存储装置,用于将实体属性数据存储在可变属性字段中。
[0042]优选地,关系数据库中的每条记录可以包括两个节点和边信息,其中,将分别表示两个实体的两个实体数据分别存储在两个节点中,将表示两个实体之间的关系的实体间关系数据存储在边信息中。
[0043]优选地,实体数据库中针对一个实体的记录还可以包括元信息字段。
[0044]数据获取装置还可以包括元信息获取装置,用于从网页中获取与实体相关的元信息,元信息是使实体区别于其他实体的信息;并且
[0045]实体数据库存储装置还可以包括元信息存储装置,用于将元信息存储在实体数据库中针对实体的记录中的元信息字段。
[0046]优选地,数据获取装置还可以包括类别数据获取装置,用于从网页中获取描述实体类别的实体类别数据。
[0047]元信息存储装置可以包括类别数据存储装置,用于将与实体类别数据对应的类别标签存储在实体数据库中针对实体的记录中的元信息字段中,作为元信息字段中存储的内容的一部分。
[0048]在类别数据库中,可以对应地存储有多个实体类别数据和类别标签,多个实体类别数据被划分为多个层次,较低层次的实体类别数据从属于与其关联的较高层次的实体类别数据。
[0049]优选地,在类别数据库中,可以与每个实体类别数据关联地存储有针对该实体类别数据所表示的实体类别定义的实体类别相关属性。
[0050]属性数据获取装置可以包括:
[0051]实体属性检索装置,用于从类别数据库获得针对该实体所属的实体类别定义的实体类别相关属性;以及
[0052]实体属性数
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1