更新数据库中非永久性的关系数据的方法及系统的制作方法

文档序号:9349978阅读:494来源:国知局
更新数据库中非永久性的关系数据的方法及系统的制作方法
【技术领域】
[0001]本发明涉及互联网领域,更为具体而言,涉及更新数据库中非永久性的关系数据的方法及系统。
【背景技术】
[0002]数据库通常包括实体(所述实体指客观存在并可相互区别的事物,可以是具体的人、事、物,也可以是抽象的概念)、实体的属性数据(例如人物实体的出生日期等)以及实体间的关系数据(例如人物实体的夫妻关系数据等)。其中,关系数据可以分为永久性的关系数据(例如父子关系数据等)和非永久性的关系数据(例如夫妻关系数据、职位关系数据等)。其中,非永久性的关系数据可能在某个时间点失效,然而,在现有技术中没有涉及到数据库中非永久性的关系数据的更新工作,因此无法保证数据库中非永久性的关系数据的准确性和时效性。

【发明内容】

[0003]为有效地解决上述技术问题,本发明提供了一种更新数据库中非永久性的关系数据的方法及系统。
[0004]—方面,本发明的实施方式提供了一种更新数据库中非永久性的关系数据的方法,所述方法包括:
[0005]抓取网络中到当前时间点为止的预定时间段内增加或者更新的网页;
[0006]从抓取到的网页中提取关系类型属于待更新的数据库的非永久性关系集合的关系三元组数据;
[0007]根据提取出的关系三元组数据更新数据库中非永久性的关系数据。
[0008]另一方面,本发明的实施方式还提供了一种更新数据库中非永久性的关系数据的系统,所述系统包括:
[0009]抓取模块,用于抓取网络中到当前时间点为止的预定时间段内增加或者更新的网页;
[0010]提取模块,用于从所述抓取模块所抓取到的网页中提取关系类型属于待更新的数据库的非永久性关系集合的关系三元组数据;
[0011]更新模块,用于根据所述提取模块所提取出的关系三元组数据更新数据库中非永久性的关系数据。
[0012]实施本发明提供的更新数据库中非永久性的关系数据的方法及系统可以实时地根据网络中到当前时间点为止的预定时间段内增加或者更新的网页,对数据库中非永久性的关系数据进行更新,从而保证数据库中非永久性的关系数据的准确性和时效性。
【附图说明】
[0013]图1是根据本发明实施方式的一种更新数据库中非永久性的关系数据的方法的流程图;
[0014]图2示出了图1所示的处理S130的一种实施方式;
[0015]图3是根据本发明实施方式的另一种更新数据库中非永久性的关系数据的方法的流程图;
[0016]图4示出了图3所示的处理S240的一种实施方式;
[0017]图5是根据本发明实施方式的一种更新数据库中非永久性的关系数据的系统的结构示意图;
[0018]图6示出了图5所示的更新模块130的一种实施方式;
[0019]图7示出了图5所示的更新模块130的另一种实施方式;
[0020]图8示出了图5所示的更新模块130的又一种实施方式。
【具体实施方式】
[0021]为使本发明的实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明作详细描述。
[0022]图1是根据本发明实施方式的一种更新数据库中非永久性的关系数据的方法的流程图。参见图1,所述方法包括:
[0023]SllO:抓取网络中到当前时间点为止的预定时间段内增加或者更新的网页;
[0024]其中,所述预定时间段例如可以是I小时,本领域的技术人员可以根据实际需要米用其它合理时间;
[0025]S120:从抓取到的网页中提取关系类型属于待更新的数据库的非永久性关系集合的关系三元组数据;
[0026]S130:根据提取出的关系三元组数据更新数据库中非永久性的关系数据。
[0027]其中,所述关系三元组数据(即SPO:subject-predicate_object,主体-谓词-客体)可以包括:实体对、关系类型以及辅助信息(例如时间信息);同时,所述非永久性关系集合可以包括:所述待更新的数据库中的非永久性的关系类型以及所述非永久性的关系类型的关联关系类型,其中,所述关联关系类型可以包括:事件关系类型,例如,针对“夫妻”这一非永久性的关系类型,其关联关系类型可以包括:“结婚”、“离婚”等事件关系类型。
[0028]在本发明的实施方式中,可以预先构建所述非永久性关系集合,并且针对所述非永久性关系集合中的各元素分别构建相应的关系提取器集合(包括两个以上的关系提取器),关系提取器用于识别实体对的关系类型是否为与所述关系提取器对应的关系类型,同一关系提取器集合中的各关系提取器的用于进行关系类型识别的判定模型不同。
[0029]在本发明的实施方式中,处理S120可以通过以下方式实现:
[0030]通过构建出的所述关系提取器集合从所述抓取到的网页中提取所述关系三元组数据。
[0031]在本发明的实施方式中,通过处理SllO所抓取到的网页可以是一个也可以是多个,当抓取到的网页为多个时,可以针对抓取到的各个网页分别执行处理S120以及处理S130;同时,通过处理S120所提取出的关系三元组数据可以是一个也可以是多个,当提取出的关系三元组数据是多个时,可以针对提取出的各个关系三元组数据分别执行处理S130o
[0032]为提升数据库更新的质量,在本发明的一种优选的实施方式中,在执行处理S130前,识别所述提取出的关系三元组数据是否为正确数据,若所述关系三元组数据识别为是正确数据,则继续执行处理S130,若所述关系三元组数据识别不是正确数据,则删除所述关系三元组数据;其中,识别所述提取出的关系三元组数据是否为正确数据可以通过以下方式中的任一种实现:
[0033]I)判断是否不同的关系提取器均确定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型,若所述不同的关系提取器均确定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型,则确定所述待识别的关系三元组数据是正确数据,若存在确定待识别的关系三元组数据的实体对的基于给定句子的关系类型不为目标关系类型的关系提取器,则确定所述待识别的关系三元组数据不是正确数据,其中,所述目标关系类型为所述待识别的关系三元组数据的关系类型,所述给定的句子为用于提取出所述待识别的关系三元组数据的句子,所述不同的关系提取器均对应于所述目标关系类型;
[0034]2)获取待识别的关系三元组数据的累积提取次数,将获取的所述累积提取次数与预定阈值进行比较,若所述累积提取次数大于或者等于所述预定阈值,则确定所述待识别的关系三元组数据是正确数据;若所述累积提取次数小于所述预定阈值,则确定所述待识别的关系三元组数据不是正确数据。
[0035]如图2所示,处理S130具体可以通过以下方式实现:
[0036]S131:识别提取出的关系三元组数据的关系类型,若所述关系类型识别为事件关系类型,则执行S132,若所述关系类型识别为非永久性的关系类型,则执行S137 ;
[0037]S132:从更新规则库中获取与所述事件关系类型对应的更新规则;
[0038]S133:根据获取的更新规则以及提取出的关系三元组数据,在所述数据库中定位待更新的非永久性的关系数据;
[0039]S134:识别是否定位到待更新的非永久性的关系数据,若是,则执行S135,若否,则执行S136 ;
[0040]S135:在定位到的数据上执行基于所述提取出的关系三元组数据中的辅助信息以及所述获取的更新规则的数据处理,跳转到S139 ;
[0041]S136:在所述数据库中建立所述待更新的非永久性的关系数据,并在建立的数据上执行基于所述提取出的关系三元组数据中的辅助信息以及所述获取的更新规则的数据处理,跳转到S139 ;
[0042]S137:识别所述数据库中是否存在与提取出的关系三元组数据对应的关系数据,若否,则执行S138,若是,则跳转到S139 ;
[0043]S138:将提取出的关系三元组数据存储至所述数据库中;
[0044]S139:结束。
[0045]以下结合具体例子,对本发明的实施方式进行具体说明。图3是根据
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1