一种歧义消除方法

文档序号:9274650阅读:297来源:国知局
一种歧义消除方法
【技术领域】
[0001] 本发明涉及语言处理技术领域,更具体地说,涉及一种歧义消除方法。
【背景技术】
[0002] 互联网数据获取是一种基于互联网的应用的统称,这类应用从互联网上获取各种 各样的数据。其中一种应用致力于将互联网作为外部数据源,获取其中的数据,用以提高 本地数据库中的数据完整性;下面结合本地数据库中的实例表表1对这种应用进行具体说 明。
[0003] 表1本地数据库中的实例表
[0004]
[0005] 表1中的部分实例的属性缺少对应的属性值,如属性Name的属性值为Wei Wang的 实例,缺少属性Title的属性值。现有技术中,通常将属性值Wei Wang作为检索词语进行 检索,并由检索结果中获取该实例对应的属性Title的属性值。但是,互联网中包括属性值 Wei Wang的实例可能成百上千,即仅仅利用属性值Wei Wang进行检索所得的结果会存在歧 义性,很难由这些实例中确定出与表1相对应的实例以获取属性Title的属性值。可见,现 有技术仅仅通过本地数据库的实例中已提供的属性值进行检索,并由检索结果中获取该实 例缺少的属性值,并不能准确获取实例中缺少的属性值。
[0006] 综上所述,现有技术中存在无法准确获取本地数据库的实例中缺少的属性值的缺 点。

【发明内容】

[0007] 本发明的目的是提供一种歧义消除方法,以准确获取本地数据库的实例中缺少的 属性值。
[0008] 为了实现上述目的,本发明提供如下技术方案:
[0009] 一种歧义消除方法,包括:
[0010] 步骤1:获取预设数量个实例,从中选取正例,该正例包括主属性和非主属性;确 定主属性的属性值与所述正例的主属性的属性值相同,非主属性的属性值与所述正例的非 主属性的属性值不同的反例,所述反例不属于所述预设数量个实例;利用所述正例进行检 索获得正例文档,利用所述反例进行检索获得反例文档;
[0011] 步骤2 :分别获取所述正例文档和所述反例文档所包含的全部属性的属性值;利 用每个属性值在所述正例文档中的出现规律及该属性值在所述反例文档中的出现规律,确 定与所述预设数量个实例最为匹配的最优消歧属性值;
[0012] 步骤3 :利用所述最优消歧属性值更新所述正例文档及所述反例文档,执行步骤 2 ;直至不再出现新的最优消歧属性值为止;利用全部最优消歧属性值进行检索,以确定所 述实例中缺少属性值的属性的属性值。
[0013] 优选的,确定所述反例的过程,包括:
[0014] 利用所述正例的主属性的属性值进行检索,得到检索结果;
[0015] 由所述检索结果中获取与所述正例对应的反例,所述反例包括主属性和非主属 性,所述反例的主属性的属性值与所述正例的主属性的属性值相同,所述反例的非主属性 的属性值与所述正例的非主属性的属性值不同。
[0016] 优选的,所述分别获取所述正例文档和所述反例文档所包含的全部属性的属性 值,包括:
[0017] 分别获取所述正例文档和所述反例文档所包含的全部属性的属性值,该全部属性 的属性值与所述实例所包含的全部属性的属性值均不相同。
[0018] 优选的,所述利用每个属性值在所述正例文档中的出现规律及该属性值在所述反 例文档中的出现规律,确定与所述预设数量个实例最为匹配的最优消歧属性值,包括:
[0019] 按照下列公式计算任一属性值e相对于一个实例I的第一消歧分数:
[0020]
[0021] 其中,Score (e| I)表示属性值e相对于一个实例I的第一消歧分数,P(e|D+⑴) 表示属性值e在正例文档D+(I)中的出现规律,P(e|D_(I))表示属性值e在反例文档D_(I) 中的出现规律;
[0022] 利用所述第一消歧分数确定所述属性值e相对于全部实例的第二消歧分数,确定 所述第二消歧分数为该属性值e的总消歧分数;
[0023] 确定全部属性值中总消歧分数最高的属性值为与所述预设数量个实例最为匹配 的最优消歧属性值。
[0024] 优选的,按照下列公式计算属性值e在所述正例文档D+⑴中的出现规律 P(e|D/m .
[0025]
[0026] 其中,P(e|l,d)表示综合衡量属性值e在正例文档D+(I)的指定部分文档d中与 实例I共同出现的频率和相隔的距离所得的值,w(d|D+(I))表示正例文档D+(I)的指定部 分文档d在正例文档D+(I)中所占的权重。
[0027] 优选的,基于Dirichlet先验分布的贝叶斯平滑算法,按照下列公式计算 P(e|l,d):
[0028]
[0029] 其中,| d|是指定部分文档d的总长度,y为Dirichlet先验分布的贝叶斯平滑算 法中的先验参数,Pa(e|C)为属性值e包含在指定语料库中的最大似然估计,p 〇s(I,d)表 示指定部分文档d中以实例I出现的位置为中心的窗口,P(e|d,j)为属性值e在指定部分 文档d中第j个实例周围的概率。
[0030] 优选的,计算P (e | d, j),包括:
[0031] 确定5是以指定部分文档d中第j个实例为中心的文字窗口的一半宽度的阈值;
[0032] 当属性值e与第j个实例的距离小于S时,确定所述P(e|d,j)的值为1;
[0033] 当属性值e与第j个实例的距离大于S时,确定所述P(e|d,j)的值为0。
[0034] 优选的,计算w(d|D+(I)),包括:
[0035] 判断是否为第一次计算w(d|D+(I)),如果是,则指定部分文档d在正例文档D+(I) 中所占的权重即为指定部分文档d的页数占正例文档D+(I)的页数的比例;
[0036] 加里否,_桉照下列公式i+笪w(dlD,⑴):
[0037]
[0038] VD表示最新获取的最优消歧属性值,Score (v 11 +)表示最新获取的最优消歧属性 值的总消歧分数,v(d,VD)表示指定部分文档d所包含的总消歧分数大于0的属性值。
[0039] 优选的,所述利用所述最优消歧属性值更新所述正例文档及所述反例文档,包 括:
[0040] 确定所述正例所包含的全部属性值为A,所述反例所包含的全部属性值为B,所述 最优消歧属性值为C ;
[0041] 则利用检索词组"A+C"进行检索,得到正例文档;利用检索词组"B-C"进行检索, 得到反例文档。
[0042] 优选的,利用全部最优消歧属性值进行检索,以确定所述实例中缺少属性值的属 性的属性值,包括:
[0043] 确定全部实例中包括缺少属性值的属性的实例为待填充实例;
[0044] 将所述待填充实例所包括的属性值以及全部最优消歧属性值作为检索词组;
[0045] 利用所述检索词组进行检索,并由检索得到的结果中获取所述待填充实例中缺少 属性值的属性的属性值。
[0046] 本发明提供的一种歧义消除方法,获取实例中的正例,并确定与之对应的反例;获 取正例对应的正例文档及反例对应的反例文档中的全部属性值,反例不属于实例;根据每 个属性值在正例文档中的出现规律及该属性值在反例文档中的出现规律确定与全部实例 最为匹配的最优消歧属性值,利用最优消歧属性值更新正例文档和反例文档后,通过循环 执行获取最优消歧属性值的步骤,获取全部最优消歧属性值,利用全部最优消歧属性值进 行检索以获取实例缺少的属性值,而不是仅仅利用实例中已提供的属性值进行检索,由此, 能够有效消除检索所得结果的歧义性,且实验证明,本申请提供的一种歧义消除方法能够 准确获取本地数据库的实例中缺少的属性值。
【附图说明】
[0047] 为了更清楚地说明本发明实例或现有技术中的技术方案,下面将对实例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的实例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的 附图获得其他的附图。
[0048] 图1为本发明实例提供的一种歧义消除方法的流程图;
[0049] 图2为本发明实例提供的一种歧义消除方法中步骤S16的流程图;
[0050] 图3为本发明实例提供的一种歧义消除方法中改变实例的数量时Uni-Stafflnfo 数据集的实验结果示意图;
[0051] 图4为本发明实例提供的一种歧义消除方法中改变实例的数量时Proc-
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1