一种歧义消除方法_4

文档序号:9274650阅读:来源:国知局
在Proc-DBLP数据集上,随着非主属性的数量由0增长到2个,获取的最优消歧 属性值的质量由62%增长到92%。可见,非主属性的个数对最优消歧属性值消除歧义性结 果的能力影响较大。若要产生高质量的正例和反例,可以将非主属性的个数设置为2个或 2个以上。
[0134] 通过观察循环获取最优消歧属性值的过程来检验本发明实施例提供的一种歧义 消除法的性能:图7至图8展示了上述相关数据集在循环执行获取最优消歧属性值的过程 中,获取的最优消歧属性值的集合消除歧义性结果的质量的逐步提高,其中,循环获取最优 消歧属性值的过程为迭代的过程,循环的次数即为迭代的次数。从图中可以看出,4-5次循 环获取最优消歧属性值的步骤就可以得到质量稳定的最优消歧属性值的集合。且由第1次 获取最优消歧属性值到第5次获取最优消歧属性值,Uni-StafTInfo数据集最优消歧属性 值的集合的消除歧义性结果的质量由63%提高到77%,Proc-DBLP数据集这种能力由80% 提尚到91 %。
[0135] 另外,在Uni-Stafflnfo数据集上对比贪婪算法和试图找到所有尽可能最优组合 的无穷算法(这里不是最优算法,因为最优算法是一个NP难题)的性能。实验结果表明在 前几次获取最优消歧属性值的过程中,无穷算法表现的比贪婪算法稍好,最后在若干次循 环获取最优消歧属性值后,两种算法得到的最优消歧属性值的集合的质量相同。然而,无穷 算法耗时比贪婪算法的4倍还要多。
[0136] 最后,在Uni-Stafflnfo数据集上对比本发明实施例提供的一种歧义消除法获取 的结果和【背景技术】中所提到的方法获取的结果的准确率和查全率(已获取的实例中缺少 的属性值的个数占实例中缺少的全部属性值的个数的比例),如图9所示,其中,纵坐标F1 的值是综合衡量准确率和查全率获取的,可以表示为:F1 = 2*准确率*查全率八准确率 +查全率);名称为SingleDis的曲线表示【背景技术】中所提到的方法获取的结果,名称为 Gen-CoDis的曲线表示本发明实施例提供的一种歧义消除法获取的结果。可见,使用本发明 实施例提供的一种歧义消除法获取的结果比【背景技术】中所提到的方法获取的结果明显具 有较高的准确率和查全率。
[0137] 对所公开的实例的上述说明,使本领域技术人员能够实现或使用本发明。对这些 实例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在 不脱离本发明的精神或范围的情况下,在其它实例中实现。因此,本发明将不会被限制于本 文所示的这些实例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【主权项】
1. 一种歧义消除方法,其特征在于,包括: 步骤1:获取预设数量个实例,从中选取正例,该正例包括主属性和非主属性;确定主 属性的属性值与所述正例的主属性的属性值相同,非主属性的属性值与所述正例的非主属 性的属性值不同的反例,所述反例不属于所述预设数量个实例;利用所述正例进行检索获 得正例文档,利用所述反例进行检索获得反例文档; 步骤2 :分别获取所述正例文档和所述反例文档所包含的全部属性的属性值;利用每 个属性值在所述正例文档中的出现规律及该属性值在所述反例文档中的出现规律,确定与 所述预设数量个实例最为匹配的最优消歧属性值; 步骤3 :利用所述最优消歧属性值更新所述正例文档及所述反例文档,执行步骤2 ;直 至不再出现新的最优消歧属性值为止;利用全部最优消歧属性值进行检索,以确定所述实 例中缺少属性值的属性的属性值。2. 根据权利要求1所述的方法,其特征在于,确定所述反例的过程,包括: 利用所述正例的主属性的属性值进行检索,得到检索结果; 由所述检索结果中获取与所述正例对应的反例,所述反例包括主属性和非主属性,所 述反例的主属性的属性值与所述正例的主属性的属性值相同,所述反例的非主属性的属性 值与所述正例的非主属性的属性值不同。3. 根据权利要求1所述的方法,其特征在于,所述分别获取所述正例文档和所述反例 文档所包含的全部属性的属性值,包括: 分别获取所述正例文档和所述反例文档所包含的全部属性的属性值,该全部属性的属 性值与所述实例所包含的全部属性的属性值均不相同。4. 根据权利要求1所述的方法,其特征在于,所述利用每个属性值在所述正例文档中 的出现规律及该属性值在所述反例文档中的出现规律,确定与所述预设数量个实例最为匹 配的最优消歧属性值,包括: 按照下列公式计算任一属性值e相对于一个实例I的第一消歧分数:其中,Sc〇re(e|l)表示属性值e相对于一个实例I的第一消歧分数,P(e|D+(I))表示 属性值6在正例文档0+(1)中的出现规律沖(6|0_(1))表示属性值6在反例文档0_(1)中的 出现规律; 利用所述第一消歧分数确定所述属性值e相对于全部实例的第二消歧分数,确定所述 第二消歧分数为该属性值e的总消歧分数; 确定全部属性值中总消歧分数最高的属性值为与所述预设数量个实例最为匹配的最 优消歧属性值。5. 根据权利要求4所述的方法,其特征在于,按照下列公式计算属性值e在所述正例文 档0+(1)中的出现规律?(6|0+(1)):其中,P(e11,d)表示综合衡量属性值e在正例文档D+(I)的指定部分文档d中与实例 I共同出现的频率和相隔的距离所得的值,w(d|D+(I))表示正例文档D+(I)的指定部分文档d在正例文档D+⑴中所占的权重。6. 根据权利要求5所述的方法,其特征在于,基于Dirichlet先验分布的贝叶斯平滑算 法,按照下列公式计算P(e|l,d):其中,|d|是指定部分文档d的总长度,y为Dirichlet先验分布的贝叶斯平滑算法中 的先验参数,Pi(e|C)为属性值e包含在指定语料库中的最大似然估计,p〇s(I,d)表示指 定部分文档d中以实例I出现的位置为中心的窗口,P(e|d,j)为属性值e在指定部分文档 d中第j个实例周围的概率。7. 根据权利要求6所述的方法,其特征在于,计算P(e|d,j),包括: 确定S是以指定部分文档d中第j个实例为中心的文字窗口的一半宽度的阈值; 当属性值e与第j个实例的距离小于8时,确定所述P(e|d,j)的值为1 ; 当属性值e与第j个实例的距离大于8时,确定所述P(e|d,j)的值为0。8. 根据权利要求5所述的方法,其特征在于,计算w(d|D+ (I)),包括: 判断是否为第一次计算w(d|D+ (I)),如果是,则指定部分文档d在正例文档D+ (I)中所 占的权重即为指定部分文档d的页数占正例文档D+(I)的页数的比例; 如果否,则按照下列公式计算w(d|D+(I)):VD表示最新获取的最优消歧属性值,Score(v|l+)表示最新获取的最优消歧属性值的 总消歧分数,V(d,VD)表示指定部分文档d所包含的总消歧分数大于0的属性值。9. 根据权利要求1至8任一项所述的方法,其特征在于,所述利用所述最优消歧属性值 更新所述正例文档及所述反例文档,包括: 确定所述正例所包含的全部属性值为A,所述反例所包含的全部属性值为B,所述最优 消歧属性值为C; 则利用检索词组"A+C"进行检索,得到正例文档;利用检索词组"B-C"进行检索,得到 反例文档。10. 根据权利要求9所述的方法,其特征在于,利用全部最优消歧属性值进行检索,以 确定所述实例中缺少属性值的属性的属性值,包括: 确定全部实例中包括缺少属性值的属性的实例为待填充实例; 将所述待填充实例所包括的属性值以及全部最优消歧属性值作为检索词组; 利用所述检索词组进行检索,并由检索得到的结果中获取所述待填充实例中缺少属性 值的属性的属性值。
【专利摘要】本发明公开了一种歧义消除方法,包括:获取预设数量个实例,从中获取正例,并确定与正例对应的反例,反例不属于上述实例;获取正例对应的正例文档及反例对应的反例文档的全部属性值;根据每个属性值在正例文档中的出现规律及该属性值在反例文档中的出现规律确定与预设数量个实例最为匹配的最优消歧属性值,利用最优消歧属性值更新正例文档和反例文档后,通过循环执行获取最优消歧属性值的步骤,获取全部最优消歧属性值,利用全部最优消歧属性值进行检索以获取实例中缺少的属性值,而不是仅仅利用实例中已提供的属性值进行检索,由此,能够有效消除检索所得结果的歧义性,更准确的获取预设数量个实例中所缺少的属性值。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN104991888
【申请号】CN201510345955
【发明人】李直旭, 李洋, 杨强
【申请人】苏州大学张家港工业技术研究院
【公开日】2015年10月21日
【申请日】2015年6月19日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1