一种歧义消除方法_4

文档序号：9274650阅读：来源：国知局

在Proc-DBLP数据集上，随着非主属性的数量由0增长到2个，获取的最优消歧属性值的质量由62%增长到92%。可见，非主属性的个数对最优消歧属性值消除歧义性结果的能力影响较大。若要产生高质量的正例和反例，可以将非主属性的个数设置为2个或 2个以上。
[0134] 通过观察循环获取最优消歧属性值的过程来检验本发明实施例提供的一种歧义消除法的性能：图7至图8展示了上述相关数据集在循环执行获取最优消歧属性值的过程中，获取的最优消歧属性值的集合消除歧义性结果的质量的逐步提高，其中，循环获取最优消歧属性值的过程为迭代的过程，循环的次数即为迭代的次数。从图中可以看出，4-5次循环获取最优消歧属性值的步骤就可以得到质量稳定的最优消歧属性值的集合。且由第1次获取最优消歧属性值到第5次获取最优消歧属性值，Uni-StafTInfo数据集最优消歧属性值的集合的消除歧义性结果的质量由63%提高到77%，Proc-DBLP数据集这种能力由80% 提尚到91 %。
[0135] 另外，在Uni-Stafflnfo数据集上对比贪婪算法和试图找到所有尽可能最优组合的无穷算法（这里不是最优算法，因为最优算法是一个NP难题）的性能。实验结果表明在前几次获取最优消歧属性值的过程中，无穷算法表现的比贪婪算法稍好，最后在若干次循环获取最优消歧属性值后，两种算法得到的最优消歧属性值的集合的质量相同。然而，无穷算法耗时比贪婪算法的4倍还要多。
[0136] 最后，在Uni-Stafflnfo数据集上对比本发明实施例提供的一种歧义消除法获取的结果和【背景技术】中所提到的方法获取的结果的准确率和查全率（已获取的实例中缺少的属性值的个数占实例中缺少的全部属性值的个数的比例），如图9所示，其中，纵坐标F1 的值是综合衡量准确率和查全率获取的，可以表示为：F1 = 2*准确率*查全率八准确率 +查全率）；名称为SingleDis的曲线表示【背景技术】中所提到的方法获取的结果，名称为 Gen-CoDis的曲线表示本发明实施例提供的一种歧义消除法获取的结果。可见，使用本发明实施例提供的一种歧义消除法获取的结果比【背景技术】中所提到的方法获取的结果明显具有较高的准确率和查全率。
[0137] 对所公开的实例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实例中实现。因此，本发明将不会被限制于本文所示的这些实例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【主权项】
1. 一种歧义消除方法，其特征在于，包括：步骤1:获取预设数量个实例，从中选取正例，该正例包括主属性和非主属性；确定主属性的属性值与所述正例的主属性的属性值相同，非主属性的属性值与所述正例的非主属性的属性值不同的反例，所述反例不属于所述预设数量个实例；利用所述正例进行检索获得正例文档，利用所述反例进行检索获得反例文档；步骤2 :分别获取所述正例文档和所述反例文档所包含的全部属性的属性值；利用每个属性值在所述正例文档中的出现规律及该属性值在所述反例文档中的出现规律，确定与所述预设数量个实例最为匹配的最优消歧属性值；步骤3 :利用所述最优消歧属性值更新所述正例文档及所述反例文档，执行步骤2 ;直至不再出现新的最优消歧属性值为止；利用全部最优消歧属性值进行检索，以确定所述实例中缺少属性值的属性的属性值。2. 根据权利要求1所述的方法，其特征在于，确定所述反例的过程，包括：利用所述正例的主属性的属性值进行检索，得到检索结果；由所述检索结果中获取与所述正例对应的反例，所述反例包括主属性和非主属性，所述反例的主属性的属性值与所述正例的主属性的属性值相同，所述反例的非主属性的属性值与所述正例的非主属性的属性值不同。3. 根据权利要求1所述的方法，其特征在于，所述分别获取所述正例文档和所述反例文档所包含的全部属性的属性值，包括：分别获取所述正例文档和所述反例文档所包含的全部属性的属性值，该全部属性的属性值与所述实例所包含的全部属性的属性值均不相同。4. 根据权利要求1所述的方法，其特征在于，所述利用每个属性值在所述正例文档中的出现规律及该属性值在所述反例文档中的出现规律，确定与所述预设数量个实例最为匹配的最优消歧属性值，包括：按照下列公式计算任一属性值e相对于一个实例I的第一消歧分数：其中，Sc〇re(e|l)表示属性值e相对于一个实例I的第一消歧分数，P(e|D+(I))表示属性值6在正例文档0+(1)中的出现规律沖(6|0_(1))表示属性值6在反例文档0_(1)中的出现规律；利用所述第一消歧分数确定所述属性值e相对于全部实例的第二消歧分数，确定所述第二消歧分数为该属性值e的总消歧分数；确定全部属性值中总消歧分数最高的属性值为与所述预设数量个实例最为匹配的最优消歧属性值。5. 根据权利要求4所述的方法，其特征在于，按照下列公式计算属性值e在所述正例文档0+(1)中的出现规律？(6|0+(1)):其中，P(e11，d)表示综合衡量属性值e在正例文档D+(I)的指定部分文档d中与实例 I共同出现的频率和相隔的距离所得的值，w(d|D+(I))表示正例文档D+(I)的指定部分文档d在正例文档D+⑴中所占的权重。6. 根据权利要求5所述的方法，其特征在于，基于Dirichlet先验分布的贝叶斯平滑算法，按照下列公式计算P(e|l，d):其中，|d|是指定部分文档d的总长度，y为Dirichlet先验分布的贝叶斯平滑算法中的先验参数，Pi(e|C)为属性值e包含在指定语料库中的最大似然估计，p〇s(I，d)表示指定部分文档d中以实例I出现的位置为中心的窗口，P(e|d,j)为属性值e在指定部分文档 d中第j个实例周围的概率。7. 根据权利要求6所述的方法，其特征在于，计算P(e|d，j)，包括：确定S是以指定部分文档d中第j个实例为中心的文字窗口的一半宽度的阈值；当属性值e与第j个实例的距离小于8时，确定所述P(e|d,j)的值为1 ; 当属性值e与第j个实例的距离大于8时，确定所述P(e|d,j)的值为0。8. 根据权利要求5所述的方法，其特征在于，计算w(d|D+ (I))，包括：判断是否为第一次计算w(d|D+ (I))，如果是，则指定部分文档d在正例文档D+ (I)中所占的权重即为指定部分文档d的页数占正例文档D+(I)的页数的比例；如果否，则按照下列公式计算w(d|D+(I)):VD表示最新获取的最优消歧属性值，Score(v|l+)表示最新获取的最优消歧属性值的总消歧分数，V(d，VD)表示指定部分文档d所包含的总消歧分数大于0的属性值。9. 根据权利要求1至8任一项所述的方法，其特征在于，所述利用所述最优消歧属性值更新所述正例文档及所述反例文档，包括：确定所述正例所包含的全部属性值为A，所述反例所包含的全部属性值为B，所述最优消歧属性值为C; 则利用检索词组"A+C"进行检索，得到正例文档；利用检索词组"B-C"进行检索，得到反例文档。10. 根据权利要求9所述的方法，其特征在于，利用全部最优消歧属性值进行检索，以确定所述实例中缺少属性值的属性的属性值，包括：确定全部实例中包括缺少属性值的属性的实例为待填充实例；将所述待填充实例所包括的属性值以及全部最优消歧属性值作为检索词组；利用所述检索词组进行检索，并由检索得到的结果中获取所述待填充实例中缺少属性值的属性的属性值。
【专利摘要】本发明公开了一种歧义消除方法，包括：获取预设数量个实例，从中获取正例，并确定与正例对应的反例，反例不属于上述实例；获取正例对应的正例文档及反例对应的反例文档的全部属性值；根据每个属性值在正例文档中的出现规律及该属性值在反例文档中的出现规律确定与预设数量个实例最为匹配的最优消歧属性值，利用最优消歧属性值更新正例文档和反例文档后，通过循环执行获取最优消歧属性值的步骤，获取全部最优消歧属性值，利用全部最优消歧属性值进行检索以获取实例中缺少的属性值，而不是仅仅利用实例中已提供的属性值进行检索，由此，能够有效消除检索所得结果的歧义性，更准确的获取预设数量个实例中所缺少的属性值。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN104991888
【申请号】CN201510345955
【发明人】李直旭, 李洋, 杨强
【申请人】苏州大学张家港工业技术研究院
【公开日】2015年10月21日
【申请日】2015年6月19日

完整全部详细技术资料下载

当前第4页1 2 3 4