一种歧义消除方法_3

文档序号：9274650阅读：来源：国知局

，能够使得计算结果更加准确，即使得获得的总消歧分数更能体现该属性值消除歧义性结果的能力。
[0094] 上述实施例提供一种歧义消除方法中，可以按照下列方式确定P(e|d，j):
[0095] 确定5是以指定部分文档d中第j个实例为中心的文字窗口的一半宽度的阈值；
[0096] 当属性值e与第j个实例的距离小于S时，确定P(e|d，j)的值为1;
[0097] 当属性值e与第j个实例的距离大于S时，确定P (e | d，j)的值为0。
[0098] 该过程可以利用下列公式表示：
[0099]
[0100] 其中，属性值e与第j个实例的距离小于S，说明属性值e与第j个实例相距较近；属性值e与第j个实例的距离大于S，说明属性值 e与第j个实例相距较远，另外，S 可以设置为30。
[0101] 而计算w (d | D+ (I))的过程可以包括：
[0102] 判断是否为第一次计算w (d | D+ (I))，如果是，则指定部分文档d在正例文档D+ (I) 中所占的权重即为指定部分文档d的页数占正例文档D+(I)的页数的比例；
[0103] 如果否，则按照下列公式计算w(d|D+(I)):
[0104]
[0105] 其中，VD表示最新获取的最优消歧属性值，Score (v 11 +)表示最新获取的最优消歧属性值的总消歧分数，V(d，VD)表示指定部分文档d所包含总消歧分数大于0的属性值。
[0106] 另外，因为反例文档的权重对最终结果的影响非常小，因此，可认为反例文档的权重均相同。由此，根据指定部分文档d在正例文档D+(I)中所占的权重的不同情况进行计算总消歧分数，使得计算结果更加准确。
[0107] 分析上述全部公式可以得出，判断一个属性值e消除实例I的歧义性结果的能力的关键因素包括：（1)在正例文档中属性值e和实例I是否频繁的同时出现；（2)属性e和实例I在正例文档中出现的位置是否接近；（3)在反例文档中属性值e是否出现。
[0108] 需要说明的是，上述实施例提供的一种歧义消除方法中，利用最优消歧属性值更新正例文档及反例文档，可以包括：
[0109] 确定正例所包含的全部属性值为A，反例所包含的全部属性值为B，最优消歧属性值为C ;
[0110] 则利用检索词组"A+C"进行检索，得到正例文档；利用检索词组"B-C"进行检索，得到反例文档。
[0111] 举例说明更新正例文档和反例文档的过程：假设Department = {CS，Math}和 University = {NYU，CMU}是四个最优消歧属性值及其对应的属性，将表1中的属性Name 的属性值为Jack Davis的实例作为正例，则检索与之对应的正例文档时可确定检索词组为 " Jack Dav i s+Pr 〇 f e s sor+111 111 + (CS | Math) + (NYU | CMU) " ；以与之对应的表 2 中属性 T i 11 e 的属性值为Mr.的实例为例说明，检索与之对应的反例文档时可确定检索词组为"Jack Da vis+Mr. +8765432-(CS|Math)-(NYU|CMU)"。
[0112] 其中，若反例有多个，则利用每个反例的全部属性值与最优消歧属性值构成的检索词组"每一个反例的全部属性值-最优消歧属性值"进行检索得到该反例的反例子文档，将每个反例获取的反例子文档的总和作为反例文档。
[0113] 另外，利用全部最优消歧属性值进行检索，以确定实例中缺少属性值的属性的属性值，可以包括：
[0114] S21 :确定全部实例中包括缺少属性值的属性的实例为待填充实例。
[0115] S22:将待填充实例所包括的属性值以及全部最优消歧属性值作为检索词组。
[0116] S23:利用检索词组进行检索，并由检索得到的结果中获取待填充实例中缺少属性值的属性的属性值。
[0117] 由此，能够根据实例中已有的属性值及最优消歧属性值更加准确的确定实例中缺少属性值的属性对应的属性值。
[0118] 值得注意的是，在上述实施例的基础上，假设具有消除歧义性结果的能力的属性A 的全部属性值为E (A)，且每个实例只得到一个属性A的属性值e，则计算该属性A的消歧分数为：
[0119]
[0120] 其中，P(A|I+)表示属性A的消歧分数，P(e|l+)表示属性值e的总消歧分数；即可利用每个属性值e的总消歧分数确定与之对应的属性A的消歧分数。
[0121] 另外，本申请实施例所要确定的能够消除歧义性实例的最优消歧属性值的集合应该是能够最大覆盖实例1+中所有实例的最小属性集合。然而，选择这样的最小属性集合是一个NP (Non-deterministic Polynomial，多项式复杂程度的非确定性）难题，因此可以利用一种贪婪算法得到近似最优的消歧属性集合（能够消除歧义结果的属性的集合，也即最优消歧属性的集合）。具体为：根据上述实施例计算得到的P(A| 1+)，在每次确定最优消歧属性时，P (A11+)最大的属性At优先；然后删除所有A t覆盖的实例以更新实例集合I+;且每次确定最优消歧属性后，需要在更新之后的实例集合1+上重新计算一遍P(A| I +)。当所确定的的At已经不能再覆盖任何的实例时，算法终止。此算法的伪代码如下：
[0122]
[0123] 下面具体说明本实施例提供的一种歧义消除方法的实验过程：
[0124] 本实验使用到两个数据集，每个数据集中的实例的属性如下图：
[0125] 表3两个数据集中的实例的属性
[0126]
[0127] Uni-Stafflnfo:为了测试本发明实施例提供的一种歧义消除方法在不同数据规模和不同粒度上的性能表现，这个数据集中，将同一个大学的研宄人员联系信息放到同一个表中；且，仅保留姓名、职称、电话、邮箱和部门。消歧属性集合为{大学}或者{大学，城市}。
[0128] Proc-DBLP :这个数据集包含DBLP和ACM Digital Library收录的超过22万篇的论文，这些论文包括了 200多个会议从2001年到2010年的接收的论文。表中的属性包括第一作者、作者最新的附属机构、作者邮箱、会议名称、日期。为了演示互联网数据获取，同一年在同一个会议上发表文章的作者被放到同一个表中。表中仅保留作者、附属机构、邮箱属性，消歧属性集合是{会议，日期}。
[0129] 以下展示的结果是在每个数据集上获得的结果的平均值。
[0130] 每个最优消歧属性值及属性消除歧义性结果的能力极大地依赖于现有表中实例的数量和质量，因此分别通过改变表中实例的数量和实例的属性个数检验本发明实施例提供的一种歧义消除法的性能。
[0131] 需要说明的是，计算最优消歧属性值的质量的方法为：将最优消歧属性值和真实情况比较确定其质量，例如假设获取的最优消歧属性值的集合为E D，而真实情况的最优消歧属性值的集合为^，那么获取的最优消歧属性值的集合的质量为Quality (ED)= | EDnE。I / IED U E 〇I。
[0132] 通过改变实例的数量来检验本发明实施例提供的一种歧义消除法的性能：将实例的数量由5个逐渐增长到50个来评估本发明实施例提供的一种歧义消除法获取的最优消歧属性值的质量。图3展示了 Uni-Stafflnfo数据集的实验结果，图4展示了 Proc-DBLP 数据集的实验结果。可见，随着实例的数量由3个增长到8个，Uni-StafTInfo数据集的最优消歧属性值消除歧义性结果的能力由36%增长到65%;但是当实例数量由8个增长到15 个时，该数据集的最优消歧属性值的消除歧义性结果的能力缓慢的增长到79% ;最终当实例的数量大于15个时，该数据集的最优消歧属性值的消除歧义性结果的能力稳定在80%。在Proc-DBLP数据集上也可以得到相类似的结果，说明本发明实施例提供的一种歧义消除方法即使在实例的数量很少时依然有效。
[0133] 通过改变非主属性数量来检验本发明实施例提供的一种歧义消除法的性能：设置实例的数量为10,通过在数据集上改变非主属性的数量由〇增长到全部属性个数，来评估非主属性数量对获取的最优消歧属性值的影响。如图5所示，在Uni-Stafflnfo数据集上，随着非主属性的数量由〇增长到2,获取的最优消歧属性值的质量由44%增长到70%。如图6所示，

完整全部详细技术资料下载

当前第3页1 2 3 4