一种歧义消除方法_2

文档序号：9274650阅读：来源：国知局

DBLP数据集的实验结果示意图；
[0052] 图5为本发明实例提供的一种歧义消除方法中改变非主属性数量时 Uni-Stafflnfo数据集的实验结果示意图；
[0053] 图6为本发明实例提供的一种歧义消除方法中改变非主属性数量时Proc-DBLP数据集的实验结果示意图；
[0054] 图7为本发明实例提供的一种歧义消除方法中在循环获取最优消歧属性值过程中Uni-Stafflnfo数据集的实验结果示意图；
[0055] 图8为本发明实例提供的一种歧义消除方法中在循环获取最优消歧属性值过程中Proc-DBLP数据集的实验结果示意图；
[0056] 图9为本发明实施例提供的一种歧义消除方法中在Uni-Stafflnfo数据集上对比本发明实施例提供的一种歧义消除法获取的结果和【背景技术】中所提到的方法获取的结果的实验结果示意图。
【具体实施方式】
[0057] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0058] 请参阅图1，其示出了本发明实施例提供的一种歧义消除方法的流程图，可以包括以下步骤：
[0059] S11 :获取预设数量个实例，从中选取正例，该正例包括主属性和非主属性。
[0060] 需要说明的是，实例均可属于本地数据库，主属性和非主属性的划分可由工作人员根据实际情况确定。
[0061] S12:确定主属性的属性值与正例的主属性的属性值相同，非主属性的属性值与正例的非主属性的属性值不同的反例，反例不属于预设数量个实例。
[0062] S13:利用正例进行检索获得正例文档，利用反例进行检索获得反例文档。
[0063] 利用正例或反例进行检索，可以是将正例或者是反例中的全部词语作为检索词语，在互联网中进行检索。
[0064] S14 :分别获取正例文档和反例文档所包含的全部属性的属性值，利用每个属性值在正例文档中的出现规律及该属性值在反例文档中的出现规律，确定与预设数量个实例最为匹配的最优消歧属性值。
[0065] 其中，有限数量个最优消歧属性值可以对应同一个属性。
[0066] S15 :利用最优消歧属性值更新正例文档及反例文档，执行步骤S14 ;直至不再出现新的最优消歧属性值为止。
[0067] S16 :利用全部最优消歧属性值进行检索，以确定实例中缺少属性值的属性的属性值。
[0068] 本申请获取实例中的正例，并确定与之对应的反例；获取正例对应的正例文档及反例对应的反例文档中的全部属性值，反例不属于上述实例；根据每个属性值在正例文档中的出现规律及该属性值在反例文档中的出现规律确定与全部实例最为匹配的最优消歧属性值，利用最优消歧属性值更新正例文档和反例文档后，通过循环执行获取最优消歧属性值的步骤，获取全部与实例相匹配的最优消歧属性值，利用全部最优消歧属性值进行检索以获取实例缺少的属性值，而不是仅仅利用实例中已提供的属性值进行检索，由此，能够有效消除检索所得结果的歧义性，且实验证明，本申请提供的一种歧义消除方法能够准确获取本地数据库的实例中缺少的属性值，比现有技术的准确率提高了 25 %以上。
[0069] 需要说明的是，上述实施例提供的一种歧义消除方法的步骤S14中，获取的正例文档和反例文档所包含的全部属性的属性值，可以与实例所包含的全部属性的属性值均不相同。进一步，确定的最优消歧属性值则为与实例相匹配的潜在的属性值。这样省去了判断实例所包含的属性的属性值是否为最优消歧属性值的时间，提高了效率，且，实验证明，这样并不影响本发明实施例提供的一种歧义消除方法所获得的结果的准确率。
[0070] 上述实施例提供的一种歧义消除方法中确定反例的过程，可以包括：
[0071] 利用正例的主属性的属性值进行检索，得到检索结果；由检索结果中获取与正例对应的反例，反例包括主属性和非主属性，反例的主属性的属性值与正例的主属性的属性值相同，反例的非主属性的属性值与正例的非主属性的属性值不同。
[0072] 在选择正例的时候可以选择实例中包含属性值最多的实例作为正例，确定正例的主属性A k的属性值为Vk，非主属性An的属性值为V n;利用V k进行检索，从检索结果，即检索所得的文档中获取包括\和V n'的实例作为反例，即反例也包括主属性和非主属性，且主属性的属性值与正例的主属性的属性值相同，均为V k;而非主属性的属性值为Vn'，正例的非主属性的属性值为Vn，二者不同。例如表1中的实例，我们将属性Name的属性值为Jack Davi s的实例作为正例，属性Name为该正例的主属性，属性Ti11 e和属性Phone为该正例的非主属性，则利用主属性的属性值Jack Davis进行检索，可得到如表2中所示的三个反例。
[0073] 表2三个反例
[0074]
[0075] 上述实施例提供的一种歧义消除方法中，利用每个属性值在正例文档中的出现规律及该属性值在反例文档中的出现规律，确定与预设数量个实例最为匹配的最优消歧属性值，可以包括：
[0076] 按照下列公式计算任一属性值e相对于一个实例I的第一消歧分数：
[0077]
[0078] 其中，Score (e| I)表示属性值e相对于一个实例I的第一消歧分数，P(e|D+⑴）表示属性值e在正例文档D+(I)中的出现规律，P(e|D_(I)表示属性值e在反例文档D_(I) 中的出现规律。
[0079] 为了使上式计算的结果更加平滑，可以在上式的分母上+1，即如下式所示：
[0080]
[0081] 利用第一消歧分数确定属性值e相对于全部实例的第二消歧分数，确定第二消歧分数为该属性值e的总消歧分数。
[0082] 可以按照下列公式计算第二消歧分数：
[0083]
[0084] 其中，P (e 11，1+)定量的表示属性值e在所有实例1+中对于消除实例I的歧义性的评分，P (111+)表示衡量实例I在所有实例1+中的代表性所得的值，假设在所有实例I +中的所有实例的权重相等，则有5(3〇1^(6|1+)=5(3〇1^(6|1)以及？(1|1 +)等于|1+|的倒数。
[0085] 确定全部属性值中总消歧分数最高的属性值为与预设数量个实例最为匹配的最优消歧属性值。
[0086] 总消歧分数即能代表属性值与预设数量个实例是否匹配，更代表了属性值消除歧义性结果的能力；根据上述公式能够准确获取每个属性值的总消歧分数，进而确定最优消歧属性值，保证了后续步骤的顺利进行。
[0087] 上述实施例提供的一种歧义消除方法中，可以按照下列公式计算属性值e在正例文档0+(1)中的出现规律？( 6|0+(1)):
[0088]
[0089] 其中，P(e|l，d)表示综合衡量属性值e在正例文档D+(I)的指定部分文档d中与实例I共同出现的频率和相隔的距离所得的值，w(d|D+(I))表示正例文档D+(I)的指定部分文档d在正例文档D+(I)中所占的权重。另外，P(e|D_(I))的计算与上述对P(e|D+(I)的计算方式类似。
[0092] 其中，| d|是指定部分文档d的总长度；y为Dirichlet先验分布的贝叶斯平滑
[0090] 进一步的，基于Dirichlet先验分布的贝叶斯平滑算法，可以按照下列公式计算 P(e|l,d：
[0091] 算法中的先验参数，可以设置成所有文档的平均长度；Pa(e|C)为属性值e包含在指定语料库中的最大似然估计，指定语料库可以是搜索引擎收录的网页文档或者是WeblT语料库； pos(I, d)表示指定部分文档d中以实例I出现的位置为中心的窗口；P(e|d, j)为属性值e 在指定部分文档d中第j个实例周围的概率。
[0093] 按照上述公式计算P (e 11，d)及P (e | D+ (I))，既需要考虑到属性值e在指定部分文档d中出现的频率又需要考虑其与实例I相隔的距离；同时，为了排除常见语料库中常见的词汇，可以使用基于Dirichlet先验分布的贝叶斯平滑算法，降低那些在常见语料库中经常出现的词汇的总消歧分数，提高那些在常见语料库中很少出现的词汇的总消歧分数。由此

完整全部详细技术资料下载

当前第2页1 2 3 4