一种歧义消除方法

文档序号：9274650阅读：297来源：国知局

一种歧义消除方法
【技术领域】
[0001] 本发明涉及语言处理技术领域，更具体地说，涉及一种歧义消除方法。
【背景技术】
[0002] 互联网数据获取是一种基于互联网的应用的统称，这类应用从互联网上获取各种各样的数据。其中一种应用致力于将互联网作为外部数据源，获取其中的数据，用以提高本地数据库中的数据完整性；下面结合本地数据库中的实例表表1对这种应用进行具体说明。
[0003] 表1本地数据库中的实例表
[0004]
[0005] 表1中的部分实例的属性缺少对应的属性值，如属性Name的属性值为Wei Wang的实例，缺少属性Title的属性值。现有技术中，通常将属性值Wei Wang作为检索词语进行检索，并由检索结果中获取该实例对应的属性Title的属性值。但是，互联网中包括属性值 Wei Wang的实例可能成百上千，即仅仅利用属性值Wei Wang进行检索所得的结果会存在歧义性，很难由这些实例中确定出与表1相对应的实例以获取属性Title的属性值。可见，现有技术仅仅通过本地数据库的实例中已提供的属性值进行检索，并由检索结果中获取该实例缺少的属性值，并不能准确获取实例中缺少的属性值。
[0006] 综上所述，现有技术中存在无法准确获取本地数据库的实例中缺少的属性值的缺点。

【发明内容】

[0007] 本发明的目的是提供一种歧义消除方法，以准确获取本地数据库的实例中缺少的属性值。
[0008] 为了实现上述目的，本发明提供如下技术方案：
[0009] 一种歧义消除方法，包括：
[0010] 步骤1:获取预设数量个实例，从中选取正例，该正例包括主属性和非主属性；确定主属性的属性值与所述正例的主属性的属性值相同，非主属性的属性值与所述正例的非主属性的属性值不同的反例，所述反例不属于所述预设数量个实例；利用所述正例进行检索获得正例文档，利用所述反例进行检索获得反例文档；
[0011] 步骤2 :分别获取所述正例文档和所述反例文档所包含的全部属性的属性值；利用每个属性值在所述正例文档中的出现规律及该属性值在所述反例文档中的出现规律，确定与所述预设数量个实例最为匹配的最优消歧属性值；
[0012] 步骤3 :利用所述最优消歧属性值更新所述正例文档及所述反例文档，执行步骤 2 ;直至不再出现新的最优消歧属性值为止；利用全部最优消歧属性值进行检索，以确定所述实例中缺少属性值的属性的属性值。
[0013] 优选的，确定所述反例的过程，包括：
[0014] 利用所述正例的主属性的属性值进行检索，得到检索结果；
[0015] 由所述检索结果中获取与所述正例对应的反例，所述反例包括主属性和非主属性，所述反例的主属性的属性值与所述正例的主属性的属性值相同，所述反例的非主属性的属性值与所述正例的非主属性的属性值不同。
[0016] 优选的，所述分别获取所述正例文档和所述反例文档所包含的全部属性的属性值，包括：
[0017] 分别获取所述正例文档和所述反例文档所包含的全部属性的属性值，该全部属性的属性值与所述实例所包含的全部属性的属性值均不相同。
[0018] 优选的，所述利用每个属性值在所述正例文档中的出现规律及该属性值在所述反例文档中的出现规律，确定与所述预设数量个实例最为匹配的最优消歧属性值，包括：
[0019] 按照下列公式计算任一属性值e相对于一个实例I的第一消歧分数：
[0020]
[0021] 其中，Score (e| I)表示属性值e相对于一个实例I的第一消歧分数，P(e|D+⑴）表示属性值e在正例文档D+(I)中的出现规律，P(e|D_(I))表示属性值e在反例文档D_(I) 中的出现规律；
[0022] 利用所述第一消歧分数确定所述属性值e相对于全部实例的第二消歧分数，确定所述第二消歧分数为该属性值e的总消歧分数；
[0023] 确定全部属性值中总消歧分数最高的属性值为与所述预设数量个实例最为匹配的最优消歧属性值。
[0024] 优选的，按照下列公式计算属性值e在所述正例文档D+⑴中的出现规律 P(e|D/m .
[0025]
[0026] 其中，P(e|l，d)表示综合衡量属性值e在正例文档D+(I)的指定部分文档d中与实例I共同出现的频率和相隔的距离所得的值，w(d|D+(I))表示正例文档D+(I)的指定部分文档d在正例文档D+(I)中所占的权重。
[0027] 优选的，基于Dirichlet先验分布的贝叶斯平滑算法，按照下列公式计算 P(e|l,d)：
[0028]
[0029] 其中，| d|是指定部分文档d的总长度，y为Dirichlet先验分布的贝叶斯平滑算法中的先验参数，Pa(e|C)为属性值e包含在指定语料库中的最大似然估计，p 〇s(I，d)表示指定部分文档d中以实例I出现的位置为中心的窗口，P(e|d，j)为属性值e在指定部分文档d中第j个实例周围的概率。
[0030] 优选的，计算P (e | d, j)，包括：
[0031] 确定5是以指定部分文档d中第j个实例为中心的文字窗口的一半宽度的阈值；
[0032] 当属性值e与第j个实例的距离小于S时，确定所述P(e|d，j)的值为1;
[0033] 当属性值e与第j个实例的距离大于S时，确定所述P(e|d，j)的值为0。
[0034] 优选的，计算w(d|D+(I))，包括：
[0035] 判断是否为第一次计算w(d|D+(I))，如果是，则指定部分文档d在正例文档D+(I) 中所占的权重即为指定部分文档d的页数占正例文档D+(I)的页数的比例；
[0036] 加里否，_桉照下列公式i+笪w(dlD,⑴）：
[0037]
[0038] VD表示最新获取的最优消歧属性值，Score (v 11 +)表示最新获取的最优消歧属性值的总消歧分数，v(d，VD)表示指定部分文档d所包含的总消歧分数大于0的属性值。
[0039] 优选的，所述利用所述最优消歧属性值更新所述正例文档及所述反例文档，包括：
[0040] 确定所述正例所包含的全部属性值为A，所述反例所包含的全部属性值为B，所述最优消歧属性值为C ;
[0041] 则利用检索词组"A+C"进行检索，得到正例文档；利用检索词组"B-C"进行检索，得到反例文档。
[0042] 优选的，利用全部最优消歧属性值进行检索，以确定所述实例中缺少属性值的属性的属性值，包括：
[0043] 确定全部实例中包括缺少属性值的属性的实例为待填充实例；
[0044] 将所述待填充实例所包括的属性值以及全部最优消歧属性值作为检索词组；
[0045] 利用所述检索词组进行检索，并由检索得到的结果中获取所述待填充实例中缺少属性值的属性的属性值。
[0046] 本发明提供的一种歧义消除方法，获取实例中的正例，并确定与之对应的反例；获取正例对应的正例文档及反例对应的反例文档中的全部属性值，反例不属于实例；根据每个属性值在正例文档中的出现规律及该属性值在反例文档中的出现规律确定与全部实例最为匹配的最优消歧属性值，利用最优消歧属性值更新正例文档和反例文档后，通过循环执行获取最优消歧属性值的步骤，获取全部最优消歧属性值，利用全部最优消歧属性值进行检索以获取实例缺少的属性值，而不是仅仅利用实例中已提供的属性值进行检索，由此，能够有效消除检索所得结果的歧义性，且实验证明，本申请提供的一种歧义消除方法能够准确获取本地数据库的实例中缺少的属性值。
【附图说明】
[0047] 为了更清楚地说明本发明实例或现有技术中的技术方案，下面将对实例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
[0048] 图1为本发明实例提供的一种歧义消除方法的流程图；
[0049] 图2为本发明实例提供的一种歧义消除方法中步骤S16的流程图；
[0050] 图3为本发明实例提供的一种歧义消除方法中改变实例的数量时Uni-Stafflnfo 数据集的实验结果示意图；
[0051] 图4为本发明实例提供的一种歧义消除方法中改变实例的数量时Proc-

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李直旭;李洋;杨强;
技术所有人：苏州大学张家港工业技术研究院;
我是此专利的发明人

上一篇：一种基于模糊分词的非多字词错误自动校对方法
上一篇：提供信息的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。