一种实体链接方法及装置制造方法

文档序号:6512470阅读:114来源:国知局
一种实体链接方法及装置制造方法
【专利摘要】本发明提供一种实体链接方法及装置,该方法包括:获取实体提及的潜在链接实体;扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;以及将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体。本发明中,对实体提及所在的原始文本进行扩展,利用扩展后的文本筛选潜在链接实体,从而能够提高链接实体的准确性。
【专利说明】一种实体链接方法及装置

【技术领域】
[0001] 本发明涉及数据库领域,尤其涉及一种实体链接方法及装置。

【背景技术】
[0002] 随着互联网语义知识库和短文本信息平台例如微博、短信等的飞速发展,如何将 短文本中的"实体提及(mention)"与互联网语义知识库中的实体(entity)相关联,从而将 短文本内容语义化成为语言信息处理领域亟待解决的问题之一。


【发明内容】

[0003] 本发明的实施方式提供了一种实体链接方法及装置,能够将短文本内容中的实体 提及链接到匹配的实体。
[0004] 本发明的一个实施方式提供一种实体链接方法,包括:获取实体提及的潜在链接 实体;扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第 一文本与所述潜在链接实体对应的第二文本的文本相似度;根据所述文本相似度计算所述 潜在链接实体与所述实体提及的匹配度;以及将所述实体提及链接到具有满足预设条件的 匹配度的潜在链接实体。
[0005] 本发明的另一实施方式提供一种实体链接装置,包括:获取单元,配置用于获取实 体提及的潜在链接实体;扩展处理单元,配置用于扩展所述实体提及所在的原始文本得到 所述实体提及对应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的 文本相似度;匹配处理单元,配置用于根据所述文本相似度计算所述潜在链接实体与所述 实体提及的匹配度;以及链接单元,配置用于将所述实体提及链接到具有满足预设条件的 匹配度的潜在链接实体。
[0006] 本发明中,对实体提及所在的原始文本进行扩展,利用扩展后的文本筛选潜在链 接实体,从而能够提高链接实体的准确性。

【专利附图】

【附图说明】
[0007] 参照下面结合附图对本发明实施方式的说明,会更加容易地理解本发明的以上和 其它目的、特点和优点。附图以示例而非限制性的方式来说明本发明。在附图中,相同的或 类似的技术特征或部件将采用相同或类似的附图标记来表示。
[0008] 图1示出本发明提供的实体链接方法的流程示意图;
[0009] 图2示出本发明提供的实体链接方法中一种潜在链接实体的获取方式的示意图; [0010] 图3出本发明提供的实体链接方法中另一种潜在链接实体的获取方式的示意图;
[0011] 图4示出本发明提供的实体链接装置的结构示意图;以及
[0012] 图5示出用以实施本发明提供的装置和方法的计算设备的结构示意图。

【具体实施方式】
[0013] 现在参考附图来更加详细地描述本发明的实施方式。示例实施方式的提供是为了 使本发明更加详尽,并且向本领域技术人员充分地传达保护范围。阐述了众多的特定细节 如特定部件、装置的例子,以提供对本发明的实施方式的详尽理解。对于本领域技术人员而 言将会明显的是,示例实施方式可以用许多不同的形式来实施而不一定使用这些特定的细 节,因此它们都不应当被解释为限制本发明的范围。另外,在本发明的一个附图或一种实施 方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征 相结合。在某些示例实施方式中,为了清楚的目的,没有在附图和说明中详细地描述众所周 知的过程、结构和技术。
[0014] 本发明提供了实体链接方法及装置。下面首先参考附图结合【具体实施方式】介绍本 发明提供的实体链接方法。
[0015] 图1示出了本发明提供的实体链接方法的流程示意图。
[0016] 如图1所示,在步骤SlOl中,获取实体提及的潜在链接实体。
[0017] 其中,实体提及的潜在链接实体的获取方式可以有多种,下面进行详细描述。
[0018] 当短文本中的实体提及确定后,可以根据该实体提及直接在知识库中搜索与该实 体提及对应的实体作为潜在链接实体。该知识库包括但不限于与该方法所应用的场景对应 的特定知识库,例如互联网语义知识库Wikipedia (维基百科)、DBPedia、BaiduBaike (百度 百科)等。例如当实体提及为"apple"时,从互联网语义知识库中可能搜索到"苹果"、"美 国苹果公司"等多个潜在链接实体。
[0019] 其中,从已有的知识库中查找潜在链接实体包括但不限于下述方式:将知识库中 的重定向链接作为潜在链接实体;将知识库中查找到的内容中第一段中的黑体字作为潜 在链接实体;根据知识库中查找到的消岐页面得到潜在链接实体;还可以根据锚文本与 实体的链接关系等信息获取实体提及的潜在链接实体。例如,如图2所示,对于实体提及 "IBM",在知识库中搜索得到的内容中,包括重定向链接"国际商业机器股份有限公司",以 及第一段中的黑体字"国际商业机器股份有限公司"、"International Business Machines Corporation"以及"万国商业机器公司",这些内容都可以作为实体提及"IBM"的潜在链接 实体。如图3所示,对于实体提及"苹果",在知识库中搜索得到消歧义页面,其中,"苹果公 司"、"苹果日报"、"苹果(电影)"等都可以作为实体提及"苹果"的潜在链接实体。
[0020] 当短文本中的实体提及确定后,还可以基于该短文本获取实体提及的潜在链接实 体,例如可以将短文本中包含所述实体提及且存在于知识库中的实体作为潜在链接实体。 例如,对于短文本"北京时间3月12日,2013亚冠联赛小组赛第二轮,广州恒大足球俱乐部 客场挑战全北现代,广州恒大首发已经公布",其中实体提及为"广州恒大",则此时短文本 中包括"广州恒大足球俱乐部",且"广州恒大足球俱乐部"也是知识库中的实体,则将"广州 恒大足球俱乐部"作为"广州恒大"的潜在链接实体,如果"广州恒大足球俱乐部"不是知识 库中的实体,这种方法不能提供候选。
[0021] 当短文本中的实体提及确定后,在进行上述潜在链接实体的搜索前,还可以对该 实体提及进行扩展得到长度更大的伪实体提及,然后根据伪实体提及进行上述任一种方式 的潜在链接实体的搜索。由于伪实体提及包含更多信息,更能够准确得到实体提及所应当 链接到的实体。
[0022] 在介绍伪实体提及的获取方式前,首先介绍获取伪实体提及时可以用到的对实体 提及的类型的确定。
[0023] 实体提及类型的确定需要用到实体类型本体。实体类型本体定义了现实世界 中实体的类型以及类型之间的关系,比如实体最顶层的类型为对象(OBJECT),OBJECT 又包括人(PERSON)实体、位置(LOCATION)实体、组织(ORGANIZATION)实体、机关实体 (GEO-POLITICAL ENTITY)等等,人实体又可以根据职业分类不同的类别。因此实体类型本 体可以被理解为一个将实体从一般到具体的分类体系。实体类型本体有两种获得方法,第 一种方法是使用已有的实体类型本体,例如网址http://www. dmoz. org/等等公开的实体 类型;第二种方法是用户根据自己的需要定制自己的实体类型本体,本文对此不做限制。
[0024] 在得到实体类型本体后,可以利用机器学习技术训练能够自动判断给定实体的类 型的机器识别模型。其中机器学习技术包括有监督学习和无监督学习两种方法。有监督学 习需要标注一些训练语料,比如需要识别PERSON实体,那么可以标注一些包含PERSON实体 的训练语料,然后利用有监督学习模型如CRF、SVM和训练语料训练一个机器识别模型。利 用这个机器识别模型就可以识别文本中的PERSON实体。对于其他实体类型可以根据与此 相似的方式训练得到机器识别模型,最终得到能够自动判断给定实体的类型的机器识别模 型。无监督学习方法可以利用专业词典识别实体的类型,比如可以利用地名词典通过字符 串匹配的方法识别地名,或者根据一些模式来识别实体的类型,比如出现"〈XXX总统〉"则 将XXX的类型识别为PERSON,通过一系列的无监督学习得到能够自动判断给定实体的类型 的机器识别模型。
[0025] 除了利用机器自动识别实体提及的类型外,用户也可以人工指定mention的类 型,这里实体提及mention的类型要与实体类型本体中的类别相对应。也就是说,可以不通 过机器判断而是由用户直接判断实体提及的类型。这样做的好处是,用户可以指定链接某 些他感兴趣类型的实体,比如只链接短文本中PERSON或ORGANIZATION类型的实体。
[0026] 需要说明的是,实体提及类型的判断也可以不依赖实体类型本体,即不需要预先 确定实体与类型之间的对应关系,例如用户可以在确定实体提及的类型时随机指定实体提 及的类型。
[0027] 在得到实体提及的类型后,可以根据下述方式确定伪实体提及:如果所述实体提 及的类型为人,使用共指消解技术在所述原始文本中找到所述实体提及的扩展的其他表 示形式作为所述伪实体提及。比如给定文本"LeBron Raymone James, nicknamed〃King James",is an American professional basketball player for the Miami Heat of the National Basketball Association(NBA). Lebron has played the small forward and power forward positions",其中 mention 为 "Lebron" 时,在原始文本中找到 Lebron 的共指"LeBron Raymone James" 时,那么则用 "LeBron Raymone James" 代替原来的 mention "Lebron",即使用 "LeBron Raymone James" 作为 "Lebron" 的伪实体提及。
[0028] 如果所述实体提及的类型为行政机关,从所述原始文本中查找地名并结合所述实 体提及与查找到的地名作为所述伪实体提及。例如,使用命名实体识别工具从mention的 上下文中找到mention的所属实体,利用这些实体与mention结合作为伪实体提及。例如, 给定文本"最高人民法院成立于1949年10月22日,中华人民共和国最高审判机关,监督地 方各级人民法院和专门人民法院的审判工作",mention为"最高人民法院",则从原始文本 中查找到地名,即mention的所属词"中华人民共和国",将"中华人民共和国"与"最高人民 法院"结合得到伪实体提及"中华人民共和国最高人民法院"。
[0029] 如果所述实体提及的类型为组织,则根据模式匹配技术在所述原始文本中找到与 所述实体提及对应的文本作为所述伪实体提及。例如,给定文本"Agricultural Bank of China (ABC), also known as AgBank or 农行,is one of the〃Big Four^banks in the People's Republic of China",mention为"ABC"时,可以使用模式匹配的方法在原始文 本中找到"Agricultural Bank of China,',那么直接用"Agricultural Bank of China"代 替"ABC",即使用 "Agricultural Bank of China" 作为 "ABC" 的伪实体提及。
[0030] 还可以根据下述方式确定伪实体提及:当所述实体提及为缩写时,根据模式匹配 技术在所述原始文本中找到与所述实体提及对应的文本作为所述伪实体提及。例如给定 文本"Michael Jordan (MJ)has been the best basketball player, but MJ is now too old",实体提及为"MJ",此时可以使用模式匹配技术在原始文本中找到"Michael Jordan", 并使用"Michael Jordan"作为"MJ"的伪实体提及。
[0031] 当实体提及不是缩写时,可以参考上一伪实体提及的确定方式根据实体提及的类 型来确定伪实体提及,例如,根据实体类型本体识别实体提及的类型,并且如果实体提及的 类型为人,使用共指消解技术在原始文本中找到实体提及的扩展的其他表示形式作为伪实 体提及;如果实体提及的类型为行政机关,从原始文本中查找地名并结合实体提及与查找 到的地名作为伪实体提及,其示例可以参考上一伪实体提及的确定方式,此处不再赘述。
[0032] 在上述步骤SlOl中获取到潜在链接实体之后,执行步骤S102。
[0033] 在步骤S102中,根据实体类型筛选得到的潜在链接实体,去除实体类型不满足预 设条件的潜在链接实体。该预设条件可以是与实体提及的类型相同,或者是与用户预先设 置的实体类型相同。例如,用户可以预先设置实体提及"MJ"的链接实体的类型为公司,则 查找到的例如潜在链接实体"Michael Jordan"被排除。其中,实体类型的确定方式将在后 续对步骤SlOl的详述中介绍。
[0034] 在步骤S103中,对实体提及所在的原始文本进行扩展,得到实体提及对应的第一 文本,计算第一文本与潜在链接实体对应的第二文本的文本相似度。例如,对于实体提及 "恒大"的原始文本"恒大赢了"可能扩展得到第一文本"广州恒大足球俱乐部赢得了中国足 球超级联赛的第二名"。
[0035] 其中,对原始文本的扩展方式包括但不限于:选择实体提及周围预设长度L内的 文本,对该文本进行分词;然后计算各个词与实体提及的关联度,选择关联度最高的η个词 作为关键词;并利用η个关键词和实体提及搜索语料库得到含有实体提及和η个关键词的 文本片段;进而将该文本片段与实体提及所在的原始文本组合得到第一文本。
[0036] 其中,关联度的计算可以包括但不限于通过下述公式得到:
[0037] ^D(,. ,·)= max!log/(.v),log/(r)l-l〇g/(.r"r) (1) log M - min j log / {x\ log./ (v)!
[0038] 其中,x表示实体提及,y表示分词,NGD (x, y)表示x与y的关联度,M表示查找 得到的潜在链接实体的总数,f (X)表示X在潜在链接实体中出现的次数,f (y)表示y在 潜在链接实体中出现的次数,f (X,y)表示X和y在潜在链接实体中同时出现的次数。
[0039] 关联度的计算还可以通过其他方式实现,例如直接根据各分词与实体提及在潜在 链接实体中同时出现的频率确定各分词与实体提及的关联度。
[0040] 需要注意,利用η个关键词和实体提及搜索语料库得到的含有实体提及和η个关 键词的文本片段可能并不唯一,此时可选的,根据产生时间筛选多个文本片段。例如,假定 得到的文本片段有m个,那么选择和原始文本时间相差为t的k个检索结果。假设原始文本 的产生时间为T,设定的时间窗口为t,则选择产生时间为[T-t,T+t]的检索结果。例如实 体提及为"詹姆斯",得到的关键词为"NBA"和"总决赛",原始文本产生的时间为T= "2013 年6月18日",假设t=10天,那么可以选择产生时间为"2013年6月8日"到"2013年6月 28日"的检索到的文本片段。
[0041] 如果根据时间筛选得到的文本片段仍然为多个,可以进一步筛选,例如对每一个 文本片段以及原始文本分别构建向量,并计算各文本片段的向量与所述原始文本的向量的 余弦距离,筛选得到余弦距离满足阈值条件的文本片段。假定进行时间筛选后得到的文本 片段个数为k,对于该k个检索结果,可以为每一个检索结果构建一个向量, Vi(i=l,2-k), 同时我们对原始文本构建向量V。,计算Vi与V。的余弦距离,选择余弦距离最小的前W个检 索结果。优选的,W可以设置为1。
[0042] 另外,对原始文本的扩展方式还可以包括:选择实体提及周围一定长度内的文本 作为第一文本,该一定长度例如可以是经验值。
[0043] 第一文本与第二文本的文本相似度可以利用现有技术中的各种相似度计算方式, 本文对此不做限制。
[0044] 在上述步骤S103中计算得到第一文本与第二文本的文本相似度之后,基于该相 似度执行步骤S104。
[0045] 在步骤S104中,基于第一文本与第二文本的文本相似度确定潜在链接实体的匹 配度。
[0046] 其中,基于第一文本与第二文本的文本相似度确定潜在链接实体的匹配度可以包 括直接将文本相似度作为匹配度或根据预先设置的文本相似度与匹配度的关系例如比例 系数确定匹配度。
[0047] 匹配度的确定还可以在上述文本相似度的基础上结合其他因素确定,这些其他因 素包括但不限于:实体提及的字符串与潜在链接实体的实体名称的字符串的相似度、实体 提及与潜在链接实体的链接流行度、以及潜在链接实体与实体提及的互指概率。并且,这些 其他因素可以单独或相互结合使用。
[0048] 其中,实体提及的字符串与潜在链接实体的实体名称的字符串的相似度可以采用 现有技术中的各种相似度计算方式,本文对此不做限制。
[0049] 实体提及与潜在链接实体的链接流行度通过计算各潜在链接实体在实体提及 搜索到的所有潜在链接实体中出现的频率确定。例如,对于实体提及"0A",在网络知识 库中可能搜索得到100个页面,其中包括潜在链接实体"Office Action"与"office automation",且后者在90个页面中出现,前者在10个页面中出现,则此时潜在链接实体 "Office Action"与"office automation"的链接流行度分别为例如0.1和0.9。需要说 明,本示例仅是出于说明的目的,而不用于限定链接流行度的具体确定方式。
[0050] 潜在链接实体与实体提及的互指概率可以根据潜在链接实体的来源确定。例如, 当所述来源为重定向链接时,确定所述潜在链接实体对应的互指概率为第一预设值,例如 1 ;当所述来源为黑体字时,确定所述潜在链接实体对应的互指概率为第二预设值,例如 0.8 ;当所述来源为消歧页面时,确定所述潜在链接实体对应的互指概率为1/k,其中,k为 歧义的实体总数。
[0051] 优选的,潜在链接实体与实体提及的互指概率可以在获取潜在链接实体的处理中 直接设置,后续可以直接使用预先设置的该互指概率。
[0052] 如上所述,匹配度的确定可以同时依据多个因素。例如,假定上述文本相似度表 示为ContextSimilarity (mention, entity)、实体提及的字符串与潜在链接实体的实体名 称的字符串的相似度表示为LexicalSimilarity (mention, entity)、实体提及与潜在链接 实体的链接流行度表示为PopularProbability (mention, entity)以及潜在链接实体与实 体提及的互指概率表示为P (m,e),并且实体提及与潜在链接实体的最终的匹配度表示为 FinalScore (m, e),则通过下式计算FinalScore (m, e),其中m表示实体提及(mension),e表 示实体(entity):
[0053] FinalScore(m,e) = p(m, e)* ( a ^LexicalSimilarity(mention, entity) +
[0054] β 氺PopularProbabiIity(mention, entity) +
[0055] y ^ContextSimilarity(mention, entity))
[0056] 其中α、β和Y分别作为权重系数,其值可以通过训练样本估计得到。优选的, 由于不同类型的实体提及的特点不同,所以针对不同的实体提及类型分别单独地估计a、 β和Y,即对不同的实体提及类型(例如上述人、组织和机关)构建不同的训练样本,训练得 到不同的权重值a、β和γ。
[0057] 在步骤S105中,确定是否存在匹配度满足预设条件的潜在链接实体;如果存在, 执行步骤S106 ;否则,执行步骤S107。预设条件例如为阈值,即匹配度在阈值以上的潜在链 接实体为满足预设条件的潜在链接实体。优选的,不同类型的实体提及可以具有不同的预 设条件,例如不同的匹配度阈值。
[0058] 在步骤S106中,将实体提及链接到匹配度满足预设条件的潜在链接实体。
[0059] 在步骤S107中,将实体提及对应的所有潜在链接实体存入知识库中。如果发现不 存在满足预设条件的潜在链接实体,则认为当前知识库中不存在实体提及对应的实体,可 以将该实体提及对应的所有潜在链接实体存入知识库中。该知识库例如可以为上述步骤 SlOl中提到的各种知识库。当然,发现不存在满足预设条件的潜在链接实体,也可以采取其 他处理操作,例如反馈不存在潜在链接实体的提示信息,该提示信息可以为文字或语音形 式。
[0060] 本公开中,对实体提及所在的原始文本进行扩展,利用扩展后的文本筛选潜在链 接实体,从而能够提高链接实体的准确性。
[0061] 基于与上述方法技术方案相同的技术构思,本发明还提供了一种实体链接装置, 如图4所示,包括:获取单元41,配置用于获取实体提及的潜在链接实体;扩展处理单元 42,配置用于扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算 所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;匹配处理单元43,配置 用于根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;以及链接单元 44,配置用于将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体。
[0062] 该装置还可以包括:筛选单元45,配置用于在扩展处理单元42执行操作之前首先 根据实体类型筛选得到潜在链接实体,去除实体类型不满足预设条件的潜在链接实体。
[0063] 该装置还可以包括:判断单元46,配置用于确定是否存在匹配度满足预设条件的 潜在链接实体;以及存储单元47,配置用于当不存在具有满足预设条件的匹配度的潜在链 接实体时,将所述实体提及与其所有潜在链接实体存储到知识库中。
[0064] 与上述方法技术方案中对应,获取单元41用于执行上述步骤SlOl中的相关操作, 其具体操作可以参照上述步骤S101,此处不再赘述。类似地,筛选单元45配置用于执行上 述步骤S102的相关操作;扩展处理单元42用于执行上述步骤S103的相关操作;匹配处理 单元43用于执行上述步骤S104的相关操作;判断单元46用于执行上述步骤S105的相关 操作;链接单元44执行上述步骤S106的相关操作;存储单元47用于执行上述步骤S107的 相关操作。
[0065] 下文中,参考图5描述实现本发明的数据处理设备的计算机的示例性结构。图5 是示出实现本发明的计算机设备的示例性结构的框图。
[0066] 上述计算机中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配 置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件 或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图5示的通 用计算机1100)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能 等。
[0067] 在图5中,中央处理单元(CPU) 1101根据只读存储器(ROM) 1102中存储的程序或 从存储部分1108加载到随机存取存储器(RAM) 1103的程序执行各种处理。在RAMl 103中, 也根据需要存储当CPUl 101执行各种处理等等时所需的数据。CPUl 101、R0M1102和RAMl 103 经由总线1104彼此连接。输入/输出接口 1105也连接到总线1104。
[0068] 下述部件连接到输入/输出接口 1105 :输入部分1106 (包括键盘、鼠标等等)、输 出部分1107(包括显示器,比如阴极射线管(CRT)、液晶显示器(IXD)等,和扬声器等)、存储 部分1108 (包括硬盘等)、通信部分1109 (包括网络接口卡比如LAN卡、调制解调器等)。通 信部分1109经由网络比如因特网执行通信处理。根据需要,驱动器1110也可连接到输入 /输出接口 1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被 安装在驱动器1110上,使得从中读出的计算机程序根据需要被安装到存储部分1108中。 [0069] 在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆 卸介质1111安装构成软件的程序。
[0070] 本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程 序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子 包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(⑶-ROM)和数字通用盘 (DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是 R0M1102、存储部分1108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被 分发给用户。
[0071] 本发明还提出存储有机器可读取的指令代码的程序产品。所述指令代码由机器读 取并执行时,可执行上述根据本发明任一实施方式的方法或方法中的部分处理。
[0072] 相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包 括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等 等。
[0073] 应当注意,本文中所使用的术语仅用于描述具体的实施方式的目的,而非意在限 制本发明。本文中所使用的单数形式的"一个"和"该(the)"意在还包括复数形式,除非上 下文清楚地指出不同含义。还应当理解,术语"包括"在本说明书中使用时指所说明的特征、 整体、操作、步骤、元件和/或部件的存在,但是不排除一个或更多个其他特征、整体、操作、 步骤、元件、部件和/或其组合的存在或添加。
[0074] 权利要求中的相应结构、材料、动作和以"装置或者步骤加功能"定义的要素的所 有等同形式意在包括用于结合其他要求保护的要素来执行功能的任意结构、材料或动作。 对本发明的描述是用于说明和描述的目的,而非意在以所公开的形式来穷举或限制本发 明。本领域技术人员可以在不偏离本发明的范围和精神的情况下想到对本发明的很多修改 和变化。所选择和描述的实施方式是为了最佳地解释本发明的原理和实际应用,并使得本 领域的其他技术人员能够针对具有适于所想到的具体用途的各种修改的各种实施方式来 理解本发明。
[0075] 通过上述的描述,本发明的实施方式提供了以下的技术方案。
[0076] 附记1. 一种实体链接方法,包括:
[0077] 获取实体提及的潜在链接实体;
[0078] 扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述 第一文本与所述潜在链接实体对应的第二文本的文本相似度;
[0079] 根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;
[0080] 将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体。
[0081] 附记2.如附记1所述的实体链接方法,计算所述潜在链接实体与所述实体提及的 匹配度之前还包括:
[0082] 排除与所述实体提及的类型或者预先设定类型不一致的潜在链接实体。
[0083] 附记3.如附记2所述的实体链接方法,还包括:根据实体类型本体识别所述实体 提及的类型。
[0084] 附记4.如附记1所述的实体链接方法,所述获取实体提及的潜在链接实体包括:
[0085] 在知识库中搜索与所述实体提及对应的实体作为潜在链接实体;和/或
[0086] 获取所述实体提及所在文本中的包含所述实体提及且存在于所述知识库中的实 体,作为潜在链接实体。
[0087] 附记5.如附记1所述的实体链接方法,所述根据所述文本相似度计算所述潜在链 接实体与所述实体提及的匹配度包括:
[0088] 结合所述实体提及的字符串与所述潜在链接实体的实体名称的字符串的相似度、 所述实体提及与所述潜在链接实体的链接流行度和所述潜在链接实体与所述实体提及的 互指概率中的一种或多种以及所述文本相似度,计算所述潜在链接实体与所述实体提及的 匹配度。
[0089] 附记6.如附记5所述的实体链接方法,所述扩展所述实体提及所在的原始文本得 到所述实体提及对应的第一文本包括:
[0090] 选择所述实体提及周围预设长度内的文本,对所述文本进行分词;
[0091] 计算各个词与所述实体提及的关联度,选择关联度最高的η个词作为关键词;
[0092] 利用所述η个关键词和所述实体提及在语料库中搜索得到含有所述实体提及和 所述η个关键词的文本片段;
[0093] 将所述文本片段与所述实体提及所在的原始文本组合得到所述第一文本。
[0094] 附记7.如附记6所述的实体链接方法,当得到多个所述文本片段时,筛选得到产 生时间满足预设条件的文本片段。
[0095] 附记8.如附记7所述的实体链接方法,当筛选得到两个以上文本片段时,对每一 个文本片段以及所述原始文本分别构建向量,并计算各文本片段的向量与所述原始文本的 向量的余弦距离,筛选得到余弦距离满足阈值条件的文本片段。
[0096] 附记9.如附记5所述的实体链接方法,计算所述潜在链接实体与所述实体提及的 互指概率包括:
[0097] 获取所述潜在链接实体在知识库中的来源,根据所述来源确定所述潜在链接实体 对应的互指概率。
[0098] 附记10.如附记9所述的实体链接方法,根据所述来源确定所述潜在链接实体对 应的互指概率包括:
[0099] 当所述来源为重定向链接时,确定所述潜在链接实体对应的互指概率为第一预设 值;
[0100] 当所述来源为黑体字时,确定所述潜在链接实体对应的互指概率为第二预设值;
[0101] 当所述来源为消歧页面时,确定所述潜在链接实体对应的互指概率为Ι/k,其中,k 为歧义的实体总数。
[0102] 附记11.如附记1所述的方法,所述获取实体提及的潜在链接实体包括:
[0103] 对所述实体提及进行扩展得到伪实体提及,根据所述伪实体提及获取所述潜在链 接实体。
[0104] 附记12.如附记11所述的方法,对所述实体提及进行扩展得到伪实体提及包括:
[0105] 当所述实体提及为缩写时,根据模式匹配技术在所述原始文本中找到与所述实体 提及对应的文本作为所述伪实体提及。
[0106] 附记13.如附记11所述的方法,对所述实体提及进行扩展得到伪实体提及包括:
[0107] 根据所述实体提及的类型对所述实体提及进行扩展得到所述伪实体提及。
[0108] 附记14.如附记13所述的方法,根据所述实体提及的类型对所述实体提及进行扩 展得到所述伪实体提及包括 :
[0109] 如果所述实体提及的类型为人,使用共指消解技术在所述原始文本中找到所述实 体提及的扩展的其他表示形式作为所述伪实体提及;
[0110] 如果所述实体提及的类型为行政机关,从所述原始文本中查找地名并结合所述实 体提及与查找到的地名作为所述伪实体提及;以及
[0111] 如果所述实体提及的类型为组织,则根据模式匹配技术在所述原始文本中找到与 所述实体提及对应的文本作为所述伪实体提及。
[0112] 附记15.如附记14所述的方法,其中,根据实体类型本体识别所述实体提及的类 型。
[0113] 附记16.如附记1所述的方法,还包括:
[0114] 若不存在满足预设条件的匹配度的潜在链接实体,则将所述实体提及的所有潜在 链接实体存储到对应数据库中。
[0115] 附记17. -种实体链接装置,包括:
[0116] 获取单元,配置用于获取实体提及的潜在链接实体;
[0117] 扩展处理单元,配置用于扩展所述实体提及所在的原始文本得到所述实体提及对 应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;
[0118] 匹配处理单元,配置用于根据所述文本相似度计算所述潜在链接实体与所述实体 提及的匹配度;
[0119] 链接单元,配置用于将所述实体提及链接到具有满足预设条件的匹配度的潜在链 接实体。
[0120] 附记18.如附记17所述的实体链接装置,所述扩展处理单元用于:
[0121] 选择所述实体提及周围预设长度内的文本,对所述文本进行分词;
[0122] 计算各个词与所述实体提及的关联度,选择关联度最高的η个词作为关键词;
[0123] 利用所述η个关键词和所述实体提及在语料库中搜索得到含有所述实体提及和 所述η个关键词的文本片段;
[0124] 将所述文本片段与所述实体提及所在的原始文本组合得到所述第一文本。
[0125] 附记19.如附记17所述的实体链接装置,所述获取单元用于:对所述实体提及进 行扩展得到伪实体提及,根据所述伪实体提及获取所述潜在链接实体。
[0126] 附记20.如附记19所述的实体链接装置,所述获取单元用于:根据所述实体提及 的类型对所述实体提及进行扩展得到所述伪实体提及。
【权利要求】
1. 一种实体链接方法,包括: 获取实体提及的潜在链接实体; 扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第一 文本与所述潜在链接实体对应的第二文本的文本相似度; 根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度; 将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体。
2. 如权利要求1所述的实体链接方法,所述根据所述文本相似度计算所述潜在链接实 体与所述实体提及的匹配度包括: 结合所述实体提及的字符串与所述潜在链接实体的实体名称的字符串的相似度、所述 实体提及与所述潜在链接实体的链接流行度和所述潜在链接实体与所述实体提及的互指 概率中的一种或多种W及所述文本相似度,计算所述潜在链接实体与所述实体提及的匹配 度。
3. 如权利要求1所述的实体链接方法,所述扩展所述实体提及所在的原始文本得到所 述实体提及对应的第一文本包括: 选择所述实体提及周围预设长度内的文本,对所述文本进行分词; 计算各个词与所述实体提及的关联度,选择关联度最高的n个词作为关键词; 利用所述n个关键词和所述实体提及在语料库中搜索得到含有所述实体提及和所述n 个关键词的文本片段; 将所述文本片段与所述实体提及所在的原始文本组合得到所述第一文本。
4. 如权利要求3所述的实体链接方法,当得到多个所述文本片段时,筛选得到产生时 间满足预设条件的文本片段。
5. 如权利要求4所述的实体链接方法,当筛选得到两个W上文本片段时,对每一个文 本片段W及所述原始文本分别构建向量,并计算各文本片段的向量与所述原始文本的向量 的余弦距离,筛选得到余弦距离满足阔值条件的文本片段。
6. 如权利要求1所述的实体链接方法,所述获取实体提及的潜在链接实体包括: 对所述实体提及进行扩展得到伪实体提及,根据所述伪实体提及获取所述潜在链接实 体。
7. 如权利要求6所述的实体链接方法,对所述实体提及进行扩展得到伪实体提及包 括: 当所述实体提及为缩写时,根据模式匹配技术在所述原始文本中找到与所述实体提及 对应的文本作为所述伪实体提及。
8. 如权利要求6所述的实体链接方法,对所述实体提及进行扩展得到伪实体提及包 括: 根据所述实体提及的类型对所述实体提及进行扩展得到所述伪实体提及。
9. 如权利要求8所述的实体链接方法,根据所述实体提及的类型对所述实体提及进行 扩展得到所述伪实体提及包括: 如果所述实体提及的类型为人,使用共指消解技术在所述原始文本中找到所述实体提 及的扩展的其他表示形式作为所述伪实体提及; 如果所述实体提及的类型为行政机关,从所述原始文本中查找地名并结合所述实体提 及与查找到的地名作为所述伪实体提及;w及 如果所述实体提及的类型为组织,则根据模式匹配技术在所述原始文本中找到与所述 实体提及对应的文本作为所述伪实体提及。
10. -种实体链接装置,包括: 获取单元,配置用于获取实体提及的潜在链接实体; 扩展处理单元,配置用于扩展所述实体提及所在的原始文本得到所述实体提及对应的 第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度; 匹配处理单元,配置用于根据所述文本相似度计算所述潜在链接实体与所述实体提及 的匹配度; 链接单元,配置用于将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实 体。
【文档编号】G06F17/30GK104462126SQ201310432213
【公开日】2015年3月25日 申请日期:2013年9月22日 优先权日:2013年9月22日
【发明者】缪庆亮, 孟遥 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1