实体标签的抽取方法和装置的制造方法

文档序号:9471477阅读:623来源:国知局
实体标签的抽取方法和装置的制造方法
【技术领域】
[0001] 本发明设及数据处理技术领域,尤其设及一种实体标签的抽取方法和装置。
【背景技术】
[0002] 在知识库中,为方便机器理解知识,通常将实体的关系及属性(统称实体关系)映 射到架构(Schema)预定义的关系上。借助Schema,机器能准确无歧义地理解知识,但是运 种知识表示方式在实际应用中存在W下两个问题:实体关系种类繁多并且会动态变化,预 定义关系难W涵盖所有可能的关系,大量知识无法映射到知识库中;预定义关系构造出来 的关系描述生硬模式化,缺乏语言美感,难W直接应用到要求语言丰富多彩的产品场景中。

【发明内容】

[0003] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004] 为此,本发明的一个目的在于提出一种实体标签的抽取方法,该方法可W提高能 够描述的实体关系的覆盖范围,并且可W提高描述方式的自然度。
[0005] 本发明的另一个目的在于提出一种实体标签的抽取装置。
[0006] 为达到上述目的,本发明第一方面实施例提出的实体标签的抽取方法,包括:从网 页中获取用于描述实体间共性的自然语言片段;获取满足所述自然语言片段的实体;将所 述自然语言片段作为多实体标签,建立所述多实体标签与所述实体之间的关联关系。
[0007] 本发明第一方面实施例提出的实体标签的抽取方法,通过从网页中获取多实体标 签,可W使得实体标签不限于Schema预定义的关系,从而可W提高能够描述的实体关系的 覆盖范围,通过将自然语言片段作为多实体标签,可W提高描述方式的自然度。
[000引为达到上述目的,本发明第二方面实施例提出的实体标签的抽取装置,包括:第一 获取模块,用于从网页中获取用于描述实体间共性的自然语言片段;第二获取模块,用于获 取满足所述自然语言片段的实体;关联模块,用于将所述自然语言片段作为多实体标签,建 立所述多实体标签与所述实体之间的关联关系。
[0009] 本发明第二方面实施例提出的实体标签的抽取装置,通过从网页中获取多实体标 签,可W使得实体标签不限于Schema预定义的关系,从而可W提高能够描述的实体关系的 覆盖范围,通过将自然语言片段作为多实体标签,可W提高描述方式的自然度。
[0010] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。
【附图说明】
[0011] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解,其中:
[0012] 图1是本发明一实施例提出的实体标签的抽取方法的流程示意图;
[0013] 图2是本发明另一实施例提出的实体标签的抽取方法的流程示意图;
[0014] 图3是本发明另一实施例提出的实体标签的抽取装置的结构示意图;
[0015] 图4是本发明另一实施例提出的实体标签的抽取装置的结构示意图。
【具体实施方式】
[0016] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考 附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反, 本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同 物。
[0017] 图1是本发明一实施例提出的实体标签的抽取方法的流程示意图,该方法包括:
[0018] S11:从网页中获取用于描述实体间共性的自然语言片段。
[0019] 例如,可W从网页标题中提取用于描述实体间共性的自然语言片段。网页例如包 括:新闻、博客或论坛等。
[0020] 实体标签(TAG)可W分为单实体标签和多实体标签,多实体标签是指用于描述至 少两个实体之间的实体关系的标签,本发明实施例W多实体标签为例。
[0021] 本实施例中,将获取的用于描述实体间共性的自然语言片段作为多实体标签。
[0022] S12:获取满足所述自然语言片段的实体。
[0023] 例如,从网页标题对应的网页内容中进行实体挖掘,获取满足所述自然语言片段 的实体。
[0024] S13:将所述自然语言片段作为多实体标签,建立所述多实体标签与所述实体之间 的关联关系。
[0025] 其中,满足所述自然语言片段的实体可W组成实体集合(entity-list),多实体标 签与实体集合之间的关联关系可W如表1所示:
[0026] 表 1
[0027]
[0028] 在建立上述的关联关系后,可W基于该关联关系向用户提供更丰富和自然的内 容,例如,当用户捜索"杨幕"时可W给出"刘诗诗"等其他推荐内容,并给出标签是"因戏得 良缘的娱乐圈明星",提升用户体验。
[0029] 本实施例中,通过从网页中获取多实体标签,可W使得实体标签不限于Schema预 定义的关系,从而可W提高能够描述的实体关系的覆盖范围,通过将自然语言片段作为多 实体标签,可W提高描述方式的自然度。
[0030] 图2是本发明另一实施例提出的实体标签的抽取方法的流程示意图,多实体标签 对应的实体集合中包括的实体个数可W是两个或至少=个,其中,至少=个实体对应的多 实体标签可W称为盘点型标签,本实施例W盘点型标签为例。该方法包括:
[0031] S201 :从网页标题(title)数据库中,获取盘点型网页标题。
[0032] 其中,盘点型网页标题是指标题中包含:用于描述至少=个实体间共性的自然语 言片段。通过对网页标题进行分析,可W从中选择出盘点型网页标题。
[0033] S202:从盘点型网页标题中,提取盘点型标签。
[0034] 例如,可W利用正则表达式,从盘点型网页标签中提取盘点型标签,例如,提取的 盘点型标签是"因戏得良缘的娱乐圈明星"。
[0035] 可选的,还可W对提取出的盘点型标签进行进一步处理,进一步处理例如包括如 下的S203-S205。
[0036] S203 :盘点型标签的规范化及基础特征提取。
[0037] 规范化例如包括:利用词性标注、词干识别等自然语言工具识别并移除盘点型标 签中的冗余词。
[003引基础特征提取例如包括:提取盘点型标签的语义向量,要求语义相似的盘点型标 签的语义向量相近。
[0039] S204 :盘点型标签的领域识别。
[0040] 例如,根据盘点型标签的核屯、主干词识别该标签所属领域。例如,针对"娱乐圈潜 力花旦"运样的标签,通过核屯、词"花旦"可W推断该标签所属领域是人物。
[0041] S205 :盘点型标签的质量控制。
[0042] 例如,利用标签的语义向量识别并过滤黄反负面的标签,例如,过滤掉"蹲过监狱 的内地明星"运种属于负面的标签。
[0043] 经过上述的S201-S205可W获取到盘点型标签,另一方面还需要获取对应的实体 集合。获取实体集合的流程可W包括:
[0044]S206 :翻页序列挖掘,获取上述的盘点型网页标题所在的网页的翻页网页。
[0045] 由于一篇网页内容通常会分布在多个页面上,而网页库内往往只收录其中几页, 为最大化召回被盘点实体,需要通过翻页序列挖掘来补充未被收录的页面。例如,当前收录 的页面是第一页,而该篇内容还包括第一页翻页后的第二页和第S页等,则通过翻页序列 挖掘,可W获取到第二页和第=页等。
[0046] S207:对上述的盘点型网页标题所在的网页W及获取的翻页网页,进行网页正文 内容抽取。
[0047] 本实施例W在正文内容中提取实体为例,因此之前可W先过滤掉网页中其余无用 内容。
[0048] S208 :从正文内容中提取与盘点型标签所属领域相同的实体集合。
[0049] 例如,利用实体识别工具进行相应领域的实体抽取。
[0050] S209 :盘点型标签与实体的相关性控制。
[0051] 例如,利用基础属性约束、网页结构特征、标签与实体语义相似度等技术来确保标 签灯AG)与实体巧ntity)的相关性。
[0052] 可选的,还可W执行S210-S211。
[0053] S210 :相似标签和/或实体的合并。
[0054] 例如,利用语义相似度识别语义相似的盘点型标签,并将相似的盘点型标签归一 化为统一的一个盘点型标签,W及,将相似的盘点型标签关联的实体与该统一的盘点型标 签进行融合,使得该统一的盘点型标签关联的实体集合包括:所有的相似的盘点型标签关 联的实体集合。
[00W] S211 :对数据保存到数据库内。
[0056] 例如,将盘点型标签与关联的实体集合关联保存到数据库内。另外,在保存之前可 W进行人工或预设算法的评估,W将满足一定要求的数据进行保存。
[0057] 本实施例中,通过从网页中获取多实体标签,可W使得实体标签不限于Schema预 定义的关系,从而可W提高能够描述的实体关系的覆盖范围,通过将自然语言片段作为多 实体标签,可W提高描述方式的自然度。另外,通过上述的各种进一步处理,可W提高获取 的盘点型标签和/或关联的实体的准确度。
[0058] 图3是本发明另一实施例提出的实体标签的抽取装置的结构示意图,该装置30包 括:第一获取模块31,第二获取模块32和关联模块33。
[0059] 第一获取模块31,用于从网页中获取用于描述实体间共性的自然语言片段;
[0060] 例如,可W从网页标题中提取用于描述实体间共性的自然语言片段。网页例如包 括:新闻、博客或论坛等。
[0061] 实体标签(TAG)可W分为单实体标签和多实体标签,多实体标签是指用于描述至 少两个实体之间的实体关系的标签,本发明实施例W多实体标签为例。
[0062] 本实施例中,将获取的用于描述实体间共性的自然语言片段作为多实体标签。
[0063] 可选的,第一获取模块31具体用于:
[0064] 从网页标题库中选择具有多实体标签的网页标题;
[0065] 从所述网页标题中提取用于描述实体间共性的自然语言片段。
[0066] W多实体标签是盘点型标签为例,例如,从网页标题(title)数据库中,获取盘点 型网页标题。
[0067] 其中,盘点型网页标题是指标题中包含:用于描述至少=个实体间共性的自然语 言片段。通过对网页标题进行分析,可W从中选择出盘点型网页标题。 W側之后,从盘点型网页标题中,提取盘点型标签。 W例例如,可W利用正则表达式,从盘点型网页标签中提取盘点型标签,例如,提取的 盘点型标签是"因戏得良缘的娱乐圈明星"。
[0070] 第二获取模块32,用于获取满足所述自然语言片段的实体;<
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1