实体标签的抽取方法和装置的制造方法_2

文档序号:9471477阅读:来源:国知局
br>[0071] 例如,从网页标题对应的网页内容中进行实体挖掘,获取满足所述自然语言片段 的实体。
[0072] 可选的,所述第二获取模块32具体用于:
[0073] 获取所述自然语言片段所在的当前网页,W及所述当前网页的翻页网页;
[0074] 抽取所述当前网页和所述翻页网页的正文内容;
[0075] 在所述正文内容中进行实体识别,提取与所述自然语言片段属于相同领域的实 体; 阳076] 在相同领域的实体中,提取与所述多实体标签相关的实体。
[0077] 由于一篇网页内容通常会分布在多个页面上,而网页库内往往只收录其中几页, 为最大化召回被盘点实体,需要通过翻页序列挖掘来补充未被收录的页面。例如,当前收录 的页面是第一页,而该篇内容还包括第一页翻页后的第二页和第S页等,则通过翻页序列 挖掘,可W获取到第二页和第=页等。
[0078] 对上述的盘点型网页标题所在的网页W及获取的翻页网页,进行网页正文内容抽 取。
[0079] 本实施例W在正文内容中提取实体为例,因此之前可W先过滤掉网页中其余无用 内容。
[0080] 从正文内容中提取与盘点型标签所属领域相同的实体集合。
[0081] 例如,利用实体识别工具进行相应领域的实体抽取。
[0082] 盘点型标签与实体的相关性控制。
[0083] 例如,利用基础属性约束、网页结构特征、标签与实体语义相似度等技术来确保标 签灯AG)与实体巧ntity)的相关性。
[0084] 关联模块33,用于将所述自然语言片段作为多实体标签,建立所述多实体标签与 所述实体之间的关联关系。
[0085] 其中,满足所述自然语言片段的实体可W组成实体集合(entity-list),多实体标 签与实体集合之间的关联关系可W如表1所示。
[0086] 在建立上述的关联关系后,可W基于该关联关系向用户提供更丰富和自然的内 容,例如,当用户捜索"杨幕"时可W给出"刘诗诗"等其他推荐内容,并给出标签是"因戏得 良缘的娱乐圈明星",提升用户体验。
[0087] 本实施例中,通过从网页中获取多实体标签,可W使得实体标签不限于Schema预 定义的关系,从而可W提高能够描述的实体关系的覆盖范围,通过将自然语言片段作为多 实体标签,可W提高描述方式的自然度。
[0088] 一些实施例中,参见图4,该装置30还包括:
[0089] 第一处理模块34,用于对所述多实体标签进行进一步处理,所述进一步处理包括 如下项中的一项或多项:
[0090] 对所述多实体标签进行规范化及基础特征提取;
[0091] 确定所述多实体标签属于的领域;
[0092] 对所述多实体标签进行质量控制,过滤掉负面标签。
[0093] 规范化例如包括:利用词性标注、词干识别等自然语言工具识别并移除盘点型标 签中的冗余词。
[0094] 基础特征提取例如包括:提取盘点型标签的语义向量,要求语义相似的盘点型标 签的语义向量相近。
[0095] 例如,根据盘点型标签的核屯、主干词识别该标签所属领域。例如,针对"娱乐圈潜 力花旦"运样的标签,通过核屯、词"花旦"可W推断该标签所属领域是人物。
[0096] 例如,利用标签的语义向量识别并过滤黄反负面的标签,例如,过滤掉"蹲过监狱 的内地明星"运种属于负面的标签。
[0097] 一些实施例中,参见图4,该装置30还包括:
[0098] 第二处理模块35,用于对所述多实体标签和/或实体进行处理,所述处理包括如 下项中的一项或多项:
[0099] 合并相似的多实体标签和/或实体; 阳100]将所述多实体标签与实体关联保存到数据库内。 阳101] 例如,利用语义相似度识别语义相似的盘点型标签,并将相似的盘点型标签归一 化为统一的一个盘点型标签,W及,将相似的盘点型标签关联的实体与该统一的盘点型标 签进行融合,使得该统一的盘点型标签关联的实体集合包括:所有的相似的盘点型标签关 联的实体集合。 阳102]例如,将盘点型标签与关联的实体集合关联保存到数据库内。另外,在保存之前可W进行人工或预设算法的评估,W将满足一定要求的数据进行保存。 阳10引本实施例中,通过从网页中获取多实体标签,可W使得实体标签不限于Schema预 定义的关系,从而可W提高能够描述的实体关系的覆盖范围,通过将自然语言片段作为多 实体标签,可W提高描述方式的自然度。另外,通过上述的各种进一步处理,可W提高获取 的盘点型标签和/或关联的实体的准确度。 阳104] 需要说明的是,在本发明的描述中,术语"第一"、"第二"等仅用于描述目的,而不 能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,"多个"的含义 是指至少两个。
[01化]流程图中或在此W其他方式描述的任何过程或方法描述可W被理解为,表示包括 一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部 分,并且本发明的优选实施方式的范围包括另外的实现,其中可W不按所示出或讨论的顺 序,包括根据所设及的功能按基本同时的方式或按相反的顺序,来执行功能,运应被本发明 的实施例所属技术领域的技术人员所理解。 阳106] 应当理解,本发明的各部分可W用硬件、软件、固件或它们的组合来实现。在上述 实施方式中,多个步骤或方法可W用存储在存储器中且由合适的指令执行系统执行的软件 或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下 列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑口电路 的离散逻辑电路,具有合适的组合逻辑口电路的专用集成电路,可编程口阵列(PGA),现场 可编程口阵列(FPGA)等。
[0107] 本技术领域的普通技术人员可W理解实现上述实施例方法携带的全部或部分步 骤是可W通过程序来指令相关的硬件完成,所述的程序可W存储于一种计算机可读存储介 质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0108] 此外,在本发明各个实施例中的各功能单元可W集成在一个处理模块中,也可W 是各个单元单独物理存在,也可W两个或两个W上单元集成在一个模块中。上述集成的模 块既可W采用硬件的形式实现,也可W采用软件功能模块的形式实现。所述集成的模块如 果W软件功能模块的形式实现并作为独立的产品销售或使用时,也可W存储在一个计算机 可读取存储介质中。
[0109] 上述提到的存储介质可W是只读存储器,磁盘或光盘等。
[0110] 在本说明书的描述中,参考术语"一个实施例"、"一些实施例"、"示例"、"具体示 例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特 点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不 一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可w在任何 的一个或多个实施例或示例中W合适的方式结合。 阳111] 尽管上面已经示出和描述了本发明的实施例,可W理解的是,上述实施例是示例 性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可W对上述 实施例进行变化、修改、替换和变型。
【主权项】
1. 一种实体标签的抽取方法,其特征在于,包括: 从网页中获取用于描述实体间共性的自然语言片段; 获取满足所述自然语言片段的实体; 将所述自然语言片段作为多实体标签,建立所述多实体标签与所述实体之间的关联关 系。2. 根据权利要求1所述的方法,其特征在于,所述从网页中获取用于描述实体间共性 的自然语言片段,包括: 从网页标题库中选择具有多实体标签的网页标题; 从所述网页标题中提取用于描述实体间共性的自然语言片段。3. 根据权利要求1所述的方法,其特征在于,所述获取满足所述自然语言片段的实体, 包括: 获取所述自然语言片段所在的当前网页,以及所述当前网页的翻页网页; 抽取所述当前网页和所述翻页网页的正文内容; 在所述正文内容中进行实体识别,提取与所述自然语言片段属于相同领域的实体; 在相同领域的实体中,提取与所述多实体标签相关的实体。4. 根据权利要求2所述的方法,其特征在于,还包括: 对所述多实体标签进行进一步处理,所述进一步处理包括如下项中的一项或多项: 对所述多实体标签进行规范化及基础特征提取; 确定所述多实体标签属于的领域; 对所述多实体标签进行质量控制,过滤掉负面标签。5. 根据权利要求1-4任一项所述的方法,其特征在于,还包括: 对所述多实体标签和/或实体进行处理,所述处理包括如下项中的一项或多项: 合并相似的多实体标签和/或实体; 将所述多实体标签与实体关联保存到数据库内。6. -种实体标签的抽取装置,其特征在于,包括: 第一获取模块,用于从网页中获取用于描述实体间共性的自然语言片段; 第二获取模块,用于获取满足所述自然语言片段的实体; 关联模块,用于将所述自然语言片段作为多实体标签,建立所述多实体标签与所述实 体之间的关联关系。7. 根据权利要求6所述的装置,其特征在于,所述第一获取模块具体用于: 从网页标题库中选择具有多实体标签的网页标题; 从所述网页标题中提取用于描述实体间共性的自然语言片段。8. 根据权利要求6所述的装置,其特征在于,所述第二获取模块具体用于: 获取所述自然语言片段所在的当前网页,以及所述当前网页的翻页网页; 抽取所述当前网页和所述翻页网页的正文内容; 在所述正文内容中进行实体识别,提取与所述自然语言片段属于相同领域的实体; 在相同领域的实体中,提取与所述多实体标签相关的实体。9. 根据权利要求7所述的装置,其特征在于,还包括: 第一处理模块,用于对所述多实体标签进行进一步处理,所述进一步处理包括如下项 中的一项或多项: 对所述多实体标签进行规范化及基础特征提取; 确定所述多实体标签属于的领域; 对所述多实体标签进行质量控制,过滤掉负面标签。10.根据权利要求6-9任一项所述的装置,其特征在于,还包括: 第二处理模块,用于对所述多实体标签和/或实体进行处理,所述处理包括如下项中 的一项或多项: 合并相似的多实体标签和/或实体; 将所述多实体标签与实体关联保存到数据库内。
【专利摘要】本发明提出一种实体标签的抽取方法和装置,该实体标签的抽取方法包括:从网页中获取用于描述实体间共性的自然语言片段;获取满足所述自然语言片段的实体;将所述自然语言片段作为多实体标签,建立所述多实体标签与所述实体之间的关联关系。该方法能够提高能够描述的实体关系的覆盖范围,并且可以提高描述方式的自然度。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105224642
【申请号】CN201510625039
【发明人】罗剑波, 李羽, 王波, 邹晓艺
【申请人】百度在线网络技术(北京)有限公司
【公开日】2016年1月6日
【申请日】2015年9月25日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1