一种扩充实体库的方法及装置制造方法

文档序号:6621575阅读:411来源:国知局
一种扩充实体库的方法及装置制造方法
【专利摘要】本发明实施例公开了一种扩充实体库的方法及装置,该方法包括:从用户的操作行为日志中获取用户的操作对象内容;从所述操作对象内容中识别实体词;对所述实体词按照预设规则进行筛选;如果筛选出的实体词未出现在实体库中,则将所述实体词添加到所述实体库中,以扩充所述实体库。本发明实施例的技术方案能提高扩充实体库中实体词的准确性。
【专利说明】一种扩充实体库的方法及装置

【技术领域】
[0001] 本发明涉及互联网信息处理【技术领域】,具体涉及一种扩充实体库的方法及装置。

【背景技术】
[0002] 随着信息和网络技术的不断发展,人们越来越多地通过互联网进行各种知识和信 息的搜索。内容提供商在互联网提供内容使所有用户均能平等地浏览、创造、完善内容平 台。
[0003] 例如百度百科、维基百科、互动百科等,能够让互联网用户通过百科网站即能找到 自己想要的全面、准确、客观的定义性信息,可供其他用户进行类似主题的查询和浏览,以 便提供相应的知识或者借鉴。例如,词条是百科网站所含内容的基础分割单位,一个词条具 有一个或多个单一的主题,用于阐述一件事物、一个人物、或者具备特定主题的组合等知识 内容。在百科网站中包括极大数量的词条,这些百科词条可以大大地提高检索的准确性和 检索的覆盖率,并且有利于从网页中提取结构化数据,可以进行垂直搜索,得到更为精确的 信息。
[0004] 随着信息的广泛传播以及人们交流内容的不断扩展,新词条层出不穷。极大地发 现有价值的词条,扩充百科网站的实体库是百科产品的重要目标。常见的实现方案都是从 已有的数据中,利用文本切分来分析文本中可能存在的实体词,判断哪些实体词是百科实 体库中存在的,哪些是百科实体库中不存在的,将不存在的实体词增加到百科实体库中。但 是这种方案存在文本切分和属性识别不准确的问题。


【发明内容】

[0005] 有鉴于此,本发明实施例提供一种扩充实体库的方法及装置,以克服现有的百科 实体库扩充存在文本切分和属性识别不准确的问题。
[0006] 第一方面,本发明实施例提供了一种扩充实体库的方法,包括:
[0007] 从用户的操作行为日志中获取用户的操作对象内容;
[0008] 从所述操作对象内容中识别实体词;
[0009] 对所述实体词按照预设规则进行筛选;
[0010] 如果筛选出的实体词未出现在实体库中,则将所述实体词添加到所述实体库中, 以扩充所述实体库。
[0011] 第二方面,本发明实施例还提供了一种扩充实体库的装置,包括:
[0012] 操作对象内容获取单元,用于从用户的操作行为日志中获取用户的操作对象内 容;
[0013] 实体词识别单元,用于从所述操作对象内容中识别实体词;
[0014] 实体词筛选单元,用于对所述实体词按照预设规则进行筛选;
[0015] 实体词添加单元,用于如果筛选出的实体词未出现在实体库中,则将所述实体词 添加到所述实体库中,以扩充所述实体库。
[0016] 本发明实施例的技术方案通过从用户的操作行为日志中获取用户的操作对象内 容,从操作对象内容中识别实体词,进行筛选后,将未出现在实体库中的实体词添加到实体 库中,以扩充所述实体库。由于用户行为能反馈用户的需求,从用户行为挖掘实体词更有针 对性,而且用户行为通常与实体词有关联,因此扩充实体词的准确性更高。

【专利附图】

【附图说明】
[0017] 为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所 需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施 例的内容和这些附图获得其他的附图。
[0018] 图1是本发明实施例一所述的扩充实体库的方法流程图;
[0019] 图2是本发明实施例二所述的扩充实体库的方法流程图;
[0020] 图3是本发明实施例二所述的示例网页内容中用户的操作对象内容示意图;
[0021] 图4是本发明实施例三所述的扩充实体库的装置的结构框图。

【具体实施方式】
[0022] 为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面 将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅 是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在 没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0023] 下面结合附图并通过【具体实施方式】来进一步说明本发明的技术方案。
[0024] 实施例一
[0025] 图1是本发明实施例一提供的扩充实体库的方法流程图,本实施例可适用于基于 操作行为日志中用户的操作对象内容进行实体库扩充的情况,本实施例所称的实体词泛指 名词与代词,也可进一步指满足预设条件的名词与代词。实体库则是用于存储各实体词的 相关信息的数据库,能过为用户提供对实体词相关数据的获取。例如,在百科中实体词指 词条的主题名称,词条是百科网站所含内容的基础分割单位,词条包括实体词、对该实体词 的解释、以及与该实体词的相关信息。此外,其他类别的实体库,如音乐实体库、商品实体 库等,也可以用音乐名称、商品名称等作为实体词,在实体库中存储各实体词的相关细节数 据,如音乐背景介绍、商品产地等。
[0026] 本实施例的方法可以由配置在服务器中的扩充实体库的装置来执行,如图1所 示,本实施例所述的扩充实体库的方法包括 :
[0027] S101、从用户的操作行为日志中获取用户的操作对象内容。
[0028] 用户的操作行为日志是记录用户操作流的文件,包括用户点击、输入、选中、复制 等操作及操作时间等信息。例如包括对用户在搜索引擎中进行搜索时输入的检索式的记 录、对用户对网页内容进行加内链操作的记录、对用户选取网页内容中的文字、以及包括对 用户进一步地对选取的文字进行复制、粘贴等操作的记录等。
[0029] 通过对用户的操作行为日志进行分析,从中获取用户的操作对象内容。例如,从用 户的操作行为日志中获取用户在搜索引擎中进行搜索时输入的检索式,获取用户在网页内 容中加内链的行为时加内链不成功的文字内容,以及获取用户在网页内容中执行文字内容 操作(例如选中、复制、粘贴等操作)时所操作的文字内容。内链,即在实体库内部,如果存 在某个实体词的相关数据,则此实体词出现在其他实体词的相关数据中时,会为此实体词 建立内部链接,以便用户方便地找到该实体词自己的相关数据。用户也可以自己为网页内 容中的实体词加入内部链接。
[0030] 需要说明的是,由于用户的操作行为中某些与需要扩充的实体词关联度较低,而 某些操作行为获取实体词的概率更高,为了提高扩充实体库的效率,可预先指定用户的操 作行为的类型,从用户的操作行为日志中仅筛选出该预先指定的操作行为,来获取用户的 操作对象内容。
[0031] 由于本实施例的目的是扩充实体库,所述用户的操作行为日志优选是用户对该实 体库的操作行为日志,例如,若用于扩充百科实体库,则可以优选用户对百科实体库的搜索 引擎的操作行为日志、用户对百科实体库的百科词条的网页内容的操作行为日志等。
[0032] S102、从所述操作对象内容中识别实体词。
[0033] 对获取的操作对象内容进行识别获取实体词。由于用户的操作对象内容比较有针 对性,大多操作对象内容可以直接作为实体词,若某些操作对象内容不能直接识别出实体 词,可对该操作对象内容行切分后再执行实体词识别操作即可。
[0034] S103、对所述实体词按照预设规则进行筛选。
[0035] 所述预设规则可根据实体库的扩充目标来设置,例如,将所述实体词中字数大于 预设阈值的实体词过滤掉、将属于黑名单的实体词过滤掉、和/或将属于预设类型的实体 词过滤掉(例如包含序号、时间、特殊符号)。
[0036] S104、如果筛选出的实体词未出现在实体库中,则将所述实体词添加到所述实体 库中,以扩充所述实体库。
[0037] 为了避免重复设置实体词,操作S103获取实体词后,还需判断实体词是否已经出 现在实体库的实体词中,将未出现在实体库的实体词添加到实体库中。
[0038] 本实施例的技术方案通过从用户的操作行为日志中获取用户的操作对象内容,从 操作对象内容中识别实体词,进行筛选后,将未出现在实体库的实体词添加到实体库中,以 扩充所述实体库。由于用户行为能反馈用户的需求,从用户行为挖掘实体词更有针对性,而 且用户行为通常与实体词有关联,因此扩充实体词的准确性更高。
[0039] 实施例二
[0040] 图2是本发明实施例二所述的扩充实体库的方法流程图,本实施例以通过用户对 百科实体库的操作行为日志扩充百科实体库为例公开一种扩充实体库的方法,如图2所 示,本实施例所述的扩充实体库的方法包括 :
[0041] S201、获取用户对百科实体库的操作行为日志。
[0042] 用户行为能反馈用户的需求,从用户行为挖掘实体词更有针对性,由于本实施例 的目的是扩充百科实体库,因此,所述用户的操作行为日志优选是用户对百科实体库的操 作行为日志,包括用户对百科实体库的搜索引擎的操作行为日志、用户对百科实体库的百 科词条的网页内容的操作行为日志等。
[0043] S202、获取预指定的操作行为的操作对象内容。
[0044] 用户的操作行为中某些与需要扩充的实体词关联度较低,而某些操作行为获取实 体词的概率更高,为了提高扩充百科实体库的效率,本实施例优选为预先指定至少一种用 户的操作行为的类型,从用户的操作行为日志中仅筛选出该预先指定的操作行为,来获取 用户的操作对象内容。
[0045] 例如预先指定用户的操作行为的类型可为用户在搜索引擎中进行搜索时输入的 检索式,用户在网页内容中加内链,以及用户在网页内容中执行文字选中、复制或粘贴内容 操作。则从用户的操作行为日志中获取用户在搜索引擎中进行搜索时输入的检索式,将所 述检索式作为所述操作对象内容;从用户的操作行为日志中获取用户在网页内容中加内 链的行为,将加内链不成功的文字内容作为所述操作对象内容;以及从用户的操作行为日 志中获取用户在网页内容中执行文字内容操作,将所操作的文字内容作为所述操作对象内 容。作为优选,所述文字内容操作包括下述至少一项:执行文字内容选取、执行文字内容复 制、和执行文字内容粘贴。
[0046] 例如图3是百科实体库的百科词条"王文元"的词条内容片段,用户先后对该词 条内容片段中的"郾城县立中学"、"汉口市立第一中学"、以及"黄陂县乾顺油厂"的文字内 容进行了加内链操作,结果因加内链失败,则将这些加内链不成功的文字内容"郾城县立中 学"、"汉口市立第一中学"、以及"黄陂县乾顺油厂"作为操作对象内容。
[0047] S203、从所述操作对象内容中识别实体词。
[0048] 若某些操作对象内容不能直接识别出实体词,可对该操作对象内容行切分后再执 行实体词识别操作即可。
[0049] S204、对所述实体词按照预设规则进行筛选。
[0050] 例如,将符合下述至少一项的实体词过滤掉:所述实体词中字数大于预设阈值的 实体词、属于黑名单的实体词、包含预设符号的实体词、和属于预设类型的实体词。
[0051] S205、对所述实体词进行去重处理。
[0052] 需要说明的是,本操作可在筛选之后进行,也可在筛选之前进行。通过对所识别的 实体词进行去重处理,能进一步减小操作206中的实体词的数目,同时能避免重复添加。
[0053] S206、如果所述实体词未出现在百科的实体词中,将所述实体词添加到百科实体 库中。
[0054] 从用户针对百科实体库的操作行为日志中获取用户的操作对象内容。
[0055] 本实施例以通过用户对百科实体库的操作行为日志扩充百科实体库为例的技术 方案在实施例一的基础之上,优选为获取用户对百科实体库的操作行为日志,并优选为获 取预指定的操作行为的操作对象内容,以及增加了对实体词进行去重处理的操作,能进一 步提1?扩充实体库的效率。
[0056] 实施例三
[0057] 图4是本发明实施例三所述的扩充实体库的装置的结构框图,如图4所示,本实施 例所述的扩充实体库的装置包括:
[0058] 操作对象内容获取单元401,用于从用户的操作行为日志中获取用户的操作对象 内容;
[0059] 实体词识别单元402,用于从所述操作对象内容中识别实体词;
[0060] 实体词筛选单元403,用于对所述实体词按照预设规则进行筛选;
[0061] 实体词添加单元404,用于如果筛选出的实体词未出现在实体库中,则将所述实体 词添加到所述实体库中,以扩充所述实体库。
[0062] 进一步地,所述操作对象内容获取单元401具体用于:从用户针对百科实体库的 操作行为日志中获取用户的操作对象内容。
[0063] 进一步地,所述操作对象内容获取单元401包括检索式获取子单元、内链行为获 取子单元、和/或文字内容操作获取子单元 :
[0064] 所述检索式获取子单元,用于从用户的操作行为日志中获取用户在搜索引擎中进 行搜索时输入的检索式,将所述检索式作为所述操作对象内容;
[0065] 所述内链行为获取子单元,用于从用户的操作行为日志中获取用户在网页内容中 加内链的行为,将加内链不成功的文字内容作为所述操作对象内容;
[0066] 所述文字内容操作获取子单元,用于从用户的操作行为日志中获取用户在网页内 容中执行文字内容操作,将所操作的文字内容作为所述操作对象内容 [0067] 进一步地,所述文字内容操作获取子单元中所述的文字内容操作包括下述至少一 项:执行文字内容选取、执行文字内容复制、和执行文字内容粘贴。
[0068] 进一步地,所述搜索引擎为百科实体库的搜索引擎。
[0069] 进一步地,所述网页内容为百科实体库的百科词条内容。
[0070] 进一步地,所述实体词筛选单元403具体用于将符合下述至少一项的实体词过滤 掉:所述实体词中字数大于预设阈值的实体词、属于黑名单的实体词、包含预设符号的实体 词、和属于预设类型的实体词。
[0071] 进一步地403,所述实体词筛选单元还用于:在将所述实体词添加到所述实体库 中的操作之前,对所述实体词进行去重处理。
[0072] 本实施例提供的扩充实体库的装置可执行本发明实施例一和实施例二所提供的 扩充实体库的方法,具备执行方法相应的功能模块和有益效果。
[0073] 以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件 程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
[0074] 注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解, 本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、 重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行 了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还 可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
【权利要求】
1. 一种扩充实体库的方法,其特征在于,包括: 从用户的操作行为日志中获取用户的操作对象内容; 从所述操作对象内容中识别实体词; 对所述实体词按照预设规则进行筛选; 如果筛选出的实体词未出现在实体库中,则将所述实体词添加到所述实体库中,以扩 充所述实体库。
2. 根据权利要求1所述的方法,其特征在于,从用户的操作行为日志中获取用户的操 作对象内容的操作具体包括:从用户针对百科实体库的操作行为日志中获取用户的操作对 象内容。
3. 根据权利要求1所述的方法,其特征在于,从用户的操作行为日志中获取用户的操 作对象内容的操作具体包括: 从用户的操作行为日志中获取用户在搜索引擎中进行搜索时输入的检索式,将所述检 索式作为所述操作对象内容;和/或, 从用户的操作行为日志中获取用户在网页内容中加内链的行为,将加内链不成功的文 字内容作为所述操作对象内容;和/或, 从用户的操作行为日志中获取用户在网页内容中执行文字内容操作,将所操作的文字 内容作为所述操作对象内容。
4. 根据权利要求3所述的方法,其特征在于,所述文字内容操作包括下述至少一项:执 行文字内容选取、执行文字内容复制、和执行文字内容粘贴。
5. 根据权利要求3或4所述的方法,其特征在于: 所述搜索引擎为百科实体库的搜索引擎;和/或, 所述网页内容为百科实体库的百科词条内容。
6. 根据权利要求1所述的方法,其特征在于,对所述实体词按照预设规则进行筛选的 操作具体包括: 将符合下述至少一项的实体词过滤掉:所述实体词中字数大于预设阈值的实体词、属 于黑名单的实体词、包含预设符号的实体词、和属于预设类型的实体词。
7. 根据权利要求1所述的方法,其特征在于,在将所述实体词添加到所述实体库中的 操作之前,还包括:对所述实体词进行去重处理。
8. -种扩充实体库的装置,其特征在于,包括: 操作对象内容获取单元,用于从用户的操作行为日志中获取用户的操作对象内容; 实体词识别单元,用于从所述操作对象内容中识别实体词; 实体词筛选单元,用于对所述实体词按照预设规则进行筛选; 实体词添加单元,用于如果筛选出的实体词未出现在实体库中,则将所述实体词添加 到所述实体库中,以扩充所述实体库。
9. 根据权利要求8所述的装置,其特征在于,所述操作对象内容获取单元具体用于:从 用户针对百科实体库的操作行为日志中获取用户的操作对象内容。
10. 根据权利要求8所述的装置,其特征在于,所述操作对象内容获取单元包括检索式 获取子单元、内链行为获取子单元、和/或文字内容操作获取子单元 : 所述检索式获取子单元,用于从用户的操作行为日志中获取用户在搜索引擎中进行搜 索时输入的检索式,将所述检索式作为所述操作对象内容; 所述内链行为获取子单元,用于从用户的操作行为日志中获取用户在网页内容中加内 链的行为,将加内链不成功的文字内容作为所述操作对象内容; 所述文字内容操作获取子单元,用于从用户的操作行为日志中获取用户在网页内容中 执行文字内容操作,将所操作的文字内容作为所述操作对象内容。
11. 根据权利要求10所述的装置,其特征在于,所述文字内容操作获取子单元中所述 的文字内容操作包括下述至少一项:执行文字内容选取、执行文字内容复制、和执行文字内 容粘贴。
12. 根据权利要求10或11所述的装置,其特征在于: 所述搜索引擎为百科实体库的搜索引擎;和/或, 所述网页内容为百科实体库的百科词条内容。
13. 根据权利要求8所述的装置,其特征在于,所述实体词筛选单元具体用于: 将符合下述至少一项的实体词过滤掉:所述实体词中字数大于预设阈值的实体词、属 于黑名单的实体词、包含预设符号的实体词、和属于预设类型的实体词。
14. 根据权利要求8所述的装置,其特征在于,所述实体词筛选单元还用于:在将所述 实体词添加到所述实体库中的操作之前,对所述实体词进行去重处理。
【文档编号】G06F17/30GK104102739SQ201410364038
【公开日】2014年10月15日 申请日期:2014年7月28日 优先权日:2014年7月28日
【发明者】梁爽 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1