主题挖掘方法和设备、以及查询扩展方法和设备的制作方法

文档序号:6506005阅读:124来源:国知局
主题挖掘方法和设备、以及查询扩展方法和设备的制作方法
【专利摘要】本发明涉及主题挖掘方法和设备及查询扩展方法和设备。该主题挖掘方法包括:获取步骤,从至少一个知识库中获取多个句子;识别步骤,对于所获取的多个句子中的每个句子,识别与其关联的实体,其中该实体指示物理物体或物理物体属性;生成步骤,从与每个句子关联的实体中各提取一个实体生成一个或更多个实体组;选择步骤,从该一个或更多个实体组中选择具有最大区别度的一个实体组;以及用户可见区别性物体主题输出步骤,输出与所获取的多个句子对应的用户可见区别性物体主题,其中每个用户可见区别性物体主题通过利用所获取的多个句子中的一个句子及其在所选的实体组中的对应实体来表示。得益于本发明,可以挖掘出隐含的用户查询主题从而提高召回率。
【专利说明】主题挖掘方法和设备、以及查询扩展方法和设备

【技术领域】
[0001] 本发明涉及文本挖掘技术,特别地涉及从较大的文本数据库中发掘隐含的用户查 询主题的主题挖掘方法,即挖掘出某些没有直接文字记载但是可能作为用户查询的答案的 用户查询主题。

【背景技术】
[0002] 如今使用的机电装置的功能变得越来越多,并且这些机电装置通常能支持许多个 性化的功能。以多功能打印机(MFP)为例,其将复印、打印、扫描、传真和远程操作功能结合 在一起,以便满足大多数人的需求。这些强大的装置极大地便利了专业用户,但是通常会给 缺乏经验的用户带来麻烦,这是因为功能强大的装置往往带来复杂的操作,从而使得用户 不知道如何使用该装置或者不能找出必要的信息来操作该装置。
[0003] 鉴于这种情形,已经提出了一种对话辅助系统(dialogue assist system),其使 得用户能够找出用于操作机电装置的相关信息。用户通过使用语言或文本来向该系统输入 查询,该系统预测用户的意图,并且引导用户操作装置。
[0004] 美国专利No. US7, 774, 198提出了一种用于通过向用户输入的查询分层地添加短 语来生成主题的方法。该专利认为用其它方法针对用户输入的查询生成的短语不一定有意 义,因此其使用已经存在的文本串并且通过确定文本串中的各个单元之间的句法关系来生 成主题。这个机制使得所生成的主题必须已经存在于知识库中,并且其内容被限制为包含 用户输入的查询中的至少一个表达。这个专利提出了通过向原始主题添加词语或短语来产 生新的优化的查询主题的方法,所产生的新的优化的查询主题与预定义的依存关系匹配。


【发明内容】

[0005] 然而,本申请的发明人发现,现有技术的召回率(匹配用户意图)较低,这是因为 现有技术只能挖掘出直接存在于知识库中的主题,而无法挖掘出很多隐含的用户期望的主 题。
[0006] 通过深入研究分析,本申请的发明人发现,在真实状态数据(ground truth)中, 除了现有技术(例如上述美国专利)能挖掘出的主题(即,如美国专利No. US7, 774, 198中公 开的由知识库中已经存在的句子中的组块(chunk)之间的依存链接构成的语言上依存主 题)之外,还存在一类数量较多的主题,即,用于以与用户可见且有区别性的物体有关的实 体表示的主题(下文中将命名为"用户可见区别性物体主题(discriminative object for user topic)"),这类主题的存在可有助于用户直观地找到他/她实际需要的主题。除此之 夕卜,本申请的发明人发现还存在另一类数量较多的主题,即,用于帮助用户改变配置以实现 目标功能的针对查询的推荐主题(下文中将命名为"前提断言对主题(premises assertion pair topic)"),其中在该功能的有效性与一多值属性的值之间存在前提映射。图1示出了 本申请的发明人作出的实验结果,其例示了真实状态数据中的各种类型主题的比例。该真 实状态数据是通过如下操作而获得的:从一个MFP手册随机选择十个功能名作为用户输入 查询,并且针对每个查询由人工收集尽可能多的在该MFP手册中有答案的问题,然后人工 对所收集的问题进行投票,并且去除那些不重要的问题,从而得到真实状态数据。最后,分 析真实状态数据中的这些主题的类型及其比例。从图1可以看出,用户可见区别性物体主 题在真实状态数据中占据28. 74%的较大比例,而前提断言对主题在真实状态数据中占据 20. 11%的较大比例(请注意,这并非大量统计得出的平均数据,而仅仅是出于例示的目的给 出)。
[0007] 因此,需要一种能够挖掘出用户可见区别性物体主题(优选地,进一步挖掘出前提 断言对主题)的主题挖掘方法和设备,并且可以将该主题挖掘方法和设备应用于查询扩展 方法和设备。
[0008] 根据本发明的一个方面,为了解决上述技术问题,本发明提供一种主题挖掘方法, 其包括:获取步骤,从至少一个知识库中获取多个句子;识别步骤,对于所获取的多个句子 中的每个句子,识别与其关联的实体,其中所述实体指示物理物体或物理物体属性;生成步 骤,从与每个句子关联的实体中各提取一个实体生成一个或更多个实体组;选择步骤,从所 述一个或更多个实体组中选择具有最大区别度(discriminative degree)的一个实体组; 以及用户可见区别性物体主题输出步骤,输出与所获取的多个句子对应的用户可见区别性 物体主题,其中每个用户可见区别性物体主题通过利用所获取的多个句子中的一个句子及 其在所选的实体组中的对应实体来表示。
[0009] 根据本发明的另一方面,为了解决上述技术问题,本发明提供一种查询扩展方法, 其包括:接收自然语言形式的用户输入的查询;在至少一个知识库中检索基于所述查询的 结果;如上所述的主题挖掘方法,从所述结果中挖掘出主题;获取基于所挖掘出的主题的 查询。
[0010] 根据本发明的另一方面,本发明提供一种主题挖掘设备,其包括:获取部件,被配 置为从至少一个知识库中获取多个句子;识别部件,被配置为,对于所获取的多个句子中的 每个句子,识别与其关联的实体,其中所述实体指示物理物体或物理物体属性;生成部件, 被配置为从与每个句子关联的实体中各提取一个实体生成一个或更多个实体组;选择部 件,被配置为从所述一个或更多个实体组中选择具有最大区别度的一个实体组;以及用户 可见区别性物体主题输出部件,被配置为输出与所获取的多个句子对应的用户可见区别性 物体主题,其中每个用户可见区别性物体主题通过利用所获取的多个句子中的一个句子及 其在所选的实体组中的对应实体来表示。
[0011] 根据本发明的另一方面,本发明提供一种查询扩展设备,其包括:接收部件,被配 置为接收自然语言形式的用户输入的查询;检索部件,被配置为在至少一个知识库中检索 基于所述查询的结果;如上所述的主题挖掘设备,被配置为从所述结果中挖掘出主题;获 取部件,被配置为获取基于所挖掘出的主题的查询。
[0012] 如上所述,本发明提供了用于挖掘出用户可见区别性物体主题的主题挖掘方法和 设备。利用本发明的方法和设备,可以挖掘出隐含的用户查询主题,从而提高召回率。
[0013] 根据参照附图的以下描述,本发明的其它特性特征和优点将变得清晰。

【专利附图】

【附图说明】
[0014] 并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描 述一起用于说明本发明的原理。
[0015] 图1例示了真实状态数据中的各种类型主题的比例。
[0016] 图2是示出能够实施本发明的实施例的计算机系统的硬件配置的框图。
[0017] 图3是示出了根据本发明的第一实施例的主题挖掘方法的流程图。
[0018] 图4示出了选择具有最大区别度的一个实体组的一个示例。
[0019] 图5是示出了根据本发明的第一实施例的主题挖掘设备的框图。
[0020] 图6是示出了根据本发明的第二实施例的主题挖掘方法的流程图。
[0021] 图7A、图7B和图7C例示了多模因素的各个模式与多值属性的各个值之间形成的 条件三元组。
[0022] 图8是示出了根据本发明的第三实施例的主题挖掘方法的流程图。
[0023] 图9A示例性地示出了组块之间的句法依存关系。
[0024] 图9B示例性地示出了作为语言上依存主题的由组块之间的链接组成的操作句 子。
[0025] 图10是示出了根据本发明一个实施例的查询扩展方法的流程图。
[0026] 图11是示出了根据本发明一个实施例的查询扩展设备的框图。
[0027] 图12示意性地例示了应用有根据本发明的一个示例性实施例的查询扩展方法的 对话辅助系统的用户界面。

【具体实施方式】
[0028] 下面将参考附图来详细描述本发明的优选的实施例。不是本发明必需的细节和功 能被省略,以便不会混淆本发明的理解。
[0029] 请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中 定义了一个项目,就不需要在之后的图中讨论了。
[0030] 在本公开中,术语"第一"、"第二"等仅仅被用来在元件或步骤之间进行区分,而并 不意图表示时间顺序、优先级或重要性。
[0031] (计算机系统的硬件配置)
[0032] 图2是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。
[0033] 如图2中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线 1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口 1140、可移动非易 失性存储器接口 1150、用户输入接口 1160、网络接口 1170、视频接口 1190和输出外围接口 1195。
[0034] 系统存储器1130包括ROM (只读存储器)1131和RAM (随机存取存储器)1132。 BIOS (基本输入输出系统)1133驻留在R0M1131中。操作系统1134、应用程序1135、其它 程序模块1136和某些程序数据1137驻留在RAM1132中。
[0035] 诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口 1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模 块1146和某些程序数据1147。
[0036] 诸如软盘驱动器1151和⑶-ROM驱动器1155之类的可移动非易失性存储器连接 到可移动非易失性存储器接口 1150。例如,软盘1152可以被插入到软盘驱动器1151中,以 及⑶(光盘)1156可以被插入到⑶-ROM驱动器1155中。
[0037] 诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口 1160。
[0038] 计算机1110可以通过网络接口 1170连接到远程计算机1180。例如,网络接口 1170可以经由局域网1171连接到远程计算机1180。或者,网络接口 1170可以连接到调制 解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机 1180。
[0039] 远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序 1185。
[0040] 视频接口 1190连接到监视器1191。
[0041] 输出外围接口 1195连接到打印机1196和扬声器1197。
[0042] 图2所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进 行任何限制。
[0043] 图2所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可 作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更 多个附加的组件。
[0044] (主题挖掘方法和主题挖掘设备)
[0045] [第一实施例]
[0046] 图3是示出了根据本发明的第一实施例的主题挖掘方法的流程图。
[0047] 如图3所示,在获取步骤310中,从至少一个知识库中获取多个句子。可以以本领 域已知的任何方式来从知识库中获取句子,以供后续处理。
[0048] 例如,在该主题挖掘方法被应用于查询扩展方法的情况下,可以首先接收例如用 户输入的自然语言形式的查询作为输入,然后在所述至少一个知识库中检索与所述查询匹 配的句子。其中所述检索方法可以是本领域已知的任何方法,例如可以是全文检索方法、命 名实体识别(Named Entity Recognition,NER)方法或关系抽取(Relation Extraction, RE)方法。
[0049] 在另一种实施方式中,所述获取步骤310可以包括:接收所述至少一个知识库作 为输入;遍历所述至少一个知识库,并且获取所述至少一个知识库中的至少一个文本片段; 以及在所述至少一个知识库中检索与所述至少一个文本片段匹配的句子。
[0050] 另外,在上述方式得到的与查询匹配的句子或与至少一个文本片段匹配的句子涉 及多分支功能的情况下,优选的是,所述获取步骤310进一步包括:将与所述查询匹配的句 子或与所述至少一个文本片段匹配的句子按可实现的功能分组;以及将所获得的每一组句 子分别作为所述所获取的多个句子。也就是说,在与查询匹配的句子或与至少一个文本片 段匹配的句子涉及多于一个多分支功能的情况下,将这些句子分组,即,对应于每个功能的 句子被分为一组,并且将每一组句子作为上述的从至少一个知识库中获取的所述多个句子 来分别进行本发明的方法中的后续处理。以手册为例,可将可实现相同功能的不同类型的 操作说明语句分为涉及一个多分支功能的一组句子。例如,在用户输入查询"纸张"时,与其 匹配的句子涉及了两个多分支功能,即"纸张选择"和"塞纸",从而,优选的是,把涉及"纸张 选择"功能的一组句子作为所述所获取的多个句子来进行后续主题挖掘处理,同时或稍后, 把涉及"塞纸"功能的一组句子也作为所述所获取的多个句子来进行后续主题挖掘处理。当 然,在与查询匹配的句子或与至少一个文本片段匹配的句子仅仅涉及一个多分支功能的情 况下,上述的分组操作等是不需要的,与查询匹配的句子或与至少一个文本片段匹配的句 子全部作为上述的从至少一个知识库中获取的所述多个句子来分别进行本发明的方法中 的后续处理。例如,对于用户输入的查询"纸张选择",检索出来的句子仅仅涉及"纸张选择" 这个功能,而且可以看出这个功能具有多个分支,诸如,选择在纸盒(drawer)中的纸张、选 择在多用途托盘上的纸张等。
[0051] 上述的知识库可以包括如下中的至少一个:计算机可读的文本文档、以及计算机 可读的领域本体(domain ontology)。如本领域技术人员能理解的,本方法可以利用的知识 库不限于此。
[0052] 接下来,在识别步骤320中,对于所获取的多个句子中的每个句子,识别与其关联 的实体,其中所述实体指示物理物体或物理物体属性。
[0053] 为了方便用户直观地进行查找,显示与指示物理物体或其属性的实体有关的主题 是有利的。这是因为,物理物体是用户可以观察到的,能够更直观地表现出用户希望进行的 操作。
[0054] 优选地,所述识别步骤包括:提取步骤,提取与所获取的多个句子关联的语言形 式的候选实体;规范化步骤,使所述语言形式的候选实体规范化(normalize),例如,将 "drawers"规范化为"drawer";以及唯一映射的实体获得步骤,通过删除与所获取的多个句 子中的多于一个的句子关联的规范化的候选实体,来获得唯一映射的实体。上述规范化步 骤的目的在于避免数据稀疏问题。另外,在本文中"唯一映射的实体"是指只与所获取的多 个句子中的一个句子关联的实体。
[0055] 更优选地,所述唯一映射的实体获得步骤包括:创建一组与所获取的多个句子关 联的语言形式的用户个性化实体(custom entity);使该组语言形式的用户个性化实体规 范化;识别所述规范化的候选实体和该组规范化的用户个性化实体中的相同的实体;以及 删除与所获取的多个句子中的多于一个的句子关联的相同的实体。可以从日志、用户简档、 操作历史等来获得用户个性化实体,该用户个性化实体可以是实体的用户个性化别名。例 如,对应于"多用途托盘"的用户个性化实体可以是"MP托盘"。
[0056] 更优选地,所提取的候选实体属于多个物体类别,所述物体类别包括:设备组件类 另IJ、用户日常使用品类别、设备产品类别和功能消费品类别等。相应地,所识别出的实体可 以是例如"纸盒"、"多用途托盘"、"MP托盘"等。
[0057] 接下来,在生成步骤330中,从与每个句子关联的实体中各提取一个实体生成一 个或更多个实体组。换句话说,所生成的每个实体组由与每个句子关联的实体中的一个实 体组成。所生成的实体组可以包括所有可能的这种实体组,即,例如,假设所获取的句子为 si、s2和s3,而与si、s2和s3关联的实体分别为[ell,el2]、[e2]和[e31,e32],则所生 成的实体组可以包括所有可能的实体组(ell, e2, e31)、(el2, e2, e31)、(ell, e2, e32)和 (el2, e2, e32)〇
[0058] 在一种实施方式中,在所述所获取的多个句子涉及一个多分支功能的情况下,一 般该功能的一个分支对应于一个句子,可从该一个分支的句子中识别出一个或更多个实 体,而一个实体组包含每个分支的仅仅一个实体。换句话说,每个实体组是通过从每个分支 的实体中抽出一个实体来构成的,并且所生成的实体组可以包括所有可能的这种实体组。 例如,假设所获取的多个句子对应于一个多分支功能"纸张选择",其具有两个分支"纸张选 择1"和"纸张选择2"。每个分支对应于一个句子,而从各个句子中识别出来的关联实体分 别为["纸盒"]、以及["多用途托盘","MP托盘"]。因此可生成两个实体组:("纸盒", "多用途托盘")以及("纸盒","MP托盘")。
[0059] 接下来,在选择步骤340中,从所述一个或更多个实体组中选择具有最大区别度 的一个实体组。
[0060] 在最简单的情况下,即在上述生成步骤330中仅仅生成一个实体组,那么该实体 组就是具有最大区别度的一个实体组。
[0061] 在生成了多于一个实体组的情况下,需要根据各个实体组的区别度来进行选择。
[0062] 在一种实施方式中,计算每个实体组的区别度,并且然后选择具有最大区别度的 一个实体组。
[0063] 优选地,可以通过计算每个实体组中的每个实体和所获取的多个句子中与其对 应的句子之间的相关度来计算每个实体组的区别度。更优选地,可以通过提取每个实 体与其对应的句子之间的相关性的证据来计算相关度。例如,可以通过共同出现次数 (co-occurrence)、"is_a"关系等来计算相关度。
[0064] 可替代地或者额外地,可以使用一组代表实体的可观察程度的可观察特征、一组 代表用户对实体的熟悉程度的熟悉度特征、以及一组距离特征中的至少一个来计算区别 度。所述距离特征至少包括各对实体之间的语义距离,所述语义距离指示该对实体在某一 语义源(例如,WordNet)中的距离。举例来说,在MFP领域内,实体"双面有内容纸张"和"信 封"之间的距离短于实体"双面有内容纸张"和"A4"之间的距离。这是因为实体"双面有 内容纸张"和"信封"均属于同一类型实体:纸张类型。
[0065] 图4示出了选择具有最大区别度的一个实体组的一个示例。如图4所示,所获取 的句子对应于多分支功能"预约复印任务",其具有两个分支"预约复印任务1"和"预约复 印任务2"。每个分支对应于一个句子,而从各个句子中识别出来的关联实体分别为["多 用途托盘","双面有内容纸张"]、以及["信封","A4"]。因此生成了四个实体组:("多 用途托盘","信封")、("双面有内容纸张","A4")、("多用途托盘","A4")、以及("双面有内容 纸张","信封")。通过例如上述方式计算得到的区别度分别由图4中的黑点的大小来表示。 因此,根据图4可以选择具有最大区别度的一个实体组,即,实体组("双面有内容纸张","信 封")。
[0066] 接下来,在用户可见区别性物体主题输出步骤350中,输出与所获取的多个句子 对应的用户可见区别性物体主题,其中每个用户可见区别性物体主题通过利用所获取的多 个句子中的一个句子及其在所选的实体组中的对应实体来表示。
[0067] 在一种实施方式中,该用户可见区别性物体主题输出步骤可以包括:针对所选的 实体组中的每个实体,从所述至少一个知识库中的无结构的文本片段中提取语言表达模 板;通过使用所述语言表达模板来描述所选的实体组中的每个实体和所获取的多个句子中 与其对应的句子,从而产生候选句子;以及基于所述至少一个知识库,利用领域知识的语义 约束和语法约束来对所述候选句子排序。
[0068] 上述的语言表达模板的一个示例为:
[0069] 想要设置通过[实体]进行的[功能名]?
[0070] 把实体及其相应的句子对应的功能名代入该模板就可以得到候选句子。例如,可 以得到如下的候选句子:
[0071] "想要设置通过纸盒进行的纸张选择?"
[0072] 在上述对所述候选句子排序的步骤中,通常满足语义约束和语法约束的候选句子 会得到更高的分数,而可以按照分数从高到低地对候选句子排序。
[0073] 在输出用户可见区别性物体主题之前,可选地,可以通过许多指标中的一个或更 多个(例如,频率、语法分数、相关性分数等)来对这些主题进行排序,然后将排序后的主题 输出。
[0074] 图5是示出了根据本发明的第一实施例的主题挖掘设备的框图。
[0075] 如图5所示,根据本发明的第一实施例的主题挖掘设备500包括:获取部件510、 识别部件520、生成部件530、选择部件540、和用户可见区别性物体主题输出部件550。
[0076] 更具体而言,获取部件510被配置为从至少一个知识库中获取多个句子。
[0077] 识别部件520被配置为,对于所获取的多个句子中的每个句子,识别与其关联的 实体,其中所述实体指示物理物体或物理物体属性。
[0078] 生成部件530被配置为从与每个句子关联的实体中各提取一个实体生成一个或 更多个实体组。
[0079] 选择部件540被配置为从所述一个或更多个实体组中选择具有最大区别度的一 个实体组。
[0080] 用户可见区别性物体主题输出部件550被配置为输出与所获取的多个句子对应 的用户可见区别性物体主题,其中每个用户可见区别性物体主题通过利用所获取的多个句 子中的一个句子及其在所选的实体组中的对应实体来表示。
[0081] 该设备500中的各个部件可以被配置为执行图3中的流程图所示出的各个步骤。
[0082] [第二实施例]
[0083] 图6是例示了根据本发明的第二实施例的主题挖掘方法的流程图。
[0084] 如在
【发明内容】
部分所述的,本申请的发明人发现除了用户可见区别性物体主题之 夕卜,还存在另一类数量较多的隐含主题,即前提断言对主题。
[0085] 因此,为了进一步提高主题的召回率,可以在第一实施例的基础上进一步挖掘出 前提断言对主题。也就是说,第二实施例与第一实施例的区别在于,除了挖掘用户可见区别 性物体主题之外,还对前提断言对主题进行了挖掘。通过将用户可见区别性物体主题和前 提断言对主题结合,可以进一步提高主题的召回率,从而可以进一步有效地为用户提供期 望的信息。
[0086] 图6中的用于产生用户可见区别性物体主题的步骤310-350与根据第一实施例的 图3中的步骤310-350相同,因此在第二实施例中省略了它们的重复描述。
[0087] 下面具体描述挖掘前提断言对主题的过程。
[0088] 图6中的步骤620-660用于产生前提断言对主题。出于例示的目的,图6中的用 于产生前提断言对主题的步骤620-660被示出为与用于产生用户可见区别性物体主题的 步骤320-350并行地执行,然而其执行顺序不限于此。如本领域技术人员均能理解的,用于 产生前提断言对主题的步骤620-660也可以在用于产生用户可见区别性物体主题的步骤 320-350之前或之后被执行。
[0089] 如前面在第一实施例中所述的,已经通过获取步骤310从至少一个知识库中获取 了多个句子。
[0090] 例如,在根据本实施例的主题挖掘方法被应用于查询扩展方法的情况下,可以首 先接收例如用户输入的自然语言形式的查询作为输入,然后在所述至少一个知识库中检索 与所述查询匹配的句子。
[0091] 以MFP为例,用户输入了一个查询,例如,作为MFP的操作的"调节图像质量"。然 后例如使用搜索引擎来从至少一个知识库(例如该MFP的操作手册或网络资源)中检索出例 如5个相关的句子,
[0092] 如下面的表1所示。
[0093]

【权利要求】
1. 一种主题挖掘方法,包括: 获取步骤,从至少一个知识库中获取多个句子; 识别步骤,对于所获取的多个句子中的每个句子,识别与其关联的实体,其中所述实体 指示物理物体或物理物体属性; 生成步骤,从与每个句子关联的实体中各提取一个实体生成一个或更多个实体组; 选择步骤,从所述一个或更多个实体组中选择具有最大区别度的一个实体组;以及 用户可见区别性物体主题输出步骤,输出与所获取的多个句子对应的用户可见区别性 物体主题,其中每个用户可见区别性物体主题通过利用所获取的多个句子中的一个句子及 其在所选的实体组中的对应实体来表示。
2. 根据权利要求1所述的主题挖掘方法,其中所述识别步骤包括: 提取步骤,提取与所获取的多个句子关联的语言形式的候选实体; 规范化步骤,使所述语言形式的候选实体规范化;以及 唯一映射的实体获得步骤,通过删除与所获取的多个句子中的多于一个的句子关联的 规范化的候选实体,来获得唯一映射的实体。
3. 根据权利要求2所述的主题挖掘方法,其中所提取的候选实体属于多个物体类别, 所述物体类别包括:设备组件类别、用户日常使用品类别、设备产品类别和功能消费品类 别。
4. 根据权利要求2所述的主题挖掘方法,其中所述唯一映射的实体获得步骤包括: 创建一组与所获取的多个句子关联的语言形式的用户个性化实体; 使该组语言形式的用户个性化实体规范化; 识别所述规范化的候选实体和该组规范化的用户个性化实体中的相同的实体;以及 删除与所获取的多个句子中的多于一个的句子关联的相同的实体。
5. 根据权利要求1所述的主题挖掘方法,其中所述选择步骤包括: 计算每个实体组的区别度;以及 选择具有最大区别度的一个实体组。
6. 根据权利要求5所述的主题挖掘方法,其中所述计算每个实体组的区别度的步骤包 括: 计算每个实体组中的每个实体和所获取的多个句子中与其对应的句子之间的相关度。
7. 根据权利要求6所述的主题挖掘方法,其中所述计算相关度的步骤包括: 提取每个实体与其对应的句子之间的相关性的证据。
8. 根据权利要求5所述的主题挖掘方法,其中所述计算每个实体组的区别度的步骤包 括: 使用一组代表实体的可观察程度的可观察特征来计算区别度。
9. 根据权利要求5所述的主题挖掘方法,其中所述计算每个实体组的区别度的步骤包 括: 使用一组代表用户对实体的熟悉程度的熟悉度特征来计算区别度。
10. 根据权利要求5所述的主题挖掘方法,其中所述计算每个实体组的区别度的步骤 包括: 使用一组距离特征来计算区别度,所述距离特征至少包括各对实体之间的语义距离, 所述语义距离指示该对实体在某一语义源中的距离。
11. 根据权利要求1所述的主题挖掘方法,其中所述用户可见区别性物体主题输出步 骤包括: 针对所选的实体组中的每个实体,从所述至少一个知识库中的无结构的文本片段中提 取语目表达模板; 通过使用所述语言表达模板来描述所选的实体组中的每个实体和所获取的多个句子 中与其对应的句子,从而产生候选句子;以及 基于所述至少一个知识库,利用领域知识的语义约束和语法约束来对所述候选句子排 序。
12. 根据权利要求1所述的主题挖掘方法,其中所述获取步骤包括: 接收自然语言形式的查询作为输入;以及 在所述至少一个知识库中检索与所述查询匹配的句子。
13. 根据权利要求1所述的主题挖掘方法,其中所述获取步骤包括: 接收所述至少一个知识库作为输入; 遍历所述至少一个知识库,并且获取所述至少一个知识库中的至少一个文本片段;以 及 在所述至少一个知识库中检索与所述至少一个文本片段匹配的句子。
14. 根据权利要求12或13所述的主题挖掘方法,其中所述获取步骤进一步包括: 将与所述查询匹配的句子或与所述至少一个文本片段匹配的句子按可实现的功能分 组;以及 将所获得的每一组句子分别作为所述所获取的多个句子。
15. 根据权利要求1所述的主题挖掘方法,还包括: 转换步骤,将所获取的多个句子中的至少一个转换为条件三元组形式的第一断言声 明,其中所述第一断言声明的条件三兀组由多模因素的一个模式、条件、以及多值属性的一 个值构成; 产生步骤,针对第一断言声明产生条件三元组形式的假设,其中所产生的假设的条件 三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中的多模因素和多值 属性相同,所产生的假设中的多值属性的值不同于第一断言声明中的多值属性的值; 计算步骤,通过使用存储在所述至少一个知识库中的证据来计算每个假设的置信度, 并且从所述假设中提取出一个或更多个假设作为第二断言声明,其中每个第二断言声明的 置信度大于预定的第一阈值; 组合步骤,将第一断言声明和第二断言声明组合以获得从所述多值属性到所述多模因 素的映射,并且验证所述映射是否是满射;以及 前提断言对主题输出步骤,在从所述多值属性到所述多模因素的映射是满射的情况 下,输出表示所述多值属性是所述多模因素的前提的前提断言对主题。
16. 根据权利要求1或15中的任意一项所述的主题挖掘方法,还包括: 从所述至少一个知识库中识别至少一个满足预定依存表达的句子,其中所述依存表达 描述句法单元之间的依存关系;以及 产生所识别出的至少一个句子的语言上依存主题,所述语言上依存主题由所述句法单 元和表示所述依存关系的链接组成。
17. 根据权利要求15所述的主题挖掘方法,还包括: 通过对产生的用户可见区别性物体主题和前提断言对主题进行排序,呈现一定数量的 主题。
18. 根据权利要求16所述的主题挖掘方法,还包括: 通过对产生的用户可见区别性物体主题和语言上依存主题进行排序,呈现一定数量的 主题;或者 通过对产生的用户可见区别性物体主题、语言上依存主题和前提断言对主题进行排 序,呈现一定数量的主题。
19. 根据权利要求1所述的主题挖掘方法,其中所述知识库包括如下中的至少一个: 计算机可读的文本文档;以及 计算机可读的领域本体。
20. -种查询扩展方法,包括: 接收自然语言形式的用户输入的查询; 在至少一个知识库中检索基于所述查询的结果; 根据权利要求1-19中的任意一项所述的主题挖掘方法,从所述结果中挖掘出主题;以 及 获取基于所挖掘出的主题的查询。
21. -种主题挖掘设备,包括: 获取部件,被配置为从至少一个知识库中获取多个句子; 识别部件,被配置为,对于所获取的多个句子中的每个句子,识别与其关联的实体,其 中所述实体指示物理物体或物理物体属性; 生成部件,被配置为从与每个句子关联的实体中各提取一个实体生成一个或更多个实 体组; 选择部件,被配置为从所述一个或更多个实体组中选择具有最大区别度的一个实体 组;以及 用户可见区别性物体主题输出部件,被配置为输出与所获取的多个句子对应的用户可 见区别性物体主题,其中每个用户可见区别性物体主题通过利用所获取的多个句子中的一 个句子及其在所选的实体组中的对应实体来表示。
22. 根据权利要求21所述的主题挖掘设备,其中所述识别部件包括: 提取部件,被配置为提取与所获取的多个句子关联的语言形式的候选实体; 规范化部件,被配置为使所述语言形式的候选实体规范化;以及 唯一映射的实体获得部件,被配置为通过删除与所获取的多个句子中的多于一个的句 子关联的规范化的候选实体来获得唯一映射的实体。
23. 根据权利要求22所述的主题挖掘设备,其中所提取的候选实体属于多个物体类 另IJ,所述物体类别包括:设备组件类别、用户日常使用品类别、设备产品类别和功能消费品 类别。
24. 根据权利要求22所述的主题挖掘设备,其中所述唯一映射的实体获得部件包括: 被配置为创建一组与所获取的多个句子关联的语言形式的用户个性化实体的部件; 被配置为使该组语言形式的用户个性化实体规范化的部件; 被配置为识别所述规范化的候选实体和该组规范化的用户个性化实体中的相同的实 体的部件;以及 被配置为删除与所获取的多个句子中的多于一个的句子关联的相同的实体的部件。
25. 根据权利要求21所述的主题挖掘设备,其中所述选择部件包括: 被配置为计算每个实体组的区别度的部件;以及 被配置为选择具有最大区别度的一个实体组的部件。
26. 根据权利要求25所述的主题挖掘设备,其中所述被配置为计算每个实体组的区别 度的部件包括: 被配置为计算每个实体组中的每个实体和所获取的多个句子中与其对应的句子之间 的相关度的部件。
27. 根据权利要求26所述的主题挖掘设备,其中所述被配置为计算相关度的部件包 括: 被配置为提取每个实体与其对应的句子之间的相关性的证据的部件。
28. 根据权利要求25所述的主题挖掘设备,其中所述被配置为计算每个实体组的区别 度的部件包括: 被配置为使用一组代表实体的可观察程度的可观察特征来计算区别度的部件。
29. 根据权利要求25所述的主题挖掘设备,其中所述被配置为计算每个实体组的区别 度的部件包括: 被配置为使用一组代表用户对实体的熟悉程度的熟悉度特征来计算区别度的部件。
30. 根据权利要求25所述的主题挖掘设备,其中所述被配置为计算每个实体组的区别 度的部件包括: 被配置为使用一组距离特征来计算区别度的部件,所述距离特征至少包括各对实体之 间的语义距离,所述语义距离指示该对实体在某一语义源中的距离。
31. 根据权利要求21所述的主题挖掘设备,其中所述用户可见区别性物体主题输出部 件包括: 被配置为,针对所选的实体组中的每个实体,从所述至少一个知识库中的无结构的文 本片段中提取语言表达模板的部件; 被配置为,通过使用所述语言表达模板来描述所选的实体组中的每个实体和所获取的 多个句子中与其对应的句子,从而产生候选句子的部件;以及 被配置为,基于所述至少一个知识库,利用领域知识的语义约束和语法约束来对所述 候选句子排序的部件。
32. 根据权利要求21所述的主题挖掘设备,其中所述获取部件包括: 被配置为接收自然语言形式的查询作为输入的部件;以及 被配置为在所述至少一个知识库中检索与所述查询匹配的句子的部件。
33. 根据权利要求21所述的主题挖掘设备,其中所述获取部件包括: 被配置为接收所述至少一个知识库作为输入的部件; 被配置为遍历所述至少一个知识库并且获取所述至少一个知识库中的至少一个文本 片段的部件;以及 被配置为在所述至少一个知识库中检索与所述至少一个文本片段匹配的句子的部件。
34. 根据权利要求32或33所述的主题挖掘设备,其中所述获取部件进一步包括: 被配置为将与所述查询匹配的句子或与所述至少一个文本片段匹配的句子按可实现 的功能分组的部件;以及 被配置为将所获得的每一组句子分别作为所述所获取的多个句子的部件。
35. 根据权利要求21所述的主题挖掘设备,还包括: 转换部件,被配置为将所获取的多个句子中的至少一个转换为条件三元组形式的第一 断言声明,其中所述第一断言声明的条件三元组由多模因素的一个模式、条件、以及多值属 性的一个值构成; 产生部件,被配置为针对第一断言声明产生条件三元组形式的假设,其中所产生的假 设的条件三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中的多模因 素和多值属性相同,所产生的假设中的多值属性的值不同于第一断言声明中的多值属性的 值; 计算部件,被配置为通过使用存储在所述至少一个知识库中的证据来计算每个假设的 置信度,并且从所述假设中提取出一个或更多个假设作为第二断言声明,其中每个第二断 言声明的置信度大于预定的第一阈值; 组合部件,被配置为将第一断言声明和第二断言声明组合以获得从所述多值属性到所 述多模因素的映射,并且验证所述映射是否是满射;以及 前提断言对主题输出部件,被配置为在从所述多值属性到所述多模因素的映射是满射 的情况下,输出表示所述多值属性是所述多模因素的前提的前提断言对主题。
36. 根据权利要求21或35中的任意一项所述的主题挖掘设备,还包括: 被配置为从所述至少一个知识库中识别至少一个满足预定依存表达的句子的部件,其 中所述依存表达描述句法单元之间的依存关系;以及 被配置为产生所识别出的至少一个句子的语言上依存主题的部件,所述语言上依存主 题由所述句法单元和表示所述依存关系的链接组成。
37. 根据权利要求35所述的主题挖掘设备,还包括: 被配置为通过对产生的用户可见区别性物体主题和前提断言对主题进行排序来呈现 一定数量的主题的部件。
38. 根据权利要求36所述的主题挖掘设备,还包括: 被配置为通过对产生的用户可见区别性物体主题和语言上依存主题进行排序来呈现 一定数量的主题的部件;或者 被配置为通过对产生的用户可见区别性物体主题、语言上依存主题和前提断言对主题 进行排序来呈现一定数量的主题的部件。
39. 根据权利要求21所述的主题挖掘设备,其中所述知识库包括如下中的至少一个: 计算机可读的文本文档;以及 计算机可读的领域本体。
40. -种查询扩展设备,包括: 接收部件,被配置为接收自然语言形式的用户输入的查询; 检索部件,被配置为在至少一个知识库中检索基于所述查询的结果; 根据权利要求21-39中的任意一项所述的主题挖掘设备,被配置为从所述结果中挖掘 出主题;以及 获取部件,被配置为获取基于所挖掘出的主题的查询。
【文档编号】G06F17/30GK104298683SQ201310303056
【公开日】2015年1月21日 申请日期:2013年7月18日 优先权日:2013年7月18日
【发明者】张碧川, 黄耀海, 李荣军, 刘鹏 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1