用于表征功能实体的和用于将功能实体消歧的方法和设备的制作方法

文档序号:6487707阅读:142来源:国知局
用于表征功能实体的和用于将功能实体消歧的方法和设备的制作方法
【专利摘要】本发明提供了用于表征文档中的功能实体的方法和设备以及用于将文档中的功能实体消歧的方法和设备。用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法包括:识别该文档中的功能实体;以及对于每个功能实体,从该文档中提取至少一个装置状态转移;以及其中该装置状态转移由与装置的状态相关的实体和该实体之间的关系构成。这种表征方法可以被用于将文档中的功能实体消歧,并且可以被用于聚类/归类/搜索功能实体/文档。本发明对于其名字在多个版本间已经发生变化的功能实体的消歧而言是尤其有利的。
【专利说明】用于表征功能实体的和用于将功能实体消歧的方法和设备
【技术领域】
[0001]本发明涉及用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法和设备、以及用于将文档中的功能实体消歧的方法和设备。
【背景技术】
[0002]对于实体消歧的需求通常出现在其中表示相同实体的数据对象以不同的方式呈现并且没有用于相同实体的统一的标识符的信息整合应用中。实体消歧通常是在可以进行关于实体的任何其它推论之前必须被执行的关键的第一步。
[0003]手册、操作指南以及包括关于对一个装置或一类装置进行操作的信息的类似文档在企业和我们的日常生活中被频繁地使用。这些文档的特征在于是随时间演变的,并且因此会具有多个版本。例如,当发布一个系列的数字式照相机的新型号时,用于该系列的照相机的手册将演变成与新型号对应的新版本。手册或操作指南中的功能实体和一般性的表达在多个版本的手册或操作指南之间可能不同。因此,存在对于多个版本的文档进行功能实体消歧的需求。
[0004]功能实体指的是设定、选项、动作、部件、步骤和功能等的命名实体,并且在手册、操作指南和包括关于对装置进行操作的信息的类似文档中频繁出现。为了利用相同的标识符来标识在不同版本的文档(尤其是手册或操作指南)中的相同的功能实体,可以执行功能实体消歧。一般,在制作手册之前将功能实体编索引(index)。对于多个版本的文档的功能实体消歧的任务是使文档中的功能实体同索引(co-1ndex)。
[0005]功能实体消歧系统一般获取文档和索引化的功能实体列表作为其输入,并且输出同索引的功能实体的列表。期望的是,一系列文档中的功能名的演变可以通过使用功能实体消歧来跟踪。例如,如表I中所示出的,由相同公司制造的数字式照相机的所有型号具有相同的菜单“FUNC.菜单”(#12)。功能“自动回放(自动播放)”、“自动回放(幻灯片放映)”和“观看幻灯片放映”是同索引的(#17)。此外,“捕获最佳面部表情(最佳图像选择)”被指定一个新的标识符(#203),因为它仅存在于照相机型号220/230中。
[0006]
【权利要求】
1.一种用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法,包括: a)识别该文档中的功能实体;以及 b)对于每个功能实体,从该文档中提取至少一个装置状态转移;以及 其中该装置状态转移由与装置的状态相关的实体和该实体之间的关系构成。
2.根据权利要求1所述的方法,其中步骤b)包括: bl)获得与该功能实体相关的设定-选项对的森林; b2)基于该森林和该功能实体来提取设定-选项对的叶节点中的至少一个作为该装置状态转移; 其中,该与装置的状态相关的实体是设定和选项;以及 该实体之间的关系是每个设定-选项对中的设定与选项之间的关系。
3.根据权利要求2所述的方法,其中步骤b)包括: b3)从该文档中提取与该功能实体相关的操作的至少一个动作-部件对作为该装置状态转移; 其中,该与装置的状态相关的实体是设定、选项、动作和部件;以及该实体之间的关系是每个设定-选项对中的设定与选项之间的关系、以及每个动作-部件对中的动作与部件之间的关系。
4.根据权利要求3所述的方法,其中步骤b)包括: b4)输入包括该装置的相应功能的效果的字典; b5)从该字典中提取与该功能实体相关的至少一个效果作为该装置状态转移; 其中,该与装置的状态相关的实体是设定、选项、动作、部件和效果;以及该实体之间的关系是每个设定-选项对中的设定与选项之间的关系、以及每个动作-部件对中的动作与部件之间的关系。
5.根据权利要求2所述的方法,还包括: c)输入已被编索引的候选功能实体的集合; d)对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第一相似度分数。
6.根据权利要求3所述的方法,还包括: c)输入已被编索引的候选功能实体的集合; 对于每个功能实体, d)通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第四相似度分数; e)通过比较该功能实体与每个已被编索引的候选功能实体的操作的动作-部件对来计算该功能实体与每个已被编索引的候选功能实体之间的第五相似度分数;以及 f)根据第四相似度分数和第五相似度分数来计算该功能实体与每个已被编索引的候选功能实体之间的第二相似度分数。
7.根据权利要求4所述的方法,还包括: c)输入已被编索引的候选功能实体的集合;对于每个功能实体, d)通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第四相似度分数; e)通过比较该功能实体与每个已被编索引的候选功能实体的操作的动作-部件对来计算该功能实体与每个已被编索引的候选功能实体之间的第五相似度分数; f)通过比较该功能实体与每个已被编索引的候选功能实体的效果来计算该功能实体与每个已被编索引的候选功能实体之间的第六相似度分数;以及 g)根据第四相似度分数、第五相似度分数和第六相似度分数来计算该功能实体与每个已被编索引的候选功能实体之间的第三相似度分数。
8.根据权利要求5到7中的任意一项所述的方法,还包括: 对于每个功能实体,在步骤d)之前,通过在字面上将该功能实体与已被编索引的候选功能实体进行比较来计算第七相似度分数;并且在该第七相似度分数小于阈值的情况下执行步骤d)及其后续步骤。
9.根据权利要求2到7中的任意一项所述的方法,其中,步骤b2)包括: b21)通过使用命名实体识别来从该文档中提取设定和选项; b22)通过使用关系提取来提取设定-选项对;以及 b23)修剪该森林,从而仅保留与该功能实体相关的设定-选项对的叶节点。
10.根据权利要求9所述的方法,其中步骤b2)还包括: b24)通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将叶节点序列化,以便获得设定-选项对的叶节点的有序序列。
11.根据权利要求10所述的方法,其中步骤b24)包括: 基于设定-选项对的辨别力来过滤前η个设定-选项对的叶节点;以及通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将过滤得到的前η个叶节点序列化,以便获得设定-选项对的叶节点的有序序列; 其中一个设定-选项对的辨别力被定义为:
"? = /1 *log(4)
n\ 其中dl表示该设定-选项对的辨别力,Π表示该设定-选项对的频率,t表示该文档中的功能实体的总数,并且nl表示与该设定-选项对相关的功能实体的数量。
12.根据权利要求3到4和6到7中的任意一项所述的方法,其中步骤b3)包括: b31)通过使用命名实体识别来从该文档中提取动作和部件;以及 b32)通过使用关系提取来提取动作-部件对。
13.根据权利要求12所述的方法,其中步骤b3)还包括: b33)通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将所提取的动作-部件对序列化,以便获得操作的动作-部件对的有序序列。
14.根据权利要求13所述的方法,其中步骤b33)包括: 基于动作-部件对的辨别力来过滤前η个动作-部件对; 通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将过滤得到的前η个动作-部件对序列化,以便获得操作的动作-部件对的有序序列;其中一个动作-部件对的辨别力被定义为:
15.根据权利要求4或7所述的方法,其中步骤b5)包括: 基于与该功能实体相关的效果的辨别力来过滤前η个与该功能实体相关的效果; 其中,一个效果的辨别力被定义为:
16.一种用于将包括关于对装置进行操作的信息的文档中的功能实体消歧的方法,包括: 计算步骤,对于每个功能实体,通过使用根据权利要求5到15中的任意一项所述的方法来计算该功能实体与每个已被编索引的候选功能实体之间的相似度分数; 输出步骤,对于每个功能实体,输出η个最好的列表,该η个最好的列表示出了具有最高的η个相似度分数的已被编索引的候选功能实体。
17.根据权利要求16所述的方法,其中该输出步骤包括: 对于每个功能实体,如果该η个最好的列表中的一个已被编索引的候选功能实体的相似度分数大于第一阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则给该功能实体指定一个新的标识符。
18.根据权利要求17所述的方法,其中该输出步骤包括: 如果第一相似度分数大于第二阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则 如果第二相似度分数大于第三阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则 如果第三相似度分数大于第四阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则 给该功能实体指定一个新的标识符。
19.一种用于表征在包括关于对装置进行操作的信息的文档中的功能实体的设备,包括: 单元a),被配置为识别该文档中的功能实体;以及 单元b),被配置为,对于每个功能实体,从该文档中提取至少一个装置状态转移;以及 其中该装置状态转移由与装置的状态相关的实体和该实体之间的关系构成。
20.根据权利要求19所述的设备,其中该单元b)包括: 单元bl),被配置为获得与该功能实体相关的设定-选项对的森林; 单元b2),被配置为基于该森林和该功能实体来提取设定-选项对的叶节点中的至少一个作为该装置状态转移; 其中,该与装置的状态相关的实体是设定和选项;以及该实体之间的关系是每个设定-选项对中的设定与选项之间的关系。
21.根据权利要求20所述的设备,其中单元b)包括: 单元b3),被配置为从该文档中提取与该功能实体相关的操作的至少一个动作-部件对作为该装置状态转移; 其中,该与装置的状态相关的实体是设定、选项、动作和部件;以及该实体之间的关系是每个设定-选项对中的设定与选项之间的关系、以及每个动作-部件对中的动作与部件之间的关系。
22.根据权利要求21所述的设备,其中单元b)包括: 单元b4),被配置为输入包括该装置的相应功能的效果的字典; 单元b5),被配置为从该字典中提取与该功能实体相关的至少一个效果作为该装置状态转移; 其中,该与装置的状态相关的实体是设定、选项、动作、部件和效果;以及该实体之间的关系是每个设定-选项对中的设定与选项之间的关系、以及每个动作-部件对中的动作与部件之间的关系。
23.根据权利要求20所述的设备,还包括: 单元c),被配置为输入已被编索引的候选功能实体的集合; 单元d),被配置为对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第一相似度分数。
24.根据权利要求21所述的设备,还包括: 单元C),被配置为输入已被编索引的候选功能实体的集合; 单元d),被配置为对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第四相似度分数; 单元e),被配置为对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的操作的动作-部件对来计算该功能实体与每个已被编索引的候选功能实体之间的第五相似度分数;以及 单元f),被配置为对于每个功能实体,根据第四相似度分数和第五相似度分数来计算该功能实体与每个已被编索引的候选功能实体之间的第二相似度分数。
25.根据权利要求22所述的设备,还包括: 单元c),被配置为输入已被编索引的候选功能实体的集合; 单元d),被配置为对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第四相似度分数; 单元e),被配置为对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的操作的动作-部件对来计算该功能实体与每个已被编索引的候选功能实体之间的第五相似度分数; 单元f),被配置为对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的效果来计算该功能实体与每个已被编索引的候选功能实体之间的第六相似度分数;以及 单元g),被配置为对于每个功能实体,根据第四相似度分数、第五相似度分数和第六相似度分数来计算该功能实体与每个已被编索引的候选功能实体之间的第三相似度分数。
26.根据权利要求23到25中的任意一项所述的设备,还包括: 被配置为对于每个功能实体通过在字面上将该功能实体与已被编索引的候选功能实体进行比较来计算第七相似度分数的单元;并且 在该第七相似度分数小于阈值的情况下单元d)及其后续单元执行相应的处理。
27.根据权利要求20到25中的任意一项所述的设备,其中,单元b2)包括: 单元b21),被配置为通过使用命名实体识别来从该文档中提取设定和选项; 单元b22),被配置为通过使用关系提取来提取设定-选项对;以及 单元b23),被配置为修剪该森林,从而仅保留与该功能实体相关的设定-选项对的叶节点。
28.根据权利要求27所述的设备,其中单元b2)还包括: 单元b24),被配置为通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将叶节点序列化,以便获得设定-选项对的叶节点的有序序列。
29.根据权利要求28所述的设备,其中单元b24)包括: 被配置为基于设定-选项对的辨别力来过滤前η个设定-选项对的叶节点的单元;以及 被配置为通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将过滤得到的前η个叶节点序列化以便获得设定-选项对的叶节点的有序序列的单元; 其中一个设定-选项对的辨别力被定义为:
30.根据权利要求21到22和24到25中的任意一项所述的设备,其中单元b3)包括: 单元b31),被配置为通过使用命名实体识别来从该文档中提取动作和部件;以及 单元b32),被配置为通过使用关系提取来提取动作-部件对。
31.根据权利要求30所述的设备,其中单元b3)还包括: 单元b33),被配置为通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将所提取的动作-部件对序列化,以便获得操作的动作-部件对的有序序列。
32.根据权利要求31所述的设备,其中单元b33)包括: 被配置为基于动作-部件对的辨别力来过滤前η个动作-部件对的单元; 被配置为通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将过滤得到的前η个动作-部件对序列化以便获得操作的动作-部件对的有序序列的单元; 其中一个动作-部件对的辨别力被定义为:
33.根据权利要求22或25所述的设备,其中单元b5)包括: 被配置为基于与该功能实体相关的效果的辨别力来过滤前η个与该功能实体相关的效果的单元; 其中,一个效果的辨别力被定义为:
34.一种用于将包括关于对装置进行操作的信息的文档中的功能实体消歧的设备,包括: 根据权利要求23到33中的任意一项所述的设备,用于对于每个功能实体,计算该功能实体与每个已被编索引的候选功能实体之间的相似度分数;以及 输出单兀,被配置为,对于每个功能实体,输出η个最好的列表,该η个最好的列表不出了具有最高的η个相似度分数的已被编索引的候选功能实体。
35.根据权利要求34所述的设备,其中该输出单元被配置为: 对于每个功能实体,如果该η个最好的列表中的一个已被编索引的候选功能实体的相似度分数大于第一阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则给该功能实体指定一个新的标识符。
36.根据权利要求35所述的设备,其中该输出单元被配置为: 如果第一相似度分数大于第二阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则 如果第二相似度分数大于第三阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则 如果第三相似度分数大于第四阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则 给该功能实体指定一个新的标识符。
【文档编号】G06F17/30GK103577491SQ201210281408
【公开日】2014年2月12日 申请日期:2012年8月9日 优先权日:2012年8月9日
【发明者】胡钦谙, 黄耀海, 李荣军 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1