用于识别系列文档中的语义信息的方法和设备的制作方法

文档序号:6489876阅读:261来源:国知局
用于识别系列文档中的语义信息的方法和设备的制作方法
【专利摘要】本发明提供了用于识别系列文档中的语义信息的方法和设备。该方法包括:a)识别系列文档中的每个文档中的实体项;b)将所识别的实体项与其在系列文档中的其它文档中的对应的实体项映射;c)计算所映射的实体项之间的相似度;d)从序列关系结构中提取描述所映射的实体项中的至少一个实体项的稳定程度的语义信息;其中,所述序列关系结构由N个所映射的实体项以及所映射的实体项之间的N-1个关系构成;并且其中,所述关系由所映射的实体项之间的相似度度量,并且在每两个所映射的实体项之间存在不多于一个的关系。利用本发明,可以从系列文档中提取语义信息,这将有助于对系列文档的智能处理和分析。
【专利说明】用于识别系列文档中的语义信息的方法和设备
【技术领域】
[0001]本发明涉及自然语言理解和数据挖掘领域,并且更特别地涉及用于识别系列文档中的语义信息的方法和设备。
【背景技术】
[0002]许多类型的文档表现出系列性质。这种文档包括,例如:产品手册,其中系列指的是产品的系列;会议记录,其中系列指的是具有类似主题的会议的时序;网站,其中系列指的是更新的序列;操作指南,其中系列指的是产品的系列;说明书,其中系列指的是更新的版本的系列;技术报告,其中系列指的是具有类似技术细节的报告的时序;等等。
[0003]在系列文档中隐藏有许多语义信息。以一个版本的产品手册中的功能为例,关于该功能的典型的语义信息包括:该功能是否是更新功能,该功能是否是可选或特殊功能,该功能是否是在某一时段期间快速革新的功能,等等。
[0004]识别系列文档中的语义信息是非常有意义的,并且对于较宽范围的应用(诸如,问答推荐、手册写作辅助、对于产品功能的生命周期分析辅助等)也是至关紧要的。
[0005]迄今为止,在本领域中没有用于识别系列文档中的上述语义信息的完整的解决方案。仅仅存在用于解决一些有关任务的技术。例如,美国专利申请N0.2009/0112825和美国专利申请N0.2009/0119336已经提出了用于基于公司的随时间的商业关系变化来检测公司之间的重要的商业事件的技术。然而,这些专利申请不能被用来从系列文档中挖掘事件。
[0006]Eamonn Keogh 和 Shruti Kasetty 的论文(“On the Need for Time SeriesData Mining Benchmarks:A Survey and EmpiricalDemonstration,,,Data Mining andKnowledge Discovery, 7 (4), 2003)已经总结了许多用于挖掘随时间变化的数据的技术。然而,该论文没有提出挖掘系列文档中的上述语义信息(诸如关于产品手册中的功能的语义信息)的技术。

【发明内容】

[0007]因此,需要用于识别系列文档中的语义信息的方法和设备。
[0008]为了解决上述技术问题,本发明提供了一种用于识别系列文档中的语义信息的方法,其包括如下步骤:a)识别系列文档中的每个文档中的实体项(item) ;b)将所识别的实体项与其在系列文档中的其它文档中的对应的实体项映射;c)计算所映射的实体项之间的相似度;d)从序列关系结构中提取描述所映射的实体项中的至少一个实体项的稳定程度的语义信息;其中,所述序列关系结构由N个所映射的实体项以及所映射的实体项之间的N-1个关系构成;并且其中,所述关系由所映射的实体项之间的相似度度量,并且在每两个所映射的实体项之间存在不多于一个的关系。
[0009]另外,为了解决上述技术问题,本发明提供了一种用于识别系列文档中的语义信息的设备,其包括:单元a),被配置为识别系列文档中的每个文档中的实体项;单元b),被配置为将所识别的实体项与其在系列文档中的其它文档中的对应的实体项映射;单元C),被配置为计算所映射的实体项之间的相似度;单元d),被配置为从序列关系结构中提取描述所映射的实体项中的至少一个实体项的稳定程度的语义信息;其中,所述序列关系结构由N个所映射的实体项以及所映射的实体项之间的N-1个关系构成;并且其中,所述关系由所映射的实体项之间的相似度度量,并且在每两个所映射的实体项之间存在不多于一个的关系。
[0010]利用根据本发明的上述方法和设备,可以从系列文档中提取语义信息,这将有助于对系列文档的智能处理和分析。
[0011]根据参照附图的以下描述,本发明的其它特性特征和优点将变得清晰。
【专利附图】

【附图说明】
[0012]并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于说明本发明的原理。
[0013]图1是示出能够实施本发明的实施例的计算机系统的硬件配置的框图。
[0014]图2是示出了根据本发明的一个实施例的用于识别系列文档中的语义信息的方法的流程图。
[0015]图3示出了链形拓扑图的一个示例。
[0016]图4示出了链形拓扑图的另一个示例。
[0017]图5(a广5(d)示出了用于从链形拓扑图中提取文档的数量相对于时间的函数的示例性的过程。
[0018]图6示出了具有所有可能的连接的相似度图的示例。
[0019]图7 (a广7 (d)示出了通过使用最大生成树(maximum spanningtree)方法来构造树形拓扑图的示例性过程。
[0020]图8(a)和图8(b)示出了具有时间信息的树形拓扑图的两个示例。
[0021]图9是示出了根据本发明一个实施例的用于识别系列文档中的语义信息的设备的框图。
[0022]图10示出了根据本发明实施例的用于问答推荐的方法。
[0023]图11示出了根据本发明实施例的用于手册写作辅助的方法。
[0024]图12示出了根据本发明实施例的用于对于产品功能的生命周期分析辅助的方法。
[0025]图13示出了从输入的问题识别出的功能的生命周期曲线的示例。
图14示出了作为系列文档之一的照相机手册中的示例性页面的一部分。
【具体实施方式】
[0026]下面将参考附图来详细描述本发明的优选的实施例。不是本发明必需的细节和功能被省略,以便不会混淆本发明的理解。
[0027]请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了 一个项目,就不需要在之后的图中讨论了。
[0028]在本公开中,术语“第一”、“第二”等仅仅被用来在元件或步骤之间进行区分,而并不意图表示时间顺序、优先级或重要性。
[0029](计算机系统的硬件配置)
[0030]图1是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。
[0031]如图1中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口 1140、可移动非易失性存储器接口 1150、用户输入接口 1160、网络接口 1170、视频接口 1190和输出外围接口1195。
[0032]系统存储器1130包括ROM (只读存储器)1131和RAM (随机存取存储器)1132。BIOS (基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM 1132中。
[0033]诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。
[0034]诸如软盘驱动器1151和⑶-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口 1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及⑶(光盘)1156可以被插入到⑶-ROM驱动器1155中。
[0035]诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口 1160。
[0036]计算机1110可以通过网络接口 1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口 1170可以连接到调制解调器(调制器一解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
[0037]远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
[0038]视频接口 1190连接到监视器1191。
[0039]输出外围接口 1195连接到打印机1196和扬声器1197。
[0040]图1所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
[0041]图1所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
[0042](用于识别系列文档中的语义信息的方法)
[0043]图2是示出了根据本发明的一个实施例的用于识别系列文档中的语义信息的方法的流程图。
[0044]如图2所示,在步骤S210中,识别系列文档中的每个文档中的实体项。
[0045]如上所述,该系列文档可以是产品手册、会议记录、操作指南、说明书和技术报告中的任何一种。
[0046]在一种实施方式中,系列文档是一系列产品手册(诸如用于照相机的手册),并且实体项可以包括产品功能、部件或操作步骤。
[0047]图14仅仅出于示例的目的示出了作为系列文档之一的照相机手册中的示例性页面的一部分。
[0048]在一种实施方式中,步骤S210可以包括:识别实体项的名字和类型。在该情形中,从图14示出的示例性页面中识别出的示例性实体项可以以下面的数据结构的形式被存储:
[0049]
[0050]
【权利要求】
1.一种用于识别系列文档中的语义信息的方法,包括如下步骤: a)识别系列文档中的每个文档中的实体项; b)将所识别的实体项与其在系列文档中的其它文档中的对应的实体项映射; c)计算所映射的实体项之间的相似度; d)从序列关系结构中提取描述所映射的实体项中的至少一个实体项的稳定程度的语义信息; 其中,所述序列关系结构由N个所映射的实体项以及所映射的实体项之间的N-1个关系构成;以及 其中,所述关系由所映射的实体项之间的相似度度量,并且在每两个所映射的实体项之间存在不多于一个的关系。
2.根据权利要求1所述的方法,其中描述稳定程度的语义信息包括以下中的至少一个:序列有关的语义信息和时序有关的语义信息。
3.根据权利要求2所述的方法,其中序列有关的语义信息包括以下中的至少一个:更新实体项、消失或减少实体项、可选或特殊实体项、稳定实体项、始祖实体项以及集成实体项。
4.根据权利要求2所述的方法,其中时序有关的语义信息包括以下中的至少一个:成熟时刻实体项、发展时刻实体项、衰退时刻实体项、成熟时段实体项、发展时段实体项和衰退时段实体项。
5.根据权利要求1到4中的任何一个所述的方法,其中序列关系结构被表征为链形拓扑图,并且步骤d)还包括: dll)通过将每个文档中的实体项与其在最接近的后续文档中的映射的实体项连接来创建链形拓扑图; 其中,所述链形拓扑图包括多个顶点和多条边,每条边连接所述多个顶点中的两个顶点,其中所述链形拓扑图的所述多个顶点分别表示所映射的实体项,并且所述链形拓扑图的每条边表示由所连接的顶点表示的所映射的实体项之间的相似度,并且指出所映射的实体项之间的关系。
6.根据权利要求5所述的方法,其中步骤d)还包括: dl2)从链形拓扑图中提取序列特征;以及 dl3)从所提取的序列特征中获得序列有关的语义信息。
7.根据权利要求6所述的方法,其中,对于每个文档中的实体项,序列特征包括:该文档中的实体项与其在最接近的在先文档中的映射的实体项之间的权重值WVNP,以及该文档中的实体项与其在最接近的后续文档中的映射的实体项之间的权重值WVNS。
8.根据权利要求7所述的方法,其中,对于每个文档中的实体项,所获得的序列有关的语义信息包括以下中的至少一个:更新实体项、消失或减少实体项、可选或特殊实体项和稳定实体项; 其中, 在权重值WVNP低于第一阈值的情况下,获得更新实体项; 在权重值WVNS低于第二阈值的情况下,获得消失或减少实体项; 在权重值WVNP和权重值WVNS分别低于第一阈值和第二阈值的情况下,获得可选或特殊实体项;以及 在权重值WVNP和权重值WVNS中的任一个高于第三阈值的情况下,获得稳定实体项。
9.根据权利要求5到8中的任何一个所述的方法,其中步骤d)还包括: dl4)从链形拓扑图中提取时间特征; dl5)从所提取的时间特征中获得时序有关的语义信息。
10.根据权利要求9所述的方法,其中,对于每个文档中的实体项,时间特征包括:文档的数量相对于时间的函数。
11.根据权利要求10所述的方法,其中,对于每个文档中的实体项,所获得的在预定时间点处的时序有关的语义信息包括以下中的至少一个:发展时刻实体项、成熟时刻实体项和衰退时刻实体项; 其中, 在文档的数量在预定时间点处显著地增大的情况下,获得发展时刻实体项; 在文档的数量在预定时间点处稳定的情况下,获得成熟时刻实体项;或者 在文档的数量在预定时间点处显著地减少的情况下,获得衰退时刻实体项。
12.根据权利要求1到4中的任何一个所述的方法,其中序列关系结构被表征为树形拓扑图,并且步 骤d)还包括: d21)通过使用最大生成树方法来创建树形拓扑图; 其中,所述树形拓扑图包括多个顶点和多条边,每条边连接所述多个顶点中的两个顶点,其中所述树形拓扑图的所述多个顶点分别表示所映射的实体项,并且所述树形拓扑图的每条边表示由所连接的顶点表示的所映射的实体项之间的相似度,并且指出所映射的实体项之间的关系。
13.根据权利要求12所述的方法,其中步骤d)还包括: d22)从树形拓扑图中提取序列特征;以及 d23)从所提取的序列特征中获得序列有关的语义信息。
14.根据权利要求13所述的方法,其中,对于每个文档中的实体项,序列特征包括:表示该文档中的实体项的顶点的入度值、该顶点的出度值、或者该顶点的入度值和出度值之间的差。
15.根据权利要求14所述的方法,其中,对于每个文档中的实体项,所获得的序列有关的语义信息包括以下中的至少一个:更新实体项、可选或特殊实体项、始祖实体项以及集成实体项; 其中, 在入度值低于第一阈值的情况下,获得更新实体项; 在出度值低于第二阈值的情况下,获得可选或特殊实体项; 在出度值高于入度值的情况下,获得始祖实体项;以及 在出度值低于入度值的情况下,获得集成实体项。
16.根据权利要求12到15中的任何一个所述的方法,其中步骤d)还包括: d24)从树形拓扑图中提取时间特征; d25)从所提取的时间特征中获得时序有关的语义信息。
17.根据权利要求16所述的方法,其中,对于每个文档中的实体项,时间特征包括:每个文档的时间、以及树形拓扑图的顶点的出度值。
18.根据权利要求17所述的方法,其中,对于每个文档中的实体项,所获得的在继基准时间点之后的预定时段期间的时序有关的语义信息包括以下中的至少一个:成熟时段实体项、发展时段实体项和衰退时段实体项; 其中, 在基准时间点处的文档的出度值等于在基准时间点之前的时间点处的文档的出度值的情况下,获得成熟时段实体项; 在基准时间点处的文档的出度值高于在基准时间点之前的时间点处的文档的出度值的情况下,获得发展时段实体项;或者 在基准时间点处的文档的出度值低于在基准时间点之前的时间点处的文档的出度值的情况下,获得衰退时段实体项。
19.根据权利要求1所述的方法,其中系列文档包括: 产品手册,其中系列指的是产品的系列; 会议记录,其中系列指的是具有类似主题的会议的时序; 操作指南,其中系列指的是产品的系列; 说明书,其中系列指的是更新的版本的系列;或者 技术报告,其中系列指的是具有类似技术细节的报告的时序。
20.一种用于识`别系列文档中的语义信息的设备,包括: 单元a),被配置为识别系列文档中的每个文档中的实体项; 单元b),被配置为将所识别的实体项与其在系列文档中的其它文档中的对应的实体项映射; 单元c),被配置为计算所映射的实体项之间的相似度; 单元d),被配置为从序列关系结构中提取描述所映射的实体项中的至少一个实体项的稳定程度的语义信息; 其中,所述序列关系结构由N个所映射的实体项以及所映射的实体项之间的N-1个关系构成;以及 其中,所述关系由所映射的实体项之间的相似度度量,并且在每两个所映射的实体项之间存在不多于一个的关系。
21.根据权利要求20所述的设备,其中描述稳定程度的语义信息包括以下中的至少一个:序列有关的语义信息和时序有关的语义信息。
22.根据权利要求21所述的设备,其中序列有关的语义信息包括以下中的至少一个:更新实体项、消失或减少实体项、可选或特殊实体项、稳定实体项、始祖实体项以及集成实体项。
23.根据权利要求21所述的设备,其中时序有关的语义信息包括以下中的至少一个:成熟时刻实体项、发展时刻实体项、衰退时刻实体项、成熟时段实体项、发展时段实体项和衰退时段实体项。
24.根据权利要求20到23中的任何一个所述的设备,其中序列关系结构被表征为链形拓扑图,并且单元d)还包括: 单元dll),被配置为通过将每个文档中的实体项与其在最接近的后续文档中的映射的实体项连接来创建链形拓扑图; 其中,所述链形拓扑图包括多个顶点和多条边,每条边连接所述多个顶点中的两个顶点,其中所述链形拓扑图的所述多个顶点分别表示所映射的实体项,并且所述链形拓扑图的每条边表示由所连接的顶点表示的所映射的实体项之间的相似度,并且指出所映射的实体项之间的关系。
25.根据权利要求24所述的设备,其中单元d)还包括: 单元dl2),被配置为从链形拓扑图中提取序列特征;以及 单元dl3),被配置为从所提取的序列特征中获得序列有关的语义信息。
26.根据权利要求25所述的设备,其中,对于每个文档中的实体项,序列特征包括:该文档中的实体项与其在最接近的在先文档中的映射的实体项之间的权重值WVNP,以及该文档中的实体项与其在最接近的后续文档中的映射的实体项之间的权重值WVNS。
27.根据权利要求26所述的设备,其中,对于每个文档中的实体项,所获得的序列有关的语义信息包括以下中的至少一个:更新实体项、消失或减少实体项、可选或特殊实体项和稳定实体项; 其中, 在权重值WVNP低于第一阈 值的情况下,获得更新实体项; 在权重值WVNS低于第二阈值的情况下,获得消失或减少实体项; 在权重值WVNP和权重值WVNS分别低于第一阈值和第二阈值的情况下,获得可选或特殊实体项;以及 在权重值WVNP和权重值WVNS中的任一个高于第三阈值的情况下,获得稳定实体项。
28.根据权利要求24到27中的任何一个所述的设备,其中单元d)还包括: 单元dl4),被配置为从链形拓扑图中提取时间特征; 单元dl5),被配置为从所提取的时间特征中获得时序有关的语义信息。
29.根据权利要求28所述的设备,其中,对于每个文档中的实体项,时间特征包括:文档的数量相对于时间的函数。
30.根据权利要求29所述的设备,其中,对于每个文档中的实体项,所获得的在预定时间点处的时序有关的语义信息包括以下中的至少一个:发展时刻实体项、成熟时刻实体项和衰退时刻实体项; 其中, 在文档的数量在预定时间点处显著地增大的情况下,获得发展时刻实体项; 在文档的数量在预定时间点处稳定的情况下,获得成熟时刻实体项;或者 在文档的数量在预定时间点处显著地减少的情况下,获得衰退时刻实体项。
31.根据权利要求20到23中的任何一个所述的设备,其中序列关系结构被表征为树形拓扑图,并且单元d)还包括: 单元d21),被配置为通过使用最大生成树方法来创建树形拓扑图; 其中,所述树形拓扑图包括多个顶点和多条边,每条边连接所述多个顶点中的两个顶点,其中所述树形拓扑图的所述多个顶点分别表示所映射的实体项,并且所述树形拓扑图的每条边表示由所连接的顶点表示的所映射的实体项之间的相似度,并且指出所映射的实体项之间的关系。
32.根据权利要求31所述的设备,其中单元d)还包括: 单元d22),被配置为从树形拓扑图中提取序列特征;以及 单元d23),被配置为从所提取的序列特征中获得序列有关的语义信息。
33.根据权利要求32所述的设备,其中,对于每个文档中的实体项,序列特征包括:表示该文档中的实体项的顶点的入度值、该顶点的出度值、或者该顶点的入度值和出度值之间的差。
34.根据权利要求33所述的设备,其中,对于每个文档中的实体项,所获得的序列有关的语义信息包括以下中的至少一个:更新实体项、可选或特殊实体项、始祖实体项以及集成实体项; 其中, 在入度值低于第一阈值的情况下,获得更新实体项; 在出度值低于第二阈值的情况下,获得可选或特殊实体项; 在出度值高于入度值的情况下,获得始祖实体项;以及 在出度值低于入度值的情况下,获得集成实体项。
35.根据权利要求31到34中的任何一个所述的设备,其中单元d)还包括: 单元d24),被配置为从树形拓扑图中提取时间特征; 单元d25),被配置为从所提取的时间特征中获得时序有关的语义信息。
36.根据权利要求35所述的设备,`其中,对于每个文档中的实体项,时间特征包括:每个文档的时间、以及树形拓扑图的顶点的出度值。
37.根据权利要求36所述的设备,其中,对于每个文档中的实体项,所获得的在继基准时间点之后的预定时段期间的时序有关的语义信息包括以下中的至少一个:成熟时段实体项、发展时段实体项和衰退时段实体项; 其中, 在基准时间点处的文档的出度值等于在基准时间点之前的时间点处的文档的出度值的情况下,获得成熟时段实体项; 在基准时间点处的文档的出度值高于在基准时间点之前的时间点处的文档的出度值的情况下,获得发展时段实体项;或者 在基准时间点处的文档的出度值低于在基准时间点之前的时间点处的文档的出度值的情况下,获得衰退时段实体项。
38.根据权利要求20所述的设备,其中系列文档包括: 产品手册,其中系列指的是产品的系列; 会议记录,其中系列指的是具有类似主题的会议的时序; 操作指南,其中系列指的是产品的系列; 说明书,其中系列指的是更新的版本的系列;或者 技术报告,其中系列指的是具有类似技术细节的报告的时序。
【文档编号】G06F17/30GK103729381SQ201210392483
【公开日】2014年4月16日 申请日期:2012年10月16日 优先权日:2012年10月16日
【发明者】黄耀海, 李荣军, 胡钦谙 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1