基于时序关系图的实体分类设备和方法

文档序号:6613284阅读:204来源:国知局
专利名称:基于时序关系图的实体分类设备和方法
技术领域
本发明涉及数据挖掘领域,更具体地,涉及时间序列关系挖掘。 根据本发明,提出了一种基于时序关系图的实体分类设备和方法。
背景技术
随着全球化进程的飞速发展,公司之间形成了比以往更加错综复 杂的商业联系,同时一个公司的发展进程要比以往迅速很多,而发展 进程中其他有商业联系的公司对它的发展起着至关重要的作用。
另一方面,随着信息化的发展,商业新闻大量地出现在互联网等 媒介上。这些商业新闻中包含了大量的公司间商业关系的信息。以往 到现在积累下来的所有商业新闻几乎可以涵盖所有产业中的所有商业 联系的信息。这些信息形成了一个时序性的商业信息过程。如果商业 咨询行业能从中得到这些信息,从这些信息中建立起时序性的商业信 息过程,并推导出一些对用户(用户主要是一些公司咨询者)有用的 产业及子产业关系以及一些对应的商业性事件,那么这将是一个非常 有前景的技术。
商业关系随着时间的发展会形成变化的网络,对这个变化的网络 建立时序模型之后,如何从中找到产业结构(即包含多少个产业,每 个产业包含有多少子产业,每个产业和子产业中代表性的企业是谁) 是一个难题。
从商业关系推广到一般关系(如,社会关系),给定一个时序的 关系图之后,如何从中找出哪些节点属于哪个类,每个类又可以如何 分为子类,并从中找出每个类和子类的代表也是一个难题。
在已有的方法中,包括对基于连接图的关系进行聚类的技术,如
参考文献C. H. Ding, X. He, H. Zha, M. Gu, and H. D. Simon.A min-max cut algorithm for graph partitioning and data clustering. In Proceedings of IEEE ICDM 2001, pages 107-114, 2001.,参考文献J. Shi and J. Malik. Normalized cut and image segmentation. IEEE Trans, on Pattern Analysis and Machine Intelligence, 22(8) :888 - 905, August 2000.。但是,该技术仅 应用于简单的图形,没有提及如何针对根据时间变化商业关系而建立 的图进行聚类的方法。
而在商业性事件检测中,有根据时间序列检测重要的节点的技术 (如,日本专利JP 2005-352817),但是并未提出关于在将时序图进 行聚类划分为产业后、如何进行相应的事件检测的相应技术。

发明内容
本发明针对随时间变化的关系建立时序关系图,对时序关系图进 行基于图的切分的聚类,然后进行后处理,以得到最终完成分类的节 点与相应的关系。
同时,在将本发明应用于商业领域后,进一步根据分类号的节点 与关系对商业领域内的公司和关系做产业划分,最后经过产业内的商 业事件检测得到商业性事件。
为了实现上述目的,本发明提出了一种基于时序关系图的实体分 类设备,在指定时间段内的每一个时序关系图中,节点表示实体,节 点间的连线表示相应时间单位上的实体间关系,所述基于时序关系图
的实体分类设备包括时序关系图聚类装置,用于对每一个时序关系
图中的节点进行聚类,生成时序的相应时间单位上的节点聚类结果;
以及聚类结果后处理装置,用于对时序关系图聚类装置所生成的所有 时序的相应时间单位上的节点聚类结果进行后处理,生成最终分类完 成的节点。
优选地,所述基于时序关系图的实体分类设备还包括时序关系 图生成装置,用于对输入的关系实例进行处理,生成相应的时序关系 图。
优选地,所述时序关系图生成装置包括时序关系生成单元,用于对关系实例计算权值,解决内部冲突,对没有出现的时间进行插值,
得到时序的关系;关系综合单元,用于对所述时序关系生成单元所生 成的时序的实体间各种类型关系进行综合,得到两实体间的时序综合 关系;时序关系图创建单元,用于针对指定时间段内的每一个时间单 位中的关系,创建一个关系图,从而形成时序关系图。
优选地,所述时序关系图聚类装置采用分级聚类方法,对每一个 时间单位上的时序关系图中的节点进行聚类。
优选地,所述聚类结果后处理装置包括聚类结果映射单元,用 于对由时序关系图聚类装置所生成的所有时序的相应时间单位上的节 点聚类结果中的每一个类别进行映射,得到合并后的节点分类结构; 节点出现次数统计单元,用于根据所述聚类结果映射单元所生成的节 点分类结构和每一个节点聚类结果与所述节点分类结构的映射关系, 针对合并后的节点分类结构中的每一个类别,统计各个节点在其中的 出现次数;以及节点分类单元,用于根据所述节点出现次数统计单元 的统计结果,将每一个节点分配到合并后的节点分类结构中的相应类 别中。
优选地,所述聚类结果后处理装置还生成合并后的节点聚类结 果,以及所述基于时序关系图的实体分类设备还包括事件检测装置, 用于根据合并后的节点聚类结果,对实体间关系进行事件检测,输出 事件结果。
优选地,所述实体为公司,所述关系为商业关系,以及所述类别 为产业。
为了实现上述目的,本发明还提出了一种基于时序关系图的实体 分类方法,在指定时间段内的每一个时序关系图中,节点表示实体, 节点间的连线表示相应时间单位上的实体间关系,所述基于时序关系 图的实体分类方法包括时序关系图聚类步骤,对每一个时序关系图 中的节点进行聚类,生成时序的相应时间单位上的节点聚类结果;以 及聚类结果后处理步骤,对在时序关系图聚类步骤中生成的所有时序 的相应时间单位上的节点聚类结果进行后处理,生成最终分类完成的 节点。
10优选地,所述基于时序关系图的实体分类方法还包括时序关系 图生成步骤,对输入的关系实例进行处理,生成相应的时序关系图。
优选地,所述时序关系图生成步骤包括时序关系生成子步骤, 对关系实例计算权值,解决内部冲突,对没有出现的时间进行插值, 得到时序的关系;关系综合子步骤,对在所述时序关系生成子步骤中 生成的时序的实体间各种类型关系进行综合,得到两实体间的时序综 合关系;时序关系图创建子步骤,针对指定时间段内的每一个时间单 位中的关系,创建一个关系图,从而形成时序关系图。
优选地,在所述时序关系图聚类步骤中,采用分级聚类方法,对 每一个时间单位上的时序关系图中的节点进行聚类。
优选地,所述聚类结果后处理步骤包括聚类结果映射子步骤, 对在时序关系图聚类步骤中生成的所有时序的相应时间单位上的节点 聚类结果中的每一个类别进行映射,得到合并后的节点分类结构;节 点出现次数统计子步骤,根据在所述聚类结果映射子步骤中生成的节 点分类结构和每一个节点聚类结果与所述节点分类结构的映射关系, 针对合并后的节点分类结构中的每一个类别,统计各个节点在其中的 出现次数;以及节点分类子步骤,根据所述节点出现次数统计子步骤 中的统计结果,将每一个节点分配到合并后的节点分类结构中的相应 类别中。
优选地,在所述聚类结果后处理步骤中,还生成合并后的节点聚 类结果,以及所述基于时序关系图的实体分类方法还包括事件检测 步骤,根据合并后的节点聚类结果,对实体间关系进行事件检测,输 出事件结果。
优选地,所述实体为公司,所述关系为商业关系,以及所述类别 为产业。
根据本发明,有效地解决了以下技术问题
从随时间变化的关系实例中建立时序关系,对节点进行聚类;以

根据时序性的商业关系和对其进行聚类的结果,进行商业性事件 检测。


通过下面结合

本发明的优选实施例,将使本发明的上述 及其它目的、特征和优点更加清楚,其中
图la示出了时序关系分类与分析系统的总体方框图lb示出了时序商业关系分类与分析系统的总体方框图2a示出了时序关系图生成模块2的方框图和数据流程图2b 2e示出了时序关系图生成模块2在处理过程中所产生的
时序详细关系图示和时序综合关系图(此后,将时序综合关系图称为 "时序关系图"),其中图2b和2c为z,时刻的详细关系图示和综合关
系图,图2d和2e为/2时刻的详细关系图示和综合关系图; 图3a示出了一个聚类结果的例子;
图3b和3c分别示出了与图2c相对应的z,时刻的聚类结果和与图
2e相对应的^时刻的聚类结果;
图4a示出了聚类结果后处理模块4的方框图和数据流程图; 图4b示出了与图3b和3c相对应的合并后的总的聚类结果; 图5示出了基于产业的商业性事件检测模块6的方框图和数据流
程图6示出了商业性事件检测单元63的方框图和数据流程图; 图7示出了代理公司案号IA078650中的图3所示的时序公司关 系提取子模块22"的方框图和数据流程图。
具体实施例方式
下面参照附图对本发明的优选实施例进行详细说明,在描述过程 中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的 理解造成混淆。此外,在以下的描述中,以公司作为实体的示例、以 商业关系作为关系的示例,对本发明的、基于时序关系图的实体分类 设备和方法进行详细的描述。但是,应当注意的是,本发明中所提及 的实体并不局限于公司,也可以表示自然人、国家或者产品等实体, 相应地,本发明中所提及的关系并不局限于商业关系,也可以应用于人际关系、国家关系等各种其他社会关系上。 系统概览
图la示出了根据本发明第一实施例的、时序关系分类与分析系 统的总体方框图。符号l表示输入的关系实例。时序关系图生成模块 2对输入的关系实例1进行处理,生成相应的时序关系图。时序关系 图聚类模块3对时序关系图生成模块2所生成的时序关系图进行聚类, 生成时序上每个时间单位上的聚类结果。聚类结果后处理模块4对时 序关系图聚类模块3所生成的聚类结果进行后处理,生成时序的和总 聚类结果,并生成最终分类完成的节点与关系。
模块详细描述
关系实例1是指两个实体之间具有某种关系,有如下的数据结构-
_实体A_
实体B
— 关系类型
— 时间点(如日期)
来源(可选)
表1.关系实例数据结构例子
例如,在商业领域中,实体可以表示公司,其中的关系类型可以 有竞争、合作、控股、供货、合并、并购等。在以下的数学表达中, 用/ /U5,义,0来表示一个关系实例,表示实体A和实体B在时间点r'有 X关系实例。
时序关系图生成模块2的方框图和数据流程图如图2a所示。 具体地,时序关系生成单元21对关系实例计算权值,解决内部 冲突,对没有出现的时间做插值得到时序的关系。这些步骤可以用已 有的方法来解决,如在代理公司案号IA078650中具体描述的商业关系 挖掘设备和方法,但是,需要注意的是,商业关系只是本发明中所涉
13及的关系的一个实例,而不应因此限制本发明的范围。最终得到的是 时序的实体间各种类型的带权值的关系。即在一段给定的时间单位里, 两个实体间存在时序的某种类型关系及其权值,权值是指在此时间单 位内有这种关系的可信度。其数据结构的一个例子如表2所示
_公司A_
公司B
— 关系类型
{(月,权值),(月,权值), }
表2.时序关系生成单元21得到的时序关系数据结构例子
用",w(,)来表示表示实体A和实体B在时间单位t内对X商业关 系的权值。
例如,图2b和2d示出了时序关系生成单元21所产生的时序详 细关系的图示,其中图2b为^时刻的详细关系图示,图2d为^时刻的 详细关系图示。具体地,在图2b中,示出了实体A和实体B在卩时刻 具有关系"Cooperation"和"Competition";实体A和实体C在r,时 刻具有关系"Cooperation"和"Competition";实体A和实体D在,, 时刻具有关系"Competition";实体B和实体D在z,时刻具有关系
"Competition ";以及实体C和实体D在^时刻具有关系
"Co即etition"。而在图2d中,示出了实体A和实体B在/2时刻具有 关系"Cooperation"和"Competition";实体A和实体C在,2时刻具 有关系"Competition";实体A和实体D在^时刻具有关系
"Competition";实体B和实体D在^时刻具有关系"Competition"; 以及实体C和实体D在/2时刻具有关系"Cooperation"和
"Competition ,,。
关系综合单元22对上述时序的实体间各种类型关系进行综合, 得到时序的两个实体间总的关系。用&A)来表示两个实体间总的关 系。这一总的关系是无方向的,即^^) = &^)。例如,公司间总的关 系表达了公司之间的联系紧密度,紧密度越大的两个公司更有可能属 于一个行业或子行业。这一综合计算过程可以采用多种求和方法或加权求和方法对各种类型关系累加,其计算公示如下:
其中/,()是对应于关系X的任意的单调增函数或单调减函数。g()是 任意的单调增函数,其作用是标准化或归一化最终权值。 上述函数形式的一个例子如下
其中w(Z)是各个关系的权值,采用经验值或釆用统计的办法得到。例 如,统计的办法可以是统计某种关系出现的概率,作为权值。 另一个例子如下
时序关系图创建单元23对时序范围里每一个时间单位内的关系 都创建一个图。图中的节点是实体,节点间的连线表示两实体间的时 序综合关系,每条连线的权值为两个实体间的时序综合关系的取值。 这样对每一个时间单位就生成了一个带权值的无向图。
例如,图2c和2e示出了关系综合单元22和时序关系图创建单 元23所产生的时序关系图,其中图2c为/,时刻的综合关系图,图2e 为G时刻的综合关系图。
时序关系图聚类模块3采用分级聚类方法,对每一个时间单位上 的时序关系图进行聚类。例如,可以采用己有的基于图的聚类方法对 每一个时间单位上的图做基于图二分切分的聚类。己有的方法包括参 考文献C. H. Ding, X. He, H. Zha, M. Gu, and H. D. Simon. A min-max cut algorithm for graph partitioning and data clustering. In Proceedings of IEEE ICDM 2001, pages 107- 114, 2001.和参 考文献 J. Shi and J". Malik. Normalized cut and imagesegmentation. IEEE Trans, on Pattern Analysis and Machine Intelligence, 22 (8) :888 - 905, August 2000.。聚类结果是多级 的二分结构,图3a示出了一个聚类结果的例子。
在图3a给出的聚类结果例子中,最细的分类结果为4类ABC为 一类,DE为一类,F为一类,G为一类;上一层的分类结果为3类, ABC为一类,DEF为一类,G为一类。例如,在商业关系上,更细的级 别表现为子行业,而更高的级别则表现为行业。
图3b和3c分别示出了与图2c相对应的/,时刻的聚类结果和与图 2e相对应的^时刻的聚类结果。具体地,在图3b中,示出了在卩时刻, 实体A、 B和C属于子类2,实体D属于子类3,且实体A D都属于类 1。而在图3c中,示出了在^时刻,实体A和B属于子类2,实体D 和C属于子类3,且实体A D都属于类1。
聚类结果后处理模块4对时序关系图聚类模块3得到的时序的聚 类结果进行后处理。对给定时间范围内的所有时间单位的聚类结果进 行综合处理,得到给定时间范围内的聚类结果。
具体地,图4a示出了聚类结果后处理模块4的方框图和数据流 程图。
对于给定时间范围内的每一个时间单位,都会有一个如图3的聚 类结果,这样共有n个聚类结果,聚类结果后处理模块4就是对这n
个聚类结果进行合并,生成一个总的聚类结果。
聚类结果映射单元41对n个聚类图中的每一个类别做映射,可 以采用 Kuhn-Munkres算法(L. Lovasz and M. Plummer. Matching Theory),最终得到n个图合并而成的分类结构。
节点出现次数统计单元42根据聚类结果映射单元41生成的分类 结构和每一个聚类图与它的映射关系,统计各个节点在合并后的分类 结构中的出现次数。
节点分类单元43根据节点出现次数统计单元42的统计结果,将 每一个节点分配到合并后的分类结构中的相应类别中。
图4b示出了与图3b和3c相对应的合并后的总的聚类结果。参考图4b,该合并后的总的聚类结果表明在时间段/1+/2期间,实体A
和B属于子类2-1,实体C属于子类2-2,且实体A、 B和C都属于子 类2;实体D属于子类3;且实体A D都属于类1。
商业关系分类与分析实例
图lb示出了时序商业关系分类与分析系统的总体方框图。在图 lb中,给出了将本发明应用于商业关系的实例。与图la的通用时序 关系分类与分析系统相比,图lb所示的系统仅应用于商业关系的分类 和分析,模块1 4与图la中相同,为了简明起见,这里省略了不必 要的重复描述。符号6表示基于产业的商业性事件检测模块,用于根 据聚类结果,对时序商业关系做商业事件的检测,最终输出商业性事 件结果7。
商业性事件7是指从上述数据中以行业分析的角度得到的高层次 的且对用户或者其他公司有启发意义的事件。例如,公司A从1998 年1月到2001年1月是本行业的核心公司;公司B从1999年1月到 2000年1月在本行业内发展迅速等。
图5示出了基于产业的商业性事件检测模块6的方框图和数据流 程图。
产业归类单元61对于每个时间单位,对所有关系和节点做产业 划分,按照某个产业细分阈值选取时序聚类结果,针对每一类(每一 个行业),对时序关系图中的所有节点和连线进行归类,从而将所有公 司和商业关系归类到各个产业中。
公司重要度计算单元62对每个时间单位内的每个产业,计算各
个公司在该产业内的重要度。可以采用已有算法,如Page Rank方法 或HITS算法,或任何可行的办法。
商业性事件检测单元63对每个时间单位内的每个产业,只选择 本行业内的公司和商业关系,结合公司重要度,进行商业性事件检测。
具体地,图6示出了商业性事件检测单元63的方框图和数据流 程图。商业性事件检测单元63的输入包括由产业归类单元61生成 的时序公司产业分类和时序公司间商业关系分类、以及由公司重要度
17计算单元62生成的产业内时序公司商业重要度。产业选取子单元631 选取产业归类单元61所生成的时序公司产业分类和时序公司间商业 关系分类中的指定产业内的公司和商业关系,基于规则的事件提取子 单元633利用预定义规则632去检测所有的输入数据并输出与规则匹 配的商业性事件。预定义规则632可以由人工预先定义。 一些预定义 规则632的例子如下
用S力)表示在某产业内公司A在t时的重要度,
如果公司A在某产业内的商业重要度^(/)>77 1,/。^^1,那么A 在某产业内从/。到^是一个关键公司;
对于某产业内的公司A,如果"'):"。)〉rv那么A在某产业
6 — ~
内从"到^发展迅速;
对于某产业内的公司A,如果>7V那么A在某产业
Wo
内从/。到q出现问题;
对于某产业内的公司a和b,如果"):")〉rv那么a和
B从"到^关系发展迅速;
对于某产业内的公司A和B,如果""")〉y^,那么A和
B从z。到^关系恶化。
至此已经结合优选实施例对本发明进行了描述。应该理解,本领 域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其 它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施 例,而应由所附权利要求所限定。附件
*代理公司案号IA078650中的相关内容(该申请文件中的图3 及相关描述,这里,为了区分附图标记的需要,在附件部分中的附图 标记均添加(")以示区别)
时序公司关系提取子模块22"
图7示出了时序公司关系提取子模块22"的方框图和数据流程图。 公司商业关系实例强度计算单元221"根据每一个公司商业关系 实例WGiAZ,/'),计算其对应时间单位t内的公司商业关系A, B, X
的强度S/(AAU)。
在时间单位t之内,公司商业关系实例A, B, X可能出现多次,
例如不同新闻网站会提到,在t内可能有多次时间都提到。我们用C,来
表示时间单位t内公司商业关系实例出现的次数,那么S/(AAU)可
以用下式计算
<formula>formula see original document page 19</formula>
其中",是对应的第i个实例,ms(心是这个实例中新闻的匹配得分。实 际上强度就是所有时间单位t内的实例得分总和。
时序插值单元222"对一段指定时间内没有公司商业关系实例出 现时的公司关系利用插值计算其权值,最终在指定时间段内任何公司 之间的任何持续性关系在任何时间都有权值。持续性的公司关系是指 关系会持续一段时间,而不是一次性的事件性的关系,例如竞争、合
作、控股、供货等都是持续性的商业关系。例如在2000年6月没有 出现公司A和公司B之间的竞争关系,但是在之前2000年1月出现了 这种关系,那么就利用之前的这种关系的权值来插值求得2000年6 月的权值。例如,求插值的方法如下
假设某两公司的某种关系i /第一次发生在/。,最后一次发生在^。 为了计算/J寸的公司关系强度,假设在/ 之前的一次实例发生在 ^,在其之后的一次实例发生在^,那么a:
《m )'
-"^1-
~ _ " 一 "
<6
事件性商业关系以及冲突处理单元223"对事件性的商业关系进 行处理。事件性的商业关系是指这种商业关系是一次发生的事件而不 是持续性的商业关系,例如合并、并购都是事件性的商业关系,而竞 争、合作、控股、供货是持续性的商业关系。处理过程包括本身这种 关系权值的处理,发生冲突时的处理,对其他有影响的关系的处理。
例如,处理方法如下
首先,解决冲突问题。冲突问题的解决办法如下
时间冲突理论上事件性关系应该只发生-
但是互联网上'

息不完全可靠,因此可能会发生冲突。如果发生冲突,即同时存在 i /(AA义,0, 那么调整新的公司关系强度为
方向冲突专门针对于有方向性的事件性关系的处理,如并购。 这种关系对两个公司来讲只可能有一个方向是正确的。在同时存在
、fi,Y 0"l ) 2 (〖2 )

^'SJ^/l J=、力,
(0
5
否则

然后,解决对其他商业关系的影响。如果x是合并或并购关系而
(0>77/,其中77/是一个预定阈值,那么A和B在f,之后合并为
一个公司,A和B之间不再保存持续性关系,合并后公司A (B)和其 他公司的关系权值按如下调整在完成上述处理之后,事件性商业关系以及冲突处理单元223" 输出带权值的时序公司商业关系32"。
公司间时序综合商业联系度计算单元224"(在代理公司案号 IA078649的发明中,无需计算时序的综合商业联系度,实体间时序综 合关系的计算将由关系综合单元22完成)计算两个公司之间时序的综 合性的商业联系度以及平均的总商业联系度。具体地,对各种关系权 值做加权平均,得到时序的综合商业联系度,即
、",)=1>(李J
其中vK幻是各个关系的权值,采用经验值或采用统计的办法得到。统 计的办法可以是采用统计某种关系在每个工业界之内出现的概率作为 权值。之后对所有时间取平均得到总商业联系度。在完成上述处理之 后,公司间时序综合商业联系度计算单元224"输出公司间时序综合商
业联系度33"。
权利要求
1. 一种基于时序关系图的实体分类设备,在指定时间段内的每一个时序关系图中,节点表示实体,节点间的连线表示相应时间单位上的实体间关系,所述基于时序关系图的实体分类设备包括时序关系图聚类装置,用于对每一个时序关系图中的节点进行聚类,生成时序的相应时间单位上的节点聚类结果;以及聚类结果后处理装置,用于对时序关系图聚类装置所生成的所有时序的相应时间单位上的节点聚类结果进行后处理,生成最终分类完成的节点。
2. 根据权利要求l所述的基于时序关系图的实体分类设备,其 特征在于还包括时序关系图生成装置,用于对输入的关系实例进行处理,生成相 应的时序关系图。
3. 根据权利要求2所述的基于时序关系图的实体分类设备,其特征在于所述时序关系图生成装置包括时序关系生成单元,用于对关系实例计算权值,解决内部冲突,对没有出现的时间进行插值,得到时序的关系;关系综合单元,用于对所述时序关系生成单元所生成的时序的实体间各种类型关系进行综合,得到两实体间的时序综合关系;时序关系图创建单元,用于针对指定时间段内的每一个时间单位 中的关系,创建一个关系图,从而形成时序关系图。
4. 根据权利要求3所述的基于时序关系图的实体分类设备,其 特征在于所述关系综合单元所生成的两个实体间的时序综合关系是无 方向的。
5. 根据权利要求3或4所述的基于时序关系图的实体分类设 备,其特征在于在所述时序关系图创建单元所创建的关系图中,以节 点表示实体,以节点间的连线表示两实体间的时序综合关系,每条连 线的权值为两个实体间的时序综合关系的取值。
6. 根据权利要求3 5之一所述的基于时序关系图的实体分类 设备,其特征在于所述时序关系图生成装置针对每一个时间单位,生 成一个带权值的无向图。
7. 根据权利要求1所述的基于时序关系图的实体分类设备,其 特征在于所述时序关系图聚类装置采用分级聚类方法,对每一个时间 单位上的时序关系图中的节点进行聚类。
8. 根据权利要求1所述的基于时序关系图的实体分类设备,其特征在于所述聚类结果后处理装置包括聚类结果映射单元,用于对由时序关系图聚类装置所生成的所有 时序的相应时间单位上的节点聚类结果中的每一个类别进行映射,得到合并后的节点分类结构;节点出现次数统计单元,用于根据所述聚类结果映射单元所生成 的节点分类结构和每一个节点聚类结果与所述节点分类结构的映射关 系,针对合并后的节点分类结构中的每一个类别,统计各个节点在其 中的出现次数;以及节点分类单元,用于根据所述节点出现次数统计单元的统计结 果,将每一个节点分配到合并后的节点分类结构中的相应类别中。
9. 根据权利要求8所述的基于时序关系图的实体分类设备,其 特征在于所述聚类结果映射单元采用Kuhn-Munkres算法进行所述类 别映射。
10. 根据权利要求1 9之一所述的基于时序关系图的实体分类 设备,其特征在于所述聚类结果后处理装置还生成合并后的节点聚类 结果,以及所述基于时序关系图的实体分类设备还包括 事件检测装置,用于根据合并后的节点聚类结果,对实体间关系 进行事件检测,输出事件结果。
11. 根据权利要求10所述的基于时序关系图的实体分类设备,其特征在于所述事件检测装置包括类别归类单元,用于针对每个时间单位,对所有实体和关系进行 类别划分,按照预定的类别细分阈值,选取时序的相应时间单位上的节点聚类结果,针对所选取的节点聚类结果中的每一类别,对所述时 序关系图中的所有节点和连线进行归类,从而将所有实体和关系归类到各个类别中;实体重要度计算单元,用于针对每个时间单位内的每个类别,计 算各个实体在该类别内的时序实体重要度;以及事件检测单元,用于针对每个时间单位内的每个类别,选择本类 别内的实体和关系,并结合时序实体重要度,进行事件检测。
12. 根据权利要求11所述的基于时序关系图的实体分类设备, 其特征在于所述实体重要度计算单元采用Page Rank方法或HITS算法来计算实体重要度。
13. 根据权利要求11或12所述的基于时序关系图的实体分类设备,其特征在于所述事件检测单元包括类别选取子单元,用于选取所述类别归类单元所生成的时序实体 和关系分类中的指定类别内的实体和关系;以及基于规则的事件提取子单元,用于利用预定义规则、所述类别选 取子单元的选取结果、由所述实体重要度计算单元生成的各类别内的 时序实体重要度,检测并输出与所述预定义规则匹配的事件。
14. 根据权利要求1 13之一所述的基于时序关系图的实体分 类设备,其特征在于所述实体为公司,所述关系为商业关系,以及所 述类别为产业。
15. —种基于时序关系图的实体分类方法,在指定时间段内的 每一个时序关系图中,节点表示实体,节点间的连线表示相应时间单 位上的实体间关系,所述基于时序关系图的实体分类方法包括时序关系图聚类步骤,对每一个时序关系图中的节点进行聚类, 生成时序的相应时间单位上的节点聚类结果;以及聚类结果后处理步骤,对在时序关系图聚类步骤中生成的所有时 序的相应时间单位上的节点聚类结果进行后处理,生成最终分类完成 的节点。
16. 根据权利要求15所述的基于时序关系图的实体分类方法,其特征在于还包括时序关系图生成步骤,对输入的关系实例进行处理,生成相应的 时序关系图。
17. 根据权利要求16所述的基于时序关系图的实体分类方法,其特征在于所述时序关系图生成步骤包括时序关系生成子步骤,对关系实例计算权值,解决内部冲突,对 没有出现的时间进行插值,得到时序的关系;关系综合子步骤,对在所述时序关系生成子步骤中生成的时序的 实体间各种类型关系进行综合,得到两实体间的时序综合关系;时序关系图创建子步骤,针对指定时间段内的每一个时间单位中 的关系,创建一个关系图,从而形成时序关系图。
18. 根据权利要求17所述的基于时序关系图的实体分类方法,其特征在于在所述关系综合子步骤中生成的两个实体间的时序综合关 系是无方向的。
19. 根据权利要求17或18所述的基于时序关系图的实体分类方 法,其特征在于在所述时序关系图创建子步骤中创建的关系图中,以 节点表示实体,以节点间的连线表示两实体间的时序综合关系,每条 连线的权值为两个实体间的时序综合关系的取值。
20. 根据权利要求17 19之一所述的基于时序关系图的实体分 类方法,其特征在于在所述时序关系图生成步骤中,针对每一个时间 单位,生成一个带权值的无向图。
21. 根据权利要求15所述的基于时序关系图的实体分类方法, 其特征在于在所述时序关系图聚类步骤中,采用分级聚类方法,对每 一个时间单位上的时序关系图中的节点进行聚类。
22. 根据权利要求15所述的基于时序关系图的实体分类方法, 其特征在于所述聚类结果后处理步骤包括聚类结果映射子步骤,对在时序关系图聚类步骤中生成的所有时 序的相应时间单位上的节点聚类结果中的每一个类别进行映射,得到 合并后的节点分类结构;节点出现次数统计子步骤,根据在所述聚类结果映射子步骤中生 成的节点分类结构和每一个节点聚类结果与所述节点分类结构的映射关系,针对合并后的节点分类结构中的每一个类别,统计各个节点在其中的出现次数;以及节点分类子步骤,根据所述节点出现次数统计子步骤中的统计结 果,将每一个节点分配到合并后的节点分类结构中的相应类别中。
23. 根据权利要求22所述的基于时序关系图的实体分类方法, 其特征在于在所述聚类结果映射子步骤中,采用Kuhn-Munkres算法进 行所述类别映射。
24. 根据权利要求15 23之一所述的基于时序关系图的实体分 类方法,其特征在于在所述聚类结果后处理步骤中,还生成合并后的 节点聚类结果,以及所述基于时序关系图的实体分类方法还包括 事件检测步骤,根据合并后的节点聚类结果,对实体间关系进行 事件检测,输出事件结果。
25. 根据权利要求24所述的基于时序关系图的实体分类方法, 其特征在于所述事件检测步骤包括类别归类子步骤,针对每个时间单位,对所有实体和关系进行类 别划分,按煦预定的类别细分阈值,选取时序的相应时间单位上的节 点聚类结果,针对所选取的节点聚类结果中的每一类别,对所述时序 关系图中的所有节点和连线进行归类,从而将所有实体和关系归类到 各个类别中;实体重要度计算子步骤,针对每个时间单位内的每个类别,计算 各个实体在该类别内的时序实体重要度;以及事件检测子步骤,针对每个时间单位内的每个类别,选择本类别 内的实体和关系,并结合时序实体重要度,进行事件检测。
26. 根据权利要求25所述的基于时序关系图的实体分类方法, 其特征在于在所述实体重要度计算子步骤中,采用Page Rank方法或 HITS算法来计算实体重要度。
27. 根据权利要求25或26所述的基于时序关系图的实体分类方 法,其特征在于所述事件检测子步骤包括类别选取子步骤,选取在所述类别归类子步骤中生成的时序实体和关系分类中的指定类别内的实体和关系;以及基于规则的事件提取子步骤,利用预定义规则、所述类别选取子 步骤中的选取结果、在所述实体重要度计算子步骤中生成的各类别内 的时序实体重要度,检测并输出与所述预定义规则匹配的事件。
28.根据权利要求15 27之一所述的基于时序关系图的实体分 类方法,其特征在于所述实体为公司,所述关系为商业关系,以及所 述类别为产业。
全文摘要
本发明提出了一种基于时序关系图的实体分类设备和方法。在指定时间段内的每一个时序关系图中,节点表示实体,节点间的连线表示相应时间单位上的实体间关系。本发明的基于时序关系图的实体分类设备包括时序关系图聚类装置,用于对每一个时序关系图中的节点进行聚类,生成时序的相应时间单位上的节点聚类结果;以及聚类结果后处理装置,用于对时序关系图聚类装置所生成的所有时序的相应时间单位上的节点聚类结果进行后处理,生成最终分类完成的节点与关系。
文档编号G06F19/00GK101425066SQ20071016920
公开日2009年5月6日 申请日期2007年11月2日 优先权日2007年11月2日
发明者福岛俊一, 胡长建, 许荔秦 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1