一种基于丰富本体的多文档挖掘灾难管理方法

文档序号:9810504阅读:162来源:国知局
一种基于丰富本体的多文档挖掘灾难管理方法
【技术领域】
[0001] 本发明属于数据挖掘技术领域,具体涉及一种基于丰富本体进行灾难管理的方 法。
【背景技术】
[0002] 灾难管理是一个新兴技术领域,在该领域中,一些战略性的管理过程将被运用,以 保护人类的关键资源免受灾难威胁。现实中,大量关于灾难的报道和资讯会以文档的形式 描述,而专家则期望能从这些信息中概括出灾难的发展趋势、公共基础设施的运作情况或 家园重建的进程。专家提供的这些信息将可以给人类在再次面对灾难时提供很大的帮助。
[0003] 但是巨大的信息量使得对信息的人工处理不再可行,数据挖掘技术的日益成熟以 及其在灾难管理领域愈发广泛的应用逐渐改善这一状况。然而传统基于单个术语的挖掘效 率较低,本发明提出一种更具竞争力的基于丰富本体的多文档挖掘灾难管理方法。

【发明内容】

[0004] 本发明针对基于单个术语的挖掘效率较低的问题而提供一种基于丰富本体的多 文档挖掘灾难管理方法,该方法通过本体论的表现方法以挖掘灾难相关文档范围内语句的 关联性。
[0005] 实现本发明目的的技术方案为:一种基于丰富本体的多文档挖掘灾难管理方法, 该管理方法以丰富本体为基础,包括语句映射、子模型建模和语句筛选三个步骤, 1) 语句映射的步骤:将某一领域的文档划分成多条语句,将多条语句映射到相应本体 的层次结构中,经专家为该层次结构指定关键字用于语句映射; 2) 子模型建模的步骤:将子模块函数应用于贪心算法中,顺序地从给定语句集中选取 语句; 3) 语句筛选的步骤:采用贪心算法来从原始文档中提取长语句。
[0006] 本发明所述的语句当只和一个概念相关联,则将该语句映射到这一概念上;当语 句和多个概念相关联,则映射该语句到这些概念的最小祖先LCA上。
[0007] 本发明所述语句与指定给各个概念的关键字重叠度进行计算,所得结果作为度量 关联度的分数,然后选出分数最高的概念。
[0008] 本发明所述的子模函数为:设f为非递减函数,满足:
且S和T是E的子集,:给定文档集 D和预算B,通过使用子模函数生成一个满足预算B的文档集D,设预算B为词语的总个数, 定义文档上当前生成的概括的质量为:
和c2是两个概念,分别与ei和e2对应,- ei的意思是语句ei和概念是相关联的; 将查询q映射到本体层次结构中的某一概念上,然后定义质量函数为:
[0009] 本发明所述的两个概念的相关性由如下公式计算:
其中Q和C2是要被计算的概念,C。是Q和C 2在概念层 次结构中的最小公共父节点,P()表示一个随机选取的目标属于该概念的概率。
[0010] 本发明具有的优点在于:1、使用某一灾难本体的语义学概念来构建语句,而不是 使用大量词汇。从而可以更好地帮助用户决定是否需要在总结概括该灾难本体的时候采纳 本语句。2、提供一种通用框架,该框架基于隐藏在灾难相关文档语句集中的子模性,使用它 来指出概括总结时的不同问题,通过子模块属性,该框架能够处理多种灾难相关指标。
【附图说明】
[0011] 图1为本发明方法的框架。
【具体实施方式】
[0012] 下面结合附图对本方法做进一步地描述。
[0013] 图1给出了本方法的框架,由三部分组成,即语句映射、子模型建模和语句筛选。 语句映射是指,给定一个本体,建立语句到这一本体相应概念的映射;子模型建模是指为每 一条语句指定一个分数,用来体现他们对结果的总结概括的贡献度,本发明将多文档概括 按照最大预算问题来建模;语句筛选通过一个贪心算法选取贡献度最高的语句。每一部分 的【具体实施方式】如下: 1)语句映射 在灾难管理领域,本体为我们提供了丰富的概念性的、语义性的信息,帮助我们进行多 文档概括。语句映射首先将某一领域的文档划分成多条语句,并将它们映射到相应本体的 层次结构中,由专家为该层次结构指定关键字用于语句映射,整个映射过程按照如下两个 标准进行: 一、 如果语句只和一个概念相关联,则将该语句映射到这一概念上; 二、 如果语句和多个概念相关联,则映射该语句到这些概念的最小祖先(LCA,Least Common Ancestor)上。如果该LCA是该本体的最平凡概念,则将该语句映射到原始特定概 念。
[0014] 在这一过程中,语句与指定给各个概念的关键字重叠度将被计算出来,并作为度 量关联度的分数,之后选出最高的概念。由于本体的概念是经过选择的、有意义的,所有的 语句都能够被映射,这样我们就能得到一个拥有丰富实例的本体层次结构。
[0015] 2)子模型建模 1. 1.子模函数 在概括多文档过程中,我们将子模块函数应用于贪心算法中,来顺序地从给定语句集 中选取语句。
[0016] 定义1.设f为非递减函数,满足:
其中Kf,且S和T是E的子集,W 称f为子模函数。
[0017] 根据该定义,往一个较大集T中添加一个元素为f带来的增量,会小于等于往一个 较小集S中添加一个元素为f带来的增量。
[0018] 本发明中的最大预算问题描述如下:给定集合E,E中的元素被指派一个影响因子 和开销因子,这两者通过元素所述领域和一个预算B定义。问题的目标是找到E的一个子 集,该子集拥有最大的影响力且没有超出预算B。
[0019] 1.2.平凡概括 设预算B为词语的总个数。添加一个候选语句将会提高概括的质量同时也会增加开 销。定义文档上当前生成的概括的质量为:
在本函数中,ei和e2代表两个语句,(^和c2是两个概念,分别与ei和e2对应。- ei 的意思是语句ei和概念Cl是相关联的。两个概念的相关性由如下公式计算:
其中q和c2是要被计算的概念,c。是 Cl和c2在概 念层次结构中的最小公共父节点。P()表示一个随机选取的目标属于该概念的概率。
[0020] 相应地,定义添加一个候选语句带来的质量提升为:
1.3.基于查询的概括 将查询q映射到本体层次结构中的某一概念上,然后定义质量函数为:
3)语句筛选 我们使用贪心算法来从原始文档中提取重要语句。给定文档集D和预算B,该算法通过 使用子模函数生成一个满足B的D。算法每次选择一个较长的语句来进行结果的概括,因为 长语句有较大的可能包涵重要信息并带来较大的质量提高。
【主权项】
1. 一种基于丰富本体的多文档挖掘灾难管理方法,该管理方法W丰富本体为基础,包 括语句映射、子模型建模和语句筛选Η个步骤,其特征在于: 1) 语句映射的步骤;将某一领域的文档划分成多条语句,将多条语句映射到相应本体 的层次结构中,经专家为该层次结构指定关键字用于语句映射; 2) 子模型建模的步骤;将子模函数应用于贪必算法中,顺序地从给定语句集中选取语 句; 3) 语句筛选的步骤:采用贪必算法来从原始文档中提取长语句。2. 根据权利要求1所述的基于丰富本体的多文档挖掘灾难管理方法,其特征在于:所 述的语句当只和一个概念相关联,则将该语句映射到送一概念上;当语句和多个概念相关 联,则映射该语句到送些概念的最小祖先LCA上。3. 根据权利要求2所述的基于丰富本体的多文档挖掘灾难管理方法,其特征在于:所 述语句与指定给各个概念的关键字重叠度进行计算,所得结果作为度量关联度的分数,然 后选出分数最高的概念。4. 根据权利要求1所述的基于丰富本体的多文档挖掘灾难管 理方法,其特征在于:所述的子模函数为:设f为非递减函数,满足: 趴'。冰AT)'; /取.料},其中騰取且S和T是E的子集,爹擦娱罪给定文档集 D和预算B,通过使用子模函数生成一个满足预算B的文档集D,设预算B为词语的总个数, 定义文档上当前生成的概括的质量为:ei和θ2代表两个语句,Cl 和C2是两个概念,分别与ei和θ2对应,Cl 一 ei的意思是语句ei和概念Cl是相关联的; 将查询q映射到本体层次结构中的某一概念上,然后定义质量函数为:5. 根据权利要求4所述的基于丰富本体的多文档挖掘灾难管理方法,其特征在于:所 述的两个概念的相关性由如下公式计算:其中。和C2是要被计算的概念,C。是。和C2在概念层 次结构中的最小公共父节点,P()表示一个随机选取的目标属于该概念的概率。
【专利摘要】本发明涉及一种基于丰富本体的进行灾难管理的方法,该管理方法以丰富本体为基础,包括语句映射、子模型建模和语句筛选三个步骤,1)语句映射的步骤:将某一领域的文档划分成多条语句,将多条语句映射到相应本体的层次结构中,经专家为该层次结构指定关键字用于语句映射;2)子模型建模的步骤:将子模函数应用于贪心算法中,顺序地从给定语句集中选取语句;3)语句筛选的步骤:采用贪心算法来从原始文档中提取长语句。相比传统基于单个术语的挖掘效率较低,本发明提出的基于丰富本体的多文档挖掘灾难管理方法更具竞争力。
【IPC分类】G06F17/30, G06F17/27
【公开号】CN105573976
【申请号】CN201410521099
【发明人】李千目, 李涛, 刘浩, 徐建
【申请人】南京理工大学常熟研究院有限公司
【公开日】2016年5月11日
【申请日】2014年10月8日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1