基于领域知识模型的文本情报关联聚类汇集处理方法

文档序号:9911239阅读:890来源:国知局
基于领域知识模型的文本情报关联聚类汇集处理方法
【技术领域】
[0001] 本发明涉及主题内容的文本关联与分类领域,即采用计算机处理技术实现自动的 文本关联分析与聚类汇集处理。
【背景技术】
[0002] 文本情报信息分析是综合信息平台的重要组成部分,随着当前情报文本信息获取 的方式众多,文本情报来源日趋多样化、信息数据量逐渐庞大,给文本情报分析带来的难度 也越来越大,实现文本情报的高效分析和有效分析的途径之一就是要首先进行文本情报关 联与分类,将相关性高、关系紧密的文本情报聚合在一起分析。当前,文本情报分析的一般 步骤有:(1)多源异构文本情报转化为半结构化的文本。(2)针对文本格式的情报进行关联 聚类。(3)针对聚类后的情报文本进行统计归纳分析。其中,文本情报信息关联聚类过程面 临的新问题有: (1)传统情报文本关联方法通常把情报文本作为普通文本,按照普通领域的文本挖掘 技术来处理,并没有考虑情报分析领域中存在的非常重要的经验和先验知识,导致情报文 本关联结果与实际联系有较大偏差。情报领域知识通常具有重要的指导作用,情报领域中 的专有名词在情报文本关联聚类/分类任务中具有非常大的权重,特殊领域专有名词之间 的联系通常是特殊的,不具有普遍性,因此传统方法也无法关联出这种联系。
[0003] (2)传统文本关联方法通常以统计特征为基础,需要文本中包含有大量词汇,适合 处理长文本数据,因为所含的词汇量越大,一方面统计才具有意义,另一方面统计特征较 多,特征维数与样本维数不会相差太大,避免出现NP难问题。但情报文本通常属于短文本, 例如报道、动向报、简讯等,短文本包含的词汇量较少,词汇的统计特征便没有意义,情报文 本中有限的关键词/主题词/领域专有名词才具有重要价值。因此传统基于词汇统计特征的 方法并不适合处理文本情报。
[0004] (3)传统文本关联方法利用文本词汇特征进行关联计算通常没有考虑文档主题概 念层次上的关联关系,而情报分析中通常比较关心情报所描述的事件主题,需要依据情报 主题对情报文本进行聚类整编,因此传统方法并没有满足情报分析整编的需求。
[0005] 基于以上问题,通过引入情报领域知识和先验信息的指导,克服传统情报文本关 联方法关联结果偏差大,针对性弱的问题;通过有限的领域专有名词/关键词/主题词建立 模板进行主题匹配聚类的方法解决传统基于统计特征的方法需要大量词汇的问题;通过主 题图模型提取情报事件主题满足情报分析整编需求。

【发明内容】

[0006] 本发明的目的在于解决文本情报关联过程中传统方法未考虑领域知识的指导作 用导致关联出的情报偏差较大、针对性较弱的问题;提供一种引入情报领域知识与先验信 息下的文本情报内容关联分析,实现情报按目标事件主题类型的关联整合,提高文本情报 主题归属类别的正确关联率。
[0007] 为了取得上述技术效果,本发明采用的技术方案是:一种基于领域知识模型的文 本情报关联聚类汇集处理方法,其特征在于包括如下步骤:步骤S1文本情报预处理:搜集文 本情报训练集进行分词、词性标注,去停用词,保留名词与动词,提取词干预处理,得到文本 情报训练集规范化的文本分词序列;步骤S2特征词汇向量提取:通过中文命名实体识别与 领域字典查询的方式提取情报训练集文本分词序列的特征词汇向量;步骤S3事件主题词汇 学习:采用主题图模型学习训练提取目标事件的代表性特征词汇,并计算其主题关联归属 的权重值;步骤S4事件主题词汇模板建立:根据训练计算的特征词汇的主题关联归属权重 值,构建以人物、地点、装备、行为、组织和事件名称代号类概念词汇组成的特征词汇集合, 作为表达目标事件知识模板,以及与主题类别归属的索引关系,建立事件主题词汇模板;步 骤S5文本情报预处理:对新接入文本情报进行步骤S1中的预处理,得到接入文本情报规范 化的文本分词序列;步骤S6特征词汇向量提取:通过中文命名实体识别与领域字典查询的 方式提取步骤S5中实时接入文本的分词序列的特征词汇向量;步骤S7主题相似度距离计算 比对:计算特征词汇向量与所有目标事件知识模板的相似度距离,并比对上述相似度距离; 步骤S8情报主题分类整编:根据相似度阈值确定多个文本对同一主题目标事件的关联关 系,利用相似度距离排序规则进行文本情报的分类整编。
[0008] 本发明相比与现有技术具有如下有益效果。
[0009] 本发明针对情报领域关注分析目标事件的特点,建立以目标要素(人物、地点、装 备、行为、组织和事件名称代号)为核心的领域词典和基于领域词典的文本情报描述方法, 解决的情报领域中情报文本表征不准确的问题和传统针对普通文本的表征方法描述的情 报难以有效应用于目标事件分析的问题。引入情报领域中的专家知识,训练典型主题事件 的主题模板,用于关联整合主题事件的情报信息,提高了针对性主题事件的关联准确度,达 到了 90 %的正确率。
【附图说明】
[0010]为了更清楚地理解本发明,现将通过本发明实施方式,同时参照附图,来描述本发 明,其中: 图1是本发明基于领域知识模型的文本情报关联聚类汇集处理流程图。
[0011] 图2是图1中事件主题词汇模板结构图。
[0012] 图3是1中主题图模型示意图。
[0013] 图4是具体实施案例中实例化的几类典型事件的主题模板结构示意图。
[0014] 图5是具体实施案例流程图。
【具体实施方式】
[0015] 为了更好地理解本发明,首先介绍基于领域知识的主题模板和用于学习训练主题 模板的主题图模型。
[0016] 参阅图1。根据本发明,利用情报领域知识建模和主题图技术指导文本情报的关联 分析,步骤S1文本情报预处理:搜集文本情报训练集进行分词、词性标注,去停用词,保留名 词与动词,提取词干预处理,得到文本情报训练集规范化的文本分词序列;步骤S2特征词汇 向量提取:通过中文命名实体识别与领域字典查询的方式提取情报训练集文本分词序列的 特征词汇向量;步骤S3事件主题词汇学习:采用主题图模型学习训练提取目标事件的代表 性特征词汇,并计算其主题关联归属的权重值;步骤S4事件主题词汇模板建立:根据训练计 算的特征词汇的主题关联归属权重值,构建以人物、地点、装备、行为、组织和事件名称代号 类概念词汇组成的特征词汇集合,作为表达目标事件知识模板,以及与主题类别归属的索 引关系,建立事件主题词汇模板;步骤S5文本情报预处理:对新接入文本情报进行步骤S1中 的预处理,得到接入文本情报规范化的文本分词序列;步骤S6特征词汇向量提取:通过中文 命名实体识别与领域字典查询的方式提取步骤S5中实时接入文本的分词序列的特征词汇 向量;步骤S7主题相似度距离计算比对:计算特征词汇向量与所有目标事件知识模板的相 似度距离,并比对上述相似度距离;步骤S8情报主题分类整编:根据相似度阈值确定多个文 本对同一主题目标事件的关联关系,利用相似度距离排序规则进行文本情报的分类整编。 [0017]具体包括如下步骤: (1) S1:文本情报预
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1