一种面向国防科技领域的文本关键词提取方法及系统与流程

文档序号:18526072发布日期:2019-08-24 10:14阅读:253来源:国知局
一种面向国防科技领域的文本关键词提取方法及系统与流程

本发明涉及文章检索技术领域,特别是涉及一种面向国防科技领域的文本关键词提取方法及系统。



背景技术:

对于检索系统来说,其核心问题是从一篇文本中提取出关键词,表征这篇文本的主要内容。当用户搜索该关键词时,能快速检索到该文本。当前国防科技领域采用的自动提取关键词的方法以词频统计为主,这种方法具有一定不合理性,提取的关键词存在无法充分表达文章主题思想的情况,从而降低了用户检索命中率,不利于资源的合理利用。



技术实现要素:

本发明的目的是提供一种面向国防科技领域的文本关键词提取方法及系统,以解决以词频统计为主的关键词提取方法提取关键词不准确的问题。

为实现上述目的,本发明提供了如下方案:

一种面向国防科技领域的文本关键词提取方法,所述方法包括:

获取大量国防科技领域的电子文本作为训练样本;

根据所述电子文本的题录信息提取所述训练样本的一类关键词;

采用特征判断规则提取所述训练样本的二类关键词;所述特征判断规则包括文字规则和搭配规则;

采用编辑距离算法计算所述一类关键词与所述二类关键词的相似度;

判断所述相似度是否高于相似度阈值,获得第一判断结果;

若所述第一判断结果为所述相似度高于相似度阈值,增加所述二类关键词为所述电子文本的关键词;

若所述第一判断结果为所述相似度不高于所述相似度阈值,修改所述特征判断规则,返回所述采用特征判断规则提取所述训练样本的二类关键词的步骤。

可选的,所述获取大量国防科技领域的电子文本作为训练样本,具体包括:

获取50000篇以上的国防科技领域的电子文本作为训练样本;每篇所述电子文本均包括原文文档和对应的题录信息;所述题录信息包括所述原文文档的标题、摘要、作者、作者单位、发布机构、发布时间、会议名称、学位、期刊名称、原文链接以及关键词项,所述关键词项中包含所述原文文档的至少3个关键词。

可选的,所述根据所述电子文本的题录信息提取所述训练样本的一类关键词,具体包括:

提取所述关键词项中的前3至5个关键词作为所述训练样本的一类关键词。

可选的,所述采用特征判断规则提取所述训练样本的二类关键词,具体包括:

采用基于隐马尔可夫模型的分词算法将所述训练样本分成一系列词语;

根据所述特征判断规则提取所述一系列词语中符合所述文字规则或所述搭配规则的词语作为所述训练样本的二类关键词。

一种面向国防科技领域的文本关键词提取系统,所述系统包括:

训练样本获取模块,用于获取大量国防科技领域的电子文本作为训练样本;

一类关键词提取模块,用于根据所述电子文本的题录信息提取所述训练样本的一类关键词;

二类关键词提取模块,用于采用特征判断规则提取所述训练样本的二类关键词;所述特征判断规则包括文字规则和搭配规则;

相似度计算模块,用于采用编辑距离算法计算所述一类关键词与所述二类关键词的相似度;

相似度判断模块,用于判断所述相似度是否高于相似度阈值,获得第一判断结果;

关键词提取模块,用于若所述第一判断结果为所述相似度高于相似度阈值,增加所述二类关键词为所述电子文本的关键词;

关键词重新提取模块,用于若所述第一判断结果为所述相似度不高于所述相似度阈值,修改所述特征判断规则,返回所述二类关键词提取模块。

可选的,所述训练样本获取模块,具体包括:

训练样本获取单元,用于获取50000篇以上的国防科技领域的电子文本作为训练样本;每篇所述电子文本均包括原文文档和对应的题录信息;所述题录信息包括所述原文文档的标题、摘要、作者、作者单位、发布机构、发布时间、会议名称、学位、期刊名称、原文链接以及关键词项,所述关键词项中包含所述原文文档的至少3个关键词。

可选的,所述一类关键词提取模块,具体包括:

一类关键词提取单元,用于提取所述关键词项中的前3至5个关键词作为所述训练样本的一类关键词。

可选的,所述二类关键词提取模块,具体包括:

分词单元,用于采用基于隐马尔可夫模型的分词算法将所述训练样本分成一系列词语;

二类关键词提取单元,用于根据所述特征判断规则提取所述一系列词语中符合所述文字规则或所述搭配规则的词语作为所述训练样本的二类关键词。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明提供一种面向国防科技领域的文本关键词提取方法及系统,所述方法通过大量样本训练出一套能从国防科技某一领域的文本中精准提取能表征文章主要内容的关键词的机器处理机制,训练样本的质与量保证了关键词提取的正确性与权威性,完整的训练方法保证了提取过程改善的持续性。采用本发明方法提取的关键词是根据其指代的概念特征提取的,即便其本身可能并未在文章中出现,但仍能够通过语义特征准确反映文章主题,从而解决了基于词频方法提取关键词不够准确、检索命中率不高的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据本发明提供的附图获得其他的附图。

图1为本发明提供的面向国防科技领域的文本关键词提取方法的方法流程图;

图2为本发明提供的面向国防科技领域的文本关键词提取方法的基本原理图;

图3为本发明提供的面向国防科技领域的文本关键词提取系统的系统结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种面向国防科技领域的文本关键词提取方法及系统,以解决以词频统计为主的关键词提取方法提取关键词不准确的问题。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提供的面向国防科技领域的文本关键词提取方法的方法流程图。图2为本发明提供的面向国防科技领域的文本关键词提取方法的基本原理图。参见图1和图2,所述面向国防科技领域的文本关键词提取方法包括:

步骤101:获取大量国防科技领域的电子文本作为训练样本。

获取大量的国防科技某一领域的电子文本作为训练样本。国防科技某一领域的电子文本是记载国防科技某一领域相关信息的文字载体,包括国防科技某一领域相关的科技报告、会议论文、期刊文章、新闻资讯、图书、学位论文、专利信息等。此处大量指50000篇以上,每篇电子文本均包括原文文档和对应的题录信息,所述题录信息包括所述原文文档的标题、摘要、作者、作者单位、发布机构、发布时间、会议名称、学位、期刊名称、原文链接以及关键词项。题录信息中关键词一项包含至少3个关键词,关键词源自官方给定的题录信息,具备较高的权威性和准确性。

同时建立国防科技某一领域的概念体系和特征判断规则,即形成国防科技某一领域的概念特征数据库。具体步骤如下:

s1.1:根据国防科技某一领域的长期工作积累,形成国防科技某一领域的概念体系。所述概念体系可能包括多个层级,层与层之间具有从属关系,以国防科技的工程科学领域为例,工程科学作为第一层级,其下属的机械工程、工程热物理、电工学科等概念节点作为第二层级,机械工程下属的机构学与机器人、传动机械学、机械动力学等概念节点作为第三层级,以此类推,使该概念体系最低层级的概念节点适合作为常见的关键词且不可再细分,形成所述概念体系,供步骤s1.2使用。

s1.2:根据长期工作积累形成的对s1.1形成的概念体系中各层各个节点的定义、特征、相关概念的中文自然语言描述,将描述内容转化为一条条不可再细分的特征判断规则,每条规则具有唯一的规则编号。所述特征判断规则分为两类:一是文字规则,包括概念节点的同义词、近义词、相关词、相关短语、相关缩略语;二是搭配规则,通过总结归纳概念节点相关的固定搭配、句式、语法规律,形成逻辑判断条件,并用正则表达式表示。供步骤103使用。

步骤102:根据所述电子文本的题录信息提取所述训练样本的一类关键词。

根据所述步骤101采集的电子文本信息建立数据库,数据库中的数据主要按照数据表1、数据表2和数据表3的格式进行存储。

其中所述数据表1,其表头包括样本编号(样本唯一识别号)、标题、摘要、作者、作者单位、发布机构、发布时间、会议名称、学位、期刊名称、原文链接、一类关键词、二类关键词、规则编号、关键词相似度。其中所述一类关键词指的是训练样本自身带有的关键词,由样本的作者、出版发布机构等官方提供,具有较高的准确性、权威性;本发明通过提取所述关键词项中的前3至5个关键词作为所述训练样本的一类关键词。所述二类关键词是采用本发明方法由机器提取的关键词。本发明方法通过多轮迭代,使二类关键词逐步趋同于一类关键词,从而使二类关键词的生成成为一种准确率高、权威性强的关键词自动提取过程。本发明为所述数据库建立专用的数据文件服务器,文本文档的原文件链接就是指文本存储的数据文件服务器的位置。一类关键词、二类关键词分别对应样本已有的关键词和基于特征描述方法形成的关键词,规则编号用于记录每个一个二类关键词所匹配的特征判断规则编号,关键词相似度记录一类关键词和二类关键词的相似程度。所述数据表2,表头包括关键词编号、二类关键词、规则编号、样本编号。所述数据表3,表头包括关键词编号、一类关键词、样本编号。

将所述步骤101获取的题录数据存储在步骤102所建立的数据库中,将提取的一类关键词存储于一类关键词字段(即数据表3)中,形成的数据库供步骤103使用。

步骤103:采用特征判断规则提取所述训练样本的二类关键词。

基于步骤101和步骤102的结果,通过概念特征判断规则提取每一篇训练样本的关键词,形成二类关键词。所述特征判断规则包括文字规则和搭配规则。具体步骤如下:

s2.1:对于步骤102的文本数据文件,通过基于hmm(hiddenmarkovmodel,隐马尔可夫模型)的分词算法将每一个训练样本文件分成一系列的词语。

s2.2:通过计算机程序将s2.1形成的分词文本数据与步骤102形成的文字规则进行比对,判断所述词语是否符合所述文字规则,若是,将该分词词语标注为二类关键词,存入所述数据表1中的二类关键词字段,同时存储对应的规则编号,规则编号的存储顺序与关键词存储顺序相同。例如a节点下有文字规则:同义词b、近义词c,以及相关词、相关短语、相关缩略语d、e、f……,当一篇分词文本数据中出现n次b词语,或m次c词语,或d、e、f……中的k个词同时出现j次(j、k、m、n根据节点、样本情况设置调整)时,则将a词语存入该训练样本数据记录的二类关键词字段中,同时存储对应的规则编号,更新数据库中的数据表,供步骤104使用。

s2.3:通过计算机程序将步骤s2.1形成的分词词语与s102形成的搭配规则进行比对,判断所述词语是否符合所述搭配规则,若是,将所述词语标注为文本数据的二类关键词,存入所述数据表1中的二类关键词字段,同时在数据表1中存储对应的规则编号,规则编号的存储顺序与关键词存储顺序相同。例如节点“航空器在轨维修与服务技术”包含“航天器.{0,i}在轨.{0,j}维护”、“在轨.{0,i}(维护|服务)”等搭配型规则,规则中的.{0,i}表示前后内容之间包含0至i个字符,(维护|服务)表示出现“维护”或出现“服务”,当分词文本数据中出现n次或m项符合这些搭配规则的条件时(m、n根据节点、样本情况设置调整),则为文本数据标记“航空器在轨维修与服务技术”为关键词,存入该训练样本数据记录的二类关键词字段中,同时存储每个二类关键词对应的规则编号,使数据库更新数据表1,供步骤104使用。

步骤104:采用编辑距离算法计算所述一类关键词与所述二类关键词的相似度。

计算每条训练样本记录的一类关键词与二类关键词的相似度,如计算结果处于可容忍范围,关键词提取步骤结束,否则进入步骤107。所述步骤104的具体方案如下:

对于步骤102和步骤103生成的一类关键词和二类关键词,采用编辑距离算法(levenshteindistance)计算二者相似度。

编辑距离是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。这里所指的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般情况下,编辑距离越小,两个字符串的相似度越大。

所述编辑距离算法的基本原理是:假设用d[i,j]个步骤表示将字符串s[1…i]转换为字符串t[1…j]所需要的最少步骤个数,则在i等于0,即字符串s为空时,对应的d[0,j]就是增加j个字符,使得字符串s转化为t;在j等于0,即字符串t为空时,其d[i,0]就是减少i个字符,使得字符串s转化为t。

为确保字符串s[1..i]经过最少次数的编辑转变为t[1..j],就必须保证在之前可以以最少次数的编辑,使得现在串s和串t只需要再做一次操作或者不做就可以完成s[1..i]到t[1..j]的转换。所谓的“之前”分为三种情况:

1)通过k个操作将s[1…i]转换为t[1…j-1];

2)通过k个操作将s[1..i-1]转换为t[1..j];

3)通过k个操作将s[1…i-1]转换为t[1…j-1]。

针对第1种情况,只需将t[j]加上s[1..i]就完成了匹配,总共需要k+1个操作。针对第2种情况,只需在最后将s[i]移除,然后再做这k个操作,总共需要k+1个操作。针对第3种情况,只需在最后将s[i]替换为t[j],使得满足s[1..i]==t[1..j],总共也需要k+1个操作,如果s[i]刚好等于t[j],则可仅需k个操作。

为了保证得到的操作次数总是最少的,须从以上三种情况中选择消耗最少的一种,作为将s[1..i]转换为t[1..j]所需的最小操作次数。

所述编辑距离算法的基本步骤包括:(1)构造行数为m+1、列数为n+1的矩阵,用来保存完成某个转换需要执行的操作的次数,将串s[1..n]转换到串t[1…m]所需要执行的操作次数作为为matrix[n][m]的值;(2)初始化matrix第一行为0到n,第一列为0到m。matrix[0][j]表示第1行第j-1列的值,这个值表示将串s[1…0]转换为t[1..j]所需要执行的操作的次数,显然将一个空串转换为一个长度为j的串,只需要j次的添加操作,所以matrix[0][j]的值应该是j,其他值以此类推;(3)检查每个从1到n的s[i]字符;(4)检查每个从1到m的s[j]字符;(5)将串s和串t的每一个字符进行两两比较,如果相等,则让代价值cost为0,如果不等,则让cost为1;(6)首先,如果可在k个操作内将s[1..i-1]转换为t[1..j],则可以将s[i]移除,然后再做这k个操作,即总共需要k+1个操作。其次,如果可在k个操作内将s[1…i]转换为t[1…j-1],即d[i,j-1]=k,则可将t[j]加上s[1..i],共需k+1个操作。再次,如果可以在k个步骤内将s[1…i-1]转换为t[1…j-1],则可将s[i]转换为t[j],使其满足s[1..i]==t[1..j],即共需k+1个操作。这里加上代价值cost,是因为如果s[i]刚好等于t[j],则不需再做替换操作即可满足;如果不等,则需要再做一次替换操作,即需k+1次操作。要取得最小操作的个数,则还需要将这三种情况的操作个数进行比较,取最小值作为d[i,j]的值;最后,重复执行步骤(3),(4),(5),(6),获得d[n,m]即为最终计算距离。

本发明将一类关键词作为一个字符串用str1表示,二类关键词作为一个字符串用str2表示,用math.max(str1.length,str2.length)表示两个字符串中较长的一个字符的长度,则两种关键词相似度s=1-d[n,m]/math.max(str1.length,str2.length),其中str1.length表示字符串str1的长度,str2.length表示字符串str2的长度。将计算出的一类关键词与二类关键词的相似度s存入样本数据记录(数据表1)中的关键词相似度字段中,供步骤105使用。

步骤105:判断所述相似度是否高于相似度阈值,获得第一判断结果。

本发明中,可以通过对关键词相似度s进行统计,通过计算样本关键词相似度均值、关键词相似度为0的样本所占比例等数字指标,结合实际需求确定二类关键词提取结果是否处于可容忍范围;或者通过判断所述相似度是否高于相似度阈值确定二类关键词提取结果是否处于可容忍范围。如处于可容忍范围,关键词提取步骤结束,否则进入步骤107。

作为本发明一个具体的实施方式,所述步骤105通过判断所述相似度是否高于相似度阈值,获得第一判断结果。

步骤106:若所述第一判断结果为所述相似度高于相似度阈值,增加所述二类关键词为所述电子文本的关键词。

若二类关键词提取结果处于可容忍范围,则确定所述二类关键词为所述训练样本的关键词,将该二类关键词与对应的电子文本进行存储。并且若所述二类关键词在所述概念体系中不存在,则为该二类关键词创建一个概念节点,更新所述概念体系。

本发明通过适当的样本和方法训练出一套能从国防科技某一领域的文本中精准提取能表征文章主要内容的关键词的机器处理机制。由于本发明提取的二类关键词是根据其指代的概念特征提取的,即便其本身可能并未在文中出现,但却能更准确地反映文章主题,便于用户通过该关键词快速检索到相应文本,提高了国防科技领域文章检索命中率和检索效率。

步骤107:若所述第一判断结果为所述相似度不高于所述相似度阈值,修改所述特征判断规则,返回所述采用特征判断规则提取所述训练样本的二类关键词的步骤。

若二类关键词提取结果未处于可容忍范围,则确认并修改导致二类关键词中出现与一类关键词相关度较低的内容的规则,增加规则的触发条件,提高其触发阈值。具体步骤如下:

s3.1:提取关键词相似度s大于0的样本数据记录,将二类关键词中的每个词分别与一类关键词整个字段进行编辑距离算法计算,将相似度为0的二类关键词与对应的规则编号、样本编号一同存入数据表2;对相似度不为0的二类关键词,按相似度由高至低取前5个词(不足5个则全取),按相似度由高至低的顺序存入二类关键词,对应的规则编号也同步排序更新,更新数据库,供s3.3使用。

s3.2:提取关键词相似度等于0的样本数据记录,将每条记录中的每个二类关键词和对应的规则编号分别提取,与对应的样本编号一同存入数据表2,供s3.3使用。

s3.3:对数据表2中的规则编号对应的规则进行修改优化,例如对文字型规则进行删减、对搭配型规则进行细化,适当提高词频数要求、增加必要条件等,提高其触发阈值。根据修改优化后的文字规则及搭配规则更新特征判断规则,供步骤103使用。对数据表2规则编号对应的规则进行修改优化后,清空数据表2。

s3.4:对每条样本记录中的每一个一类关键词同二类关键词整个字段进行编辑距离计算,如相似度为0,则将该一类关键词和对应的样本编号存入数据表3,供s3.5使用。

s3.5:判断数据表3中出现的一类关键词是否存在于概念体系之中,如存在,转至s3.6;如不存在,则为之创建概念节点,更新概念体系,供s3.6使用。

s3.6:对概念节点对应的规则进行修改优化,例如对文字型规则进行补充、对搭配型规则进行精简,适当降低词频数要求、放宽必要条件等,降低其触发阈值。更新特征判断规则,供步骤103使用。对数据表3中的所有一类关键词进行s3.4与s3.5处理后,清空数据表3。

本发明方法基于概念特征判断,实现对国防科技某一领域文本的关键词自动提取,并基于样本训练实现对国防科技某一领域文本关键词提取效果的持续改善,同时基于样本训练实现对国防科技某一领域概念体系和特征判断规则的持续补充完善,能够在实际引用中不断提高关键词提取的准确度,从而提高检索命中率。

基于本发明提供的方法,本发明还提供一种面向国防科技领域的文本关键词提取系统,如图3所示,所述系统包括:

训练样本获取模块301,用于获取大量国防科技领域的电子文本作为训练样本;

一类关键词提取模块302,用于根据所述电子文本的题录信息提取所述训练样本的一类关键词;

二类关键词提取模块303,用于采用特征判断规则提取所述训练样本的二类关键词;所述特征判断规则包括文字规则和搭配规则;

相似度计算模块304,用于采用编辑距离算法计算所述一类关键词与所述二类关键词的相似度;

相似度判断模块305,用于判断所述相似度是否高于相似度阈值,获得第一判断结果;

关键词提取模块306,用于若所述第一判断结果为所述相似度高于相似度阈值,增加所述二类关键词为所述电子文本的关键词;

关键词重新提取模块307,用于若所述第一判断结果为所述相似度不高于所述相似度阈值,修改所述特征判断规则,返回所述二类关键词提取模块。

其中,所述训练样本获取模块301,具体包括:

训练样本获取单元,用于获取50000篇以上的国防科技领域的电子文本作为训练样本;每篇所述电子文本均包括原文文档和对应的题录信息;所述题录信息包括所述原文文档的标题、摘要、作者、作者单位、发布机构、发布时间、会议名称、学位、期刊名称、原文链接以及关键词项,所述关键词项中包含所述原文文档的至少3个关键词。

所述一类关键词提取模块302,具体包括:

一类关键词提取单元,用于提取所述关键词项中的前3至5个关键词作为所述训练样本的一类关键词。

所述二类关键词提取模块303,具体包括:

分词单元,用于采用基于隐马尔可夫模型的分词算法将所述训练样本分成一系列词语;

二类关键词提取单元,用于根据所述特征判断规则提取所述一系列词语中符合所述文字规则或所述搭配规则的词语作为所述训练样本的二类关键词。

国防科技领域的文本数据资源具有形式结构多样、信息量庞大的特点,同时,国防科技领域的知识体系架构普遍具有较强的概括性、权威性和稳定性。面向多源异构国防科技领域信息资源的检索系统需应对一个重要问题:如何快速准确地从一篇文本中自动提取出关键词用于表征该文本的主要内容,便于用户通过该关键词快速检索到该文本。

当前国防科技领域的信息资源关键词自动提取主要采用基于词频的提取方法,这种方法存在一定问题:一方面对停用词表建设维护的要求较高,难以有效应对关键词存在同义词、近义词、多元表达形式等复杂情况;另一方面仅仅符合词频要求的词并不一定能充分表达文章主题思想,会降低具有切实需求的用户的检索命中率。

本发明通过适当的样本和方法训练出一套能从国防科技某一领域文本中自动精准提取出表征文章主要内容的关键词的机器处理机制,训练样本的质与量保证了关键词的正确性与权威性,完整的训练方法保证了提取过程改善的持续性。最终的关键词是根据其指代的概念特征提取的,即便其本身可能并未在文章中出现,但能够通过语义特征准确反映文章主题,从而解决了基于词频方法提取关键词不够准确、检索命中率不高的问题。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1