识别技术文件中关键词的方法及系统的制作方法

文档序号:6521508阅读:288来源:国知局
识别技术文件中关键词的方法及系统的制作方法
【专利摘要】本发明提供一种识别技术文件中关键词的方法,包括:对技术文件中不同长度的词汇进行识别,以生成多个不同长度词汇的哈希表;对每个哈希表进行排序,并提取哈希表中的元素,以生成高频词汇列表;去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。实施上述方法的系统,包括词汇预处理装置、哈希表处理装置与不完整词汇去除装置,词汇预处理装置用于对技术文件中不同长度的词汇进行识别,以生成多个不同长度词汇的哈希表;哈希表处理装置用于对每个哈希表进行排序,并提取哈希表中元素,生成高频词汇列表;不完整词汇去除装置用于去除列表中的不完整词汇,得到关键词汇列表。本发明可辅助审查人员快速获取技术文件中的关键信息。
【专利说明】识别技术文件中关键词的方法及系统
【技术领域】
[0001]本发明涉及一种识别方法,尤其是一种识别技术文件中关键词的方法及系统。
【背景技术】
[0002]随着核电技术的发展,数字化产品进入核电领域日益广泛,与之相应的标准引入、安全审评、技术转让等活动中,所需处理文档的数量与内容,呈爆发式增长。
[0003]文档审查活动通常以人工方式进行。审查人员首先通过阅读文档的方式获取文档信息,归纳出文档关键信息(文档的关键信息往往以关键词汇或关键语句的形式呈现),再进行专项分析,得出审查结果。该审查方法在人员阅读文档获取文档信息的环节花费较多时间,通常需要反复阅读多遍才能归纳出较为有用的关键信息。另外大文档集多人协作非常困难,容易出错,且效率低下。
[0004]在Internet网络的搜索引擎中,其索引技术具备自动识别中文词汇的能力,它利用一定的规则和词库来实现分词,并在分词的基础上建立词汇的检索索引。这种技术可用于在庞大的文档集中快速检索特定文档,但它无法分析和呈现出指定文档中的最关键的内容所在、也无法基于关键内容自动进行文档关系分析,无法直接应用在技术文档审查活动中。
[0005]在系统化文档审查工作中,获取关键词汇是必要的步骤,通常可以有以下两种方式:1)人工方式;2)自动识别方式。
[0006]I)人工方式:该方法在人员阅读文档获取文档信息的环节花费较多时间,通常需要反复阅读多遍才能归纳出较为有用的关键信息。另外大文档集多人协作非常困难,容易出错,且效率低下。
[0007]2)自动方式:搜索引擎中索引技术的自动识别中文词汇,构建语法规则库复杂、各词汇地位平等、不具备关键与非关键的区分,无法分析和呈现出指定文档中的最关键的内容所在、也无法基于关键内容自动进行文档关系分析,无法直接应用在技术文档审查活动中;常规的基于统计的分词技术,在消除歧义环节需要作大量处理,运算工作量比较大。
[0008]还有一种可用于自动识别关键词的方法,即基于统计的分词和识别关键词技术。应用这种技术识别关键词时,通常会利用分词技术识别文档中的词汇,在此基础上识别关键词汇。
[0009]上述基于统计的分词技术操作中,利用了中文词法的规则进行消除歧义,这种方法算法复杂、执行速度慢。

【发明内容】

[0010]针对上述问题中存在的不足之处,本发明提供了一种可辅助审查人员快速获取文件关键信息的识别技术文件中关键词的方法及系统。
[0011]为实现上述目的,本发明提供一种识别技术文件中关键词的方法,包括以下步骤:[0012]S100、对技术文件中不同长度的词汇进行扫描与识别,以生成多个不同长度词汇的哈希表;
[0013]S200、对每个哈希表进行排序,并提取哈希表中的兀素,以生成闻频词汇列表;
[0014]S300、去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。
[0015]上述的识别技术文件中关键词的方法,其中,对词汇的长度进行设定,每次只扫描一种长度的词汇。
[0016]上述的识别技术文件中关键词的方法,其中,对技术文件中的文本信息进行分类,包括:
[0017]将文本信息中由汉字组成的汉字信息定义为Han ;
[0018]将文本信息中由标点符号组成的标点符号信息定义为Ic;
[0019]将文本信息中由数字组成的数字信息定义为Num ;
[0020]将文本信息中由英文字母、下划线、中划线和数字混合组成的编码或英文单词信息定义为Eng ;
[0021]将文本信息中由空白字符组成的空白符定义为Nul。
[0022]上述的识别技术文件中关键词的方法,其中,步骤SlOO中的具体操作如下:
[0023]SlOl、将技术文件中的文本信息分割为多个段落;
[0024]S102、以标点符号信息(Ic)为分割符,将某个段落分割为多个句子;
[0025]S103、对某个段落中的句子进行处理,包括:
[0026]S1031、获取某一句子;
[0027]S1032、将设定的η长度词汇与句子的有效长度进行比较,若η长度词汇大于句子的有效长度,则跳转执行S104,否则执行步骤S1033 ;
[0028]S1033、判断句子中首字符的类型,若句子的首字符类型为空白符(Nul)或数字信息(Num),则跳转执行S1036,否则执行步骤S1034 ;
[0029]S1034、取句子的前m个有效字符作为词汇,其中,前m个有效字符为非空白符(Nul);
[0030]S1035、将上述词汇以及在文档中出现的次数加入哈希表中;
[0031]S1036、删除句子的首字符,并返回至步骤S1033 ;
[0032]S104、判断段落中是否还有未经过处理的句子,若结果为是,则返回至S1031,若结果为否,则执行步骤S105 ;
[0033]S105、判断是否还有未经过处理的段落,若结果为是,则返回至S102,若结果为否,则表明已获得η长度词汇的哈希表,操作结束。
[0034]上述的识别技术文件中关键词的方法,其中,在步骤S300中,对关键的短词汇与长词汇出现的次数进行统计,若短词汇的统计次数大于长词汇的统计次数,则表面短词汇作为独立词汇出现过多次,就不应消除。
[0035]上述的识别技术文件中关键词的方法,其中,在步骤S300中的具体操作如下:
[0036]S301、获取m+1长度的词汇列表;
[0037]S302、提取一个未处理的未处理词汇(Long Word);
[0038]S303、提取未处理词汇(Long Word)中的前m个字作为首词汇(First Word);
[0039]S304、判断首词汇(First Word)是否在m长度的词汇列表中,若判断为是,则执行步骤S305,否则,跳转执行步骤S307 ;
[0040]S305、将首词汇(First Word)出现的次数与未处理词汇(Long Word)出现的次数的差与临界值进行比较,若二者的差小于临界值,则执行步骤S306,否则,跳转执行步骤S307 ;
[0041]S306、将首词汇(First Word)由m长度的词汇列表中删除;
[0042]S307、提取未处理词汇(Long Word)中的后m个字作为末尾词汇(Last Word);
[0043]S308、判断末尾词汇(Last Word)是否在m长度的词汇列表中,若判断为是,则执行步骤S309,否则,跳转执行步骤S311 ;
[0044]S309、将末尾词汇(Last Word)出现的次数与未处理词汇(Long Word)出现的次数的差与临界值进行比较,若二者的差小于临界值,则执行步骤S310,否则,跳转执行步骤S311 ;
[0045]S310、将末尾词汇(Last Word)由m长度的词汇列表中删除;
[0046]S311、判断m+1长度的词汇列表中是否还有未处理词汇,若判断为是,则返回执行步骤S302,若判断为否,则表明已词汇列表中的不完整词汇,操作结束。
[0047]上述的识别技术文件中关键词的方法,其中,临界值由短字符组合列表中前30个完整词汇的平均出现次数以确定。
[0048]同时,本发明还提供一种识别技术文件中关键词的系统,包括词汇预处理装置、哈希表处理装置与不完整词汇去除装置,
[0049]所述词汇预处理装置,用于对技术文件中不同长度的词汇进行扫描与识别,以生成多个不同长度词汇的哈希表;
[0050]所述哈希表处理装置,用于对每个哈希表进行排序,并提取哈希表中的元素,以生成高频词汇列表;
[0051]所述不完整词汇去除装置,用于去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。
[0052]上述的系统,其中,所述词汇预处理装置包括段落分割模块、句子分割模块、句子处理模块、句子判断模块与段落判断模块,
[0053]所述段落分割模块,用于将技术文件中的文本信息分割为多个段落;
[0054]所述句子分割模块,用于以标点符号信息(Ic)为分割符,将某个段落分割为多个句子;
[0055]所述句子处理模块,用于对某个段落中的句子进行处理,包括:
[0056]句子提取单元,用于提取某一句子;
[0057]长度比较单元,用于将设定的η长度词汇与句子的有效长度进行比较,若η长度词汇大于句子的有效长度,则跳转执行所述句子判断模块,否则对首字符判断单元进行处理;
[0058]首字符判断单元,用于判断句子中首字符的类型,若句子的首字符类型为空白符(Nul)或数字信息(Num),则对首字符删除单元进行处理,否则对有效字符提取单元进行处理;
[0059]有效字符提取单元,用于提取句子的前m个有效字符作为词汇,其中,前m个有效字符为非空白符(Nul);[0060]次数导入单元,用于将上述词汇以及在文档中出现的次数加入哈希表中;
[0061]首字符删除单元,用于删除句子的首字符,并返回对首字符判断单元进行处理;
[0062]所述句子判断模块,用于判断段落中是否还有未经过处理的句子,若结果为是,则返回对句子提取单元进行处理,若结果为否,则对段落判断模块进行处理;
[0063]所述段落判断模块,用于判断是否还有未经过处理的段落,若结果为是,则返回至执行所述句子分割模块,若结果为否,则表明已获得η长度词汇的哈希表,操作结束。
[0064]上述的系统,其中,所述不完整词汇去除装置,包括:
[0065]列表获取单元,用于获取m+1长度的词汇列表;
[0066]词汇提取单元,用于提取一个未处理的未处理词汇(Long Word);
[0067]首词汇提取单元,用于,提取未处理词汇(Long Word)中的前m个字作为首词汇(First Word);
[0068]首词汇判断单元,用于判断首词汇(First Word)是否在m长度的词汇列表中,若判断为是,则执行比较单元,否则,跳转执行末尾词汇提取单元;
[0069]比较单元a,用于将首词汇(First Word)出现的次数与未处理词汇(Long Word)出现的次数的差与临界值进行比较,若二者的差小于临界值,则执行首词汇删除单元,否则,跳转执行末尾词汇提取单元;
[0070]首词汇删除单元,用于将首词汇(First Word)由m长度的词汇列表中删除;
[0071]末尾词汇提取单元,用于取未处理词汇(Long Word)中的后m个字作为末尾词汇(Last Word);
[0072]末尾词汇判断单元,用于判断末尾词汇(Last Word)是否在m长度的词汇列表中,若判断为是,则执行比较单元b,否则,跳转执行词汇判断单元;
[0073]比较单元b,用于将末尾词汇(Last Word)出现的次数与未处理词汇(Long Word)出现的次数的差与临界值进行比较,若二者的差小于临界值,则执行末尾词汇删除单元,否贝U,跳转执行词汇判断单元;
[0074]末尾词汇删除单元,用于将末尾词汇(Last Word)由m长度的词汇列表中删除;
[0075]词汇判断单元,用于判断m+1长度的词汇列表中是否还有未处理词汇,若判断为是,则返回执行词汇提取单元,若判断为否,则表明已词汇列表中的不完整词汇,操作结束。
[0076]与现有技术相比,本发明具有以下优点:
[0077]1、与搜索引擎中索引技术相比,本发明的技术方案简洁,不需要构造复杂的语言规则库、也不需要专门的词典;能识别出新词汇,还能同步提供词频统计分析,即在识别关键词的同时获得词频信息;
[0078]2、与常规的基于统计的分词技术相比,本发明将关键词汇识别与消除歧义融合在一个步骤中完成,简化了识别过程;同时,本发明还充分利用了技术文档的关键词的出现特点,实现了相对简便的消除歧义方法,提高了算法效率;
[0079]3、与人工方式相比,本发明支持自动识别,可克服人工识别时出现的正确性、工作效率、完备性等多方面问题。
【专利附图】

【附图说明】
[0080]图1为本发明中方法部分的流程图;[0081]图2为图1中步骤SlOO的具体流程图;
[0082]图3为图1中步骤S300的具体流程图;
[0083]图4为本发明中系统部分的结构框图;
[0084]图5为图4中词汇预处理装置的结构框图;
[0085]图6为图5中不完整词汇去除装置的结构框图。
[0086]主要附图标记说明如下:
[0087]1-词汇预处理2-哈希表处理装置 3-不完整词汇去除装置
[0088]10-段落分割模块 11-句子分割模块 12-句子处理模块
[0089]13-句子判断模块 14-段落判断模块
[0090]120-句子提取单元 121-长度比较单元 122-首字符判断单元
[0091]123-有效字符提取单元124-次数导入单元
[0092]125-首字符删除单元
[0093]30-列表获取单元 31-词汇提取单元 32-首词汇提取单元
[0094]33-首词汇判断单元 34-比较单元a35-首词汇删除单元
[0095]36-末尾词汇提取单元37-末尾词汇判断单元38-比较单元b`[0096]39-末尾词汇删除单元310-词汇判断单元
【具体实施方式】
[0097]如图1所示,本发明提供一种识别技术文件中关键词的方法,包括以下步骤:
[0098]S100、对技术文件中不同长度的词汇进行扫描与识别,以生成多个不同长度词汇的哈希表。
[0099]其中,由于中文词法中并没有规定词汇应由几个汉字组成,因此,在扫描之前,需要确定待扫描的词汇的长度。由于每次扫描只能针对一种长度的词汇,因此,扫描次数由定义的词汇最大长度决定,当不同长度的词汇数量为多个时,则需要针对每个词汇分别进行扫描。
[0100]另外,为了方便扫描文字组合,可将对技术文件中的文本信息进行分类,包括:
[0101]将文本信息中由汉字组成的汉字信息定义为Han ;
[0102]将文本信息中由标点符号组成的标点符号信息定义为Ic;
[0103]将文本信息中由数字组成的数字信息定义为Num ;
[0104]将文本信息中由英文字母、下划线、中划线和数字混合组成的编码或英文单词信息定义为Eng ;
[0105]将文本信息中由空白字符组成的空白符定义为Nul。
[0106]上述五个分类信息视为文字的基本单位,即每一类都视为一个基本字符。例如,Eng的一个实例10IC_123可以视为一个基本汉字处理,但在计算词汇长度时Nul不计算,例如“firmsys_10板卡”记为3字词汇。
[0107]S200、对每个哈希表按值的大小进行降序排序,在每个哈希表中提取前M个元素,以生成高频词汇列表。
[0108]S300、去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。
[0109]其中,由于不完整词汇会在更长一级词汇列表中有关联词汇(例如2字的不完整词汇必然会在3字词汇表中有关联词),所以可以从上一级词汇列表中对该不完整词汇进行查询,并在下一级词汇列表中将其消除。
[0110]另外,对关键的短词汇与长词汇出现的次数进行统计,若短词汇统计次数与长词汇的统计次数之差,超过一个临界值,则表明短词汇作为独立词汇出现过多次,就不应消除。
[0111]如图2所示,步骤SlOO用于对技术文件中不同长度的词汇进行扫描与识别,以生成多个不同长度词汇的哈希表中。提取η长度词汇,其具体操作如下:
[0112]SlOl、将技术文件中的文本信息分割为多个段落;
[0113]S102、以标点符号信息Ic为分割符,将某个段落分割为多个句子;
[0114]S103、对某个段落中的句子进行处理,包括:
[0115]S1031、获取某一句子;
[0116]S1032、将设定的η长度词汇与句子的有效长度进行比较,若η长度词汇大于句子的有效长度,则跳转执行S104,否则执行步骤S1033 ;
[0117]S1033、判断句子中首字符的类型,若句子的首字符类型为空白符Nul或数字信息Num,则跳转执行S1036,否则执行步骤S1034 ;
[0118]S1034、取句子的前m个有效字符作为词汇,其中,前m个有效字符为非空白符Nul ;
[0119]S1035、将上述词汇以及在文档中出现的次数加入哈希表中;
[0120]S1036、删除句子的首字符,并返回至步骤S1033 ;
[0121]S104、判断段落中是否还有未经过处理的句子,若结果为是,则返回至S1031,若结果为否,则执行步骤S105 ;
[0122]S105、判断是否还有未经过处理的段落,若结果为是,则返回至S102,若结果为否,则表明已获得η长度词汇的哈希表,操作结束。
[0123]在上述步骤中,η长度词汇的选取方法是依据技术类文件中专业词汇最大长度的经验值来确定。
[0124]如图3所示,步骤S300用于去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。由于不完整词汇会在更长一级词汇列表中有关联词汇,所以可以从上一级词汇列表中对该不完整词汇进行查询,并在下一级词汇列表中将其消除,其具体操作如下:
[0125]S301、获取m+1长度的词汇列表;
[0126]S302、提取一个未处理的未处理词汇Long Word;
[0127]S303、提取未处理词汇Long Word中的前m个字作为首词汇First Word ;
[0128]S304、判断首词汇First Word是否在m长度的词汇列表中,若判断为是,则执行步骤S305,否则,跳转执行步骤S307 ;
[0129]S305、将首词汇First Word出现的次数与未处理词汇Long Word出现的次数的差与临界值进行比较,若二者的差小于临界值,则执行步骤S306,否则,跳转执行步骤S307 ;其中,临界值的选取方法由短字符组合列表中前30个完整词汇的平均出现次数以确定。
[0130]S306、将首词汇First Word由m长度的词汇列表中删除;
[0131]S307、提取未处理词汇Long Word中的后m个字作为末尾词汇Last Word;
[0132]S308、判断末尾词汇Last Word是否在m长度的词汇列表中,若判断为是,则执行步骤S309,否则,跳转执行步骤S311 ;
[0133]S309、将末尾词汇Last Word出现的次数与未处理词汇Long Word出现的次数的差与临界值进行比较,若二者的差小于临界值,则执行步骤S310,否则,跳转执行步骤
S311。其中,临界值的选取方法由短字符组合列表中前30个完整词汇的平均出现次数以确定。
[0134]S310、将末尾词汇Last Word由m长度的词汇列表中删除;
[0135]S311、判断m+1长度的词汇列表中是否还有未处理词汇,若判断为是,则返回执行步骤S302,若判断为否,则表明已词汇列表中的不完整词汇,操作结束。
[0136]去除不完整词汇操作的顺序应该是先从最短文字组合列表开始执行,逐次向上化简。例如,应该先利用3字列表来去除2字列表的不完整词汇,然后再用4字列表去除3字列表的不完整词汇,以此类推。
[0137]如图4所示,本发明还提供一种识别技术文件中关键词的系统,包括词汇预处理装置1、哈希表处理装置2与不完整词汇去除装置3。词汇预处理装置I用于对技术文件中不同长度的词汇进行扫描与识别,以生成多个不同长度词汇的哈希表。哈希表处理装置2用于对每个哈希表按值的大小进行降序排序,在每个哈希表中提取前M个元素,以生成高频词汇列表。不完整词汇去除装置3用于去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。
[0138]如图5所示,词汇预处理装置用于对技术文件中不同长度的词汇进行扫描与识另IJ,以生成多个不同长度词汇的哈希表中,其包括段落分割模块10、句子分割模块11、句子处理模块12、句子判断模块13与段落判断模块14。
[0139]其中,段落分割模块10用于将技术文件中的文本信息分割为多个段落。
[0140]句子分割模块11用于以标点符号信息Ic为分割符,将某个段落分割为多个句子。
[0141]句子处理模块12用于对某个段落中的句子进行处理,包括:
[0142]句子提取单元120用于提取某一句子;
[0143]长度比较单元121用于将设定的η长度词汇与句子的有效长度进行比较,若η长度词汇大于句子的有效长度,则跳转执行句子判断模块,否则对首字符判断单元122进行处理;
[0144]首字符判断单元122用于判断句子中首字符的类型,若句子的首字符类型为空白符Nul或数字信息Num,则对首字符删除单元进行处理,否则对有效字符提取单元123进行处理;
[0145]有效字符提取单元123用于提取句子的前m个有效字符作为词汇,其中,前m个有效字符为非空白符Nul ;
[0146]次数导入单元124用于将上述词汇以及在文档中出现的次数加入哈希表中;
[0147]首字符删除单元125用于删除句子的首字符,并返回对首字符判断单元122进行处理;
[0148]句子判断模块13用于判断段落中是否还有未经过处理的句子,若结果为是,则返回对句子提取单元120进行处理,若结果为否,则对段落判断模块14进行处理;
[0149]段落判断模块14用于判断是否还有未经过处理的段落,若结果为是,则返回对句子分割模块11进行处理,若结果为否,则表明已获得η长度词汇的哈希表,操作结束。[0150]另外,为了方便扫描文字组合,可将对技术文件中的文本信息进行分类,在词汇预处理装置还包括分类模块,用于将文本信息中的不同信息进行分类。
[0151]将文本信息中由汉字组成的汉字信息定义为Han ;
[0152]将文本信息中由标点符号组成的标点符号信息定义为Ic;
[0153]将文本信息中由数字组成的数字信息定义为Num ;
[0154]将文本信息中由英文字母、下划线、中划线和数字混合组成的编码或英文单词信息定义为Eng ;
[0155]将文本信息中由空白字符组成的空白符定义为Nul。
[0156]上述五个分类信息视为文字的基本单位,即每一类都视为一个基本字符。例如,Eng的一个实例10IC_123可以视为一个基本汉字处理,但在计算词汇长度时Nul不计算,例如“firmsys_10板卡”记为3字词汇。
[0157]如图6所示,不完整词汇去除装置用于去除高频词汇列表中的不完整词汇后,以得到关键词汇列表,其包括:
[0158]列表获取单元30用于获取m+1长度的词汇列表。
[0159]词汇提取单兀31用于提取一个未处理的未处理词汇Long Word。
[0160]首词汇提取单元32用于提取未处理词汇Long Word中的前m个字作为首词汇First Word。
[0161]首词汇判断单元33用于判断首词汇First Word是否在m长度的词汇列表中,若判断为是,则对比较单元a34进行处理,否则,跳转对末尾词汇提取单元36进行处理。
[0162]比较单元a34用于将首词汇First Word出现的次数与未处理词汇Long Word出现的次数的差与临界值进行比较,若二者的差小于临界值,则对首词汇删除单元35进行处理,否则,跳转对末尾词汇提取单元36进行处理。其中,临界值的选取方法由短字符组合列表中前30个完整词汇的平均出现次数以确定。
[0163]首词汇删除单元35用于将首词汇First Word由m长度的词汇列表中删除。
[0164]末尾词汇提取单兀36用于取未处理词汇Long Word中的后m个字作为末尾词汇Last Word。
[0165]末尾词汇判断单元37用于判断末尾词汇Last Word是否在m长度的词汇列表中,若判断为是,则对比较单元b38进行处理,否则,跳转对词汇判断单元310进行处理其中,临界值的选取方法由短字符组合列表中前30个完整词汇的平均出现次数以确定。
[0166]比较单元b38用于将末尾词汇Last Word出现的次数与未处理词汇Long Word出现的次数的差与临界值进行比较,若二者的差小于临界值,则对末尾词汇删除单元37进行处理,否则,跳转对词汇判断单元310进行处理。
[0167]末尾词汇删除单元39用于将末尾词汇Last Word由m长度的词汇列表中删除。
[0168]词汇判断单元310用于判断m+1长度的词汇列表中是否还有未处理词汇,若判断为是,则返回对词汇提取单元31进行处理,若判断为否,则表明已词汇列表中的不完整词汇,操作结束。
[0169]另外,本发明还具有以下优点:
[0170]1、对大篇幅技术文档应用中能达到必要的识别正确率,对1.5?2万篇幅字的技术文件识别正确率能达到95%左右;[0171]2、对其它语言的大篇幅文档,本发明也可用于对其进行分词、分词组、关键字识别;
[0172]3、可作为自动化辅助审查工具的设计基础;
[0173]4、可作为其它领域中文关键词汇自动搜索和提取的设计基础。
[0174]惟以上所述者,仅为本发明的较佳实施例而已,举凡熟悉此项技艺的专业人士.在了解本发明的技术手段之后,自然能依据实际的需要,在本发明的教导下加以变化。因此凡依本发明申请专利范围所作的同等变化与修饰,曾应仍属本发明专利涵盖的范围内。
【权利要求】
1.一种识别技术文件中关键词的方法,包括以下步骤: 5100、对技术文件中不同长度的词汇进行扫描与识别,以生成多个不同长度词汇的哈希表; S200、对每个哈希表进行排序,并提取哈希表中的兀素,以生成闻频词汇列表; 5300、去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。
2.根据权利要求1所述的识别技术文件中关键词的方法,其特征在于,对词汇的长度进行设定,每次只扫描一种长度的词汇。
3.根据权利要求2所述的识别技术文件中关键词的方法,其特征在于,对技术文件中的文本信息进行分类,包括: 将文本信息中由汉字组成的汉字信息定义为Han ; 将文本信息中由标点符号组成的标点符号信息定义为Ic ; 将文本信息中由数字组成的数字信息定义为Num ; 将文本信息中由英文字母、下划线、中划线和数字混合组成的编码或英文单词信息定义为Eng ; 将文本信息中由空白字符组成的空白符定义为Nul。
4.根据权利要求3所述的识别技术文件中关键词的方法,其特征在于,步骤SlOO中的具体操作如下: 5101、将技术文件中的文本信息分割为多个段落; 5102、以标点符号信息(Ic)为分割符,将某个段落分割为多个句子; 5103、对某个段落中的句子进行处理,包括: 51031、获取某一句子; 51032、将设定的η长度词汇与句子的有效长度进行比较,若η长度词汇大于句子的有效长度,则跳转执行S104,否则执行步骤S1033 ; 51033、判断句子中的首字符的类型,若句子的首字符类型为空白符(Nul)或数字信息(Num),则跳转执行S1036,否则执行步骤S1034 ; 51034、取句子的前m个有效字符作为词汇,其中,前m个有效字符为非空白符(Nul); 51035、将上述词汇以及在文档中出现的次数加入哈希表中; 51036、删除句子的首字符,并返回至步骤S1033; 5104、判断段落中是否还有未经过处理的句子,若结果为是,则返回至S1031,若结果为否,则执行步骤S105; 5105、判断是否还有未经过处理的段落,若结果为是,则返回至S102,若结果为否,则表明已获得η长度词汇的哈希表,操作结束。
5.根据权利要求1所述的识别技术文件中关键词的方法,其特征在于,在步骤S300中,对关键的短词汇与长词汇出现的次数进行统计,若短词汇统计次数与长词汇的统计次数之差,超过一个临界值,则表明短词汇作为独立词汇出现过多次,就不应消除。
6.根据权利要求5所述的识别技术文件中关键词的方法,其特征在于,在步骤S300中的具体操作如下: `5301、获取m+1长度的词汇列表; `5302、提取一个未处理的未处理词汇(LongWord);S303、提取未处理词汇(LongWord)中的前m个字作为首词汇(First Word); S304、判断首词汇(FirstWord)是否在m长度的词汇列表中,若判断为是,则执行步骤S305,否则,跳转执行步骤S307 ; S305、将首词汇(FirstWord)出现的次数与未处理词汇(Long Word)出现的次数的差与临界值进行比较,若二者的差小于临界值,则执行步骤S306,否则,跳转执行步骤S307 ; S306、将首词汇(FirstWord)由m长度的词汇列表中删除; S307、提取未处理词汇(LongWord)中的后m个字作为末尾词汇(Last Word); S308、判断末尾词汇(LastWord)是否在m长度的词汇列表中,若判断为是,则执行步骤S309,否则,跳转执行步骤S311 ; S309、将末尾词汇(LastWord)出现的次数与未处理词汇(Long Word)出现的次数的差与临界值进行比较,若二者的差小于临界值,则执行步骤S310,否则,跳转执行步骤S311 ; S310、将末尾词汇(LastWord)由m长度的词汇列表中删除; S311、判断m+1长度的词汇列表中是否还有未处理词汇,若判断为是,则返回执行步骤S302,若判断为否,则表明已词汇列表中的不完整词汇,操作结束。
7.根据权利要求6所述的识别技术文件中关键词的方法,其特征在于,临界值由短字符组合列表中前30个完整词汇的平均出现次数以确定。
8.一种实施权利要求1中所述识别技术文件中关键词的方法的系统,其特征在于,包括词汇预处理装置、哈希表处理装置与不完整词汇去除装置, 所述词汇预处理装置,用于对技术文件中不同长度的词汇进行扫描与识别,以生成多个不同长度词汇的哈希表; 所述哈希表处理装置,用于对每个哈希表进行排序,并提取哈希表中的元素,以生成高频词汇列表; 所述不完整词汇去除装置,用于去除高频词汇列表中的不完整词汇后,以得到关键词汇列表。
9.根据权利要求8所述的系统,其特征在于,所述词汇预处理装置包括段落分割模块、句子分割模块、句子处理模块、句子判断模块与段落判断模块, 所述段落分割模块,用于将技术文件中的文本信息分割为多个段落; 所述句子分割模块,用于以标点符号信息(Ic)为分割符,将某个段落分割为多个句子; 所述句子处理模块,用于对某个段落中的句子进行处理,包括: 句子提取单元,用于提取某一句子; 长度比较单元,用于将设定的η长度词汇与句子的有效长度进行比较,若η长度词汇大于句子的有效长度,则跳转执行所述句子判断模块,否则对首字符判断单元进行处理; 首字符判断单元,用于判断句子中首字符的类型,若句子的首字符类型为空白符(Nul)或数字信息(Num),则对首字符删除单元进行处理,否则对有效字符提取单元进行处理;有效字符提取单元,用于提取句子的前m个有效字符作为词汇,其中,前m个有效字符为非空白符(Nul); 次数导入单元,用于将上述词汇以及在文档中出现的次数加入哈希表中; 首字符删除单元,用于删除句子的首字符,并返回对首字符判断单元进行处理;所述句子判断模块,用于判断段落中是否还有未经过处理的句子,若结果为是,则返回对句子提取单元进行处理,若结果为否,则对段落判断模块进行处理; 所述段落判断模块,用于判断是否还有未经过处理的段落,若结果为是,则返回至执行所述句子分割模块,若结果为否,则表明已获得η长度词汇的哈希表,操作结束。
10.根据权利要求8所述的系统,其特征在于,所述不完整词汇去除装置,包括: 列表获取单元,用于获取m+1长度的词汇列表; 词汇提取单元,用于提取一个未处理的未处理词汇(Long Word); 首词汇提取单元,用于,提取未处理词汇(Long Word)中的前m个字作为首词汇(FirstWord); 首词汇判断单元,用于判断首词汇(First Word)是否在m长度的词汇列表中,若判断为是,则执行比较单元,否则,跳转执行末尾词汇提取单元; 比较单元a,用于将首词汇(First Word)出现的次数与未处理词汇(Long Word)出现的次数的差与临界值进行比较,若二者的差小于临界值,则执行首词汇删除单元,否则,跳转执行末尾词汇提取单元; 首词汇删除单元,用于将首词汇(First Word)由m长度的词汇列表中删除; 末尾词汇提取单兀,用于取未处理词汇(Long Word)中的后m个字作为末尾词汇(LastWord); 末尾词汇判断单元,用于判断末尾词汇(Last Word)是否在m长度的词汇列表中,若判断为是,则执行比较单元b,否则,跳转执行词汇判断单元; 比较单元b,用于将末尾词汇(Last Word)出现的次数与未处理词汇(Long Word)出现的次数的差与临界值进行比较,若二者的差小于临界值,则执行末尾词汇删除单元,否则,跳转执行词汇判断单元; 末尾词汇删除单元,用于将末尾词汇(Last Word)由m长度的词汇列表中删除;词汇判断单元,用于判断m+1长度的词汇列表中是否还有未处理词汇,若判断为是,则返回执行词汇提取单元,若判断为否,则表明已词汇列表中的不完整词汇,操作结束。
【文档编号】G06F17/30GK103646058SQ201310629883
【公开日】2014年3月19日 申请日期:2013年11月29日 优先权日:2013年11月29日
【发明者】刘邦信, 赵云飞, 张亚栋, 龙威 申请人:北京广利核系统工程有限公司, 中国广核集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1