一种科技项目申请书特征词提取方法

文档序号:6594900阅读:117来源:国知局
专利名称:一种科技项目申请书特征词提取方法
技术领域
本发明属于分词与特征词提取技术领域,尤其涉及一种科技项目申请书特征词提取方法,用于针对科技项目申请书特征词提取的应用。
背景技术
随着我国各类科技计划项目申报数量和经费的逐年递增,由于目前科技项目管理信息系统建设的不健全,导致项目重复申报立项情况十分普遍。为有效杜绝这种现象,提高科技经费使用效率,针对科技项目申请书信息进行文本相似度计算研究是非常必要的。特征词是相似度计算、文本检索等应用的基础,因而特征词提取方法的研究是有效实现科技项目相似性检查的关键所在。目前特征词提取方法主要分为三类:(I)基于统计特征的方法,如词语频度统计;
(2)基于词语网络的方法,如根据规则将文档映射为词语共现网络并计算词语的关键度来提取特征词;(3)基于语义的方法。前两种方法虽然具有简单高效的优点,但由于算法局限于字面匹配、缺乏语义理解·而排除了低频率的特征词。针对这个问题,引入语义特征进行关键词提取是目前的主要研究方法,如引入《同义词词林》计算词语的语义距离,一定程度上提闻了关键词提取的准确度。

发明内容
本发明的目的是针对现有技术的不足,提出一种科技项目申请书特征词提取方法,能够有效地提取出表示项目申请书的特征词。本发明解决问题所采取的技术方案包括如下步骤:
步骤1.把申请书中的通用词和惯用词,作为专业停用词库;把标点符号、非汉字作为切分标记库。所述的通用词和惯用词包括“本项目”、“本系统”、“技术”、“创新”、“开发”,“研究”。步骤2.对项目申请书进行分词:首先根据切分标记库,将申请书内容文本切分成子串序列;然后对子串序列分别进行中科院ICTCLAS分词。步骤3.构建基于碎片的规则模型,并通过构建的规则模型识别未登录词。所述的未登录词识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段,设WsC1C2…C义其中Ws是与碎片左端相邻的多字词,C1CfCn为产生的碎片,We是与碎片右端相邻的多字词。规则模型如下:
规则一:确定字词的词性。针对多词性的字词,以其词性标注的第一个为其词性。规则二:设置未登录词排除字集。词性为介词、助词、代词、副词的单字,比如“的、呢、最、太、这、我”,还有其它词性当中有存在构词能力较弱的,比如“呈,有,如,时”,所述的构词能力比较弱是指与其它字串构成未登录词的概率小于10%;将这些词归类为未登录词排除子集。规则三:设置切分规则。未登录词候选片段对于未登录词片段WsC1C2…CnWe中的Ci根据规则二,确定为排除字,那么未登录词片段切分为WsC1…Cp1与Ci+1-C义两个未登录词片段,其中,l〈i〈n,n为自然数。规则四:设置前缀字集。对未登录词片段WsC1C2…CnWe中的Cn进行前缀字判断。根据科技项目申请书分词碎片的分析统计,将碎片中存在构词能力比较强,且在词AB中处于A位置的字称为前缀字。所述的构词能力比较强是指与其它字词构成未登录词的概率超过90%的前缀字,将所述的前缀字归类为前缀字集。规则五:设置后缀字集。对于未登录词片段WsC1C2…CnWe中的C1进行后缀字判断。同样根据规则四,将所述的后缀字归类为前缀字集。规则六:设置词性配搭规则,具体如下:
(I).若未登录词候选片段如WsC1We ,C1的第一词性为形容词,若We为名词,则优先与We结合;否则,若Ws为名词,不成词,否则优先与Ws结合。若未登录词候选片段如WsCpWs为名词,Ws C1不成词,否则成词;若未登录词候选片段如C1Wy We为动词,C1 We不成词,否则,成
o(2).若未登录词候选片段如WsC1Wej , C1的第一词性为动词,若Wej为动词或名词,那么C1优先与Ws结合;否则,若Ws为动词,那么优先与Ws结合,否则不成词。若未登录词候选片段为C1We ,We为形容词,则C愚不成词,否则成词;若未登录词候选片段如WsCpWs为名词,WsC1不成词,否则成词。(3).若未登录词候选片段如WsC1We ,C1的第一词性为名词,若Ws ,We都为名词,则C1优先与Ws结合,若只有Ws或We为名词,则优先与Ws或We结合,否则,优先与Ws结合。若未登录词候选片段如WsC1或C1We,则结合成WsC1或C1We。

(4).若未登录词候选片段如WsC凡,C1的第一词性为其它词性,C1优先与Ws结

口 O对未登录词候选片段WsC1C2…CnWe进行未登录词识别的规则模型,其描述如下:
1)若n=l,根据规则二,若C1是排除字或者数词,则识别结束;否则转3);
2)若n>=2,根据规则二,若C1是排除字,则未登录词候选片段变成C^CnWe,转6);根据规则五,若C1是后缀字,则取出未登录词WsC1,未登录词候选片段变成CnWe,转6);根据规则七,若C1是数词,则转7 ;否则转8);
3)根据规则四,若C1是前缀字,则取出未登录词C1We,识别结束;否则转4);
4)根据规则五,若C1是后缀字,则取出未登录词WsC1,识别结束;否则转5);
5)根据规则六词性配搭,识别出未登录词;
6)取下一个Ci,若i=n,根据规则二,若Ci是排除字或数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词C义,识别结束;否则,识别结束。若i〈n,根据规则二,若Ci是排除字,则未登录词候选片段变成Cw-CnWe,转6);根据规则六,若Ci是数词,转7);否则转8);
7)取下一个(;,若1=11,根据规则六,若Ci是数词或量词前缀字,取出ClriCn,作为数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则识别结束。若i〈n,根据规则七,若Ci是数词,量词前缀字,量词,转7);否则,转8)
8)取下一个Ci,若i=n,根据规则二,Ci是排除字或数词,则取出Cn前面的单字作为未登录词,识别结束;根据规则四,若Ci是前缀字,则取出Cn前面的单字为未登录词,CnWe也作为未登录词,识别结束;否则,识别出We前面的单字作为未登录词,识别结束。若i〈n,根据规则二,若Ci是排除字,取出Ci前面的单字,根据规则三,若为一个,不作为未登录词,否则作为未登录词,未登录词候选片段变成Ci+1-CnWe,转6);否则转8)。步骤4.根据通用停用词库和专业停用词库进行停用词过滤,通用停用词库是采用哈工大停用词表。把过滤停用词和未登录词后的分词结果作为词语集合。步骤5.对步骤4得到的词语集合进行词语间语义相似度计算,从而建立词语语义相似度网络;然后结合词语的词频,计算网络中词语的关联度来提取出其他特征词;
所述的语义相似度计算过程如下:
对于两个词语,借助于知网语义词典,首先对两个词的义原相互进行相似度计算,并取其最大值,再根据下面的公式定义求得两个词语的语义相似度。
权利要求
1.一种科技项目申请书特征词提取方法,其特征在于包括如下步骤: 步骤1.把申请书中的通用词和惯用词,作为专业停用词库;把标点符号、非汉字作为切分标记库; 所述的通用词和惯用词包括“本项目”、“本系统”、“技术”、“创新”、“开发”,“研究”;步骤2.对项目申请书进行分词:首先根据切分标记库,将申请书内容文本切分成子串序列;然后对子串序列分别进行中科院ICTCLAS分词; 步骤3.构建基于碎片的规则模型,并通过构建的规则模型识别未登录词; 所述的未登录词识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段, 设WsC1C2…C义其中Ws是与碎片左端相邻的多字词,C1CfCn为产生的碎片,We是与碎片右端相邻的多字词;规则模型如下: 规则一:确定字词的词性,针对多词性的字词,以其词性标注的第一个为其词性;规则二:设置未登录词排除字集,将词性为介词、助词、代词、副词的单字,或其它词性当中与其它字串构成未登录词的概率小于10%的单字设置为未登录词排除字集; 规则三:设置切分规则,未登录词候选片段对于未登录词片段WsC1C2…CnWe中的Ci根据规则二,确定为排除字,那么未登录词片段切分为WsC1…Cp1与Ci+1-C义两个未登录词片段,其中,l〈i〈n,n为自然数; 规则四:设置前缀字集,对未登录词片段WsC1C2…CnWe中的Cn进行前缀字判断,将碎片中其它字词构成未登录词的概率超过90%的单字,且在词AB中处于A位置的字称为前缀字,并集合成前缀字集; 规则五:设置后缀字集,对于未登录词片段WsC1C2…CnWe中的C1进行后缀字判断,同样根据规则四,集合成后缀字集; 规则六:设置词性配搭规则,具体如下: 若未登录词候选片段如WsC1We,C1的第一词性为形容词,若We为名词,则优先与We结合;否则,若Ws为名词,不成词,否则优先与Ws结合;若未登录词候选片段如WsC1,Ws为名词,Ws C1不成词,否则成词;若未登录词候选片段如C1We, We为动词,C1 We不成词,否则,成词;若未登录词候选片段如WsC1We,C1的第一词性为动词,若We为动词或名词,那么(^优先与Ws结合;否则,若Ws为动词,那么优先与Ws结合,否则不成词;若未登录词候选片段为C义,We为形容词,则C凡不成词,否则成词;若未登录词候选片段如WsC1,Ws为名词,WsC1不成词,否则成词; 若未登录词候选片段如WsC1We ,C1的第一词性为名词,若Ws ,We都为名词,则C1优先与Ws结合,若只有Ws或We为名词,则优先与Ws或We结合,否则,优先与Ws结合;若未登录词候选片段如WsC1或C1We,则结合成WsC1或C1We ; 若未登录词候选片段如WsC1Wej , C1的第一词性为其它词性,C1优先与Ws结合; 对未登录词候选片段WsC1C2…CnWe进行未登录词识别的规则模型,其描述如下: 1)若n=l,根据规则二,若C1是排除字或者数词,则识别结束;否则转3); 2)若n>=2,根据规则二,若C1是排除字,则未登录词候选片段变成CfCnWe,转6);根据规则五,若C1是后缀字,则取出未登录词WsC1,未登录词候选片段变成CnWe,转6);根据规则七,若C1是数词,则转7 ;否则转8); 3)根据规则四,若C1是前缀字,则取出未登录词C1We,识别结束;否则转4);4)根据规则五,若C1是后缀字,则取出未登录词WsC1,识别结束;否则转5); 5)根据规则六词性配搭,识别出未登录词; 6)取下一个Ci,若i=n,根据规则二,若Ci是排除字或数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWy识别结束;否则,识别结束;若i〈n,根据规则二,若Ci是排除字,则未登录词候选片段变成Cw-CnWe,转6);根据规则六,若Ci是数词,转7);否则转8); 7)取下一个(;,若1=11,根据规则六,若Ci是数词或量词前缀字,取出ClriCn,作为数词,识别结束;根据规则四,若Ci是前 缀字,则取出未登录词CnWe,识别结束;否则识别结束;若i〈n,根据规则七,若Ci是数词,量词前缀字,量词,转7);否则,转8); 8)取下一个Ci,若i=n,根据规则二,Ci是排除字或数词,则取出Cn前面的单字作为未登录词,识别结束;根据规则四,若Ci是前缀字,则取出Cn前面的单字为未登录词,CnWe也作为未登录词,识别结束;否则,识别出We前面的单字作为未登录词,识别结束;若i〈n,根据规则二,若Ci是排除字,取出Ci前面的单字,根据规则三,若为一个,不作为未登录词,否则作为未登录词,未登录词候选片段变成CiV-CnWe,转6);否则转8); 步骤4.根据通用停用词库和专业停用词库进行停用词过滤,把过滤停用词和未登录词后的分词结果作为词语集合,所述的通用停用词库是采用哈工大停用词表; 步骤5.对步骤4得到的词语集合进行词语间语义相似度计算,从而建立词语语义相似度网络;然后结合词语的词频,计算网络中词语的关联度来提取出其他特征词; 所述的语义相似度计算过程如下: 对于两个词语,借助于知网语义词典,首先对两个词的义原相互进行相似度计算,并取其最大值,再根据下面的公式定义求得两个词语的语义相似度;
全文摘要
本发明公开了一种科技项目申请书特征词提取方法。本发明具体包括如下步骤步骤1将申请书主要文本切分成子串序列并进行中科院ICTCLAS分词;步骤2构建基于碎片的规则模型,并通过构建的规则模型识别未登录词;步骤3对经步骤2提取未登录词后的分词结果进行停用词过滤得到词语集合;步骤4计算词语集合中词语间语义相似度并建立词语语义相似度网络,计算图中词语的关联度,根据关联度大小提取特征词;步骤5将步骤4得到的特征词与步骤2识别出的未登录词组成科技项目申请书的特征词。本发明能更准确地提取到项目申请书的关键词,也改善了科技项目相似度检查的效果。
文档编号G06F17/30GK103235774SQ20131015142
公开日2013年8月7日 申请日期2013年4月27日 优先权日2013年4月27日
发明者徐小良, 林建海, 茅志刚 申请人:杭州电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1