一种科技项目相似度计算方法

文档序号:6516549阅读:222来源:国知局
一种科技项目相似度计算方法
【专利摘要】本发明公开了一种科技项目相似度计算方法。本发明具体包括如下步骤:步骤1:提出一种规则模型并根据它识别出项目中的未登录词;步骤2:根据词的统计信息及语义信息获得关键词,与步骤1得到的未登录词组成特征词;步骤3:对两个项目名称中的特征词进行语义与字面相似度计算,如果求和并归一化后的值低于γ,则项目不相似,结束检测;步骤4:对相关词权重进行加权计算;步骤5:对主要内容中的特征词进行语义与字面相似度计算,得到两个项目主要内容的相似度;步骤6:对步骤3和步骤5的相似值加权求和得到两个项目的相似度。本发明考虑了项目申请书的语义信息,结构信息以及统计信息,该方法提高了科技项目相似度计算的准确率及效率。
【专利说明】一种科技项目相似度计算方法
【技术领域】
[0001]本发明属于文本查重【技术领域】,尤其涉及一种科技项目相似度计算方法,用于科技项目查重的应用。
【背景技术】
[0002]随着我国科技计划项目申报数量和经费的逐年递增,项目重复申报现象日益突出。虽然目前我国科技项目查重系统也取得了一些研究成果,但是这些查重系统研究存在缺乏语义理解、未考虑项目专业术语等问题。因此对科技项目进行有效的相似性检测研究是非常必要的,在 一定程度上有效的防止了科技项目的重复立项问题。
[0003]文本相似度计算方法主要有两类。一类是根据某种世界知识来计算,主要是基于按照概念间结构层次关系组织的语义词典的方法,根据在这类语言学资源中概念之间的上下位关系和同位关系来计算词语的相似度。它的优点是不需要大规模语料库的支持,也不需要长时间的训练,具有准确率高;缺点是单纯地使用语义词典,孤立考虑两个词语的相似度,并没有考虑到句子内部的结构和词语之间的相互作用关系。另一类利用大规模的语料库进行统计,这种基于统计的方法主要将上下文信息的概率分布作为词汇语义相似度的参照依据,是一种经验主义方法,它把词语相似度的研究建立在可观察的语言事实上,而不仅仅依赖于语言学家的直觉。它是建立在两个词语语义相似当且仅当它们处于相似的上下文环境中这一假设的基础上。它的缺点是基于统计的计算方法需要有大规模的语料库支持,大规模的语料库的构建本身就是一件比较困难,需要消耗大量的人力和时间的工作,并且还存在着数据稀疏的问题。其次,像TF-1DF方法等只考虑了词在上下文中的统计特性,丢弃了句子的结构信息和语义信息,因此具有一定的局限性。

【发明内容】

[0004]本发明的目的是针对现有技术的不足,提出一种科技项目相似度计算方法,能够极大地提高了科技项目申请书相似度计算的准确率及效率。
[0005]本发明解决问题所采取的技术方案包括如下步骤:
[0006]步骤1.针对待查重的项目申请书的规范简洁的特点,本发明提出一种规则模型进行识别未登录词;
[0007]所述的未登录词的识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段,表示为WsC1C2…CnWe,其中Ws是与碎片左端相邻的多字词,C1CfCn为产生的碎片,We是与碎片右端相邻的多字词;规则模型如下:
[0008]规则一:确定字词的第一词性;所述的第一词性指词性标注的第一个字词;
[0009]规则二:设置未登录词排除字集;碎片中会存在词性为介词、助词、代词、副词的单字,这些词的构词能力很弱,不与其它字串构成未登录词的概率大于90% ;
[0010]规则三:设置切分规则;未登录词候选片段对于未登录词片段WsC1C2…CnWe中的Ci根据规则二,确定为排除字,那么未登录词片段切分WsC1…Cp1与Ci^CnWe两个未登录词片段,其中,l〈i〈n,n为自然数;
[0011]规则四:设置前缀字集;对于未登录词片段WsC1C2…CnWe中的Cn进行前缀字判断;
[0012]规则五:设置后缀字集;对于未登录词片段WsC1C2…CnWe中的Cn进行前缀字判断,根据规则三,收集了后缀字集;
[0013]规则六:设置词性配搭规则,具体如下:
[0014](I).若未登录词候选片段如WsC凡,C1的第一词性为形容词,若We为名词,则优先与We结合;若未登录词候选片段如WsC1, Ws为名词,Ws C1不成词,否则成词;若未登录词候选片段如C1Wy We为动词,C1We不成词,否则,成词;
[0015](2).若未登录词候选片段如WsC凡,C1的第一词性为动词,若We为动词或名词,那么C1优先与Ws结合;若未登录词候选片段为C1Wy We为形容词,则C1We不成词,否则成词;若未登录词候选片段如WsC1, Ws为名词,WsC1不成词,否则成词;
[0016](3).若未登录词候选片段如WsC1We, C1的第一词性为名词,若Ws,We都为名词,则C1优先与Ws结合,若只有Ws或We为名词,则优先与Ws或We结合;若未登录词候选片段如WsC1或C1We,则结合成WsC1或C1We;
[0017](4).若未登录词候选片段如WsC1Wy C1的第一词性为其它词性,C1优先与Ws结合;
[0018]对未登录词候选片段WsC1C2…CnWe进行未登录词识别的规则模型,其描述如下:
[0019]I)若n=l,根据规则二,若C1是排除字或者数词,则识别结束;否则转3);
[0020]2)若n>=2,根据规则二,若C1是排除字,则未登录词候选片段变成C^CnWe,转6);根据规则五,若C1是后缀字,则取出未登录词WsC1,未登录词候选片段变成(V..CnWe,转6);根据规则七,若C1是数词,则转7);否则`转8);
[0021]3)根据规则四,若C1是前缀字,则取出未登录词C1We,识别结束;否则转4);
[0022]4)根据规则五,若C1是后缀字,则取出未登录词WsC1,识别结束;否则转5);
[0023]5)根据规则六词性配搭,识别出未登录词;
[0024]6)取下一个Ci,若i=n,根据规则二,若Ci是排除字或数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则,识别结束;若i〈n,根据规则二,若Ci是排除字,则未登录词候选片段变成Ci+1-CnWe,转6);根据规则六,若Ci是数词,转7);否则转8);
[0025]7)取下一个(;,若1=11,根据规则六,若Ci是数词或量词前缀字,取出ClriCn,作为数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWy识别结束;否则识别结束;若i〈n,根据规则七,若Ci是数词,量词前缀字,量词,转7);否则,转8)
[0026]8)取下一个Ci,若i=n,根据规则二,Ci是排除字或数词,则取出Cn前面的单字作为未登录词,识别结束;根据规则四,若Ci是前缀字,则取出Cn前面的单字为未登录词,CnWe也作为未登录词,识别结束;否则,识别出We前面的单字作为未登录词,识别结束;若i〈n,根据规则二,若Ci是排除字,取出Ci前面的单字,根据规则三,若为一个,不作为未登录词,否则作为未登录词,未登录词候选片段变成Ci+1-CnWe,转6);否则转8);
[0027]步骤2.根据词在申请书中的词性、出现的位置、词长、词频等统计信息及语义信息获得关键词,与步骤I得到的未登录词组成项目的特征词;所述的关键词获得过程如下:
[0028]首先获得词语的统计信息值StatS(Wi),然后再构建词语网络并计算得到词语的节点综合特征值CFi,最后计算得到所有词语的权重值Weighti并按大小排序,得到前Y (为阀值,0〈y〈1)的词语为项目的关键词。词语的权重值计算公式如下:
[0029]Weighti = α X stats (Wi) + β X CFi,其中 α + β =1, α =0.4, β=0.6。
[0030]所述的词语是项目申请书分词中识别未登录词之后剩下的词语。
[0031]所述的词语的统计信息值计算过程如下:
[0032]首先计算词语在申请书文本中的词频权重frei:
[0033]
【权利要求】
1.一种科技项目相似度计算方法,其特征在于包括如下步骤: 步骤1.针对待查重的项目申请书的规范简洁的特点,提出一种规则模型进行识别未登录词; 所述的未登录词的识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段,表示为WsC1C2…CnWe,其中Ws是与碎片左端相邻的多字词,C1Cf Cn为产生的碎片,We是与碎片右端相邻的多字词;规则模型如下: 规则一:确定字词的第一词性;所述的第一词性指词性标注的第一个字词; 规则二:设置未登录词排除字集;碎片中会存在词性为介词、助词、代词、副词的单字,这些词的构词能力很弱,不与其它字串构成未登录词的概率大于90% ; 规则三:设置切分规则;未登录词候选片段对于未登录词片段WsC1C2…CnWe中的Ci根据规则二,确定为排除字,那么未登录词片段切分WsC1-Cp1与Cg...CnWe两个未登录词片段,其中,l〈i〈n,n为自然数; 规则四:设置前缀字集;对于未登录词片段WsC1C2…CnWe中的Cn进行前缀字判断;规则五:设置后缀字集;对于未登录词片段WsC1C2…CnWe中的Cn进行前缀字判断,根据规则三,收集了后缀字集; 规则六:设置词性配搭规则,具体如下: (1).若未登录词候选片段如WsC凡,C1的第一词性为形容词,若We为名词,则优先与We结合;若未登录词候选片段如WsCpWs为名词,WS C1不成词,否则成词;若未登录词候选片段如C1W6, We为动词,C1We不成词,否则,成词; (2).若未登录词候选片段如WsC凡,C1的第一词性为动词,若We为动词或名词,那么C1优先与Ws结合;若未登录词候选片段为C1Wy We为形容词,则C愚不成词,否则成词;若未登录词候选片段如WsC1, Ws为名词,WsC1不成词,否则成词; (3).若未登录词候选片段如WsC凡,C1的第一词性为名词,若Ws,We都为名词,则C1优先与Ws结合,若只有Ws或We为名词,则优先与Ws或We结合;若未登录词候选片段如WsC1或C义,则结合成WsC1或C义; (4).若未登录词候选片段如WsC1We,C1的第一词性为其它词性,C1优先与Ws结合; 对未登录词候选片段WsC1C2…CnWe进行未登录词识别的规则模型,其描述如下: 1)若n=l,根据规则二,若C1是排除字或者数词,则识别结束;否则转3); 2)若n>=2,根据规则二,若C1是排除字,则未登录词候选片段变成C^CnWe,转6);根据规则五,若C1是后缀字,则取出未登录词WsC1,未登录词候选片段变成(V..CnWe,转6);根据规则七,若C1是数词,则转7);否则转8); 3)根据规则四,若C1是前缀字,则取出未登录词C1We,识别结束;否则转4); 4)根据规则五,若C1是后缀字,则取出未登录词WsC1,识别结束;否则转5); 5)根据规则六词性配搭,识别出未登录词; 6)取下一个Ci,若i=n,根据规则二,若Ci是排除字或数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWy识别结束;否则,识别结束;若i〈n,根据规则二,若Ci是排除字,则未登录词候选片段变成Cw-CnWe,转6);根据规则六,若Ci是数词,转7);否则转8); 7)取下一个(;,若1=11,根据规则六,若Ci是数词或量词前缀字,取出ClriCn,作为数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWy识别结束;否则识别结束;若i〈n,根据规则七,若Ci是数词,量词前缀字,量词,转7);否则,转8) 8)取下一个Ci,若i=n,根据规则二,Ci是排除字或数词,则取出Cn前面的单字作为未登录词,识别结束;根据规则四,若Ci是前缀字,则取出Cn前面的单字为未登录词,CnWe也作为未登录词,识别结束;否则,识别出We前面的单字作为未登录词,识别结束;若i〈n,根据规则二,若Ci是排除字,取出Ci前面的单字,根据规则三,若为一个,不作为未登录词,否则作为未登录词,未登录词候选片段变成CiV-CnWe,转6);否则转8); 步骤2.根据词在申请书中的词性、出现的位置、词长、词频及语义信息获得关键词,与步骤I得到的未登录词组成项目的特征词; 所述的关键词获得过程如下: 首先获得词语的统计信息值Stats(Wi),然后再构建词语网络并计算得到词语的节点综合特征值CFi,最后计算得到所有词语的权重值Weighti并按大小排序得到前Y (为阀值,0〈 Y〈I)的词语为项目的关键词;词语的权重值计算公式如下:
Weighti = α X stats (Wi) + β X CFi,其中 α + β =1,α =0.4, β =0.6 ; 所述的词语是项目申请书分词中识别未登录词之后剩下的词语; 所述的词语的统计信息值计算过程如下: 首先计算词语在申请书文本中的词频权重^rei: fre.= jfj 其中fi为词语在申请书出现的次数; 其次计算词 语在申请书文本中的词长权重Ieni:
【文档编号】G06F17/30GK103631858SQ201310508199
【公开日】2014年3月12日 申请日期:2013年10月24日 优先权日:2013年10月24日
【发明者】徐小良, 林建海, 杨文显, 陈秋 申请人:杭州电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1