一种从学术文献中提取语义相似且语法规范句子的方法_4

文档序号:9911001阅读:来源:国知局
and,target,IRCM,动词 use, distinguish,形容词separate。比较两个句子的主要成份,主语相似度为1,谓语相似度为 〇,宾语相似度为〇,定语相似度为〇,状语中flare和IRCM在专业术语中属于近义词,相似 度为0.5。因此,语法主要成份相似度为0.45。词性主要成份中,名词IRCCM,target相似 度为1,IRCM和flare,detection band和waveband属于近义词,相似度为0· 5。词性主要 成份相似度为1. 2。该句子的主要成份相似度为1. 65。
[0052] 韩国作者文献的关键词权值为0. 33,美国作者文献的关键词权值为 0. 66。计算将用户输入句子和文献例句的最终相似度,设定句子主要成份的权值 为0. 6,关键词权值和作者英语熟练度权值分别设为0. 2。则韩国作者文献的最 终相似度为(〇. 33+0. 5) X0. 2+1. 65X0. 6=1. 156。美国作者文献的最终相似度为 (0.66+1) X0. 2+2. 2X0. 6=1. 652。因此"Termed two-color, the seeker can compare the emissions from the target and a countermeasure in different wavebands andreject the countermeasure"拥有更高的相似度会优先反馈给用户。按此方法,计算该数据库中所 有文献中句子和用户输入句子的相似度,并进行排序。将相似度最高的一个或几个句子反 馈给用户。同时将各个文献的出处也反馈给用户,以便于用户进一步的对该文献进行了解。
【主权项】
1. 一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述方法包 括以下几个步骤: A. 将已建立的英语文献数据库中所有文献的关键词、第一作者或通讯作者所在国家 提取出来,并与相应文献建立对应关系; B. 对所述英语文献数据库中所有文献的摘要和正文文本以句子为单位进行划分,提 取句子的主要成份,并与原句建立对应关系; C. 用户输入所要匹配句子所属的学科、领域或者研究方向的一个或多个关键词; D. 用户输入所需匹配的英语句子,对该句子的主要成份进行提取,并与英语文献数据 库中所有句子的主要成份按照词性相似度和语法相似度两个方面进行相似度计算; E. 将用户输入的关键词与文献关键词进行比较,并设定每篇文献的关键词权值,根据 第一作者或通讯作者所在国家,设定每篇文献第一作者或通讯作者的英语熟练度权值; F. 综合考虑句子主要成份相似度、文献关键词权值、文献作者英语熟练度权值计算两 个句子的最终相似度,按照最终相似度的高低进行排序,并反馈给用户相似度最高的一个 或几个英文原句及其文献出处。2. 根据权利要求书1所述的一种从学术文献中提取语义相似且语法规范句子的方法, 其特征在于,所述步骤A中,英语文献数据库指的是包含有已公开发表的、获得出版方授权 使用的英语学术论文的数据库。3. 根据权利要求书1所述的一种从学术文献中提取语义相似且语法规范句子的方法, 其特征在于,所述步骤A中,对没有关键词的文献将文献的标题进行分解,将名词作为该文 献的关键词。4. 根据权利要求书1所述的一种从学术文献中提取语义相似且语法规范句子的方法, 其特征在于,所述步骤A中,第一作者或通讯作者所在国家指的是文献中第一作者或通讯 作者的通信地址或服务机构中给出的国家,所述第一作者或通讯作者是该国国籍的公民, 或在该国从事研究的外籍人员。5. 根据权利要求书1所述的一种从学术文献中提取语义相似且语法规范句子的方法, 其特征在于,所述步骤B和D中,句子的主要成份包括语法主要成份,指的是划分句子的主 语、谓语、宾语、定语和状语,并将介词、冠词、数词去掉,保留名词、动词、形容词、副词。6. 根据权利要求书1所述的一种从学术文献中提取语义相似且语法规范句子的方法, 其特征在于,所述步骤B和D中,句子的主要成份还包括词性主要成份,指的是略去句中不 影响主要词义匹配的介词、冠词、数词,保留名词、动词、形容词、副词。7. 根据权利要求书1所述的一种从学术文献中提取语义相似且语法规范句子的方法, 其特征在于,所述步骤D中,句子主要成份相似度匕为:其中,QSl为句子语法结构相似度,Qs 2为句子词性结构相似度, 所述句子语法结构相似度是将用户输入句子和文献句子中的主语、谓语、宾语、定语和 状语分别进行比较,计算两个词之间的相似度,并和该词的权值一起作为两个词之间的匹 配度,该句子语法结构相似度Qsl为:其中,Qsubi为主语中第i个词的相似度,Qprej为谓语中第j个词的相似度,Qobjk为 宾语中第k个词的相似度,Qattl为定语中第1个词的相似度,Qamz为状语中第z个词的相 似度;Ml为主语中词的个数,M2为谓语中词的个数,M3为宾语中词的个数,M4为定语中词 的个数,M5为状语中词的个数;111、112、113、114、115分别表示主语、谓语、宾语、定语和状语的 权值,nl、n2、n3、n4、n5的取值范围是(0,1); 所述句子词性结构相似度是将用户输入句子和文献句子中的名词、动词、形容词和副 词分别进行比较,计算两个词之间的相似度,并和该词的权值一起作为两个词之间的匹配 度,该句子词性结构相似度Qs2为:其中,Qnouni为第i个名词相似度,Qverbj为第j个动词相似度,Qadjk为第k个形容 词相似度,Qadvl为第1个副词相似度;N1为名词的个数,N2为动词的个数,N3为形容词的 个数,N4为副词的个数;ml、m2、m3、m4分别为名词、动词、形容词、副词的权值,ml、m2、m3、 m4的取值范围是(0,1)。8. 根据权利要求书7所述的一种从学术文献中提取语义相似且语法规范句子的方法, 其特征在于,如果用户输入句子中的主语、谓语、宾语、定语和状语中不止一个词,则将每个 词和文献句子中对应语法结构中所有词进行相似度计算,选取相似度最大的两个词认为是 相互匹配的词,当用户输入句子和文献句子中出现多个相同的词时,每个词仅进行一次相 似度计算。9. 根据权利要求书7所述的一种从学术文献中提取语义相似且语法规范句子的方法, 其特征在于,如果用户输入句子中出现多个名词、动词、形容词和副词,需要分别计算每个 词和文献句子中相应词的相似度,选取相似度最大的两个词认为是相互匹配的词,当用户 输入句子和文献句子中出现多个相同的词时,每个词仅进行一次相似度计算。10. 根据权利要求书7所述的一种从学术文献中提取语义相似且语法规范句子的方 法,其特征在于,所述两个词之间的相似度为:如果用户输入句子和文献句子中的词完全相 同,则所述两个词之间的相似度为1 ;如果用户输入句子和文献句子中的词不相同,即是差 异词,对差异词进行扩展,并比较扩展后的差异词与用户输入句子中的词之间的相似度,其 取值范围为〇 < Qi〈l,Qi为两个词之间的相似度。11. 根据权利要求书10所述的一种从学术文献中提取语义相似且语法规范句子的方 法,其特征在于,所述对差异词进行扩展是对该差异词进行词汇变换,包括同义词变换、单 复数变换、时态变换以及反义词变换。12. 根据权利要求书10所述的一种从学术文献中提取语义相似且语法规范句子的方 法,其特征在于,所述扩展后的差异词与用户输入句子中的词之间的相似度为:如果扩展后 的差异词属于用户输入句子中的词的同义词,则相似度为〇. 2彡Qi〈0. 9 ;如果扩展后的差 异词和用户输入句子中的词属于单复数关系,则相似度为〇. 2 < Qi〈0. 9 ;如果扩展后的差 异词和用户输入句子中的词之间能够进行时态变换,则相似度为〇. 2 < Qi〈0. 9 ;如果扩展 后的差异词和用户输入句子中的词属于反义词关系,则相似度为0彡Qi〈〇. 6。13. 根据权利要求书1所述的一种从学术文献中提取语义相似且语法规范句子的方 法,其特征在于,所述步骤E中,英语熟练度权值是根据文献第一作者或通讯作者所在国 家不同,为文献设定不同的权值,英语母语国家的第一作者或通讯作者英语熟练度权值Qc =1,非英语母语国家的第一作者或通讯作者英语熟练度权值设定为0-1之间的数值。14. 根据权利要求书1所述的一种从学术文献中提取语义相似且语法规范句子的方 法,其特征在于,所述步骤E中,根据用户输入的关键词,计算机对文献的关键词进行匹配, 根据关键词的匹配程度设定该文献的关键词权值,如果用户输入的关键词全部被文献的关 键词包含,则是完全匹配,匹配权值为1,匹配到关键词的数量越少,则权值越低,关键词权 值||为:?二奪*,其中,N为用户输入的关键词个数,T为文献关键词包含用户关键词的个 数,Qg为文献关键词权值。15. 根据权利要求书1所述的一种从学术文献中提取语义相似且语法规范句子的方 法,其特征在于,所述步骤F中,两个句子最终的相似度Q为 中,fs为句子主要成份相似度Qs在最终相似度Q计算中占的权值,0〈fs〈l ;fg为关键词权 值Qg在最终相似度Q计算中占的权值,〇〈fg〈l ;fc为第一作者或通讯作者英语熟练度权值 Qc在最终相似度Q计算中占的权值,0〈fc〈l。16. 根据权利要求书1所述的一种从学术文献中提取语义相似且语法规范句子的方 法,其特征在于,所述步骤D中,用户输入的句子是语法正确的,或语法不正确的。
【专利摘要】本发明公开了一种从学术文献中提取语义相似且语法规范句子的方法。该方法包括首先将拟访问的数据库限定为已发表的学术论文。根据使用者输入拟查询句子所属领域的关键词、文献作者所在国家、以及输入句子的主要成份与数据库中的句子进行相似度计算。根据所限定要素的权值提取相似度比较高的几个句子供使用者参考,从而获得恰当语义的句子和所获语句的文献源。本发明可供非英语母语英语论文作者等在写作科技文献时,快捷获取规范表达想法的参考句子。
【IPC分类】G06F17/27
【公开号】CN105677634
【申请号】
【发明人】孙维国, 李墨
【申请人】孙维国, 李墨
【公开日】2016年6月15日
【申请日】2015年7月18日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1