一种从学术文献中提取语义相似且语法规范句子的方法_3

文档序号:9911001阅读:来源:国知局
our-point probe, transparent electrode's sheet resistance was tested',。用户输 入关键词为:graphene, transparent electrode, conduction。对该句子提取主要成份,语 法主要成份为:主语 transparent electrode's sheetresistance,谓语 was tested,状语 为 through four-point probe ;词性主要成份为:名词 sheet resistance,transparent electrode,four-point probe,动词tested。由于用户具备一定的英语水平,并且对所从 事领域的专业词汇比较熟悉,因此该句子没有明显的语法错误,但是并不符合英语常用的 表达逻辑。将用户输入句子的主要成份在文献数据库中进行匹配,比较所有文献句子的 主要成份。例如上文中提到ACSnano期刊中文献的句子"The sheet resistance of the hybrid transparent electrode was measured by an Alessi four-point probe. ',语 法主要成份为:主语 the sheet resistance of the hybrid transparent electrode, 谓语was measured,状语by an Alessi four-point probe ;词性主要成份为:名词 sheet resistance,transparent electrode, four-point probe,动词 measured,形容 词hybrid。两个句子进行比较,语法主要成份中用户输入句子中主语中的词transparent electrode和文献句子主语中的词transparent electrode完全匹配,同理主语中的词 sheet resistance、状语中的词four-point probe完全匹配,相似度设置为Umeasured和 tested都有测试的意思,属于近义词,可在词性扩展中匹配,相似度设置为0. 5。综上所述 句子语法结构的相似度Qsl为0. 3+0. 3+0. 2+0. 3X0. 5=0. 95。词性主要成份中用户输入句子 中名词 sheet resistance,transparent electrode, four-point probe 和文南犬句子主语 中的词 sheet resistance,transparent electrode,four-point probe 完全匹配,相似度 设置为1,动词measured和tested属于近义词,相似度设置为0. 5。综上所述句子词性主 要成份的相似度Qs2为〇. 3+0. 3+0. 3+0. 3X0. 5=1. 05。因此上述两个句子的主要成份相似度 为Q= Qsl+Qs2=2。对文献例句与用户输入语句的关键词相似度计算,graphene, transparent electrode两个词完全相同,贝lj :Qg=0. 67。
[0048] 计算将用户输入句子和文献例句的最终相似度,设定句子主要成份的权值为0. 6, 关键词权值和作者英语熟练度权值分别设为〇. 2。则Q=2X0. 6+0. 67X0. 2+1X0. 2=1. 534。 按此方法计算文献库中所有句子与用户输入句子的最终相似度,并反馈给用户最高的一个 或几个例句。
[0049] 实施例二 以美国光学学会0SA收录的Optical Engineering期刊作为数据库,该数据库收录了 Optical Engineering期刊发表的部分电子版论文。将该数据库中所有论文中的第一作者 所在国家和关键词提取出来。例如文献"Two-color infrared counter-countermeasure based on the signal ratio between two detection bands for a crossed-array tracker"的作者来自韩国的Pukyong National University,关键词为:infrared seeker; two-color counter-countermeasure; crossed-array tracker〇 该文南犬作者的英语熟练 度权值设为Qc=〇· 5〇 以及文南犬"Countermeasure effectiveness against a man-portable air-defense system containing a two-color spinscan infrared seeker',的作者来 自美国的 Cranfield University,关键词为:man-portable air-defense; simulation; infrared; electro-optics; countermeasures。该文献的作者英语熟练度权值设为Qc=l。
[0050] 将该数据库中所有文献的摘要和正文文本提取出来,按照句子为单位进行划分并 提取句子主要成份。句子的主要成份指的是提取句子的主语、谓语、宾语、定语和状语作为 句子的语法主要成份。并且提取句子的名词、动词、形容词、副词作为句子的词性主要成份。 给句子的主要成份设定不同的权值,其中名词设为〇. 4,动词设为0. 4,形容词、副词分别设 为0. 1、0. 1。句子的主语、谓语、宾语设定权值分别为0. 4、0. 4、0. 4,定语和状语设定权值 分别为〇. 1、〇. 1。
[0051] 用户需要根据自己的英语知识写出一个英语句子,例如用户想要表达的意思是 "双色抗干扰能够利用物体在两个波段内的辐射差异来区分目标和干扰。"用户写出的句子 为:"Two-color IRCCM can efficiently distinguish target from flare by using the difference of two waveband. "关键词为 infrared,countermeasure,tw〇-color〇 对该句 子提取主要成份,语法主要成份为:主语IRCCM,谓语can efficiently distinguish,宾语 target,定语 two-color,状语 from flare by using the difference of two waveband。 词性主要成份为:名词 Two-color,IRCCM,target,flare,difference,waveband,动词 can distinguish,using,副词efficiently^将用户输入句子的主要成份在文献数据库中 进行匹配,比较所有文献句子的主要成份例如上文中提到Optical Engineering期刊中 文献 "Countermeasure effectiveness against a man-portable air-defense system containing a two-color spinscan infrared seeker" 的句子"Termed two-color, the seeker can compare the emissions from the target and a countermeasure in different wavebands and reject the countermeasure"。语法主要成份为:主语 seeker, 谓语 can compare,reject,宾语 emission,countermeasure,状语 from the target and a countermeasure in different wavebands,termed tw〇-color〇 词性主要成份为:名 词 two-color,seeker,emission,target,countermeasure,waveband,countermeasure, 动词can compare,reject,形容词different。两个句子进行比较,语法主要成份中主语 相似度为〇,谓语中distiguish和compare属于近义词,相似度为0. 5,宾语相似度为0,定 语相似度为0,状语中flare和countermeasure在专业术语中属于近义词,相似度为0. 5, difference和different的词性不同,词义相近,相似度为0. 5,waveband的相似度为1。因 此两个句子的语法主要成份相似度为0. 4X0. 5+(0. 5+0. 5+1)Χ0. 1=0. 4。词性主要成份中 名词 two-color,target,waveband 相似度为 1,countermeasure 和 flare,countermeasure 和IRCCM相似度为0. 5。动词compare和distinguish为近义词,相似度为0. 5,形容词和 副词的相似度为0。因此两个句子的词性相似度为(1+1+1) X〇. 4+(0. 5+0. 5) X0. 4+0. 5X 0.4=1. 8。两个句子的主要成份相似度为Q=l. 8+0. 4=2. 2。在文献"Two-color infrared counter-countermeasure based on the signal ratio between two detection bands for a crossed-array tracker',中匹配到句子"Most IRCCMs use two separate detection bands to distinguish the target from the IRCM"。语法主要成份为:主语 IRCCMs,谓语 use,宾语 detection bands,定语 Most,two separate,状语 to distinguish the target from the IRCM。词性主要成份为:名词 IRCCMs,detection b
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1