一种从学术文献中提取语义相似且语法规范句子的方法_2

文档序号:9911001阅读:来源:国知局
的优点是:解决了科研人员在撰写科技文献时难以准确表达自身想法的问 题,节省了大量查找文献的时间和精力。查找资源以专业、权威的英文数据库以基础,确保 查找结果有较佳的选择句子。相似度计算方法引入了作者所在国家、关键词、句子主要成 份,既考虑了句子在语法、词性等语句层面上的相似度,又考虑了作者写作英文语句的水平 以及不同领域专业术语的差异,并且给每个因素详细设定不同的权值,以提高查找结果与 作者本意相符合的概率。与以往的"论文查重"方法相比,不存在漏查问题,只提供了相近 的最佳参考。
【附图说明】
[0021] 图1是本发明从学术文献中提取语义相似且语法规范句子的方法的流程图。
【具体实施方式】
[0022] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对 本发明进行详细描述。
[0023] 图1是本发明从学术文献中提取语义相似且语法规范句子的方法的流程图。下面 结合图1说明本发明的具体步骤。
[0024] 步骤一、建立一个包含有大量英语科技文献的英文文献数据库。该英文文献数据 库中的文献必须是已经公开发表的、已经获得出版方授权的。
[0025] 步骤二、提取所述英文文献数据库中每篇文献的关键词、第一作者或通讯作者所 在国家,并与相应文献建立对应关系。
[0026] 步骤三、提取所述英文文献数据库中每篇文献的句子的主要成份,并与原句建立 对应关系。
[0027] 将每篇文献中的摘要和正文文本按照句子为单位进行划分,并对每个划分好的句 子提取句子主要成份。句子的主要成份包括语法主要成份和词性主要成份。语法主要成份 指的是划分句子的主语、谓语、宾语、定语和状语,并将介词、冠词、数词去掉,保留名词、动 词、形容词、副词;词性主要成份指的是略去句中的介词、冠词、数词等不影响主要词义匹配 的因素,只提取句子的名词、动词、形容词、副词等主要词义因素作为句子的词性主要成份。 给句子的主要成份设定不同的权值,ml、m2、m3、m4分别为名词、动词、形容词、副词的权值, ml、m2、m3、m4的取值范围都是(0,1)。nl、n2、n3、n4、n5分别表示主语、谓语、宾语、定语和 状语的权值,nl、η2、η3、η4、η5的取值范围都是(0,1)。
[0028] 步骤四、用户输入待匹配的句子和关键词。
[0029] 用户需要具有一定的英语知识,将要表达的意思按照自己掌握的英语知识写出一 个英语句子,并输入到计算机中。输入待匹配句子所属的学科、领域或者研究方向的一个或 多个关键词。
[0030] 步骤五、提取用户输入句子的主要成份。
[0031] 计算机对该句子进行主要成份提取并设定权值,包括语法主要成份和词性主要成 份,提取的方法、权值设定和上文一致。将用户输入句子的主要成份与英文数据库中所有句 子的主要成份进行相似度计算。
[0032] 步骤六、将输入句子的主要成份与文献句子的主要成份进行相似度比较,计算句 子主要成份相似度。
[0033] 将用户输入句子和文献句子中的主语、谓语、宾语、定语和状语分别进行比较,计 算句子语法结构的相似度Qsl,并且将用户输入句子和文献句子中的名词、动词、形容词、glj 词分别进行比较,计算句子词性结构的相似度Qs2。
[0034] 比较两个词之间相似度的方法是:如果用户输入句子和文献句子中是完全相同的 词,认为完全匹配,则相似度为Qi=l ;如果用户输入句子和文献句子中的词不相同,认为是 差异词。为便于描述,在本发明中用户输入句子中的词认为是输入词,文献中和用户输入句 子中不同的词认为是差异词。对差异词进行扩展,并比较差异词与输入词之间的相似度Qi, 该相似度的取值范围为〇<Qi〈l。对词进行扩展指的是词汇变换,主要包括词的同义词、时 态变换、单复数变换、反义词变换和其他相关项。最后和该词的权值一起作为两个词之间的 匹配度。
[0035] 差异词与输入词之间的相似度计算方法为:如果扩展后的差异词属于输入词的 同义词,则相似度为〇. 2 < Qi〈0. 9 ;如果扩展后的差异词和输入词属于单复数关系,则相 似度为〇. 2 < Qi〈0. 9 ;如果扩展后的差异词和输入词之间能够进行时态变换,则相似度为 0. 2 < Qi〈0. 9 ;如果扩展后的差异词和输入词属于反义词关系,则相似度为0 < Qi〈0. 6。
[0036] 两个句子语法结构的相似度Qsl可由下式计算:
其中Qsl为句子语法结构的相似度,Qsubl为主语中第i个词的相似度,QPw为谓语中第 j个词的相似度,Q。#为宾语中第k个词的相似度,Q attl为定语中第1个词的相似度,Q _为 状语中第z个词的相似度。Ml为主语中词的个数,M2为谓语中词的个数,M3为宾语中词的 个数,M4为定语中词的个数,M5为状语中词的个数。如果用户输入句子中的主语、谓语、宾 语、定语和状语中不止一个词,则将每个词和文献句子中对应语法结构中所有词进行相似 度计算,选取相似度最大的两个词认为是相互匹配的词,当用户输入句子和文献句子中出 现多个相同的词时,每个词仅进行一次相似度计算。
[0037] 两个句子词性结构的相似度Qs2可有下式计算:
其中Qs2为句子词性的相似度,Q_ni为第i个名词相似度,QVCTbj为第j个动词相似度, 为第k个形容词相似度,Qadvl为第1个副词相似度,N1为名词的个数,N2为动词的个 数,N3为形容词的个数,N4为副词的个数,1111、1112、1113、 1114分别为名词、动词、形容词、副词的 权值,ml、m2、m3、m4的取值范围是(0,1)。
[0038] 用户输入句子中可能出现多个名词、动词、形容词和副词,需要分别计算每个词和 文献句子中相应词的相似度,选取相似度最大的两个词认为是相互匹配的词。当用户输入 句子和文献句子中出现多个相同的词时,每个词仅进行一次相似度计算。
[0039] 句子主要成份相似度Qs包括句子语法结构相似度QsJP句子词性结构相似度Qs 2, 其计算公式为:QS ―么;:。
[0040] 步骤七、计算文献关键词权值和文献作者英语熟练度权值。
[0041] 用户在查找句子之前可以输入所需查找句子所属的学科、领域或者研究方向的一 个或多个关键词,用来更为精确地匹配到相关领域内的高相似度句子。根据用户输入的关 键词,计算机对文献的关键词进行匹配,根据关键词的匹配程度设定每篇文献的权值,如 果用户输入的关键词全部被文献的关键词包含则认为是完全匹配,匹配权值为1,匹配到关 键词的数量越少权值越低。关键词权值计算方法其中N为用户输入的关键词个 数,T为文献关键词包含用户关键词的个数,Q g为文献关键词权值。
[0042] 英语熟练度权值指的是根据文献第一作者或通讯作者所在国家不同,为文献设定 不同的权值,将数据库中每篇文献的第一作者所在的国家提取出来,并按照该国家人民平 均英语水平,为每篇文献设定不同的权值Q。。例如英语母语国家的作者很少会出现英语语 法错误或歧义等写作技巧的问题,因此给予该国作者所写文章的权值最高,设定为Q。=1。 非英语母语国家的第一作者或通讯作者英语熟练度权值设定为0-1之间的数值,所述非英 语母语国家的第一作者或通讯作者的英语熟练度越高,则权值越高。有些国家虽然并不是 英语母语国家,但是将英语作为其官方语言或者是与英语是同一语系,例如印度和德国,该 国家作者所写文章的权值次之,设定为1=0. 95-0. 5之间。对其他一些国家,如中国、韩国、 日本等国家作者所写文章的权值再次之,设定为Q。=0.2-0. 4之间。将科技文献与作者国 家相联系的主要目的是最大程度地确保匹配到的高相似度例句是符合英语语法、表述清晰 的。
[0043] 步骤八、计算两个句子的最终相似度。
[0044] 两个句子最终的相似度需要综合考虑句子主要成份相似度、文献关键词匹配、文 献作者所在国家三个方面的因素。最终相似度Q可由下式计算: Q ? X , 其中fs为句子主要成份相似度Q s在最终相似度Q计算中占的权值,〇〈f S〈1 ;fg为关键 词权值Qg在最终相似度Q计算中占的权值,〇〈f g〈l ;fc为作者英语熟练度权值Q。在最终相 似度Q计算中占的权值,〇〈t〈l。由于两个句子主要成份的相似度是整个方法的关键,因此 匕的值通常会设置的相对较高。
[0045] 按照最终相似度Q的高低进行排序,并反馈给用户相似度最高的一个或几个英文 原句及其文献出处。
[0046] 以下是两个实施例: 实施例一 以美国ACS出版社出版的ACSnano期刊作为数据库源,该数据库收录了 ACSnano期刊 发表的部分电子版论文,经过ACS出版社授权使用。将该数据库中所有论文中的第一作者 所在国家和关键词提取出来。例如文献"Rational Design of Hybrid Graphene Films for High-Performance Transparent Electrodes" 的作者来自美国 RICE 大学,关键词为: graphene, transparent electrode,metal grid,flexible。由于作者来自美国,该文南犬的 作者英语熟练度权值设为1,9。=1。将该数据库中所有文献的摘要和正文文本提取出来,按 照句子为单位进行划分并提取句子主要成份。句子的主要成份指的是提取句子的主语、谓 语、宾语、定语和状语作为句子的语法主要成份。并且提取句子的名词、动词、形容词、副词 作为句子的词性主要成份。给句子的主要成份设定不同的权值,其中名词设为〇. 3,动词设 为0. 3,形容词、副词分别设为0. 2、0. 2。句子的主语、谓语、宾语设定权值分别为0. 3、0. 3、 0. 3,定语和状语设定权值分别为0. 2、0. 2。
[0047] 用户需要根据自己的英语知识写出一个英语句子,例如用户想要表达的意思是 "通过四探针测量法对透明电极的方块电阻进行了测量"。用户写出的句子为"Through f
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1