一种从学术文献中提取语义相似且语法规范句子的方法

文档序号:9911001阅读:891来源:国知局
一种从学术文献中提取语义相似且语法规范句子的方法
【技术领域】
[0001] 本发明属于计算机技术领域,特别涉及一种应用于英语句子匹配的方法,尤其是 考虑了语法不规范句子的匹配方法。
【背景技术】
[0002] 语句相似度在双语翻译、自动问答、论文查重等领域有重要的应用价值。语句相似 度的计算方法有很多,不同应用领域的侧重点不同,有的偏重于文本表层内容的匹配度,如 论文查重等;有的则偏重于语句包含的内在语义的相似度,如双语翻译和自动问答等。以论 文查重为例进行简要说明:论文查重包含的数据库主要为已发表的文献、专利、著作、网页 等,并且必须尽可能的包含所有文献资料,以确保查重结果的可靠性。论文查重的句子相似 度评价标准需要考虑文字在句子中的出现顺序,以及多个连续文字的匹配程度,当文字匹 配的个数超过规定的数量时则认为该句子抄袭了原有句子。句子之间的匹配算法在计算机 技术研究领域已经有大量的研究,此处不再赘述。国内外大量从事科研工作的研究人员、学 生等群体经常需要写作英文科技文献,如发表论文、申请专利、撰写毕业论文等。对于非英 语母语国家的科研人员来说,写出一篇能够完全表达自己意思,并且语法规范、语句流畅的 文章通常是一件比较困难的事情。研究人员即使有一定的英语写作能力,而写出的文章中 却包含有一定的语法错误、语义模糊甚至出现歧义。为了能够改善这种现象,研究人员通常 的做法是在自己阅读过的大量外文文献中寻找与自己表达意思相近的句子,并在此基础上 根据自己的英语知识进行一定的修改,从而形成一个完整表达自己意思的、没有语法错误 的并且和原句有一定差异的句子。由于科技论文中的内容主要是作者自己的创新性工作, 因此完全与原句重合的概率很小。对于研究人员来说想要在自己阅读的外文文献中找到所 有能够表达自己意思的句子是很困难的,并且该过程也是一项非常费时费力的工作。如何 通过现代电子计算机技术,如语句相似度计算技术,实现非常方便和快捷地查找与作者想 要表达意思相近的、没有语法错误的甚至具有一定写作技巧的英文语句是一项亟待解决的 重要问题。

【发明内容】

[0003] 本发明的目的是提供一种从学术文献中提取语义相似且语法规范句子的方法。该 方法能够利用用户输入的、语法可能不完全正确的英语句子搜索到与用户意思相同或相近 的、语义清晰的英语句子,为用户提供参考。该方法解决了非英语母语科研人员、学生等在 写作科技文献时,难以专业表达想法或者无法确定句子语法规范的问题。
[0004] 本发明的具体技术方案是:一种从学术文献中提取语义相似且语法规范句子的方 法,包括以下几个步骤: A. 将已建立的英语文献数据库中所有文献的关键词、第一作者或通讯作者所在国家 提取出来,并与相应文献建立对应关系; B. 对所述英语文献数据库中所有文献的摘要和正文文本以句子为单位进行划分,提 取句子的主要成份,并与原句建立对应关系; C. 用户输入所要匹配句子所属的学科、领域或者研究方向的一个或多个关键词; D. 用户输入所需匹配的英语句子,对该句子的主要成份进行提取,并与英语文献数据 库中所有句子的主要成份按照词性相似度和语法相似度两个方面进行相似度计算; E. 将用户输入的关键词与文献关键词进行比较,并设定每篇文献的关键词权值,根据 第一作者或通讯作者所在国家,设定每篇文献第一作者或通讯作者的英语熟练度权值; F. 综合考虑句子主要成份相似度、文献关键词权值、文献作者英语熟练度权值计算两 个句子的最终相似度,按照最终相似度的高低进行排序,并反馈给用户相似度最高的一个 或几个英文原句及其文献出处。
[0005] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤A 中,英语文献数据库指的是包含有已公开发表的、获得出版方授权使用的英语学术论文的 数据库。
[0006] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤A 中,对没有关键词的文献将文献的标题进行分解,将名词作为该文献的关键词。
[0007] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤A 中,第一作者或通讯作者所在国家指的是文献中第一作者或通讯作者的通信地址或服务机 构中给出的国家,所述第一作者或通讯作者是该国国籍的公民,或在该国从事研究的外籍 人员。
[0008] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤B 和D中,句子的主要成份包括语法主要成份,指的是划分句子的主语、谓语、宾语、定语和状 语,并将介词、冠词、数词去掉,保留名词、动词、形容词、副词。
[0009] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤B 和D中,句子的主要成份还包括词性主要成份,指的是略去句中不影响主要词义匹配的介 词、冠词、数词,保留名词、动词、形容词、副词。
[0010] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤D 中,句子主要成份相似度_为: Qs 二心卞 Qs:, 其中,QSl为句子语法结构相似度,Qs 2为句子词性结构相似度, 所述句子语法结构相似度是将用户输入句子和文献句子中的主语、谓语、宾语、定语和 状语分别进行比较,计算两个词之间的相似度,并和该词的权值一起作为两个词之间的匹 配度,该句子语法结构相似度QSlS : 其中,Qsubi为主语中第i个词的相似度,
Qprej为谓语中第j个词的相似度,Qobjk为 宾语中第k个词的相似度,Qattl为定语中第1个词的相似度,Qamz为状语中第z个词的相 似度;Ml为主语中词的个数,M2为谓语中词的个数,M3为宾语中词的个数,M4为定语中词 的个数,M5为状语中词的个数;111、112、113、114、115分别表示主语、谓语、宾语、定语和状语的 权值,nl、n2、n3、n4、n5的取值范围是(0,1); 所述句子词性结构相似度是将用户输入句子和文献句子中的名词、动词、形容词和副 词分别进行比较,计算两个词之间的相似度,并和该词的权值一起作为两个词之间的匹配 度,该句子词性结构相似度如2为:
其中,Qnouni为第i个名词相似度,Qverbj为第j个动词相似度,Qadjk为第k个形容 词相似度,Qadvl为第1个副词相似度;N1为名词的个数,N2为动词的个数,N3为形容词的 个数,N4为副词的个数;ml、m2、m3、m4分别为名词、动词、形容词、副词的权值,ml、m2、m3、 m4的取值范围是(0,1)。
[0011] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,如果用户 输入句子中的主语、谓语、宾语、定语和状语中不止一个词,则将每个词和文献句子中对应 语法结构中所有词进行相似度计算,选取相似度最大的两个词认为是相互匹配的词,当用 户输入句子和文献句子中出现多个相同的词时,每个词仅进行一次相似度计算。
[0012] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,如果用户 输入句子中出现多个名词、动词、形容词和副词,需要分别计算每个词和文献句子中相应词 的相似度,选取相似度最大的两个词认为是相互匹配的词,当用户输入句子和文献句子中 出现多个相同的词时,每个词仅进行一次相似度计算。
[0013] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述两个 词之间的相似度为:如果用户输入句子和文献句子中的词完全相同,则所述两个词之间的 相似度为1 ;如果用户输入句子和文献句子中的词不相同,即是差异词,对差异词进行扩 展,并比较扩展后的差异词与用户输入句子中的词之间的相似度,其取值范围为0 < Qi〈l, Qi为两个词之间的相似度。
[0014] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述对差 异词进行扩展是对该差异词进行词汇变换,包括同义词变换、单复数变换、时态变换以及反 义词变换。
[0015] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述扩展 后的差异词与用户输入句子中的词之间的相似度为:如果扩展后的差异词属于用户输入句 子中的词的同义词,则相似度为〇. 2 < Qi〈0. 9 ;如果扩展后的差异词和用户输入句子中的 词属于单复数关系,则相似度为〇. 2 < Qi〈0. 9 ;如果扩展后的差异词和用户输入句子中的 词之间能够进行时态变换,则相似度为0. 2 < Qi〈0. 9 ;如果扩展后的差异词和用户输入句 子中的词属于反义词关系,则相似度为〇彡Qi〈〇. 6。
[0016] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤E 中,英语熟练度权值是根据文献第一作者或通讯作者所在国家不同,为文献设定不同的权 值,英语母语国家的第一作者或通讯作者英语熟练度权值Qc =1,非英语母语国家的第一作 者或通讯作者英语熟练度权值设定为0-1之间的数值。
[0017] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步 骤E中,根据用户输入的关键词,计算机对文献的关键词进行匹配,根据关键词的匹配程 度设定该文献的关键词权值,如果用户输入的关键词全部被文献的关键词包含,则是完全 匹配,匹配权值为1,匹配到关键词的数量越少,则权值越低,关键词权值_为:% = 择 % = T/M,其中,N为用户输入的关键词个数,T为文献关键词包含用户关键词的个数,Qg为 文献关键词权值。
[0018] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤F 中,两个句子最终的相似度Q为:_=美::《鳥彦__;§灣^ 似度Qs在最终相似度Q计算中占的权值,0〈fs〈l ;fg为关键词权值Qg在最终相似度Q计 算中占的权值,〇〈fg〈l ;fc为第一作者或通讯作者英语熟练度权值Qc在最终相似度Q计算 中占的权值,〇〈fc〈l。
[0019] 较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤D 中,用户输入的句子是语法正确的,或语法不正确的。
[0020] 本发明
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1