文献自动评价方法及系统的制作方法

文档序号:6331482阅读:366来源:国知局
专利名称:文献自动评价方法及系统的制作方法
技术领域
本发明涉及文本检索领域,特别涉及一种文献自动评价方法以及相应的系统。
背景技术
科学研究的成果之一就是学术论文的发表,数字图书馆的飞速发展使得浩如烟海 的学术文献可以被计算机检索、分析和评价。截至本文撰写时,中国知网(CNKI)仅核心期 刊库从1994年至今(部分刊物回溯至创刊)就已经有近34,210,000篇文献,而且每日新增 约3万多篇文献。科研工作者要从如此多的学术文献中找到有价值的高质量的文献需要耗 费大量时间,如果能够利用计算机语言信息处理技术自动为科研工作者推荐相关的文献、 给出论文作者对文献的评价结果,那么将大大减轻科研工作者的检索工作量,节省时间,从 而提高文献调研效率。文献评价最常用的指标之一是被引频次,一般被引频次不包括文献著者对自己所 著文献的引用。被引频次一方面反映了该文献被其他研究者的关注程度,他引次数越多说 明关注者越多、文献价值越大;另一方面被引频次也有它自身的局限性。首先,最新发表的 文献不可能获得很高的引用频次,而科研工作者往往希望获得最新的有价值的文献,被引 频次不利于新发表论文的传播和价值体现。其次,被引频次只是从数量上进行了统计,没有 考虑文献来源期刊的质量。期刊质量一般用影响因子来衡量,影响因子越大说明期刊影响 范围越大或质量越高。在影响因子大或质量高的期刊发表的论文其质量也较高,被引频次 没有反映出这方面的特性。第三,从文献的被引频次中也得不到引用该文献的论文对该文 献的态度或评价,在某些论文中会指出引用文献的不足之处甚至是错误之处,当然也会对 引用文献进行肯定、赞同或推荐。这种主观性的评价信息目前一般通过同行专家评议或打 分得到对文献的综合评价得分,体现出文献在本领域内的影响或价值。从上述说明可以看出,单纯采用被引频次来评价文献具有局限性。因此本领域技 术人员提出了文本情感倾向性分析方法,该方法能够直接从文献的语言陈述中获取文献作 者对引用文献的评价或态度,给出被引文献的推荐度,从而更好地服务于科研工作者对文 献检索、文献评价的需求。现有技术中的文本情感倾向性分析方法的基本原理是利用计算机分析文本中的 语句结构、词语及其内在语义关系,获得主观性文本中评价者对于某些评价对象的一种倾 向性态度。要获得评价者对评价对象的倾向性态度,其实现基础是极性词典。所谓的极性 词典包括如“很好、赞同、很差、缺陷”等具有明显倾向性和评价态度的极性词语,以及与极 性词语相关的知识描述。有了极性词典以后,文本情感倾向性分析方法就可以从文本中找 出极性词语,然后以极性词语为中心,分析极性词语周围的文本,获得极性词语所关联的评 价对象和评价者,从而确定出评价者对于评价对象的倾向性态度。在上述基本实现原理的基础上,现有技术中的文本情感倾向性分析方法可进一步 分为两类。一类是机器学习的方法,该方法通过已经标注好极性词、评价对象、评价者、倾向 性态度的文本(文本中的这些知识通常由下面所提到的语法分析加规则的方法获取)进行训练,得到统计模型的参数,再用训练好的统计模型去分析新的文本,常见的模型和方法有 Boosting, SVM(支持向量机)、CRF(条件随机场)和最大熵模型等。另一类是语法分析加 规则的方法,即分析极性词语所在的句子,得到词语的句法成分,根据一定的评价模式或规 则确定评价者、评价对象和倾向性态度,主要用到词语词性、句法主谓宾结构、推理规则等 知识。上述两类方法都有各自的缺陷。机器学习的方法需要大量的标注好的训练语料文 本,增加了前期准备的成本,此外在实际分析的文本中会有许多训练语料中没有出现的词 语,造成数据稀疏的处理难题。语法分析需要精确细致的语句结构分析结果,传统语法的主 谓宾结构还无法适应倾向性评价的多种模式,只能获得部分简单的、粗颗粒度的评价结果。

发明内容
本发明的目的是克服现有技术中文献主观评价信息获取方法存在的前期成本高、 易出现数据稀疏,以及评价结果粗糙的缺陷,从而提供一种成本低、评价结果客观公正的文 献自动评价方法和系统。为了实现上述目的,本发明还提供了一种文献自动评价方法,包括步骤1)、从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文 献的引证文本;步骤2)、对所述引证文本中的语句做语义分析,所述语义分析包括将所述语句切 分成词语的分词处理,根据所述词语的概念类别生成所述语句的概念类别的语义块切分, 以及根据所述语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验;步骤3)、根据步骤2)所得到的语句的语义块和句类表达式、所述语句中所包含 的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分 析的结果以及步骤1)所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态 度。上述技术方案中,还包括步骤4)、统计一个文献集合中的各个文献对参考文献的倾向性态度,根据所述倾 向性态度中所包含的某一文献作为参考文献出现的次数、作为参考文献获得好评的次数、 该文献中对其他文献加以好评与差评的比率,生成对所述文献集合中文献的推荐度。上述技术方案中,在所述的步骤2)中,在所述的句类假设和检验后还包括对包含 有句子以及句子变形的复杂语义块的构成分析。上述技术方案中,在所述的步骤2)中,所述的分词处理包括根据已知的通用词语 知识库对所述引证文本中的语句切分成字或词语,同时得到该字或词语的概念符号和概念 类别。上述技术方案中,在所述的步骤2)中,所述的语义块切分包括步骤2-1-1)、根据所述分词处理所得到的词语的概念类别,找出所述语句中用于 表示语言逻辑虚词的“ 1,,类概念以及用于表示动态概念的“V”类概念;步骤2-1-2)、对于所述语句中得到的多个“V”类概念,逐个进行如下操作如果其 前后概念符合预先制定的排除规则的条件,那么去除该概念的“V”类概念属性;步骤2-1-3)、对于进行排除操作后剩下的多个“V”类概念,按照优选规则计算出
6每一个“v”类概念作为特征语义块的权重,然后按所述权重做从大到小的排队;步骤2-1-4)、根据特征语义块的构成规则,把“V”类概念与前后的修饰概念合并 得到特征语义块EK;步骤2-1-5)、根据特征语义块EK和EK之前的“ 1 ”类概念,把它们切分语句后形成 的字词组合作为广义对象语义块GBK。上述技术方案中,在所述的步骤2)中,所述的句类假设和检验包括步骤2-2-1)、在排队后的多个特征语义块中按顺序进行假设,根据假设的特征语 义块得到语句的概念类别,由所述语句的概念类别得到该语句对应的所有可能的实际句类 表达式和语义块,并得到语句所对应的实际语句格式;步骤2-2-2)、由所述语句的概念类别得到句类知识中标准的句类表达式和语义块 约束知识,由特征语义块的核心概念词语得到词语知识库中的句类约束、语句格式约束和 语义块约束知识;步骤2-2-3)、将步骤2-2-2)得到的约束知识与步骤2_2_1)中假设得到的实际句 类表达式和语义块在语义块个数、语句格式、语义块核心概念三个方面依次进行比较,保留 比较结果都符合的句类表达式和语义块。上述技术方案中,在所述的步骤2)中,所述复杂语义块的构成分析包括步骤2-3-1)、判断所述复杂语义块的类型,若为块扩或原型句蜕,执行下一步,若 为要素句蜕,执行步骤2-3-3),若为包装句蜕,执行步骤2-3-4);步骤2-3-2)、将所述复杂语义块中的用于表示动态概念的“V”类概念作为新语句 的特征语义块进行句类的假设和检验,结束本步骤的操作;步骤2-3-3)、对所述复杂语义块中的用于表示动态概念的“V”类概念重新恢复特 征语义块的资格,然后进行新语句的句类假设和检验,结束本步骤的操作;步骤2-3-4)、识别出所述包装句蜕外部作为“包装品”的字或词或短语,去除该包 装品,然后对剩余的部分进行句类的假设和检验,结束本步骤的操作。上述技术方案中,所述的步骤3)包括步骤3-1)、判断所述引证文本的语句中是否包含极性词语,如果未包含,则所述引 证文本对参考文献的倾向性态度为中性,结束本步骤的操作,如果包含,则执行下一步;步骤3-2)、提取所述引证文本中的语句的语义分析结果,所述语义分析结果包括 语句的句类、语义块以及语义块的内部结构;步骤3-3)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语 句的主语义块个数为2,那么按二元模型计算语句的倾向性态度;其中,所述主语义块包括 特征语义块以及广义对象语义块,所述二元模型为“AB”的形式,A表示被评价对象,B表示 极性词语;步骤3-4)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语 句的主语义块个数为3,那么按三元模型计算语句的倾向性态度;其中,三元模型为“CXD” 的形式,C表示评价者,X表示极性词语,D表示被评价对象;步骤3-5)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语 句的主语义块个数为4,那么先按二元模型计算广义对象语义块GBK2和广义对象语义块 GBK3的组合,然后再与广义对象语义块GBKl和特征语义块EK组合,按三元模型计算语句的倾向性态度;步骤3-6)、如果广义对象语义块GBK只含两个特征词语,那么按二元模型计算其 倾向性态度,并把结果返回;步骤3-7)、如果广义对象语义块GBK内含多个特征词语,按照特征词语在语句中 的位置,从左到右逐个减少进行递归处理,减少到只有两个特征词语时,转步骤3-6);步骤3-8)、如果语句的广义对象语义块GBK内含语句,那么把广义对象语义块GBK 作为新语句,对该新语句做语义块分析后执行步骤3-2),做递归处理;步骤3-9)、递归处理结束,获得语句的一个总的倾向性态度。上述技术方案中,所述的步骤4)包括步骤4-1)、统计一个文献集合中的各个文献对参考文献的倾向性态度以及相关的 统计信息,包括引证文本中出现的参考文献总数凡、某篇文献的他引次数 ;、作者对参考文 献的好评总数&、作者对参考文献的差评总数民、在文献的他引次数中获得好评的次数Gte、 在文献的他引次数中获得好评和差评的总次数Pte ;步骤4-2)、分别计算文献的他引好评率Gte/Pte、文献的评他好评率(VX、文献的评
他差评率Br/Nr ;步骤4-3)、设定权重修正系数α ;步骤4-4)、根据下列公式计算文献推荐度Rec = Tr+Gtr/Ptr+Max (Gr/Nr, Br/Nr) + α (Gr+Br) /Nr。本发明还提供了一种文献自动评价系统,包括文献及引文分析器、特征词语知识 库、通用词语知识库、分词处理器、语句语义分析器以及文献评价器;其中,所述的文献及引文分析器用于从文献中提取所述文献中所含参考文献的内容以 及所述文献中对参考文献的引证文本,并传给所述的分词处理器;所述的特征词语知识库用于存储极性词语及词语的褒贬属性、立场属性、逻辑属 性和程度属性,这些信息被提供给所述的文献评价器使用;所述的通用词语知识库用于存储常用词语及其概念符号,并向分词处理器和语句 语义分析器提供所需的词语及其概念符号;所述的分词处理器用于将所述引证文本中的语句切分成词语,并送入到所述语句 语义分析器;所述的语句语义分析器用于根据词语的概念类别生成所述语句的概念类别,以及 根据所述语句的概念类别生成该语句的句类表达式和语义块;所述的文献评价器用于根据语句语义分析器所得到的语句的语义块和句类表达 式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性 分析,由所述倾向性分析的结果以及所述文献及引文分析器所得到的参考文献的内容得到 所述弓I证文本对参考文献的倾向性态度。上述技术方案中,还包括有文献推荐度评价器,它用于统计一个文献集合中的各 个文献对参考文献的倾向性态度,根据所述倾向性态度中所包含的某一文献作为参考文献 出现的次数、作为参考文献获得好评的次数、该文献中对其他文献加以好评与差评的比率, 生成对所述文献集合中文献的推荐度。本发明的优点在于
本发明通过分析文献中的引证文本,自动获取了文献作者对所引用参考文献的评 价,具有适用范围广、受制约较少的优点。而本发明所生成的文献推荐度由于综合考虑了他 引频次、他引好评率、评他率等多方面的主客观影响因素,因而也具有全面、客观、公正的优
点ο


图1为本发明的文献自动评价方法的流程图;图2为本发明的文献自动评价方法中的语义块切分操作的流程图;图3为本发明的文献自动评价方法中的句类假设和检验操作的流程图;图4为本发明的文献自动评价方法中的语句倾向性分析的流程图;图5为本发明的文献自动评价系统的结构图。
具体实施例方式下面结合附图和具体实施方式
对本发明加以说明。在本发明的一个实施例中,从中国知网(http://Vw.cnki.net)下载了关于新能 源汽车领域的论文文献139篇,得到一个文献集合。在本实施例中需要对该文献集合中的 各个文献进行评价。由于对各文献的评价过程基本类似,因此在下面的描述中将以其中的 一篇文献为例并结合图1进行说明。提取与参考文献有关的文本在一篇名称为《天然气汽车甲烷专用吸附剂的研究开发概况》的论文中,首先要找 出该论文所包含的所有参考文献的信息。众所周知,在论文中对参考文献的引用有一定的规定,例如在一篇论文的结尾处 有对论文中所引用的全部参考文献进行说明的附录。前述论文《天然气汽车甲烷专用吸附 剂的研究开发概况》中的附录的形式如下“参考文献[1]肖锦堂.国外天然气消费利用现状和发展动向[J].石油与天然气化工,1997, 26(2) 94-99.[2]陈进富,陆绍信.吸附法储存天然气汽车燃料技术的研究[J].天然气工业, 1999,19(4) 81-83.[3]邹勇,吴肇亮,陆绍信,朱亚杰.微孔炭质吸附剂吸附储存天然气的最佳孔径 研究[J]·石油与天然气化工,1997,26(1) 15-16.[4]陈进富,娄世松,陆绍信.天然气吸附剂的开发及其储气性能的研究[J].燃料 化学学报,1999,27 (5) 399-402.[5]邹勇,韩布兴,阎海科.储存天然气用高目的微孔炭质吸附剂的研究[J].炭素 技术,1998,(5) 23-25.[6]刘海燕,乔文明,凌立成,刘朗.炭质吸附剂吸附储存天然气浅谈[J].炭素技 术,1999,(1) 17-21.[7]唐晓东.天然气汽车的储气技术[J].石油与天然气化工,1997,26(4) 227-231.[8]徐文渊.液化天然气、压缩天然气的生产和应用[J].天然气工业,1993,
913(3) 76-79.[9]Matranga K R, Myers A L, Glandt E D, Storage of nature gas by adsorption on activated carbon[J]. Chemical Engineering Science,1991,47 (7) 1569.[10]Quinn D F, Macdonald J A, Nature gas storage[J], C arbon,1992,30 (7) 1097-1103.[11]Parkyns N D,Quinn D F,Nature gas adsorbed on carbon[A]. Porosity in carbons[C]. Patrick J W, London Edward Arnold,1995. 302. ”上述附录中包含有论文所引用的参考文献的作者、出处、发表日期等信息。由于 本发明所要完成的工作是要对参考文献做出评价,因此必然要将参考文献信息从整个论文 文本中提取出来。在一个具体的实现方式中,在输入前述论文的文本后,首先寻找“参”字, 然后跳过文本中的空格等非汉字字符,获得四个汉字组成的字符串R。如果R等于“参考文 献”,且R前为空格、回车或标点符号,R后为一篇参考文献的起始特征(如“[1]”、“1. ”), 那么记录R在论文文本中的位置iPos。接着从iPos开始,逐篇获取论文文本中的所有参考 文献。在获取一篇论文的参考文献的过程中,先获取iPos后的参考文献起始特征(如 “⑴”、“L ”、“1”等),然后获取下一篇参考文献(如“[2]”、“2. ”、“2”等)的起始位置 iPosl,如果参考文献起始特征的风格一致,即“ [1] ”后面是“ [2] ”、“1”后面是“2”,那么由 iPos和iPosl之间的文本内容就可以得到一篇参考文献的内容,如参考文献的作者、文献 名、出版单位、出版时间等,这些内容存入一个数组refArray中。如果没有找到下一篇参考 文献的起始特征,那么把所述的iPosl设置为其后回车符号的位置(没有回车符号则为文 本末尾),把iPos和iPosl之间的文本内容作为最后一篇参考文献存入数组refArray中。 在完成对一篇论文的参考文献的获取后,可以把iPos的位置设为iPosl的位置,然后重复 上述操作就能够得到论文文本中的所有参考文献。上述说明有一个潜在的前提,那就是论文文本中所有论文的附录中的参考文献的 格式描述是一致的,在实际情况中必然存在不同论文文本中的参考文献的格式描述不一致 的情况。但一般来说,同一论文文本中的参考文献的格式描述是一样的,因此在获取一篇论 文文本的参考文献的内容之前,可以预先确定该论文对参考文献的格式描述,然后根据具 体的格式描述调用相应的参考文献内容获取方法。虽然在前面的例子中只给出了如前面所 列举的参考文献内容的获取方法,但对于其它格式的参考文献,参照前述方法同样可以获 取与参考文献有关的信息。论文中对参考文献的描述除了附录中的内容外,还包括在论文正文部分对参考文 献的评述,这些评述可被称为引证文本。本发明还需要将引证文本从论文文本中提取出来。 在提取引证文本的过程中,对于论文文本,在所述的iPos之前,找到引用参考文献的起始 标志(如“[”)的位置iPos2,然后往后寻找对应的结束标志(如“]”)iPos3。如果iPos2 和iPos3之间的内容为数字,或者数字之间用符号(如“_”、“,”)隔开,并且iPos3之后的 内容为标点符号或回车,那么从iPos2往前找到句号等语句结束符的位置iPos4,从iPos3 往后找到句号等语句结束符的位置iPos5,把iPos4和iPos5之间的文本内容S作为一个引 用了参考文献的语句,并存入一个数组sArray中。然后在S之后iPos之前继续寻找参考文献的起始标志,直到找不到为止。对于参考文献起始标志不是“[”的情况,如“ (Abney, 1990) ”,可以根据标志符做类似的处理。通过上述两个步骤的相关操作,可以得到两种类型的数组,在数组refArray中包 含有参考文献的内容,在数组sArray中包含有引证文本的内容。在下面的操作中将根据上 述两个数组中的内容实现对论文文献的评价。语义分析所述语义分析是要对前一操作中所得到的引证文本进行分析,得到引证文本中所 包含的语义内容。语义分析可以分为分词、语义块切分、假设检验和语义块构成分析等多个 操作。通过语义分析可以得到语句的概念类型、语句中语义块的划分和角色、各语义块内部 的构成成分及其关系等多种类型的信息。下面对语义分析中的各个操作分别予以说明。1、分词处理与西文句子中词与词之间存在间隔不同,汉语句子中的各个词语之间并没有明确 的分界线,因此需要对汉语句子做分词、分段操作。所述的分词操作是根据通用词语知识库 形成的词典按照诸如最大匹配法等相关算法把句子切分为词语,同时获得字、词在通用词 语知识库中的概念符号、概念类别等知识,以备后续阶段使用。所述的分段操作主要是把连 续出现的数字、英文字母、以及配对标号(如书名号“《》”)形成的数字段、英文段和标号段 作为一个整体处理。特别的,对于成语、俗语等固定的整体也把它们作为字段处理,而不是 拆成字或词。在上述的分词、分段过程中所涉及的通用词语知识库是指用来存储常用词语 及其概念符号的知识库。上述说明中,分词、分段操作的具体实现以及词语知识库的构建都 为本领域技术人员的公知常识,因此不在此处做详细说明。2、语义块切分引证文本中的句子在经过前述的分词操作而被切分成词语以后,词语成为了相关 操作的基本单位。由于词语在通用词语知识库中已经对词语的属性信息有定义好的概念类 别,例如“ 1,,类概念是指“把、被、向、对”等语言逻辑虚词,“V”类概念是指动态概念(通常 是动词),因此可以由词语的概念类别进一步得到句子的概念类别。考虑到句子中语义块的 切分主要依靠“1”类概念和“V”类概念,因此一个句子经过分词后,可以用下面的公式(1) 来表示
权利要求
一种文献自动评价方法,包括步骤1)、从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本;步骤2)、对所述引证文本中的语句做语义分析,所述语义分析包括将所述语句切分成词语的分词处理,根据所述词语的概念类别生成所述语句的概念类别的语义块切分,以及根据所述语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验;步骤3)、根据步骤2)所得到的语句的语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分析的结果以及步骤1)所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态度。
2.根据权利要求1所述的文献自动评价方法,其特征在于,还包括步骤4)、统计一个文献集合中的各个文献对参考文献的倾向性态度,根据所述倾向性 态度中所包含的某一文献作为参考文献出现的次数、作为参考文献获得好评的次数、该文 献中对其他文献加以好评与差评的比率,生成对所述文献集合中文献的推荐度。
3.根据权利要求1或2所述的文献自动评价方法,其特征在于,在所述的步骤2)中,在 所述的句类假设和检验后还包括对包含有句子以及句子变形的复杂语义块的构成分析。
4.根据权利要求1或2或3所述的文献自动评价方法,其特征在于,在所述的步骤2) 中,所述的分词处理包括根据已知的通用词语知识库对所述引证文本中的语句切分成字或 词语,同时得到该字或词语的概念符号和概念类别。
5.根据权利要求1或2或3所述的文献自动评价方法,其特征在于,在所述的步骤2) 中,所述的语义块切分包括步骤2-1-1)、根据所述分词处理所得到的词语的概念类别,找出所述语句中用于表示 语言逻辑虚词的“ 1,,类概念以及用于表示动态概念的“V”类概念;步骤2-1-2)、对于所述语句中得到的多个“V”类概念,逐个进行如下操作如果其前后 概念符合预先制定的排除规则的条件,那么去除该概念的“V”类概念属性;步骤2-1-3)、对于进行排除操作后剩下的多个“V”类概念,按照优选规则计算出每一 个“V”类概念作为特征语义块的权重,然后按所述权重做从大到小的排队;步骤2-1-4)、根据特征语义块的构成规则,把“V”类概念与前后的修饰概念合并得到 特征语义块EK ;步骤2-1-5)、根据特征语义块EK和EK之前的“ 1 ”类概念,把它们切分语句后形成的字 词组合作为广义对象语义块GBK。
6.根据权利要求1或2或3所述的文献自动评价方法,其特征在于,在所述的步骤2) 中,所述的句类假设和检验包括步骤2-2-1)、在排队后的多个特征语义块中按顺序进行假设,根据假设的特征语义块 得到语句的概念类别,由所述语句的概念类别得到该语句对应的所有可能的实际句类表达 式和语义块,并得到语句所对应的实际语句格式;步骤2-2-2)、由所述语句的概念类别得到句类知识中标准的句类表达式和语义块约束 知识,由特征语义块的核心概念词语得到词语知识库中的句类约束、语句格式约束和语义 块约束知识;步骤2-2-3)、将步骤2-2-2)得到的约束知识与步骤2-2-1)中假设得到的实际句类表达式和语义块在语义块个数、语句格式、语义块核心概念三个方面依次进行比较,保留比较 结果都符合的句类表达式和语义块。
7.根据权利要求3所述的文献自动评价方法,其特征在于,在所述的步骤2)中,所述复 杂语义块的构成分析包括步骤2-3-1)、判断所述复杂语义块的类型,若为块扩或原型句蜕,执行下一步,若为要 素句蜕,执行步骤2-3-3),若为包装句蜕,执行步骤2-3-4);步骤2-3-2)、将所述复杂语义块中的用于表示动态概念的“V”类概念作为新语句的特 征语义块进行句类的假设和检验,结束本步骤的操作;步骤2-3-3)、对所述复杂语义块中的用于表示动态概念的“V”类概念重新恢复特征语 义块的资格,然后进行新语句的句类假设和检验,结束本步骤的操作;步骤2-3-4)、识别出所述包装句蜕外部作为“包装品”的字或词或短语,去除该包装品, 然后对剩余的部分进行句类的假设和检验,结束本步骤的操作。
8.根据权利要求1或2或3所述的文献自动评价方法,其特征在于,所述的步骤3)包括步骤3-1)、判断所述引证文本的语句中是否包含极性词语,如果未包含,则所述引证文 本对参考文献的倾向性态度为中性,结束本步骤的操作,如果包含,则执行下一步;步骤3-2)、提取所述引证文本中的语句的语义分析结果,所述语义分析结果包括语句 的句类、语义块以及语义块的内部结构;步骤3-3)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的 主语义块个数为2,那么按二元模型计算语句的倾向性态度;其中,所述主语义块包括特征 语义块以及广义对象语义块,所述二元模型为“AB”的形式,A表示被评价对象,B表示极性 词语;步骤3-4)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的 主语义块个数为3,那么按三元模型计算语句的倾向性态度;其中,三元模型为“CXD”的形 式,C表示评价者,X表示极性词语,D表示被评价对象;步骤3-5)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的 主语义块个数为4,那么先按二元模型计算广义对象语义块GBK2和广义对象语义块GBK3的 组合,然后再与广义对象语义块GBKl和特征语义块EK组合,按三元模型计算语句的倾向性 态度;步骤3-6)、如果广义对象语义块GBK只含两个特征词语,那么按二元模型计算其倾向 性态度,并把结果返回;步骤3-7)、如果广义对象语义块GBK内含多个特征词语,按照特征词语在语句中的位 置,从左到右逐个减少进行递归处理,减少到只有两个特征词语时,转步骤3-6);步骤3-8)、如果语句的广义对象语义块GBK内含语句,那么把广义对象语义块GBK作为 新语句,对该新语句做语义块分析后执行步骤3-2),做递归处理; 步骤3-9)、递归处理结束,获得语句的一个总的倾向性态度。
9.根据权利要求2或3所述的文献自动评价方法,其特征在于,所述的步骤4)包括 步骤4-1)、统计一个文献集合中的各个文献对参考文献的倾向性态度以及相关的统计信息,包括引证文本中出现的参考文献总数凡、某篇文献的他引次数Tl·、作者对参考文献的好评总数4、作者对参考文献的差评总数民、在文献的他引次数中获得好评的次数Gte、在文 献的他引次数中获得好评和差评的总次数Pte ;步骤4-2)、分别计算文献的他引好评率Gte/Pte、文献的评他好评率(VX、文献的评他差 评率;步骤4-3)、设定权重修正系数α ;步骤4-4)、根据下列公式计算文献推荐度Rec = Tr+Gtr/Ptr+Max (Gr/Nr, Br/Nr) + α (Gr+Br)/Nr。
10.一种文献自动评价系统,其特征在于,包括文献及引文分析器、特征词语知识库、通 用词语知识库、分词处理器、语句语义分析器以及文献评价器;其中,所述的文献及引文分析器用于从文献中提取所述文献中所含参考文献的内容以及所 述文献中对参考文献的引证文本,并传给所述的分词处理器;所述的特征词语知识库用于存储极性词语及词语的褒贬属性、立场属性、逻辑属性和 程度属性,这些信息被提供给所述的文献评价器使用;所述的通用词语知识库用于存储常用词语及其概念符号,并向分词处理器和语句语义 分析器提供所需的词语及其概念符号;所述的分词处理器用于将所述引证文本中的语句切分成词语,并送入到所述语句语义 分析器;所述的语句语义分析器用于根据词语的概念类别生成所述语句的概念类别,以及根据 所述语句的概念类别生成该语句的句类表达式和语义块;所述的文献评价器用于根据语句语义分析器所得到的语句的语义块和句类表达式、所 述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析, 由所述倾向性分析的结果以及所述文献及引文分析器所得到的参考文献的内容得到所述 弓I证文本对参考文献的倾向性态度。
11.根据权利要求10所述的文献自动评价系统,其特征在于,还包括有文献推荐度评 价器,它用于统计一个文献集合中的各个文献对参考文献的倾向性态度,根据所述倾向性 态度中所包含的某一文献作为参考文献出现的次数、作为参考文献获得好评的次数、该文 献中对其他文献加以好评与差评的比率,生成对所述文献集合中文献的推荐度。
全文摘要
本发明提供一种文献自动评价方法,包括从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本;对所述引证文本中的语句做语义分析,所述语义分析包括将所述语句切分成词语的分词处理,根据所述词语的概念类别生成所述语句的概念类别的语义块切分,以及根据所述语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验;根据语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分析的结果以及参考文献的内容得到所述引证文本对参考文献的倾向性态度。
文档编号G06F17/30GK101937462SQ20101027298
公开日2011年1月5日 申请日期2010年9月3日 优先权日2010年9月3日
发明者张全, 池毓焕, 缪建明, 韦向峰, 黄曾阳 申请人:中国科学院声学研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1