一种文档评估方法及装置与流程

文档序号:11654251阅读:224来源:国知局
一种文档评估方法及装置与流程

本发明涉及文档信息管理及处理技术领域,具体涉及一种文档评估方法及装置。



背景技术:

随着服务器存储容量的海量增长以及云计算的快速普及,组织机构积累了越来越多的电子文档。但实际上,在这些电子文档中,真正重要的电子文档只占其中的一小部分。而当电子文档的数量过多时,人工的对电子文档进行查看并筛选出其中重要的电子文档显然是很困难的。为了筛选出其中真正重要的电子文档的信息及内容,出现了各种对电子文档的评估方法。但是,现有的这些电子文档的评估方法多为从单一角度对电子文档进行评估,容易导致最终的评估结果不全面或不准确,用户可能因过于依赖评估结果而错过某些电子文档中的重要信息,给企业带来损失。



技术实现要素:

有鉴于此,本发明实施例提供了一种文档评估方法及装置,旨在为用户提供一种更可靠的文档评估方法,避免用户遗漏文档中的重要信息。

本发明实施例的第一方面提供了一种文档评估方法,所述文档评估方法包括:

获取目标文档的抽取信息,所述抽取信息包括:命名实体、长名词短语及长动词短语;

基于所述抽取信息,计算所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,其中,所述技术原创性指标用来表达所述目标文档在所述目标文档所在的文档集合中的创新程度,所述写作质量特征度指标用来表达所述目标文档在所述文档集合中的复杂程度,所述技术分布度指标用来表达所述目标文档的抽取信息在所述文档集合的其它文档中的分布程度;

对所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标进行加权求和,得到所述目标文档的综合重要度评分;

输出所述目标文档的综合重要度评分。

本发明实施例的第二方面提供了一种文档评估装置,所述文档评估装置包括:

抽取信息获取单元,用于获取目标文档的抽取信息,所述抽取信息包括:命名实体、长名词短语及长动词短语;

多维度指标计算单元,用于基于所述抽取信息获取单元获取到的抽取信息,计算所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,其中,所述技术原创性指标用来表达所述目标文档在所述目标文档所在的文档集合中的创新程度,所述写作质量特征度指标用来表达所述目标文档在所述文档集合中的复杂程度,所述技术分布度指标用来表达所述目标文档的抽取信息在所述文档集合的其它文档中的分布程度;

综合重要度评分计算单元,对所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标进行加权求和,得到所述目标文档的综合重要度评分;

综合重要度评分输出单元,输出所述目标文档的综合重要度评分。

由上可见,在本发明实施例中,首先获取目标文档的抽取信息,所述抽取信息包括:命名实体、长名词短语及长动词短语,然后基于所述抽取信息,计算所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,其中,所述技术原创性指标用来表达所述目标文档在所述目标文档所在的文档集合中的创新程度,所述写作质量特征度指标用来表达所述目标文档在所述文档集合中的复杂程度,所述技术分布度指标用来表达所述目标文档的抽取信息在所述文档集合的其它文档中的分布程度,接着对所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标进行加权求和,得到所述目标文档的综合重要度评分,最后输出所述目标文档的综合重要度评分。由于本发明实施例中的抽取信息覆盖了命名实体、长名词短语及长动词短语三个方面,因而能够很好地涵盖目标文档中的有用信息,避免目标文档中的有用信息被遗漏。同时,从技术原创度、写作质量特征度及技术分布度三个维度对目标文档进行评估,能够让用户直观且全面的了解到目标文档在文档集合中的综合重要程度,帮助企业更好的做出决策。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的文档评估方法的实现流程图;

图2是本发明实施例提供的文档评估方法步骤s102计算技技术原创度指标的具体实现流程图;

图3是本发明实施例提供的文档评估方法步骤s102计算写作质量特征度指标的具体实现流程图;

图4是本发明实施例提供的文档评估方法步骤s102计算技术分布度指标的具体实现流程图;

图5是本发明实施例提供的文档评估方法步骤s103的具体实现流程图;

图6是本发明实施例提供的文档评估装置的结构框图;

图7是本发明实施例提供的智能终端的结构示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

实施例一

图1示出了本发明实施例一提供的文档评估方法的实现流程,详述如下:

在步骤s101中,获取目标文档的抽取信息,上述抽取信息包括:命名实体、长名词短语及长动词短语。

在本发明实施例中,首先获取目标文档的抽取信息,上述抽取信息包括:命名实体、长名词短语及长动词短语。其中,可以采用基于层次隐马尔科夫模型(hiddenmarkovmodel,hmm)的汉语词法分析系统(freeinstituteofcomputingtechnologychineselexicalanalysissystem,freeictclas)对目标文档进行分词处理、词形标注处理及命名实体识别处理,以获得上述目标文档包含的命名实体;再采用中文句法语义分析系统(niuparser)对上述目标文档进行成分句法分析处理,以获得上述目标文档包含的长名词短语及长动词短语,上述汉语词法分析系统及中文句法语义分析系统均为开源处理工具。具体地,下表示出了上述命名实体包括的类别及对应描述:

需要说明的是,限于篇幅,上表仅仅示出了基础的十八类命名实体,在实际应用中,根据用户所处的行业领域,除了上述十八种命名实体类别之外,还可以有其它的类别,例如,从事金融业的用户可以自行定义金融领域的专业术语作为一个新类别;当然,用户也可以根据自身需求对上述命名实体包含的十八种类别进行删减,此处不作限定。为了更好的对本方案进行说明,以上述命名实体包含上述十八种类别对本发明实施例进行描述。因而,在本发明实施例中,上述抽取信息共包含上述十八类命名实体、长名词短语及长动词短语,一共二十种类别。

在步骤s102中,基于上述抽取信息,计算上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标。

在本发明实施例中,基于上述步骤s101获取到的抽取信息,计算上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标。以下为对上述三种指标的具体解释:

对于技术原创性指标来说,在技术性文档中,若一种技术概念被越早提出,并且随后越来越多的在其它的技术性文档中所提及,则表明该技术概念具备技术方面的原创性。基于此,本发明实施例提出了一种技术原创性指标,用来表达目标文档在上述目标文档所处的文档集合中在技术概念方面的创新程度;

对于写作质量特征度指标来说,在技术性文档中,若出现的不重复的字、词、命名实体、长名词短语及长动词短语的个数越多,则表明这篇技术性文档所涉及的写作质量特征越复杂。基于此,本发明实施例提出了一种写作质量特征度指标,用来表达目标文档在上述目标文档所处的文档集合中在写作质量特征方面的复杂程度;

对于技术分布度指标来说,在技术性文档中,若从文档中获得的抽取信息在文档集合的其它文档中出现的次数越多,则表明该技术性文档所代表的技术在文档集合中分布的越广泛,即,该文档的抽取信息受到了其它技术性文档的广泛支持。基于此,本发明实施例提出了一种技术分布度指标,用来表达目标文档在上述目标文档所处的文档集合中在技术内容方面的分布程度。

在步骤s103中,对上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标进行加权求和,得到上述目标文档的综合重要度评分。

在本发明实施例中,将步骤s102中获得的技术原创度指标,写作质量特征度指标及技术分布度指标进行加权求和,得到上述目标文档的综合重要度评分。用户可根据需求,对上述三种指标的权重进行分配及增减。若目标文档获得的综合重要度评分越高,则表明该文档以上述三种指标的综合角度来看越为重要;若目标文档的综合重要度评分越低,则表明该文档以上述三种指标的综合角度来看越为不重要。

在步骤s104中,输出上述目标文档的综合重要度评分。

在本发明实施例中,将步骤s103中得到的上述目标文档的综合重要度评分输出,以便用户能够通过查阅文档的综合重要度评分获知文档的重要程度。用户可以根据各文档的综合重要度评分,重点查阅评分较高的文档,而酌情忽略评分较低的文档,方便用户在文档集合中的文档较多时,依据文档的重要程度对文档进行有序的处理。

可选地,为了使用户更为全面的获知目标文档所要表达的内容,在上述步骤s101之后,上述文档评估方法还包括:

根据各个目标摘要句在上述目标文档中的先后顺序,依次提取各个目标摘要句及各个目标摘要句的上下文,生成上述目标文档的全文摘要,其中,上述目标摘要句为包含上述抽取信息的句子;

输出上述目标文档的全文摘要。

其中,与常见的基于词语重要度的全文摘要不同,本发明实施例提供了一种基于抽取信息邻近位置的全文摘要。其过程为,首先遍历目标文档中的各个句子的子句,找到其中包含上述抽取信息的子句作为目标摘要句,并根据各个目标摘要句在上述目标文档中的先后顺序,依次提取各个目标摘要句及各个目标摘要句的上下文,生成上述目标文档的全文摘要。其中,上述各个目标摘要句的上下文具体为与上述各个目标摘要句前后相邻的子句。当生成了上述基于抽取信息邻近位置的全文摘要后,将上述目标文档的全文摘要输出,供用户查阅。上述基于抽取信息邻近位置的全文摘要使得用户不会遗漏文档中的任何有用信息,为用户提供了一种基于抽取信息的视图,相比于基于词语重要度的全文摘要更为全面。

可选地,为了获得上述文档集合的知识聚集,使用户能够直观的获得文档集合的抽取级别(extraction-level)的信息,上述文档评估方法还包括:

获取上述文档集合中的各个文档的抽取信息,并依次将文档集合中的各个文档确定为目标文档;

基于上述目标文档的抽取信息与其它各个文档的抽取信息,获取上述目标文档与其它各个文档的相似度;

基于上述文档集合中文档间的相似度,对上述文档集合的文档进行聚类处理。

其中,针对任一文档,在获取了该文档的抽取信息之后,均可以用该文档的抽取信息表示该文档。具体的,任一文档都可由二十个二维向量表示。该二维向量的第一维表示抽取信息的类别,第二维表示该文档包含的所有该类别抽取信息的词语片段。在计算目标文档与其它文档的相似度时,其计算公式(1)具体可以为:

上式中,u为代表目标文档的二维数组,v为代表其它任一文档的二维数组;s为文档u与文档v之间相似度;i的取值范围为1,2,……,20,代表二十类不同的抽取信息;j为文档u中第i类抽取信息下的第j个词语片段;k为文档v中第i类抽取信息下的第k个词语片段;约束条件s.t.给出了s'(uij,vik)的计算方法,q代表量词,c代表币种,t代表时间,当抽取信息的类别为数量时,则在文档u中获得的抽取信息qj的量词与文档v中获得的抽取信息qk的量词相等时,取二者的相似度为1;当抽取信息的类别为货币值时,则在文档u中的获得的抽取信息cj的币种与文档v中获得的抽取信息ck的币种相等时,取二者的相似度为1;当抽取信息的类别为时间或日期时,则在文档u中获得的抽取信息tj的时间与文档v中获得的抽取信息tk的时间相近似时,取二者的相似度为1;当抽取信息的类别为百分比、序数词或不属于序数词的数词时,则只有在文档u中获得的抽取信息uij与文档v中获得的抽取信息vik完全相等时,才取二者的相似度为1;当抽取信息的类别为除了上述七种类别的其它类别时,则利用n减去ed(uij,vik)计算得到文档u中抽取信息uij与文档v中抽取信息vik的相似度,其中,n为预设的常量,ed为莱温斯坦编辑距离(levenshteindistance)函数。上式中s(u,v)的计算方法为,在一种抽取信息类别下,分别将目标文档u中的各个抽取信息依次与另一文档v中的各个抽取信息进行相似度计算,保留获得的最大相似度后,进行累加,作为该抽取信息下目标文档u与另一文档v的相似度。以此类推,在分别获得二十种抽取信息类别下目标文档u与另一文档v的相似度后,进行求和运算,得到基于抽取信息的目标文档u与另一文档v的相似度。为了更好的说明上式,以下以具体的例子对上式进行说明:

在文档u中,仅以其获得的两类抽取信息作为运用上式的例子,分别为日期类抽取信息及货币值类抽取信息;其中,上述日期类抽取信息包括:2017年3月24日,2013年4月26日及2015年8月30日;上述货币值类抽取信息包括:236英镑,35人民币及89欧元。而在文档v中,也获得了上述两类抽取信息,其中,上述日期类抽取信息包括:1993年4月24日,2000年8月26日及2016年12月25日;上述货币值类抽取信息包括:400法郎,562人民币及76日元。在本例中,对日期类抽取信息相近似的范围设定为在半年内。

首先基于日期类抽取信息,计算文档u与文档v的相似度。在这里,先对文档u中的日期类抽取信息“2017年3月24日”进行相似度计算,根据上式的约束条件,可以得到其与“1993年4月24日”的相似度为0,与“2000年8月26日”的相似度为0,与“2016年12月25日”的相似度为1,其中相似度最大值为与“2016年12月25日”的相似度,则对抽取信息“2017年3月24日”仅保留该相似度最大值1,即,对于文档u中的“2017年3月24日”这一抽取信息来说,其与文档v的相似度为1。相应的,可以得到文档u中,抽取信息“2013年4月26日”与文档v的相似度为0,抽取信息“2015年8月30日”与文档v的相似度为1。则对于文档u的日期类抽取信息来说,其与文档v的日期类抽取信息的相似度为1+0+1=2。

然后基于货币值类抽取信息,计算文档u与文档v的相似度。在这里,先对文档u中的货币值类抽取信息“236英镑”进行相似度计算,根据上式的约束条件,可以得到其与“400法郎”的相似度为0,与“562人民币”的相似度为0,与“76日元”的相似度也为0,其中相似度最大值为0,则对抽取信息“236英镑”仅保留该相似度最大值0,即,对于文档u中的“236英镑”这一抽取信息来说,其与文档v的相似度为0。相应的,可以得到文档u中,抽取信息“35人民币”与文档v的相似度为1,抽取信息“89欧元”与文档v的相似度为0。则对于文档u的货币值类抽取信息来说,其与文档v的货币值类抽取信息的相似度为0+1+0=1。

对于文档u,假设通过上式获得的基于其它十八类抽取信息的与文档v的相似度分别为x1,x2,x3,……,x18。则最终,获得基于抽取信息的文档u与文档v的相似度为2+1+x1+x2+x3+……+x18。

需要注意的是,虽然本例子中,将与日期类抽取信息相近似的范围设定为在半年内,但在实际应用中,该范围可以根据用户的需求进行调整,此处不作限定。同样的,与时间类抽取信息相近似的范围也可以根据用户的需求进行调整,此处亦不作限定。通过上式,可以得到文档集合中任意两个文档之间的相似度,并随后根据文档间相似度,利用k-均值(kmeans)聚类算法对该文档集合中的文档进行聚类处理。上述聚类过程,使得用户不仅仅获得了普通聚类处理的话题级别(topic-level)的信息,还能够直观地从中获得抽取级别的信息,能够为用户提供全新的视角,充分展示文档集合的知识视图,具有特别的应用价值。

由上可见,通过本发明实施例,在获得了文档的抽取信息后,不仅从技术原创性指标、写作质量特征度指标及技术分布度指标三个方面对文档进行了全面的综合评估,获得了文档综合重要度评分,保证了文档评估的可靠性及准确性,直观地告知了用户文档的评估结果;并且,还基于抽取信息提取出了全文摘要,使得用户通过浏览基于抽取信息的全文摘要就能够掌握文档的大致信息;进一步地,还为文档集合提供了基于抽取信息的文档聚类方法,使得用户能够获得抽取级别的信息,并帮助用户获得充分展示了文档集合的知识视图。

图2示出了步骤s102计算技技术原创度指标的一种具体实现流程,详述如下:

在步骤s201中,获取上述目标文档的长名词短语支持度、长动词短语支持度及上述目标文档归入上述文档集合中的时间。

在本发明实施例中,根据上述步骤s101中获取到的目标文档的抽取信息,获取上述目标文档的长名词短语支持度、长动词短语支持度及上述目标文档归入上述文档集合中的时间。其中,上述长名词短语支持度具体为长名词短语在目标文档中的支持度,长动词短语支持度具体为长动词短语在目标文档中的支持度,上述目标文档归入上述文档集合中的时间可以从文档属性存储的信息中获得。

在步骤s202中,根据预设的技术原创度评分公式,利用上述目标文档的长名词短语支持度、长动词短语支持度及上述目标文档归入文档集合中的时间,计算得到上述目标文档的技术原创度指标。

在本发明实施例中,可以根据预设的技术原创度评分公式,计算上述目标文档的技术原创度指标,上述预设的技术原创度评分公式(2)具体可以为:

上述公式中,s.t.为约束条件,ti为该目标文档中的第i个长名词短语或长动词短语,sup(ti)为第i个长名词短语或长动词短语ti的支持度,age-in-days(ti)为第i个长名词短语或长动词短语ti出现的时间,以天为单位计数,即目标文档归入文档集合中的时间,o(ti)为第i个长名词短语或长动词短语ti的技术原创度,o1为将目标文档中所有的长名词短语及长动词短语的技术原创度相加后,得到的目标文档的技术原创度。上述计算得到的值越大,表明该目标文档在技术原创度指标角度越重要。当然,也可以以其它方式获得目标文档的技术原创度指标,此处不作限定。

由上可见,通过本发明实施例,利用目标文档的长名词短语支持度、长动词短语支持度及上述目标文档归入文档集合中的时间对技术原创度指标进行计算,能够提高获得的目标文档的技术原创度指标的准确度,使得获得的目标文档的技术原创度指标能正确反映目标文档在文档集合中的创新程度。

图3示出了步骤s102计算写作质量特征度指标的一种具体实现流程,详述如下:

在步骤s301中,统计出剔除重复之后上述目标文档中的字数、词数及上述目标文档中各个类别的抽取信息出现的次数。

在本发明实施例中,统计出剔除了重复之后,上述目标文档中的字数、词数及上述目标文档中各个类别的抽取信息出现的次数。上述剔除了重复之后的字数及词数,即为目标文档中不同的字的数量及不同的词的数量;上述剔除了重复之后的各个类别的抽取信息出现的次数,即为各个类别的抽取信息下不同词语片段的数量。例如,在目标文档u中,对于gpe类抽取信息来说,一共出现了五次北京、三次深圳、三次上海及两次广州,则在统计gpe类抽取信息出现的次数时,剔除掉重复出现的部分,最终获得的gpe类抽取信息出现的次数为四次。

在步骤s302中,利用诱导有序加权平均算子,对统计出的上述目标文档的字数、词数及上述目标文档中各个类别的抽取信息出现的次数进行加权求和计算。

在本发明实施例中,可以利用诱导有序加权平均算子(inducedorderedweightedaveraging,iowa)对统计出的上述目标文档中各个类别的抽取信息出现的次数进行加权求和计算,其计算公式(3)具体可以为:

其中,c为写作质量特征度指标;iowa为诱导有序加权平均算子;由于在这里,不仅是对二十类抽取信息进行计算,还加入了目标文档的字、词,因而此处i的取值范围为1,2,……,22;v1,v2,……,v22分别为字数、词数及二十种抽取信息类别,其仅仅指代名字,并不作实际运算;a1,a2,……,a22为步骤s301获取到的与v1,v2,……,v22对应的不重复的字的数量、不重复的词的数量及不重复的一类抽取信息出现的次数,wi为预设的权重。

在步骤s303中,将上述加权求和计算的结果作为上述目标文档的写作质量特征度指标。

在本发明实施例中,将步骤s302加权求和计算的结果作为上述目标文档的写作质量特征度指标。上述计算得到的值越大,表明该目标文档在写作质量特征度指标角度越重要。当然,也可以以其它方式获得目标文档的写作质量特征度指标,此处不作限定。

由上可见,通过本发明实施例,利用剔除了重复之后的目标文档中的字数、词数及各个类别的抽取信息出现的次数对目标文档的写作质量特征度指标进行计算,能够提高获得的目标文档的写作质量特征度指标的准确度,使得获得的目标文档的写作质量特征度指标能正确反映目标文档在文档集合中的复杂程度。

图4示出了步骤s102计算技术分布度指标的一种具体实现流程,详述如下:

在步骤s401中,将上述文档集合中除上述目标文档之外的其它各个文档的抽取信息与上述目标文档的抽取信息进行相似度计算。

在步骤s402中,将上述其它各个文档的抽取信息与上述目标文档的抽取信息进行相似度计算得到的值作累加。

在本发明实施例中,利用预设的技术分布度指标计算公式对上述文档集合中除上述目标文档之外的其它各个文档的抽取信息与上述目标文档的抽取信息进行相似度计算,并随后将相似度计算的结果进行累加,其计算公式(4)具体可以为:

上式中,u为文档的二维向量表示;ua为目标文档;ub为文档集合中除了ua之外的其它文档;da为进行了累加计算后得到的结果,s(ua,ub)的计算方式可参照本实施例中进行文档聚类时所提出的相似度计算公式(1)进行计算,在此不作赘述。由于b的取值范围是不等于a的其它正整数,因而上式的运算过程为,在获得了目标文档ua与其它各个文档ub的相似度之后,将所得相似度的值进行累加。

在步骤s403中,将上述累加的结果作为上述目标文档的技术分布度指标。

在本发明实施例中,将上述步骤s402中累加的结果da作为上述目标文档的技术分布度指标。上述计算得到的值越大,表明该目标文档在技术分布度指标角度越重要。当然,也可以以其它方式获得目标文档的技术分布度指标,此处不作限定。

由上可见,通过本发明实施例,利用文档集合中除目标文档之外的其它各个文档的抽取信息与目标文档的抽取信息的相似度对目标文档的技术分布度指标进行计算,能够提高获得的目标文档的技术分布度指标的准确度,使得获得的目标文档的技术分布度指标能正确反映目标文档在文档集合的其它文档中的分布程度。

图5示出了步骤s103的一种具体实现流程,详述如下:

在步骤s501中,分别对上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标进行归一化处理,得到上述目标文档的归一化技术原创度指标,归一化写作质量特征度指标及归一化技术分布度指标。

在本发明实施例中,将步骤s102中获得的三种指标按照相应指标在文档集合的所有文档中所获得的最大值及最小值进行归一化处理,得到上述目标文档的归一化技术原创度指标,归一化写作质量特征度指标及归一化技术分布度指标。

在步骤s502中,利用诱导有序加权平均算子,对上述目标文档的归一化技术原创度指标,归一化写作质量特征度指标及归一化技术分布度指标进行加权求和计算。

在本发明实施例中,利用诱导有序加权平均算子,对上述目标文档的归一化技术原创度指标,归一化写作质量特征度指标及归一化技术分布度指标进行加权求和计算,其计算公式(5)具体可以为:

其中,i为对上述目标文档的三种指标进行加权求和计算的结果;iowa为诱导有序加权平均算子;v1,v2,v3分别代表上述三种指标,在此处并没有实际计算含义;n1,n2,n3分别为与v1,v2,v3对应的对上述三种指标进行了归一化处理后的值,wi为预设的权重。

在步骤s503中,将上述加权求和计算的结果转换为百分制,得到上述目标文档的综合重要度评分。

在本发明实施例中,为了符合普通用户的评分习惯,将上述步骤s502中获得的加权求和计算的结果转换为百分制,得到上述目标文档的综合重要度评分。

由上可见,通过本发明实施例,将三种角度的指标糅合为了综合重要度评分,使得用户能快速获知目标文档的综合重要程度,帮助用户有效利用文档。且最后的结果为百分制,更加符合普通用户的使用习惯。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

实施例二

对应于上文实施例所述的文档评估方法,图6示出了本发明实施例提供的文档评估装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。

参照图6,该文档评估装置6包括:抽取信息获取单元61,多维度指标计算单元62,综合重要度评分计算单元63,综合重要度评分输出单元64。

其中,抽取信息获取单元61,用于获取目标文档的抽取信息,上述抽取信息包括:命名实体、长名词短语及长动词短语;

多维度指标计算单元62,用于基于上述抽取信息获取单元61获取到的抽取信息,计算上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,其中,上述技术原创性指标用来表达上述目标文档在上述目标文档所在的文档集合中的创新程度,上述写作质量特征度指标用来表达上述目标文档在上述文档集合中的复杂程度,上述技术分布度指标用来表达上述目标文档的抽取信息在上述文档集合的其它文档中的分布程度;

综合重要度评分计算单元63,用于对上述多维度指标计算单元62获得的上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标进行加权求和,得到上述目标文档的综合重要度评分;

综合重要度评分输出单元64,用于输出上述综合重要度评分计算单元63计算得到的上述目标文档的综合重要度评分。

可选地,上述文档评估装置6还包括:

摘要生成单元,用于根据各个目标摘要句在上述目标文档中的先后顺序,依次提取各个目标摘要句及各个目标摘要句的上下文,生成上述目标文档的全文摘要,其中,上述目标摘要句为包含上述抽取信息的子句;

摘要输出单元,用于输出上述摘要生成单元生成的上述目标文档的全文摘要。

可选地,上述文档评估装置6还包括:

目标文档确定单元,用于获取上述文档集合中的各个文档的抽取信息,并依次将文档集合中的各个文档确定为目标文档;

聚类相似度计算单元,用于基于上述目标文档的抽取信息与其它各个文档的抽取信息,获取上述目标文档与其它各个文档的相似度;

聚类处理单元,用于基于上述文档集合中文档间的相似度,对上述文档集合的文档进行聚类处理。

可选地,上述抽取信息获取单元61,具体包括:

命名实体获取子单元,用于基于汉语词法分析系统对上述目标文档进行分词处理、词性标注处理及命名实体识别处理,获得上述目标文档包含的命名实体;

长短语获取子单元,用于基于中文句法语义分析系统对上述目标文档进行成分句法分析处理,获得上述目标文档包含的长名词短语及长动词短语。

可选地,上述多维度指标计算单元62,具体包括:

支持度获取子单元,用于获取上述目标文档的长名词短语支持度、长动词短语支持度及上述目标文档归入上述文档集合中的时间;

技术原创度指标计算子单元,用于根据预设的技术原创度评分公式,利用上述支持度获取子单元获取到的上述目标文档的长名词短语支持度、长动词短语支持度及上述目标文档归入文档集合中的时间,计算得到上述目标文档的技术原创度指标。

可选地,上述多维度指标计算单元62,具体包括:

次数统计子单元,用于统计出剔除重复之后上述目标文档的字数、词数及上述目标文档中各个类别的抽取信息出现的次数;

次数加权求和计算子单元,用于利用诱导有序加权平均算子,对上述次数统计子单元统计出的上述目标文档的字数、词数及上述目标文档中各个类别的抽取信息出现的次数进行加权求和计算;

写作质量特征度指标确定子单元,用于将上述次数加权求和计算子单元获得的计算结果作为上述目标文档的写作质量特征度指标。

可选地,上述多维度指标计算单元62,具体包括:

相似度计算子单元,用于将上述文档集合中除上述目标文档之外的其它各个文档的抽取信息与上述目标文档的抽取信息进行相似度计算;

相似度累加子单元,用于将上述其它各个文档的抽取信息与上述目标文档的抽取信息进行相似度计算得到的值作累加;

技术分布度指标确定子单元,用于将上述累加的结果作为上述目标文档的技术分布度指标。

可选地,上述综合重要度评分计算单元63,具体包括:

归一化处理子单元,用于分别对上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标进行归一化处理,得到上述目标文档的归一化技术原创度指标,归一化写作质量特征度指标及归一化技术分布度指标;

指标加权求和计算子单元,用于利用诱导有序加权平均算子,对上述归一化处理子单元得到的上述目标文档的归一化技术原创度指标,归一化写作质量特征度指标及归一化技术分布度指标进行加权求和计算;

百分制转换子单元,用于将上述指标加权求和计算子单元的计算结果转换为百分制,得到上述目标文档的综合重要度评分。

应理解,本发明实施例中的文档评估装置可以用于实现上述方法实施例中的全部技术方案,其各个单元的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。

由上可见,通过本发明实施例,文档评估装置在在获得了文档的抽取信息后,不仅从技术原创性指标、写作质量特征度指标及技术分布度指标三个方面对文档进行了全面且准确的综合评估,获得了文档综合重要度评分,保证了文档评估的可靠性及准确性,直观地告知了用户文档的评估结果;并且,还基于抽取信息提取出了全文摘要,使得用户通过浏览基于抽取信息的全文摘要就能够掌握文档的大致信息;进一步地,还为文档集合提供了基于抽取信息的文档聚类方法,使得用户能够获得抽取级别的信息,并帮助用户获得充分展示了文档集合的知识视图。

实施例三

本发明实施例提供了一种智能终端,下面对本发明实施例中的智能终端进行描述,请参阅图7,本发明实施例中的智能终端700包括:一个或一个以上计算机可读存储介质的存储器701、输入单元702、显示单元703、一个或者一个以上处理核心的处理器704、以及电源705等部件。本领域技术人员可以理解,图7中示出的智能终端结构并不构成对智能终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

存储器701可用于存储软件程序以及模块,处理器704通过运行存储在存储器701的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器701可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能终端700的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器701可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件。相应地,存储器701还可以包括存储器控制器,以提供处理器704和输入单元702对存储器701的访问。

输入单元702可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元702包括触敏表面7021以及其它输入设备7022。触敏表面7021,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面7021上或在触敏表面7021附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面7021可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器704,并能接收处理器704发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面7021。除了触敏表面7021,输入单元702还可以包括其它输入设备7022。具体地,其它输入设备7022可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元703可用于显示由用户输入的信息或提供给用户的信息以及智能终端700的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元703可包括显示面板7031,可选的,可以采用液晶显示器(lcd,liquidcrystaldisplay)、有机发光二极管(oled,organiclight-emittingdiode)等形式来配置显示面板7031。进一步的,触敏表面7021可覆盖显示面板7031,当触敏表面7021检测到在其上或附近的触摸操作后,传送给处理器704以确定触摸事件的类型,随后处理器704根据触摸事件的类型在显示面板7031上提供相应的视觉输出。虽然在图7中,触敏表面7021与显示面板7031是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面7021与显示面板7031集成而实现输入和输出功能。

处理器704是智能终端700的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器701内的软件程序和/或模块,以及调用存储在存储器701内的数据,执行智能终端700的各种功能和处理数据,从而对智能终端700进行整体监控。可选的,处理器704可包括一个或多个处理核心;优选的,处理器704可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器704中。

智能终端700还包括给各个部件供电的电源705(比如电池),优选的,电源可以通过电源管理系统与处理器704逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源705还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出,智能终端700还可以包括rf(radiofrequency,射频)电路、传感器、音频电路、无线保真(wifi,wirelessfidelity)模块、摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,智能终端700还包括一个或者一个以上程序存储于存储器701中,且经配置以由一个或者一个以上处理器704执行述一个或者一个以上程序,其中包含用于执行以下操作的指令:

获取目标文档的抽取信息,上述抽取信息包括:命名实体、长名词短语及长动词短语;

基于上述抽取信息,计算上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,其中,上述技术原创性指标用来表达所述目标文档在所述目标文档所在的文档集合中的创新程度,所述写作质量特征度指标用来表达上述目标文档在上述文档集合中的复杂程度,上述技术分布度指标用来表达上述目标文档的抽取信息在上述文档集合的其它文档中的分布程度;

对上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标进行加权求和,得到上述目标文档的综合重要度评分;

输出上述目标文档的综合重要度评分。

假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,在上述获取目标文档的抽取信息之后,还包括:

根据各个目标摘要句在上述目标文档中的先后顺序,依次提取各个目标摘要句及各个目标摘要句的上下文,生成上述目标文档的全文摘要,其中,上述目标摘要句为包含上述抽取信息的子句;

输出上述目标文档的全文摘要。

在上述第一种可能的实施方式或者第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,上述获取目标文档的抽取信息,包括:

基于汉语词法分析系统对上述目标文档进行分词处理、词性标注处理及命名实体识别处理,获得上述目标文档包含的命名实体;

基于中文句法语义分析系统对上述目标文档进行成分句法分析处理,获得上述目标文档包含的长名词短语及长动词短语。

在上述第一种可能的实施方式或者第二种可能的实施方式作为基础而提供的第四种可能的实施方式中,上述基于上述抽取信息,计算上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,包括:

获取上述目标文档的长名词短语支持度、长动词短语支持度及上述目标文档归入上述文档集合中的时间;

根据预设的技术原创度评分公式,利用上述目标文档的长名词短语支持度、长动词短语支持度及上述目标文档归入文档集合中的时间,计算得到上述目标文档的技术原创度指标。

在上述第一种可能的实施方式或者第二种可能的实施方式作为基础而提供的第五种可能的实施方式中,上述基于上述抽取信息,计算上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,包括:

统计出剔除重复之后上述目标文档的字数、词数及上述目标文档中各个类别的抽取信息出现的次数;

利用诱导有序加权平均算子,对统计出的上述目标文档的字数、词数及上述目标文档中各个类别的抽取信息出现的次数进行加权求和计算;

将上述加权求和计算的结果作为上述目标文档的写作质量特征度指标。

在上述第一种可能的实施方式或者第二种可能的实施方式作为基础而提供的第六种可能的实施方式中,上述基于上述抽取信息,计算上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,包括:

将上述文档集合中除上述目标文档之外的其它各个文档的抽取信息与上述目标文档的抽取信息进行相似度计算;

将上述其它各个文档的抽取信息与上述目标文档的抽取信息进行相似度计算得到的值作累加;

将上述累加的结果作为上述目标文档的技术分布度指标。

在上述第一种可能的实施方式或者第二种可能的实施方式作为基础而提供的第七种可能的实施方式中,上述基于上述抽取信息,计算上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,包括:

分别对上述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标进行归一化处理,得到上述目标文档的归一化技术原创度指标,归一化写作质量特征度指标及归一化技术分布度指标;

利用诱导有序加权平均算子,对上述目标文档的归一化技术原创度指标,归一化写作质量特征度指标及归一化技术分布度指标进行加权求和计算;

将上述加权求和计算的结果转换为百分制,得到上述目标文档的综合重要度评分。

需要说明的是,上述智能终端具体可以是智能手机、平板电脑、pc、pda、笔记本或其它智能终端,此处不作限定。

上述智能终端可以用于实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。

由上可见,本发明实施例的智能终端在获得了文档的抽取信息后,不仅从技术原创性指标、写作质量特征度指标及技术分布度指标三个方面对文档进行了全面且准确的综合评估,获得了文档综合重要度评分,保证了文档评估的可靠性及准确性,直观地告知了用户文档的评估结果;并且,还基于抽取信息提取出了全文摘要,使得用户通过浏览基于抽取信息的全文摘要就能够掌握文档的大致信息;进一步地,还为文档集合提供了基于抽取信息的文档聚类方法,使得用户能够获得抽取级别的信息,并帮助用户获得充分展示了文档集合的知识视图。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1