一种技术交底文本创新性评估方法、装置和设备与流程

文档序号:22470697发布日期:2020-10-09 22:01阅读:130来源:国知局
一种技术交底文本创新性评估方法、装置和设备与流程

本发明涉及数据智能处理技术领域,特别涉及一种技术交底文本创新性评估方法、装置和设备。



背景技术:

专利文件是世界上最大的技术信息资源,据统计专利文件包含了世界上90%~95%的科技技术信息,其作为一种无形财产越来越引起人们的重视。例如,2019年我国发明专利申请量为140.1万件,共授权发明专利45.3万件等。但是截至2019年12月底,全国专利代理机构仅2649家,执业专利代理师突破2万人,虽然与2012年底相比,分别增长了1.9倍和1.5倍。但是相较于专利申请数量与专利代理师人数的悬殊,依然有许多申请人不能及时高效的将自己研发过程中产生的发明创造提交到相关部门进行专利申请。

对于普通申请人,尤其是发明人而言,虽然很清楚发明创造的技术方案,但是对于专利的撰写规则和要求却知之甚少,很难独立撰写出合格的申请文件。而且,申请人目前只能对可能具备创新性的段落文本基于申请人自身的对本领域的理解进行评估,目前,还没有一种可行的辅助方式,能够帮助申请人预先检索评估,或者能够帮助那些了解技术方案但专利申请经验不足的申请人形成初步的申请文件,也没有能够帮助缺乏经验的申请人、发明人迅速建立起专利撰写文件的概念和掌握初步的方式。

因此在实际应用中的主要症结在于:现有的专利撰写工作均是人工撰写方式,会因为专利代理师业务水平的不同,撰写出的专利质量不一;现今没有辅助专利代理师提高撰写质量、提高检索效率和提高撰写效率相关系统,而且在撰写过程中可能具备创新性的段落文本是生成权利要求的重要因素,因此如何对该段落文本进行评估分析尤为重要,通过检索分析评估之后,可以有效辅助专利申请文件的智能生成。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种技术交底文本创新性评估方法、装置和设备。

第一方面,本发明实施例提供一种技术交底文本创新性评估方法,可以包括:

确定所述技术交底文本中的至少一个可能具备创新性的段落文本;

对至少一个所述可能具备创新性的段落文本中包含的语句进行聚类分析,得到至少一个中心语句;

以所述中心语句为检索对象在预先建立的检索数据库中进行检索,确定检索到的相似语句与所述中心语句的相似度值;

将所述相似度值与预设的相似度阈值进行比较,根据比较结果评估所述技术交底文本中的可能具备创新性的段落文本的创新性。

可选的,对至少一个所述可能具备创新性的段落文本中包含的至少一个语句进行聚类分析,得到至少一个中心语句,可以包括:

对至少一个所述语句进行向量化处理,得到所述语句对应的语句向量;

将所述语句向量使用预设的聚类算法进行聚类分析,得到至少一个中心语句向量;相应的,

以所述中心语句为检索对象在预先建立的检索数据库中进行检索,确定检索到的相似语句与所述中心语句的相似度值,包括:

以所述中心语句向量为检索对象在预先建立的检索数据库中的向量索引库中进行检索,得到相似语句,并根据计算出的所述相似语句与所述中心语句的相似度距离,确定所述相似语句与所述中心语句的相似度值。

可选的,以所述中心语句向量为检索对象在预先建立的检索数据库中的向量索引库中进行检索,确定所述相似语句与所述中心语句的相似度值,可以包括:

以所述中心语句向量作为检索对象的输入,根据预设的索引方式确定所述中心语句向量在所述检索数据库中的条目;

计算所述条目和相邻条目中所有语句向量与所述中心语句向量的相似度距离;

将得到的所述相似度距离按照从小到大进行排序,并获取排序结果中相似度距离从小到大预设数量的相似语句对应的相似度距离;

将所述相似语句与所述中心语句的相似度距离转换为相似度值;

所述条目包括:语句原文、该语句原文对应的语句向量以及该语句原文的全文编号。

可选的,该方法还可以包括:将得到的所述相似度距离按照从小到大进行排序,并获取排序结果中相似度距离从小到大预设数量的相似语句推送到所述技术交底文本中。

可选的,所述对至少一个所述语句进行向量化处理,得到每个语句对应的语句向量,可以包括:

对所述语句按照预设的分词方法进行分词处理,并将所述分词进行向量化处理得到分词向量;

以所述分词向量、所述分词在所述技术交底文本中的词频以及逆文档频率,进行加权求和后得到所述语句向量。

可选的,所述确定所述技术交底文本中的至少一个可能具备创新性的段落文本,可以包括:

判断所述技术交底文本中的段落文本是否标记有具备创新性的标识;

当包含有所述标识时,将标记有具备创新性标识的段落文本确定为所述可能具备创新性的段落文本;

当未包含有所述标识时,将所述技术交底文本中所有的段落文本进行语义分析,通过分析结果确定出可能具备创新性的段落文本。

可选的,所述将所述技术交底文本中所有的段落文本进行语义分析,确定出可能具备创新性的段落文本,可以包括:

将所述技术交底文本中的段落文本与所述技术交底文本中的背景技术文本进行比较,若其中包含有预设语库中的技术效果语句文本,则将该段落文本确定为可能具备创新性的段落文本;或,

在所述技术交底文本中的段落文本查找是否包含有技术效果语句文本,若该段落文本中包含有预设语库中的技术效果语句文本,则将该段落文本确定为可能具备创新性的段落文本;或,

将所述技术交底文本中的段落文本在预设的数据库中的段落文本进行比较,确定出所述技术交底中的段落文本与所述数据库中的段落文本的相似度,将相似度低于预设阈值的段落文本确定为可能具备创新性的段落文本。

第二方面,本发明实施例提供一种技术交底文本创新性评估装置,可以包括:

确定模块,用于确定所述技术交底文本中的至少一个可能具备创新性的段落文本;

聚类模块,用于对至少一个所述可能具备创新性的段落文本中包含的语句进行聚类分析,得到至少一个中心语句;

检索模块,用于以所述中心语句为检索对象在预先建立的检索数据库中进行检索,确定检索到的相似语句与所述中心语句的相似度值;

评估模块,用于将所述相似度值与预设的相似度阈值进行比较,根据比较结果评估所述技术交底文本中的可能具备创新性的段落文本的创新性。

第三方面,本发明实施例提供了另一种技术交底文本创新性评估方法,可以包括:

确定所述技术交底文本中的至少一个可能具备创新性的段落文本;

对至少一个所述可能具备创新性的段落文本中包含的关键词,按照预设的查找方式在所述关键词中进行查找,确定出核心关键词;

将所述核心关键词与其他关键词之间的相关度值与预设的相关度阈值比较,将大于所述预设相关度阈值的其他关键词确定为扩展关键词,或以所述核心关键词和其他关键词之间的相似度的大小进行降序排列,将排序结果中预设数量的其他关键词,确定为扩展关键词;

根据所述核心关键词和所述扩展关键词构建所述可能具备创新性的段落文本的目标检索特征序列;

以所述目标检索特征序列为检索对象,在预先建立的关系型数据库中进行检索,计算所述目标检索特征序列与预先建立的关系型数据库中的检索特征序列的相似度值;

将所述相似度值与预设的相似度阈值进行比较,根据比较结果评估所述技术交底文本中的可能具备创新性的段落文本的创新性。

第四方面,本发明实施例提供了另一种技术交底文本创新性评估装置,可以包括:

第一确定模块,用于确定所述技术交底文本中的至少一个可能具备创新性的段落文本;

第二确定模块,用于对至少一个所述可能具备创新性的段落文本中包含的关键词,按照预设的查找方式在所述关键词中进行查找,确定出核心关键词;

第三确定模块,用于将所述核心关键词与其他关键词之间的相关度值与预设的相关度阈值比较,将大于所述预设相关度阈值的其他关键词确定为扩展关键词确定为扩展关键词,或以所述核心关键词和其他关键词之间的相似度的大小进行降序排列,将排序结果中预设数量的其他关键词,;

构建模块,用于根据所述核心关键词和所述扩展关键词构建所述可能具备创新性的段落文本的目标检索特征序列;

检索模块,用于以所述目标检索特征序列为检索对象,在预先建立的关系型数据库中进行检索,计算所述目标检索特征序列与预先建立的关系型数据库中的检索特征序列的相似度值;

评估模块,用于将所述相似度值与预设的相似度阈值进行比较,根据比较结果评估所述技术交底文本中的可能具备创新性的段落文本的创新性。

第五方面,本发明实施例提供一种计算机可读存储介质,其中存储有计算机可执行指令,该可执行指令被处理器执行时可实现上述技术交底文本创新性评估方法。

第六方面,本发明实施例提供一种服务器,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,可用于实现上述技术交底文本创新性评估方法。

本发明实施例提供的上述技术方案的有益效果至少包括:

本发明实施例通过确定出的技术交底文本中的至少一个可能具备创新性的段落文本,对可能具备创新性的段落文本中包含的语句进行聚类分析得到至少一个中心语句;然后以中心语句为检索对象在预先建立的检索数据库中进行检索,确定检索到的相似语句和中心语句的相似度值;最后将相似度值与预设的相似度阈值进行比较,根据比较结果评估技术交底文本中可能具备创新性的段落文本的创新性。本发明实施例相对于现有技术中的人工分析的方式更加快速和准确,节约了大量了人力物力,能够有效辅助相关工作人员的撰写工作,整体上提高了撰写质量和效率。

可选的,因为可能具备创新性的段落文本中包含有多条语句,本发明实施例为了避免对不同的段落文本之间的多条语句分别检索评估的分散性,使得检索评估结果不能准确表征整体段落文本或者多个段落文本之间的中心含义、整体含义等,本发明实施例以语句通过聚类分析后的中心语句为检索对象进行检索,检索结果更接近至少一个可能具备创新性的段落文本的中心含义,检索评估更加精准,能够达到快速检索评估的目的。同时,在通过可能具备创新性的段落文本智能生成权利要求文本时,检索评估结果更能有效辅助多个创新性段落文本共同智能生成至少一项或多项有关联的权利要求文本。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例1中提供的技术交底文本创新性评估方法的流程图;

图2为步骤s12具体实现方法的流程图;

图3为步骤s13具体实现方法的流程图;

图4为本发明实施例1中提供的检索数据库的构建方法的流程图;

图5为步骤s11具体实现方法的流程图;

图6为本发明实施例中1提供的技术交底文本创新性评估装置的结构示意图;

图7为本发明实施例2中提供的另一种技术交底文本创新性评估方法的流程图;

图8为本发明实施例2中提供的另一种技术交底文本创新性评估装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中在专利撰写工作中人工撰写时对创新性评估费时费事的问题,本发明实施例提供了一种技术交底文本创新性评估方法、装置和设备,能够智能根据技术交底文本得到检索结果,并将评估结果提供给相关人员,节省了大量的人力成本,提高了专利撰写的效率和质量。

实施例1

本发明实施例1提供了一种技术交底文本创新性评估方法,参照图1所示,该方法可以包括以下步骤:

步骤s11、确定技术交底文本中的至少一个可能具备创新性的段落文本。

一般情况下,在一个技术交底文本中,并不是所有的技术交底文本中包含的段落文本均有创新性,一些段落文本是为了描述或解释发明创造中的技术术语,一些段落文本是为了说明发明创造实现逻辑和实现方式,当然还有一些段落文本是为了突出描述与现有技术的区别或者描述方案中的有益效果、进步等,因此,在对技术交底文本创新性进行评估时,需要确定出至少一个可能具备创新性的段落文本,以确定的可能具备创新性的段落文本为基础进行检索,进而评估该可能具备创新性的段落文本的创新性。

需要说明的是,本发明实施例中的上述可能具备创新性的段落文本,并不是一定具有创新性,可能是该方案的相关人员认为其有创新性或者粗分析认为有创新性,本申请就是针对上述可能具备创新性的段落文本进行再次分析,以达到智能评估的目的。

步骤s12、对至少一个可能具备创新性的段落文本中包含的语句进行聚类分析,得到至少一个中心语句。

本发明实施例中对技术交底文本中的可能具备创新性的段落文本检索评估的最终目的,是为了确定该段落文本创新性的高低,进而可以将创新性高的段落文本经过指针生成网络模型和/或序列到序列(seq2seq)模型,最终智能生成该可能具备创新性的段落文本对应的权利要求文本。

发明人发现,在使用技术交底文本中的可能具备创新性的段落文本智能生成权利要求文本时,由于不同段落文本之间可能在某种逻辑意义上存在内在的关联,因此本申请发明人提出不再应用一段可能具备创新性的段落文本单独生成一项权利要求文本,而是通过多段可能具备创新性的段落文本共同生成至少一项具有逻辑性、层次性的权利要求文本。即使用上述指针生成网络模型和/或序列到序列(seq2seq)模型在进行生成权利要求文本训练时,不再使用单一段落文本进行训练,而是将多个可能具备创新性的段落文本结合训练。

对应的,在对可能具备创新性的段落文本进行检索评估时,也需要将不同可能具备创新性的段落文本进行结合检索评估,以达到精准检索、快速检索、联合评估的目的。

步骤s13、以中心语句为检索对象在预先建立的检索数据库中进行检索,确定检索到的相似语句与中心语句的相似度值。

步骤s14、将相似度值与预设的相似度阈值进行比较,根据比较结果评估可能具备创新性的段落文本的创新性。

本发明实施例通过确定出的技术交底文本中的至少一个可能具备创新性的段落文本,对可能具备创新性的段落文本中包含的语句进行聚类分析得到至少一个中心语句;然后以中心语句为检索对象在预先建立的检索数据库中进行检索,确定检索到的相似语句和中心语句的相似度值;最后将相似度值与预设的相似度阈值进行比较,根据比较结果评估技术交底文本中可能具备创新性的段落文本的创新性。本发明实施例相对于现有技术中的人工分析的方式更加快速和准确,节约了大量了人力物力,能够有效辅助相关工作人员的撰写工作,整体上提高了撰写质量和效率。

进一步的,因为可能具备创新性的段落文本中包含有多条语句,本发明实施例为了避免对不同的段落文本之间的多条语句分别检索评估的分散性,使得检索评估结果不能准确表征整体段落文本或者多个段落文本之间的中心含义、整体含义等,本发明实施例以语句通过聚类分析后的中心语句为检索对象进行检索,检索结果更接近至少一个可能具备创新性的段落文本的中心含义,检索评估更加精准,能够达到快速检索评估的目的。同时,在通过可能具备创新性的段落文本智能生成权利要求文本时,检索评估结果更能有效辅助多个创新性段落文本共同智能生成至少一项或多项有关联的权利要求文本。

在一个可选的实施例中,上述步骤s12的具体实现方式,参照图2所示,可以包括以下步骤:

步骤s121、对至少一个语句进行向量化处理,得到语句对应的语句向量。

步骤s122、将语句向量使用预设的聚类算法进行聚类分析,得到至少一个中心语句向量。

上述步骤s121中,对所有的语句进行向量化处理,例如本发明实施例中提供的多条语句如下:

语句a:“一种在伪随机码测距中的相关运算电路。”;

语句b:“其典型应用是用m序列作为伪随机码。”;

语句c:“用于usb介面的连接装置及其储存器储存装置。”;

语句d:“其中该介面连接器设计为如上述的连接装置。”;

语句e:“调用预定时间视频会议的服务器。”

本发明实施例中对上述语句进行向量化处理的详细过程如下:

对所有语句按照预设的分词方法进行分词处理,并将分词进行向量化处理得到分词向量;以分词向量、分词在技术交底文本中的词频以及逆文档频率,进行加权求和后得到语句向量。

其中,预设的分词方法可以是现有技术中已有的分词方法,例如字符串匹配分词算法、基于统计的机器学习算法等。得到分词后,使用对分词进行向量化处理,得到分词的分词向量,例如对分词使用如下向量化处理:word2vec(wordtovector),fasttext,glove,elmo,bert等向量化处理方法,本发明实施例中使用fasttext词向量计算模型,将全部技术交底文本中的词作为训练输入,输出每个分词的分词向量。

具体的,以上述语句a为例进行说明,上述语句a分词后为:“一种”、“在”、“伪”、“随机码”、“测距”、“中”、“的”、“相关”、“运算”、“电路”,其中“电路”词向量可以表示为:[-0.0529,-0.2667,……,-0.0355,0.0803],本实施例中,可以根据实际需求对向量维度进行设定,例如设定256维的向量。

得到分词向量之后,以分词向量、分词在技术交底文本中的词频以及逆文档频率,进行加权求和后得到语句向量。其中,tf-idf(termfrequency–inversedocumentfrequency)词频-逆文档频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库(例如技术交底文本)中的一个领域文件集的重复程度。

分词在技术交底文本中的词频

分词在技术交底文本中的逆文档频率

tf-idf=分词在技术交底文本中的词频(tf)*分词在技术交底文本中的逆文档频率(idf)。

还以上述语句a为例进行说明,其中,“一种”词向量使用v一种表示,词频-逆文档频率使用tf-idf一种表示;“在”词向量使用v在表示,词频-逆文档频率使用tf-idf在表示,……“电路”词向量使用v电路表示,词频-逆文档频率使用tf-idf电路表示。则语句a的语句向量=v一种*tf-idf一种+v在*tf-idf在+……+v电路*tf-idf电路,本发明实施例中的语句向量也可以使用与上述词向量维度相同的向量,例如上述词向量使用的256维度的向量。

得到所有的语句向量之后,对语句向量使用预设的聚类算法进行聚类分析,得到至少一类语句对应的中心语句向量。例如,本发明实施例中,对上述语句a向量、语句b向量、语句c向量、语句d向量和语句e向量,进行聚类的结果可以三类(ab,cd,e),然后对每一类语句向量按照预设的算法进行分析,得到对应的中心语句向量。

其中,本发明实施例中上述聚类算法可以是k-means聚类算法、dbscan算法等,对上述语句a向量、语句b向量进行聚类,得到中心语句向量,对上述语句c向量、语句d向量进行聚类,也得到另一个中心语句向量,然后以中心语句向量为检索对象进行检索。

本发明实施例通过对可能具备创新性的段落文本中的语句进行聚类分析,得到表征可能具备创新性的段落文本的至少一个中心语句向量,然后以中心语句向量为检索对象进行检索,使得检索评估结果更加准确、更加符合可能具备创新性的段落文本的中心含义,为后期智能辅助生成权利要求文本提供了依据。

在此需要说明的是,本发明实施例中的语句可以包含由一个语句组成的段落文本,可以使用相同的方式得到段落文本,以段落文本向量进行聚类分析或者进行检索来确定可能具备创新性的段落文本的创新性。当然,也可以通过计算多个语句组成的段落文本的整体段落文本向量,类似于上述方法进行聚类和检索,本发明实施例对此不作具体限定。

在一个可选的实施例中,上述步骤s13具体实现方式参照图3所示,可以包括以下步骤:

步骤s131、以中心语句向量作为检索对象的输入,根据预设的索引方式确定中心语句向量在检索数据库中的条目。

本发明实施例中的检索数据库包括使用预设语料进行训练形成的数据库和向量索引库,具体构建方法参照下述描述。其中,本发明实施例中的检索数据库可以是基于关系型数据库管理系统(mysql)构建的数据库,当然也可以使用其他形式的数据库,本发明实施例对此不作具体限定。

上述数据库中,包含若干个条目,每个条目中包括:语句原文、该语句原文对应的语句向量以及该语句原文的全文编号。其中,语句原文是为了方便提取出来,供参考或者使用;语句向量是为了计算该语句与中心语句的相似度距离;语句原文的全文编号是为了对数据库中所有的语句原文进行排序和索引等。

步骤s132、计算条目和相邻条目中所有语句向量与中心语句向量的相似度距离。

本发明实施例中以现有的距离计算方法计算上述条目和相邻条目中所有的语句向量与中心语句向量的相似度距离。例如使用欧式距离计算上述相似度距离,本发明实施例对此不作具体限定。上述欧式距离越小,说明数据库中的语句原文与中心语句的相似度越高。

步骤s133、将得到的相似度距离按照从小到大进行排序,并获取排序结果中相似度距离从小到大预设数量的相似语句对应的相似度距离。

在进行检索时,输入上述中心语句向量后,会返回topn(预设数量)的相似度距离和对应的语句的全文编号,全文编号便于调出上述相似语句。

步骤s134、将相似语句与中心语句的相似度距离转换为相似度值。

本发明实施例通过上述检索,确定相似语句和中心语句的相似度值,然后以该相似度值与预设的相似度阈值进行比较。若预设数量且相似度距离满足预设排序条件的所述相似语句与所述中心语句对应的相似度值均小于所述预设的相似度阈值,则所述段落文本具备创新性。例如相似度阈值设置为1%,预设数量为5,若5个相似语句与中心语句相似度值均小于1%,则该段落文本具备创新性。

在一个可选的实施例中,该方法还可以包括:将得到的相似度距离按照从小到大进行排序,并获取排序结果中相似度距离从小到大预设数量的相似语句推送到技术交底文本中。本发明实施例中通过智能推送相似语句(当然也可以包括相似段落等),能够供相关工作人员进行参考,进而可以对创新性段落文本进行修改或者重新筛选创新性段落文本等,提高了工作质量和工作效率。

在一个具体的实施例中,上述检索数据库可以预先采用大量的专利文献、论文、期刊等现有公开内容为语料进行数据库和向量索引库构建而构建出来的,具体的构建方法可以参照图4所示,可以包括以下步骤:

步骤s41、使用预设的分词方法将预设语料中的语句进行分词处理,并对分词进行向量化处理,获得所有的分词向量。

步骤s42、以分词向量、分词在预设语料中的词频以及逆文档频率,进行加权求和后得到语句向量。

本发明实施例中上述步骤s41和步骤s42具体实现方式可参照步骤s122的相关举例和描述,在此不再赘述。

步骤s43、将语句向量、语句原文以及语句原文对应的全文编号保存到关系型数据库中。

例如,保存的关系型数据库可以如下述表1所示:

表1

步骤s44、采用预设的相似文本检索算法构建语句的向量索引库。

本发明实施例采用近似最邻近相似文本检索算法构建上述数据库的索引数据库,如hnsw(hierarchicalnsw(分层的nsw算法),是近似k近邻搜索中的新方法,也是对nsw方法的改进,它由多层的邻近图组成,因此称为分层的nsw方法)、faiss(facebookai团队开源的针对聚类和相似性搜索库)等方法。本实施例采用的faiss方法,是一个为稠密向量提供高效相似度搜索的框架,支持亿级别向量的搜索,检索速度快,是目前最为成熟的近似近邻搜索库之一。算法的输入是数据库中语句的向量矩阵和语句的全文编号,如数据库中有10w个语句,向量维度为256,则输入的是一个10w*256维的向量矩阵和对应语句的全文编号,通过faiss检索方法得到检索索引。faiss提供多种检索方法,如indexivfflat方法:在d维(256)空间中定义多个voronoi单元格,并且每个数据库中的语句向量都落入其中一个单元格中,indexivfflat有一个训练的过程,在将向量分配给voronoi单元格,得到faiss检索索引indexivfflat.index。现使用的faiss的“pca64,ivf1000,flat”索引方法结合语句的fasttext向量的效果是,使用原句进行搜索测试,recall@top1(检索时第一个是想要的结果)是99.7893%,recall@top2是99.8883%,recall@top3是99.9863%。

在一个可选的实施例中,上述步骤s11实现参照图5所示,可以包括以下步骤:

步骤s111、判断技术交底文本中的段落文本是否标记有具备创新性的标识;当包含有所述标识时,执行步骤s112;否则,执行步骤s113。

步骤s112、将标记有具备创新性标识的段落文本确定为可能具备创新性的段落文本。

步骤s113、将技术交底文本中所有的段落文本进行语义分析,通过分析结果确定出可能具备创新性的段落文本。

具体的,本步骤实现可以包括以下方式:

将技术交底文本中的段落文本与技术交底文本中的背景技术文本进行比较,若其中包含有预设语库中的技术效果语句文本,则将该段落文本确定为可能具备创新性的段落文本;或,

在技术交底文本中的段落文本查找是否包含有技术效果语句文本,若该段落文本中包含有预设语库中的技术效果语句文本,则将该段落文本确定为可能具备创新性的段落文本;或,

将技术交底文本中的段落文本在预设的数据库中的段落文本进行比较,确定出技术交底中的段落文本与数据库中的段落文本的相似度,将相似度低于预设阈值的段落文本确定为可能具备创新性的段落文本。

在此需要说明的是,本发明实施例也可以将标记有创新性段落标识的段落文本和根据所述技术交底文本中所有的段落文本进行语义分析后确定出的可能具备创新性的段落文本,均作为所述技术交底文本中的可能具备创新性的段落,可以结合在一起进行检索评估等,本发明实施例对此不作具体限定。

本实施例通过对上述可能具备创新性的段落文本进行初步筛选分析,然后基于初步筛选结果进行聚类检索,使得检索更加精准,提高了检索效率。

基于同一发明构思,本发明实施例还提供了一种技术交底文本创新性评估装置,参照图6所示,该装置可以包括:确定模块11,聚类模块12,检索模块13和评估模块14,其工作原理如下:

确定模块11确定所述技术交底文本中的至少一个可能具备创新性的段落文本;

聚类模块12对至少一个所述可能具备创新性的段落文本中包含的语句进行聚类分析,得到至少一个中心语句;

检索模块13以所述中心语句为检索对象在预先建立的检索数据库中进行检索,确定检索到的相似语句与所述中心语句的相似度值;

评估模块14将所述相似度值与预设的相似度阈值进行比较,根据比较结果评估所述技术交底文本中的可能具备创新性的段落文本的创新性。

在一个可选的实施例中,上述聚类模块12对至少一个所述语句进行向量化处理,得到所述语句对应的语句向量;将所述语句向量使用预设的聚类算法进行聚类分析,得到至少一个中心语句向量。相应的,检索模块13以所述中心语句向量为检索对象在预先建立的检索数据库中的向量索引库中进行检索,得到相似语句,并根据计算出的所述相似语句与所述中心语句的相似度距离,确定所述相似语句与所述中心语句的相似度值。

在一个可选的实施例中,检索模块13以所述中心语句向量作为检索对象的输入,根据预设的索引方式确定所述中心语句向量在所述检索数据库中的条目;检索模块13计算所述条目和相邻条目中所有语句向量与所述中心语句向量的相似度距离;检索模块13将得到的所述相似度距离按照从小到大进行排序,并获取排序结果中相似度距离从小到大预设数量的相似语句对应的相似度距离;检索模块13将所述相似语句与所述中心语句的相似度距离转换为相似度值;所述条目包括:语句原文、该语句原文对应的语句向量以及该语句原文的全文编号。

在一个可选的实施例中,该装置还可以包括推送模块,将得到的所述相似度距离按照从小到大进行排序,并获取排序结果中相似度距离从小到大预设数量的相似语句推送到所述技术交底文本中。

在一个可选的实施例中,聚类模块12对所述语句按照预设的分词方法进行分词处理,并将所述分词进行向量化处理得到分词向量;

以所述分词向量、所述分词在所述技术交底文本中的词频以及逆文档频率,进行加权求和后得到所述语句向量。

在一个可选的实施例中,确定模块11判断所述技术交底文本中的段落文本是否标记有具备创新性的标识;当包含有所述标识时,确定模块11将标记有具备创新性标识的段落文本确定为所述可能具备创新性的段落文本;当未包含有所述标识时,确定模块11将所述技术交底文本中所有的段落文本进行语义分析,通过分析结果确定出可能具备创新性的段落文本。

具体的,确定模块11将所述技术交底文本中的段落文本与所述技术交底文本中的背景技术文本进行比较,若其中包含有预设语库中的技术效果语句文本,则将该段落文本确定为可能具备创新性的段落文本;或,确定模块11在所述技术交底文本中的段落文本查找是否包含有技术效果语句文本,若该段落文本中包含有预设语库中的技术效果语句文本,则将该段落文本确定为可能具备创新性的段落文本;或,确定模块11将所述技术交底文本中的段落文本在预设的数据库中的段落文本进行比较,确定出所述技术交底中的段落文本与所述数据库中的段落文本的相似度,将相似度低于预设阈值的段落文本确定为可能具备创新性的段落文本。

本公开实施例所述装置的具体说明、有益效果及相关举例参照上述方法部分,在此不再赘述。

基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,其中存储有计算机可执行指令,该可执行指令被处理器执行时可实现上述技术交底文本创新性评估方法。

基于同一发明构思,本发明实施例还提供了一种服务器,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,可用于实现上述技术交底文本创新性评估方法。

本公开实施例所述计算机可读存储介质和服务器的具体说明、有益效果及相关举例参照上述方法部分,在此不再赘述。

实施例2

本发明实施例2提供了另一种技术交底文本创新性评估方法,参照图7所示,该方法可以包括以下步骤:

步骤s71、确定技术交底文本中的至少一个可能具备创新性的段落文本。

本步骤的详细说明和具体实现方式参照上述实施例1中步骤s11的内容,在此不再赘述。

步骤s72、对至少一个可能具备创新性的段落文本中包含的关键词,按照预设的查找方式在关键词中进行查找,确定出核心关键词。

本步骤是首先对可能具备创新性的段落文本中的关键词进行提取,剔除掉段落文本中的格式后得到若干关键词,例如使用词袋(bagofwords,简称bow)模型提取出段落文本中的关键词。然后,针对提取的关键词,按照预设的查找方式进行查找来确定核心关键词,例如查找出现次数排名靠前的关键词,或者查找出现次数占全部关键词出现次数预设比例(如出现比例超过15%)的关键词,将这些关键词确定为核心关键词。在一个具体的例子中,假如确定出的核心关键词为电源、节能、定时。需要说明的是,上述段落文本中包含的关键词肯定不止一个,而是多个。

步骤s73、将核心关键词与其他关键词之间的相关度值与预设的相关度阈值比较,将大于预设相关度阈值的其他关键词确定为扩展关键词;或以所述核心关键词和其他关键词之间的相似度的大小进行降序排列,将排序结果中预设数量的其他关键词,作为扩展关键词。

本步骤首先对提取所有关键词(当然也包括核心关键词)进行向量化处理,例如基于wordemedding(词嵌入,将词义进行矢量化)对关键词进行向量化处理,如电源使用(0.2,05,0.3,0.4,0.3……,0.1)多维向量表示。

其次,计算每个核心关键词与所有的关键词之间的相关度,本发明实施例中使用多维向量之间的余弦值来计算每个核心关键词和其他关键词之间的相关度值。

然后,将得到的相关度值与预设的相关度阈值进行比较,将大于预设相关度阈值的其他关键词作为扩展关键词;或以核心关键词和其他关键词之间的相关度的大小进行降序排列,将排序结果中预设数量的其他关键词,确定为扩展关键词;例如,设定取词数量n,取排名前n个其他关键词确定为扩展关键词。例如,设定的相关度阈值为0.6,参照表2所示:

表2

步骤s74、根据核心关键词和扩展关键词构建可能具备创新性的段落文本的目标检索特征序列。

上述步骤s73中得到的扩展关键词与核心关键词一起组成高维关键词组,高维关键词组所有的组合形成该段落文本的目标检索特征序列。

例如,由上述表2中所有高维关键词组组合形成该段落文本的目标检索特征序列可以是:

电源,节能,定时(1,1,1,)

电源,节能,按时(1,1,0.7)

电源,节能,守时(1,1,0.6)

电源,省电,定时(1,0.9,1)

……

变压器,能耗小,守时(0.6,0.6,0.6)

步骤s75、以目标检索特征序列为检索对象,在预先建立的关系型数据库中进行检索,计算目标检索特征序列与预先建立的关系型数据库中的检索特征序列的相似度值。

可知由上述步骤s74得到的目标检索特征序列不止一个,将所有的目标检索特征序列为检索对象,计算出目标检索特征序列与预先建立的关系型数据库中的检索特征序列的相似度值。

本发明实施例中预先建立的关系型数据库中,可以如实施例1中的检索数据库结构相似,将段落文本原文(或语句文本)、段落文本原文的全文编号、段落文本的高维关键词组和该高维关键词组对应的检索特征序列按照数据库预设的框架进行保存。

本步骤在进行相似度计算时,可以参照上述实施例1中步骤s132、s133和s134中的具体描述,本实施例在此不再赘述。

步骤s76、将相似度值与预设的相似度阈值进行比较,根据比较结果评估技术交底文本中的可能具备创新性的段落文本的创新性。

本步骤的具体实现方式参照实施例1中步骤s14中的具体描述,本实施例在此不再赘述。

本发明实施例基于技术交底文本中至少一个可能具备创新性的段落文本中的关键词,确定出核心关键词和扩展关键词,进而构建该可能具备创新性的段落文本的目标检索特征序列,然后进行检索分析,最后评估出技术交底文本中该可能具备创新性的段落文本的创新性。本发明实施例相对于现有技术中的人工分析的方式更加快速和准确,节约了大量了人力物力,能够有效辅助相关工作人员的撰写工作,整体上提高了撰写质量和效率。

基于同一发明构思,本发明实施例提供了另一种技术交底文本创新性评估装置,参照图8所示,可以包括:第一确定模块71、第二确定模块72、第三确定模块73、构建模块74、检索模块75和评估模块76,其工作原理如下:

第一确定模块71确定所述技术交底文本中的至少一个可能具备创新性的段落文本;

第二确定模块72对至少一个所述可能具备创新性的段落文本中包含的关键词,按照预设的查找方式在关键词中进行查找,确定出核心关键词;

第三确定模块73将所述核心关键词与其他关键词之间的相关度值与预设的相关度阈值比较,将大于所述预设相关度阈值的其他关键词确定为扩展关键词;

构建模块74根据所述核心关键词和所述扩展关键词构建所述可能具备创新性的段落文本的目标检索特征序列;

检索模块75以所述目标检索特征序列为检索对象,在预先建立的关系型数据库中进行检索,计算所述目标检索特征序列与预先建立的关系型数据库中的检索特征序列的相似度值;

评估模块76将所述相似度值与预设的相似度阈值进行比较,根据比较结果评估所述技术交底文本中的可能具备创新性的段落文本的创新性。

本公开实施例所述装置的具体说明、有益效果及相关举例参照上述方法部分,在此不再赘述。

基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,其中存储有计算机可执行指令,该可执行指令被处理器执行时可实现上述技术交底文本创新性评估方法。

基于同一发明构思,本发明实施例还提供了一种服务器,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,可用于实现上述技术交底文本创新性评估方法。

本公开实施例所述计算机可读存储介质和服务器的具体说明、有益效果及相关举例参照上述方法部分,在此不再赘述。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1