文本相似性分析方法、装置、电子设备及计算机存储介质与流程

文档序号:15931924发布日期:2018-11-14 01:46阅读:135来源:国知局

本申请涉及身份识别技术领域,具体而言,本申请涉及一种文本相似性分析方法、装置、电子设备及计算机存储介质。

背景技术

文本(例如论文文本、专利文本)作为自然语言的载体,通常以一种非结构化或半结构化的形式存在。随着计算机互联网络技术的飞速发展,文本相似性分析在许多领域有着广泛的应用,例如,在信息检索、文本分类、文本聚类及自动问答等领域中,文本相似性分析更是一项基础而又重要的工作。

以专利文本为例,在进行专利相似性分析的过程中,需要先将非结构化的专利文本转化为便于计算机识别处理的结构化信息,再对该结构化信息进行特征提取,并依据提取的特征进行专利的相似性分析。其中,常用的专利相似性分析方法包括专利语义分析法、专利树及文本挖掘等方法,虽然这些方法在分析质量方面已有一定改善,但是在专利的相似性分析过程中,依然存在相似性分析准确度低的问题。



技术实现要素:

本申请的目的旨在至少能解决上述的技术缺陷之一,特别是相似性分析准确度低的技术缺陷。

第一方面,提供了一种文本相似性分析方法,包括:

确定目标文本的第一预设个数的基础特征词;

基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词;

基于各基础特征词、各扩展词以及各个词的权重值,从预设文本数据库中确定目标文本的相似文本。

第二方面,提供了一种文本相似性分析装置,包括:

第一确定模块,用于确定目标文本的第一预设个数的基础特征词;

扩展模块,用于基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词;

第二确定模块,用于基于各基础特征词、各扩展词以及各个词的权重值,从预设文本数据库中确定目标文本的相似文本。

第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述的文本相似性分析方法。

第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的文本相似性分析方法。

本申请实施提供的文本相似性分析方法,确定目标文本的第一预设个数的基础特征词,从而抽取出能够表征目标文本的文本特征词,为后续基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展提供前提保障;基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词,极大扩充了抽取到的能够表征目标文本的专业性词汇的数量,有效提高表征目标文本的文本特征词频的统计特性,为后续快速、准确地确定目标文本的相似文本奠定基础;基于各基础特征词、各扩展词以及各个词的权重值,从预设文本数据库中确定目标文本的相似文本,从而快速、准确地从预设文本数据库中甄选出目标文本的相似专利,进而根据该相似专利识别出目标文本所属企业或机构的技术竞争对手,极大提高专利相似性分析的准确度以及专利竞争对手识别的准确度。

本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本申请实施例的文本相似性分析方法的流程示意图;

图2为本申请实施例的文本特征词的权重分布示意图;

图3为本申请实施例的文本相似性分析过程的示意图;

图4为本申请实施例的文本相似性分析装置的基本结构示意图;

图5为本申请实施例的文本相似性分析装置的详细结构示意图;

图6为本申请实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

专利文本作为记录科研活动和研究方法的重要载体,是科研人员获取科技经验和了解业界前沿技术的重要文献资料。面对海量的专利资源,需要通过采用自动化的方法,快速甄选出某企业或机构的相似专利,进而识别出该企业或机构的技术竞争对手。目前,利用数据挖掘专利对企业竞争对手进行识别的方法中,都是在专利的标题、摘要等数据的基础上进行特征词抽取,并在抽取到的特征词基础上,利用vsm(vectorspacemodel,向量空间模型)模型对专利文本进行向量表达,继而进行专利的相似性分析。但是,专利的标题和摘要从篇幅上来说较短,用于表征专利技术的文本特征词频的统计特性不明显,而且抽取到的能够表征专利的专业性词汇的数量不足,因而基于此得到的专利文本vsm向量的信息量不足,对专利原文的表征能力有限,导致专利相关性分析结果的准确性较低,进而影响专利竞争对手识别的准确性。

本申请提供的文本相似性分析方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

实施例一

本申请实施例提供了一种文本相似性分析方法,如图1所示,包括:

步骤s100,确定目标文本的第一预设个数的基础特征词。

具体地,从目标文本(例如专利文本)的标题、摘要等文本信息中抽取出第一预设个数的目标文本的特征词,其中,第一预设个数可以根据抽取过程中的实际需要而设定,例如可以将第一预设个数设定为5、10及15等,即从目标文本的标题、摘要中抽取出5个或10个或15个或其它数值个特征词,并将抽取到的特征词作为目标文本的基础特征词,即表征目标文本的专业性的词汇。

步骤s200,基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词。

具体地,目标文本的标题和摘要的篇幅较短,从中抽取出的能够表征目标文本的专业性的基础特征词的数量极为有限,不足以表征目标文本的文本特征词频的统计特性,通过对抽取到的第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词,能够极大扩充抽取到的能够表征目标文本的专业性词汇的数量,有效提高表征目标文本的文本特征词频的统计特性,为后续快速、准确地确定目标文本的相似文本奠定基础。

进一步地,第二预设个数可以根据扩展过程中的实际需要而设定,第二预设个数可以与第一预设个数相同,也可以与第一预设个数不相同,例如可以将第二预设个数设定为5、15及30等,即对每个基础特征词均进行扩展,得到每个基础特征词的5个或15个或30个或其它数值个扩展词。

示例的,当基础特征词为“安装程序”且第二预设个数为6时,扩展词可以为“驱动程序”、“安装文件”、“该软件”、“安装包”、“配置文件”及“客户端程序”。

步骤s300,基于各基础特征词、各扩展词以及各个词的权重值,从预设文本数据库中确定目标文本的相似文本。

具体地,基于目标文件的各基础特征词、各扩展词以及各个词的权重值,从预设文本数据库中的大量文本资源中,快速、准确地甄选出该目标文本的相似文本。

示例的,当目标文本为专利文本,且该专利的名称为“空气净化器”时,可以从预设文本数据库中的专利资源中,快速、准确地甄选出该专利的相似专利,例如相似专利的名称为“电子空气净化器”、“一种电袋复合除尘器”等。

进一步地,当确定目标文本的相似文本后,通过点击查看该相似文本的相关信息,可以得到该相似专利所属的企业或机构等信息,根据相似专利所属的企业或机构等信息,可以进一步获知该目标文本所属企业或机构的技术竞争对手,例如竞争对手为相似专利所属的企业或机构。

本申请实施例提供的文本相似性分析方法,与现有技术相比,确定目标文本的第一预设个数的基础特征词,从而抽取出能够表征目标文本的文本特征词,为后续基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展提供前提保障;基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词,极大扩充了抽取到的能够表征目标文本的专业性词汇的数量,有效提高表征目标文本的文本特征词频的统计特性,为后续快速、准确地确定目标文本的相似文本奠定基础;基于各基础特征词、各扩展词以及各个词的权重值,从预设文本数据库中确定目标文本的相似文本,从而快速、准确地从预设文本数据库中甄选出目标文本的相似专利,进而根据该相似专利识别出目标文本所属企业或机构的技术竞争对手,极大提高专利相似性分析的准确度以及专利竞争对手识别的准确度。

实施例二

本申请实施例提供了另一种可能的实现方式,在实施例一的基础上,还包括实施例二所示的方法,其中,

在步骤s100中,通过textrank算法,确定目标文本的第一预设个数的基础特征词。

具体地,在本申请实施例中以目标文本是专利文本为例,对上述步骤s100进行如下说明:

现有方法通常是在常用的分词、词性标注等方法的基础上,根据词频来确定专利特征词,由于采用这些方法抽取词时,会将一些词频高但专业性差的词抽取出来,因而采用这些方法抽取的词,不具有良好的专利表征能力。为了解决这个问题,本申请实施例采用textrank算法来抽取专利的基础特征词,通过该方法抽取到的基础特征词,具有更强的专业性,为构建专利文本vsm模型奠定基础。

其中,textrank算法是一种用于文本的基于图的排序算法,其基本思想来源于谷歌的pagerank算法,通过把文本分割成若干组成单元(例如单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取。和lda(latentdirichletallocation,文档主题生成模型)、hmm(hiddenmarkovmodel,隐马尔可夫模型)等模型不同,textrank不需要事先对多篇文档进行学习训练,因其简洁有效而得到广泛应用。textrank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。

进一步地,通过textrank算法,确定目标文本的第一预设个数的基础特征词,包括如下步骤:

1)把给定的目标文本按照完整句子进行分割;

2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词等,即为保留后的候选关键词;

3)构建候选关键词图g=(v,e),其中v为节点集合,e为边的集合。由2)生成的候选关键词组成,然后采用共现关系构造任两点之间的边,两个节点之间存在边的情况是指该两个节点所对应的词汇在长度为k的窗口中共现,k表示窗口大小,即最多共现k个单词;

4)根据上面公式g=(v,e),迭代传播各节点的权重,直至收敛;

5)对节点权重进行倒序排序,从而得到最重要的t个单词,作为候选关键词,即本申请实施例中的基础特征词;

6)将5)得到的最重要的t个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。

对于本申请实施例,采用textrank算法来抽取目标文本的基础特征词,不仅具有更强的专业性,而且不需要事先对多篇文档进行学习训练,因而更简便快捷。

实施例三

本申请实施例提供了另一种可能的实现方式,在实施例二的基础上,还包括实施例三所示的方法,其中,

在步骤s200之前,还包括步骤s101(图中未标注):通过连续词袋神经网络模型对预设数据库中的文本进行训练,得到训练后的文本词向量库。

步骤s200包括步骤s2001(图中未标注)、步骤s2002(图中未标注)及步骤s2003(图中未标注),其中,

步骤s2001:通过查询训练后的文本词向量库,获取任一基础特征词的第一词向量。

步骤s2002:计算第一词向量与第二词向量间的余弦相似度值,第二词向量为训练后的文本词向量库中除第一词向量外的词向量。

步骤s2003:确定余弦相似度值大于第一预设阈值的第二预设个数的第二词向量分别对应的词,并将其作为所述任一基础特征词的扩展词。

具体地,本申请实施例采用深度学习技术对基础特征词进行扩展,方法步骤如下:

1)利用word2vec(词向量)方法训练文本词向量库

用词向量表达文本中的词语是将深度学习算法引入自然语言处理的一个核心技术。word2vec是谷歌在2013年开源的一款优秀的用于获取词向量的模型工具,主要采用cbow(continuousbag-of-words,连续词袋模型)以及skip-gram(连续跳跃元语法)模型。其中,本申请实施例采用效率更高的cbow神经网络模型,对预设数据库中的文本进行训练,得到训练后的文本词向量库。

示例的,当文本为专利文本时,本申请实施例在约10g的2000万条专利文本上进行训练,得到训练后的专利词向量库,其中,专利文本包含专利标题和摘要等文本字段,生成的词向量维度为100,训练后的专利词向量库约有100万词汇,大小约990m。

2)基于训练后的文本词向量库对基础特征词进行扩展

具体地,当目标文本为专利文本时,对每个专利文本提取出来的基础特征词进行扩展的方法,就是将上述通过textrank算法得到的第一预设个数的基础特征词,逐一查询专利词向量库,得到每个基础特征词的词向量(即步骤s2001中的第一词向量),接着进行余弦相似度计算过程,其中余弦相似度计算过程为:计算任一基础特征词的词向量与专利词向量库中除该基础特征词的词向量外的其他词向量(即步骤s2002中的第二词向量)间的余弦相似度值,根据余弦相似度值与第一预设阈值的比较以及第二预设个数,确定出该基础特征词的扩展词。

进一步地,对于确定出的每个基础特征词,均执行上述的余弦相似度值计算过程,从而确定出每个基础特征词的扩展词。

示例的,当基础特征词为“安装程序”、“低廉”、“水回用”、“去污”、“高速铁路”及“偏倒”,且第二预设个数为6时,可以得到各基础特征词的扩展词如表1所示:

表1基础特征词及其对应的扩展词

对于本申请实施例,给出了基于训练后的文本词向量库,确定各基础特征词的扩展词的具体过程及操作步骤,使得本领域技术人员能够根据本申请实施例中的步骤,快速准确地完成基础特征词的扩展,极大扩充抽取到的能够表征目标文本的专业性词汇的数量,有效提高表征目标文本的文本特征词频的统计特性,为后续快速、准确地确定目标文本的相似文本奠定基础。

实施例四

本申请实施例提供了另一种可能的实现方式,在实施例三的基础上,还包括实施例四所示的方法,其中,

在步骤s300之前,还包括步骤s201(图中未标注):滤除任一基础特征词的扩展词中的停用词;和/或滤除任一基础特征词的扩展词中逆向文件频率小于第二预设阈值的词。

在步骤s300之前,还包括步骤s202(图中未标注):确定各个词的权重值。其中,确定各个词的权重值,包括:

通过以下公式,确定任一词的权重值:

wi=idfi*(p_tfi+c_tfi)

其中,wi表示权重值,idfi表示该任一词的逆向文件频率,p_tfi表示该任一词在所述目标文本的文本标题与文本摘要中的频率,c_tfi表示该任一词在除所述目标文本外的其他文本中的频率。

具体地,通过上述步骤s2001、步骤s2002及步骤s2003得到的各基础特征词分别对应的第二预设个数的扩展词后,需要对得到的扩展词进一步过滤,其中,可以根据需要只滤除其中的停用词,也可以只滤除其中的逆向文本频率小于第二预设阈值的词,还可以同时滤除其中的停用词及逆向文本频率小于第二预设阈值的词,通过对得到的扩展词进行过滤,使得扩展词能够更好的表征目标文本。

未例的,当第二预设阈值取为4.0时,在对得到的扩展词进行过滤的过程中,可以只滤除其中的停用词,也可以只滤除其中的逆向文本频率小于4.0的词,还可以同时滤除其中的停用词及逆向文本频率小于4.0的词,最终得到词集合即本申请实施例中的基础特征词的扩展词。

进一步地,假设通过上述步骤得到的各基础特征词及各基础特征词的扩展词为w1,w2,…,wn,且上述步骤中目标文本为专利文本,此时可以公式(1)计算确定各个词(包括各基础特征词及各基础特征词的扩展词)的权重值:

wi=idfi*(p_tfi+c_tfi)(1)

其中,wi表示任一词的权重值,idfi表示该任一词的逆向文件频率,p_tfi表示该任一词在专利标题与专利摘要中的频率;c_tfi表示该任一词在除专利文本外的其他文本(例如论文文本)中的出现频率。另外,p_tfi的计算方式可以为:(该词在专利标题与专利摘要中的出现次数+1)/(各基础特征词与各基础特征词的扩展词的总词数+1),对于在专利标题与专利摘要中没有出现的词,加1可以起到平滑作用。

进一步地,得到各个词的权重值wi后,进一步对得到的权重值wi进行归一化处理,得到专利各个词的权重分布,如图2所示。

对于本申请实施例,通过对扩展词中停用词及逆向文件频率小于第二预设阈值的词的过滤,使得扩展词能够更好的表征目标文本,有效避免停用词及逆向文件频率小于第二预设阈值的词对文本相似性分析的准确度的影响。另外,给出的确定各个词的权重值的实现方法,便于本领域技术人员快速确定各个词的权重值,为后续从预设文本数据库中确定目标文本的相似文本提供前提保障。

实施例五

本申请实施例提供了另一种可能的实现方式,在实施例四的基础上,还包括实施例五所示的方法,其中,

在步骤s300中包括步骤s3001(图中未标注)、步骤s3002(图中未标注)、步骤s3003(图中未标注)及步骤s3004(图中未标注),其中,

步骤s3001:对预设文本数据库中的多个待筛选文本分别进行确定第一预设个数的基础特征词、基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词、以及确定各个词的权重值的步骤,得到各待筛选文本分别对应的基础特征词、基础特征词的权重值、基础特征词的扩展词以及扩展词的权重值。

步骤s3002:检测任一待筛选文本的基础特征词及扩展词中是否存在与目标文本的基础特征词及扩展词相同的词。

步骤s3003:针对任一待筛选文本,如果存在,则计算任一相同词在该待筛选文本中的权重值及该任一相同词在目标文本中的权重值的乘积,并计算全部相同词的乘积之和。

步骤s3004:在多个待筛选文本中,选择计算得到的乘积之和大于第三预设阈值的待筛选文本,作为目标文本的相似文本。

具体地,预设文本数据库中存储有大量的专利与论文等文本,从预设文本数据库中筛选目标文本的相似文本时,对预设文本数据库中的多个待筛选文本均通过上述实施例一至实施例四中的步骤s100(确定第一预设个数的基础特征词)、步骤s200(基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词)、步骤s201(滤除任一基础特征词的扩展词中的停用词;和/或滤除任一基础特征词的扩展词中逆向文件频率小于第二预设阈值的词)及步骤s202(确定各个词的权重值)等,得到每个待筛选文本分别对应的基础特征词、基础特征词的权重值、基础特征词的扩展词以及扩展词的权重值。

进一步地,在从预设文本数据库中的每个待筛选文本中查找目标文本的相似文本的过程中,可以根据目标文本的基础特征词及扩展词对待筛选文本进行遍历,具体可以通过检测任一待筛选文本的基础特征词及扩展词中是否存在与目标文本的基础特征词及扩展词相同的词的方式,来依次对每个待筛选文本进行遍历,并将不存在与目标文本的基础特征词及扩展词相同的词的待筛选文本过滤掉,只保留存在与目标文本的基础特征词及扩展词相同的词的待筛选文本,以进行进一步处理。

进一步地,当待筛选文本中存在与目标文本的基础特征词及扩展词相同的词时,计算任一相同词在该待筛选文本中的权重值及该任一相同词在目标文本中的权重值的乘积,其中,当相同的词有多个时,将该多个词分别对应的乘积进行累加,即计算全部相同词的乘积之和,当相同的词只有一个时,直接将该乘积作为最终的乘积之和。

进一步地,从存在与目标文本的基础特征词及扩展词相同的词的待筛选文本中,筛选出与目标文本最接近的文本作为目标文本的相似文本,其中,可以选择乘积之和大于第三预设阈值的待筛选文本,作为目标文本的相似文本,第三预设阈值的取值可以根据实际需要动态设定。表2给出了对目标文本及其对应的相似文本的相关信息的展示示例。

表2目标文本及其对应的相似文本信息

进一步地,结合本申请实施例一至实施例五的方法,图3目标文本以专利文本为例,给出了对查找目标专利的相似专利的基本过程,其中,在图3中先进行步骤s1(基于textrank的专利基础特征词抽取),接着进行步骤s2(确定深度学习算法),接着进行步骤s3(训练专利词向库),接着进行步骤s4(基于专利词向量库进行基础特征词的扩展),接着进行步骤s5(专利特征扩展词过滤),接着进行步骤s6(专利特征词权重计算),最后步骤s7(输出相似专利及对应的专利权人)。

对于本申请实施例,给出了基于各基础特征词、各扩展词以及各个词的权重值,从预设文本数据库中确定目标文本的相似文本的具体过程及操作步骤,使得本领域技术人员能够根据本申请实施例中的步骤,快速、准确地从预设文本数据库中甄选出目标文本的相似文本,进而根据该相似专利识别出目标文本所属企业或机构的技术竞争对手。

实施例六

图4为本申请实施例提供的一种文本信息的翻译装置的结构示意图,如图4所示,该文本信息的翻译装置40可以包括:第一确定模块41、扩展模块42与第二确定模块43,其中:

第一确定模块41用于确定目标文本的第一预设个数的基础特征词;

扩展模块42用于基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词;

第二确定模块43用于基于各基础特征词、各扩展词以及各个词的权重值,从预设文本数据库中确定目标文本的相似文本。

具体地,第一确定模块41具体用于通过textrank算法,确定目标文本的第一预设个数的基础特征词。

进一步地,该装置还包括训练模块44,如图5所示,其中,训练模块44用于通过连续词袋神经网络模型对预设数据库中的文本进行训练,得到训练后的文本词向量库。

进一步地,扩展模块42包括获取子模块421、计算子模块422与扩展词确定子模块423,如图5所示,其中,获取子模块421用于通过查询训练后的文本词向量库,获取任一基础特征词的第一词向量;

计算子模块422用于计算第一词向量与第二词向量间的余弦相似度值,第二词向量为训练后的文本词向量库中除第一词向量外的词向量;

扩展词确定子模块423用于确定余弦相似度值大于第一预设阈值的第二预设个数的第二词向量分别对应的词,并将其作为任一基础特征词的扩展词。

进一步地,该装置还包括滤除模块45,如图5所示,其中,滤除模块45用于滤除任一基础特征词的扩展词中的停用词;和/或用于滤除任一基础特征词的扩展词中逆向文件频率小于第二预设阈值的词。

进一步地,该装置还包括权重确定模块46,如图5所示,其中,权重确定模块46用于确定各个词的权重值;其中,具体用于通过以下公式,确定任一词的权重值:

wi=idfi*(p_tfi+c_tfi)

其中,wi表示权重值,idfi表示该任一词的逆向文件频率,p_tfi表示该任一词在目标文本的文本标题与文本摘要中的频率,c_tfi表示该任一词在除目标文本外的其他文本中的频率。

进一步地,第二确定模块43包括预处理子模块431、检测子模块432、乘积计算子模块433和筛选子模块434,其中,

预处理子模块431用于对预设文本数据库中的多个待筛选文本分别进行获取第一预设个数的基础特征词、基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词、以及确定各个词的权重值的步骤,得到各待筛选文本分别对应的基础特征词、基础特征词的权重值、基础特征词的扩展词以及扩展词的权重值;

检测子模块432用于检测任一待筛选文本的基础特征词及扩展词中是否存在与目标文本的基础特征词及扩展词相同的词;

乘积计算子模块433用于针对任一待筛选文本,如果存在,则计算任一相同词在该待筛选文本中的权重值及该任一相同词在目标文本中的权重值的乘积,并计算全部相同词的乘积之和;

筛选子模块434用于在多个待筛选文本中,选择计算得到的乘积之和大于第三预设阈值的待筛选文本,作为目标文本的相似文本。

本申请实施例提供的装置,与现有技术相比,确定目标文本的第一预设个数的基础特征词,从而抽取出能够表征目标文本的文本特征词,为后续基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展提供前提保障;基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词,极大扩充了抽取到的能够表征目标文本的专业性词汇的数量,有效提高表征目标文本的文本特征词频的统计特性,为后续快速、准确地确定目标文本的相似文本奠定基础;基于各基础特征词、各扩展词以及各个词的权重值,从预设文本数据库中确定目标文本的相似文本,从而快速、准确地从预设文本数据库中甄选出目标文本的相似专利,进而根据该相似专利识别出目标文本所属企业或机构的技术竞争对手,极大提高专利相似性分析的准确度以及专利竞争对手识别的准确度。

实施例七

本申请实施例提供了一种电子设备,如图6所示,图6所示的电子设备600包括:处理器601和存储器603。其中,处理器601和存储器603相连,如通过总线602相连。进一步地,电子设备600还可以包括收发器604。需要说明的是,实际应用中收发器604不限于一个,该电子设备600的结构并不构成对本申请实施例的限定。

其中,处理器601应用于本申请实施例中,用于实现图4所示的第一确定模块、扩展模块及第二确定模块的功能。收发器604包括接收机和发射机,收发器604应用于本申请实施例中,用于实现图5所示的获取子模块的功能。

处理器601可以是cpu,通用处理器,dsp,asic,fpga或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器601也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。

总线602可包括一通路,在上述组件之间传送信息。总线602可以是pci总线或eisa总线等。总线602可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器603可以是rom或可存储静态信息和指令的其他类型的静态存储设备,ram或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom、cd-rom或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器603用于存储执行本申请方案的应用程序代码,并由处理器601来控制执行。处理器601用于执行存储器603中存储的应用程序代码,以实现图4所示实施例提供的文本相似性分析装置的动作。

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现实施例一所示的方法。与现有技术相比,确定目标文本的第一预设个数的基础特征词,从而抽取出能够表征目标文本的文本特征词,为后续基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展提供前提保障;基于训练后的文本词向量库,对第一预设个数的基础特征词分别进行扩展,得到各基础特征词分别对应的第二预设个数的扩展词,极大扩充了抽取到的能够表征目标文本的专业性词汇的数量,有效提高表征目标文本的文本特征词频的统计特性,为后续快速、准确地确定目标文本的相似文本奠定基础;基于各基础特征词、各扩展词以及各个词的权重值,从预设文本数据库中确定目标文本的相似文本,从而快速、准确地从预设文本数据库中甄选出目标文本的相似专利,进而根据该相似专利识别出目标文本所属企业或机构的技术竞争对手,极大提高专利相似性分析的准确度以及专利竞争对手识别的准确度。

本申请实施例提供的计算机可读存储介质适用于上述方法的任一实施例。在此不再赘述。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1