一种文本关系的分析方法及装置、文本关系网络的构建方法与流程

文档序号:25236347发布日期:2021-06-01 13:08阅读:85来源:国知局
一种文本关系的分析方法及装置、文本关系网络的构建方法与流程

本发明涉及自然语言处理技术领域,具体涉及一种文本关系的分析方法及装置、文本关系网络的构建方法。



背景技术:

目前在自然语言处理领域,对于文本间关系的量化评估主要是基于文本间词汇、词频和词汇组织方式的相似度来进行的。然而单纯基于词汇相似度来分析文本关系常常会导致用词不同但主题相同的文本间关系被错误的评估,同时这一缺陷也使得难以衡量多个文本之间的复杂内容之间的关系。

由此可知,现有技术中的方法存在分析结果不够准确的技术问题。



技术实现要素:

有鉴于此,本发明提供了一种文本关系的分析方法及装置、文本关系网络的构建方法,用以解决或者至少部分解决现有技术中的方法存在的结果不够准确的技术问题。

为了解决上述技术问题,本发明第一方面提供了一种文本关系的分析方法,包括:

对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;

分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;

对每个词汇集合进行词汇元素筛选,构建概念;

根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系。

在一种实施方式中,对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,包括:

对包含m篇独立文本的文本集合中包含的每篇文本进行分句、分词以及去除停用词。

在一种实施方式中,对每个词汇集合进行词汇元素筛选,构建概念,包括:

统计词汇集合中的每个词汇元素xj与概念主题词xi共同出现的文本数量z,其中,z≤m;

判断文本数量z是否大于或等于第一阈值,如果是,则将词汇元素作为词汇集合的有效词汇,保留在词汇集合中,否则,将词汇元素从词汇集合中去除。

在一种实施方式中,根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系,包括:

根据概念中的概念主题词或者词汇元素在文本中的出现情况,判断文本是否包含该概念;

对文本集合中每两篇文本包含的概念进行比较,如果两篇文本包含相同的概念,则两篇文本具有关联。

在一种实施方式中,根据概念中的概念主题词或者词汇元素在文本中的出现情况,判断文本是否包含该概念,包括:

当一个概念xi的词汇元素总数为0时,如果概念主题词xi出现在文本wi中,则判定文本wi包含概念xi;

当一个概念xi的词汇元素总数大于0且小于第二阈值时,如果有1个词汇元素出现在文本wi中,则判定文本wi包含概念xi;

当一个概念xi的词汇元素总数大于或等于第二阈值时,则根据xi中的必要词汇数量,确定文本wi是否包含概念xi,其中,必要词汇根据词汇集合中的词汇元素xj与概念主题词xi共同出现的文本数量以及词汇元素xj与概念主题词xi之间的关系确定。

在一种实施方式中,根据xi中的必要词汇数量,确定文本wi是否包含概念xi,包括:

当一个概念xi中的必要词汇数量大于或等于第三阈值,如果存在预设比例的必要词汇出现在文本wi中,则判定文本wi包含概念xi;

当一个概念xi中的必要词汇数量小于第三阈值,如果存在预设比例的词汇元素出现在文本wi的词汇中,则判定文本wi包含概念xi。

基于同样的发明构思,本发明第二方面提供了一种文本关系的分析装置,包括:

预处理模块,对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;

词汇集合构建模块,用于分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;

概念构建模块,用于对每个词汇集合进行词汇元素筛选,构建概念;

文本关系确定模块,用于根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系。

基于同样的发明构思,本发明第三方面提供了一种文本关系网络的构建方法,基于第一方面所述的文本关系分析方法实现,构建方法包括:

根据文本之间的关系,构建文本关系网络。

在一种实施方式中,根据文本之间的关系,构建文本关系网络,包括:

将文本作为节点、文本具有相同的概念作为边、两个文本具有相同概念的数量为边的权重构建加权无环无向网络,作为文本关系网络。

基于同样的发明构思,本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。,包括:

本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:

本发明提供的文本关系的分析方法,首先对包含m篇独立文本的文本集合中包含的每篇文本进行预处理;然后分别以语料的每一个词汇为概念主题词,遍历预处理后得到的所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,接着对每个词汇集合进行词汇元素筛选,构建概念,最后根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系。

由于本发明提供的方法,通过文本共现规则构建以单个词汇(概念主题词)为中心的词汇集合,并对每个词汇集合进行词汇元素筛选,构建概念,再根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系,通过提供一种新的构建概念的方法,计算文本中包含的概念,再利用概念来计算文本之间的关系,可以更全面地分析不同文本之间的关系,提高了分析的准确性,解决了现有技术中的方法存在分析结果不够准确的技术问题。

进一步地,基于对不同文本关系的分析,本发明还提供了一种文本关系网络的构建方法,可以对不同文本之间的关系通过网络进行展示,有利于了解多个文本间的内容层次结构,拓展了基于文本间关系的应用场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种文本关系的分析方法的流程示意图;

图2为一种实施方式中本发明构建的文本关系网络的示意图;

图3为另一种实施方式中本发明构建的文本关系网络的示意图;

图4为本发明实施例中一种文本关系的分析装置的结构框图;

图5为本发明实施例中一种计算机可读存储介质的结构框图。

具体实施方式

本发明的目的在于针对现有技术中的方法存在分析结果不够准确的技术问题,提供一种文本关系的分析方法及装置、文本关系网络的构建方法,从而达到提高分析的全面性和准确性的目的。

为了达到上述目的,本发明的主要构思如下:

通过文本共现规则构建以单个词汇为中心的词汇集合,并构建概念,然后根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系,可以利用与某个词汇经常共现的词汇的集合来表征该词汇所指向的概念,并根据不同文本是否包含同一概念来确定对不同文本之间的关系。基于此,还提供了一种文本关系网络的构建方法,并依据是否存在相同的概念将文本间建立联系并构建由文本组成的网络。

通过词汇集合的方式构建概念,再利用概念来计算文本之间的关系,可以更全面地分析不同文本之间的关系,提高了分析的准确性,此外,通过构建的文本关系网络,可以了解多个文本间的内容层次结构,拓展了基于文本间关系的应用场景。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

本实施例提供了一种文本关系的分析方法,请参见图1,该方法包括:

步骤s1:对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数。

具体来说,m篇独立文本即为待分析文本,m的数量可以根据实际情况确定。预处理包括分句、分词、去除停用词等步骤。

步骤s2:分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素。

具体来说,步骤s1可以得到语料的所有词汇,本步骤则以每一个词汇为基准,查找与该词汇出现在同一个句子中的词汇,将与其共同出现的词汇构建一个词汇集合,与概念主题词共同出现,则表示两个词汇具有关联,其中,该词汇集合中包括两种词汇,一种是概念主题词,另一种是词汇元素。

步骤s3:对每个词汇集合进行词汇元素筛选,构建概念。

具体来说,为了提高概念的准确性,本步骤进一步对词汇元素进行筛选,例如,通过判断词汇元素是否经常与概念主题词共同出现在一个文本中,来确定是否保留该词汇元素,其中,是否经常出现可以根据设置的阈值来确定。

步骤s4:根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系。

具体来说,在构建文本语料的概念后,则根据文本是否包含相同的概念来确定文本之间的关系。需要确定某个文本是否包含某一概念,在具体实施过程中,可以根据概念(概念主题词或者词汇元素)是否在文本中出现以及在文本中出现的数量来决定。

在一种实施方式中,步骤s1包括:

对包含m篇独立文本的文本集合中包含的每篇文本进行分句、分词以及去除停用词。

举例来说,对包含m篇独立文本的文本资料集合w={w1,w2…wm}中的每篇文本进行分句、分词以及去除停用词,得到语料中的所有句子以及词汇x1,x2...xn。

在一种实施方式中,步骤s3包括:

步骤s3.1:统计词汇集合中的每个词汇元素xj与概念主题词xi共同出现的文本数量z,其中,z≤m;

步骤s3.2:判断文本数量z是否大于或等于第一阈值,如果是,则将词汇元素作为词汇集合的有效词汇,保留在词汇集合中,否则,将词汇元素从词汇集合中去除。

具体来说,第一阈值可以根据实际情况设置,例如可以为3、5、6等等。通过词汇元素筛选,可以将与概念主题词经常出现在同一文本中的词汇选出来,将其作为有效词汇,从而提高概念的准确性。

在一种实施方式中,步骤s4包括:

步骤s4.1:根据概念中的概念主题词或者词汇元素在文本中的出现情况,判断文本是否包含该概念;

步骤s4.2:对文本集合中每两篇文本包含的概念进行比较,如果两篇文本包含相同的概念,则两篇文本具有关联。

具体来说,概念中的概念主题词或者词汇元素在文本中的出现情况包括是否出现以及出现的数量等。

在一种实施方式中,步骤s4.1包括:

步骤s4.1.1:当一个概念xi的词汇元素总数为0时,如果概念主题词xi出现在文本wi中,则判定文本wi包含概念xi;

步骤s4.1.2:当一个概念xi的词汇元素总数大于0且小于第二阈值时,如果有1个词汇元素出现在文本wi中,则判定文本wi包含概念xi;

步骤s4.1.3:当一个概念xi的词汇元素总数大于或等于第二阈值时,则根据xi中的必要词汇数量,确定文本wi是否包含概念xi,其中,必要词汇根据词汇集合中的词汇元素xj与概念主题词xi共同出现的文本数量以及词汇元素xj与概念主题词xi之间的关系确定。

具体来说,如果一个概念的词汇元素数量为0,则根据概念主题词是否出现在文本中(步骤s4.1.1)来确定,其中,概念主题词是否出现在文本中,可以根据概念主题词是否出现文本wi包含的词汇来确定,文本wi包含的词汇可以通过对文本进行分句、分词以及去除停用词得到。词汇元素xj与概念主题词xi之间的关系可以根据对应词向量之间的距离来确定。

如果词汇元素数量大于0,则根据步骤s4.1.2和s4.1.2来进行判断,第二阈值可以根据实际情况确定,例如为3、4、5等等。

其中,必要词汇的是对词汇集合中保留下来的有效词汇进行进一步处理,下面说明必要词汇与有效词汇之间的关系,必要词汇一定是先作为有效词汇存在的,但有效词汇不一定为必要词汇。必要词汇获取步骤可以是:

(1)统计概念主题词xi出现的文本数量y(y≤m)。计算词汇元素xj与概念主题词xi的共现得分scorepj=z/y。

(2)计算词汇元素xj的词向量vj与概念主题词xi的词向量vi之间的欧式距离dj=vi-vj,然后对欧式距离dj进行归一化,得到该词汇元素在词汇集合xi中的距离得分scoredj。

其中,词向量可以通过wordembedding训练初始词向量的方式得到,词向量的获取方式如下:

首先,对包含m篇独立文本的文本资料集合w={w1,w2···wm}中的每篇文本进行分句、分词,去除停用词,得到语料中的所有词汇x1,x2...xn。

然后,通过word2vec方法进行wordembedding,得到n个词汇的词向量,词向量的维度为200维。

词汇元素xj的词向量vj与概念主题词xi的词向量可以从训练得到的初始词向量中匹配得到。

两个词汇的距离dj越近,说明它们之间的关系越近,距离得分scoredj越高。两个词汇的距离dj越远,说明它们之间的关系越远,距离得分scoredj越低,距离得分scoredj的计算方式如下:

(3)对于集合中的每一个词汇元素xj,将其放入由scored和scorep两个维度构成的直角坐标系中,词汇元素xj的坐标(scoredj,scorepj)到原点的距离记为词汇元素的综合得分

(4)如果词汇元素xj的综合得分sj>0.6,则将该词汇元素视为词汇集合xi的必要词汇。

在一种实施方式中,步骤s4.1.3包括:

步骤s4.1.3.1:当一个概念xi中的必要词汇数量大于或等于第三阈值,如果存在预设比例的必要词汇出现在文本wi中,则判定文本wi包含概念xi;

步骤s4.1.3.2:当一个概念xi中的必要词汇数量小于第三阈值,如果存在预设比例的词汇元素出现在文本wi的词汇中,则判定文本wi包含概念xi。

具体来说,第三阈值可以根据实际情况确定,例如为5、6、8等等,预设比例可以根据实际情况确定,例如60%、65%、70%等等。

以第三阈值为5、预设比例为60%为例,如果一个概念中的必要词汇数量大于等于5,则以必要词汇出现的比例来衡量文本是否包含某一概念。

如果一个概念中的必要词汇数量小于5,说明不足以用必要词汇出现的数目来判断文本中是否含有这一概念。所以需要根据全部的词汇元素来计算,如果一个概念中有60%以上的词汇元素出现在文本中,则判定文本中含有该概念。

为了更清楚地说明本发明的方法的具体实现过程,下面通过具体示例来进行介绍:

实施例二

基于同样的发明构思,本实施例提供了一种文本关系的分析装置,请参见图4,包括:

预处理模块201,对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;

词汇集合构建模块202,用于分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;

概念构建模块203,用于对每个词汇集合进行词汇元素筛选,构建概念;

文本关系确定模块204,用于根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系。

在一种实施方式中,预处理模块201具体用于:

对包含m篇独立文本的文本集合中包含的每篇文本进行分句、分词以及去除停用词。

在一种实施方式中,概念构建模块203具体用于:

统计词汇集合中的每个词汇元素xj与概念主题词xi共同出现的文本数量z,其中,z≤m;

判断文本数量z是否大于或等于第一阈值,如果是,则将词汇元素作为词汇集合的有效词汇,保留在词汇集合中,否则,将词汇元素从词汇集合中去除。

在一种实施方式中,文本关系确定模块204具体用于:

根据概念中的概念主题词或者词汇元素在文本中的出现情况,判断文本是否包含该概念;

对文本集合中每两篇文本包含的概念进行比较,如果两篇文本包含相同的概念,则两篇文本具有关联。

在一种实施方式中,文本关系确定模块204还用于:

当一个概念xi的词汇元素总数为0时,如果概念主题词xi出现在文本wi中,则判定文本wi包含概念xi;

当一个概念xi的词汇元素总数大于0且小于第二阈值时,如果有1个词汇元素出现在文本wi中,则判定文本wi包含概念xi;

当一个概念xi的词汇元素总数大于或等于第二阈值时,则根据xi中的必要词汇数量,确定文本wi是否包含概念xi,其中,必要词汇根据词汇集合中的词汇元素xj与概念主题词xi共同出现的文本数量以及词汇元素xj与概念主题词xi之间的关系确定。

在一种实施方式中,文本关系确定模块204还用于:

当一个概念xi中的必要词汇数量大于或等于第三阈值,如果存在预设比例的必要词汇出现在文本wi中,则判定文本wi包含概念xi;

当一个概念xi中的必要词汇数量小于第三阈值,如果存在预设比例的词汇元素出现在文本wi的词汇中,则判定文本wi包含概念xi。

由于本发明实施例二所介绍的装置,为实施本发明实施例一中文本关系的分析方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

实施例三

基于同一发明构思,本申请还提供了一种文本关系网络的构建方法,基于实施例一所述的文本关系分析方法实现,构建方法包括:

根据文本之间的关系,构建文本关系网络。

其中,根据文本之间的关系,构建文本关系网络,包括:

将文本作为节点、文本具有相同的概念作为边、两个文本具有相同概念的数量为边的权重构建加权无环无向网络,作为文本关系网络。

具体来说,对于含有n篇独立文本的文本集合w={w1,w2···wn},计算文本之间的关系。将集合w中的文本两两进行对比,比较文本中包含的概念。如果两个文本具有相同的概念,则它们具有链接(两节点之间具有边),相同概念的数量为链接的权重,其中,权重大小表示两个文本之间的关系强弱,然后依据文本间的链接及权重构建文本间的加权无环无向网络。

下面通过具体示例对本发明提供的方法所构建的文本关系网络的几个步骤进行说明。

1、概念库的构建示例,所有的概念构成概念库。

概念主题词为“砧木”,该词汇在语料库的51篇文章中出现过。下表中的所有词汇元素均是曾与“砧木”一词共现于同一句子中的词汇(节选)

距离可以通过计算词汇元素xj的词向量与概念主题词xi的词向量之间的欧式距离得到,距离得分是对距离进行归一化,使其处于0~1之间,且距离越近,距离得分越高,距离越远,距离得分越低。

2、基于已有概念库,判断文本包含哪些概念

从已有文献《基于问题的相关研究》中概念的匹配情况(节选)获得

3、文本网络构建与绘制。

在文本网络中,节点表示文本,边表示文本之间的关系,边的权重表示了文本之间关系的强弱。

其中,图2是一个包含了42篇文本的文本关系网络图示例,(节点数量:42,边数量:47)。

对m篇文本绘制的文本间关系的网络如图3所示,其中边越密集,表示对应的文本的关联越强,越稀疏表示关联越弱。

本发明提供的方法,通过文本共现规则构建以单个词汇(概念主题词)为中心的词汇集合,并对每个词汇集合进行词汇元素筛选,构建概念,再根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系,通过提供一种新的构建概念的方法,计算文本中包含的概念,再利用概念来计算文本之间的关系,可以更全面地分析不同文本之间的关系,提高了分析的准确性。

进一步地,基于对不同文本关系的分析,本发明还提供了一种文本关系网络的构建方法,可以对不同文本之间的关系通过网络进行展示,有利于了解多个文本间的内容层次结构,拓展了基于文本间关系的应用场景。

实施例四

请参见图5,基于同一发明构思,本申请还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中文本关系的分析方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1