术语抽取方法和装置与流程

文档序号:13387641阅读:802来源:国知局
术语抽取方法和装置与流程

本发明涉及自然语言处理技术,具体涉及术语抽取方法和装置。



背景技术:

术语抽取(terminologyextraction)的目标是对于属于某个特定学科或领域的文本,自动地抽取出其中的术语。术语,是指在特定学科或领域里用来表示领域内特有概念的词。术语抽取在科研和教育领域都有着重要的应用价值。在科研领域,术语抽取是进一步构建科技知识图谱的重要支撑;在教育领域,从课程教学材料中自动地抽取出学科术语,可以帮助老师更好地组织知识结构,帮助学生更好地理解知识点和知识点间的关系。

目前已经有很多关于术语抽取的工作,大多属于基于频率特征的统计方法。其中最著名的两种特征是单元性(unithood)和术语性(termhood)。其中单元性是指词组组分之间的结合紧密程度,而术语性则是指词组和专业领域概念之间的关系,表示词组的领域相关性。常用的tf-idf方法即一种计算单元性的方法,而文献[frantzi,2000]中提出的基于c-value方法和nc-value方法的术语抽取方法,则是基于termhood的统计方法。这两种特征通常在知识点提取中混合使用。

上述基于统计信息抽取获得术语的方法,由于其对于目标语料规模有着较大的需求;而较小的语料规模往往会造成低频词的统计不可靠性,因此其缺陷包括在短上下文语料上术语抽取效果不足以及难以抽取出低词频术语。



技术实现要素:

鉴于上述问题,本发明提出了克服上述问题或者至少部分地解决上述问题的术语抽取方法和装置。

为此目的,第一方面,本发明提出一种术语抽取方法,包括步骤:

s101、抽取第一语料中的名词和名词短语,作为候选术语集合t;

s102、根据百科语料和步骤s101中的候选术语集合t,获得候选术语的嵌入表示;

s103、根据候选术语的嵌入表示,计算候选术语间的语义相关度sr(a,b);以候选术语为顶点,以术语间的语义相关度sr(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络其中v是术语传播网络g的顶点集,e是术语传播网络g的无向边集;

s104、根据术语传播网络g使用置信度传播算法对候选术语进行排序;根据排序筛选术语。

可选的,所述步骤抽取第一预料中的名词和名词短语,包括:

根据输入的第一语料,对其进行分词处理,得到第一语料的文本词序列表示,对该文本词序列进行词性标注;基于已标注词性的词序列,在其中抽取出长度小于k个词,且满足第一词性模板的名词或名词短语,作为候选术语;由所有的候选术语构成候选术语集合t;

第一词性模板为((a|n)+|(a|n)*(np)?(a|n)*)n,其中a,n,p分别表示形容词名词和介词;k为预设值。

可选的,所述获得候选术语的嵌入表示包括:

将百科语料表示为一个由词组成的有序序列w,其中wi表示单个词,m为该词序列的长度;在有序序列w中标注出候选术语集合t中存在的词组,获得候选词标注的文本语料xi表示中的一个词或者候选术语集合t中的一个候选术语;

根据百科语料计算xi的向量表示;

对于候选术语集合t中的候选术语a,若a=xi,则候选术语a的向量表示等于xi;若候选术语a未出现在w’中,则候选术语a的向量表示等于构成候选术语a的各个词的向量之和。

可选的,任意两个候选术语之间的所述语义相关度等于其对应向量表示的标准化余弦距离。

可选的,所述以术语间的语义相关度sr(a,b)构建候选术语a和候选术语b之间的边,包括:

若候选术语a与候选术语b之间的语义相关度sr(a,b)大于给定阈值θ,则顶点a与b间存在一条无向边,且边上的权重等于语义相关度sr(a,b)。

可选的,所述根据术语传播网络g使用置信度传播算法对候选术语进行排序,包括:

对顶点集v中的每个候选术语赋予一个初始的置信度值;反复迭代更新术语传播网络g中各个顶点的置信度值,直到术语传播网络g中各顶点的置信度值达到收敛状态;根据收敛状态下的置信度值,对术语传播网络g中各顶点进行排。

可选的,所述对其顶点集v中的每个候选术语赋予一个初始的置信度值,包括:

基于术语传播网络在其顶点集v中筛选出代表术语构建“种子集合”,对种子集合中的候选术语所对应的顶点,赋予初始置信度1.0,对于其他非种子的顶点,赋予初始置信度0.0;种子集合可以人工构建或自动构建;其中人工构建是将专家给出的输入文档中的部分关键术语作为种子集合,自动构建可以通过候选术语在输入语料中的tf-idf值进行判断,将tf-idf值最高的若干候选术语加入种子集合中。

可选的,所述反复迭代更新术语传播网络g中各个顶点的置信度值,直到术语传播网络g中各顶点的置信度值达到收敛状态,包括:

计算顶点c的置信度值confk(c),直至传播网络g中各顶点的置信度值confk(c)达到收敛状态;其中,

其中,k表示第k轮迭代,vsk(cj,ci)为第k轮迭代时,顶点cj对顶点ci的置信度传播值;vsk(cj,ci)=ph(cj)·e(ci,cj)·confk(cj),e(ci,cj)为顶点cj和顶点ci对应的候选术语间的语义相关度,z为归因化因子,在ci和cj中,i代表候选术语在术语传播网络g中的编号,j为顶点在a(ci)中的编号;a(ci)表示与顶点ci有边相邻的顶点的集合,|a(ci)|表示集合a(ci)中顶点的个数;;

其中,任一词组c的在某一选用语料上的词组概率ph(c)的计算方法如下:

ph(c)=max{pmi(fi,bi)|i=1,…,k-1}

其中,fi和bi分别表示将词组c从中间第i个词分隔时所得到的前半部分和后半部分,pmi(fi,bi)表示fi和bi在选用语料中的点互信息;

分别计算候选术语c在第一语料的词组概率phd(c)和百科语料上的词组概率phe(c),根据phd(c)和phe(c)计算候选术语c在第一语料和百科语料的词组概率ph(c);

ph(c)=α·phd(c)+(1-α)·phe(c);

其中α为两个语料的分配权重,取值范围为0到1之间。

第二方面,本发明提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法的步骤。

第二方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述方法的步骤。

由上述技术方案可知,本发明所述的术语抽取方法,在对术语抽取过程中引入外部语义信息,即使用外部的百科语料提供丰富的背景知识,并借此学习获得词组的嵌入表示。通过置信度网络,将语义信息引入到迭代的过程中,极大地提高了术语抽取的性能。因此,本发明极大地解决了现有术语抽取系统在抽取低频术语上的不足,并且在术语抽取过程中,对于目标语料规模基本没有特别要求。

前面是提供对本发明一些方面的理解的简要发明内容。这个部分既不是本发明及其各种实施例的详尽表述也不是穷举的表述。它既不用于识别本发明的重要或关键特征也不限定本发明的范围,而是以一种简化形式给出本发明的所选原理,作为对下面给出的更具体的描述的简介。应当理解,单独地或者组合地利用上面阐述或下面具体描述的一个或多个特征,本发明的其它实施例也是可能的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的一个实施例中的4组输入数据的详细信息表;

图2为本发明的一个实施例中将本发明的技术方案与现有技术进行的效果对比表;

图3为本发明的一个实施例的方法流程图。

具体实施方式

下面将结合示例性的通信系统描述本发明。

一种术语抽取方法,如图3所示,包括步骤:

s101、抽取第一语料中的名词和名词短语,加入候选术语集合t;

s102、根据百科语料和步骤s101中的候选术语集合t,获得候选术语的嵌入表示;

s103、根据候选术语的嵌入表示,计算候选术语间的语义相关度sr(a,b);以候选术语为顶点,以术语间的语义相关度sr(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络其中v是术语传播网络g的顶点集,e是术语传播网络g的无向边集;

s104、根据术语传播网络使用置信度传播算法对候选术语进行排序;根据排序筛选术语。

在步骤s101中抽取第一语料中的名词短语包括使用词性标注工具(例如part-of-speechtagger)获得词性标注后的语料,根据标注的词性标记选择第一语料中的名词或名词短语。可以根据词性短语模板筛选第一语料获取名词短语。例如,在本发明的一个实施例中,根据输入的第一语料,对其进行分词处理,得到第一语料的文本词序列表示,对该文本词序列进行词性标注;基于已标注词性的词序列,在其中抽取出长度小于k个词,且满足第一词性模板的名词或名词短语,作为候选术语;由所有的候选术语构成候选语料;第一词性模板为((a|n)+|(a|n)*(np)?(a|n)*)n,其中a,n,p分别表示形容词、名词和介词;k为预设值。上述第一词性模板中的运算符的含义可以参考正则表达式中的运算符的含义。例如名词短语“artificialneuralnetworks”为ann结构,满足第一词性模板,将会被抽取为候选术语存入候选术语集合t中。

本文中的第一语料不限于是百科语料、课程字幕语料、讲义语料中的一种或多种。本发明也可处理上述语料,用于抽取上述语料中的术语。

其中s102中,通过词嵌入(wordembedding)算法得到百科语料中的每个元素(包括词或者候选术语)的向量表示。

本发明所述的术语抽取方法,在对术语抽取过程中引入外部语义信息,即使用外部的百科语料提供丰富的背景知识,并借此学习获得词组的嵌入表示。通过置信度网络,将语义信息引入到迭代的过程中,极大地提高了术语抽取的性能。因此,本发明极大地解决了现有术语抽取系统在抽取低频术语上的不足,并且对于目标语料规模基本没有特别要求。

在本发明的一个实施例中,所述获得候选术语的嵌入表示包括:

将百科语料表示为一个由词组成的有序序列w,其中wi表示单个词,m为该词序列的长度;w的一个片段例如:“/w逻辑/n实证主义/n者/k,/w以/p赖辛巴赫/nh(/wh/ws./wreichenbach/ws,/w189/m1/m—/w1953/m)/w为/p代表/n,/w试图/v用/v概率论/n来/vd补救/v归纳法/n的/u漏洞/n。”,wi可以是:/n实证主义。在有序序列w中标注出候选术语集合t中存在的候选术语和构成候选术语的词,获得候选词标注的文本语料xi表示候选术语集合t中的一个候选术语,或构成候选术语的词;例如“machinelearning”可能是候选术语集合t中的一个候选术语,则在百科语料中将“machinelearning”放入w’中。以“artificialneuralnetworks”为例,networks是一个词,artificialneuralnetworks是一个候选术语,则分别将networks和artificialneuralnetworks放入w’中。

根据百科语料计算xi的向量表示;可以通过word2vec处理百科语料获得xi的向量表示。

对于候选术语集合t中的候选术语a,若a=xi,则候选术语a的向量表示等于xi的向量表示;若候选术语a未出现在w’中,且候选术语a=e1+…en,e1~en则候选术语a的向量表示等于构成候选术语a的各个词e1~en的向量之和。

上述获得候选术语的嵌入表示的方法,仅为本发明的实施例并不是用于限制本发明的实施方式。

任意两个候选术语之间的所述语义相关度等于其对应向量表示的标准化余弦距离。标准余弦距离是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。

在发明的一个实施例中,所述以术语间的语义相关度sr(a,b)构建候选术语a和候选术语b之间的边,包括:

若候选术语a与候选术语b之间的语义相关度sr(a,b)大于给定阈值θ,则顶点a与b间存在一条无向边,且边上的权重等于语义相关度sr(a,b)。

在发明的一个实施例中,所述根据术语传播网络使用置信度传播算法对候选术语进行排序,包括:

对顶点集v中的每个候选术语赋予一个初始的置信度值(顶点集由候选术语构成,每一候选术语为一个顶点);反复迭代更新术语传播网络g中各个顶点的置信度值,直到术语传播网络g中各顶点的置信度值达到收敛状态;根据收敛状态下的置信度值,对术语传播网络g中各顶点进行排。

在发明的一个实施例中,所述对其顶点集v中的每个候选术语赋予一个初始的置信度值,包括:

基于术语传播网络g=(v,e),在其顶点集v中筛选出代表术语构建“种子集合”,对种子集合中的候选术语所对应的顶点,赋予初始置信度1.0,对于其他非种子的顶点,赋予初始置信度0.0。种子集合可以人工构建或自动构建;其中人工构建是将专家给出的输入文档中的部分关键术语作为种子集合,自动构建可以通过候选术语在输入语料中的tf-idf值进行判断,将tf-idf值最高的若干候选术语加入种子集合中;

在发明的一个实施例中,所述反复迭代更新术语传播网络g中各个顶点的置信度值,直到术语传播网络g中各顶点的置信度值达到收敛状态,包括:

计算顶点c的置信度值confk(c),直至术语传播网络g中各顶点的置信度值confk(c)达到收敛状态;其中,

其中,k表示第k轮迭代,vsk(cj,ci)为第k轮迭代时,顶点cj对顶点ci的置信度传播值;vsk(cj,ci)=ph(cj)e(ci,cj)·confk(cj),e(ci,cj)为顶点cj和顶点ci对应的候选术语间的语义相关度;

其中,任一候选术语c的在选用语料上的词组概率ph(c)的计算方法如下:

ph(c)=max{pmi(fi,bi)|i=1,…,k-1}

其中,fi和bi分别表示将候选术语c从中间第i个词分隔时所得到的前半部分和后半部分,pmi(fi,bi)表示fi和bi在选用语料中的点互信息;若k=1,则直接定义ph(c)=0。k=1时即指候选术语c是不可分隔的。

分别计算候选术语c在第一语料的词组概率phd(c)和百科语料上的词组概率phe(c),根据phd(c)和phe(c)计算候选术语c的词组概率ph(c)

ph(c)=α·phd(c)+(1-α)·phe(c);;

其中α为两个语料的分配权重,取值范围为0到1之间;

可以理解的是,候选术语c即术语传播网络g中的一个顶点,顶点也可以称为结点,候选术语c也可以是一个词或词组。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一一个或几个实施例中所述方法的步骤。

本发明还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序,所述处理器执行所述程序时实现上述任一一个或几个实施例中所述方法的步骤。

采用本发明的方法进行了实验,具体实验过程如下:

1、数据集介绍。实验采用不同语言、不同学科领域的大规模在线教育平台上的真实课程数据进行实验。具体地如图1所示,本次实验采用4组实验,分别计算不同语言不同学科不同平台上的术语抽取效果。其中csen数据集由coursera平台上的8门计算机领域课程的教学字幕构建,ecoen由coursera平台上的5门经济学领域课程的教学字幕构建。其中,coursera是目前世界领先的大规模在线教育平台之一。csen和ecoen数据集的语料均为英文。另外两个中文语料数据集由中国目前最大的在线教育平台——学堂在线——的课程数据构建。cszh包含18门学堂在线上的计算机领域课程的教学字幕,ecozh包含8门学堂在线上的经济学领域课程的教学字幕。上述课程字幕即对应本方法中的第一语料,数据集的相关信息如图1所示。

英文的辅助文本语料采用2017年1月的维基百科词条描述文本,共包括9,834,664篇文档。中文的辅助语料采用最新抓取的百度百科词条描述文本,共包括6,223,649篇文档。即将这6,223,649篇文档作为百科语料。

2、实验设置。实验评测指标采用信息抽取领域常用的两个指标——r-precision(计算序列中前r个位置文献的准确率)和map(meanap:meanaverageprecision,主集合的平均准确率)。假设数据集中存在n个人工标注的正确术语,r-precision是指在抽取装置所抽取的前n个术语中,正确的术语所占的比例。r-precision可以有效地反映出术语抽取装置的整体效果,但是不能反映出术语抽取器对术语排序的能力。而map指标是指正确术语被抽取器所排的平均排序位置,恰好可以弥补r-precision指标的不足。另外,在对比方法上,我们选取了几个比较典型的基于统计和基于图的术语抽取方法。其中,基于统计的现有技术中的方法为tf-idf和pmi。tf-idf方法直接按照候选术语在语料中的tf-idf值对候选术语进行排序,pmi方法直接按照候选术语的pmi指标对候选术语进行排序。基于图的方法包括textrank和topicalpagerank(tpr)。textrank方法按照候选术语在语料中的共现关系构建共现关系图,并在共现关系图上采用pagerank算法对候选术语进行排序。tpr的基本思想与textrank相同,不同之处在于,tpr将共现关系图按照候选术语的话题分割为多个独立的子图,并在每个子图上分别执行pagerank算法,而话题的区分采用文档主题生成模型(lda)进行。

3、实验结果与分析

采用以上数据集和实验设置,我们将本发明公布的方法在各个数据集上进行了实验,并与以上主流方法进行了对比(本发明公布的方法在图中用ccp表示)。如图2所示,为术语抽取的评测结果。在每个数据集上,ccp在两项评测指标下均明显优于对比方法,证明了本发明所公布方法的准确性和稳定性。

实验结果分析。首先,tf-idf与textrank取得了近似的效果,但效果都较差。因为tf-idf与textrank都依赖于语料的统计信息,因此对于一些低频术语,在其统计信息不够的情况下,容易造成抽取错误(即忽略这些低频术语)。在csen语料中,tf-idf和textrank均可以正确地抽取出“ip”这个术语,因为其在语料中出现了139次,提供了充分的统计信息。而对于与“ip”具有相同语义的“internetprotocol”,由于该术语只在语料中出现了8次,它的低频特性导致它不能正确地被tf-idf和textrank方法发现。另外,tf-idf和textrank也会将一些非术语但频度较高的词错误地抽取出来。由于引入了外部语义信息,这些错误在本发明所提出的方法中大大减少。

另外,tpr在所有四个评测数据集上的表现都优于textrank,但其表现比ccp差。这是由于在语料中存在多个主题,textrank往往在抽取结果中偏向了某一特定主题。textrank将所有带有“tree”的术语整体排序较高,而对带有“sort”的术语整体排序较低。tpr通过对不同的主题分别进行pagerank算法解决了这一问题,因此取得了更好的抽取效果。但是,tpr依然偏向于抽取出相对高频的术语,因为在pagerank构建的共现网络中,高频词倾向于与更多的词存在上下文共现,从而在网络中有更多的边与之相连,从而使得pagerank算法的排序结果偏高。在本发明所提出的基于置信度传播的迭代算法中,下一轮迭代时特定节点的分数是由其相邻节点传播的平均置信度分数决定,从而避免了这一问题。

本发明实施例所述的术语抽取方法,在文本语料的科学术语抽取过程中引入外部语义信息,使用外部在线百科语料提供丰富的背景知识,并借此学习获得词组的嵌入表示。另一方面,通过提出置信度网络,本发明提出了一种迭代的术语抽取方法,将语义信息引入到迭代的过程中,极大地提高了术语抽取的性能,并解决了现有术语抽取系统在抽取低频术语上的不足。

本文中使用的“至少一个”、“一个或多个”以及“和/或”是开放式的表述,在使用时可以是联合的和分离的。例如,“a、b和c中的至少一个”,“a、b或c中的至少一个”,“a、b和c中的一个或多个”以及“a、b或c中的一个或多个”指仅有a、仅有b、仅有c、a和b一起、a和c一起、b和c一起或a、b和c一起。

术语“一个”实体是指一个或多个所述实体。由此术语“一个”、“一个或多个”和“至少一个”在本文中是可以互换使用的。还应注意到术语“包括”、“包含”和“具有”也是可以互换使用的。

本文中使用的术语“自动的”及其变型是指在执行处理或操作时没有实质的人为输入的情况下完成的任何处理或操作。然而,即使在执行处理或操作时使用了执行所述处理或操作前接收到的实质的或非实质的人为输入,所述处理或操作也可以是自动的。如果输入影响所述处理或操作将怎样进行,则视该人为输入是实质的。不影响所述处理或操作进行的人为输入不视为是实质的。

本文中使用的术语“计算机可读介质”是指参与将指令提供给处理器执行的任何有形存储设备和/或传输介质。计算机可读介质可以是在ip网络上的网络传输(如soap)中编码的串行指令集。这样的介质可以采取很多形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如nvram或者磁或光盘。易失性介质包括诸如主存储器的动态存储器(如ram)。计算机可读介质的常见形式包括例如软盘、柔性盘、硬盘、磁带或任何其它磁介质、磁光介质、cd-rom、任何其它光介质、穿孔卡、纸带、任何其它具有孔形图案的物理介质、ram、prom、eprom、flash-eprom、诸如存储卡的固态介质、任何其它存储芯片或磁带盒、后面描述的载波、或计算机可以读取的任何其它介质。电子邮件的数字文件附件或其它自含信息档案或档案集被认为是相当于有形存储介质的分发介质。当计算机可读介质被配置为数据库时,应该理解该数据库可以是任何类型的数据库,例如关系数据库、层级数据库、面向对象的数据库等等。相应地,认为本发明包括有形存储介质或分发介质和现有技术公知的等同物以及未来开发的介质,在这些介质中存储本发明的软件实施。

本文中使用的术语“确定”、“运算”和“计算”及其变型可以互换使用,并且包括任何类型的方法、处理、数学运算或技术。更具体地,这样的术语可以包括诸如bpel的解释规则或规则语言,其中逻辑不是硬编码的而是在可以被读、解释、编译和执行的规则文件中表示。

本文中使用的术语“模块”或“工具”是指任何已知的或以后发展的硬件、软件、固件、人工智能、模糊逻辑或能够执行与该元件相关的功能的硬件和软件的组合。另外,虽然用示例性实施方式来描述本发明,但应当理解本发明的各方面可以单独要求保护。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1