一种识别文本专业术语的方法及装置与流程

文档序号:20490643发布日期:2020-04-21 22:01阅读:167来源:国知局
一种识别文本专业术语的方法及装置与流程

本发明涉及自然语言处理应用技术领域,特别是涉及一种识别文本专业术语的方法及装置。



背景技术:

术语识别的研究很困难,主要是因为术语通常没有一个固定的命名,经常会有不同的术语代表同一个实体,相同的词或短语代表不同类型的实体,术语有嵌套结构,这增加了术语识别的难度。在术语识别的早期阶段,最常用的方法是基于字典的方法,这种方法实用且简单,但对于包含新兴术语的金融术语的识别效果就不是很好。此外还有基于指定规则的金融术语识别方法,与基于字典的方法相比,该方法提高了识别性能,但便携性差。现有的自动术语识别(atr)方法通常分为以下几类:1)语言规则方法,基于规则的方法主要使用术语词典和规则模板进行术语提取。通常来说,某些常用术语收入词典始终被用作基础。对于不在词典中的术语,通过构建规则模板的方法来构建术语。通过分析术语的内部和外部特征(例如术语上下文,内部组成以及首尾),人为地构建规则模板以实现术语的识别和提取。这种方法实施起来相对简单,在语言知识和文本匹配的情况下,其准确性很高。但是,这种方法要求规则编写者具有丰富的语言知识和广泛的计算语言学背景。这样的人力资源非常昂贵且稀缺,昂贵,费时,维护缓慢且经常。完整性和合理性更难以保证。同样,规则的制定通常取决于特定的语言,域和文本格式。如果要移植该系统,则需要对其进行重大更改,因此基于规则的系统缺乏适应性。2)基于统计指标的方法,与普通词汇相比,术语具有不同的统计特征和领域特征。这种方法的主要思想是利用术语组成部分与术语的域特征信息之间的高度相关性来提取术语。词频,均值和方差是常用的统计方法。很多人会使用假设检验方法,例如t检验,卡方检验,对数似然比,互点信息等。使用统计方法提取术语不需要语法和语义信息,不限于特定领域,不依赖任何资源,并且具有很强的通用性。但是,其算法性能直接取决于语料库的大小和候选词的词频。一些低频候选术语也可能是合法术语。对于这样的数据稀疏性难以获得期望的效果。3)基于机器学习的方法,基于机器学习的atr已成为最近研究的热门话题。主要实现是:手动或半自动构建训练语料库,基于特定的机器学习算法生成用于训练语料库学习的模型,并使用该模型对测试语料库进行术语提取实验并验证算法的有效性。支持向量机(svm),隐马尔可夫模型(hmm)比较频繁的被使用。

svm是基于统计学习理论的结构风险最小化原则。它具有良好的泛化能力,尤其是在训练样本较小时,可以获得更好的结果。该特性有助于解决非线性,高维和局部极小值的问题。但svm在处理两分类问题时很有用,对于多分类问题,需要提高速度和准确性。此外,该方法对噪声敏感,并且倾向于使用更多样本对类别进行分类。并且在处理带有大量训练样本和支持向量的分类问题时,svm的分类速度急剧下降,因此svm方法不能用于大规模文本处理。

hmm是一个生成模型,通过定义观察序列和标记序列的联合概率来对生成过程进行建模。关于hmm的研究非常广泛,该算法成熟,高效,有效且易于训练。但是,其主要缺点是hmm具有很强的独立性假设。因此,使用马尔可夫模型只能使用有限的上下文特征。否则会带来数据稀疏的问题,导致识别精度下降。



技术实现要素:

本发明实施例提供一种识别文本专业术语的方法及装置,以解决现有技术中的以下问题:由于文本的专业术语不容易识别,导致读者难以掌握文本的全部内容,造成读者的阅读障碍,无法满足读者的阅读体验。

为解决上述技术问题,本发明实施例采用的第一技术方案如下:

一种识别文本专业术语的方法,其包括:对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,并对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,其中每个所述标准候选术语包括按照预设顺序排列的若干个单词,并定义一个单词为一个令牌;依次将每个所述标准候选术语作为目标匹配对象,并依次将每个所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,并将剩余的所述标准候选术语中符合相似度匹配要求的原始令牌合并到所述目标匹配对象,组成所述目标匹配对象对应的相似术语集合,得到多个所述相似术语集合;根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,一个所述相似术语集合对应的所述嵌套术语数量为该所述相似术语集合内的原始令牌和剩余的所述相似术语集合之间具有包含或被包含的关系的数量;将待识别的所述标准候选术语对应的所述嵌套术语数量、所述标准候选术语及其变异体在所述目标文本出现的词频和所述标准候选术语长度一起输入c-value公式进行计算,得到目标c-value值,并根据所述目标c-value值的数值大小对待识别的所述标准候选术语进行判定。

可选地,所述对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,包括:分别将所述目标文本中的重复标点符号编辑为一个标点符号、拆分数字和单位的组合和对非ascii字符进行规范处理;以句子为单位,将所述目标文本对应的每个句子分割为单词和标点符号的形式,且将每个单词和每个标点符号均作为一个令牌;对每个令牌进行词干化处理、词形还原处理及词性标注处理,并根据每个令牌的词性标注和匹配规则,将所述目标文本分割为多个所述候选术语。

可选地,所述对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,包括:分别删除所述候选术语之间的所有标点符号、少于3个字符的所有小写标记和所述目标文本里面的停用词,所述停用词包括介词和数字;按照令牌首字母在26个字母中的字母排列顺序,将所述候选术语包含的所述令牌进行排列,且相邻两个所述令牌之间用逗号隔开;使用括号包括按照所述字母排列顺序排列好的所有令牌,将包括在括号里面的全部所述令牌作为所述标准候选术语。

可选地,所述将所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,包括:计算所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌之间的目标编辑距离;将所述目标编辑距离小于或等于预设编辑距离阈值的目标原始令牌合并到所述匹配对象中,所述目标原始令牌为剩余的所述标准候选术语包含的原始令牌。

可选地,所述根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,包括:将目标相似术语集合内的目标原始令牌和剩余的所述相似术语集合内的所有令牌进行比较,判断剩余的所述相似术语集合内的所有令牌是否和所述目标原始令牌存在包含或被包含关系;若是,则计算出和所述目标相似术语集合存在包含或被包含关系的剩余的所述相似术语集合的目标数量,并将所述目标数量作为所述目标相似术语集合对应的所述嵌套术语数量。

可选地,所述c-value公式为:c-value(t)=ln|t|·f(t),当其中,t为待识别的标准候选术语,s(t)为t对应的所述嵌套术语数量,|t|为t的长度,f(t)为t及其变异体在所述目标文本中的词频,f(s)为和t对应的所有嵌套术语的数量,表示空集。

可选地,还所述根据所述c-value值的数值大小对待识别的所述标准候选术语进行判定,包括:判断所述c-value值的数值是否大于或等于预设c-value阈值;若是,则判定待识别的所述标准候选术语为专业术语。

为解决上述技术问题,本发明实施例采用的第二技术方案如下:

一种识别文本专业术语的装置,其包括:候选术语获取模块,用于对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,并对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,其中每个所述标准候选术语包括按照预设顺序排列的若干个单词,并定义一个单词为一个令牌;术语集合获取模块,用于依次将每个所述标准候选术语作为目标匹配对象,并依次将每个所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,并将剩余的所述标准候选术语中符合相似度匹配要求的原始令牌合并到所述目标匹配对象,组成所述目标匹配对象对应的相似术语集合,得到多个所述相似术语集合;嵌套数量获取模块,用于根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,一个所述相似术语集合对应的所述嵌套术语数量为该所述相似术语集合内的原始令牌和剩余的所述相似术语集合之间具有包含或被包含的关系的数量;候选术语判断模块,用于将待识别的所述标准候选术语对应的所述嵌套术语数量、所述标准候选术语及其变异体在所述目标文本出现的词频和所述标准候选术语长度一起输入c-value公式进行计算,得到目标c-value值,并根据所述目标c-value值的数值大小对待识别的所述标准候选术语进行判定。

为解决上述技术问题,本发明实施例采用的第三技术方案如下:

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上述的识别文本专业术语的方法。

为解决上述技术问题,本发明实施例采用的第四技术方案如下:

一种计算机设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的识别文本专业术语的方法。

本发明实施例的有益效果是:区别于现有技术的情况,本发明实施例通过对待识别专业术语的目标文本进行预处理,得到多个标准候选术语,再依次将每个标准候选术语作为目标匹配对象,并依次将每个目标匹配对象包含的每一个原始令牌和剩余的标准候选术语包含的每一个原始令牌进行相似度匹配,得到多个所述相似术语集合,然后根据多个相似术语集合,获取每个相似术语集合内的原始令牌对应的嵌套术语数量,最后将待识别的标准候选术语对应的各个参数一起输入c-value公式进行计算,得到目标c-value值,并根据目标c-value值的数值大小对待识别的标准候选术语进行判定,有效地识别出文本中的专业术语,避免了读者因为无法识别文本的专业术语而导致不能掌握文本内容的问题,提高读者的体验。

附图说明

图1是本发明实施例一的识别文本专业术语的方法一实施方式的实施流程图;

图2是本发明实施例二的识别文本专业术语的装置一实施方式的部分结构框架图;

图3是本发明实施例三的计算机可读存储介质一实施方式的部分结构框架图;

图4是本发明实施例四的计算机设备一实施方式的部分结构框架图。

具体实施方式

实施例一

请参阅图1,图1是本发明实施例的识别文本专业术语的方法的实施流程图,结合图1可以得到,本发明的一种识别文本专业术语的方法,用于英文文本中的专业术语识别,其包括:

步骤s101:对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,并对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,其中每个所述标准候选术语包括按照预设顺序排列的若干个单词,并定义一个单词为一个令牌。另外,可选地,将每一个标点符号也定义为一个令牌。

步骤s102:依次将每个所述标准候选术语作为目标匹配对象,并依次将每个所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,并将剩余的所述标准候选术语中符合相似度匹配要求的原始令牌合并到所述目标匹配对象,组成所述目标匹配对象对应的相似术语集合,得到多个所述相似术语集合。

步骤s103:根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,一个所述相似术语集合对应的所述嵌套术语数量为该所述相似术语集合内的原始令牌和剩余的所述相似术语集合之间具有包含或被包含的关系的数量。

步骤s104:将待识别的所述标准候选术语对应的所述嵌套术语数量、所述标准候选术语及其变异体在所述目标文本出现的词频和所述标准候选术语长度一起输入c-value公式进行计算,得到目标c-value值,并根据所述目标c-value值的数值大小对待识别的所述标准候选术语进行判定。

在本实施例中,可选地,所述对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,包括:

第一,分别将所述目标文本中的重复标点符号编辑为一个标点符号、拆分数字和单位的组合和对非ascii字符进行规范处理,还包括用大写字母分隔可能的标题或部分。其中,ascii(americanstandardcodeforinformationinterchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。

在本实施例中,可选地,完成上述过程后,将使用python(一种计算机程序设计语言)处理文本(用到的spacy是一个python的工具包,用来提供文本分段和标记化,然后使用词性注释信息。词性标签根据其在句子中的角色分配给单个单词(即令牌)。在本实施例中,可选地,使用了penntreebank(词性标记集),例如:nn(名词)、jj(形容词)和in(介词)等。除了以上三个部分,词形还原和词干化也是两个必不可少的操作。在本实施例中,使用spacy包提供的词性敏感后缀规则的词形还原,并使用nltk(naturallanguagetoolkit,自然语言处理工具包)包的词干提取算法的porterstemmer:porterstem算法是一个从英语单词中删除普通形态和拐点结尾的过程。

第二,以句子为单位,将所述目标文本对应的每个句子分割为单词和标点符号的形式,且将每个单词和每个标点符号均作为一个令牌。

第三,对每个令牌进行词干化处理、词形还原处理及词性标注处理,并根据每个令牌的词性标注和匹配规则,将所述目标文本分割为多个所述候选术语。

在本实施例中,可选地,根据每个令牌的词性标注和匹配规则,将所述目标文本分割为多个所述候选术语,具体为:文本的候选术语具备的特征必须包括以下3点匹配规则中的任意一点,其中该3点匹配规则如下:

1、(jj|nn)+nn,例如:capitaladequacyratio(资本充足率);

2、(nn|jj)*nnpos(nn|jj)*nn,例如:homeownership’sexclusion(自用住宅优惠);

3、(nn|jj)*nnin(nn|jj*nn,例如:actualrateofinterest(实际利率)。

其中,pos表示“....的”意思,nn表示名词,jj表示形容词,in表示介词。

在本实施例中,可选地,所述对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,包括:

第一,分别删除所述候选术语之间的所有标点符号、少于3个字符的所有小写标记和所述目标文本里面的停用词,所述停用词包括介词和数字。

第二,按照令牌首字母在26个字母中的字母排列顺序,将所述候选术语包含的所述令牌进行排列,且相邻两个所述令牌之间用逗号隔开。

第三,使用括号包括按照所述字母排列顺序排列好的所有令牌,将包括在括号里面的全部所述令牌作为所述标准候选术语。例如:hypoxiaatrest和restinghypoxia会都被映射为一样的标准形式{hypoxia,rest}。

在本实施例中,可选地,所述将所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,包括:

第一,计算所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌之间的目标编辑距离。其中,编辑距离(editdistance),又称levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。在本实施例中,编辑距离越小,两个串的相似度越大。

其中,以一个标准术语形式{hypoxia,rest}作为例子,此时我们取其中的hypoxia去和其他候选术语的标准形式中的令牌进行相似度的对比。编辑距离是一种简单的单词(本实施例将单位作为令牌)相似度计算方式,如hypoxia和hypoxemia之间的编辑距离计算方式如下:

1、hypoxia→hypoxea(把字母i改为e);

2、hypoxea→hypoxema(添加字母m);

3、hypoxema→hypoxemia(添加字母i)。

综上所述,两个单词之间的编辑距离为3,在本实施例中,将编辑距离小于或等于3的两个令牌看作为同一个令牌。

第二,将所述目标编辑距离小于或等于预设编辑距离阈值的目标原始令牌合并到所述匹配对象中,所述目标原始令牌为剩余的所述标准候选术语包含的原始令牌,即将剩余的所述标准候选术语包含的原始令牌中,和所述目标匹配对象包含的原始令牌之间的编辑距离小于或等于预设编辑距离阈值的原始令牌合并到所述目标匹配对象中。

在本实施例中,可选地,所述根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,包括:

第一,将目标相似术语集合内的目标原始令牌和剩余的所述相似术语集合内的所有令牌进行比较,判断剩余的所述相似术语集合内的所有令牌是否和所述目标原始令牌存在包含或被包含关系。

第二,若剩余的所述相似术语集合内的所有令牌和所述目标原始令牌存在包含或被包含关系,则计算出和所述目标相似术语集合存在包含或被包含关系的剩余的所述相似术语集合的目标数量,并将所述目标数量作为所述目标相似术语集合对应的所述嵌套术语数量。

在本实施例中,可选地,所述c-value公式为:

c-value(t)=ln|t|·f(t),当

其中,t为待识别的标准候选术语,s(t)为t对应的所述嵌套术语数量,|t|为t的长度,f(t)为t及其变异体在所述目标文本中的词频,f(s)为和t对应的所有嵌套术语的数量,表示空集。

在本实施例中,可选地,还所述根据所述c-value值的数值大小对待识别的所述标准候选术语进行判定,包括:

第一,判断所述c-value值的数值是否大于或等于预设c-value阈值。

第二,若所述c-value值的数值大于或等于预设c-value阈值,则判定待识别的所述标准候选术语为专业术语。如下表展示了被识别出来c-value最高的7组术语的情况:

本发明实施例通过对待识别专业术语的目标文本进行预处理,得到多个标准候选术语,再依次将每个标准候选术语作为目标匹配对象,并依次将每个目标匹配对象包含的每一个原始令牌和剩余的标准候选术语包含的每一个原始令牌进行相似度匹配,得到多个所述相似术语集合,然后根据多个相似术语集合,获取每个相似术语集合内的原始令牌对应的嵌套术语数量,最后将待识别的标准候选术语对应的各个参数一起输入c-value公式进行计算,得到目标c-value值,并根据目标c-value值的数值大小对待识别的标准候选术语进行判定,有效地识别出文本中的专业术语,避免了读者因为无法识别文本的专业术语而导致不能掌握文本内容的问题,提高读者的体验。

实施例二

请参阅图2,图2是本发明实施例的识别文本专业术语的装置100的部分结构框架图,结合图2可以得到,本发明的一种识别文本专业术语的装置100,包括:

候选术语获取模块110,用于对待识别专业术语的目标文本进行预处理,将所述目标文本分割为多个候选术语,并对全部的所述候选术语进行标准化处理,使得每个所述候选术语均被映射为标准候选术语,其中每个所述标准候选术语包括按照预设顺序排列的若干个单词,并定义一个单词为一个令牌。

术语集合获取模块120,用于依次将每个所述标准候选术语作为目标匹配对象,并依次将每个所述目标匹配对象包含的每一个原始令牌和剩余的所述标准候选术语包含的每一个原始令牌进行相似度匹配,并将剩余的所述标准候选术语中符合相似度匹配要求的原始令牌合并到所述目标匹配对象,组成所述目标匹配对象对应的相似术语集合,得到多个所述相似术语集合。

嵌套数量获取模块130,用于根据多个所述相似术语集合,获取每个所述相似术语集合内的原始令牌对应的嵌套术语数量,一个所述相似术语集合对应的所述嵌套术语数量为该所述相似术语集合内的原始令牌和剩余的所述相似术语集合之间具有包含或被包含的关系的数量。

候选术语判断模块140,用于将待识别的所述标准候选术语对应的所述嵌套术语数量、所述标准候选术语及其变异体在所述目标文本出现的词频和所述标准候选术语长度一起输入c-value公式进行计算,得到目标c-value值,并根据所述目标c-value值的数值大小对待识别的所述标准候选术语进行判定。

本发明实施例通过对待识别专业术语的目标文本进行预处理,得到多个标准候选术语,再依次将每个标准候选术语作为目标匹配对象,并依次将每个目标匹配对象包含的每一个原始令牌和剩余的标准候选术语包含的每一个原始令牌进行相似度匹配,得到多个所述相似术语集合,然后根据多个相似术语集合,获取每个相似术语集合内的原始令牌对应的嵌套术语数量,最后将待识别的标准候选术语对应的各个参数一起输入c-value公式进行计算,得到目标c-value值,并根据目标c-value值的数值大小对待识别的标准候选术语进行判定,有效地识别出文本中的专业术语,避免了读者因为无法识别文本的专业术语而导致不能掌握文本内容的问题,提高读者的体验。

实施例三

请参阅图3,参考图3可以看到,本发明实施例的一种计算机可读存储介质10,所述的计算机可读存储介质10,如:rom/ram、磁碟、光盘等,其上存储有计算机程序11,所述计算机程序11被执行时实现如实施例一所述的识别文本专业术语的方法。由于该识别文本专业术语的方法已经在实施例一进行了详细的说明,在此不再重复说明。

本发明实施例实现的识别文本专业术语的方法,通过对待识别专业术语的目标文本进行预处理,得到多个标准候选术语,再依次将每个标准候选术语作为目标匹配对象,并依次将每个目标匹配对象包含的每一个原始令牌和剩余的标准候选术语包含的每一个原始令牌进行相似度匹配,得到多个所述相似术语集合,然后根据多个相似术语集合,获取每个相似术语集合内的原始令牌对应的嵌套术语数量,最后将待识别的标准候选术语对应的各个参数一起输入c-value公式进行计算,得到目标c-value值,并根据目标c-value值的数值大小对待识别的标准候选术语进行判定,有效地识别出文本中的专业术语,避免了读者因为无法识别文本的专业术语而导致不能掌握文本内容的问题,提高读者的体验。

实施例四

请参阅图4,参考图4可以看到,本发明实施例的一种计算机设备20,其包括处理器21、存储器22及存储于所述存储器22上并可在所述处理器21上运行的计算机程序221,所述处理器21执行所述计算机程序221时实现如实施例一所述的识别文本专业术语的方法。由于该识别文本专业术语的方法已经在实施例一进行了详细的说明,在此不再重复说明。

本发明实施例实现的识别文本专业术语的方法,通过对待识别专业术语的目标文本进行预处理,得到多个标准候选术语,再依次将每个标准候选术语作为目标匹配对象,并依次将每个目标匹配对象包含的每一个原始令牌和剩余的标准候选术语包含的每一个原始令牌进行相似度匹配,得到多个所述相似术语集合,然后根据多个相似术语集合,获取每个相似术语集合内的原始令牌对应的嵌套术语数量,最后将待识别的标准候选术语对应的各个参数一起输入c-value公式进行计算,得到目标c-value值,并根据目标c-value值的数值大小对待识别的标准候选术语进行判定,有效地识别出文本中的专业术语,避免了读者因为无法识别文本的专业术语而导致不能掌握文本内容的问题,提高读者的体验。

以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1