一种用于构建词典的方法和装置与流程

文档序号:16784703发布日期:2019-02-01 19:21阅读:270来源:国知局
一种用于构建词典的方法和装置与流程

本发明实施例涉及自然语言处理领域,更具体地,涉及一种用于构建词典的方法和装置。



背景技术:

词典是自然语言处理过程中的关键资源,目前大部分的词典是基于人工构建的词典,即通过人工在语料中整理识别出来的词典,但是,人工构建的词典的缺点是词典中的词不够完善,尤其是对于现有的不断涌现的网络新词来说,人工构建的词典的缺点更为明显,不能很好地满足实际应用。

为了使得词典的构建更为完善,引入了自动构建词典的方式。目前,已知一种构建词典的方法,通过释义知识库(例如,现代汉语大辞典、百度百科等),查找现有词典中词的释义,接着从词的释义中提取词袋(bagofwords,bow)特征,所谓的bow特征,就是从词的释义中提取多个特征词以及每个特征词出现的频次,进而基于bow特征构建分类器。当需要判断候选词能否添加至词典时,基于相同的原理,从候选词的释义中提取bow特征,根据候选词的bow特征,通过分类器判定候选词能否添加至词典中。

但是,这种基于bow特征构建词典的方式,仅仅考虑了词对应的特征词中的每个特征词出现的频次,将每个特征词都作为一个独立体,并不能很好地表示释义中的语义信息,例如,部分词的类型倾向与其习惯用法、常见搭配等信息有关,而这些信息是释义中提取的bow特征所不能体现的,因而,这部分词会给候选词的类型倾向的判定带来较大干扰,降低词典的准确性。

因而,如何提高词典的准确性,已成为亟需解决的问题。



技术实现要素:

本发明实施例提供一种用于构建词典的方法,能够提高词典的准确性。

第一方面,提供了一种用于构建词典的方法,该方法包括:

获取候选词;

从释义知识库中获取所述候选词的释义;

从所述候选词的释义中,选择所述候选词的特征词,所述候选词的特征词为所述候选词的释义中的实词;

根据所述候选词的特征词,通过预设的分类器,得到所述候选词的初始判定结果,所述分类器用于指示一个词归属于所述词典的概率;

根据从至少一个中间词中每个中间词的释义中选择的特征词,通过所述分类器,得到所述每个中间词的判定结果,其中,所述至少一个中间词包括所述候选词的n级特征词,

所述n级特征词为所述候选词的特征词,所述n=1,或,

所述n级特征词中的第k级特征词是从所述n级特征词中的第k-1级特征词的释义中选择的特征词,所述n和k都为大于1的整数,且所述k小于或等于所述n;

根据所述候选词的初始判定结果和所述至少一个中间词的判定结果,确定所述候选词的最终判定结果,所述候选词的最终判定结果用于指示能否将所述候选词添加至所述词典。

因而,本发明实施例提供的用于构建词典的方法,通过候选词的释义衍生至少一个中间词,即,该至少一个中间词中包含该候选词的n级特征词,且第k级特征词是从第k-1级特征词的释义中选择的特征词(或者说,下一级特征词是从上一级特征词的释义中选择的特征词),并且,根据基于该候选词生成的初始判定结果和基于每个中间词生成的判定结果对该候选词进行综合决策,获得用于判定该候选词能否添加至词典的最终判定结果,针对该候选词的释义中类型倾向(例如,情感倾向)不明显的特征词,可以有助于解析出该候选词的n级特征词中每个特征词的类型倾向以及用法搭配等信息,进而可以有效地降低模糊含义的特征词带来的噪声,提高词典的准确性;此外,由于释义知识库资源较多,能够收集较多的新词,本发明实施例通过查找该候选词或该候选词的n级特征词的释义中的词进行多次判定,有助于实时扩展词典。

结合第一方面,在第一方面的某些实现方式中,从所述候选词的释义中,选择所述候选词的特征词,包括;

从所述候选词的释义中,选择所述候选词的释义中的实词;

将所述候选词的释义中的实词和所述词典中已收集的词中共有的词作为所述候选词的特征词。

因此,通过选择候选词的释义中与该词典已收集的词的共有的词作为该候选词的特征词,可以过滤掉不属于词典的词,更能有效地减少类型倾向不明显的候选词的特征词带来的干扰,进一步提高词典的准确性。

结合第一方面,在第一方面的某些实现方式中,所述根据所述候选词的特征词,通过预设的分类器,得到所述候选词的初始判定结果,包括:

根据所述候选词的特征词,确定所述候选词的特征词的词性和所述候选词的特征词所属的句法结构;

将所述候选词的特征词、所述候选词的特征词的词性和所述候选词的特征词所属的句法结构转化为特征向量;

将所述特征向量作为输入参数,通过所述分类器,得到所述初始判定结果。

因而,通过该候选词的特征词,提取该候选词的特征词的词性、该候选词的特征词所属的句法结构等信息,能够更好地表示该候选词的释义所表达的语义信息,进而可以更有效地解析出候选词的特征词的类型倾向以及用法搭配等信息,从而,提高词典的准确性。

结合第一方面,在第一方面的某些实现方式中,所述第k级特征词具体是从所述第k-1级特征词中用于生成第一判定结果的特征词的释义中选择的特征词,所述第一判定结果用于指示词归属于所述词典的概率满足预设条件。

因此,从第k-1级特征词生成的判定结果中筛选出满足预设条件的第一判定结果,且将用于生成该第一判定结果的特征词作为第k级特征词,可以过滤掉用于生成指示词归属于该词典的概率不满足预设条件的判定结果的特征词,可以通过设置较少判定组数n来得到较为准确的最终判定结果。

结合第一方面,在第一方面的某些实现方式中,所述根据所述候选词的初始判定结果和所述至少一个中间词的判定结果,确定所述候选词的最终判定结果,包括:

在所述候选词的初始判定结果用于指示所述候选词归属于所述词典的概率满足预设条件,且所述至少一个中间词的判定结果用于指示所述每个中间词归属于所述词典的概率满足预设条件的情况下,确定所述候选词的最终判定结果为所述候选词能添加至所述词典。

结合第一方面,在第一方面的某些实现方式中,所述根据所述候选词的初始判定结果和所述至少一个中间词的判定结果,确定所述候选词的最终判定结果,包括:

将所述候选词的初始判定结果和所述至少一个中间词的判定结果转化为判定向量;

将所述判定向量作为输入参数,通过预设的第一公式,确定所述候选词的最终判定结果,所述第一公式用于指示所述候选词能否添加至所述词典。

第二方面,提供了一种用于构建词典的装置,该装置可以用来执行第一方面及第一方面的任意可能的实现方式中的操作。具体地,该装置可以包括用于执行上述第一方面或第一方面的任意可能的实现方式中的操作的模块单元。

第三方面,提供了一种设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,以使得所述设备执行上述第一方面或第一方面的任意可能的实现方式中的操作。

第四方面,提供了一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码被装置中的处理单元或设备中的处理器运行时,使得该装置或设备执行上述第一方面及其实施方式中的方法。

第五方面,提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,当其在计算机上运行时,使得所述计算机执行上述第一方面或第一方面的任意可能的实现方式中的操作。

在上述某些实现方式中,所述根据从至少一个中间词中每个中间词的释义中选择的特征词,通过所述分类器,得到所述每个中间词的判定结果,包括:

在基于所述n级特征词中的第i-1级特征词生成判定结果后,将从所述n级特征词中的第i-1级特征词的释义中选择的特征词确定为所述n级特征词中的第i级特征词;

根据从所述第i级特征词的释义中选择的特征词,通过所述分类器,得到所述第i级特征词的判定结果,所述i∈[2,n]。

在上述某些实现方式中,所述在基于所述n级特征词的第i-1级特征词生成判定结果后,将从所述n级特征词中的第i-1级特征词的释义中选择的特征词确定为所述n级特征词中的第i级特征词,包括:

从所述第i-1级特征词的判定结果中,确定判定结果为第一判定结果的特征词,所述第一判定结果用于指示词归属于所述词典的概率满足预设条件;

将从判定结果为所述第一判定结果的特征词的释义中选择的特征词确定为所述第i级特征词。

在上述某些实现方式中,所述根据所述候选词的初始判定结果和所述至少一个中间词的判定结果,确定所述候选词的最终判定结果,包括:

在所述候选词的初始判定结果用于指示所述候选词归属于所述词典的概率满足预设条件,且所述至少一个中间词的判定结果用于指示所述每个中间词归属于所述词典的概率满足预设条件的情况下,确定所述候选词的最终判定结果为所述候选词能添加至所述词典。

附图说明

图1是根据本发明实施例的用于构建词典的方法的示意性流程图。

图2和图3是根据本发明实施例的方法的n组中间判定的关系的示意性框图。

图4是根据本发明实施例的用于构建词典的方法的具体流程图。

图5是根据本发明实施例的用于构建词典的装置。

图6是根据本发明实施例的设备。

具体实施方式

下面将结合附图,对本发明实施例中的技术方案进行描述。

本发明实施例可以应用于自然语言处理中关于词典的构建与扩展,该词典可以为某些具有特殊用途的词典,例如,情感词典、脏话词典等,也可以为基于实际用途而构建的词典。

其中,自然语言处理的过程的一般步骤为:输入语言文本——>从语言文本中提取特征——>基于特征建立模型——>对语言文本进行预测、分类,从语言文本中提取特征的步骤往往需要利用外部资源进行辅助,词典就是这方面的主要资源之一,也就是说,需要基于词典从语言文本中提取特征,从而完成对自然语言的处理。

例如,当需要对目标语言文本进行情感分析时,需要情感词典以确定句子中包含哪些情感词;再例如,当需要对目标文本语言进行脏话过滤时,需要脏话词典以确定句子中是否出现脏话等。

下面,结合图1和图4,详细描述本发明实施例的用于构建词典的方法。

图1所示为根据本发明实施例的用于构建词典的方法100的示意性流程图。

在步骤s110中,获取候选词。

即,该候选词即为待判定的能否添加至词典的词。

在步骤s120中,从释义知识库中获取该候选词的释义。

该释义知识库可以为所有能够查找到词的释义的信息库,例如,该释义知识库可以为现代汉语大辞典、百度百科等。

在步骤s130中,从该候选词的释义中,获取该候选词的特征词,该候选词的特征词为该候选词的释义中的实词。

具体而言,可以通过分词工具将该候选词的释义进行分解,得到多个词,将该多个词中实词确定为该候选词的特征词,

例如,候选词为“墨宝”,其对应的释义为:指宝贵的字画,也用来尊称别人写的字或画,那么,该候选词的特征词可以为:宝贵、字画、尊称、别人、字、画。

在步骤s140中,根据该候选词的特征词,通过预设的分类器,得到该候选词的初始判定结果,该分类器用于指示词属于该词典的概率。

也就是说,该候选词的特征词通过该分类器得到的初始判定结果用于指示的是该候选词属于该词典的概率:若该初始判定结果满足预设条件,则指示该候选词属于该词典的概率较高,反之,则指示该候选词属于该词典的概率较低。

换句话说,该分类器也可以用于表示词相对于该词典的置信度,或者说,词相对于该词典的可靠度。总的来说,该分类器就是基于从一个词的特征词得到一个判定结果,判定结果作为判定候选词能否添加至该词典的判定因素。

在本发明实施例中,该分类器可以是基于已知类型倾向的词进行训练获得的,也可以是基于人工经验设计的规则获得的。

从另一种角度来说,该分类器本身是一种函数模型,可以是基于数据训练好的机器学习模型,也可以是基于人工经验设计的函数模型。

可选地,该分类器的参数是基于词集合训练得到的参数,该词集合包括属于该词典的多个词和不属于该词典的多个词。

具体而言,可以从现有的词典中抽取多个词,其中,一部分词属于该词典,另一部分词不属于该词典,一般情况下,抽取出现频率较高的词(例如,频度较高的前1000个词)将该多个词作为训练该分类器的数据。具体训练该分类器的方法与本发明实施例中判定该候选词能否添加至该词典的方式相同,为了简洁,此处不再赘述。

具体而言,根据该候选词的特征词,获取与该候选词的特征词相关的信息(为了便于区分与理解,记为特征词信息),该特征词信息可以为:该候选词的特征词的词性、该候选词的特征词的词长、该候选词的特征词的前后文等。进而,将该特征词信息转化为特征向量,将该特征向量作为该分类器的输入参数,通过该分类器中预先设计的函数模型计算该特征向量的结果,获得的该特征向量的结果即为该候选词的初始判定结果,基于分类器的作用,该候选词的判定结果即用于表示该候选词归属于该词典的程度。

在步骤s150中,根据从至少一个中间词中每个中间词的释义中提取的特征词,通过该分类器,得到每个中间词的判定结果,其中,该至少一个中间词包含该候选词的n级特征词,

该n级特征词为该候选词的特征词,该n=1,或,该n级特征词中的第k级特征词是从该n级特征词中的第k-1级特征词的释义中选择的特征词,该n和k都为大于1的整数,且该k小于或等于该n。

具体而言,在本发明实施例中,基于该候选词的释义,可以衍生该至少一个中间词,每个中间词用于生成一个判定结果,该每个中间词的判定结果可以作为判定该候选词能否添加至该词典的判定依据。

其中,该至少一个中间词包括该候选词的n级特征词,也就是说,该n级特征词与该候选词的特征词相关:

当n=1时,该n级特征词就是该候选词的特征词;

当n大于1时,该n级特征词中的第k级特征词是从该n级特征词中的第k-1级特征词的释义中选择的特征词,即,该n级特征词中的下一级特征词是基于上一级特征词的释义确定的,该第k级特征词为该n级特征词中的任一级特征词。下面,为了描述方便,将基于候选词进行的判定称为初始判定,将基于候选词的特征词衍生的至少一个中间词(即,该候选词的n级特征词)进行的判定称为中间判定。

在本发明实施例中,基于该n级特征词,通过该分类器进行n组中间判定,获得n组判定结果,每组中间判定中有多次中间判定,该n组中间判定与该n级特征词一一对应,第k组中间判定基于对应的第k组特征词生成判定结果,可以理解,第k级特征词即为第k组中间判定中使用的中间词,第k级特征词的特征词即为基于第k组判定中所使用的中间词的释义获得的特征词,因此,针对中间词与第k级特征词的相关描述应理解为相同的意思,下文中,对于不同的描述环境可以采用不同的描述方式。其中,该第k组中间判定即为该n组中间判定中的任一组中间判定。

下面,通过图2和图3简单描述本发明实施例中的n组中间判定的关系。

图2所示为根据本发明实施例的方法的n组中间判定的关系的示意性框图,如图2所示,第1组中间判定的中间词即为从该候选词的释义中选择的特征词(即,第1级特征词),第2组中间判定中的中间词即为从第1组中间判定的候选词的释义中选择的特征词(即,第2级特征词),如此反复进行,得到n组中间判定的所有的判定结果。

需要说明的是,在本发明实施例中,除了初始判定结果中只有一个判定结果,由于从释义中选择的特征词的个数至少为一个,对应地,每组中间判定中的中间词也为至少一个,那么,在一组中间判定中,每个中间词生成一个判定结果。

也就是说,在该n组中间判定中的第k组中间判定中,基于至少一个中间词生成至少一个判定结果,该至少一个判定结果即为该第k组中间判定对应的判定结果。

具体而言,如图3所示,以初始判定和第1组中间判定为例,在初始判定中,从候选词的释义中选择出两个特征词,且特征词为特征词#01和特征词#02,在第1组中间判定中可以进行两次中间判定,将特征词#01作为中间词#11,将特征词#02作为中间词#12,分别基于两个中间词进行两次中间判定,生成中间词#11的判定结果#11和中间词#12的判定结果#12。

对于该n级特征词,该候选词的特征词为该n级特征词的第1级特征词(即,第1组中间判定使用的中间词),通过对每个中间词查找释义,将每个中间词的释义中的实词作为每个中间词的特征词,同时,将每个中间词的特征词作为该n级特征词中的第2级特征词,依此类推,就可以确定该n级特征词。

为了更好地理解本发明实施例,下面,通过具体的例子描述该n级特征词之间的关系。

继续以上文描述的候选词“墨宝”为例说明本发明实施例的n级特征词(即,该至少一个中间词)的确定过程:

第1级特征词(即,该候选词的特征词)为:宝贵、字画、尊称、别人、字、画;

第2级特征词的确定过程:

通过从第1级特征词中的6个词中每个词的释义中查找每个词的特征词:“宝贵”的释义为“极有价值,非常难得”,选择的特征词为“价值”,“字画”的释义为“书法和绘画”,选择的特征词为“书法、绘画”,同理,其他特征词的获取方式也如此,因而,该第2级特征词为:价值、书法、绘画、……;

第3级特征词的确定过程:在该第2级特征词(即,第2组中间判定使用的中间词)中,将每个中间词的释义中选择的特征词作为的第3级特征词;

依次类推,获取该候选词的n级特征词。

从而,与步骤s140方式相同,通过对每个中间词的特征词处理得到每个中间词的特征向量,将对应中间词的特征向量作为该分类器的输入参数,最终得到每个中间词的判定结果。

需要说明的是,中间词(即,n级特征词)的判定结果可以从两方面来理解:一方面,纯粹从分类器的角度来说,中间词的判定结果也是用于指示中间词归属于该词典的概率,或者说,中间词相对于该词典的置信度;另一方面,整体上从确定该候选词能否添加至该词典的角度来说,中间词的判定结果也可以用于指示中间词对于判定该候选词能添加至该词典的结果的重要程度。

例如,假设,判定结果用“是”和“否”来表示,那么,若判定结果为“是”,则表示中间词归属于该词典的概率很大,甚至可以视为中间词可以归属于该词典,或者说,表示中间词对于判定该候选词能添加至该此词典的结果比较重要,反之,则表示中间词归属于该词典的概率较小,甚至可以中间词视不归属该词典,或者说,表示中间词对于判定该候选词能添加至该词典的结果不重要。

在本发明实施例中,基于该n级特征词生成判定结果有多种方式,下面,对该多种方式做一说明。

方式1

在基于该n级特征词中的第i-1级特征词生成判定结果后,将从该n级特征词中的第i-1级特征词的释义中选择的特征词确定为该n级特征词中的第i级特征词;

根据从该第i级特征词的释义中选择的特征词,通过该分类器,得到该第i级特征词的判定结果,该i∈[2,n]。

也就是说,在n组中间判定中,在第i-1组中间判定中,在基于该n级特征词中的第i-1级特征词生成判定结果后,进行第i组中间判定,得到的i组中间判定的判定结果。

继续以图2为例,在初始判定中,根据候选词的释义生成初始判定结果,在第1组中间判定中,将该第1级特征词作为该第1组中间判定中的中间词,同时,生成判定结果,在第2组中间判定中,将该第2级特征词作为该第2组中间判定的中间词,同时,生成判定结果,如此反复进行,得到n组中间判定的所有的判定结果。

方式2

通过多重释义查找,将所有中间判定需要的中间词确定后,再将所有的中间词的特征词对应的特征向量输入到至少一个分类器中并行处理,

具体而言,首先,基于候选词的特征词,将所有的中间词找出来,然后,再从所有中间词中的每个中间词的释义中再次选择特征词,通过分类器分别得到所有的中间词的判定结果。换句话说,此种方式中,首先是将所有的中间词找出来,然后再通过分类器得到所有中间词的判定结果,实现中,可以通过一个分类器得到所有中间词的判定结果,也可以通过多个具有相同功能的分类器并行计算,得到所有中间词的判定结果,具体如何实现,本发明实施例并不限于此。

在步骤s160中,根据该候选词的初始判定结果和该至少一个中间词的判定结果,确定该候选词的最终判定结果,该候选词的最终判定结果用于指示能否将该候选词添加至该词典。

具体而言,对于判定该候选词能否添加至该词典,需要通过该分类器针对多个词的判定结果综合决策,即,根据该候选词的初始判定结果和该至少一个中间词的判定结果确定该候选词能否被添加至该词典中。

这样,相比于现有技术中仅仅通过候选词的特征词出现的频次一次性判定候选词能否添加至词典的方式,本发明实施例进行了多次查找和判定过程,即,不仅使用候选词进行判定,也使用基于候选词的特征词衍生的至少一个中间词进行判定,或者说,本发明实施例不仅通过查找候选词的释义进行判定,也基于候选词的释义中的词衍生的至少一个中间词进行判定,这样,对于该候选词的释义中类型倾向(例如,情感倾向)不明显的特征词,通过对释义中的特征词进行多次判定,有助于解析出候选词的特征词的类型倾向以及用法搭配等信息,进而可以有效地降低模糊含义的词带来的噪声,提高词典的准确性。

因而,本发明实施例提供的用于构建词典的方法,通过候选词的释义衍生至少一个中间词,即,该至少一个中间词中包含该候选词的n级特征词,且第k级特征词是从第k-1级特征词的释义中选择的特征词(或者说,下一级特征词是从上一级特征词的释义中选择的特征词),并且,根据基于该候选词生成的初始判定结果和基于每个中间词生成的判定结果对该候选词进行综合决策,获得用于判定该候选词能否添加至词典的最终判定结果,针对该候选词的释义中类型倾向(例如,情感倾向)不明显的特征词,可以有助于解析出该候选词的n级特征词中每个特征词的类型倾向以及用法搭配等信息,进而可以有效地降低模糊含义的特征词带来的噪声,提高词典的准确性;此外,由于释义知识库资源较多,能够收集较多的新词,本发明实施例通过查找该候选词或该候选词的n级特征词的释义中的词进行多次判定,有助于实时扩展词典。

在步骤130中,可选地,该从该候选词的释义中,选择该候选词的特征词,包括:

从该候选词的释义中,选择该候选词的释义中的实词;

将该候选词的释义中的实词和该词典中已收集的词中共有的词作为该候选词的特征词。

也就是说,从该候选词的释义中选择的特征词是属于该词典的词,例如,候选词为“墨宝”,其对应的释义为:指宝贵的字画,也用来尊称别人写的字或画,那么,释义中属于词典的词为:宝贵、尊称,不属于词典的词为:字画、别人、字、画,那么,将属于词典的词,即“宝贵”和“尊称”作为下一次判定的中间词(或者说,第1级特征词)。

因此,通过选择候选词的释义中与该词典已收集的词的共有的词作为该候选词的特征词,可以过滤掉不属于词典的词,更能有效地减少类型倾向不明显的候选词的特征词带来的干扰,进一步提高词典的准确性。

此外,通过提取属于词典的特征词,能够快速聚焦到与候选词的类型倾向相关的关键词,可以减少中间判定的次数,提高处理速度。

基于同样的方式,从中间词的释义中选择中间词的特征词时,选择的中间词的特征词也可以属于该词典,为了简洁,此处不再赘述。

在步骤s140中,可选地,该根据该候选词的特征词,通过预设的分类器,得到该候选词的初始判定结果,包括:

根据该候选词的特征词,确定该候选词的特征词的词性和该候选词的特征词所属的句法结构;

将该候选词的特征词、该候选词的特征词的词性和该候选词的特征词所属的句法结构转化为特征向量;

将该特征向量作为输入参数,通过该分类器,得到该初始判定结果。

具体而言,在该候选词的释义中选择特征词的同时,基于该候选词的特征词,通过相关工具提取该候选词的特征词的词性、该候选词的特征词所属的句法结构等信息,将该候选词的特征词的这些相关信息转化为特征向量,将该特征向量输入至该分类器,获得该候选词的初始判定结果。

下面,同样以候选词“墨宝”为例,对该候选词的特征词的词性以及该候选词所属的句法结构等信息进行说明,同时,将该候选词的释义中属于该词典的词作为特征词。

候选词:墨宝;

释义:指宝贵的字画,也用来尊称别人写的字或画;

特征词:宝贵、尊称;

特征词的词性:形容词、动词;

特征词所属的句法结构:定中结构、动宾结构。

其中,对于特征词“宝贵”来说,词性为形容词、“宝贵”所属的句法结构为定中结构(即,宝贵的字画);对于特征词“尊称”来说,词性为“动词”、“尊称”所属的句法结构为动宾结构(即,尊称别人)。

同样,在该至少一个中间词的释义中选择特征词的同时,基于该每个中间词的特征词,也通过相关工具提取该每个中间词的特征词的词性、该每个中间词的特征词所属的句法结构等信息,将该每个中间词的特征词的相关信息转化为特征向量输入至该分类器,获得该每个中间词的判定结果。

因而,通过该候选词的特征词,提取该候选词的特征词的词性、该候选词的特征词所属的句法结构等信息,能够更好地表示该候选词的释义所表达的语义信息,进而可以更有效地解析出候选词的特征词的类型倾向以及用法搭配等信息,从而,提高词典的准确性。

作为示例而非限定,基于候选词或中间词的特征词,也可以生成bow特征,与本发明实施例综合使用,此处不做任何限定。

可选地,该第k级特征词具体是从该第k-1级特征词中用于生成第一判定结果的特征词的释义中选择的特征词,该第一判定结果用于指示词归属于该词典的概率满足预设条件。

也就是说,在上述n组中间判定过程中,从第k-1组中间判定中生成的多个判定结果中筛选出满足预设条件的判定结果,即第一判定结果,同时,将从用于生成该第一判定结果的第k-1级特征词的特征词的释义中选择的特征词作为第k级特征词,用于在第k组中间判定中生成该第k级特征词的判定结果。

该预设条件可以是基于机器学习模型设置的阈值,当中间词的特征词通过该分类器计算得到的结果大于该阈值时,该分类器输出的判定结果为“是”,反之,该分类器输出的判定结果为“否”;再例如,该预设条件可以是人工经验规则,将这种人工经验规则通过函数模型体现在分类器中。

例如,以图3中所示的第1组中间判定和未示出的第2组中间判定为例,假设,在第1组中间判定中,生成两个中间词(即,第1级特征词)的判定结果中,中间词#11的判定结果#11满足预设条件,中间词#12的判定结果#12不满足预设条件,则,中间词#11的判定结果#11为该第一判定结果,那么,将中间词#11的特征词作为第2组中间判定的中间词(即,第2级特征词)。

因此,从第k-1级特征词生成的判定结果中筛选出满足预设条件的第一判定结果,且将用于生成该第一判定结果的特征词作为第k级特征词,可以过滤掉用于生成指示词归属于该词典的概率不满足预设条件的判定结果的特征词,可以通过设置较少判定组数n来得到较为准确的最终判定结果。

上文通过多种实施例详细描述了本发明实施例中生成判定结果具体过程,以下,对于基于多个判定结果生成该最终判定结果的过程做一简单介绍。

在步骤s160中,可选地,该根据该候选词的初始判定结果和该中间词的判定结果,确定该候选词的最终判定结果,包括:

在该候选词的初始判定结果用于指示该候选词归属于该词典的概率满足预设条件,且该中间词的判定结果用于指示该中间词归属于该词典的概率满足预设条件的情况下,确定该候选词的最终判定结果为该候选词能添加至该词典。

具体而言,当所有的判定结果都满足预设条件的情况下,确定该候选词能添加至该词典,反之,只要有一个词的判定结果不满足预设条件,确定该候选词不能添加至该词典。

例如,该预设条件可以为一种人工经验规则,该规则规定:若释义中包含属于该词典的特征词,则初始判定结果或中间词的判定结果为“是”,若释义中不包含属于该词典的特征词,则初始判定结果或中间词的判定结果为“否”,当所有的判定结果都为“是”时,确定该候选词能添加至该词典中。

在步骤s160中,可选地,该根据该候选词的初始判定结果和该至少一个中间词的判定结果,确定该候选词的最终判定结果,包括:

将该候选词的初始判定结果和该至少一个中间词的判定结果转化为判定向量;

将该判定向量作为输入参数,通过预设的第一公式,确定该候选词的最终判定结果,该第一公式用于指示该候选词能否添加至该词典。

具体而言,可以采用机器学习的模型融合方法确定该候选词的最终判定结果,例如,构建该模型融合方法可以是:将一些已知类别属性的候选词的最终判定结果作为训练集,基于本发明实施例生成判定结果的方式,将每个候选词通过该分类器得到的判定结果作为特征,基于所有判定结果生成判定向量生成第一公式(或者说,函数模型),这样,该第一公式就是用于综合判定该候选词能否添加至该词典综合判定模型。

对应地,在实际判定未知类型倾向的候选词时,将得到的该候选词的初始判定结果和多个中间词的判定结果转化为判定向量,将该判定向量最为该第一公式的输入参数,通过计算得到最终判定结果。

图4所示为根据本发明实施例的用于构建词典的方法200的具体流程图。

如图4所示,该方法200包括如下步骤:

在步骤1之前,获取候选词;

步骤1:查找词(即,候选词)的释义;

步骤2:从步骤1获取的释义中选择特征词,进而生成特征向量;

步骤3:根据特征词,或者说,根据特征词的特征向量,通过分类器获得判定结果;

在得到判定结果后,判断判定次数是否达到预设值,

若没有,则进行步骤4:将上一次释义中提取的特征词作为下一判定的中间词,从而重复步骤1至步骤3,直到循环判定的次数达到预设值;

步骤5:基于前4个步骤得到的所有的判定结果进行综合判定,确定最终判定结果。

下面,结合图4所示的具体流程图,通过具体的例子说明本发明实施例的用于构建词典的方法。

其中,情感词典作为本发明实施例的用于构建的词典,《现代汉语词典》为释义知识库,候选词为:墨宝、改变,判定次数为2,即前文描述的初始判定和第1组中间判定,分类器基于人工经验规则生成的,规定的预设条件为:若释义中包括属于词典的特征词,则判定结果为“是”,反之为“否”,综合判定中的规定为:两次判定中得到的判定结果都为“是”的情况下,最终判定结果为可以将候选词添加至词典中。

首先,以候选词“墨宝”为例,说明本发明实施例的方法。

初始判定:

步骤1:查找“墨宝”的释义:指宝贵的字画,也用来尊称别人写的字或画;

步骤2:提取特征词:宝贵、尊称;

步骤3:步骤2中的两个特征词都属于情感词典,则对于“墨宝”的初始判定结果为“是”

步骤4:将“宝贵”、“尊称”分别作为第1组中间判定的中间词;

第1组中间判定

步骤1:查找“宝贵”的释义:极有价值,非常难得,查找“尊称”的释义:尊敬地称呼;

步骤2:提取“宝贵”的特征词为:有价值,提取“尊称”的特征词为:尊敬;

步骤3:步骤2中的两个中间的对应的特征词都属于情感词典,则对于“宝贵”的判定结果为“是”,对于“尊称”的判定结果为“是”。

步骤5:初始判定和第1组中间判定中得到的判定结果都为“是”,则最终判定结果为可以将“墨宝”添加至情感词典中。

接着,以候选词“改变”为例,说明本发明实施例的方法。

初始判定:

步骤1:查找“改变”的释义:事物发生显著的差别;

步骤2:提取特征词:显著;

步骤3:步骤2中的特征词都属于情感词典,则对于“改变”的初始判定结果为“是”

步骤4:将“显著”作为第1组中间判定的中间词;

第1组中间判定:

步骤1:查找“显著”的释义:非常明显;

步骤2:提取“显著”的特征词为:明显;

步骤3:步骤2中的“明显”不属于情感词典,则对于“显著”的判定结果为“否”;

步骤5:初始判定和第1组中间判定中得到的判定结果中存在“否”,则最终判定结果为不能将“改变”添加至情感词典中。

通过实施例中的候选词“改变”的判定结果来看,虽然“改变”的释义中包含情感词“显著”,但是“改变”本身并无情感,这是因为“显著”的情感倾向与用法以及搭配有关,可能对释义的判断带来噪声特征。因此,通过对“显著”进行多次释义查找,就可以将这些噪声过滤,在继承了释义知识库资源较广泛的优势的同时,提高了词典的准确性。

因而,本发明实施例的用于构建词典的方法,一方面,通过候选词的释义衍生至少一个中间词,即,该至少一个中间词中包含该候选词的n级特征词,且第k级特征词是从第k-1级特征词的释义中选择的特征词(或者说,下一级特征词是从上一级特征词的释义中选择的特征词),并且,根据基于该候选词生成的初始判定结果和基于每个中间词生成的判定结果对该候选词进行综合决策,获得用于判定该候选词能否添加至词典的最终判定结果,针对该候选词的释义中类型倾向(例如,情感倾向)不明显的特征词,可以有助于解析出该候选词的n级特征词中每个特征词的类型倾向以及用法搭配等信息,进而可以有效地降低模糊含义的特征词带来的噪声,提高词典的准确性;此外,由于释义知识库资源较多,能够收集较多的新词,本发明实施例通过查找该候选词或该候选词的n级特征词的释义中的词进行多次判定,有助于实时扩展词典;

另一方面,通过选择候选词的释义中与该词典已收集的词的共有的词作为该候选词的特征词,可以过滤掉不属于词典的词,更能有效地减少类型倾向不明显的候选词的特征词带来的干扰,进一步提高词典的准确性,此外,通过选择属于词典的特征词,能够快速聚焦到与候选词的类型倾向相关的关键词,可以减少中间判定的次数,提高处理速度;

另一方面,通过该候选词的特征词,提取该候选词的特征词的词性、该候选词的特征词所属的句法结构等信息,能够更好地表示该候选词的释义所表达的语义信息,进而可以更有效地解析出候选词的特征词的类型倾向以及用法搭配等信息,从而,提高词典的准确性;

再一方面,从第k-1级特征词生成的判定结果中筛选出满足预设条件的第一判定结果,且将用于生成该第一判定结果的特征词作为第k级特征词,可以过滤掉用于生成指示词归属于该词典的概率不满足预设条件的判定结果的特征词,可以通过设置较少判定组数n来得到较为准确的最终判定结果。

以上,通过图1至图4详细描述了本发明实施例的用于构建词典的方法,下面,结合图5和图6详细描述本发明实施例的用于构建词典的装置,方法实施例所描述的技术特征同样适用于以下装置实施例。

图5所示为根据本发明实施例的用于构建词典的装置,该装置300包括:

获取单元310,用于获取候选词;

该获取单元还用于,从释义知识库中获取该候选词的释义;

处理单元320,用于从该获取单元中获取的该候选词的释义中,选择该候选词的特征词,该候选词的特征词为该候选词的释义中的实词;

该处理单元320还用于,用于根据该候选词的特征词,通过预设的分类器,得到该候选词的初始判定结果,该分类器用于指示一个词归属于该词典的概率;

该处理单元320还用于,根据从至少一个中间词中每个中间词的释义中选择的特征词,通过该分类器,得到该每个中间词的判定结果,其中,该至少一个中间词包括该候选词的n级特征词,

该n级特征词为该候选词的特征词,该n=1,或,

该n级特征词中的第k级特征词是从该n级特征词中的第k-1级特征词的释义中选择的特征词,该n和k都为大于1的整数,且该k小于或等于该n;

该处理单元320还用于,根据该候选词的初始判定结果和该至少一个中间词的判定结果,确定该候选词的最终判定结果,该候选词的最终判定结果用于指示能否将该候选词添加至该词典。

因而,本发明实施例提供的用于构建词典的装置,通过候选词的释义衍生至少一个中间词,即,该至少一个中间词中包含该候选词的n级特征词,且第k级特征词是从第k-1级特征词的释义中选择的特征词(或者说,下一级特征词是从上一级特征词的释义中选择的特征词),并且,根据基于该候选词生成的初始判定结果和基于每个中间词生成的判定结果对该候选词进行综合决策,获得用于判定该候选词能否添加至词典的最终判定结果,针对该候选词的释义中类型倾向(例如,情感倾向)不明显的特征词,可以有助于解析出该候选词的n级特征词中每个特征词的类型倾向以及用法搭配等信息,进而可以有效地降低模糊含义的特征词带来的噪声,提高词典的准确性;此外,由于释义知识库资源较多,能够收集较多的新词,本发明实施例通过查找该候选词或该候选词的n级特征词的释义中的词进行多次判定,有助于实时扩展词典。

可选地,该获取单元310具体用于:

从该候选词的释义中,选择该候选词的释义中的实词;

将该候选词的释义中的实词和该词典中已收集的词中共有的词作为该候选词的特征词。

因此,该装置通过选择候选词的释义中与该词典已收集的词的共有的词作为该候选词的特征词,可以过滤掉不属于词典的词,更能有效地减少类型倾向不明显的候选词的特征词带来的干扰,进一步提高词典的准确性。

此外,通过提取属于词典的特征词,能够快速聚焦到与候选词的类型倾向相关的关键词,可以减少中间判定的次数,提高处理速度。

可选地,该处理单元320具体用于:

根据该候选词的特征词,确定该候选词的特征词的词性和该候选词的特征词所属的句法结构;

将该候选词的特征词、该候选词的特征词的词性和该候选词的特征词所属的句法结构转化为特征向量;

将该特征向量作为输入参数,通过该分类器,得到该初始判定结果。

因而,该装置通过该候选词的特征词,提取该候选词的特征词的词性、该候选词的特征词所属的句法结构等信息,能够更好地表示该候选词的释义所表达的语义信息,进而可以更有效地解析出候选词的特征词的类型倾向以及用法搭配等信息,从而,提高词典的准确性。

可选地,该第k级特征词具体是从该第k-1级特征词中用于生成第一判定结果的特征词的释义中选择的特征词,该第一判定结果用于指示词归属于该词典的概率满足预设条件。

因此,该装置通过从第k-1级特征词生成的判定结果中筛选出满足预设条件的第一判定结果,且将用于生成该第一判定结果的特征词作为第k级特征词,可以过滤掉用于生成指示词归属于该词典的概率不满足预设条件的判定结果的特征词,可以通过设置较少判定组数n来得到较为准确的最终判定结果。

该处理单元320具体用于:

在该候选词的初始判定结果用于指示该候选词归属于该词典的概率满足预设条件,且该至少一个中间词的判定结果用于指示该每个中间词归属于该词典的概率满足预设条件的情况下,确定该候选词的最终判定结果为该候选词能添加至该词典。

该处理单元320具体用于:

将该候选词的初始判定结果和该至少一个中间词的判定结果转化为判定向量;

将该判定向量作为输入参数,通过预设的第一公式,确定该候选词的最终判定结果,该第一公式用于指示该候选词能否添加至该词典。

本发明实施例还提供了一种设备,图6所示为根据本发明实施例的用于构建词典的装置,该设备包括输入设备410、输出设备420、处理器430和存储器440,其中,输入设备410、输出设备420、处理器430和存储器440之间通过内部连接通路互相通信。

该存储器440,用于存放程序。具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。存储器440可以包括只读存储器和随机存取存储器,并向处理器430提供指令和数据。存储器440可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少1个磁盘存储器。

该处理器430,执行存储器440所存放的程序,存储器440可以集成在处理器中430,也可以独立于处理器430。

具体地,该处理器430用于:

获取候选词;

从释义知识库中获取该候选词的释义;

从该获取单元中获取的该候选词的释义中,选择该候选词的特征词,该候选词的特征词为该候选词的释义中的实词;

根据该候选词的特征词,通过预设的分类器,得到该候选词的初始判定结果,该分类器用于指示一个词归属于该词典的概率;

根据从至少一个中间词中每个中间词的释义中选择的特征词,通过该分类器,得到该每个中间词的判定结果,其中,该至少一个中间词包括该候选词的n级特征词,

该n级特征词为该候选词的特征词,该n=1,或,

该n级特征词中的第k级特征词是从该n级特征词中的第k-1级特征词的释义中选择的特征词,该n和k都为大于1的整数,且该k小于或等于该n;

根据该候选词的初始判定结果和该至少一个中间词的判定结果,确定该候选词的最终判定结果,该候选词的最终判定结果用于指示能否将该候选词添加至该词典。

因而,本发明实施例提供的设备,该设备通过候选词的释义衍生至少一个中间词,即,该至少一个中间词中包含该候选词的n级特征词,且第k级特征词是从第k-1级特征词的释义中选择的特征词(或者说,下一级特征词是从上一级特征词的释义中选择的特征词),并且,根据基于该候选词生成的初始判定结果和基于每个中间词生成的判定结果对该候选词进行综合决策,获得用于判定该候选词能否添加至词典的最终判定结果,针对该候选词的释义中类型倾向(例如,情感倾向)不明显的特征词,可以有助于解析出该候选词的n级特征词中每个特征词的类型倾向以及用法搭配等信息,进而可以有效地降低模糊含义的特征词带来的噪声,提高词典的准确性;此外,由于释义知识库资源较多,能够收集较多的新词,本发明实施例通过查找该候选词或该候选词的n级特征词的释义中的词进行多次判定,有助于实时扩展词典。

可选地,该处理器430具体用于:

从该候选词的释义中,选择该候选词的释义中的实词;

将该候选词的释义中的实词和该词典中已收集的词中共有的词作为该候选词的特征词。

因此,通过选择候选词的释义中与该词典已收集的词的共有的词作为该候选词的特征词,可以过滤掉不属于词典的词,更能有效地减少类型倾向不明显的候选词的特征词带来的干扰,进一步提高词典的准确性。

此外,通过提取属于词典的特征词,能够快速聚焦到与候选词的类型倾向相关的关键词,可以减少中间判定的次数,提高处理速度。

可选地,该处理器430具体用于:

根据该候选词的特征词,确定该候选词的特征词的词性和该候选词的特征词所属的句法结构;

将该候选词的特征词、该候选词的特征词的词性和该候选词的特征词所属的句法结构转化为特征向量;

将该特征向量作为输入参数,通过该分类器,得到该初始判定结果。

因而,通过该候选词的特征词,提取该候选词的特征词的词性、该候选词的特征词所属的句法结构等信息,能够更好地表示该候选词的释义所表达的语义信息,进而可以更有效地解析出候选词的特征词的类型倾向以及用法搭配等信息,从而,提高词典的准确性。

可选地,该第k级特征词具体是从该第k-1级特征词中用于生成第一判定结果的特征词的释义中选择的特征词,该第一判定结果用于指示词归属于该词典的概率满足预设条件。

因此,从第k-1级特征词生成的判定结果中筛选出满足预设条件的第一判定结果,且将用于生成该第一判定结果的特征词作为第k级特征词,可以过滤掉用于生成指示词归属于该词典的概率不满足预设条件的判定结果的特征词,可以通过设置较少判定组数n来得到较为准确的最终判定结果。

该处理器430具体用于:

在该候选词的初始判定结果用于指示该候选词归属于该词典的概率满足预设条件,且该至少一个中间词的判定结果用于指示该每个中间词归属于该词典的概率满足预设条件的情况下,确定该候选词的最终判定结果为该候选词能添加至该词典。

该处理器430具体用于:

将该候选词的初始判定结果和该至少一个中间词的判定结果转化为判定向量;

将该判定向量作为输入参数,通过预设的第一公式,确定该候选词的最终判定结果,该第一公式用于指示该候选词能否添加至该词典。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明实施例的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明实施例的保护范围之内。因此,本发明实施例的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1