文本处理方法、装置、计算机设备和存储介质与流程

文档序号:23766286发布日期:2021-01-29 20:24阅读:58来源:国知局
文本处理方法、装置、计算机设备和存储介质与流程

[0001]
本申请涉及人工智能技术领域,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。


背景技术:

[0002]
随着科学技术的发展,在很多情况下都需要进行文本识别,例如识别文本所对应的意图或者对文本进行翻译等。
[0003]
传统技术中,在训练文本识别模型时,可以获取训练文本,通过训练文本以及对应的标签训练文本识别模型,得到文本识别模型之后,可以基于文本识别模型对文本进行文本识别,然而经常出现训练得到的文本识别模型的准确度比较低的问题。


技术实现要素:

[0004]
基于此,有必要针对上述技术问题,提供一种文本处理方法、装置、计算机设备和存储介质。
[0005]
一种文本处理方法,所述方法包括:获取第一训练文本;若所述第一训练文本的长度大于长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本;获取所述处理文本中各个分词对应的词向量,得到初始词向量序列;根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量;根据所述去除词在所述第一训练文本中的位置将所述统计词向量加入到所述初始词向量序列中,得到目标词向量序列;根据所述目标词向量序列对文本识别模型进行训练,得到训练后的文本识别模型。
[0006]
在一些实施例中,所述若所述第一训练文本的长度大于长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本包括:若所述第一训练文本的长度大于长度阈值,则获取所述第一训练文本中的目标实体,所述目标实体包括所述第一训练文本中的首实体或者所述第一训练文本中的尾实体的至少一个;将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词;对所述第一训练文本中的语义无关词进行去除处理,得到处理文本。
[0007]
在一些实施例中,所述将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词包括以下步骤的至少一个;若所述目标实体包括所述第一训练文本中的首实体,则将所述第一训练文本中,所述首实体之前的词作为不满足语义要求的语义无关词;若所述目标实体包括所述第一训练文本中的尾实体,则将所述第一训练文本中,所述尾实体之后的词作为不满足语义要求的语义无关词。
[0008]
在一些实施例中,所述根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量包括:对所述初始词向量序列的各个词向量中,相同位置的向量值进行统计,得到各个向量维度对应的统计值;根据所述向量维度对应的统计值确定所述统计词向量中对应维度的向量值,得到所述统计词向量。
[0009]
在一些实施例中,所述统计值包括均值以及标准差,所述根据所述向量维度对应
的统计值确定所述统计词向量中对应维度的向量值,各个维度对应的向量值组成所述统计词向量包括:将所述标准差与对应的向量维度的目标系数相乘,得到乘积;将所述均值减去所述乘积,得到所述统计词向量中对应维度的向量值。
[0010]
在一些实施例中,得到所述目标系数的步骤包括:获取所述初始词向量序列中,所述向量维度对应的向量值在各个数值范围的分布数量;根据各个所述数值范围的分布数量确定所述目标系数。
[0011]
在一些实施例中,所述处理文本中各个分词对应的词向量是基于训练后的词向量模型得到的,训练词向量模型的步骤包括:获取第二训练文本,获取所述第二训练文本中的专有实体;获取预设的词语条件概率,作为所述专有实体与对应的近邻实体之间的词语条件概率,所述专有实体对应的近邻实体为所述第二训练文本中,与所述专有实体的距离小于距离阈值的实体;根据所述词语条件概率以及所述第二训练文本对词向量模型进行训练,得到训练后的词向量模型。
[0012]
一种文本处理装置,所述装置包括:第一训练文本获取模块,用于获取第一训练文本;处理文本得到模块,用于若所述第一训练文本的长度大于长度阈值,对所述第一训练文本中的语义无关词进行去除处理,得到处理文本;初始词向量序列得到模块,用于获取所述处理文本中各个分词对应的词向量,得到初始词向量序列;统计词向量得到模块,用于根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量;目标词向量序列得到模块,用于根据所述去除词在所述第一训练文本中的位置将所述统计词向量加入到所述初始词向量序列中,得到目标词向量序列;训练模块,用于根据所述目标词向量序列对文本识别模型进行训练,得到训练后的文本识别模型。
[0013]
在一些实施例中,所述处理文本得到模块包括:目标实体获取单元,用于若所述第一训练文本的长度大于长度阈值,则获取所述第一训练文本中的目标实体,所述目标实体包括所述第一训练文本中的首实体或者所述第一训练文本中的尾实体的至少一个;语义无关词获取单元,用于将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词;去除单元,用于对所述第一训练文本中的语义无关词进行去除处理,得到处理文本。
[0014]
在一些实施例中,所述语义无关词获取单元,用于执行以下步骤的至少一个;若所述目标实体包括所述第一训练文本中的首实体,则将所述第一训练文本中,所述首实体之前的词作为不满足语义要求的语义无关词;若所述目标实体包括所述第一训练文本中的尾实体,则将所述第一训练文本中,所述尾实体之后的词作为不满足语义要求的语义无关词。
[0015]
在一些实施例中,所述统计词向量得到模块包括:统计值得到单元,用于对所述初始词向量序列的各个词向量中,相同位置的向量值进行统计,得到各个向量维度对应的统计值;统计词向量得到单元,用于根据所述向量维度对应的统计值确定所述统计词向量中对应维度的向量值,得到所述统计词向量。
[0016]
在一些实施例中,所述统计值包括均值以及标准差,所述统计词向量得到单元用于:将所述标准差与对应的向量维度的目标系数相乘,得到乘积;将所述均值减去所述乘积,得到所述统计词向量中对应维度的向量值。
[0017]
在一些实施例中,得到所述目标系数的模块用于:获取所述初始词向量序列中,所述向量维度对应的向量值在各个数值范围的分布数量;根据各个所述数值范围的分布数量
确定所述目标系数。
[0018]
在一些实施例中,所述处理文本中各个分词对应的词向量是基于训练后的词向量模型得到的,训练词向量模型的模块包括:专有实体获取模块,用于获取第二训练文本,获取所述第二训练文本中的专有实体;词语条件概率获取模块,用于获取预设的词语条件概率,作为所述专有实体与对应的近邻实体之间的词语条件概率,所述专有实体对应的近邻实体为所述第二训练文本中,与所述专有实体的距离小于距离阈值的实体;词向量模型得到模块,用于根据所述词语条件概率以及所述第二训练文本对词向量模型进行训练,得到训练后的词向量模型。
[0019]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取第一训练文本;若所述第一训练文本的长度大于长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本;获取所述处理文本中各个分词对应的词向量,得到初始词向量序列;根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量;根据所述去除词在所述第一训练文本中的位置将所述统计词向量加入到所述初始词向量序列中,得到目标词向量序列;根据所述目标词向量序列对文本识别模型进行训练,得到训练后的文本识别模型。
[0020]
在一些实施例中,所述若所述第一训练文本的长度大于长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本包括:若所述第一训练文本的长度大于长度阈值,则获取所述第一训练文本中的目标实体,所述目标实体包括所述第一训练文本中的首实体或者所述第一训练文本中的尾实体的至少一个;将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词;对所述第一训练文本中的语义无关词进行去除处理,得到处理文本。
[0021]
在一些实施例中,所述将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词包括以下步骤的至少一个;若所述目标实体包括所述第一训练文本中的首实体,则将所述第一训练文本中,所述首实体之前的词作为不满足语义要求的语义无关词;若所述目标实体包括所述第一训练文本中的尾实体时,则将所述第一训练文本中,所述尾实体之后的词作为不满足语义要求的语义无关词。
[0022]
在一些实施例中,所述根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量包括:对所述初始词向量序列的各个词向量中,相同位置的向量值进行统计,得到各个向量维度对应的统计值;根据所述向量维度对应的统计值确定所述统计词向量中对应维度的向量值,得到所述统计词向量。
[0023]
在一些实施例中,所述统计值包括均值以及标准差,所述根据所述向量维度对应的统计值确定所述统计词向量中对应维度的向量值,各个维度对应的向量值组成所述统计词向量包括:将所述标准差与对应的向量维度的目标系数相乘,得到乘积;将所述均值减去所述乘积,得到所述统计词向量中对应维度的向量值。
[0024]
在一些实施例中,得到所述目标系数的步骤包括:获取所述初始词向量序列中,所述向量维度对应的向量值在各个数值范围的分布数量;根据各个所述数值范围的分布数量确定所述目标系数。
[0025]
在一些实施例中,所述处理文本中各个分词对应的词向量是基于训练后的词向量模型得到的,训练词向量模型的步骤包括:获取第二训练文本,获取所述第二训练文本中的
专有实体;获取预设的词语条件概率,作为所述专有实体与对应的近邻实体之间的词语条件概率,所述专有实体对应的近邻实体为所述第二训练文本中,与所述专有实体的距离小于距离阈值的实体;根据所述词语条件概率以及所述第二训练文本对词向量模型进行训练,得到训练后的词向量模型。
[0026]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取第一训练文本;若所述第一训练文本的长度大于长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本;获取所述处理文本中各个分词对应的词向量,得到初始词向量序列;根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量;根据所述去除词在所述第一训练文本中的位置将所述统计词向量加入到所述初始词向量序列中,得到目标词向量序列;根据所述目标词向量序列对文本识别模型进行训练,得到训练后的文本识别模型。
[0027]
在一些实施例中,所述若所述第一训练文本的长度大于长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本包括:若所述第一训练文本的长度大于长度阈值,则获取所述第一训练文本中的目标实体,所述目标实体包括所述第一训练文本中的首实体或者所述第一训练文本中的尾实体的至少一个;将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词;对所述第一训练文本中的语义无关词进行去除处理,得到处理文本。
[0028]
在一些实施例中,所述将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词包括以下步骤的至少一个;若所述目标实体包括所述第一训练文本中的首实体,则将所述第一训练文本中,所述首实体之前的词作为不满足语义要求的语义无关词;若所述目标实体包括所述第一训练文本中的尾实体,则将所述第一训练文本中,所述尾实体之后的词作为不满足语义要求的语义无关词。
[0029]
在一些实施例中,所述根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量包括:对所述初始词向量序列的各个词向量中,相同位置的向量值进行统计,得到各个向量维度对应的统计值;根据所述向量维度对应的统计值确定所述统计词向量中对应维度的向量值,得到所述统计词向量。
[0030]
在一些实施例中,所述统计值包括均值以及标准差,所述根据所述向量维度对应的统计值确定所述统计词向量中对应维度的向量值,各个维度对应的向量值组成所述统计词向量包括:将所述标准差与对应的向量维度的目标系数相乘,得到乘积;将所述均值减去所述乘积,得到所述统计词向量中对应维度的向量值。
[0031]
在一些实施例中,得到所述目标系数的步骤包括:获取所述初始词向量序列中,所述向量维度对应的向量值在各个数值范围的分布数量;根据各个所述数值范围的分布数量确定所述目标系数。
[0032]
在一些实施例中,所述处理文本中各个分词对应的词向量是基于训练后的词向量模型得到的,训练词向量模型的步骤包括:获取第二训练文本,获取所述第二训练文本中的专有实体;获取预设的词语条件概率,作为所述专有实体与对应的近邻实体之间的词语条件概率,所述专有实体对应的近邻实体为所述第二训练文本中,与所述专有实体的距离小于距离阈值的实体;根据所述词语条件概率以及所述第二训练文本对词向量模型进行训练,得到训练后的词向量模型。
[0033]
上述文本处理方法、装置、计算机设备和存储介质,由于对于长度大于长度阈值的训练文本,可以对训练文本中与语义无关的词进行去除处理,得到处理文本,因此可以减少文本中无关词语的数量,避免语义无关词语相近,但表达实质语义的词语不相似的句子之间的词向量序列相近,使得文本识别模型无法准确学习到区分句子的能力的情况,且通过保留的词语的词向量序列得到去除的词语对应的统计词向量,从而使得目标词向量序列符合文本原本的文义信息,从而基于该目标词向量序列进行训练,提高了训练得到的文本识别模型的准确度。
附图说明
[0034]
图1为一些实施例中文本处理方法的应用环境图;图2为一些实施例中文本处理方法的流程示意图;图3为一些实施例中根据初始词向量序列进行统计,得到第一训练文本中去除词对应的统计词向量包步骤的流程示意图;图4为一些实施例中训练词向量模型步骤的流程示意图;图5为一些实施例中文本处理装置的结构框图;图6为一些实施例中处理文本得到模块的结构框图;图7为一些实施例中训练词向量模型的模块的结构框图;图8为一些实施例中计算机设备的内部结构图。
具体实施方式
[0035]
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0036]
本申请提供的文本处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102可以向服务器发送训练模型的指令,服务器104响应于该指令,执行本申请的文本处理方法,得到训练后的文本识别模型,向终端102返回模型训练完成的提示消息。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0037]
在一些实施例中,如图2所示,提供了一种文本处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:步骤s202,获取第一训练文本。
[0038]
其中,训练文本是用于进行模型训练的文本,第一训练文本的语言可以根据实际需要确定,例如第一训练文本可以是中文语句,也可以是日文语句。一个第一训练文本可以包括多个分词,可以对第一训练文本进行切分,得到多个分词。多个是指至少两个。其中,进行切分的方式可以采用基于词典或基于统计的分词切分方式。例如,假设第一训练文本为“明天是晴天”,则切分得到的分词序列为“明天/是/晴天”。
[0039]
步骤s204,若第一训练文本的长度大于长度阈值,则对第一训练文本中的语义无关词进行去除处理,得到处理文本。
[0040]
其中,第一训练文本的长度可以用第一训练文本中分词的数量表示。长度阈值可以根据需要设置,例如30个。语义无关词是指对第一训练文本的语义响应不大或者完全无影响的词。例如语义无关词可以是助词。若第一训练文本的长度小于长度阈值,则可以获取第一训练文本中各个分词对应的词向量,得到目标词向量序列。
[0041]
在一些实施例中,可以通过对第一训练文本进行截断处理,得到处理文本。例如获取第一训练文本中的实体的位置,将第一个实体之前的词作为语义无关词,从而进行截断。
[0042]
在一些实施例中,可以通过对第一训练文本进行截断处理,得到处理文本。例如,获取第一训练文本中的实体的位置,将最后一个实体之后的词作为语义无关词。
[0043]
在一些实施例中,可以将第一训练文本中的分词与语义无关词的词库中的词进行对比,将对比一致的词语作为语义无关词。
[0044]
在一些实施例中,可以将不满足语义要求的词作为语义无关词,语义要求可以根据需要设置,例如可以是特定的词语类型,语义无关词即为不满足语义要求的无语义词。
[0045]
在一些实施例中,若第一训练文本的长度大于长度阈值,则获取第一训练文本中的目标实体,目标实体包括第一训练文本中的首实体或者第一训练文本中的尾实体的至少一个;将第一训练文本中,目标实体对应的端部词作为不满足语义要求的语义无关词。
[0046]
其中,实体(entity)是指具有特定意义的事物,例如可以包括人名、地名或者机构名等专有名词中的至少一种。首实体是训练文本中的第一个实体,尾实体是训练文本中的最后一个实体。一个训练文本可以包括一个或者多个实体。例如,假设训练文本为“要申请中国银行的信用卡”,则实体可以包括
ꢀ“
中国银行”以及“信用卡”。端部词是指位于端部的词。可以是文本的前端,也可以是后端。
[0047]
具体地,可以获取第一训练文本中的首实体或者第一训练文本中的尾实体的至少一个,然后将首实体之前的词语作为端部词,将尾实体之后的词语作为端部词,去除这些端部词,得到中间部分的文本,作为处理文本。
[0048]
在一些实施例中,将第一训练文本中,目标实体对应的端部词作为不满足语义要求的语义无关词包括以下步骤的至少一个;若目标实体包括第一训练文本中的首实体,则将第一训练文本中,首实体之前的词作为不满足语义要求的语义无关词;若目标实体包括第一训练文本中的尾实体,则将第一训练文本中,尾实体之后的词作为不满足语义要求的语义无关词。
[0049]
具体地,服务器可以执行去除首实体之前的词或者去除尾实体之前的词的步骤的至少一个。举个例子,假设第一训练文本为“abcdefg”,假设首实体为b,尾实体为g,则处理文本为“bcdefg”。即对于首实体,将首实体之前的词语作为端部词。对于尾实体,将尾实体之后的词语作为端部词。
[0050]
步骤s206,获取处理文本中各个分词对应的词向量,得到初始词向量序列。
[0051]
其中,分词是对文本进行切分得到的。词向量可以是分布式表示向量(distribution representation)或者通过one-hot(独热)编码得到,词向量可以是预先通过训练词向量模型得到的,词向量模型可以是word to vector模型,word to vector是一个将单词转换成向量形式的工具。
[0052]
具体地,服务器可以对处理文本进行分词,得到分词序列。获取表示分词的词向量,词向量按照在处理文本中的顺序,组成初始词向量序列。
[0053]
步骤s208,根据初始词向量序列进行统计,得到第一训练文本中的去除词对应的统计词向量。
[0054]
其中,统计可以是指获取表示初始词向量序列的特征的值进行计算。例如求均值、标准差或者中位值中的至少一个等,还可以是通过统计分析初始词向量序列的分布规律,获取满足该分布规律的统计词向量。例如可以获取初始词向量序列对应的高斯分布规律,获取满足该高斯分布规律的统计向量。如可以获取均值以及标准差,基于均值和标准差得到统计向量。
[0055]
具体地,服务器获取到初始词向量序列后,可以对初始词向量序列进行统计,获取满足统计规律的统计词向量,作为第一训练文本中,已经去除的词对应的词向量。
[0056]
步骤s210,根据去除词在第一训练文本中的位置将统计词向量加入到初始词向量序列中,得到目标词向量序列。
[0057]
具体地,得到统计词向量后,可以根据去除词在第一训练文本中的位置,将该统计词向量加入到对应的位置中,从而得到目标词向量序列。举个实际的例子,对于第一训练文本,假设为“abcde”,其中一个字母表示一个分词,假设去除了a以及e,则得到bcd对应的初始词向量序列,例如由向量2、向量3以及向量4组成的初始词向量序列后,假设得到a对应的统计词向量为向量1,e对应的统词向量为向量5,则目标词向量序列为向量1、向量2、向量3、向量4以及向量5依次排列的向量序列。
[0058]
步骤s212,根据目标词向量序列对文本识别模型进行训练,得到训练后的文本识别模型。
[0059]
其中,文本识别模型可以包括预训练语言模型以及根据文本识别任务设置的任务模型。例如预训练语言模型可以是bert(bidirectional encoder representation from transformers,基于转换器的双向编码模型)模型。在进行下游的任务模型的训练之前,可以对预训练的bert模型进行微调,任务模型根据具体需要设置,例如可以是对文本的情感进行分类的模型或者进行翻译的模型。
[0060]
具体地,可以将目标词向量序列输入到预训练语言模型中进行特征提取,得到语义特征向量序列,任务模型可以基于语义特征向量序列进行识别,得到预测的识别结果,预测得到的识别结果例如可以是进行翻译或者进行文本分类的结果。得到预测得到的识别结果后,基于标准的识别结果与预测的识别结果的差异得到模型损失值,其中,差异与模型损失值成正相关关系。得到模型损失值之后,根据模型损失值,采用梯度下降方法对模型参数进行调整,即朝着使模型损失值下降的方向调整模型的参数,直至模型收敛,得到训练后的文本识别模型。其中,模型收敛可以是指模型损失值小于预设损失值。标准的识别结果可以认为是正确的处理结果,可以称作标签。
[0061]
在一些实施例中,预训练语言模型在进行特征提取时,对目标词向量序列进行编码,得到语义特征向量序列,语义特征向量序列包括每个词向量对应的语义向量,该语义向量是融合语义特征向量序列得到的,即融合了词向量序列中各个词向量的语义信息。
[0062]
上述文本处理方法中,由于对于长度大于长度阈值的训练文本,可以对训练文本中与语义无关的词进行去除处理,得到处理文本,因此可以减少文本中无关词语的数量,避免语义无关词语相近,但表达实质语义的词语不相似的句子之间的词向量序列相近,使得文本识别模型无法学习到区分句子的能力的情况,又通过保留的词语的词向量序列得到去
除的词语对应的统计词向量,从而使得目标词向量序列符合文本原本的特性,从而基于该目标词向量序列进行训练,提高了训练得到的文本识别模型的准确度。
[0063]
在一些实施例中,如图3所示,根据初始词向量序列进行统计,得到第一训练文本中去除词对应的统计词向量包括:步骤s302,对初始词向量序列的各个词向量中,相同位置的向量值进行统计,得到各个向量维度对应的统计值。
[0064]
具体地,一个向量是多维的,例如可以是8维。词向量序列中的词向量的维度是相同的,因此对每个维度的值进行统计,得到每个维度对应的统计值,例如可以是均值或者标准差的至少一个。例如,对于第一个维度,可以获取初始词向量序列中,每个词向量在第一个维度的值,进行求和后求均值,作为该第一个维度的统计值。
[0065]
步骤s304,根据向量维度对应的统计值确定去除词对应的统计词向量中对应维度的向量值,得到统计词向量。
[0066]
具体地,得到统计值之后,可以将统计值作为向量值,也可以基于统计值进行进一步计算,得到向量值。例如统计值可以是均值,可以将均值作为向量值。统计值也可以包括均值和标准差,可以根据均值和标准差得到向量值。
[0067]
举个例子,假设统计值为均值,初始词向量序列有两个向量,则可以将这两个向量相加,得到的和除以2,作为统计词向量。如向量(1,2,3)与(2,3,4)相加,得到的向量为(3,5,7),则统计词向量为(3,5,7)除以2,为(1.5,2.5,3.5)。
[0068]
在一些实施例中,统计值可以包括均值和标准差,可以将标准差乘以向量维度对应的目标系数,得到乘积,将均值减去乘积,得到统计值。其中目标系数可以根据预先设置,例如可以是1.5。目标系数也可以是根据向量维度的向量值的分布得到的。可以获取初始词向量序列中,各个向量维度对应的向量值在各个数值范围的分布数量,根据在各个数值范围的分布数量确定该向量维度对应的目标系数。
[0069]
具体地,对于每个向量维度,对应的目标系数可以不同,可以计算该向量维度的向量值的均值以及方差,并计算该维度的向量值在每个数值范围内的分布,获取分布数量最少的范围所对应的系数,作为目标系数。其中,范围可以根据与均值相差的距离确定,按照与均值相差的标准差的个数,确定范围。例如,假设均值为u,标准差为a,则u-a到u为一个范围,u-2a到u-a为另一个范围。可以计算每个范围中,向量值的分布个数,获取分布个数最小的范围所对应的系数,作为目标系数。举个例子,假设数值范围u-a到u-2a对应的分布个数最少,则目标系数可以为系数1与系数2的均值,为1.5,这样,统计值为u-1.5a。通过将标准差乘以目标系数,得到乘积,将均值减去乘积,得到统计值,可以使得统计值符合初始词向量序列的高斯分布规律,从而使得统计词向量能够更加贴切文本的语义。
[0070]
在一些实施例中,也可以确定初始词向量序列对应的高斯分布密度函数,可以基于该高斯分布密度函数随机生成满足该高斯分布密度函数的词向量的向量值,从而基于向量值得到统计词向量,使得生成的统计词向量满足初始词向量序列对应的高斯分布。例如初始词向量序列的某一维度得到的高斯统计分布的均值为0,方差为1,则随机生成的数值可能是0.1,也可能是0.001234,也可能是0.010334。
[0071]
在一些实施例中,如图4所示,处理文本中各个分词对应的词向量是基于词向量模型得到的,训练词向量模型的步骤包括:
步骤s402,获取第二训练文本,获取第二训练文本中的专有实体。
[0072]
其中,专有实体是预先设置的专有的实体,可以是具体的专业领域对应的专有词,例如可以是“白金信用卡”以及“黑金信用卡等”。第二训练文本可以与第一训练文本相同,也可以不同。
[0073]
具体地,通过训练词向量模型,能够得到词向量。在利用第二训练样本对词向量模型进行训练之前,词向量模型可以是已经经过初步训练的。例如在利用第二训练样本训练之前,词向量模型可以是已经利用通用领域的文本训练过的,符合通用领域的词的词向量表示。而该词向量模型需要使用在专业领域中,例如金融领域,因此需要根据金融领域的训练文本继续训练,以使得该词向量模型与金融领域更加适配,故第二训练文本是专业领域例如金融领域对应的文本。
[0074]
在一些实施例中,专有实体可以是专业领域中的实体,例如在金融领域,专有实体可以是“银行”以及“信用卡”。
[0075]
步骤s404,获取预设的词语条件概率,作为专有实体与对应的近邻实体之间的词语条件概率,专有实体对应的近邻实体为第二训练文本中,与专有实体的距离小于距离阈值的实体。
[0076]
其中,词语条件概率是词与词之间同时在一个文本中出现的概率。例如对于词语a与b,在一个文本中,词b已出现的前提下,词a出现的概率称为a关于b的条件概率。距离阈值可以根据需要设置,例如可以是2,即可以将与专有实体的距离小于2个词的实体作为专有实体的近邻实体。预设词语条件概率可以是预先设置的。可以预先设置对于同一个专有名词,其与近邻实体的词语条件概率均相同,例如对于专有实体“白金信用卡”,“白金信用卡”与近邻实体“招商银行”的预设词语条件概率为五分之一。“白金信用卡”与近邻实体“中国银行”的预设词语条件概率也为五分之一。
[0077]
步骤s406,根据词语条件概率以及第二训练文本对词向量模型进行训练,得到训练后的词向量模型。
[0078]
其中,词向量模型是基于条件概率进行训练的模型,例如可以是word to vector模型。对于基于条件概率进行训练的模型,一般而言,是通过语料库统计的词语之间的条件概率进行训练的,因此专有实体对应的条件概率会因为语料库的不同而不同。但实际上,专有实体的语义,与近邻实体的类型更加相关,与具体的近邻实体是什么的相关性相对比较小,因此通过设置预设的词语条件概率,对于专有实体,不采用语料库的概率,而是采用预设的概率,可以使得词向量模型的训练更加准确。可以理解,对于非专有实体,可以采用语料库的条件概率对词向量模型进行训练。
[0079]
在一些实施例中,可以是若近邻实体的实体类型为预设类型,则再获取预设词语条件概率,作为专有实体与对应的近邻实体之间的词语条件概率。例如对于专有实体“白金信用卡”,若其对应的近邻实体为银行类型的实体,再获取预设词语条件概率,作为专有实体与对应的近邻实体之间的词语条件概率。否则,则可以采用语料库的词语条件概率。例如,对于专有实体“白金信用卡”,若其对应的近邻实体为“招商银行”,则采用预设的词语条件概率。若其对应的近邻实体为“a商店”时,采用语料库的词语条件概率,这样可以使得专有实体在面对特定类型的实体时,并不会因为该类型的实体的不同,而大大改变专有实体的词向量,从而提高了词向量的准确度。
[0080]
在一些实施例中,得到文本识别模型之后,可以利用文本识别模型进行文本的识别。例如可以是对会话消息进行识别,例如进行编码,基于编码得到的向量生成会话消息的答复消息。
[0081]
在一些实施例中,在生成答复消息时,还可以获取会话消息对应的会话意图,获取表示该意图的意图词向量,将该意图词向量输入到文本识别模型中进行会话消息的识别,得到编码的向量,基于编码得到的向量进行解码,生成会话消息的答复消息。
[0082]
在一些实施例中,会话消息是通过会话语音识别得到的,可以获取说话人的会话语音中的语音特征,基于说话人的姿态信息得到说话人对应的多个行为特征,得到行为特征集合,基于会话语音获取说话人对应的多个语音特征,得到语音特征集合;将行为特征集合中的特征与语音特征集合中的特征进行组合,得到组合特征;基于组合特征确定说话人对应的会话意图。例如将组合特征输入到意图识别模型中进行意图识别。
[0083]
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0084]
在一些实施例中,如图5所示,提供了一种文本处理装置,包括:一种文本处理装置,装置包括:第一训练文本获取模块502,用于获取第一训练文本;处理文本得到模块504,用于若第一训练文本的长度大于长度阈值,则对第一训练文本中的语义无关词进行去除处理,得到处理文本;初始词向量序列得到模块506,用于获取处理文本中各个分词对应的词向量,得到初始词向量序列;统计词向量得到模块508,用于根据初始词向量序列进行统计,得到第一训练文本中的去除词对应的统计词向量;目标词向量序列得到模块510,用于根据去除词在第一训练文本中的位置将统计词向量加入到初始词向量序列中,得到目标词向量序列;训练模块512,用于根据目标词向量序列对文本识别模型进行训练,得到训练后的文本识别模型。
[0085]
在一些实施例中,如图6所示,处理文本得到模块包括:目标实体获取单元602,用于若第一训练文本的长度大于长度阈值,则获取第一训练文本中的目标实体,目标实体包括第一训练文本中的首实体或者第一训练文本中的尾实体的至少一个;语义无关词获取单元604,用于将第一训练文本中,目标实体对应的端部词作为不满足语义要求的语义无关词;去除单元606,用于对第一训练文本中的语义无关词进行去除处理,得到处理文本。
[0086]
在一些实施例中,语义无关词获取单元,用于执行以下步骤的至少一个;若目标实体包括第一训练文本中的首实体,则将第一训练文本中,首实体之前的词作为不满足语义
要求的语义无关词;若目标实体包括第一训练文本中的尾实体,则将第一训练文本中,尾实体之后的词作为不满足语义要求的语义无关词。
[0087]
在一些实施例中,统计词向量得到模块包括:统计值得到单元,用于对初始词向量序列的各个词向量中,相同位置的向量值进行统计,得到各个向量维度对应的统计值;统计词向量得到单元,用于根据向量维度对应的统计值确定统计词向量中对应维度的向量值,得到统计词向量。
[0088]
在一些实施例中,统计值包括均值以及标准差,统计词向量得到单元用于:将标准差与对应的向量维度的目标系数相乘,得到乘积;将均值减去乘积,得到统计词向量中对应维度的向量值。
[0089]
在一些实施例中,得到目标系数的模块用于:获取初始词向量序列中,向量维度对应的向量值在各个数值范围的分布数量;根据各个数值范围的分布数量确定目标系数。
[0090]
在一些实施例中,如图7所示,处理文本中各个分词对应的词向量是基于训练后的词向量模型得到的,训练词向量模型的模块包括:专有实体获取模块702,用于获取第二训练文本,获取第二训练文本中的专有实体;词语条件概率获取模块704,用于获取预设的词语条件概率,作为专有实体与对应的近邻实体之间的词语条件概率,专有实体对应的近邻实体为第二训练文本中,与专有实体的距离小于距离阈值的实体;词向量模型得到模块706,用于根据词语条件概率以及第二训练文本对词向量模型进行训练,得到训练后的词向量模型。
[0091]
关于文本处理装置的具体限定可以参见上文中对于文本处理方法的限定,在此不再赘述。上述文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0092]
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本处理数据,例如训练样本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法。
[0093]
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0094]
在一些实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取第一训练文本;若第一训练文本的长度大于长度阈值,则对第一训练文本中的语义无关词进行去除处理,得到处理文本;获取处理文本中各个分词对应的词向量,得到初始词向量序列;根据初始词向量序列进行统计,得到第一训练文本中的去除词对应的统计词向量;根据去除词在第一训练文本中的位置将统计词向量加入到初始词向量序列中,得到目标词向量序列;根据目标词向量序列
对文本识别模型进行训练,得到训练后的文本识别模型。
[0095]
在一些实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取第一训练文本;若第一训练文本的长度大于长度阈值,则对第一训练文本中的语义无关词进行去除处理,得到处理文本;获取处理文本中各个分词对应的词向量,得到初始词向量序列;根据初始词向量序列进行统计,得到第一训练文本中的去除词对应的统计词向量;根据去除词在第一训练文本中的位置将统计词向量加入到初始词向量序列中,得到目标词向量序列;根据目标词向量序列对文本识别模型进行训练,得到训练后的文本识别模型。
[0096]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0097]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0098]
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1