基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质与流程

文档序号:23155913发布日期:2020-12-04 13:51阅读:161来源:国知局
基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质与流程

本发明属于自然语言处理领域,尤其涉及一种基于bilstm网络模型及crf模型的分词方法、装置、计算机装置及计算机存储介质。



背景技术:

随着信息社会的到来,中文文本信息的数量出现爆炸式的增长。中文作为一种黏着语,其结构模糊,中文的词与词之间没有明显的间隔,只有字和句子这两个层级的结构,但词却是中文文本意义的最小单位。若需要对中文文本进行命名实体识别、信息抽取、语法结构分析、自然语言理解等处理任务,必须对中文文本构建出词一级的结构。在构建中文文本的词一级的结构过程中,由于文本数量庞大,手工分词非常慢,并且汉语是以字构词,字与字之间是否成词需依照语句以及上下文意思来确定,导致手工分词过程中存在分词准确率低,效率低。

现有技术中,使用循环神经网络(recurrentneuralnetwork,rnn)从大量文本中学习字的特征,并结合crf、svm对具有不同特征的字进行分类,进而确定哪些字是单字成词,哪些是几个字组成的词。现有技术由于采用简单原始的rnn,不能提取出字的长距离上下文中的隐含信息,导致学习到的特征表示不准确,存在分词准确率很低的问题。



技术实现要素:

本发明实施例提供一种基于bilstm网络模型及crf模型的分词方法,旨在解决现有技术中由于采用简单原始的rnn,不能提取出字的长距离上下文中的隐含信息,导致学习到的特征表示不准确,存在分词准确率很低的问题。

本发明是这样实现的,一种基于bilstm网络模型及crf模型的分词方法,包括:

设置bilstm网络模型的神经元数量、字向量的维度、待识别语句长度,设置crf模型的分词标签,基于所述设置后的bilstm网络模型及crf模型构建分词模型;

通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引;

根据所述生成的字标签索引与所述训练数据的字标签索引的对比结果,调整所述分词模型的权重参数,得到优化后的分词模型;

通过所述优化后的分词模型对待识别中文文本进行分词处理。

可选的,所述设置bilstm网络模型的神经元数量、字向量的维度、待识别语句长度之前,所述基于bilstm网络模型及crf模型的分词方法还包括以下过程:

基于原始中文文本构建字典,其中,所述字典包括中文字符及其与中文字符对应的索引;

构建所述字向量表,所述字向量表包括所述字典中的索引及与所述索引对应字符的字向量;所述字典中字符的索引与所述字向量表的索引一一对应。

可选的,所述通过所述优化后的分词模型对中文文本进行分词处理,包括以下过程:

根据所述字典将所述中文文本转换成索引文本;

根据所述字向量表,将所述索引文本转换为字向量文本,并将所述字向量文本输入所述优化后的分词模型,通过所述优化后的分词模型得到每个索引对应的分词标签索引;

从预先获取的词标签列表中查找所述分词标签索引对应的分词标签,其中,所述词标签列表包括分词标签索引及与所述分词标签索引对应的分词标签;

根据所述分词标签得到词边界,根据所述词边界确定所述中文文本的分词结果。

可选的,所述根据所述分词标签确定所述中文文本的分词结果之后,所述基于bilstm网络模型及crf模型的分词方法还包括以下步骤:

根据所述分词结果与所述字典中包含的字符确定目标字符,所述目标字符为出现在所述分词结果中、且未出现在所述字典中的字符;将所述目标字符及对应的索引更新到所述字典中;

根据所述分词结果与预先获取的词典中包含的词语确定目标词语,所述目标词语为出现在所述分词结果中、且未出现在所述词典中的词语;将所述目标词语及对应的索引更新到所述词典中。

本发明还提供一种基于bilstm网络模型及crf模型的分词装置,包括:

设置模块,用于设置bilstm网络模型的神经元数量、字向量的维度、待识别语句长度,设置crf模型的分词标签,基于所述设置后的bilstm网络模型及crf模型构建分词模型;

处理模块,用于通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引;

优化模块,用于根据所述生成的字标签索引与所述训练数据的字标签索引的对比结果,调整所述分词模型的权重参数,得到优化后的分词模型;

分词处理模块,用于通过所述优化后的分词模型对待识别中文文本进行分词处理。

可选的,所述基于bilstm网络模型及crf模型的分词装置还包括:

第一构建模块,用于基于原始中文文本构建字典,其中,所述字典包括中文字符及其与中文字符对应的索引;

第二构建模块,用于构建所述字向量表,所述字向量表包括所述字典中的索引及与所述索引对应字符的字向量;所述字典中字符的索引与所述字向量表的索引一一对应。

可选的,所述分词处理模块包括:

第一转换子模块,用于根据所述字典将所述中文文本转换成索引文本;

第二转换子模块,用于根据所述字向量表,将所述索引文本转换为字向量文本,并将所述字向量文本输入所述优化后的分词模型,通过所述优化后的分词模型得到每个索引对应的分词标签索引;

查找子模块,用于从预先获取的词标签列表中查找所述分词标签索引对应的分词标签,其中,所述词标签列表包括分词标签索引及与所述分词标签索引对应的分词标签;

确定子模块,用于根据所述分词标签得到词边界,根据所述词边界确定所述中文文本的分词结果。

可选的,所述基于bilstm网络模型及crf模型的分词装置还包括:

更新模块,用于根据所述分词结果与所述字典中包含的字符确定目标字符,所述目标字符为出现在所述分词结果中、且未出现在所述字典中的字符;将所述目标字符及对应的索引更新到所述字典中;

根据所述分词结果与预先获取的词典中包含的词语确定目标词语,所述目标词语为出现在所述分词结果中、且未出现在所述词典中的词语;将所述目标词语及对应的索引更新到所述词典中。

本发明还提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中计算机程序时实现如上述所述一种基于bilstm网络模型及crf模型的分词方法的步骤。

本发明还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述一种基于bilstm网络模型及crf模型的分词方法的步骤。

本发明提供的一种基于bilstm网络模型及crf模型的分词方法,通过所述设置后的bilstm获取待识别语句的字向量,每个字向量综合了上下文信息的向量表示,提高字向量的准确度,从而在将所述待识别语句的字向量输入所述设置后的crf模型,得到所述待识别语句的分词标签更加准确;基于准确度较高的分词标签能够得到准确度更高的分词结果;进而根据交准确的分词能更加准确地调整分词模型的权重参数,得到较好的优化后的分词模型;通过所述优化后的分词模型对待识别中文文本进行分词处理,能够得到更加准确的分词结果,减少人力成本,提高分词准确率。

附图说明

图1是本发明实施例提供的一种基于bilstm网络模型及crf模型的分词方法的实现流程图;

图2本发明实施例提供的分词模型示意图;

图3本发明实施例提供的基于bilstm网络模型及crf模型的分词方法的步骤s104之后的流程示意图;

图4本发明实施例提供的字典局部示意图;

图5本发明实施例提供的分词模型的训练数据示例;

图6本发明实施例提供的分词模型的训练数据可读类型示例;

图7本发明实施例提供的步骤s104的流程示意图;

图8本发明实施例提供的分词结果示意图;

图9本发明实施例提供的词典局部示意图;

图10本发明实施例提供的基于bilstm网络模型及crf模型的分词装置的结构示意图;

图11是本发明实施提供的另一基于bilstm网络模型及crf模型的分词装置的结构示意图;

图12是本发明实施提供的分词处理模块的结构示意图;

图13是本发明实施例提供的另一基于bilstm网络模型及crf模型的分词装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

图1所示为本发明实施例提供的一种基于bilstm网络模型及crf模型的分词方法的实现流程图。该基于bilstm网络模型及crf模型的分词方法包括以下过程:

步骤s101,设置bilstm网络模型的神经元数量、字向量的维度、待识别语句长度,设置crf模型的分词标签,基于所述设置后的bilstm网络模型及crf模型构建分词模型。

双向长短时记忆(bidirectionallongshort-termmemory,bilstm)网络模型可以整合字的上下文信息,针对每个字得到包含上下文信息的字向量。条件随机场(conditionalrandomfield,crf)模型是随机场的一种,是一种判别式模型。crf模型常用来标注、分析序列资料。

请参阅图2,图2为分词模型示意图。分词模型包括字嵌入、bilstm编码器及crf层,l序列代表某个字词和其上文信息的向量表示,r序列则代表某个字词的下文信息的向量表示,c序列代表综合了上下文信息的某个字词的新的综合字向量表示。在图2中,l1代表字“张”和其上文信息的向量表示,l2代表字“三”和其上文信息的向量表示,l3代表字“吃”和其上文信息的向量表示,l4代表字“饭”和其上文信息的向量表示。r1代表字“张”和其下文信息的向量表示,r2代表字“三”和其下文信息的向量表示,r3代表字“吃”和其下文信息的向量表示,r4代表字“饭”和其下文信息的向量表示。c1代表字“张”和其上下文信息的综合向量表示,c2代表字“三”和其上下文信息的综合向量表示,c3代表字“吃”和其上下文信息的综合向量表示,c4代表字“饭”和其上下文信息的综合向量表示。

在本实施中,双向lstm的隐藏神经元数量可以设为160个,分词标签总共有8个,字向量可以设为300维,将待识别语句分段输入到神经网络中,每段长度固定可以为80个字,根据这些参数设置bilstm网络模型。

在本实施例中,分词标签包括8种:“ey”,“ot”,“bn”,“in”,“bl”,“il”,“bo”,“io”,分别设置相应的索引,索引分别是0,1,2,3,4,5,6,7。“ey”代表无意义的标签,“ot”代表这个词不属于命名实体,它属于其他类别,“bn”代表这个词作为人名类命名实体的起始词,“in”代表这个词作为人名类命名实体的部分词,“bl”代表这个词作为地名类命名实体的起始词,“il”代表这个词作为地名类命名实体的部分词,“bo”代表这个词作为组织机构类命名实体的起始词,“io”代表这个词作为组织机构类命名实体的部分词。

请参阅图3,在步骤s101之前,所述基于bilstm网络模型及crf模型的分词方法还包括以下过程:

步骤s105,基于原始中文文本构建字典,其中,所述字典包括中文字符及其与中文字符对应的索引;

步骤s106,构建所述字向量表,所述字向量表包括所述字典中的索引及与所述索引对应字符的字向量;所述字典中字符的索引与所述字向量表的索引一一对应。

在拥有大量已标记的字的文本后,从标记文本中整理并统计出字典,即带索引的字表,其中每个字都有唯一的一个序号对应,每个字在这个字表中只出现一次。请参阅图4,图4所示为字典局部示例图,图4中每一个中文字符对应一个索引,索引为连续排序的数字。在字典中频次为1的字以及将来测试语料中的生字,即字典中不存在的字,都以一个符号“<unk>”表示,它们的共同索引为字典中频数大于1的字的总数加1。

在本实施例中,字向量表由网络上几十gb的文本大数据结合神经网络语言模型训练而来,每个字的向量表示都是非常准确的,含有极为丰富的内在信息。字向量表中字的索引和字典中同一字的索引一致。例如,图4中字典局部示例“的”字的索引为2,则字向量表中字“的”字的索引也为2。

步骤s102,通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引。

可以理解的是,各类神经网络模型的输入必须是字向量,而不能是未经处理的字符输入,必须将字符替换成对应的向量,再输入到神经网络模型中进行推理。在本实施例中,通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引。具体来说,通过所述设置后的bilstm获取待识别语句的字向量,将得到的字向量输入所述设置后的crf模型,可以确保能够得到所述待识别语句的分词标签。在本实施例中,所述设置后的crf模型先获得分词标签索引,然后从分词标签索引表中查找与分词标签索引对应的分词标签。

需要说明的是,分词时,字的标签有5种:“u”,“s”,“b”,“m”,“e”,它们的索引分别是0,1,2,3,4。“u”代表无意义的标签,“s”代表这个字独自成词,“b”代表这个字在这个词中作为开头的字,“m”代表这个字在这个词中作为中间位置的字,“e”代表这个字在这个词中作为结尾处的字。分词的训练数据中都是字的索引,从原始文本中取每一行的前80个字,不足80个字的用0补齐。80个字索引后面跟着80个字标签索引。这些数字统一由空格隔开,每一行训练数据是160个数字。请参阅图5,图5为训练数据的示例。

此外,训练数据还可以转换为可读类型的训练数据,可读类型的数据是每个字后面跟着它对应的标签,字与字之间以空格隔开,便于用户阅读。训练数据可读类型示例请参阅图6。

步骤s103,根据所述生成的字标签索引与所述训练数据的字标签索引的对比结果,调整所述分词模型的权重参数,得到优化后的分词模型。

在本实施例中,由于充分整合了上下文信息,从而分词准确度较高,能达到比较好的分词效果。

在本实施例中,通过所述分词模型接收训练数据,训练迭代n次,设置学习率设为m,每l次在验证集上做一次实验,计算准确率,当计算得到的准确率达到预设要求时,终止训练,得到训练后的命名实体识别模型,其中,n为正整数,n在100万到1000万之间,m一般取值在0.001到0.00001之间,l根据验证集大小而定,可以取l为n的二十分之一或者十分之一。

举例来说,通过所述分词模型接收训练数据,训练迭代100万次,学习率设为0.001,每5万次在验证集上做一次实验,计算准确率。模型效果超过10次未有提升,则终止训练。

步骤s104,通过所述优化后的分词模型对待识别中文文本进行分词处理。

可选的,请参阅图7,所述步骤s104包括以下过程:

步骤s1041,根据所述字典将所述中文文本转换成索引文本;

步骤s1042,根据所述字向量表,将所述索引文本转换为字向量文本,并将所述字向量文本输入所述优化后的分词模型,通过所述优化后的分词模型得到每个索引对应的分词标签索引;

步骤s1043,从预先获取的词标签列表中查找所述分词标签索引对应的分词标签,其中,所述词标签列表包括分词标签索引及与所述分词标签索引对应的分词标签;

步骤s1044,根据所述分词标签得到词边界,根据所述词边界确定所述中文文本的分词结果。

请参阅图8,图8所示为分词结果示意图。从分词结果可以看出分词效果非常好,“英菲尼迪”、“广州国际汽车展览会”、“涡轮增压”这样的难度高的词都能准确分词,分词准确度较高,具有很好的分词效果。此外,通过增加训练数据,同时采用特征表示更为准确的词向量、字向量可以进一步提高分词的准确度。

可选的,在步骤s1044之后,还可以包括以下步骤:

根据所述分词结果与所述字典中包含的字符确定目标字符,所述目标字符为出现在所述分词结果中、且未出现在所述字典中的字符;将所述目标字符及对应的索引更新到所述字典中;

根据所述分词结果与预先获取的词典中包含的词语确定目标词语,所述目标词语为出现在所述分词结果中、且未出现在所述词典中的词语;将所述目标词语及对应的索引更新到所述词典中。

请参阅图9,图9为词典局部示例,词典可以从互联网下载,也可以根据语料库进行构建。请参阅图9,图9为词典局部示例图,词典中频次为1以下的字以及将来测试语料中的生词(在构建词典中不存在的词)都以一个符号“<unk>”表示,它们的共同索引为词典中频数大于1的词的总数加1。词典中的词的索引和词向量表中的词的索引保持一致。

在本实施例中,词向量表由网络上几十gb的文本大数据结合神经网络语言模型训练而来,每个词的向量表示都是非常准确的,含有极为丰富的内在信息。词向量表中字的索引和词典中同一词的索引一致。例如,图9中字典局部示例“医院”词的索引为187,则词向量表中词“医院”字的索引也为187。

这样,可以及时对字典、词典进行更新,便于字典、词典的完善。

本发明提供的一种基于bilstm网络模型及crf模型的分词方法,通过所述设置后的bilstm获取待识别语句的字向量,每个字向量综合了上下文信息的向量表示,提高字向量的准确度,从而在将所述待识别语句的字向量输入所述设置后的crf模型,得到所述待识别语句的分词标签更加准确;基于准确度较高的分词标签能够得到准确度更高的分词结果;进而根据交准确的分词能更加准确地调整分词模型的权重参数,得到较好的优化后的分词模型;通过所述优化后的分词模型对待识别中文文本进行分词处理,能够得到更加准确的分词结果,减少人力成本,提高分词准确率。

图10示出了本发明实施例提供的一种基于bilstm网络模型及crf模型的分词装置100的结构示意图,为了便于说明,仅示出了于本发明实施相关的部分。该基于bilstm网络模型及crf模型的分词装置100包括:

设置模块101,用于设置bilstm网络模型的神经元数量、字向量的维度、待识别语句长度,设置crf模型的分词标签,基于所述设置后的bilstm网络模型及crf模型构建分词模型。

双向长短时记忆(bidirectionallongshort-termmemory,bilstm)网络模型可以整合字的上下文信息,针对每个字得到包含上下文信息的字向量。条件随机场(conditionalrandomfield,crf)模型它是随机场的一种,是一种判别式模型。crf模型常用来标注、分析序列资料。

请再次参阅图2,分词模型包括字嵌入、bilstm编码器及crf层,l序列代表某个字词和其上文信息的向量表示,r序列则代表某个字词的下文信息的向量表示,c序列代表综合了上下文信息的某个字词的新的综合字向量表示。在图2中,l1代表字“张”和其上文信息的向量表示,l2代表字“三”和其上文信息的向量表示,l3代表字“吃”和其上文信息的向量表示,l4代表字“饭”和其上文信息的向量表示。r1代表字“张”和其下文信息的向量表示,r2代表字“三”和其下文信息的向量表示,r3代表字“吃”和其下文信息的向量表示,r4代表字“饭”和其下文信息的向量表示。c1代表字“张”和其上下文信息的综合向量表示,c2代表字“三”和其上下文信息的综合向量表示,c3代表字“吃”和其上下文信息的综合向量表示,c4代表字“饭”和其上下文信息的综合向量表示。

在本实施中,双向lstm的隐藏神经元数量可以设为160个,分词标签总共有8个,字向量可以设为300维,将待识别语句分段输入到神经网络中,每段长度固定可以为80个字,根据这些参数设置bilstm网络模型。

在本实施例中,分词标签包括8种:“ey”,“ot”,“bn”,“in”,“bl”,“il”,“bo”,“io”,分别设置相应的索引,索引分别是0,1,2,3,4,5,6,7。“ey”代表无意义的标签,“ot”代表这个词不属于命名实体,它属于其他类别,“bn”代表这个词作为人名类命名实体的起始词,“in”代表这个词作为人名类命名实体的部分词,“bl”代表这个词作为地名类命名实体的起始词,“il”代表这个词作为地名类命名实体的部分词,“bo”代表这个词作为组织机构类命名实体的起始词,“io”代表这个词作为组织机构类命名实体的部分词。

请参阅图11,所述基于bilstm网络模型及crf模型的分词装置还可以包括:

第一构建模块705,用于基于原始中文文本构建字典,其中,所述字典包括中文字符及其与中文字符对应的索引;

第二构建模块706,用于构建所述字向量表,所述字向量表包括所述字典中的索引及与所述索引对应字符的字向量;所述字典中字符的索引与所述字向量表的索引一一对应。

在拥有大量已标记的字的文本后,从标记文本中整理并统计出字典,即带索引的字表,其中每个字都有唯一的一个序号对应,每个字在这个字表中只出现一次。请再次参阅图4,图4中每一个中文字符对应一个索引,索引为连续排序的数字。在字典中频次为1的字以及将来测试语料中的生字,即字典中不存在的字,都以一个符号“<unk>”表示,它们的共同索引为字典中频数大于1的字的总数加1。

在本实施例中,字向量表由网络上几十gb的文本大数据结合神经网络语言模型训练而来,每个字的向量表示都是非常准确的,含有极为丰富的内在信息。字向量表中字的索引和字典中同一字的索引一致。例如,图4中字典局部示例“的”字的索引为2,则字向量表中字“的”字的索引也为2。

处理模块702,用于通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引。

可以理解的是,各类神经网络模型的输入必须是字向量,而不能是未经处理的字符输入,必须将字符替换成对应的向量,再输入到神经网络模型中进行推理。在本实施例中,处理模块702通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引。具体来说,通过所述设置后的bilstm获取待识别语句的字向量,将得到的字向量输入所述设置后的crf模型,可以确保能够得到所述待识别语句的分词标签。在本实施例中,所述设置后的crf模型先获得分词标签索引,然后从分词标签索引表中查找与分词标签索引对应的分词标签。

需要说明的是,分词时,字的标签有5种:“u”,“s”,“b”,“m”,“e”,它们的索引分别是0,1,2,3,4。“u”代表无意义的标签,“s”代表这个字独自成词,“b”代表这个字在这个词中作为开头的字,“m”代表这个字在这个词中作为中间位置的字,“e”代表这个字在这个词中作为结尾处的字。分词的训练数据中都是字的索引,从原始文本中取每一行的前80个字,不足80个字的用0补齐。80个字索引后面跟着80个字标签索引。这些数字统一由空格隔开,每一行训练数据是160个数字。请参阅图5,图5为训练数据的示例。

此外,训练数据还可以转换为可读类型的训练数据,可读类型的数据是每个字后面跟着它对应的标签,字与字之间以空格隔开,便于用户阅读。训练数据可读类型示例请参阅图6。

优化模块703,用于根据所述生成的字标签索引与所述训练数据的字标签索引的对比结果,调整所述分词模型的权重参数,得到优化后的分词模型。

在本实施例中,由于充分整合了上下文信息,从而分词准确度较高,能达到比较好的分词效果。

在本实施例中,通过所述分词模型接收训练数据,训练迭代n次,设置学习率设为m,每l次在验证集上做一次实验,计算准确率,当计算得到的准确率达到预设要求时,终止训练,得到训练后的命名实体识别模型,其中,n为正整数,其中,n为正整数,n在100万到1000万之间,m一般取值在0.001到0.00001之间,l根据验证集大小而定,可以取l为n的二十分之一或者十分之一。

举例来说,通过所述分词模型接收训练数据,训练迭代100万次,学习率设为0.001,每5万次在验证集上做一次实验,计算准确率。模型效果超过10次未有提升,则终止训练。

分词处理模块704,用于通过所述优化后的分词模型对待识别中文文本进行分词处理。

可选的,请参阅图12,所述分词处理模块704包括:

第一转换子模块7041,用于根据所述字典将所述中文文本转换成索引文本;

第二转换子模块7042,用于根据所述字向量表,将所述索引文本转换为字向量文本,并将所述字向量文本输入所述优化后的分词模型,通过所述优化后的分词模型得到每个索引对应的分词标签索引;

查找子模块7043,用于从预先获取的词标签列表中查找所述分词标签索引对应的分词标签,其中,所述词标签列表包括分词标签索引及与所述分词标签索引对应的分词标签;

确定子模块7044,用于根据所述分词标签得到词边界,根据所述词边界确定所述中文文本的分词结果。

请再次参阅图8,从分词结果可以看出分词效果非常好,“英菲尼迪”、“广州国际汽车展览会”、“涡轮增压”这样的难度高的词都能准确分词,分词准确度较高,具有很好的分词效果。此外,通过增加训练数据,同时采用特征表示更为准确的词向量、字向量可以进一步提高分词的准确度。

可选的,请参阅图13,所述基于bilstm网络模型及crf模型的分词装置还可以包括:

更新模块707,用于根据所述分词结果与所述字典中包含的字符确定目标字符,所述目标字符为出现在所述分词结果中、且未出现在所述字典中的字符;将所述目标字符及对应的索引更新到所述字典中;根据所述分词结果与预先获取的词典中包含的词语确定目标词语,所述目标词语为出现在所述分词结果中、且未出现在所述词典中的词语;将所述目标词语及对应的索引更新到所述词典中。

请再次参阅图9,词典可以从互联网下载,也可以根据语料库进行构建。请参阅图9,图9为词典局部示例图,词典中频次为1以下的字以及将来测试语料中的生词(在构建词典中不存在的词)都以一个符号“<unk>”表示,它们的共同索引为词典中频数大于1的词的总数加1。词典中的词的索引和词向量表中的词的索引保持一致。

在本实施例中,词向量表由网络上几十gb的文本大数据结合神经网络语言模型训练而来,每个词的向量表示都是非常准确的,含有极为丰富的内在信息。词向量表中字的索引和词典中同一词的索引一致。例如,图9中字典局部示例“医院”词的索引为187,则词向量表中词“医院”字的索引也为187。。

这样,可以及时对字典、词典进行更新,便于字典、词典的完善。

本发明提供的一种基于bilstm网络模型及crf模型的分词装置,通过所述设置后的bilstm获取待识别语句的字向量,每个字向量综合了上下文信息的向量表示,提高字向量的准确度,从而在将所述待识别语句的字向量输入所述设置后的crf模型,得到所述待识别语句的分词标签更加准确;基于准确度较高的分词标签能够得到准确度更高的分词结果;进而根据交准确的分词能更加准确地调整分词模型的权重参数,得到较好的优化后的分词模型;通过所述优化后的分词模型对待识别中文文本进行分词处理,能够得到更加准确的分词结果,减少人力成本,提高分词准确率。

本发明实施例提供一种计算机装置,该计算机装置包括处理器,处理器用于执行存储器中计算机程序时实现上述各个方法实施例提供的一种基于bilstm网络模型及crf模型的分词方法的步骤。

示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。例如,计算机程序可以被分割成上述各个方法实施例提供的一种基于bilstm网络模型及crf模型的分词方法的步骤。

本领域技术人员可以理解,上述计算机装置的描述仅仅是示例,并不构成对计算机装置的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机存储介质中,该计算机程序在被处理器执行时,可实现上述各个一种基于bilstm网络模型及crf模型的分词方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信号以及软件分发介质等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1