文本模型训练方法、文本纠错方法、电子设备及存储介质与流程

文档序号:20919644发布日期:2020-05-29 13:58阅读:148来源:国知局
文本模型训练方法、文本纠错方法、电子设备及存储介质与流程

本发明实施例涉及深度学习领域,特别涉及文本模型训练方法、文本纠错方法、电子设备及存储介质。



背景技术:

目前,随着各自社交网站的发展,语音对话在社交软件中在不断普及。为了使得接收语音方在不方便接收语音时,也能及时接收到对方发送的内容,因此语音对话也开始出现转文字的功能。但是由于语音对话较为口语化,在转文字过程中,容易出现错误句子,最终会导致接收方不明确对方的意图。因此现有技术中为了实现文本纠错的功能,主要是通过利用基于规则的模型或基于统计的模型生成针对待纠正文本的多个候选文本,利用评分函数或者分类器对多个候选文本进行排序,从多个候选文本中筛选出最合理的文本。

发明人发现现有技术中至少存在如下问题:基于规则的模型或者基于统计的模型进行文本纠错过程中,文本纠错的准确率较低,文本纠错效果并不能满足现阶段用户对文本纠错功能的需求。



技术实现要素:

本发明实施方式的目的在于提供一种文本模型训练方法、文本纠错方法、电子设备及存储介质,使得提高了文本纠错的准确率。

为解决上述技术问题,本发明的实施方式提供了一种文本模型训练方法,包括以下步骤:获取多个文本样本,其中,所述文本样本包括错误文本、所述错误文本对应的正确文本,所述错误文本由语音会话进行文本转换得到的;根据预设的热词表对多个所述文本样本进行分词;根据预设的词典对分词后的多个所述文本样本进行编码,得到多个训练样本,其中,所述训练样本包括模型训练时作为输入的所述错误文本的编码、以及作为输出的所述正确文本的编码;将多个所述训练样本输入至文本深度神经网络中进行训练,得到目标文本模型。

本发明的实施方式还提供了一种文本纠错方法,包括:获取待纠错文本,其中,所述待纠错文本是由语音会话进行文本转换得到的;根据预设的热词表对所述待纠错文本进行分词;根据预设的词典对分词后的所述待纠错文本进行编码,得到所述待纠错文本的编码;将所述编码输入至所述目标文本模型中,得到纠错后文本的编码;根据所述预设的词典对所述纠错后文本进行解码,得到所述纠错后文本。

本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的文本模型训练方法,或者执行上述的文本纠错方法。

本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本分析方法,或者实现上述的文本纠错方法。

本发明实施方式相对于现有技术而言,将语音对话进行文本转换,得到错误文本,对错误文本进行纠错,得到正确文本,根据热词表对错误文本以及正确文本进行分词;之后对分词后的文本样本进行编码得到的文本训练样本,将文本输入样本输入至深度神经网络中进行训练,得到目标文本模型。相对于现有技术基于规则的模型或者基于统计的模型进行文本纠错而言,分词精确度更高,提高了模型训练得到的目标文本模型的纠错准确率。另外,由于现有技术中在进行文本纠错之前,需要进行人工标注工作,即需要对大量的语句进行拼音、词性等进行标注,以使得在具体文本纠错过程中对待纠错句子进行标注,浪费了大量人工标准的成本;而基于建立的目标文本模型进行纠错,在纠错过程中仅需输入错误句子即可得到正确句子,减少了纠错过程中的工作量以及成本。

另外,所述热词表的数量为多个,多个所述热词表分别对应于多种会话角色;所述根据预设的热词表对多个所述文本样本进行分词,包括:获取每个所述文本样本所属的会话角色;根据所述文本样本所属的会话角色对应的热词表对所述文本样本进行分词,得到多个字符。通过将多个热词表根据不同的角色进行划分,使得在分词过程中,可以根据角色来确定目标热词表,进一步提高分词的准确率,从而提高目标文本模型的纠错准确率。

另外,在所述根据所述目标热词表对所述多个文本样本进行分词,得到多个字符之后,还包括:若属于同一种会话角色的若干个所述文本样本被划分得到的多个字符中,存在满足预设条件的字符,将所述满足预设条件的字符加入所述会话角色对应的热词表中;其中,所述预设条件包括,所述会话角色对应的热词表中不包含所述字符,且所述字符在若干个所述文本样本中出现的次数大于预设次数。通过加入目标热词表未预存且出现次数超过预设值的字符,扩大热词表的热词,使得在纠错过程中,分词效果更佳,进一步提高纠错的准确率。

另外,所述根据预设的词典对多个分词后的所述文本样本进行编码,得到多个训练样本之后,还包括:将多个所述训练样本的向量长度进行变换,其中,多个所述训练样本变换后的向量长度相同。通过将训练样本设置统一的向量长度,简化目标文本模型构建的过程。

另外,所述文本深度神经网络为双向循环神经网络。通过利用双向循环神经网络,在构建目标文本模型过程中,可以联系前后文得到目标文本模型,从而使得在文本纠错过程中,目标文本模型可以联系错误句子的上下文进行纠错,从而提高目标文本模型纠错的准确率。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。

图1是根据本发明第一实施方式一种文本模型训练方法的流程示意图;

图2是根据本发明第二实施方式一种文本纠错方法的流程示意图;

图3是根据本发明第三实施方式一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种文本模型训练方法。本实施方式中,获取多个文本样本,其中,文本样本包括错误文本、错误文本对应的正确文本,错误文本是通过对语音对话进行文本转换得到的;根据预设的热词表对多个文本样本进行分词;根据预设的词典对多个分词后的文本样本进行编码,得到多个训练样本,其中,训练样本包括错误文本的编码、正确文本的编码;将多个训练样本输入至文本深度神经网络中进行训练,得到目标文本模型。

本实施方式中的文本模型训练方法如图1所示,具体包括以下步骤:

步骤101,获取多个文本样本。

具体地说,每个文本样本包括错误文本、错误文本对应的正确文本,错误文本由语音会话进行文本转换得到的。

在实际应用中,获取多个语音样本,通过语音识别系统将语音转换为文字,由于在语言转文字过程中,容易出现错误,因此对转换错误的文本先进行纠错,得到与错误文本对应的正确文本,将错误文本与正确文本作为一对文本样本,为后续模型训练提高充分的样本。

步骤102,根据预设的热词表对多个文本样本进行分词。

具体地说,预设的热词表在训练目标文本模型之前,收集各行业中各类角色经常使用的热词,然后将收集的热词整理为热词表,通过热词表对上述的文本样本进行分词,将文本样本按照热词表中的热词划分为多个字符,为后续目标文本模型的训练提高良好的分词基础。例如,对于一个句子“我爱中华人民共和国”,其中,“中华人民共和国”这个热词已添加到热词表中,对该句子进行分词之后的结果是“我”、“爱”、“中华人民共和国”。

在一个例子中,为了提高分词效果,提高的热词表的数量为多个,且多个热词表是根据不同的角色建立的,即一类角色对应一个热词表,例如客服角色对应有客服热词表。

在一个例子中,由于文本样本中的错误句子是通过语言转换得到的,语音中包含了会话角色信息,例如,客服的语音会话出现“您好,很高兴为您服务”,属于客服会话角色。因此,在根据预设的热词表对多个文本样本进行分词时,包括:获取每个文本样本所属的会话角色;根据文本样本所属的会话角色对应的热词表对文本样本进行分词,得到多个字符。通过将多个热词表根据不同的会话角色进行划分,使得在分词过程中,可以根据角色来确定目标热词表,进一步提高分词的准确率,从而提高目标文本模型的纠错准确率。

步骤103,根据预设的词典对多个分词后的文本样本进行编码,得到多个训练样本。

具体地说,文本样本包括错误文本与正确文本,预设的词典中存储有大量字符,每个字符对应一个单独的索引,根据预设的词典对错误文本与正确文本进行编码,即在预设的词典中查找分词后的文本样本每个字符对应的索引,之后将每个字符的索引进行组合,得到错误文本的编码与正确文本的编码。例如,上述对“我爱中华人民共和国”进行分词之后,预设的词典中查找“我”、“爱”、“中华人民共和国”这三个词在的索引,如找到的索引为102、34、90,则将该句子编码为[102,34,90],完成对句子的编码。之后,将该错误文本编码作为模型训练时的输入,正确文本作为模型训练时的输出进行模型训练,即训练样本包括模型训练时作为输入的错误文本的编码、以及作为输出的正确文本的编码为后续目标文本模型的训练提供训练样本。

在一个例子中,为了扩大热词表的热词,提高目标文本模型纠错的准确率,因此,在根据目标热词表对多个文本样本进行分词,得到多个字符之后,还包括:若属于同一种会话角色的若干个所述文本样本被划分得到的多个字符中,存在满足预设条件的字符,将所述满足预设条件的字符加入所述会话角色对应的热词表中;其中,所述预设条件包括,所述会话角色对应的热词表中不包含所述字符,且所述字符在若干个所述文本样本中出现的次数大于预设次数。通过加入目标热词表未预存且出现次数超过预设值的字符,扩大热词表的热词,使得在纠错过程中,分词效果更佳,进一步提高纠错的准确率。

在一个例子中,根据预设的词典对多个分词后的文本样本进行编码,得到多个训练样本之后,还包括:将多个训练样本的向量长度进行变换,其中,多个训练样本变换后的向量长度相同。通过将训练样本设置统一的向量长度,简化目标文本模型构建的过程。

步骤104,将多个训练样本输入至文本深度神经网络中进行训练,得到目标文本模型。

具体地说,训练样本包括错误文本编码与正确文本编码,将错误文本编码作为输入,正确文本编码作为输出进行在文本深度神经网络进行模型训练。通过将多个文本训练模型输入至文本深度神经网络中不断地进行训练,使得文本深度神经网络的网络参数不断得到完善,最终得到目标文本模型,用于对错误句子进行纠错。

在一个例子中,上述文本深度神经网络为双向循环神经网络。通过利用双向循环神经网络(brnn,bidirectionalrnn),在构建目标文本模型过程中,可以联系前后文得到目标文本模型,从而使得在文本纠错过程中,目标文本模型可以联系错误句子的上下文进行纠错,从而提高目标文本模型纠错的准确率。

本实施方式中,通过将语音对话进行文本转换,得到错误文本,对错误文本进行纠错,得到正确文本,根据热词表对错误文本以及正确文本进行分词;之后对分词后的文本样本进行编码得到的文本训练样本,将文本输入样本输入至深度神经网络中进行训练,得到目标文本模型。相对于现有技术而言,提高了分词效果,分词精确度更高,进一步提高了模型训练得到的目标文本模型的纠错准确率。另外,基于建立的目标文本模型进行纠错,在纠错过程中仅需输入错误句子即可得到正确句子,减少了纠错过程中的工作量以及成本。

本发明的第二实施方式涉及一种文本纠错方法,应用于上述的文本模型训练方法得到的目标文本模型。

本实施方式的文本纠错方法如图2所示,具体包括以下步骤:

步骤201,获取待纠错文本。

具体地说,待纠错文本是由语音会话进行文本转换得到的。由于语言转文字过程中,容易出现文字错误,因此,将语言转换的文本进行错误纠错,提高用户的体验。

在一个例子中,获取待纠错文本之后,包括:对待纠错文本进行错误检测;并在判断待纠错文本为错误文本时,根据预设的热词表对待纠错文本进行分词。通过上述可知,待纠错文本为语言转换得到的,待纠错文本可能是错误文本,也可能是正确文本,因此,在将带纠错文本输入至目标文本模型中之前,利用lstm(longshort-termmemory,长短时记忆模型)对待纠错文本进行错误检测,从而判断待纠错文本的合理度。例如,语言转换的文字为“我非常喜欢七苹果”,通过lstm模型判断为错误文本。由于lstm模型在模型训练过程中,需要的文本样本较少,对文本样本的数目要求并不高,因此,将lstm模型作为预先检测待纠错模型是否为错误文本的模型。当待纠错文本的合理度较低时,即为错误文本,需要对待纠错文本进行纠错,从而避免对正确文本进行纠错。

步骤202,根据预设的热词表对待纠错文本进行分词。

具体地说,预设的热词表包含不同行业的热词,根据热词将待纠错文本划分为多个字符。例如,上述的例子,根据热词表将其划分为“我”、“非常”、“喜欢”、“七”、“苹果”。

在一个例子中,热词表的数量为多个,多个热词表分别对应于多种会话角色;根据预设的热词表对待纠错文本进行分词,包括:获取待纠错文本所属的会话角色;根据待纠错文本所属的会话角色对应的热词表对待纠错文本进行分词。由于待纠错文本是通过语言转换得到的,且语音中包含了会话角色信息,因此,根据不同的角色设置不同的热词表,使得在纠错过程中,可以根据会话角色确定角色对应的热词表,例如,待纠错文本中,包含客服角色的信息,因此,在多个热词表中,查找客服角色的热词表。通过将多个热词表根据不同的角色进行划分,进一步提高分词的准确率,从而提高目标文本模型的纠错准确率。

步骤203,根据预设的词典对分词后的待纠错文本进行编码,得到待纠错文本的编码。

具体地说,预设的词典中包含字符对应的索引,且一个字符对应一个索引,因此,通过词典对待纠错文本进行编码,即根据预设的词典查找待纠错文本中每个字符对应的索引,将该索引进行组合,得到待纠错文本的编码。例如,上述的待纠错文本分词之后的“我”、“非常”、“喜欢”、“七”、“苹果”这五个字符,在预设的词典中查找每个字符对应的索引102、53、33、7、191,将其组合形成待纠错文本的编码[102,53,33,7,191],完成对待纠错文本的编码。

步骤204,将编码输入至目标文本模型中,得到纠错后文本的编码;

具体地说,将上述编码[102,53,33,7,191]输入至目标文本模型中进行纠错,从而使得目标文本模型输出的为纠错后文本的编码[102,53,33,3,191]。

步骤205,根据预设的词典对纠错后文本进行解码,得到纠错后文本。

具体地说,得到纠错后文本的编码[102,53,33,3,191]之后,根据同一词典对纠错后文本的编码进行解码,得到纠错后文本“我非常喜欢吃苹果”。

本实施方式中,通过使用上述文本训练方法得到的目标文本模型,提高了对待纠错文本的纠错准确率。另外,在进行文本纠错之前,通过热词表对待纠错文本进行分词,使得分词效果更好,更进一步提高了纠错的准确率。

上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种电子设备,如图3所示,包括:至少一个处理器301;以及,与至少一个处理器301通信连接的存储器302;其中,存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够执行上述的文本模型训练方法,或者执行上述的文本纠错方法。

其中,存储器302和处理器301采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器301。

处理器301负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储处理器301在执行操作时所使用的数据。

本发明第四实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1