文本处理方法和装置、用于文本处理的装置与流程

文档序号：11776309阅读：291来源：国知局

本发明涉及语音识别技术领域，特别是涉及一种文本处理方法和装置、以及一种用于文本处理的装置。

背景技术：

随着语音识别技术的不断发展，基于语音识别的应用也越来越广泛。语音识别技术已经渗透入家庭生活、办公领域、娱乐等应用场景。目前，用户可以通过例如个人计算机、笔记本电脑、平板电脑、专用的学习终端、智能手机的智能终端上外接或内置的麦克风来输入语音信号(例如，朗读一句话)，经由语音识别引擎完成语音识别也即语音信号到文本的转换，并向用户提供对应的语音识别结果。

然而，在实际应用中，讲话用户的口头禅、结巴语等因素容易影响语音识别结果的流畅性，进而影响用户的使用体验。例如，语音识别结果“今天这个天气很不错啊”中包括讲话用户的口头禅“这个”；又如，语音识别结果“今今天天气不错”中包括讲话用户的结巴语“今”，这使得语音识别结果的流畅性较差。

技术实现要素：

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的文本处理方法、文本处理装置、用于文本处理的装置，本发明实施例可以通过目标字符的过滤提高语音识别结果的流畅性，并且，可以有效避免由于从所述源文本中过滤掉目标字符而导致语言质量下降的情况，进而可以提高语音信号对应的语音识别结果的质量。

为了解决上述问题，本发明公开了一种文本处理方法，包括：

从语音信号对应的源文本中获取符合预置过滤条件的目标字符；

对所述源文本的语言模型得分与目标文本的语言模型得分进行比较；所述目标文本为从所述源文本中过滤掉目标字符后得到的文本；

在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。

可选地，所述从语音信号对应的源文本中获取符合预置过滤条件的目标字符，包括：

从语音信号对应的源文本中获取与预置词典中预置过滤字符相匹配的字符，作为目标字符。

可选地，所述预置过滤字符包括：口头禅字符和/或话语标记字符和/或语气字符。

可选地，所述从语音信号对应的源文本中获取符合预置过滤条件的目标字符，包括：

对语音信号对应的源文本进行分词，以得到所述源文本包括的词汇；

判断所述源文本包括的相邻词汇是否符合预置的结巴语识别规则，若是，则将相邻词汇中在前的词汇作为目标字符。

可选地，所述预置的结巴语识别规则包括：

相邻词汇中在前的词汇与在后的词汇相同，或者，相邻词汇中在前的词汇为在后的词汇的前缀；或者

相邻词汇中在前的词汇的发音与在后的词汇的发音相同，或者，相邻词汇中在前的词汇的发音与在后的词汇的前缀的发音相同。

可选地，所述从语音信号对应的源文本中获取符合预置过滤条件的目标字符，包括：

确定源文本对应的句子成分；

判断所述源文本包含的相同的句子成分是否符合预置的自我纠正规则，若是，则将相同的句子成分中在前的句子成分对应的字符作为目标字符。

可选地，所述方法还包括：

在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，从所述目标文本中获取符合预置过滤条件的第一字符；

对所述目标文本的语言模型得分与第一文本的语言模型得分进行比较；所述第一文本为从所述目标文本中过滤掉第一字符后得到的文本；

在所述第一文本的语言模型得分不低于所述目标文本的语言模型得分时，将所述第一文本作为所述语音信号对应的语音识别结果输出；或者，在所述第一文本的语言模型得分低于所述目标文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。

另一方面，本发明公开了一种文本处理装置，包括：

目标字符获取模块，用于从语音信号对应的源文本中获取符合预置过滤条件的目标字符；

比较模块，用于对所述源文本的语言模型得分与目标文本的语言模型得分进行比较；所述目标文本为从所述源文本中过滤掉目标字符后得到的文本；及

输出模块，用于在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。

可选地，所述目标字符获取模块包括：

第一目标字符获取子模块，用于从语音信号对应的源文本中获取与预置词典中预置过滤字符相匹配的字符，作为目标字符。

可选地，所述预置过滤字符包括：口头禅字符和/或话语标记字符和/或语气字符。

可选地，所述目标字符获取模块包括：

分词子模块，用于对语音信号对应的源文本进行分词，以得到所述源文本包括的词汇；

第一判断子模块，用于判断所述源文本包括的相邻词汇是否符合预置的结巴语识别规则，若是，则将相邻词汇中在前的词汇作为目标字符。

可选地，所述预置的结巴语识别规则包括：

相邻词汇中在前的词汇与在后的词汇相同，或者，相邻词汇中在前的词汇为在后的词汇的前缀；或者

相邻词汇中在前的词汇的发音与在后的词汇的发音相同，或者，相邻词汇中在前的词汇的发音与在后的词汇的前缀的发音相同。

可选地，所述目标字符获取模块包括：

句子成分确定子模块，用于确定源文本对应的句子成分；

第二判断子模块，用于判断所述源文本包含的相同的句子成分是否符合预置的自我纠正规则，若是，则将相同的句子成分中在前的句子成分对应的字符作为目标字符。

可选地，所述装置还包括：

第一字符获取模块，用于在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，从所述目标文本中获取符合预置过滤条件的第一字符；

得分比较模块，用于对所述目标文本的语言模型得分与第一文本的语言模型得分进行比较；所述第一文本为从所述目标文本中过滤掉第一字符后得到的文本；

结果输出模块，用于在所述第一文本的语言模型得分不低于所述目标文本的语言模型得分时，将所述第一文本作为所述语音信号对应的语音识别结果输出；或者，在所述第一文本的语言模型得分低于所述目标文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。

再一方面，本发明公开了一种用于文本处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上文本处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

从语音信号对应的源文本中获取符合预置过滤条件的目标字符；

对所述源文本的语言模型得分与目标文本的语言模型得分进行比较；所述目标文本为从所述源文本中过滤掉目标字符后得到的文本；

在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。

又一方面，本发明公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的文本处理方法。

本发明实施例包括以下优点：

本发明实施例的目标文本可以为从所述源文本中过滤掉目标字符后得到的文本，该目标文本可以不带有例如口头禅字符的多余字符，故将目标文本作为语音识别结果，可以提高语音识别结果的流畅性。

并且，本发明实施例在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出；由于语言模型是根据语言客观事实而进行的语言抽象数学建模，语言模型得分可以反映文本(包括源文本或者目标文本)对应的语言质量，因此本发明实施例可以有效避免由于从所述源文本中过滤掉目标字符而导致语言质量下降的情况，进而可以提高语音信号对应的语音识别结果的质量。在应用于语音翻译的场景时，本发明实施例还可以提高机器翻译的质量。

附图说明

图1是本发明的一种语音识别系统的示例性结构示意图；

图2是本发明的一种文本处理方法实施例的步骤流程图；

图3是本发明的一种文本处理装置实施例的结构框图；

图4是根据一示例性实施例示出的一种用于文本处理的装置作为终端时的框图；及

图5是根据一示例性实施例示出的一种用于文本处理的装置作为服务器时的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种文本处理方案，该方案可以从语音信号对应的源文本中获取符合预置过滤条件的目标字符；对所述源文本的语言模型得分与目标文本的语言模型得分进行比较；所述目标文本为从所述源文本中过滤掉目标字符后得到的文本；在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。

本发明实施例中，预置过滤条件可用于约束源文本中需要过滤的字符，也即，若源文本中字符符合预置过滤条件则可作为需要过滤的字符。在实际应用中，符合预置过滤条件的字符可以为源文本中的多余字符，符合预置过滤条件的字符的例子可以包括：口头禅字符、话语标记字符、结巴字符、语气字符等，可以理解，本发明实施例对于具体的预置过滤条件、以及符合预置过滤条件的字符的具体类型不加以限制。本发明实施例从所述源文本中过滤掉目标字符后得到目标文本，由于该目标文本可以不带有例如口头禅字符的多余字符，故可以提高语音识别结果的流畅性。

并且，本发明实施例可以对所述源文本的语言模型得分与目标文本的语言模型得分进行比较，并在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出；由于语言模型是根据语言客观事实而进行的语言抽象数学建模，语言模型得分可以反映文本(包括源文本或者目标文本)对应的语言质量，因此本发明实施例可以有效避免由于从所述源文本中过滤掉目标字符而导致语言质量下降的情况，进而可以提高语音信号对应的语音识别结果的质量。

本发明实施例可以应用于语音输入、人工智能、语音翻译等任意的需要语音识别的场景中。

参照图1，示出了本发明的一种语音识别系统的示例性结构示意图，其具体可以包括：语音识别装置101和文本处理装置102。其中，语音识别装置101和文本处理装置102可以作为单独的服务器，此种情况下，二者可以基于网络通信；或者，语音识别装置101和文本处理装置102可以共同设置于同一个服务器中，此种情况下，二者可以基于进程通信；可以理解，本发明实施例对于语音识别装置101和文本处理装置102的具体设置方式不加以限制。

其中，语音识别装置101可用于将语音信号转换为文本信息，具体地，语音识别装置101可以输出源文本。在实际应用中，语音信号可由讲话用户发出，该讲话用户可以为上述需要语音识别的场景中讲话并发出语音信号的用户，则可以通过麦克风或其他语音采集器件接收语音信号，并向语音识别装置101发送所接收的语音信号；或者，该语音识别装置101可以具有接收语音信号的功能。

可选地，语音识别装置101可以采用语音识别技术将语音信号转换为文本信息。如果将用户语音信号记作s，对s进行一系列文本处理后得到与之相对应的语音特征序列o，记作o＝{o1，o2，…，oi，…，ot}，其中oi是第i个语音特征，t为语音特征总个数。语音信号s对应的句子可看作是由许多词组成的一个词串，记作w＝{w1，w2，…，wn}。语音识别的过程就是根据已知的语音特征序列o，求出最可能的词串w，其中，i、t、n为正整数。

具体来说，语音识别是一个模型匹配的过程，在这个过程中，可以首先根据人的语音特点建立语音模型，通过对输入的语音信号的分析，抽取所需的特征，来建立语音识别所需的模板；对用户所输入语音进行识别的过程即是将用户所输入语音的特征与所述模板比较的过程，最后确定与所述用户所输入语音匹配的最佳模板，从而获得语音识别的结果。具体的语音识别算法，可采用基于统计的隐含马尔可夫模型的训练和识别算法，也可采用基于神经网络的训练和识别算法、基于动态时间归整匹配的识别算法等等其他算法，本发明实施例对于具体的语音识别过程不加以限制。

在实际应用中，讲话用户的口头禅、结巴语等因素容易影响语音识别结果的流畅性。例如，语音识别结果“今天这个天气很不错啊”、“今今天天气不错”等包括讲话用户的口头禅、结巴语，故流畅性较差。

针对上述语音识别结果的流畅性较差的问题，文本处理装置102可以从语音识别装置101接收语音信号对应的源文本，从该源文本中获取符合预置过滤条件的目标字符；对所述源文本的语言模型得分与目标文本的语言模型得分进行比较；所述目标文本为从所述源文本中过滤掉目标字符后得到的文本；在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。由于目标文本可以为从所述源文本中过滤掉目标字符后得到的文本，该目标文本可以不带有例如口头禅字符的多余字符，故可以提高语音识别结果的流畅性。并且，本发明实施例在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出；由于语言模型是根据语言客观事实而进行的语言抽象数学建模，语言模型得分可以反映文本(包括源文本或者目标文本)对应的语言质量，因此本发明实施例可以有效避免由于从所述源文本中过滤掉目标字符而导致语言质量下降的情况，进而可以提高语音信号对应的语音识别结果的质量。

方法实施例

参照图2，示出了本发明的一种文本处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201、从语音信号对应的源文本中获取符合预置过滤条件的目标字符；

步骤202、对所述源文本的语言模型得分与目标文本的语言模型得分进行比较；所述目标文本可以为从所述源文本中过滤掉目标字符后得到的文本；

步骤203、在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。

本发明实施例提供的文本处理方法可应用于装置(如用于文本处理的装置)的应用环境中。可选地，上述装置可以包括：终端或服务器。其中，上述终端可以包括但不限于：智能手机、平板电脑、膝上型便携计算机、车载电脑、台式计算机、智能电视机、可穿戴设备等等。上述服务器可以为云服务器或者普通服务器。可以理解，本发明实施例对文本处理方法对应的具体应用环境不加以限制。

在实际应用中，本发明实施例的装置可以从其他装置获取语音信号对应的源文本。或者，本发明实施例的装置可以通过客户端应用执行本发明实施例的文本处理方法流程，客户端应用可以运行在装置上，例如，该客户端应用可以为终端上运行的任意app(应用程序，application)，该客户端应用可以从装置的其他应用获取语音信号对应的源文本。或者，本发明实施例的装置可以通过客户端应用的功能装置执行本发明实施例的文本处理方法流程，该功能装置可以从客户端应用的其他功能装置获取语音信号对应的源文本。可以理解，本发明实施例对于步骤201获取语音信号对应的源文本的具体方式不加以限制。

在实际应用中，可以将语音信号对应的源文本写入缓存区，从该缓存区读取源文本，通过步骤201、步骤202和步骤203对读取的源文本进行处理，并将所述目标文本作为所述语音信号对应的语音识别结果输出。可选地，可以在装置的内存区建立例如队列、数组、或者链表的数据结构作为上述缓存区，本发明实施例对于具体的缓存区不加以限制。上述采用缓存区存储源文本的方式能够提高源文本的处理效率，可以理解，采用磁盘存储源文本的方式也是可行的，本发明实施例对于源文本的具体存储方式不加以限制。

本发明实施例中，预置过滤条件可用于约束源文本中需要过滤的目标字符，也即，若源文本中字符符合预置过滤条件则可作为需要过滤的目标字符。在实际应用中，符合预置过滤条件的目标字符可以为源文本中的多余字符，符合预置过滤条件的目标字符的例子可以包括：口头禅字符、话语标记字符、结巴字符、语气字符等。可以理解，本发明实施例对于符合预置过滤条件的目标字符的具体类型不加以限制

在实际应用中，本领域技术人员可以根据实际应用需求，确定所需的预置过滤条件，进而可以从语音信号对应的源文本中获取符合预置过滤条件的目标字符。本发明实施例可以提供从语音信号对应的源文本中获取符合预置过滤条件的目标字符的如下获取方案：

获取方案1

获取方案1可以从语音信号对应的源文本中获取与预置词典中预置过滤字符相匹配的字符，作为目标字符。相应地，上述预置过滤条件可以为：源文本包括的字符与预置词典中预置过滤字符相匹配。

在实际应用中，本领域技术人员可以根据实际应用需求，获取预置过滤字符，并将收集得到的预置过滤字符保存至预置词典。可选地，预置过滤字符的例子可以包括：口头禅字符和/或话语标记字符和/或语气字符等。

作为一种应用示例，可由用户预置上述预置过滤字符，具体地，可以向用户提供设置接口，并通过该设置接口接收用户提交的预置过滤字符，这样，可以使用户根据自身的个性化习惯预置得到上述预置过滤字符，由此可以使得基于预置词典得到的目标字符和基于目标字符得到的目标文本更加符合用户的个性化习惯。

当然，由用户预置上述预置过滤字符的方式只是作为应用示例，实际上，还可以获取语料，该语料可以为与多余字符相关的语料，例如，可以从互联网抓取该语料，或者，可以从词典中获取该语料等；进一步，可以对该语料进行分析，以得到上述预置过滤字符。

获取方案2

获取方案2中，上述从语音信号对应的源文本中获取符合预置过滤条件的目标字符具体可以包括：对语音信号对应的源文本进行分词，以得到所述源文本包括的词汇；判断所述源文本包括的相邻词汇是否符合预置的结巴语识别规则，若是，则将相邻词汇中在前的词汇作为目标字符。相应地，上述预置过滤条件可以为：源文本包括的相邻词汇中的在前的词汇、且该相邻词汇符合预置的结巴语识别规则。

预置的结巴语识别规则可用于识别源文本包括的结巴字符。由于通常的结巴字符会存在字符重复的特点，如“今今天天气不错”、“你你你不会是是要吃吃吃吃吃了我我吧”等示例中的结巴字符均存在字符重复的特点。针对字符重复的特点，获取方案2可以针对相邻词汇预置对应的结巴语识别规则，并判断所述源文本包括的相邻词汇是否符合预置的结巴语识别规则，由此可以实现结巴字符的识别。

所谓分词，就是将文本切分成一个一个单独的词，是将连续的文本按照一定的规范重新组合成词序列的过程。以中文分词技术为例，分词技术的目标就是将文本切分为一个一个单独的中文词语。

本发明实施例中，对语音信号对应的源文本进行分词，可以采用的分词方法具体可以包括：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等，可以理解，本发明实施例对于对语音信号对应的源文本进行分词的具体过程不加以限制。在本发明的一种应用示例中，待处理文本为“你好我是小明很高兴认识你”，则其对应的词序列可以包括：“你好/我是/小明/很高兴/认识你”。

在本发明的一种可选实施例中，上述预置的结巴语识别规则具体可以包括：

相邻词汇中在前的词汇与在后的词汇相同，或者，相邻词汇中在前的词汇为在后的词汇的前缀；或者

相邻词汇中在前的词汇的发音与在后的词汇的发音相同，或者，相邻词汇中在前的词汇的发音与在后的词汇的前缀的发音相同。

其中，相邻词汇中在前的词汇的数量、在后的词汇的数量可以大于等于1。结巴字符重复的特点可以包括如下特点中的任一：

相邻词汇中在前的词汇与在后的词汇相同，如“你你你不会是是要吃吃吃吃吃了我我吧”包括相邻词汇“你/你/你”，其中，两个在前的词汇“你”与一个在后的词汇“你”相同；其中，“/”表示分词标记。

相邻词汇中在前的词汇为在后的词汇的前缀。例如，“今/今天/天气/不错”包括相邻词汇“今/今天”；其中，在前的词汇“今”为在后的词汇“今天”的前缀。又如，“今天/天/今天/天气/不错”包括相邻词汇“今天/天/今天/天气”，其中，在前的词汇“今天/天”为在后的词汇“今天/天气”的前缀。

在实际应用中，语音识别装置有可能将同一发音识别为不同的文本，故本发明实施例的结巴字符重复的特点可以包括：相邻词汇中在前的词汇的发音与在后的词汇的发音相同，或者，相邻词汇中在前的词汇的发音与在后的词汇的前缀的发音相同。例如，“喝盐/和/研发/相关”包括相邻词汇“喝盐/和/研发”，其中，在前的词汇“喝盐”为在后的词汇“和/研发”的前缀。

可以理解，本领域技术人员可以根据结巴字符重复的特点，采用所需的预置的结巴语识别规则，本发明实施例对于预置的结巴语识别规则不加以限制。

获取方案3

获取方案3中，上述从语音信号对应的源文本中获取符合预置过滤条件的目标字符具体可以包括：确定源文本对应的句子成分；判断所述源文本包含的相同的句子成分是否符合预置的自我纠正规则，若是，则将相同的句子成分中在前的句子成分对应的字符作为目标字符。

句子的组成成分叫句子成分，也叫句法成分。在句子中，词与词之间有一定的组合关系，按照不同的关系，可以把句子分为不同的组成成分。句子成分由词或词组充当。对于汉语而言，现代汉语里一般的句子成分有八种，即主语、谓语、宾语、动语、定语、状语、补语和中心语；对于英语而言，其句子的组成部分通常包括主语、谓语、宾语、表语、定语、状语、宾语补足语等；可以理解，本发明实施例还可以应用于日语、汉语、德语、俄语、意大利语等任意的语言，其他语言对应的句子成分相互参照即可。在实际应用中，可以利用句法分析工具确定源文本对应的句子成分，可以理解，本发明实施例对于源文本对应的句子成分的具体确定方式不加以限制。

在实际的讲话过程中，用户可能出现自我纠正的情况，该自我纠正的情况具体可以为：在讲话中出现错误的情况下进行自我纠正，本发明实施例主要以在同一个句子中进行自我纠正的情况进行说明。本发明实施例通过分析，发现在同一个句子中进行自我纠正的如下特性：自我纠正通常发生在相同的句子成分之间、且相同的句子成分通常具备语义相关性。进一步，本发明实施例依据在同一个句子中进行自我纠正的特性，预置了自我纠正规则，这样，可以判断所述源文本包含的相同的句子成分是否符合预置的自我纠正规则，若是，则将相同的句子成分中在前的句子成分对应的字符作为目标字符。

在本发明的一种可选实施例中，预置的自我纠正规则可以包括：源文本所包含相同的句子成分的语义相关。可选地，上述语义相关可以包括：语义相反、语义相似或者相同等，这样可以使得相同的句子成分可以涉及相同的表达，进而可以提高自我纠正的识别准确率。可以理解，上述预置的自我纠正规则只是作为可选实施例，实际上，本发明实施例对于预置的自我纠正规则不作具体限制。

在本发明的具体实施例中，相同的句子成分可以包括：主语、谓语、宾语、动语、定语、状语、补语、或者中心语等任意的句子成分。以谓语为例，源文本“今天知道不知道吃什么”中可以包括两个谓语成分“知道”、“不知道”，且该两个谓语成分的语义相反，故可以认为两个谓语成分符合预置的自我纠正规则，并将在前的谓语成分对应的字符作为目标字符。

以上通过获取方案1至获取方案3对从语音信号对应的源文本中获取符合预置过滤条件的目标字符的过程进行了详细介绍，本领域技术人员可以根据实际应用需求，采用获取方案1至获取方案3中的任一或者组合，或者，还可以采用从语音信号对应的源文本中获取符合预置过滤条件的目标字符的其他获取方案，本发明实施例对于具体的获取方案不加以限制。

在步骤201从语音信号对应的源文本中获取符合预置过滤条件的目标字符之后，步骤202可以对所述源文本的语言模型得分与目标文本的语言模型得分进行比较，其中，目标文本可以为从所述源文本中过滤掉目标字符后得到的文本。

自然语言处理领域中，语言模型是针对一种语言或者多种语言建立的概率模型，目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。具体到本发明实施例，可以将语言模型描述的给定词序列在语言中的出现的概率的分布称为语言模型得分。可选地，可以从语料库中获取语料句子，对该语料句子进行分词，并依据分词得到的词序列，训练得到上述语言模型。可选地，语言模型描述的给定词序列可以带有标点符号、或者不带有标点符号。在实际应用中，采用的语言模型是否带有标点符号可以与源文本是否带有标点符号一致，具体地，若源文本带有标点符号，则采用的语言模型也带有标点符号；或者，若源文本不带有标点符号，则采用的语言模型也不带有标点符号。

本发明实施例中，语言模型可以包括：n-gram(n元文法)语言模型，和/或，神经网络语言模型，其中，神经网络语言模型可以进一步包括：rnnlm(循环神经网络语言模型，recurrentneuralnetworklanguagemodel)、cnnlm(卷积神经网络语言模型，convolutionalneuralnetworkslanguagemodel)、dnnlm(深度神经网络语言模型，deepneuralnetworkslanguagemodel)等。

其中，n-gram语言模型基于这样一种假设，即第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。

由于n-gram语言模型利用有限的n-1个词(上文)来预测第n个词，故n-gram语言模型可以具备长度为n的语义片段的语言模型得分的描述能力，例如，n可以为3、5等较为固定的且数值小于第一长度阈值的正整数。而相对于n-gram语言模型，例如rnnlm的神经网络语言模型的一个优势在于：可以真正充分地利用所有上文来预测下一个词，故rnnlm可以具备长度可变的语义片段的语言模型得分的描述能力，也即，rnnlm适用于较宽长度范围的语义片段，例如，rnnlm对应的语义片段的长度范围可以为：1～第二长度阈值，其中，第二长度阈值可以大于第一长度阈值。其中，语义片段可用于表示带有标点符号的词序列、或者不带有标点符号的词序列。

在本发明的一种可选实施例中，可以采用n元文法语言模型和/或神经网络语言模型，确定源文本的语言模型得分和/或目标文本的语言模型得分。

其中，采用n元文法语言模型确定源文本的语言模型得分和/或目标文本的语言模型得分的过程可以包括：针对源文本和/或目标文本包含的第一语义片段，采用n元文法语言模型确定对应的语言模型得分；对源文本和/或目标文本包含的所有第一语义片段对应的语言模型得分进行融合，以得到源文本和/或目标文本对应的语言模型得分。

可选地，可以按照从前到后的顺序，通过移动方式从所述源文本和/或目标文本中获取对应的第一语义片段，不同第一语义片段所包含字符单元的数量可以相同，相邻的第一语义片段可以存在重复的字符单元，所述字符单元可以包括：词汇和/或标点符号。此种情况下，可由n-gram语言模型确定第一语义片段对应的语言模型得分。假设n＝5，首字符单元的编号为1，则可以按照编号的如下顺序：1-5、2-6、3-7、4-8等从所述标点添加结果中获取对应的长度为5的第三语义片段，并利用n-gram语言模型确定各第一语义片段对应的语言模型得分，例如，将各第一语义片段输入n-gram，则n-gram可输出对应的语言模型得分。

可选地，上述对源文本和/或目标文本包含的所有第一语义片段对应的语言模型得分进行融合的过程可以包括：对源文本和/或目标文本包含的所有第一语义片段对应的语言模型得分进行求和、或者乘积、或者加权平均处理等，可以理解，本发明实施例对于对源文本和/或目标文本包含的所有第一语义片段对应的语言模型得分进行融合的具体过程不加以限制。

在本发明的另一种可选实施例中，采用神经网络语言模型确定源文本的语言模型得分和/或目标文本的语言模型得分的过程可以包括：利用神经网络语言模型，确定源文本和/或目标文本所包括所有语义片段对应的语言模型得分。由于例如rnnlm的神经网络语言模型适用于较宽长度范围的语义片段，故可以将源文本和/或目标文本的所有语义片段作为一个整体，由rnnlm确定源文本和/或目标文本的所有语义片段对应的语言模型得分，例如，将源文本和/或目标文本包括的所有字符单元输入rnnlm，则rnnlm可输出对应的语言模型得分。

步骤203在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。由于语言模型是根据语言客观事实而进行的语言抽象数学建模，语言模型得分可以反映文本(包括源文本或者目标文本)对应的语言质量，因此本发明实施例可以有效避免由于从所述源文本中过滤掉目标字符而导致语言质量下降的情况，进而可以提高语音信号对应的语音识别结果的质量。

可以理解，在目标文本的语言模型得分低于所述源文本的语言模型得分时，可以将所述源文本作为所述语音信号对应的语音识别结果输出，这样可以提高语音信号对应的语音识别结果的质量。

需要说明的是，可以根据实际应用需求，循环执行本发明实施例的步骤201对应的字符获取处理和步骤202对应的语言模型得分比较处理。具体地，在步骤203获得作为所述语音信号对应的语音识别结果的目标文本后，可以继续对目标文本进行字符获取处理和比较处理，也即，可以将目标文本作为源文本输入步骤201。

相应地，本发明实施例的方法还可以包括：在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，从所述目标文本中获取符合预置过滤条件的第一字符；对所述目标文本的语言模型得分与第一文本的语言模型得分进行比较；所述第一文本为从所述目标文本中过滤掉第一字符后得到的文本；在所述第一文本的语言模型得分不低于所述目标文本的语言模型得分时，将所述第一文本作为所述语音信号对应的语音识别结果输出；或者，在所述第一文本的语言模型得分低于所述目标文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。可以理解，还可以在所述第一文本的语言模型得分不低于所述目标文本的语言模型得分时，还可以继续对第一文本进行字符获取处理和比较处理。

在本发明的一种应用示例中，假设语音信号对应的源文本为a，从源文本a中过滤掉目标字符后得到文本b，则可以对源文本a与文本b的语言模型得分进行比较，在文本b的语言模型得分低于源文本a的语言模型得分时，将源文本a作为语音识别结果输出。

在文本b的语言模型得分不低于源文本a的语言模型得分时，判断文本b中是否包含符合预置过滤条件的第一字符，若否，则将文本b作为语音识别结果输出；若是，则从文本b中过滤掉第一字符后得到文本c，对文本c与文本b的语言模型得分进行比较，在文本c的语言模型得分低于文本b的语言模型得分时，将文本b作为语音识别结果输出。

在文本c的语言模型得分不低于源文本b的语言模型得分时，判断文本c中是否包含符合预置过滤条件的第二字符，若否，则将文本c作为语音识别结果输出；若是，则从文本c中过滤掉第二字符后得到文本d，对文本c与文本d的语言模型得分进行比较…以此类推。

综上，本发明实施例的文本处理方法，目标文本可以为从所述源文本中过滤掉目标字符后得到的文本，该目标文本可以不带有例如口头禅字符的多余字符，故将目标文本作为语音识别结果，可以提高语音识别结果的流畅性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图3，示出了本发明的一种处理装置实施例的结构框图，具体可以包括：

目标字符获取模块301，用于从语音信号对应的源文本中获取符合预置过滤条件的目标字符；

比较模块302，用于对所述源文本的语言模型得分与目标文本的语言模型得分进行比较；所述目标文本为从所述源文本中过滤掉目标字符后得到的文本；及

输出模块303，用于在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。

可选地，所述目标字符获取模块301可以包括：

第一目标字符获取子模块，用于从语音信号对应的源文本中获取与预置词典中预置过滤字符相匹配的字符，作为目标字符。

可选地，所述预置过滤字符可以包括：口头禅字符和/或话语标记字符和/或语气字符。

可选地，所述目标字符获取模块301可以包括：

分词子模块，用于对语音信号对应的源文本进行分词，以得到所述源文本可以包括的词汇；

第一判断子模块，用于判断所述源文本可以包括的相邻词汇是否符合预置的结巴语识别规则，若是，则将相邻词汇中在前的词汇作为目标字符。

可选地，所述预置的结巴语识别规则可以包括：

相邻词汇中在前的词汇与在后的词汇相同，或者，相邻词汇中在前的词汇为在后的词汇的前缀；或者

相邻词汇中在前的词汇的发音与在后的词汇的发音相同，或者，相邻词汇中在前的词汇的发音与在后的词汇的前缀的发音相同。

可选地，所述目标字符获取模块301可以包括：

句子成分确定子模块，用于确定源文本对应的句子成分；

可选地，所述装置还可以包括：

第一字符获取模块，用于在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，从所述目标文本中获取符合预置过滤条件的第一字符；

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供了一种文本处理装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：从语音信号对应的源文本中获取符合预置过滤条件的目标字符；对所述源文本的语言模型得分与目标文本的语言模型得分进行比较；所述目标文本为从所述源文本中过滤掉目标字符后得到的文本；在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。

可选地，所述从语音信号对应的源文本中获取符合预置过滤条件的目标字符，包括：从语音信号对应的源文本中获取与预置词典中预置过滤字符相匹配的字符，作为目标字符。

可选地，所述预置过滤字符包括：口头禅字符和/或话语标记字符和/或语气字符。

可选地，所述从语音信号对应的源文本中获取符合预置过滤条件的目标字符，包括：对语音信号对应的源文本进行分词，以得到所述源文本包括的词汇；判断所述源文本包括的相邻词汇是否符合预置的结巴语识别规则，若是，则将相邻词汇中在前的词汇作为目标字符。

可选地，所述预置的结巴语识别规则包括：相邻词汇中在前的词汇与在后的词汇相同，或者，相邻词汇中在前的词汇为在后的词汇的前缀；或者相邻词汇中在前的词汇的发音与在后的词汇的发音相同，或者，相邻词汇中在前的词汇的发音与在后的词汇的前缀的发音相同。

可选地，所述从语音信号对应的源文本中获取符合预置过滤条件的目标字符，包括：确定源文本对应的句子成分；判断所述源文本包含的相同的句子成分是否符合预置的自我纠正规则，若是，则将相同的句子成分中在前的句子成分对应的字符作为目标字符。

可选地，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，从所述目标文本中获取符合预置过滤条件的第一字符；对所述目标文本的语言模型得分与第一文本的语言模型得分进行比较；所述第一文本为从所述目标文本中过滤掉第一字符后得到的文本；在所述第一文本的语言模型得分不低于所述目标文本的语言模型得分时，将所述第一文本作为所述语音信号对应的语音识别结果输出；或者，在所述第一文本的语言模型得分低于所述目标文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。

图4是根据一示例性实施例示出的一种用于文本处理的装置作为终端时的框图。例如，终端900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，终端900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(i/o)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制终端900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为终端900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(mic)，当终端900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

i/o接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为终端900提供各个方面的状态评估。例如，传感器组件914可以检测到终端900的打开/关闭状态，组件的相对定位，例如所述组件为终端900的显示器和小键盘，传感器组件914还可以检测终端900或终端900一个组件的位置改变，用户与终端900接触的存在或不存在，终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。

在示例性实施例中，终端900可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由终端900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

图5是根据一示例性实施例示出的一种用于文本处理的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，cpu)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm等等。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1932，上述指令可由服务器1900的处理器执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种文本处理方法，所述方法包括：从语音信号对应的源文本中获取符合预置过滤条件的目标字符；对所述源文本的语言模型得分与目标文本的语言模型得分进行比较；所述目标文本为从所述源文本中过滤掉目标字符后得到的文本；在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。

可选地，所述预置过滤字符包括：口头禅字符和/或话语标记字符和/或语气字符。

可选地，所述方法还包括：在所述目标文本的语言模型得分不低于所述源文本的语言模型得分时，从所述目标文本中获取符合预置过滤条件的第一字符；对所述目标文本的语言模型得分与第一文本的语言模型得分进行比较；所述第一文本为从所述目标文本中过滤掉第一字符后得到的文本；在所述第一文本的语言模型得分不低于所述目标文本的语言模型得分时，将所述第一文本作为所述语音信号对应的语音识别结果输出；或者，在所述第一文本的语言模型得分低于所述目标文本的语言模型得分时，将所述目标文本作为所述语音信号对应的语音识别结果输出。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种文本处理方法、一种文本处理装置、以及一种用于文本处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姜里羊;王宇光;陈伟;郑宏
技术所有人：北京搜狗科技发展有限公司
我是此专利的发明人

上一篇：说话人识别方法和说话人识别设备与流程
上一篇：用于家电的语音控制装置和方法与流程