文本校正方法和装置的制造方法_3

文档序号：9787380阅读：来源：国知局

中每个词的出现概率之前，还可以首先对文本信息进行预处理，通过第一语言模型计算预处理后的文本信息中每个词的出现概率。可选地，预处理可以包括文本过滤、切词和泛化。
[0058]步骤303，根据每个词的出现概率，确定出文本信息中的至少一个出错词。
[0059]在本实施例中，上述电子设备在计算出每个词的出现概率后，可以进一步根据每个词的具体概率值，确定出文本信息中可能输入错误的一个或多个出错词。在一种可能的实现方式中，如果文本信息中某一个词的出现概率低于预先设置的概率极小值，例如20%，则可以直接将该词确定为出错词。在另一种可能的实现方式中，如果文本信息中某一个词和该词的下一个词的出现概率都低于预先设置的概率阈值，例如50%，则可以将这个词确定为出错词。需要说明的是，上述概率极小值和概率阈值的具体取值，可以由用户根据实际需自行设定，本申请对此不作限制。
[0060]步骤304，基于预定规则确定出与出错词对应的候选词。
[0061 ]在本实施例中，文本校正方法运行于其上的电子设备在确定出文本信息中的出错词后，可以进一步根据预定的规则确定出与出错词对应的候选词。可选地，上述预定规则可以包括拼音规则、字形规则、编辑距离规则中的至少一项。
[0062]步骤305，若出错词对应多个候选词，通过第二语言模型分别计算每个候选词的出现次数。
[0063]在本实施例中，若在上述步骤304中确定出的与出错词对应的候选词不止一个，在可以进一步通过第二语言模型分别计算每个候选词的出现次数。第二语言模型是使用上述训练样本对一元语言模型训练得到的。一元语言模型又叫Unigram模型，是N-gram模型在N取I时的特例情况。Unigram模型只关心某个词在整体语料中出现的概率，而这个概率与其前面出现的词无关。因此，通过第二语言模型计算出的候选词的出现次数，就可以代表该候选词在文本信息中可能出现的概率。
[0064]步骤306，根据每个候选词的出现次数，从多个候选词中选定至少一个待定候选
Τ.κ| ο
[0065]在本实施例中，上述电子设备可以将每个候选词的出现次数，按照其取值从大到小进行排序，然后将排在前面的一个或多个候选词选定为待定候选词，也就是将那些在文本信息中出现概率较大的候选词作为待定候选词。
[0066]步骤307，分别使用每个待定候选词替换出错词，得到至少一个待定文本信息。
[0067]当上述电子设备在步骤306中选定至少一个待定候选词后，还可以进一步使用每个待定候选词分别替换原始文本信息中的出错词，得到至少一个待定文本信息。例如，若一个出错词对应三个待定候选词，则进行出错词替换后，可以得到三个待定文本信息。
[0068]步骤308，通过第一语言模型分别计算每个待定文本信息的出现概率。
[0069]在本实施例中，上述电子设备可以进一步通上述过第一语言模型，分别计算每个待定文本信息的出现概率。具体地，若待定文本信息中包括有N个词，则在第N个词后面可以增加一个结束符，并将这N个词和结束符共同作为第一语言模型的输入。通过第一语言模型，不但能计算出每个词的出现概率，还能计算出上述结束符的出现概率，也就是第N个词后面跟结束符的概率。这样，基于第一语言模型一共可以得到Ν+1个概率值，然后将这Ν+1个概率值相乘就可以得到待定文本信息的出现概率。
[0070]步骤309，根据待定文本信息的出现概率，将一个待定文本信息确定为校正后的文本信息。
[0071]在本实施例中，上述电子设备在计算出每个待定文本信息的出现概率后，可以首先按照具体的概率值从大到小进行排序，然后将排在最前面的那个待定文本信息确定为校正后的文本信息。
[0072]在本实施例的一个可选实现方式中，还可以将校正后的文本信息的出现概率与用户输入的文本信息的出现概率进行比较，若校正后的文本信息的出现概率大于用户输入的文本信息的出现概率，则可以对用户输入的文本信息进行校正，即使用校正后的文本信息来替换用户输入的文本信息。若校正后的文本信息的出现概率小于用户输入的文本信息的出现概率，则可以不对用户输入的文本信息进行校正，即保留用户输入的文本信息。
[0073]应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
[0074]从图3中可以看出，与图2对应的实施例相比，本实施例中具体描述了如何确定出错词，以及当出错词对应多个候选词时如何进行文本校正的方法。具体可以通过第二语言模型从多个候选词中确定出在整体语料中出现概率较高的待定候选词，然后再利用第一语言模型计算出待定文本信息的出现概率，最后基于出现概率确定校正后的文本信息。通过两个模型的计算，可以分别提高候选词的准确性和校正后的文本的可靠性，从而能够从整体上进一步提高文本校正的准确性。
[0075]进一步参考图4，作为对上述各图所示方法的实现，本申请提供了一种文本校正装置的一个实施例，该装置实施例与图2-3所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。
[0076]如图4所示，本实施例所述的文本校正装置400包括:接收模块410、出错词确定模块420、候选词确定模块430和校正模块440。其中，接收模块410，用于接收用户输入的文本信息；出错词确定模块420，用于通过第一语言模型确定出所述文本信息中的至少一个出错词;候选词确定模块430，用于基于预定规则确定出与所述出错词对应的候选词;校正模块440，用于使用所述候选词替换所述出错词，得到校正后的文本信息。
[0077]在本实施例中，文本校正装置400的接收模块410可以通过有线连接方式或者无线连接方式，接收由终端设备发送的、用户在该终端设备上输入的文本信息。
[0078]在本实施例中，文本校正装置400的出错词确定模块420可以通过预先训练的第一语言模型来识别文本信息中可能存在的出错词。
[0079]在本实施例中，文本校正装置400的候选词确定模块430，可以根据预定的规则确定出与出错词对应的候选词，其中，预定规则可以包括拼音规则、字形规则、编辑距离规则中的至少一项。
[0080]在本实施例中，文本校正装置400的校正模块440，可以直接使用候选词确定模块430确定出的候选词来替换相应的出错词，从而得到校正后的文本信息。
[0081]在本实施例的一些可选的实现方式中，出错词确定模块420进一步用于:通过第一语言模型计算文本信息中每个词的出现概率;根据每个词的出现概率，确定出文本信息中的至少一个出错词。
[0082]在本实施例的一些可选的实现方式中，第一语言模型是通过以下方法得到的:获取历史文本信息;对历史文本信息进行预处理，得到训练样本;使用训练样本进行语言模型训练，得到第一语言模型;其中，预处理包括文本过滤、切词和泛化。
[0083]在本实施例的一些可选的实现方式中，上述预处理还包括基于业务类型的分类。上述使用训练样本进行语言模型训练，得到第一语言模型，包括:通过循环神经网络算法，对分类后的训练样本分别进行语言模型训练，得到每个业务类型对应的第一语言模型。相应的，上述通过第一语言模型计算文本信息中每个词的出现概率，包括:确定文本信息对应的业务类型;通过与该业务类型对应的第一语言模型计算文本信息中每个词的出现概率。
[0084]在本实施例的一些可选的实现方式中，上述预定规则包括拼音规则、字形规则、编辑距离规则中的至少一项。文本校正装置400还包括:计算模块，用于若出错词对应多个候选词，通过第二语言模型分别计算每个候选词的出现次数;选定模块，用于根据每个候选词的出现次数，从多个候选词中选定至少一个待定候选词;其中，第二语言模型是使用上述训练样本对一元语言模型训练得到的。
[0085]在本实施例的一些可选的实现方式中，校正模块440进一步用于:分别使用每个待定候选词替换出错词，得到至少一个待定文本信息;通过第一语言模型分别计算每个待定文本信息的出现概率;根据待定文本信息的出现概率，将一个待定文本信息确定为校正后的文本信息。
[0086]本领域技术人员可以理解，上述文本校正装置400还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图4中未示出。
[0087]本实施例所提供的文本校正装置，可以首先通过预先训练的第一语言模型从用户输入的文本信息中确定出至少一个出错词，然后根据预定规则确定出与出错词对应的候选词，最后使用候选词替换出错词，以实现文本校正。通过预先训练的语言模型可以准确的确定出文本信息所要表达的用户意图，使得据此校正后的文本更加精准，从而提升了文本校正的准确率和召回率。
[0088]下面参考图5，其示出了适于用来实现本申请实施

完整全部详细技术资料下载

当前第3页1 2 3 4