1.一种口语化句子的提取方法,其特征在于,包括:
获取训练语句;
对所述训练语句训练得到统计语言模型;
将待检测语句输入所述统计语言模型,如果所述待检测语句没有被包含在所述训练语句中,则对所述统计语言模型进行平滑处理;
将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。
2.根据权利要求1所述的方法,其特征在于,还包括:
如果所述待检测语句被包含在所述训练语句中,则将所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子。
3.根据权利要求2所述的方法,其特征在于,将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子包括:
对所述待检测语句进行归一化处理,计算所述待检测语句与所述平滑处理后的统计语言模型的匹配度;
当所述匹配度大于预设阈值时,提取所述待检测语句中第一口语化的句子;
所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子包括:
对所述待检测语句进行归一化处理,计算所述待检测语句与所述统计语言模型的匹配度;
当所述匹配度大于预设阈值时,提取所述待检测语句中第二口语化的句子。
4.根据权利要求1所述的方法,其特征在于,对所述训练语句训练得到统计语言模型包括:
通过n-gram算法对所述训练语句训练得到统计语言模型,其中,所述n-gram算法为3-gram算法,计算公式为:其中P(S)代表待检测语句S出现的概率,n为3,l为所述待检测语句S中词语的个数,wi代表第i个词语。
5.根据权利要求4所述的方法,其特征在于,对所述统计语言模型进行平滑处理包括:
根据Katz算法对所述统计语言模型进行平滑处理,其中,所述Katz平滑算法为:
其中,代表应用所述平滑算法处理后的词语wi在词串wi-2wi-1出现的前提下出现的概率;P(wi|wi-1)代表wi在词wi-1出现的前提下出现的概率;P(wi)为词语wi出现的概率;C(wi-2wi-1wi)代表词串wi-2wi-1wi在所述训练数据中出现的次数;C(wi-1wi)代表词串wi-1wi在所述训练数据中出现的次数;P(wi|wi-2wi-1)代表词wi在词串wi-2wi-1出现的前提下出现的概率;α是介于0和1之间的比例系数。
6.根据权利要求1所述的方法,其特征在于,获取训练语句包括:
应用分词算法对所述训练文本进行分词,获取所述训练文本的分词结果;
添加标识符将所述训练文本的分词结果划分成若干个训练语句;
将待检测语句输入所述统计语言模型包括:
应用所述分词算法对所述待检测文本进行分词,获取所述待检测文本的分词结果;
添加标识符将所述待检测文本的分词结果划分为若干个待检测语句;
将所述待检测语句输入所述统计语言模型。
7.一种口语化句子的提取装置,其特征在于,包括:
获取模块,用于获取训练语句;
训练模块,与所述获取模块相连,用于对所述训练语句训练得到统计语言模型;
判断模块,与所述训练模块相连,用于将待检测语句输入所述统计语言模型,如果所述待检测语句没有被包含在所述训练语句中,则对所述统计语言模型进行平滑处理;
第一匹配模块,与所述判断模块相连,用于将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。
8.根据权利要求7所述的装置,其特征在于,还包括:
第二匹配模块,与所述判断模块相连,用于如果所述待检测语句被包含在所述训练语句中,则将所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子。
9.根据权利要求8所述的装置,其特征在于,所述第一匹配模块具体用于:对所述待检测语句进行归一化处理,计算所述待检测语句与所述平滑处理后的统计语言模型的匹配度;
当所述匹配度大于预设阈值时,提取所述待检测语句中第一口语化的句子;
所述第二匹配模块具体用于:
对所述待检测语句进行归一化处理,计算所述待检测语句与所述统计语言模型的匹配度;
当所述匹配度大于预设阈值时,提取所述待检测语句中第二口语化的句子。
10.根据权利要求7所述的装置,其特征在于,所述训练模块还用于:通过n-gram算法对所述训练语句训练得到统计语言模型,其中,所述n-gram算法为3-gram算法,计算公式为:其中P(S)代表待检测语句S出现的概率,n为3,l为所述待检测语句S中词语的个数,wi代表第i个词语;
所述判断模块还用于:根据Katz算法对所述统计语言模型进行平滑处理,其中,所述Katz平滑算法为:
其中,代表应用所述平滑算法处理后的词语wi在词串wi-2wi-1出现的前提下出现的概率;P(wi|wi-1)代表wi在词wi-1出现的前提下出现的概率;P(wi)为词语wi出现的概率;C(wi-2wi-1wi)代表词串wi-2wi-1wi在所述训练数据中出现的次数;C(wi-1wi)代表词串wi-1wi在所述训练数据中出现的次数;P(wi|wi-2wi-1)代表词wi在词串wi-2wi-1出现的前提下出现的概率;α是介于0和1之间的比例系数。