一种口语化句子的提取方法和装置与流程

文档序号:11155017
一种口语化句子的提取方法和装置与制造工艺

本发明实施例涉及文本处理领域,尤其涉及一种口语化句子的提取方法和装置。



背景技术:

口语化句子是指人们平常交流所使用到的句子,与之相对应的是书面文本句子。书面文本的目的是以理性传播信息为主,在词汇和语法的使用上较为正式,而口语化的句子在词汇使用上大多简单明了,语法更多以简单句型为主。书面文本中所使用的句子和口语中所使用的句子在风格上截然不同。传统的提取口语化句子的方法有人工提取法和基于词汇的识别方法,人工提取法是指以人工查阅语料的方式从文本中提取符合口语化文本特征的句子;基于词汇的方法主要考虑口语化句子文本和书面句子文本在词语使用上的不同。

人工提取方法需要人工查阅语料,其优点是能保证其准确性,在数据比较小的情况下比较适用,但是其缺点是浪费时间和精力,尤其是在当前大数据环境下,这种方式很难实现。基于词汇的方法仅仅考虑了词汇的信息,从词汇使用的差异性上来分辨书面文本句子和口语化句子,但是却忽略了词汇之间的搭配关系。大部分词汇是在正式文本和口语化为本中同时使用的,仅仅考虑词汇信息的差异不能完全区分正式文本与口语化文本。



技术实现要素:

有鉴于此,本发明提出一种口语化句子的提取方法和装置,提高了自动提取口语化句子的准确度。

第一方面,本发明实施例提供了一种口语化句子的提取方法,所述方法包括:获取训练语句;对所述训练语句训练得到统计语言模型;将待检测语句输入所述统计语言模型,如果所述待检测语句没有被包含在所述训练语句中,则对所述统计语言模型进行平滑处理;将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。

进一步的,所述方法还包括:如果所述待检测语句被包含在所述训练语句中,则将所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子。

进一步的,将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子包括:对所述待检测语句进行归一化处理,计算所述待检测语句与所述平滑处理后的统计语言模型的匹配度;当所述匹配度大于预设阈值时,提取所述待检测语句中第一口语化的句子;所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子包括:对所述待检测语句进行归一化处理,计算所述待检测语句与所述统计语言模型的匹配度;当所述匹配度大于预设阈值时,提取所述待检测语句中第二口语化的句子。

进一步的,对所述训练语句训练得到统计语言模型包括:通过n-gram算法对所述训练语句训练得到统计语言模型,其中,所述n-gram算法为3-gram算法,计算公式为:其中P(S)代表待检测语句S出现的概率,n为3,l为所述待检测语句S中词语的个数,wi代表第i个词语。

进一步的,对所述统计语言模型进行平滑处理包括:根据Katz算法对所述统计语言模型进行平滑处理,其中,所述Katz平滑算法为:

其中,代表应用所述平滑算法处理后的词语wi在词串wi-2wi-1出现的前提下出现的概率;P(wi|wi-1)代表wi在词wi-1出现的前提下出现的概率;P(wi)为词语wi出现的概率;C(wi-2wi-1wi)代表词串wi-2wi-1wi在所述训练数据中出现的次数;C(wi-1wi)代表词串wi-1wi在所述训练数据中出现的次数;P(wi|wi-2wi-1)代表词wi在词串wi-2wi-1出现的前提下出现的概率;α是介于0和1之间的比例系数。

进一步的,获取训练语句包括:应用分词算法对所述训练文本进行分词,获取所述训练文本的分词结果;添加标识符将所述训练文本的分词结果划分成若干个训练语句;将待检测语句输入所述统计语言模型包括:应用所述分词算法对所述待检测文本进行分词,获取所述待检测文本的分词结果;添加标识符将所述待检测文本的分词结果划分为若干个待检测语句;

将所述待检测语句输入所述统计语言模型。

第二方面,本发明实施例提供了一种口语化句子的提取装置,所述装置包括:获取模块,用于获取训练语句;训练模块,与所述获取模块相连,用于对所述训练语句训练得到统计语言模型;判断模块,与所述训练模块相连,用于将待检测语句输入所述统计语言模型,如果所述待检测语句没有被包含在所述训练语句中,则对所述统计语言模型进行平滑处理;第一匹配模块,与所述判断模块相连,用于将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。

进一步的,所述装置还包括:第二匹配模块,与所述判断模块相连,用于如果所述待检测语句被包含在所述训练语句中,则将所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子。

进一步的,所述第一匹配模块具体用于:对所述待检测语句进行归一化处理,计算所述待检测语句与所述平滑处理后的统计语言模型的匹配度;当所述匹配度大于预设阈值时,提取所述待检测语句中第一口语化的句子;所述第二匹配模块具体用于:对所述待检测语句进行归一化处理,计算所述待检测语句与所述统计语言模型的匹配度;当所述匹配度大于预设阈值时,提取所述待检测语句中第二口语化的句子。

进一步的,所述训练模块还用于:通过n-gram算法对所述训练语句训练得到统计语言模型,其中,所述n-gram算法为3-gram算法,计算公式为:其中P(S)代表待检测语句S出现的概率,n为3,l为所述待检测语句S中词语的个数,wi代表第i个词语;所述判断模块还用于:根据Katz算法对所述统计语言模型进行平滑处理,其中,所述Katz平滑算法为:

其中,代表应用所述平滑算法处理后的词语wi在词串wi-2wi-1出现的前提下出现的概率;P(wi|wi-1)代表wi在词wi-1出现的前提下出现的概率;P(wi)为词语wi出现的概率;C(wi-2wi-1wi)代表词串wi-2wi-1wi在所述训练数据中出现的次数;C(wi-1wi)代表词串wi-1wi在所述训练数据中出现的次数;P(wi|wi-2wi-1)代表词wi在词串wi-2wi-1出现的前提下出现的概率;α是介于0和1之间的比例系数。

本发明实施例中,通过对训练语句训练得到统计语言模型,将待检测语句输入统计语言模型进行检测,判断待检测语句是否被包含在所述训练语句中,如果判断结果为否,则对所述统计语言模型进行平滑处理,将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。解决了人工提取口语化句子费时费力问题,考虑了待检测语句中词语之间的搭配信息,提高了自动提取口语化句子的准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1是本发明实施例一中的一种口语化句子的提取方法的流程图;

图2是本发明实施例二中的一种口语化句子的提取方法的流程图;

图3是本发明实施例三中的一种口语化句子的提取方法的流程图;

图4是本发明实施例四中的一种口语化句子的提取方法的流程图;

图5是本发明实施例五中的一种口语化句子的提取装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。另外还需要说明的是,为了便于说明,以下实施例中示出了与本发明相关的示例,这些示例仅作为说明本发明实施例的原理所用,并不作为对本发明实施例的限定,同时,这些示例的具体数值会根据不同的应用环境和装置或者组件的参数不同而不同。

本发明实施例的口语化句子的提取方法和装置可以运行于安装有Windows(微软公司开发的操作系统平台)、Android(谷歌公司开发的用于便携式可移动智能设备的操作系统平台)、iOS(苹果公司开发的用于便携式可移动智能设备的操作系统平台)、Windows Phone(微软公司开发的用于便携式可移动智能设备的操作系统平台)等操作系统的终端中,该终端可以是台式机、笔记本电脑、移动电话、掌上电脑、平板电脑、数码相机、数码摄像机等等中的任意一种。

实施例一

图1是本发明实施例一中的一种口语化句子的提取方法的流程图,该方法用于实现口语化句子的提取,提高了自动提取口语化句子的准确度。该方法可以由口语化句子的提取装置来执行,该装置可以由软件和/或硬件方式实现,例如典型的是用户终端设备,例如手机、电脑等。本实施例中的用于口语化句子的提取方法包括:步骤S110、步骤S120、步骤S130和步骤S140。

步骤S110,获取训练语句。

具体的,为了对待检测语句进行训练,需要得到统计语言模型,而统计语言模型是以大量的训练语句为基础训练数据训练出来的。可选的,电影中的对话多为口语化句子,利用电影中的对话,将电影字幕语料作为训练语句。电影中的字幕语料可以是:他就只能站着而已;再一击就完蛋了;我看到你了。

步骤S120,对所述训练语句训练得到统计语言模型。

具体的,n-gram算法是是大词汇连续语音识别中常用的一种语言模型识别算法。可选的,可以通过n-gram算法对所述训练语句进行训练。该模型基于这样一种假设,第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从训练语句中统计n个词同时出现的次数得到。常用的是二元的2-gram和三元的3-gram。通过n-gram算法对所述训练语句训练得到统计语言模型。

步骤S130,将待检测语句输入所述统计语言模型,如果所述待检测语句没有被包含在所述训练语句中,则对所述统计语言模型进行平滑处理。

具体的,将待检测语句输入所述统计语言模型,可选的,待检测语句可以是:你吃饭了吗;我好喜欢吃这个奶酪呀;让暴风雨来的更猛烈些吧。判断待检测语句是否被包含在训练语句中,若判断结果为否,数据稀疏问题将会产生,数据稀疏问题即为待检测语句在训练语句中没有出现导致待检测语句出现的概率为0的问题。由于n-gram算法计算的是各个词出现的概率的乘积,若某个词或词串在训练语句中没有出现,导致包含该词或词串的待检测语句的概率为0。此时,可选的,利用Katz算法对所述统计语言模型进行平滑处理,Katz算法的思想是,当利用n-gram算法计算某个待检测语句的词串的概率为0时,选择将去掉该词串中某个词的概率乘以一定的系数以后的概率作为该词串的概率。可选的,若词串“五道口地铁站见面”在统计语言模型中出现的概率为0,则将词串“地铁站见面”在统计语言模型中出现的概率乘以一定的系数作为词串“五道口地铁站见面”在统计语言模型中出现的概率。可选的,该系数为0到1之间的任意小数。系数选取不同,得到的词串的概率不同。

步骤S140,将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。

具体的,对于待检测语句,将其输入平滑处理后的统计语言模型进行匹配,计算其在统计语言模型中输出值,根据输出值进行判断。如果输出值大于预设阈值,则认为其是口语化句子,将得到的口语化句子标记为第一口语化句子,如果输出值小于预设阈值,则为非口语化句子。

可选的,对所述训练语句训练得到统计语言模型包括:通过n-gram算法对所述训练语句训练得到统计语言模型,其中,所述n-gram算法为3-gram算法,计算公式为:其中P(S)代表待检测语句S出现的概率,n为3,l为所述待检测语句S中词语的个数,wi代表第i个词语。

具体的,将n-gram算法中n取3,将应用3-gram算法计算统计语音模型作为一个优选方案。当n取3时,变为其中,待检测语句S出现的概率为各个词语出现的概率乘积,每个词语出现的概率只和该词语前边两个词是否出现有关。即第i个词语wi出现的概率和其前边两个词组成的词串wi-2wi-1是否出现有关,和待检测语句中其他词语或词串是否出现无关。

可选的,对所述统计语言模型进行平滑处理包括:根据Katz算法对所述统计语言模型进行平滑处理,其中,所述Katz平滑算法为:

其中,代表应用所述平滑算法处理后的词语wi在词串wi-2wi-1出现的前提下出现的概率;P(wi|wi-1)代表wi在词wi-1出现的前提下出现的概率;P(wi)为词语wi出现的概率;C(wi-2wi-1wi)代表词串wi-2wi-1wi在所述训练语句中出现的次数;C(wi-1wi)代表词串wi-1wi在所述训练语句中出现的次数;P(wi|wi-2wi-1)代表词wi在词串wi-2wi-1出现的前提下出现的概率;α是介于0和1之间的比例系数。

具体的,训练语句的资料足够全时,包含的待检测的语句中的词语或词串越多,训练语句的资料不够全面时,包含的待检测的语句中的词语或词串越少,所以会出现数据稀疏问题,为了解决数据稀疏问题。利用平滑算法对数据稀疏问题进行处理。当词串wi-2wi-1wi在训练语句中出现的次数不为0时,则将P(wi|wi-2wi-1)作为词语wi在训练语句中出现的概率;如果词串wi-2wi-1wi在训练语句中出现的次数为0,而词串wi-1wi在训练语句中出现的次数不为0,则将αP(wi|wi-1)作为该种情况下词语wi在词串wi-2wi-1出现的前提下出现的概率;如果词串wi-1wi在训练语句中出现的次数为0,则将αP(wi)作为该种情况下词语wi在词串wi-2wi-1出现的前提下出现的概率。可选的,P(wi)可以用拉普拉斯平滑的极大似然估计计算而得,α是介于0和1之间的比例系数。

本发明实施例中,通过对训练语句训练得到统计语言模型,将待检测语句输入统计语言模型进行检测,判断待检测语句是否被包含在所述训练语句中,如果判断结果为否,则对所述统计语言模型进行平滑处理,将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。解决了人工提取口语化句子费时费力问题,考虑了待检测语句中词语之间的搭配信息,提高了自动提取口语化句子的准确度。

实施例二

图2是本发明实施例二中的一种用于口语化句子的提取方法的流程图,本实施例在实施例一的基础上,该方法还包括:如果所述待检测语句被包含在所述训练语句中,则将所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子。本实施例中的用于口语化句子的提取方法包括:步骤S210、步骤S220、步骤S230、步骤S240和步骤S250。

步骤S210,获取训练语句。

步骤S220,对所述训练语句训练得到统计语言模型。

步骤S230,将待检测语句输入所述统计语言模型,如果所述待检测语句没有被包含在所述训练语句中,则对所述统计语言模型进行平滑处理。执行步骤S240,如果所述待检测语句被包含在所述训练语句中,则执行步骤S250。

步骤S240,将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。

步骤S250,则将所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子。

具体的,如果待检测语句被包含在训练语句中,则将待检测语句输入统计语言模型,计算其在统计语言模型中的输出值,根据输出值进行判断。如果输出值大于预设阈值,则认为待检测语句是口语化句子,根据匹配结果输出第二口语化句子,如果输出值小于预设阈值,则认为待检测语句是非口语化句子。

本发明实施例中,通过判断待检测语句是否被包含在训练语句中,计算待检测语句在统计语言模型中的输出值,并根据输出值提取第二口语化句子。对待检测语句包含在训练语句中的情况进行了处理。

实施例三

图3是本发明实施例三中的一种用于口语化句子的提取方法的流程图,本实施例在实施例一和实施例二的基础上,进一步解释了步骤S240和步骤S250,其中,将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子包括:对所述待检测语句进行归一化处理,计算所述待检测语句与所述平滑处理后的统计语言模型的匹配度;当所述匹配度大于预设阈值时,提取所述待检测语句中第一口语化的句子;所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子包括:对所述待检测语句进行归一化处理,计算所述待检测语句与所述统计语言模型的匹配度;当所述匹配度大于预设阈值时,提取所述待检测语句中第二口语化的句子。本实施例中的用于口语化句子的提取方法包括:步骤S310、步骤S320、步骤S330、步骤S3401、步骤S3402、步骤S3501和步骤S3502。

步骤S310,获取训练语句。

步骤S320,对所述训练语句训练得到统计语言模型。

步骤S330,将待检测语句输入所述统计语言模型,如果所述待检测语句没有被包含在所述训练语句中,则对所述统计语言模型进行平滑处理。执行步骤S3401。如果所述待检测语句被包含在所述训练语句中,执行步骤S3402。

步骤S3401,对所述待检测语句进行归一化处理,计算所述待检测语句与所述平滑处理后的统计语言模型的匹配度。

具体的,因为待检测语句的概率是多个待检测词语的概率相乘的结果,而长语句包含的词语或词串的数量更多,所以长语句倾向于得到更小的概率,为了解决待检测语句长度对概率的影响,需要对待检测语句长度做归一化处理,计算待检测语句与平滑处理后的统计语言模型的匹配度。可选的,采用将各个待检测词语的概率取对数并求和,然后除以语句中总词语的个数的归一化处理方式,匹配度用P1表示,其中,L(S)代表语句S总词语的个数,将i取不同值时的取对数并求和,然后除以语句S总词语的个数。

步骤S3501,当所述匹配度大于预设阈值时,提取所述待检测语句中第一口语化的句子。

具体的,预设阈值记为Y,当计算得到的匹配度P1大于Y时,则认为待检测语句为口语化句子,提取待检测语句中的第一口语化句子。可选的,预设阈值Y可以取值为-5。

步骤S3402,对所述待检测语句进行归一化处理,计算所述待检测语句与所述统计语言模型的匹配度。

具体的,如果待检测语句被包含在训练语句中,则不用对统计语言模型进行平滑处理,直接将待检测语句进行归一化处理,计算待检测语句与统计语言模型的匹配度。可选的,匹配度用P2表示,其中,L(S)代表语句S总词语的个数,将i取不同值时的取对数并求和,然后除以语句S总词语的个数。需要说明的是,无论待检测语句是否包含在训练语句中,对待检测语句的归一化处理操作方法可以相同也可以不同,本发明实施例中,针对待检测语句包含在训练语句中和不包含在训练语句中的情况,采用相同的归一化操作方法对待检测语句进行处理。

步骤S3502,当所述匹配度大于预设阈值时,提取所述待检测语句中第二口语化的句子。

具体的,预设阈值记为Y,当计算得到的匹配度P2大于Y时,则认为待检测语句为口语化句子,提取待检测语句中的第二口语化句子。可选的,预设阈值Y可以取值为-5。需要说明的是,预设阈值为用户设定,无论待检测语句是否包含在训练语句中,选择的预设阈值可以相同,也可以不同。

本发明实施例中,通过将待检测语句进行归一化处理,计算待检测语句与统计语言模型或平滑处理后的统计语言模型的匹配度,并将匹配度与预设阈值进行比较,将大于预设阈值的待检测语句提取为口语化句子。实现了对口语化句子的准确提取。

实施例四

图4是本发明实施例四中的一种用于口语化句子的提取方法的流程图,本实施例在实施例一至三的基础上,进一步解释了步骤S110和步骤S130,其中,获取训练语句包括:应用分词算法对所述训练文本进行分词,获取所述训练文本的分词结果;添加标识符将所述训练文本的分词结果划分成若干个训练语句;将待检测语句输入所述统计语言模型包括:应用所述分词算法对所述待检测文本进行分词,获取所述待检测文本的分词结果;添加标识符将所述待检测文本的分词结果划分为若干个待检测语句;将所述待检测语句输入所述统计语言模型。本实施例中的用于口语化句子的提取方法包括:步骤S410、步骤S420、步骤S430、步骤S440、步骤S450、步骤S460和步骤S470。

步骤S410,获取所述训练文本的分词结果。

具体的,获取训练文本,对训练文本进行分词处理。可选的,获取训练文本的方式可以是用网络爬虫从互联网上爬取大量文本作为训练文本。训练文本可以是电影中的字幕语料,其中,电影中的字幕语料中多数为口语化句子。可选的,分词算法一般分为三类:基于字符串匹配、基于理解和基于统计的分词。本实施例中分词算法可以选为基于字符串匹配中的最短路径法,最短路径法用于计算一个节点到其他所有节点的最短路径,主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。可选的,训练文本S1:他就只能站着而已;训练文本S2:再一击就完蛋了;训练文本S3:看到了。对训练文本进行分词,结果为,S1:他就只能站着而已;S2:再一击就完蛋了;S3:看到了。

步骤S420,添加标识符将所述训练文本的分词结果划分成若干个训练语句。

具体的,对训练文本的分词结果添加标识符,用以标识训练文本中训练语句的开始和结束。可选的,在训练语句句首和句尾分别添加<bos>和<eos>,<bos>标识训练语句的开始,<eos>标识训练语句的结束。可选的,以步骤S410中的训练文本的分词结果为例,添加标识符的结果为,S1:<bos>他就只能站着而已<eos>;S2:<bos>再一击就完蛋了<eos>;S3:<bos>看到了<eos>。

步骤S430,对所述训练语句训练得到统计语言模型。

步骤S440,应用所述分词算法对所述待检测文本进行分词,获取所述待检测文本的分词结果。

具体的,为了保证结果的准确性,应用训练文本分词中同样的分词算法对待检测文本进行分词,获取待检测文本的分词结果。可选的,待检测文本S1’:让暴风雨来的更猛烈些吧;S2’:你愿意吗;S3’:他的带兵数量也太离谱了吧。应用训练文本分词中同样的分词算法进行分词,分词结果为,S1’:让暴风雨来的更猛烈些吧;S2’:你愿意吗;S3’:他的带兵数量也太离谱了吧。

步骤S450,添加标识符将所述待检测文本的分词结果划分为若干个待检测语句。

具体的,为了保证结果的准确性,应用训练文本中同样的标识符将待检测文本的分词结果划分为若干个待检测语句。可选的,在待检测语句句首和句尾分别添加<bos>和<eos>,<bos>标识待检测语句的开始,<eos>标识待检测语句的结束。可选的,以步骤S440中的分词结果为例,添加标识符的结果为,S1’:<bos>让暴风雨来的更猛烈些吧<eos>;S2’:<bos>你愿意吗<eos>;S3’:<bos>他的带兵数量也太离谱了吧<eos>。

步骤S460,将待检测语句输入所述统计语言模型,如果所述待检测语句没有被包含在所述训练语句中,则对所述统计语言模型进行平滑处理。

步骤S470,将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。

本发明实施例中,通过应用分词算法对训练文本和待检测文本进行分词,并对训练文本和待检测文本添加标识符以标识训练语句和待检测语句的开始和结束。方便了口语化句子的提取,提高了口语化句子提取的准确度。

为了使方案的表述更易于理解,在上述实施例的基础上,将电影字幕语料作为训练语句,利用n-gram算法生成统计语言模型,利用该统计语言模型对待检测语句进行口语化句子提取。以表1和表2中的待检测语句为例进行匹配度数值的计算,用来提取口语化句子。

表1口语化句子匹配度数值表

表2非口语化句子匹配度数值表

其中,应用3-gram算法生成统计语言模型,将表1和表2中的待检测语句输入统计语言模型进行匹配,得到匹配度数值,可选的,将预设阈值设为-5,匹配度数值大于-5的为口语化句子,匹配度数值小于-5的为非口语化句子。

实施例五

图5是本发明实施例五中的一种口语化句子提取装置的结构图,该装置适用于执行本发明实施例一至四中提供的一种口语化句子的提取方法,该装置具体包括:

获取模块510,用于获取训练语句;

训练模块520,与获取模块510相连,用于对所述训练语句训练得到统计语言模型;

判断模块530,与训练模块520相连,用于将待检测语句输入所述统计语言模型,如果所述待检测语句没有被包含在所述训练语句中,则对所述统计语言模型进行平滑处理;

第一匹配模块540,与判断模块530相连,用于将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。

进一步的,该装置还包括:

第二匹配模块,与判断模块530相连,用于如果所述待检测语句被包含在所述训练语句中,则将所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子。

进一步的,第一匹配模块540具体用于:对所述待检测语句进行归一化处理,计算所述待检测语句与所述统计语言模型的匹配度;

当所述匹配度大于预设阈值时,提取所述待检测语句中第一口语化的句子;

第二匹配模块具体用于:

对所述待检测语句进行归一化处理,计算所述待检测语句与所述平滑处理后的语言模型的匹配度;

当所述匹配度大于预设阈值时,提取所述待检测语句中第二口语化的句子。

进一步的,训练模块520还用于:通过n-gram算法对所述训练语句训练得到统计语言模型,其中,所述n-gram算法为3-gram算法,计算公式为:其中P(S)代表待检测语句S出现的概率,n为3,l为所述待检测语句S中词语的个数,wi代表第i个词语;

判断模块530还用于:根据Katz算法对所述统计语言模型进行平滑处理,其中,所述Katz平滑算法为:

其中,代表应用所述平滑算法处理后的词语wi在词串wi-2wi-1出现的前提下出现的概率;P(wi|wi-1)代表wi在词wi-1出现的前提下出现的概率;P(wi)为词语wi出现的概率;C(wi-2wi-1wi)代表词串wi-2wi-1wi在所述训练数据中出现的次数;C(wi-1wi)代表词串wi-1wi在所述训练数据中出现的次数;P(wi|wi-2wi-1)代表词wi在词串wi-2wi-1出现的前提下出现的概率;α是介于0和1之间的比例系数。

进一步的,获取模块510具体用于:

应用分词算法对所述训练文本进行分词,获取所述训练文本的分词结果;

添加标识符将所述训练文本的分词结果划分成若干个训练语句;

判断模块530具体还用于:

应用所述分词算法对所述待检测文本进行分词,获取所述待检测文本的分词结果;

添加标识符将所述待检测文本的分词结果划分为若干个待检测语句;

将所述待检测语句输入所述统计语言模型。

本发明实施例中,对训练语句训练得到统计语言模型,将待检测语句输入统计语言模型进行检测,判断待检测语句是否被包含在所述训练语句中,如果判断结果为否,则对所述统计语言模型进行平滑处理,将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。解决了人工提取口语化句子费时费力问题,考虑了待检测语句中词语之间的搭配信息,提高了自动提取口语化句子的准确度。

显然,本领域技术人员应该明白,上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1