一种添加标点的方法、系统及其语言模型建立方法、装置制造方法

文档序号:2825919阅读:147来源:国知局
一种添加标点的方法、系统及其语言模型建立方法、装置制造方法
【专利摘要】本申请公开了一种添加标点的方法、系统及其语言模型建立方法、装置。该方法包括:识别待处理语句中的每个词、以及每个词的语义特征;根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征,确定待处理语句中出现的所有特征单元;从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系;根据所述对应关系确定待处理语句中每个词的标点状态的权重,根据每个词的标点状态的权重确定待处理语句的各种标点状态的综合权重,根据所述综合权重为待处理语句添加标点。应用本发明能够提高添加标点的准确性、或提取出语句所蕴含的信息与语句的标点之间的真实关系。
【专利说明】一种添加标点的方法、系统及其语言模型建立方法、装置
【技术领域】
[0001]本申请涉及信息处理【技术领域】,尤其涉及一种添加标点的方法、系统及其语言模型建立方法、装置。
【背景技术】
[0002]在通信领域以及互联网领域,在某些应用场景中需要为一些缺少标点的文件添加标点,例如,为语音文件添加标点。
[0003]关于为语音文件添加标点,目前存在着一种基于说话人的说话时的静音间隔自动添加标点的方案。
[0004]具体地,首先设置静音长短的阈值,如果说话人说话时的静音间隔的长度大于这个阈值,则在这个位置上添加标点,如果不大于所述阈值,则不添加标点。
[0005]简单的依靠说话人说话时的间隔阈值大小添加标点可能会过多的造成标点误加,断句错误等,例如,如果说话人说话的速度很快的话,语句之间没有间隔、或者间隔很短以至于小于阈值,那么整段语句中间将不添加任何标点,如果说话人的说话速度很慢,接近一字一顿的情况,那么整段语句将会有很多的标点,这两种情况都会造成标点添加错误,添加标点的准确性较低。
[0006]针对基于静音长短的阈值为语音文件添加标点的方案所存在的准确性较低的问题,存在一种基于分字处理以及每个字所处位置来添加标点的改进方案。
[0007]在所述改进方案中,首先对语料库中的语句进行分字处理,将待处理语句分成单个字以后,确定每个字在语句中所处的位置,即是处于句子的开始、中间还是结束,并确定每个字后面的标点符号情况,例如有无标点符号等,根据语料库中每个字所处的位置以及每个字后面的标点符号情况建立语言模型,利用建立的语言模型为待处理语句添加标点。
[0008]在所述改进方案中,利用单个字在句子中的位置以及单个字后面是否有标点来建立语言模型,由于所利用的信息有限,且所利用的信息与标点状态的关联性不强,因此所建立的语言模型并不能提取出语句所蕴含的信息与语句的标点状态之间的真实关系。
[0009]由于所述改进方案中所利用的语言模型没有提取出语句所蕴含的信息与语句的标点状态之间的真实关系,因此导致添加标点的准确性仍然较低。

【发明内容】

[0010]本申请提供了一种添加标点的方法、系统及其语言模型建立方法、装置,能够提高添加标点的准确性、或提取出语句所蕴含的信息与语句的标点之间的真实关系。
[0011]—种用于添加标点的语言模型建立方法,该方法包括:
[0012]对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点;
[0013]根据分词处理后的语句中每个词的语义特征,依据预先设定的特征模板,搜索所述语料库中出现的特征单元,根据特征单元中的每个词后面的标点状态,记录所述语料库中每个特征单元的每种标点状态的出现次数;[0014]根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型;
[0015]其中,所述语言模型,用于在从缺少标点的语句中搜索出特征单元时,根据查询请求提供所述语言模型中所述特征单元与自身各种标点状态的权重的对应关系,以便根据所述对应关系为缺少标点的语句添加标点。
[0016]一种用于添加标点的语言模型建立装置,该装置包括分词模块、特征提取和记录模块、建立模块;
[0017]所述分词模块,用于对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点;
[0018]所述特征提取和记录模块,用于根据分词处理后的语句中每个词的语义特征,依据预先设定的特征模板,搜索所述语料库中出现的特征单元,根据特征单元中的每个词后面的标点状态,记录所述语料库中每个特征单元的每种标点状态的出现次数;
[0019]所述建立模块,用于根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语目模型;
[0020]其中,所述语言模型,用于在从缺少标点的语句中搜索出特征单元时,根据查询请求提供所述语言模型中所述特征单元与自身各种标点状态的权重的对应关系,以便根据所述对应关系为缺少标点的语句添加标点。
[0021 ] 一种添加标点的方法,该方法包括:
[0022]识别待处理语句中的每个词、以及每个词的语义特征;
[0023]根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征,确定待处理语句中出现的所有特征单元,其中,所述特征模板包括获取的词的数量、获取词的语义特征,所述特征单元包括词和词的语义特征;
[0024]从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系;
[0025]根据获取的所述对应关系确定待处理语句中每个词的标点状态的权重,根据每个词的标点状态的权重确定待处理语句的各种标点状态的综合权重,根据所述综合权重为待处理语句添加标点,其中,待处理语句的每种标点状态包括该待处理语句中包含的每个词的标点状态。
[0026]一种添加标点的系统,该系统包括识别装置、特征单元提取装置、权重获取装置、综合权重确定装置和标点添加装置;
[0027]所述识别装置,用于识别待处理语句中的每个词、以及每个词的语义特征;
[0028]所述特征提取装置,用于根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征,确定待处理语句中出现的所有特征单元,其中,所述特征模板包括获取的词的数量、获取词的语义特征,所述特征单元包括词和词的语义特征;
[0029]所述权重获取装置,用于从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系;
[0030]所述综合权重确定装置,用于根据获取的所述对应关系确定待处理语句中每个特征单元的标点状态的权重,根据每个特征单元的标点状态的权重确定待处理语句的各种标点状态的综合权重,其中,待处理语句的每种标点状态包括该待处理语句中包含的每个词的标点状态;
[0031]所述标点添加装置,用于根据所述综合权重为待处理语句添加标点。
[0032]由上述技术方案可见,本发明在建立用于添加标点的语言模型时,对语料库中的语句进行的是分词处理,并根据分词处理后的语句中每个词的语义信息为每个词标注语义特征,根据每个词的所述语义特征,依据预先设定的特征模板生成特征单元,从语料库的语句中搜索每个特征单元,记录每个特征单元出现时该特征单元的标点状态,记录特征单元的每种标点状态的出现次数,其中,特征单元的标点状态包括特征单元中每个词的标点状态,根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,所建立的用于添加标点的语言模型包括每个特征单元与自身各种标点状态的权重的对应关系。
[0033]可见,本发明对语料库中的语句进行的是分词处理而非分字处理,并且进一步利用词在语句中的语义特征,建立词的语义特征与词的标点状态的权重关系,由于词在语句中的语义特征往往与词的标点状态有着较强的关联性,因此,通过建立包含所述权重关系的语言模型,能够提取出语句中所蕴含的信息(即所包含的词和词的语义特征)与语句的标点状态的真实关系。
[0034]在为待处理语句添加标点时,通过识别待处理语句中的每个词和每个词的语义特征,根据待处理语句中的词的语义特征从所述语言模型中获取词的语义特征与标点状态的权重关系,根据所述权重关系为待处理语句添加标点,由于在对待处理语句的处理过程中提取出了语句中所蕴含的信息(即语句中所包含的词及其语义特征),并且所述语言模型中包括语句中所蕴含的信息与语句的标点状态的真实关系,因此,在从待处理语句中提取出该待处理语句中包含的词及其语义特征以后,进一步依据所述语言模型中的权重关系添加标点,能够提高添加标点的准确性。
【专利附图】

【附图说明】
[0035]图1是本发明提供的用于添加标点的语言模型建立方法第一流程图。
[0036]图2是本发明提供的用于添加标点的语言模型建立方法第二流程图。
[0037]图3是本发明提供的用于添加标点的语言模型建立装置结构图。
[0038]图4是本发明提供的添加标点的方法流程图。
[0039]图5是本发明提供的添加标点的系统组成示意图。
【具体实施方式】
[0040]图1是本发明提供的用于添加标点的语言模型建立方法第一流程图。
[0041 ] 如图1所示,该第一流程包括:
[0042]步骤101,对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点。
[0043]步骤102,根据分词处理后的语句中每个词的语义特征,依据预先设定的特征模板,搜索所述语料库中出现的特征单元,根据特征单元中的每个词后面的标点状态,记录所述语料库中每个特征单元的每种标点状态的出现次数。[0044]步骤103,根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。
[0045]其中,所述语言模型,用于在从缺少标点的语句中搜索出特征单元时,根据查询请求提供所述语言模型中所述特征单元与自身各种标点状态的权重的对应关系,以便根据所述对应关系为缺少标点的语句添加标点。
[0046]在图1所示方法的步骤102中,可以采用方法一,即预先标注所述语料库的语句中每个词的语义特征和标点状态,然后再根据预设的特征模板搜索所述语料库中出现的特征单元,并记录每个特征单元的每种标点状态的出现次数。也可以采用方法二,即在根据预先设定的特征模板搜索语料库中出现的特征单元时,实时地识别语句中每个词的语义特征以及每个词后面的标点状态。下面以采用所述方法一实现步骤102为例,对图1所示方法进行进一步的详细介绍,具体请参见图2。
[0047]图2是本发明提供的用于添加标点的语言模型建立方法第二流程图。
[0048]如图2所示,该方法包括:
[0049]步骤201,对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点。
[0050]步骤202,根据分词处理后的语句中的每个词在所述语句中的语义信息,为所述每个词标注语义特征,根据在所述语句中所述每个词后面的标点状态信息,为所述每个词标注标点状态。
[0051]步骤203,根据每个词的所述语义特征,依据预先设定的特征模版生成特征单元,所述特征模板包括获取的词的数量、获取词的语义特征,所述特征单元包括词和词的语义特征。
[0052]步骤204,从所述语料库的语句中搜索每个特征单元,记录每个特征单元出现时该特征单元的标点状态,记录该特征单元的每种标点状态的出现次数,其中,特征单元的标点状态包括该特征单元中每个词的标点状态。
[0053]步骤205,根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。
[0054]其中,所述语言模型,用于在从缺少标点的语句中搜索出特征单元时,根据调用请求返回所述语言模型中所述特征单元与自身各种标点状态的权重的对应关系,以便根据所述对应关系为缺少标点的语句添加标点。
[0055]为了提高建立的语言模型的质量,所述语料库中的语句中预先添加的标点的正确率较高,最好都是正确的。
[0056]图2所示流程中,步骤203和步骤204可以在一个过程中实现,例如根据预先设定的特征模板从语料库的语句中提取特征单元,如果提取出的特征单元之前没有出现过,则相当于生成一个新的特征单元、且从语料库的语句中搜索到该新的特征单元的次数为I次。
[0057]在根据语句中的词的语义特征提取特征单元的基础上,还可以进一步利用词的位置信息,所述词的位置信息是词与当前基准位置的相对位置信息,进而提取的特征单元除了包括词、词的语义特征以外,还包括词与当前基准位置的相对位置信息。
[0058]具体地,预先设定的特征模板包括获取的词的数量、获取词的语义特征、获取的词与当前基准位置的相对位置关系需要满足的预定要求,则依据预先设定的特征模板从语句中提取特征单元具体可以包括:
[0059]分别以分词处理后的语句中的每个词所处的位置作为当前基准位置,确定出在所述语句中的位置与当前基准位置的相对位置关系满足所述特征模板要求的词,根据所述相对位置关系满足特征模板要求的词的语义特征和相对位置关系信息生成特征单元,所述特征单元还包括词与当前基准位置的相对位置关系。
[0060]通过包含相对位置关系要求的特征模板,可以确定词与词之间的关联关系,进而根据所述特征模板提取的特征单元包含了词与词之间的关联关系,所述关联关系通常与标点状态存在联系,因此根据所述特征单元与每种标点状态的权重关系建立的语言模型能够更加准确地反映语句所蕴含的信息与标点状态的关系,进而利用所述语言模型能够提高添加标点的准确性。
[0061]根据预先设定的特征模板所要求获取的词的个数,预先设定的特征模板可以包括独词模板和/或多词模板。
[0062]其中,所述独词模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征。
[0063]依据独词模板从语句中提取特征单元时,分别以所述语句中的每个词所处的位置作为所述当前基准位置,根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词,根据该单个词的语义特征确定待处理语句中出现的独词特征单元,所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系。
[0064]所述多词模板包括获取分别与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征。
[0065]依据多词模板从语句中提取特征单元时,分别以所述语句中的每个词所处的位置作为所述当前基准位置,根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词,根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元,所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
[0066]其中,通过对独词模板中与当前基准位置的相对位置关系的要求进行修改,可以获得不同种类的独词模板,例如用于获取当前基准位置的词及其语义特征的独词模板(可以记为模板TOO)、用于获取当前基准位置的前一位置上的词及其语义特征的独词模板(可以记为模板T01)、用于获取当前基准位置的后一位置上的词及其语义特征的独词模板(可以记为模板T02)。
[0067]通过对多词模板中与当前基准位置的相对位置关系的要求进行修改,也可以获得不同种类的多词模板,例如,用于获取当前基准位置的前一位置、当前基准位置、当前基准位置的后一位置上的词及其语义特征的多词模板(可以记为模板T05),用于获取当前基准位置的前两个位置以及当前基准位置上的词及其语义特征的多词模板(可以记为模板T06)。[0068]一个多词模板要求获取的词的个数越多,词之间的关联性越强,进而利用建立的语言模型添加标点的准确性越高,模板的种类越多,对语句中出现的语义特征与标点状态的关联关系的考虑越全面,进而建立的语言模型添加标点的准确性越高。当然,模板的种类越多、一个多词模板要求获取的词的个数越多,建立语言模型所需要的计算量越大,所述语言模型的规模越大,利用建立的语言模型添加标点的信息处理量也越大。
[0069]在步骤205中,根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重时,为了便于操作,可以为每个特征单元赋予标识(ID),建立的语言模型包括特征单元ID、该ID对应的特征单元、以及所述特征单元的各种标点状态的权重信息。
[0070]本发明中,词的语义特征可以包括但不限于该词在当前语句中的词性和/或在当前语句中充当的句子成分。
[0071]下面举一个具体的例子,对图2所示语言模型建立方法进行示例性介绍。
[0072]在该例子中,假设语料库中包括如下的语句:今天天气不错,我们下午去打球,然后去吃饭。
[0073]在利用图2所示方法建立语言模型时,需要执行如下步骤:
[0074]步骤I,对所述语句进行分词。
[0075]对语句“今天天气不错,我们下午去打球,然后去吃饭。”进行分词处理后得到的词包括:今天、天气、不错、我们、下午、去、打球、然后、去、吃饭。
[0076]步骤2,对分词处理后的语句中的每个词进行语义特征标注和标点状态标注。
[0077]作为示例性地,所述语义特征包括词性和句子成分,则对所述语句进行标注后的结果参见表一:
[0078]表一
[0079]
【权利要求】
1.一种用于添加标点的语言模型建立方法,其特征在于,该方法包括: 对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点; 根据分词处理后的语句中每个词的语义特征,依据预先设定的特征模板,搜索所述语料库中出现的特征单元,根据特征单元中的每个词后面的标点状态,记录所述语料库中每个特征单元的每种标点状态的出现次数; 根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型; 其中,所述语言模型,用于在从缺少标点的语句中搜索出特征单元时,根据查询请求提供所述语言模型中所述特征单元与自身各种标点状态的权重的对应关系,以便根据所述对应关系为缺少标点的语句添加标点。
2.根据权利要求1所述的方法,其特征在于,根据分词处理后的语句中每个词的语义特征,依据预先设定的特征模板,搜索所述语料库中出现的特征单元,根据特征单元中的每个词后面的标点状态,记录所述语料库中每个特征单元的每种标点状态的出现次数包括: 根据分词处理后的语句中的每个词在所述语句中的语义信息,为所述每个词标注语义特征,根据在所述语句中所述每个词后面的标点状态信息,为所述每个词标注标点状态;根据每个词的所述语义特征,依据预先设定的特征模版生成特征单元,所述特征模板包括获取的词的数量、获取词的语义特征,所述特征单元包括词和词的语义特征; 从所述语料库的语句中搜索每个特征单元,记录每个特征单元出现时该特征单元的标点状态,记录该特征单元的每种标点状态的出现次数,其中,特征单元的标点状态包括该特征单元中每个词的标点状态。
3.根据权利要求1所述的方法,其特征在于,所述预先设定的特征模板包括获取与当前基准位置的相对位置关系满足预定要求的词,所述依据预先设定的特征模板,搜索所述语料库中出现的特征单元包括: 分别以分词处理后的语句中的每个词所处的位置作为当前基准位置,确定出在所述语句中的位置与当前基准位置的相对位置关系满足所述特征模板要求的词,根据所述相对位置关系满足特征模板要求的词的语义特征和相对位置关系信息生成特征单元,所述特征单元还包括词与当前基准位置的相对位置关系。
4.根据权利要求1或2或3所述的方法,其特征在于,所述预先设定的特征模板包括独词模板,所述独词模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征, 依据预先设定的特征模板,搜索所述语料库中出现的特征单元包括: 分别以所述语句中的每个词所处的位置作为所述当前基准位置,根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词,根据该单个词的语义特征确定待处理语句中出现的独词特征单元,所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系; 和/或,所述预先设定的特征模板包括多词模板,所述多词模板包括获取分别与当前基准位置的相对位置关 系满足预定要求的多个词、以及所述多个词中每个词的语义特征,依据预先设定的特征模板,搜索所述语料库中出现的特征单元包括: 分别以所述语句中的每个词所处的位置作为所述当前基准位置,根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词,根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元,所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
5.根据权利要去I所述的方法,其特征在于,所述语义特征包括词性和/或句子成分。
6.一种用于添加标点的语言模型建立装置,其特征在于,该装置包括分词模块、特征提取和记录模块、建立模块; 所述分词模块,用于对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点; 所述特征提取和记录模 块,用于根据分词处理后的语句中每个词的语义特征,依据预先设定的特征模板,搜索所述语料库中出现的特征单元,根据特征单元中的每个词后面的标点状态,记录所述语料库中每个特征单元的每种标点状态的出现次数; 所述建立模块,用于根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语目模型; 其中,所述语言模型,用于在从缺少标点的语句中搜索出特征单元时,根据查询请求提供所述语言模型中所述特征单元与自身各种标点状态的权重的对应关系,以便根据所述对应关系为缺少标点的语句添加标点。
7.根据权利要求6所述的装置,其特征在于,该装置还包括标注模块; 所述标注模块,用于根据分词处理后的语句中的每个词在所述语句中的语义信息,为所述每个词标注语义特征,根据在所述语句中所述每个词后面的标点状态信息,为所述每个词标注标点状态; 所述特征提取和记录模块,用于根据每个词的所述语义特征,依据预先设定的特征模版生成特征单元,所述特征模板包括获取的词的数量、获取词的语义特征,所述特征单元包括词和词的语义特征,从所述语料库的语句中搜索每个特征单元,记录每个特征单元出现时该特征单元的标点状态,记录该特征单元的每种标点状态的出现次数,其中,特征单元的标点状态包括该特征单元中每个词的标点状态。
8.根据权利要求6所述的装置,其特征在于,所述预先设定的特征模板包括获取与当前基准位置的相对位置关系满足预定要求的词, 所述特征提取和记录模块,用于分别以分词处理后的语句中的每个词作为当前基准位置,确定出在所述语句中的位置与当前基准位置的相对位置关系满足所述特征模板要求的词,根据所述相对位置关系满足特征模板要求的词的语义特征和相对位置关系信息生成特征单元,所述特征单元还包括词与当前基准位置的相对位置关系。
9.根据权利要求6或7或8所述的装置,其特征在于,所述预先设定的特征模板包括独词模板,所述独词模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征, 所述特征提取和记录模块,用于分别以所述语句中的每个词所处的位置作为所述当前基准位置,根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词,根据该单个词的语义特征确定待处理语句中出现的独词特征单元,所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系; 和/或,所述预先设定的特征模板包括多词模板,所述多词模板包括获取分别与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征,所述特征提取和记录模块,用于分别以所述语句中的每个词所处的位置作为所述当前基准位置,根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词,根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元,所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
10.一种添加标点的方法,其特征在于,该方法包括: 识别待处理语句中的每个词、以及每个词的语义特征; 根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征,确定待处理语句中出现的所有 特征单元,其中,所述特征模板包括获取的词的数量、获取词的语义特征,所述特征单元包括词和词的语义特征; 从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系; 根据获取的所述对应关系确定待处理语句中每个词的标点状态的权重,根据每个词的标点状态的权重确定待处理语句的各种标点状态的综合权重,根据所述综合权重为待处理语句添加标点,其中,待处理语句的每种标点状态包括该待处理语句中包含的每个词的标点状态。
11.根据权利要求10所述的方法,其特征在于,所述特征模板还包括获取与当前基准位置的相对位置关系满足预定要求的词,所述特征单元还包括词与当前基准位置的相对位置关系; 所述确定待处理语句中出现的所有特征单元包括: 分别以待处理语句中的每个词所处的位置作为当前基准位置,根据所述特征模板确定与当前基准位置的相对位置关系满足所述特征模板要求的词,根据该词的语义特征确定待处理语句中出现的特征单元。
12.根据权利要求10所述的方法,其特征在于,所述预先设定的特征模板包括独词模板,所述独词模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征, 所述确定待处理语句中出现的所有特征单元包括: 分别以待处理语句中的每个词所处的位置作为当前基准位置,根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词,根据该单个词的语义特征确定待处理语句中出现的独词特征单元,所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系; 和/或,所述预先设定的特征模板包括多词模板,所述多词模板包括获取分别与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征,所述确定待处理语句中出现的所有特征单元包括: 分别以待处理语句中的每个词所处的位置作为当前基准位置,根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词,根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元,所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
13.根据权利要求10所述的方法,其特征在于,从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系包括: 向用于添加标点的语言模型发送携带有特征单元的标识(ID)的查询请求,根据所述特征单元的ID从所述用于添加标点的语言模型中获取相应特征单元与自身各种标点状态的权重的对应关系,其中,所述用于添加标点的语言模型中存储有特征单元的ID、该ID对应的特征单元、以及该特征单元与自身各种标点状态的权重的对应关系。
14.一种添加标点的系统,其特征在于,该系统包括识别装置、特征单元提取装置、权重获取装置、综合权重确定装置和标点添加装置; 所述识别装置,用于识别待处理语句中的每个词、以及每个词的语义特征; 所述特征提取装置,用于根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征,确定待处理语句中出现的所有特征单元,其中,所述特征模板包括获取的词的数量、获取词的语义特征,所述特征单元包括词和词的语义特征; 所述权重获取装置,用于从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系; 所述综合权重确定装置,用于根据获取的所述对应关系确定待处理语句中每个特征单元的标点状态的权重,根据每个特征单元的标点状态的权重确定待处理语句的各种标点状态的综合权重,其中,待处理语句的每种标点状态包括该待处理语句中包含的每个词的标点状态; 所述标点添加装置,用于根据所述综合权重为待处理语句添加标点。
15.根据权利要求14所述的系统,其特征在于,所述特征模板还包括获取与当前基准位置的相对位置关系满足预定要求的词,所述特征单元还包括词与当前基准位置的相对位置关系; 所述特征提取装置,用于分别以待处理语句中的每个词所处的位置作为当前基准位置,根据所述特征模板确定与当前基准位置的相对位置关系满足所述特征模板要求的词,根据该词的语义特征确定待处理语句中出现的特征单元。
16.根据权利要求14或15所述的系统,其特征在于,所述预先设定的特征模板包括独词模板,所述独词模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征, 所述特征提取装置,用于分别以待处理语句中的每个词所处的位置作为当前基准位置,根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词,根据该单个词的语义特征确定待处理语句中出现的独词特征单元,所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系; 和/或,所述预先设定的特征模板包括多词模板,所述多词模板包括获取分别与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征,所述特征提取装置,用于分别以待处理语句中的每个词所处的位置作为当前基准位置,根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词,根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元,所述多词特征单元包括多个词、每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
17.根据权利要求14所述的系统,其特征在于, 所述权重获取装置,用于向用于添加标点的语言模型发送携带有特征单元的标识(ID)的查询请求,根据所述特征单元的ID从所述用于添加标点的语言模型中获取相应特征单元与自身各种标点状态的权重的对应关系,其中,所述用于添加标点的语言模型中存储有特征单元的ID、该ID对应的 特征单元、以及该特征单元与自身各种标点状态的权重的对应关系。
【文档编号】G10L15/26GK103971684SQ201310034265
【公开日】2014年8月6日 申请日期:2013年1月29日 优先权日:2013年1月29日
【发明者】刘海波, 王尔玉, 张翔, 卢鲤, 岳帅, 刘秋阁, 陈波, 刘荐, 李露 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1