一种字符串切分方法及装置与流程

文档序号:12063646阅读:来源:国知局

技术特征:

1.一种字符串切分方法,其特征在于,包括:

确定待切分数英字符串;

确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;

基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。

2.如权利要求1所述的方法,其特征在于,根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型,包括:

若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型,其中,所述查询词语言模型是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;或者,

若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型,其中,针对任一叶子类目,与该叶子类目相对应的物品标题语言模型是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。

3.如权利要求2所述的方法,其特征在于,若所述查询词语言模型为二元语言模型,则所述查询词语言模型是通过以下方式预先建立的:

抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;

通过以下公式统计查询词语料中的每一数英字符串分词Wi的用户搜索次数count(Wi):count(Wi)=∑qpv(q),其中,q表示查询词语料中的包含数英字符串分词Wi的各数英字符串,pv(q)表示包含数英字符串分词Wi的各数英字符串的用户搜索 次数,i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;

通过以下公式统计查询词语料中的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi):count(Wi-1Wi)=∑Qpv(Q),其中,Q表示查询词语料中的包含连续数英字符串分词Wi-1Wi的各数英字符串,pv(Q)表示包含连续数英字符串分词Wi-1Wi的各数英字符串的用户搜索次数;

根据统计到的数英字符串分词Wi的用户搜索次数count(Wi)以及连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi),基于以下公式,建立查询词二元语言模型:

P(Wi|Wi-1)=count(Wi-1Wi)/count(Wi-1),if count(Wi-1Wi)!=0;

P(Wi|Wi-1)=α*count(Wi-1)/C,if count(Wi-1Wi)=0;

其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和,α为设定的平滑因子。

4.如权利要求2所述的方法,其特征在于,针对任一叶子类目,若与所述叶子类目相对应的物品标题语言模型为二元语言模型,则与所述叶子类目相对应的物品标题语言模型是通过以下方式预先建立的:

抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;

统计该叶子类目c下的每个数英字符串分词Wi在物品标题语料的所有物品标题中的出现次数c(Wi),其中,i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;

统计该叶子类目c下的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi);

根据统计到的数英字符串分词Wi的出现次数c(Wi)以及连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi),基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型:

Pc(Wi|Wi-1)=c(Wi-1Wi)/c(Wi-1),if c(Wi-1Wi)!=0;

Pc(Wi|Wi-1)=α*c(Wi-1)/C,if c(Wi-1Wi)=0;

其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和,α为设定的平滑因子。

5.如权利要求1所述的方法,其特征在于,基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果,包括:

确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;

基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和/或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率;所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;

根据计算到的最优切分概率,记录每一步的最优切分分词;

根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。

6.如权利要求5所述的方法,其特征在于,若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词Wi的最优切分概率:

P(Wi,Sk)=maxjP(Wj,Sk-1)*P(Wi|Wj);

其中,P(Wj,Sk-1)表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词Wj的最优切分概率;所述i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述P(Wi|Wj)是根据所选择的字符串切分语言模型所确定的分词Wi与分词Wj的相关概率。

7.一种字符串切分装置,其特征在于,包括:

模型建立模块,用于根据数英字符串语料中的各数英字符串的分词的词频预先建立字符串切分语言模型;

字符串确定模块,用于确定待切分数英字符串;

模型选择模块,用于确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;

字符串切分模块,用于基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。

8.如权利要求7所述的装置,其特征在于,

所述模型选择模块,具体用于若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型,其中,所述查询词语言模型是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;或者,

若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型,其中,针对任一叶子类目,与该叶子类目相对应的物品标题语言模型是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。

9.如权利要求8所述的装置,其特征在于,所述模型建立模块,具体用于通过以下方式预先建立查询词二元语言模型:

抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;

通过以下公式统计查询词语料中的每一数英字符串分词Wi的用户搜索次数count(Wi):count(Wi)=∑qpv(q),其中,q表示查询词语料中的包含数英字符串分词Wi的各数英字符串,pv(q)表示包含数英字符串分词Wi的各数英字符串的用户搜索 次数,i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;

通过以下公式统计查询词语料中的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi):count(Wi-1Wi)=∑Qpv(Q),其中,Q表示查询词语料中的包含连续数英字符串分词Wi-1Wi的各数英字符串,pv(Q)表示包含连续数英字符串分词Wi-1Wi的各数英字符串的用户搜索次数;

根据统计到的数英字符串分词Wi的用户搜索次数count(Wi)以及连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi),基于以下公式,建立查询词二元语言模型:

P(Wi|Wi-1)=count(Wi-1Wi)/count(Wi-1),if count(Wi-1Wi)!=0;

P(Wi|Wi-1)=α*count(Wi-1)/C,if count(Wi-1Wi)=0;

其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和,α为设定的平滑因子。

10.如权利要求8所述的装置,其特征在于,所述模型建立模块,具体用于针对任一叶子类目,通过以下方式预先建立与所述叶子类目相对应的物品标题二元语言模型:

抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;

统计该叶子类目c下的每个数英字符串分词Wi在物品标题语料的所有物品标题中的出现次数c(Wi),其中,i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;

统计该叶子类目c下的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi);

根据统计到的数英字符串分词Wi的出现次数c(Wi)以及连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi),基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型:

Pc(Wi|Wi-1)=c(Wi-1Wi)/c(Wi-1),if c(Wi-1Wi)!=0;

Pc(Wi|Wi-1)=α*c(Wi-1)/C,if c(Wi-1Wi)=0;

其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和,α为设定的平滑因子。

11.如权利要求7所述的装置,其特征在于,

所述字符串切分模块,具体用于确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和/或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率,所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;根据计算到的最优切分概率,记录每一步的最优切分分词;根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。

12.如权利要求11所述的装置,其特征在于,

所述字符串切分模块,具体用于若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词Wi的最优切分概率:

P(Wi,Sk)=maxjP(Wj,Sk-1)*P(Wi|Wj);

其中,P(Wj,Sk-1)表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词Wj的最优切分概率;所述i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述P(Wi|Wj)是根据所选择的字符串切分语言模型所确定的分词Wi与分词Wj的相关概率。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1