一种中文分词的方法及装置与流程

文档序号:11154999阅读:来源:国知局

技术特征:

1.一种中文分词的方法,其特征在于,所述方法包括:

对同一个目标字符串分别进行正向匹配分词和逆向匹配分词,分别获得正向分词序列和逆向分词序列;

查找所述正向分词序列和所述逆向分词序列之间的冲突词,所述冲突词包括所述正向分词序列包含、但所述逆向分词序列不包含的第一冲突词,以及所述逆向分词序列包含、但所述正向分词序列不包含的第二冲突词;

计算所述第一冲突词的贡献值,记做第一贡献值;

计算所述第二冲突词的贡献值,记做第二贡献值;

比较所述第一贡献值与所述第二贡献值的大小,将贡献值大的冲突词记做优质冲突词;

将优质冲突词与非冲突词结合,确定目标字符串最终的分词结果。

2.根据权利要求1所述的方法,其特征在于,所述计算所述第一冲突词的贡献值,记做第一贡献值,包括:

按照下述公式计算所述第一贡献值:

R1=F11×L11+F12×L12+F13×L13...+F1n×L1n

其中,R1为所述第一贡献值,F1n为第一冲突词中第n个冲突词的词频值,L1n为第一冲突词中第n个冲突词所在词典表的等级值,n为第一冲突词中冲突词的数量;

所述计算所述第二冲突词的贡献值,记做第二贡献值,包括:

按照下述公式计算所述第二贡献值:

R2=F21×L21+F22×L22+F23×L23...+F2m×L2m

其中,R2为所述第二贡献值,F2m为第二冲突词中第m个冲突词的词频值,L2m为第二冲突词中第m个冲突词所在词典表的等级值,m为第二冲突词中冲突词的数量。

3.根据权利要求2所述的方法,其特征在于,在所述对同一个目标字符串分别进行正向匹配分词和逆向匹配分词之前,所述方法进一步包括:

根据词语类别,将词典中词语分为不同的词典表;

根据所述词典表中词语的使用频率,为所述词典表设置等级值。

4.根据权利要求3所述的方法,其特征在于,所述使用频率与所述等级值成正相关关系。

5.根据权利要求1所述的方法,其特征在于,组成所述第一冲突词的分词在所述正向分词序列中是连续的,组成所述第二冲突词的分词在所述逆向分词序列中是连续的。

6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法进一步包括:

若所述第一贡献值与所述第二贡献值相等,则将所述第一冲突词和所述第二冲突词中的任意一项记做优质冲突词。

7.一种中文分词的装置,其特征在于,所述装置包括:

分词单元,用于对同一个目标字符串分别进行正向匹配分词和逆向匹配分词,分别获得正向分词序列和逆向分词序列;

查找单元,用于查找所述分词单元获得的正向分词序列和所述逆向分词序列之间的冲突词,所述冲突词包括所述正向分词序列包含、但所述逆向分词序列不包含的第一冲突词,以及所述逆向分词序列包含、但所述正向分词序列不包含的第二冲突词;

第一计算单元,用于计算所述查找单元查找到的第一冲突词的贡献值,记做第一贡献值;

第二计算单元,用于计算所述查找单元查找到的第二冲突词的贡献值,记做第二贡献值;

比较单元,用于比较所述第一计算单元得到的第一贡献值与所述第二计算单元得到的第二贡献值的大小,将贡献值大的冲突词记做优质冲突词;

确定单元,用于将由比较单元获得的优质冲突词与非冲突词结合,确定目标字符串最终的分词结果。

8.根据权利要求7所述的装置,其特征在于,所述第一计算单元,用于:

按照下述公式计算所述第一贡献值:

R1=F11×L11+F12×L12+F13×L13...+F1n×L1n

其中,R1为所述第一贡献值,F1n为所述第一冲突词中第n个冲突词的词频值,L1n为所述第一冲突词中第n个冲突词所在词典表的等级值,n为所述第一冲突词中冲突词的数量;

所述第二计算单元,记做第二贡献值,用于:

按照下述公式计算所述第二贡献值:

R2=F21×L21+F22×L22+F23×L23...+F2m×L2m

其中,R2为所述第二贡献值,F2m为所述第二冲突词中第m个冲突词的词频值,L2m为所述第二冲突词中第m个冲突词所在词典表的等级值,m为所述第二冲突词中冲突词的数量。

9.根据权利要求8所述的装置,其特征在于,所述装置进一步包括:

分类单元,用于在所述分词单元将同一个目标字符串分别进行正向匹配分词和逆向匹配分词之前,根据词语类别,将词典中词语分为不同的词典表;

等级值设置单元,用于根据所述分类单元分类的所述词典表中词语的使用频率,为所述词典表设置等级值。

10.根据权利要求9所述的装置,其特征在于,所述等级值设置单元中使用频率与所述等级值成正相关关系。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1