中文分词方法和装置的制作方法

文档序号:6434104阅读:161来源:国知局
专利名称:中文分词方法和装置的制作方法
技术领域
本发明涉及中文处理领域,具体而言,涉及一种中文分词方法和装置。
背景技术
相关技术提供了一种基于词典的分词方法,此方法又称为机械的分词方法。此方 法需要一个分词词典,主要特点是比较简单,容易实现,但分词速率较慢,容易产生歧义。发明内容
本发明旨在提供一种中文分词方法和装置,以解决相关技术分词速率较慢,容易 产生歧义的问题。
在本发明的实施例中,提供了一种中文分词方法,包括对已分词的语料进行训练 得到CRF模型;采用CRF模型对未分词的语料进行分词;判断分词成功的语料是否满足设 置的条件,如果是,则加入到已分词的语料中;循环执行上述步骤,直至已分词的语料的规 模不再扩大,得到最终的CRF模型。
在本发明的实施例中,提供了一种中文分词装置,包括训练模块,用于对已分词 的语料进行训练得到CRF模型;分词模块,用于采用CRF模型对未分词的语料进行分词; 加入模块,用于判断分词成功的语料是否满足设置的条件,如果是,则加入到已分词的语料 中;循环模块,用于循环调用训练模块、分词模块和加入模块,直至已分词的语料的规模不 再扩大,得到最终的CRF模型。
本发明上述实施例的中文分词方法和装置因为采用CRF技术,所以克服了基于词 典的分词方法分词速率较慢,容易产生歧义的问题,进而达到了提高分词速率,减少分词歧 义的效果。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中
图1示出了根据本发明实施例的中文分词方法的流程图2是跨领域的中文分词的装置图3是分词模型的训练和测试的流程图4是语句筛选的流程图5示出了根据本发明实施例的中文分词装置的示意图具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明实施例的中文分词方法的流程图,包括
步骤S10,对已分词的语料进行训练得到CRF模型;
步骤S20,采用CRF模型对未分词的语料进行分词;
步骤S30,判断分词成功的语料是否满足设置的条件,如果是,则加入到已分词的 语料中;
步骤S40,循环执行上述步骤,直至已分词的语料的规模不再扩大,得到最终的 CRF模型。
基于词典的分词方法分词速率较慢,容易产生歧义,而本实施例采用了 CRF技术, 所以克服了基于词典的分词方法分词速率较慢,容易产生歧义的问题,进而达到了提高分 词速率,减少分词歧义的效果。
条件随机场模型是由Lafferty在2001年提出的一种典型的判别式模型。它在观 测序列的基础上对目标序列进行建模,重点解决序列化标注(在本发明中,标注即分词)的 问题条件随机场模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的 转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最 大熵马尔科夫模型)难以避免的标记偏置问题。
CRF(Conditional random field,条件随机场)理论可以用于序列标记、数据分 割、组块分析等自然语言处理任务中。在中文分词、中文人名识别、歧义消解等汉语自然语 言处理任务中都有应用,表现很好。目前基于CRFs的主要系统实现有CRF,FlexCRF,CRF++。 条件随机场模型是一种无向图模型,它是在给定需要标记的观察序列的条件下,计算整个 标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。即 给定观察序列0,求最佳序列S。
优选地,步骤SlO包括使用有效的字符特征将已分词的语料表示成特征向量形 式,进行训练得到CRF模型。
优选地,使用有效的字符特征将已分词的语料表示成特征向量形式包括
判断已分词的语料中的字符是否是数字,如果是则用标记“N” (Number)表示;
判断已分词的语料中的字符是否是字母,如果是则用标记“L” (Letter)表示;
判断已分词的语料中的字符是否是标点符号(包括中文和西文标点),如果是则 用标记“P” (Puncture)表示;
判断已分词的语料中的字符是否是时间词,如果是则用标记“D” (Date)表示;
如果以上所有判断均为否,则记为“C”(Character),表示除以上四种类型外的所有普通字符。
优选地,采用CRF模型对未分词的语料进行分词包括使用有效的字符特征将未 分词的语料转化为特征向量形式,采用CRF模型进行分词。
优选地,使用有效的字符特征将未分词的语料转化为特征向量形式包括
判断未分词的语料中的字符是否是数字,如果是则用标记“N”表示;
判断未分词的语料中的字符是否是字母,如果是则用标记“L”表示;
判断未分词的语料中的字符是否是标点符号,如果是则用标记“P”表示;
判断未分词的语料中的字符是否是时间词,如果是则用标记“D”表示;
如果以上所有判断均为否,则记为“C”。
优选地,设计合适的特征模板,进行CRF模型的训练,得到初始的统计模型。本发 明优选实施例使用5窗口的特征模板格式,模板格式如下
权利要求
1.一种中文分词方法,其特征在于,包括 对已分词的语料进行训练得到CRF模型; 采用所述CRF模型对未分词的语料进行分词; 判断分词成功的语料是否满足设置的条件,如果是,则加入到所述已分词的语料中; 循环执行上述步骤,直至所述已分词的语料的规模不再扩大,得到最终的CRF模型。
2.根据权利要求1所述的方法,其特征在于,对已分词的语料进行训练得到CRF模型包括 使用有效的字符特征将所述已分词的语料表示成特征向量形式,进行训练得到所述CRF模型。
3.根据权利要求2所述的方法,其特征在于,采用所述CRF模型对未分词的语料进行分词包括 使用所述有效的字符特征将所述未分词的语料转化为特征向量形式,采用所述CRF模型进行分词。
4.根据权利要求3所述的方法,其特征在于,使用有效的字符特征将所述已分词的语料表示成特征向量形式包括判断所述已分词的语料中的字符是否是数字,如果是则用标记“N”表示;判断所述已分词的语料中的字符是否是字母,如果是则用标记“L”表示;判断所述已分词的语料中的字符是否是标点符号,如果是则用标记“P”表示;判断所述已分词的语料中的字符是否是时间词,如果是则用标记“D”表示;如果以上所有判断均为否,则记为 “C,,; 使用所述有效的字符特征将所述未分词的语料转化为特征向量形式包括判断所述未分词的语料中的字符是否是数字,如果是则用标记“N”表示;判断所述未分词的语料中的字符是否是字母,如果是则用标记“L”表示;判断所述未分词的语料中的字符是否是标点符号,如果是则用标记“P”表示;判断所述未分词的语料中的字符是否是时间词,如果是则用标记“D”表示;如果以上所有判断均为否,则记为“C”。
5.根据权利要求1所述的方法,其特征在于,用于训练所述已分词的语料的模板的格式如下
6.根据权利要求1所述的方法,其特征在于,判断所述分词成功的语料的输出概率大于阈值,则将所述分词成功的语料加入到所述已分词的语料中。
7.根据权利要求1所述的方法,其特征在于,在对已分词的语料进行训练之前,还包括以下至少一个步骤 将所述已分词的语料按照中文的语句分隔符“。”、“ ;”、“?”、“! ”分割成意义相对独立的句子; 将所述已分词的语料中连续的非汉字字符作为一个处理单位; 使用B、B2、B3、M、E、S标注所述已分词的语料,B、B2、B3、M、E、S分别表示词组的首字、第二个字、第三个字、第三个字后继的中间字、末尾字以及单字词语。
8.根据权利要求1所述的方法,其特征在于,在采用所述CRF模型对未分词的语料进行分词之前,还包括以下至少一个步骤 将所述未分词的语料按照中文的语句分隔符“。”、“ ;”、“?”、“! ”分割成意义相对独立的句子; 将所述未分词的语料中连续的非汉字字符作为一个处理单位; 使用B、B2、B3、M、E、S标注所述未分词的语料,B、Β2、Β3、M、E、S分别表示词组的首字、第二个字、第三个字、第三个字后继的中间字、末尾字以及单字词语。
9.根据权利要求1所述的方法,其特征在于,还包括 搜索引擎接收用户输入的待搜索内容; 采用最终生成的所述CRF模型对所述待搜索内容进行分词。
10.一种中文分词装置,其特征在于,包括 训练模块,用于对已分词的语料进行训练得到CRF模型; 分词模块,用于采用所述CRF模型对未分词的语料进行分词; 加入模块,用于判断分词成功的语料是否满足设置的条件,如果是,则加入到所述已分词的语料中; 循环模块,用于循环调用所述训练模块、所述分词模块和所述加入模块,直至所述已分词的语料的规模不再扩大,得到最终的CRF模型。
全文摘要
本发明提供了中文分词方法,包括对已分词的语料进行训练得到CRF模型;采用CRF模型对未分词的语料进行分词;判断分词成功的语料是否满足设置的条件,是则加入到已分词的语料中;循环执行上述步骤,直至已分词的语料的规模不再扩大,得到最终的CRF模型。本发明提供了中文分词装置,包括训练模块,用于对已分词的语料进行训练得到CRF模型;分词模块,用于采用CRF模型对未分词的语料进行分词;加入模块,用于判断分词成功的语料是否满足设置的条件,是则加入到已分词的语料中;循环模块,用于循环调用训练模块、分词模块和加入模块,直至已分词的语料的规模不再扩大,得到最终的CRF模型。本发明提高了分词速率,减少了分词歧义。
文档编号G06F17/27GK103020034SQ20111028772
公开日2013年4月3日 申请日期2011年9月26日 优先权日2011年9月26日
发明者秦晓, 万小军, 吴於茜 申请人:北京大学, 北大方正集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1