一种中文分词方法及系统的制作方法

文档序号:6574003阅读:242来源:国知局
专利名称:一种中文分词方法及系统的制作方法
技术领域
本发明涉及中文信息处理领域,更具体地说,涉及一种中文分词方法及系统。
背景技术
中文信息处理技术现已在计算机网络、数据库技术、软件工程等计算机领域得到了广泛应用,而中文自动分词是中文信息处理的一项重要的基础性工作,许多中文信息处理项目中都涉及到分词问题,如机器翻译、自动文摘、自动分类、中文文献库全文检索、搜索引擎等。由于中文文本是连写的,词之间没有空格,因而在中文文本处理中,首先遇到的问题是分词的问题,词的正确切分是进行中文文本处理的必要条件。
中文分词算法可分为三大类,即基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法(1)基于字符串匹配的分词方法又称为机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,从而识别出一个词。(2)基于理解的分词方法是指,在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象,它模拟了人对句子的理解过程,需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词方法还不够成熟。(3)基于统计的分词方法的理论基础是,从形式上看词是稳定的字的组合,因此在上下文中相邻的字同时出现的次数越多,就越有可能构成一个词。因此可以对文本中相邻共现的各个字的组合的频度进行统计,即计算一个字组中字与字间的相邻共现概率,当该概率高于某一个阈值时,便可认为此字组可能构成了一个词。统计分词方法切分出来的词都是带有概率信息的,最后通过在所有可能的切分结果中选出一种概率最大的分词结果,这种方法具有自动消除歧义的优点,目前这种方法是分词的主流方法。
在一种现有的分词方法中,具体步骤如下A.将输入文本切分为单个原子;B.从切分得到的原子序列中识别出词典已收录词汇,简称为词典词;C.利用系统中保存的常见歧义词切分表,对识别出的词典词进行切分排歧;D.然后在切分排歧的基础上,进一步识别具有规律性的特定词(如时间词、数词、人名、地名等),最后输出分词结果。
上述现有技术的方法存在以下弊端词典词切分、歧义词的切分排歧以及特定词识别是几个相互独立的阶段,这样会导致前一阶段出现的错误将传导至后一阶段,无法及时修正,使得最终输出的分词结果错误。例如,若最初输入的句子是“王芳是研究生物的。”,经过词典词切分(可采用正向最大匹配算法)后的结果是“王/芳/是/研究生/物/的/。”,可知出现了“研究生/物”的切分错误;歧义词的切分排歧阶段主要是利用系统保存的常见歧义词切分表,而常见歧义词切分表存在一个致命缺陷,其永远也涵盖不了所有的语言歧义现象,不具有很好的扩展性,若在该例中没有包含“研究生物”这个项的话,那么“研究生/物”的切分错误就不会被纠正过来;在下一阶段,利用时间数词表、人名姓氏表和地名后缀表进行特定词识别,最终输出的分词结果则为“王芳/是/研究生/物/的/。”,这个结果仍然延续了词典词切分阶段出现的错误。
因此需要一种新的中文分词方法,提高中文分词的准确性。

发明内容
本发明的目的在于提供一种中文分词系统,旨在解决现有的中文分词方法准确性较低的问题。
本发明的目的还在于提供一种中文分词方法,以更好地解决现有技术中存在的上述问题。
为了实现发明目的,所述中文分词系统,包括输入输出单元、原子切分单元、词典词切分单元和特定词识别单元,所述系统还包括一个切分词图单元和一个分词路径生成单元;所述切分词图单元与原子切分单元、词典词切分单元及特定词识别单元相连,用于将原子切分单元、词典词切分单元及特定词识别单元的独立分词结果分别保存在切分词图中;所述分词路径生成单元与切分词图单元相连,用于根据切分词图中的各独立分词结果生成一条最优分词路径,并按照所述最优分词路径输出综合分词结果。
优选地,所述特定词识别单元包括时间数词识别模块、人名识别模块、地名识别模块;所述时间数词识别模块存有一个时间数词表,用于识别时间词和数词,并将所述时间词和数词保存到切分词图中;所述人名识别模块存有一个人名姓氏表,用于识别人名,并将所述人名保存到切分词图中;所述地名识别模块存有一个地名后缀表,用于识别地名,并将所述地名保存到切分词图中。
优选地,所述特定词识别单元进一步包括一个与所述时间数词识别模块、人名识别模块、地名识别模块分别相连的启动配置模块;所述启动配置模块用于对所述时间数词识别模块、人名识别模块、地名识别模块进行有选择的启动。
优选地,所述分词路径生成单元进一步用于根据所述各独立分词结果的概率信息,计算所述切分词图中每个结点的词弧概率,并将词弧概率乘积最大的分词路径作为最优分词路径。
为了更好地实现发明目的,所述中文分词方法基于前述的中文分词系统,包括以下步骤A.对输入的中文文本进行原子切分,并根据所得的原子序列建立初始的切分词图;B.基于原子序列分别进行词典词切分和特定词识别,并将各自的独立分词结果添加到所述切分词图中;C.根据所述切分词图中的各独立分词结果生成一条最优分词路径,并按照所述最优分词路径输出综合分词结果。
优选地,所述步骤A之前还包括在所述中文分词系统中存入词典及特定词表;所述词典收录常用词汇;所述特定词表包括时间数词表、人名姓氏表、地名后缀表。
优选地,所述步骤B中进行词典词切分的步骤包括,采取正向最大匹配算法将所述原子序列与词典中收录的词汇进行对比,将所匹配的词汇确定为词典词。
优选地,所述步骤B中的特定词识别包括执行以下三类操作中的至少一者利用所述时间数词表识别时间词和数词;
利用所述人名姓氏表识别人名;利用所述地名后缀表识别地名。
优选地,所述步骤C进一步包括根据所述各独立分词结果的概率信息,计算所述切分词图中每个结点的词弧概率,并将词弧概率乘积最大的分词路径作为最优分词路径。
优选地,所述独立分词结果的概率信息包括词典词的概率信息及特定词的概率信息;所述词典词的概率信息是指词典所收录词汇具有的成词概率;所述特定词的概率信息是指隐马尔可夫模型中的初始概率、发射概率和转移概率。
本发明基于中文文本的原子序列分别进行词典词切分和特定词识别,根据各自的独立分词结果生成一条最优分词路径,最终按照该最优分词路径输出综合分词结果,从而提高了中文分词的准确性。另外,在特定词识别中,根据具体情况有选择地启动对各类特定词的识别,提高了中文分词的效率。


图1是本发明的中文分词系统结构图;图2是图1所示系统在一个实施例中特定词识别单元的内部结构图;图3是图1所示系统在另一实施例中特定词识别单元的内部结构图;图4是本发明的中文分词方法流程图;图5是本发明一个实施例中的中文分词方法流程图;图6是本发明的一个实施例中进行原子切分后的切分词图的示意图;图7是本发明的一个实施例中进行特定词识别后的切分词图的示意图。
具体实施例方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明通过将输入的中文文本进行原子切分,并基于原子序列分别进行词典词切分和特定词识别,将各自的独立分词结果添加到切分词图中,再根据切分词图中的各独立分词结果生成一条最优分词路径,最终按照该最优分词路径输出综合分词结果。由于本发明的技术方案对各个阶段的处理进行了综合考虑,避免了顺序执行时的错误传导,从而提高了中文分词的准确性。
图1示出了本发明的中文分词系统的结构,该系统可应用于多种终端设备中,例如个人计算机(Personal Computer,PC)、个人数字助理(Personal DigitalAssistant,PDA)、移动电话(Mobile Phone,MP)等,因此本发明的中文分词系统不应限定应用于某种特定类型的终端设备。
该中文分词系统包括输入输出单元100、原子切分单元200、词典词切分单元300、特定词识别单元400、切分词图单元500和分词路径生成单元600,各个功能单元之间进行信息交互。应当说明的是,本发明所有图示中各设备之间的连接关系是为了清楚阐释其信息交互及控制过程的需要,因此应当视为逻辑上的连接关系,而不应仅限于物理连接。其中(1)输入输出单元100主要执行以下功能输入原始的中文文本,并输出最终的分词结果。
(2)原子切分单元200与输入输出单元100相连,且与词典词切分单元300、特定词识别单元400及切分词图单元500分别相连,用于对输入输出单元100所输入的原始的中文文本进行原子切分,得到原子序列,并根据原子序列建立初始的切分词图,保存到切分词图单元500中。关于本发明中所称的原子,作出如下说明每个中文句子(包括词语、短语、完整的语句等)均包含多个结点,每两个结点之间的字符串即为一个原子。例如,若输入的原始的中文文本为“他是一名教师。”,那么该文本包含8个结点(用符号“●”表示)、7个原子,那么原子切分后的结果即为“●他●是●一●名●教●师●。●”,也就是切分词图单元500中建立的初始切分词图。
该切分词图中,每两个结点之间存在一条词弧(如图6所示),每条词弧均带有概率信息。对于词典词,其概率信息是指词典所收录词汇具有的成词概率;对于特定词,其概率信息指的是隐马尔可夫模型(Hidden Markov Model,HMM)中的初始概率、发射概率和转移概率信息。
(3)词典词切分单元300与原子切分单元200及切分词图单元500相连,其存储有词典(收录有大量常用词汇),从而基于原子切分单元200进行原子切分后所得的原子序列进行词典词切分,识别出所有在词典中收录的词,并添加到切分词图中。
在一个示例方案中,词典词切分单元300采取正向最大匹配算法进行词典词切分。具体过程包括首先设定一个查找词的最大长度N(如10个汉字),然后从句首开始向后扫描,与词典中收录的词汇进行对比,从而查找到一个长度最长的词;然后从该词之后一个字继续查找,重复以上过程直到句尾。例如,句子“王芳是研究生物的。”的正向最大匹配分词结果为“王/芳/是/研究生/物/的/。”(4)特定词识别单元400与原子切分单元200及切分词图单元500相连,用于识别出各种特定词,包括时间词、数词、人名、地名等。其内部相应的存有多个特定词表,从而与原子序列进行对比,识别出上述的各类特定词。
在一个示例方案中,如图2所示,该特定词识别单元400进一步包括时间数词识别模块401、人名识别模块402、地名识别模块403。其中(1)时间数词识别模块401内部存有一个时间数词表,与原子序列中的时间词及数词进行对比;(2)人名识别模块402存有一个人名姓氏表,和一个汉字角色概率表(代表汉字作为词典中未登录词的每个部分的概率),以“王芳是研究生物的”这个中文文本为例从句首开始向后扫描,当遇到“王”字,通过查看人名姓氏表,发现这是一个姓氏,则查看“王”字后面两个字,若每个字作为人名的概率都大于一个阈值,则认为这是一个人名,该例中“芳”字作为人名的概率大于阈值,而“是”作为人名的概率低于阈值,则识别出“王芳”为一个人名(3)地名识别模块403与人名识别模块402类似,其存有一个地名后缀表和一个汉字角色概率表,以同样的方式识别出地名。当然,本发明还可对其他种类的特定词进行识别,因此特定词识别单元400并不限于包括以上的几个模块。
在另一示例方案中,如图3所示,该特定词识别单元400除包括时间数词识别模块401、人名识别模块402、地名识别模块403,还包括一个启动配置模块404,与前述的三个模块分别相连,用于根据具体情况,对时间数词识别模块401、人名识别模块402、地名识别模块403进行有选择的启动。因为在实际情况中,不一定要进行所有种类的特定词识别,若进行有选择的识别则可提高中文分词效率。在该示例方案的一个实施例中,其具体实现过程是首先设置一个用于初始化阶段运行的的配置文件<?xml version=″1.0″encoding=″GB2312″?>
<TseSegment>
<!--是否进行时间数词识别,1为是,0为否-->
<NumTime>1</NumTime>
<!--是否进行人名识别,1为是,0为否-->
<Person>1</Person>
<!--是否进行地名识别,1为是,0为否-->
<Location>1</Location>
</TseSegment>
该段配置文件中具有三个配置项NumTime、Person、Location,分别代表时间数词、人名和地名,可各自增加一个全局变量来指示是否需要某个模块,如下//配置开关boolg_bIsNumTime;boolg_bIsPerson;boolg_bIsLocation。
从而在程序初始化时对这几个变量进行赋值,然后在分词过程中分别对这几个变量的值进行判断如果值为1,则进行相应模块的操作,否则就忽略此模块。
本发明中,词典词切分单元300和特定词识别单元400所执行的操作是相互独立的,没有先后顺序,可以并行处理,得到各自的独立分词结果,并送入切分词图单元500中。
(5)切分词图单元500与原子切分单元200、词典词切分单元300及特定词识别单元400分别相连,用于将原子切分单元200、词典词切分单元300及特定词识别单元400的独立分词结果分别保存在切分词图中。
(6)分词路径生成单元600与切分词图单元500相连,用于根据切分词图中的各独立分词结果生成一条最优分词路径,并按照最优分词路径输出综合分词结果。
在一个示例方案中,最优分词路径是指词弧概率乘积最大的分词路径。如图7所示,生成最优分词路径的过程详述如下图7的切分词图中共有7个结点,序号设为0到6。从左到右扫描所有结点,设当前结点的概率值为m,前向结点的最大概率值为a,前向结点和当前结点组成的弧的概率值为b,那么当前结点的概率值m=a*b;比较这些计算出来的概率,保留一个最大的概率和对应的前向结点。循环上述过程,一直到处理完最后一个结点时,每一个结点都保存了其前向结点的信息,这样从最后一个结点往前回溯,就可以生成一个最优的分词路径。例如,若当前处理到了结点5,其前向结点有结点2和结点4,因此从结点0到结点5有两条分词路径(1)“结点0-结点2-结点5”,其中结点2到结点5的弧代表词“张会鹏”;(2)“结点0-结点4-结点5”,结点4到结点5的弧是“鹏”。根据各个词的概率以及词弧概率,可计算得知,结点0到结点2的最大概率乘以“张会鹏”的概率要大于结点0到结点4的概率乘以“鹏”的概率。于是结点0到结点5的最大概率分词路径中,结点5的前向结点应该为2。
图4示出了本发明的中文分词方法流程,该方法流程基于图1、图2、图3所示的系统结构,具体过程如下在执行本发明的所有步骤之前,词典词切分单元300中存有词典,收录有大量常用词汇。特定词识别单元400中存有多个特定词表,包括时间数词表、人名姓氏表、地名后缀表和汉字角色概率表等。
在步骤S401中,原子切分单元200对输入的中文文本进行原子切分,得到原子序列,并根据原子序列建立初始的切分词图,保存到切分词图单元500中。关于本发明中所称的原子,作出如下说明每个中文句子(包括词语、短语、完整的语句等)均包含多个结点,每两个结点之间的字符串即为一个原子。例如,若输入的原始的中文文本为“他是一名教师。”,那么该文本包含8个结点(用符号“●”表示)、7个原子,那么原子切分后的结果即为“●他●是●一●名●教●师●。●”,也就是切分词图单元500中建立的初始切分词图。
该切分词图中,每两个结点之间存在一条词弧(如图6所示),每条词弧均带有概率信息。对于词典词,其概率信息即词典中带有的词的概率信息;对于特定词,其概率信息指的是隐马尔可夫模型(Hidden Markov Model,HMM)中的初始概率、发射概率和转移概率信息。
在步骤S402中,词典词切分单元300和特定词识别单元400基于原子序列分别进行词典词切分和特定词识别,并将各自的独立分词结果添加到所述切分词图中。应当说明的是,在本发明中,词典词切分单元300和特定词识别单元400所执行的操作是相互独立的,没有先后顺序,可以并行处理,得到各自的独立分词结果,并送入切分词图单元500中。
词典词切分单元300存储有收录了大量常用词汇的词典,从而可基于原子序列进行词典词切分,识别出所有在词典中收录的词,并添加到切分词图中。
特定词识别单元400内部存有多个特定词表,从而与原子序列进行对比,识别出时间词、数词、人名、地名等各类特定词。
在步骤S403中,根据所述切分词图中的各独立分词结果生成一条最优分词路径,并按照所述最优分词路径输出综合分词结果。
在上述步骤的一个示例方案中,分词路径生成单元600用于根据各独立分词结果的概率信息,计算切分词图中每个结点的词弧概率,并将词弧概率乘积最大的分词路径作为最优分词路径。本发明中所称的独立分词结果的概率信息,包括词典词的概率信息及特定词的概率信息,其中,词典词的概率信息是指词典所收录词汇具有的成词概率,特定词的概率信息是指隐马尔可夫模型中的初始概率、发射概率和转移概率。在上述示例方案的一个实施例中,如图7所示,切分词图中共有7个结点,序号设为0到6。从左到右扫描所有结点,设当前结点的概率值为m,前向结点的最大概率值为a,前向结点和当前结点组成的弧的概率值为b,那么当前结点的概率值m=a*b;比较这些计算出来的概率,保留一个最大的概率和对应的前向结点。循环上述过程,一直到处理完最后一个结点时,每一个结点都保存了其前向结点的信息,这样从最后一个结点往前回溯,就可以生成一个最优的分词路径。
图5示出了本发明的一个实施例的中文分词方法流程,该方法流程基于1、图2、图3所示的系统结构,具体过程如下在执行本发明的所有步骤之前,词典词切分单元300中存有词典,收录有大量常用词汇。特定词识别单元400中存有多个特定词表,包括时间数词表、人名姓氏表、地名后缀表和汉字角色概率表等。
在步骤S501中,利用输入输出单元100输入原始的中文文本。
在步骤S502中,利用原子切分单元200对输入的中文文本进行原子切分,得到原子序列,并根据原子序列建立初始的切分词图,保存到切分词图单元500中。关于本发明中所称的原子,作出如下说明每个中文句子(包括词语、短语、完整的语句等)均包含多个结点,每两个结点之间的字符串即为一个原子。例如,若输入的原始的中文文本为“他是一名教师。”,那么该文本包含8个结点(用符号“●”表示)、7个原子,那么原子切分后的结果即为“●他●是●一●名●教●师●。●”,也就是切分词图单元500中建立的初始切分词图。
该切分词图中,每两个结点之间存在一条词弧(如图6所示),每条词弧均带有概率信息。对于词典词,其概率信息即词典中带有的词的概率信息;对于特定词,其概率信息指的是隐马尔可夫模型(Hidden Markov Model,HMM)中的初始概率、发射概率和转移概率信息。
在步骤S503中,词典词切分单元300基于原子序列识别出文本中的词典词,并添加到切分词图中。由于词典词切分单元300存储有收录了大量常用词汇的词典,从而可基于原子序列进行词典词切分,识别出所有在词典中收录的词,并添加到切分词图中。其具体实现过程与现有技术相似。
在一个示例方案中,词典词切分单元300采取正向最大匹配算法进行词典词切分。本发明所称的正向最大匹配算法的具体过程包括首先设定一个查找词的最大长度N(如10个汉字),然后从句首开始向后扫描,与词典中收录的词汇进行对比,从而查找到一个长度最长的词;然后从该词之后一个字继续查找,重复以上过程直到句尾。例如,句子“王芳是研究生物的。”的正向最大匹配分词结果为“王/芳/是/研究生/物/的/。”在步骤S504中,特定词识别单元400基于原子序列识别出文本中的特定词,并添加到切分词图中。由于特定词识别单元400内部存有多个特定词表,从而与原子序列进行对比,识别出时间词、数词、人名、地名等各类特定词。
在一个示例方案中,上述步骤基于图2所示的特定词识别单元400,该特定词识别单元400包括时间数词识别模块401、人名识别模块402、地名识别模块403。其中(1)时间数词识别模块401内部存有一个时间数词表,与原子序列中的时间词及数词进行对比;(2)人名识别模块402存有一个人名姓氏表,和一个汉字角色概率表(代表汉字作为词典中未登录词的每个部分的概率),以“王芳是研究生物的”这个中文文本为例从句首开始向后扫描,当遇到“王”字,通过查看人名姓氏表,发现这是一个姓氏,则查看“王”字后面两个字,若每个字作为人名的概率都大于一个阈值,则认为这是一个人名,该例中“芳”字作为人名的概率大于阈值,而“是”作为人名的概率低于阈值,则识别出“王芳”为一个人名(3)地名识别模块403与人名识别模块402类似,其存有一个地名后缀表和一个汉字角色概率表,以同样的方式识别出地名。当然,本发明还可对其他种类的特定词进行识别,因此特定词识别单元400并不限于包括以上的几个模块。
在另一示例方案中,上述步骤基于图3所示的特定词识别单元400,该特定词识别单元400除包括时间数词识别模块401、人名识别模块402、地名识别模块403,还包括一个启动配置模块404,与前述的三个模块分别相连,用于根据具体情况,对时间数词识别模块401、人名识别模块402、地名识别模块403进行有选择的启动。因为在实际情况中,不一定要进行所有种类的特定词识别,若进行有选择的识别则可提高中文分词效率。在该示例方案的一个实施例中,其具体实现过程是首先设置一个用于初始化阶段运行的的配置文件<?xml version=″1.0″encoding=″GB2312″?>
<TseSegment>
<!--是否进行时间数词识别,1为是,0为否-->
<NumTime>1</NumTime>
<!--是否进行人名识别,1为是,0为否-->
<Person>1</Person>
<!--是否进行地名识别,1为是,0为否-->
<Location>1</Location>
</TseSegment>
该段配置文件中具有三个配置项NumTime、Person、Location,分别代表时间数词、人名和地名,可各自增加一个全局变量来指示是否需要某个模块,如下//配置开关boolg_bIsNumTime;boolg_bIsPerson;boolg_bIsLocation。
从而在程序初始化时对这几个变量进行赋值,然后在分词过程中分别对这几个变量的值进行判断如果值为1,则进行相应模块的操作,否则就忽略此模块。
在步骤S505中,分词路径生成单元600根据切分词图生成一条最优的分词路径。
在上述步骤的一个示例方案中,分词路径生成单元600用于根据各独立分词结果的概率信息,计算切分词图中每个结点的词弧概率,并将词弧概率乘积最大的分词路径作为最优分词路径。本发明中所称的独立分词结果的概率信息,包括词典词的概率信息及特定词的概率信息,其中,词典词的概率信息是指词典所收录词汇具有的成词概率,特定词的概率信息是指隐马尔可夫模型中的初始概率、发射概率和转移概率。在上述示例方案的一个实施例中,如图7所示,切分词图中共有7个结点,序号设为0到6。从左到右扫描所有结点,设当前结点的概率值为m,前向结点的最大概率值为a,前向结点和当前结点组成的弧的概率值为b,那么当前结点的概率值m=a*b;比较这些计算出来的概率,保留一个最大的概率和对应的前向结点。循环上述过程,一直到处理完最后一个结点时,每一个结点都保存了其前向结点的信息,这样从最后一个结点往前回溯,就可以生成一个最优的分词路径。
在步骤S506中,输入输出单元100按照最优的分词路径输出分词结果,在前述的实施例中,若最初输入的原始中文文本为“我是张会鹏。”,那么按照图7中最优的分词路径输出的分词结果为“我/是/张会鹏。”。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种中文分词系统,包括输入输出单元、原子切分单元、词典词切分单元和特定词识别单元,其特征在于,所述系统还包括一个切分词图单元和一个分词路径生成单元;所述切分词图单元与原子切分单元、词典词切分单元及特定词识别单元相连,用于将原子切分单元、词典词切分单元及特定词识别单元的独立分词结果分别保存在切分词图中;所述分词路径生成单元与切分词图单元相连,用于根据切分词图中的各独立分词结果生成一条最优分词路径,并按照所述最优分词路径输出综合分词结果。
2.根据权利要求1所述的中文分词系统,其特征在于,所述特定词识别单元包括时间数词识别模块、人名识别模块、地名识别模块;所述时间数词识别模块存有一个时间数词表,用于识别时间词和数词,并将所述时间词和数词保存到切分词图中;所述人名识别模块存有一个人名姓氏表,用于识别人名,并将所述人名保存到切分词图中;所述地名识别模块存有一个地名后缀表,用于识别地名,并将所述地名保存到切分词图中。
3.根据权利要求2所述的中文分词系统,其特征在于,所述特定词识别单元进一步包括一个与所述时间数词识别模块、人名识别模块、地名识别模块分别相连的启动配置模块;所述启动配置模块用于对所述时间数词识别模块、人名识别模块、地名识别模块进行有选择的启动。
4.根据权利要求1所述的中文分词系统,其特征在于,所述分词路径生成单元进一步用于根据所述各独立分词结果的概率信息,计算所述切分词图中每个结点的词弧概率,并将词弧概率乘积最大的分词路径作为最优分词路径。
5.一种基于如权利要求1所述中文分词系统的中文分词方法,其特征在于,所述方法包括以下步骤A.对输入的中文文本进行原子切分,并根据所得的原子序列建立初始的切分词图;B.基于原子序列分别进行词典词切分和特定词识别,并将各自的独立分词结果添加到所述切分词图中;C.根据所述切分词图中的各独立分词结果生成一条最优分词路径,并按照所述最优分词路径输出综合分词结果。
6.根据权利要求5所述的中文分词方法,其特征在于,所述步骤A之前还包括在所述中文分词系统中存入词典及特定词表;所述词典收录常用词汇;所述特定词表包括时间数词表、人名姓氏表、地名后缀表。
7.根据权利要求6所述的中文分词方法,其特征在于,所述步骤B中进行词典词切分的步骤包括,采取正向最大匹配算法将所述原子序列与词典中收录的词汇进行对比,将所匹配的词汇确定为词典词。
8.根据权利要求6所述的中文分词方法,其特征在于,所述步骤B中的特定词识别包括执行以下三类操作中的至少一者利用所述时间数词表识别时间词和数词;利用所述人名姓氏表识别人名;利用所述地名后缀表识别地名。
9.根据权利要求5至8中任一权利要求所述的中文分词方法,其特征在于,所述步骤C进一步包括根据所述各独立分词结果的概率信息,计算所述切分词图中每个结点的词弧概率,并将词弧概率乘积最大的分词路径作为最优分词路径。
10.根据权利要求9所述的中文分词方法,其特征在于,所述独立分词结果的概率信息包括词典词的概率信息及特定词的概率信息;所述词典词的概率信息是指词典所收录词汇具有的成词概率;所述特定词的概率信息是指隐马尔可夫模型中的初始概率、发射概率和转移概率。
全文摘要
本发明涉及中文信息处理领域,提供了一种中文分词方法及系统。所述方法包括以下步骤A.对输入的中文文本进行原子切分,并根据所得的原子序列建立初始的切分词图;B.基于原子序列分别进行词典词切分和特定词识别,并将各自的独立分词结果添加到所述切分词图中;C.根据所述切分词图中的各独立分词结果生成一条最优分词路径,并按照所述最优分词路径输出综合分词结果。本发明基于中文文本的原子序列分别进行词典词切分和特定词识别,根据各自的独立分词结果生成一条最优分词路径,最终按照该最优分词路径输出综合分词结果,从而提高了中文分词的准确性。另外,在特定词识别中,根据具体情况有选择地启动对各类特定词的识别,提高了中文分词的效率。
文档编号G06F17/27GK101082908SQ20071007613
公开日2007年12月5日 申请日期2007年6月26日 优先权日2007年6月26日
发明者张会鹏 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1