中文分词方法及装置的制作方法

文档序号:6608975阅读:321来源:国知局
专利名称:中文分词方法及装置的制作方法
技术领域
本发明涉及中文信息处理领域,尤其涉及中文信息处理领域使用的一种中文分词方法及装置。
背景技术
对于中文,最小的、能够独立活动的、有意义的语言成分是词,词由单个或多个字构成,一般用得最多的是二字词,其次,是单字词,另外还有一些多字词(如成语、专有名词等)。但是中文以字为基本的书写单位,词与词之间没有类似英文空格之类用于标识词边界的符号,因此,对中文文本中的每个句子进行分词,也就是由机器自动识别句子中词的边界,是中文文本分析处理中首先要解决的问题。
目前,常用的分词方法包括全切分分词方法,最大匹配分词法,最短路径分词法等。其中,最短路径分词法的基本思想是根据词典,找出句子中所有可能的词,构造这些词的有向无环图,每个词对应图中的一条有向边,并给这些有向边赋相应的边长(亦称为权值),此时,分词问题转换为求解从起点到终点最短路径的问题。
如果可以从图中的起点到达终点,则称这两个点之间存在一条路径。通常情况下,从起点到终点可能存在多条路径,而每条路径上经过的边数并不一定相同,因此,路径长度等于路径上各边的权值的总和,起点与终点间路径长度最短的那条路径称为最短路径,其路径长度称为最短路径长度。对于求解最短路径问题,可以采用现有的用于求解最短路径问题的算法,比如,Dijkstra算法。
在求解出最短路径后,该路径经过的边所对应的词便是此次分词的结果。值得注意的,最短路径分词法中求解出的最短路径可能有多条。
以上简要叙述了最短路径分词法的基本原理,以下举例说明最短路径分词法。
假设句子S=C1 C2 Ci Cn,其中,Ci(i=1,2,,n)为单个的字,n为句子S的长度,n≥1。建立一个节点数为n+1的有向无环图,如图1所示,各节点编号依次为V0,V1,V2,,Vn。
通过以下两种方法建立有向无环图所有可能的有向边(1)相邻节点Vk-1,Vk之间建立有向边<Vk-1,Vk>,边的权值为Lk,边对应的词默认为Ck(k=1,2,,n);(2)若w=Ci Ci+1 Cj是词典中的一个词,其中,0<i<j≤n,则需要在节点Vi-1,Vj之间建立有向边<Vi-1,Vj>,边的权值为Lw,边对应的词为w,这样,S中包含的所有词与有向无环图中的边一一对应。根据有向无环图中标示的边的权值,调用用于求解最短路径问题的算法,计算从图中的起点V0到终点Vn的最短路径,得到S的分词结果。
如果S具体为“他说的确实在理”,根据词典,找出该句子所有可能的词为他、说、的、的确、确实、实在、在理、理,由这些词构成的有向无环图如图2所示,为便于计算,假设这些词对应边的权值均为1,那么,从起点0到终点7有如下几条路径路径1经过节点0,1,2,3,4,5,6,7,该路径包括7条有向边,路径的长度为7;路径2经过节点0,1,2,4,5,6,7,该路径包括6条有向边,路径长度为6;路径3经过节点0,1,2,4,6,7,该路径包括5条有向边,路径长度为5;路径4经过节点0,1,2,3,5,6,7,该路径包括6条有向边,路径长度为6;路径5经过节点0,1,2,3,5,7,该路径包括5条有向边,路径长度为5;比较上述路径长度可知,路径3与路径5的长度最短,因此,该句子的分词结果为他、说、的确、实在、理,或者,他、说,的,确实,在理。
由上述分析可知,由于现有的最短路径分词法需要将根据词典得到的原始分词集合转换为有向无环图的形式,并且需要调用求解最短路径的算法,使得分词处理过程比较复杂,不便于实现。

发明内容
本发明要解决的技术问题是提供一种简单的中文分词方法。
为解决上述技术问题,本发明的目的是通过以下技术方案实现的一种中文分词方法,包括为分词集合中的分词赋权值,所述分词集合中的分词按照分词在句子中的位置排序;从所述分词集合的最后一个分词开始,记录当前分词的权值与其在前分词到句尾的距离的和,作为当前分词到句尾的距离,标记该在前分词与当前分词的拼接关系,直到得到分词集合中第一个分词到句尾的距离,及所述第一个分词与其在前分词的拼接关系;其中,所述在前分词为所述当前分词的所有在前分词中到句尾的距离最短的在前分词;从所述分词集合的第一个分词开始,选择所述到句尾的距离最短的句首分词,所述句首分词的第一个字为所述句子的第一个字;从所述句首分词开始,根据所述拼接关系,依次获取拼接关系中所标记的在前分词,直到句子结束。
优选地,上述方法进一步包括对句子进行分词处理,得到所述句子的分词集合;按照分词在句子中的位置,对所述分词集合中的分词进行排序,得到排序后的分词集合。
优选地,若当前分词的至少两个在前分词到句尾的距离相等且最短,则从其中选择在分词集合中排序位置靠前的在前分词,为该当前分词与所述在前分词标记一个拼接关系。
优选地,若至少有两个句首分词到句尾的距离相等且最短;从其中选择在分词集合中排序位置靠前的句首分词。
优选地,分词集合中的每个分词所赋的权值相等或者不相等。
一种中文分词装置,包括赋值单元,用于为分词集合中的分词赋权值,所述分词集合中的分词按照分词在句子中的位置排序;记录单元,用于从所述排序的最后一个分词开始,记录当前分词的权值与其在前分词到句尾的距离的和,作为当前分词到句尾的距离,标记该在前分词与当前分词的拼接关系,直到得到分词集合中第一个分词到句尾的距离,及所述第一个分词与其在前分词的拼接关系;其中,所述在前分词为所述当前分词的所有在前分词中到句尾的距离最短的在前分词;句首分词选择单元,用于从分词集合中的第一个分词开始,选择所述到句尾的距离最短的句首分词,所述句首分词的第一个字为所述句子的第一个字;分词选择单元,用于从所述句首分词开始,根据所述拼接关系,依次获取拼接关系中所标记的在前分词,直到句子结束。
优选地,上述装置进一步包括句子粗分单元,用于对句子进行分词处理,得到所述句子的分词集合;排序单元,用于按照分词在句中的位置,对所述分词集合中的分词进行排序,得到排序后的分词集合。
优选地,若当前分词的至少两个在前分词到句尾的距离相等且最短,则所述记录单元,用于从其中选择在分词集合中排序位置靠前的在前分词,为该当前分词与所述在前分词标记一个拼接关系。
优选地,若至少有两个句首分词到句尾的距离相等且最短,则所述句首分词选择单元,用于从其中选择分词集合中排序位置靠前的句首分词。
优选地,所述赋值单元为分词集合中的每个分词所赋的权值相等或者不相等。
以上技术方案可以看出,由于本发明实施例提供的分词方法中,从分词集合中的最后一个分词开始,依次得到了分词集合中每个分词与当前分词的拼接关系,其中,所述在前分词为所述当前分词的所有在前分词中到句尾的距离最短的在前分词,然后从分词集合中的第一个分词开始,根据所述拼接关系,依次获取拼接关系中标记的在前分词,得到分词结果,因此,本发明实施例所提供的方法采用了两个循环即可得到分词结果,使得分词过程变得简单,降低了分词处理过程的复杂度。


图1所示为最短路径分词法中采用的有向无环图;图2所示为根据“他说的确实在理”得到的有向无环图;图3所示为本发明实施例提供中文分词方法流程图;图4所示为本发明实施例提供的中文分词装置组成示意图。
具体实施例方式
本发明实施例提供的中文分词方法是从包括n个词的分词集合中挑选出m个词,m≤n,这m个词首尾相接后构成一个完整的句子,且无多余的字符。因此,上述分词集合通常指比较详细的带有冗余性的分词集合。此外,分词集合中的每个词也可以称为分词。
其中,所谓比较详细的带有冗余性的分词集合通常指的是采用全切分分词方法对某个句子进行分词处理所得到的分词集合。全切分分词方法是将句子中与词典匹配的所有可能的词切分出来。
比如,句子“他说的确实在理”,采用全切分分词方法得到的分词集合可以是“他、说、的、的确、确、确实、实、实在、在、在理、理”,这个分词集合基本包括了该句子在词典中所有可能的词,因此,这个分词集合是一个比较详细的分词集合,并且由于“确”这个词可以与其相邻的“的”和“实”构成两个词“的确”和“确实”,所以“确”可以被称为带有冗余性的分词。由此可知,全切分分词方法得到的分词集合一般是一个比较详细的且带有冗余性的分词集合。
本发明实施例提供的方法则是对上述比较详细的且带有冗余性的分词集合进行处理,以下为了便于叙述在本发明实施例中出现的分词集合均指上述比较详细的且带有冗余性的分词集合。
以下结合附图并举具体实施例对本发明实施例提供的方法进行详细描述。
本发明实施例提供了一种中文分词方法,如图3所示,该方法包括步骤301为分词集合中的每个分词赋权值,该分词集合中的每个分词按照分词在句子中的位置排序;在具体实现时,可以为每个分词赋不相等的权值,或者,为便于计算,可以为每个分词赋相等的权值,并不影响本发明实施例的实现。
步骤301中的分词集合为比较详细的带有冗余性的分词集合,并且,分词集合中的分词需要按照分词在句子的位置进行排序。
如果分词集合中的分词已按照分词在句子中的位置排序,比如,句子“他说的确实在理”,根据词典,得到的分词集合为他、说、的、的确、确实、实在、在理、理,该分词集合中的分词已按照每个分词在句子中的位置排序,则在本发明实施例提供的方法中不需要包括对分词集合进行排序的步骤。
如果分词集合中的分词没有按照分词在句子中的位置进行排序,则在步骤301之前需要进一步包括步骤301步骤301按照每个分词在句中的位置,对分词集合中的分词进行排序。
步骤302从分词集合中的最后一个分词开始,获取当前分词的所有在前分词到句尾的距离,从中选择到句尾的距离最短的在前分词;其中,在前分词指的是,按照句子的书写顺序位于当前分词之后,且紧邻该当前分词的分词。
并且,分词集合中的分词按照分词在句子中的位置顺序排序,所以本发明实施例中所述分词集合中的最后一个分词指的是在句子中作为句尾分词的分词。
举例说明,比如,句子“他说的确实在理”的分词集合为“他、说、的、的确、确实、实在、在理、理”,该分词集合中的分词已按照分词在句子中的位置排序,很明显此分词集合中的最后一个分词指的是“理”,而“理”是句子“他说的确实在理”的句尾分词。
比如,句子“他说的确实在理”,假设该句子的分词集合为他、说、的、的确、确实、实在、在、在理、理,则“他”的在前分词为“说”,“的确”的在前分词为“实在”,“确实”的在前分词有两个分别为“在”和“在理”,“在理”和“理”均为该句子的句尾词,因此,“在理”和“理”为句尾词,其没有在前分词,具体实现时,可以将句尾词的在前分词定义为该句子的结束符。
由上述例子可以看出,当前分词的在前分词可能有多个,因此,步骤302中选择出的到句尾的距离最短的在前分词可能也有多个。
步骤303用当前分词的权值加上步骤302中选择出的在前分词到句尾的距离,得到当前分词到句尾的距离,记录该距离值,标记该当前分词与其到句尾的距离最短的在前分词的拼接关系;其中,在本发明实施例中所称拼接关系指的是两个分词的相邻关系,也就是当前分词与其在前分词在还原句子时在句中所处的位置关系,比如,此时,当前分词为“确实”,“确实”的在前分词有两个,为“在理”和“在”,假设“在理”到句尾的距离小于“在”到句尾的距离,“确实”到句尾的距离等于其权值加上“在理”到句尾的距离,假设该距离等于2,“确实”与“在理”的拼接关系可以标记为[确实2]->在理,从这个拼接关系,可以获知“确实”到句尾的距离,以及,“确实”与“在理”在还原句子时,“确实“在理”位于“确实”之后且紧邻“确实”。
在上述例子中当前分词到句尾的距离记录在拼接关系中,在本发明其他实施例中,也可以单独记录当前分词到句尾的距离,因此,将当前分词到距离的距离记录在哪里并不影响本发明实施例的实现。
并且,从步骤302中可以得知当前分词到句尾的距离等于该当前分词的权值加上其在前分词到句尾的距离,因为在计算当前分词到句尾的距离时,需要已知当前分词的在前分词到句尾的距离,所以需要从分词集合中的最后一个分词开始计算分词集合中的每个分词到句尾的距离,也就是从在句子中作为句尾分词的分词开始计算分词集合中每个分词到句尾的距离,由于句尾分词没有在前分词,所以分词集合中的最后一个分词到句尾的距离等于其权值,由此可鉴,当前分词到句尾的距离实际等于多个分词的权值的累加。
如果步骤302中选择出的到句尾的距离最短的在前分词为多个,则在步骤303中,可以为当前分词与其每一个到句尾的距离最短的在前分词标记一个拼接关系,或者,从多个到句尾的距离最短的在前分词中,任意选择一个在前分词,为当前分词与该在前分词标记一个拼接关系,或者,为提高分词的准确度,从多个到句尾的距离最短的在前分词中,选择一个在分词集合中排序位置靠前的在前分词,为当前分词与该在前分词标记一个拼接关系。
步骤304判断步骤303中的当前分词是否为分词集合中的第一个分词,如果是,进入步骤305,如果否,则返回步骤302;举例说明步骤302至步骤304的执行过程,比如,句子“他说的确实在理”,假设根据词典,得到的该句子的比较详细的带有冗余性的分词集合为他、他说、说、说的、的、的确、确、确实、实、实在、在、在理、理,该分词集合已按照分词在句中的位置排序,假设步骤301中为每个分词赋相等的权值,权值等于1。
分词集合中的最后一个分词为“理”,从“理”开始执行步骤302,此时,“理”为当前分词。由于“理”为句尾词,所以其没有在前分词,因此,“理”到句尾的距离就等于其本身的权值,等于1,“理”与在前分词的拼接关系可以标记为[理1]->end;由于当前分词为“理”不是分词集合中的第一个分词,返回步骤302;
此时,当前分词为“在理”,“在理”仍为句尾词,所以其没有在前分词,因此,“在理”到句尾的距离就等于其本身的权值,等于1,“在理”与在前分词的拼接关系可以标记为[在理1]->end,同理返回步骤302;此时,当前分词为“在”,“在”的在前分词只有“理”,“在”到句尾的距离等于其权值加上“理”到句尾的距离,等于2,“在”与“理”的拼接关系可以标记为[在2]->理,返回步骤302;此时,当前分词为“实在”,“实在”的在前分词只有“理”,“实在”到句尾的距离等于其权值加上“理”到句尾的距离,等于2,“实在”与“理”的拼接关系可以标记为[实在2]->理,返回步骤302;此时,当前分词为“实”,“实”的在前分词有两个,分别为“在理”和“在”,由前面的计算可知“在理”到句尾的距离为1,“在”到句尾的距离为2,因为“在理”到句尾的距离小于“在”到句尾的距离,所以,“实”到句尾的距离等于其权值加上“在理”到句尾的距离,等于2,“实”与“在理”的拼接关系可以标记为[实2]->在理,返回步骤302;此时,当前分词为“确实”,“确实”的在前分词有两个,为“在理”和“在”,由于“在理”到句尾的距离小于“在”到句尾的距离,“确实”到句尾的距离等于其权值加上“在理”到句尾的距离,等于2,“确实”与“在理”的拼接关系可以标记为[确实2]->在理,返回步骤302;此时,当前分词为“确”,“确”的在前分词有两个,为“实”和“实在”,由前面的计算可知,“实”到句尾的距离等于“实在”到句尾的距离,均等于2,那么,“确”到句尾的距离等于其权值加上“实”或者“实在”到句尾的距离,等于3;如果只需要为当前分词标记一个拼接关系,则为了提高分词的准确度,从“实”和“实在”中选择在分词集合中排序位置靠前的分词“实”,“确”与“实”的拼接关系可以标记为[确3]->实,返回步骤302;或者,如果未限制当前分词的拼接关系数量,则可以为“确”标记两个拼接关系[确3]->实,[确3]->实在,然后,返回步骤302;此时,当前分词为“的确”,“的确”的在前分词有两个,为“实”和“实在”,“实”到句尾的距离等于“实在”到句尾的距离,“的确”到句尾的距离等于其权值加上“实”或者“实在”到句尾的距离,等于3,同理,如果只需要为“的确”标记一个拼接关系,则为了提高分词的准确度,从实”和“实在”选择在分词集合中排序位置靠前的分词“实”,“的确”与“实”拼接关系可以标记为[的确3]->实,然后,返回步骤302;如果不限制“的确”的拼接关系数量,则可以为“的确”标记两个拼接关系[的确3]->实,[的确3]->实在,然后,返回步骤302;同理可得,“的”与其在前分词的拼接关系为[的3]->确实;“说的”与其在前分词的拼接关系为[说的3]->确实;“说”与其在前分词的拼接关系为[说4]->的;“他说”与其在前分词的拼接关系为[他说4]->的;“他”与其在前分词的拼接关系为[他4]->说的,在得到“他”到句尾的距离,以及“他”与其在前分词的拼接关系后,步骤304判断得到步骤303中的当前分词“他”为分词集合中的第一个分词,则进入步骤305;步骤305从分词集合中的第一个分词开始,获取可以作为句首分词的分词,从中选择到句尾的距离最短的分词作为句首分词,句首分词的第一个字为句子的第一个字;其中,可以作为句首分词的分词有多个,那么在多个可作为句首分词的分词中,到句尾的距离最短的分词可能也有多个,当仅需输出一个分词结果时,为了提高分词的准确度,可以从上述多个到句尾的距离最短的分词中,选择在分词集合中排序位置靠前的一个分词作为句首分词,或者任意选择一个分词作为句首分词,并不影响本发明实施例的实现;如果可以输出多个分词结果,则可以选择上述多个到句尾的距离最短的分词。
仍以句子“他说的确实在理”的分词集合“他、他说、说、说的、的、的确、确、确实、实、实在、在、在理、理”为例,可以作为句首分词的分词有两个“他”和“他说”,其中,“他”到句尾的距离为4,“他说”到句尾的距离也为4,如果此时仅需要输出一个分词结果,且需要保证分词的准确度,则选择在分词集合中排序靠前的分词作为句首分词,即选择“他”作为句首分词;如果允许输出多个分词结果,则可以将“他”和“他说”都选择出来。
步骤306从步骤305得到句首分词开始,根据步骤303记录的拼接关系,依次获取拼接关系中所标记的在前分词,直到句子结束。
延用上述分词集合,如果步骤305中选择出的句首分词为“他”,根据步骤303记录的“他”的拼接关系为[他4]->说的,从该拼接关系中得到“他”的在前分词为“说的”,“说的”的拼接关系为[说的3]->确实,从该拼接关系得到的“说的”的在前分词为“确实”,“确实”的拼接关系为[确实2]->在理,从该拼接关系得到的“确实”的在前分词为“在理”,“在理”的拼接关系为[在理1]->end,从该拼接关系得到的“在理”为句子的结束,因此,最终得到的分词结果为他->说的->确实->在理;如果步骤305中选择出的句首分词为“他”和“他说”,则可以得到两个分词结果他->说的->确实->在理,及他说->的->确实->在理。
由上述分词结果可以看出,分词结果中的分词首尾相接后构成“他说的确实在理”,且没有多余的字。
本发明实施例还提供了一种中文分词装置,如图4所示,包括赋值单元401,用于为分词集合中的分词赋权值,该分词集合中的分词按照分词在句子中的位置排序;其中,分词集合中的每个分词所赋的权值可以相等或者可以不相等;赋值单元中的分词集合可以是采用某种分词方法,比如,最大匹配法、最短路径法等,对句子进行分词处理得到比较详细的带有冗余性的分词集合,一般情况下,采用根据词典,查找句子中所有在词典中的词的方法,得到上述分词集合。
记录单元402,用于从分词集合的最后一个分词开始,记录当前分词的权值与其在前分词到句尾的距离的和,作为当前分词到句尾的距离,标记该当前分词与其在前分词的拼接关系,直到得到分词集合中第一个分词到句尾的距离以及其与其在前分词的拼接关系;其中,该在前分词为该当前分词的所有在前分词中到句尾的距离最短的在前分词;如果当前分词有至少两个在前分词到句尾的距离相等且最短,则记录单元402,可以用于为当前分词与其每一个到句尾的距离最短的在前分词标记一个拼接关系;或者,记录单元402,用于从多个到句尾的距离最短的在前分词中,任意选择一个在前分词,为当前分词与该在前分词标记一个拼接关系;或者,为提高分词的准确度,记录单元402从多个到句尾的距离最短的在前分词中,选择一个在分词集合中排序位置靠前的在前分词,为当前分词与该在前分词标记一个拼接关系,并不影响本发明实施例的实现。
句首分词选择单元403,用于从分词集合中的第一个分词开始,获取可以作为句首分词的分词,从中选择到句尾的距离最短的分词作为句首分词;其中,可以作为句首分词的分词的第一个字为句子的第一个字;如果至少有两个句首分词到句尾的距离相等且最短,则句首分词选择单元403,可以选择多个到句尾的距离最短的可作为句首分词的分词;或者,句首分词选择单元403,从多个到句尾的距离最短的可作为句首分词的分词中,任意选择一个分词作为句首分词;或者,为提高分词的准确度,句首分词选择单元403,可以从多个到句尾的距离最短的可作为句首分词的分词中,选择在分词集合中排序位置靠前的一个分词作为句首分词,并不影响本发明实施例的实现。
分词选择单元404,用于从句首分词选择单元403选择的句首分词开始,根据记录单元402记录的拼接关系,依次获取拼接关系中所标记的在前分词,直到句子结束。
举例说明上述中文分词装置的工作过程。
比如,句子“他说的确实在理”,假设该句子的分词集合为他、说、的、的确、确实、实在、在、在理、理,则“他”的在前分词为“说”,“的确”的在前分词为“实在”,“确实”的在前分词有两个分别为“在”和“在理”,“在理”和“理”均为该句子的句尾词,因此,“在理”和“理”没有在前分词,其在前分词可以定义为该句子的结束符。
为便于计算,假设赋值单元401,为上述分词集合中的每个分词赋相等的权值,权值等于1。
如果仅为每个分词标记一个拼接关系,则记录单元402得到的分词集合中的每个分词到句尾的距离,及每个分词与其在前分词的拼接关系为[理1]->end;[在理1]->end;[在2]->理;[实在2]->理;[实2]->在理;[确实2]->在理;[确3]->实;[的确3]->实;[的3]->确实;[说的3]->确实;[说4]->的;[他说4]->的;[他4]->说的。
可以作为句首分词的分词有两个“他”和“他说”,其中,“他”到句尾的距离为4,“他说”到句尾的距离也为4,如果只需要输出一个分词结果,且需要保证分词的准确度,则句首分词选择单元403,从“他”和“他说”中选择在分词集合中排序靠前的分词作为句首分词,即选择“他”作为句首分词。
如果句首分词选择单元403,选择出的句首分词为“他”,分词选择单元404根据记录单元402中记录的“他”的拼接关系为[他4]->说的,从该拼接关系中得到“他”的在前分词为“说的”,“说的”的拼接关系为[说的3]->确实,从该拼接关系得到的“说的”的在前分词为“确实”,“确实”的拼接关系为[确实2]->在理,从该拼接关系得到的“确实”的在前分词为“在理”,“在理”的拼接关系为[在理1]->end,从该拼接关系得到的“在理”为句子的结束,因此,最终得到的分词结果为他->说的->确实->在理。
由上述分词结果可以看出,分词结果中的分词首尾相接后构成“他说的确实在理”,且没有多余的字。
如果要使用该装置对句子进行分词,则在上述装置中进一步包括粗分单元,用于对句子进行分词处理,得到所述句子的分词集合;
排序单元,用于按照分词在句中的位置,对所述分词集合中的分词进行排序,得到排序后的分词集合。
以上对本发明所提供的一种中文分词方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1.一种中文分词方法,其特征在于,包括为分词集合中的分词赋权值,所述分词集合中的分词按照分词在句子中的位置排序;从所述分词集合的最后一个分词开始,记录当前分词的权值与其在前分词到句尾的距离的和,作为当前分词到句尾的距离,标记该在前分词与当前分词的拼接关系,直到得到分词集合中第一个分词到句尾的距离,及所述第一个分词与其在前分词的拼接关系;其中,所述在前分词为所述当前分词的所有在前分词中到句尾的距离最短的在前分词;从所述分词集合的第一个分词开始,选择所述到句尾的距离最短的句首分词,所述句首分词的第一个字为所述句子的第一个字;从所述句首分词开始,根据所述拼接关系,依次获取拼接关系中所标记的在前分词,直到句子结束。
2.如权利要求1所述的方法,其特征在于,所述方法进一步包括对句子进行分词处理,得到所述句子的分词集合;按照分词在句子中的位置,对所述分词集合中的分词进行排序,得到排序后的分词集合。
3.如权利要求1或2所述的方法,其特征在于,若当前分词的至少两个在前分词到句尾的距离相等且最短,则从其中选择在分词集合中排序位置靠前的在前分词,为该当前分词与所述在前分词标记一个拼接关系。
4.如权利要求3所述的方法,其特征在于,若至少有两个句首分词到句尾的距离相等且最短;从其中选择在分词集合中排序位置靠前的句首分词。
5.如权利要求4所述的方法,其特征在于,分词集合中的每个分词所赋的权值相等或者不相等。
6.一种中文分词装置,其特征在于,包括赋值单元,用于为分词集合中的分词赋权值,所述分词集合中的分词按照分词在句子中的位置排序;记录单元,用于从所述排序的最后一个分词开始,记录当前分词的权值与其在前分词到句尾的距离的和,作为当前分词到句尾的距离,标记该在前分词与当前分词的拼接关系,直到得到分词集合中第一个分词到句尾的距离,及所述第一个分词与其在前分词的拼接关系;其中,所述在前分词为所述当前分词的所有在前分词中到句尾的距离最短的在前分词;句首分词选择单元,用于从分词集合中的第一个分词开始,选择所述到句尾的距离最短的句首分词,所述句首分词的第一个字为所述句子的第一个字;分词选择单元,用于从所述句首分词开始,根据所述拼接关系,依次获取拼接关系中所标记的在前分词,直到句子结束。
7.如权利要求6所述的装置,其特征在于,所述装置进一步包括句子粗分单元,用于对句子进行分词处理,得到所述句子的分词集合;排序单元,用于按照分词在句中的位置,对所述分词集合中的分词进行排序,得到排序后的分词集合。
8.如权利要求6或7所述的装置,其特征在于,若当前分词的至少两个在前分词到句尾的距离相等且最短,则所述记录单元,用于从其中选择在分词集合中排序位置靠前的在前分词,为该当前分词与所述在前分词标记一个拼接关系。
9.如权利要求8所述的装置,其特征在于,若至少有两个句首分词到句尾的距离相等且最短,则所述句首分词选择单元,用于从其中选择分词集合中排序位置靠前的句首分词。
10.如权利要求9所述的装置,其特征在于,所述赋值单元为分词集合中的每个分词所赋的权值相等或者不相等。
全文摘要
本发明公开了一种中文分词方法,包括为分词集合中的分词赋权值,所述分词集合中的分词按照分词在句子中的位置排序;从所述分词集合的最后一个分词开始,记录当前分词的权值与其在前分词到句尾的距离的和,作为当前分词到句尾的距离,标记该在前分词与当前分词的拼接关系,直到得到分词集合中第一个分词到句尾的距离,及所述第一个分词与其在前分词的拼接关系;从所述分词集合的第一个分词开始,选择所述到句尾的距离最短的句首分词,所述句首分词的第一个字为所述句子的第一个字;从所述句首分词开始,根据所述拼接关系,依次获取拼接关系中所标记的在前分词,直到句子结束。本发明还公开一种中文分词装置。上述方法或装置降低了分词的复杂度。
文档编号G06F17/28GK101071421SQ20071010208
公开日2007年11月14日 申请日期2007年5月14日 优先权日2007年5月14日
发明者王启明 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1