分词方法和分词系统的制作方法

文档序号:10534811阅读:254来源:国知局
分词方法和分词系统的制作方法
【专利摘要】本发明公开了一种分词方法和分词系统,所述方法包括:接收输入的待测文本;根据预设划分标识对待测文本进行划分;根据预先建立的字典分别对各个新文本进行正向最大匹配分词和反向最大匹配分词;比较两次匹配后的分词结果是否相同;当比较结果相同时,输出任意一个匹配后的分词结果;当比较结果不同时,根据所述字典分别计算两次匹配后的分词结果中各个词的词频;判断两次匹配后的分词结果中各个词的词频是否符合第一要求;当判定不符合时,根据所述字典分别判断两次匹配后的分词结果的语法是否正确;当判定正向匹配分词结果的语法正确时,输出正向匹配分词结果,否则输出反向匹配分词结果。本发明提高分词速度和准确率,满足实际应用需要。
【专利说明】
分词方法和分词系统
技术领域
[0001]本发明涉及文本分析技术领域,特别是涉及一种分词方法和分词系统。
【背景技术】
[0002]中文和大部分语言不一样,是通过字组合为词来表达意思,词与词直接没有空格或者其他分隔。理解一段中文文本,必须要把该文本的词划分出来。
[0003]中文分词是中文信息处理中最为基础、最为重要的问题,是汉语文本自动标注、搜索引擎、机器翻译、语音识别等工作中的关键步骤,属于自然语言处理范畴,分词的质量直接影响了结果的准确性。
[0004]但是现有的中文分词方法分词速度慢、准确率低,是目前中文信息处理技术中急需解决的问题。

【发明内容】

[0005]基于上述情况,本发明提出了一种分词方法和分词系统,提高中文分词速度和准确率,满足实际应用需要。
[0006]为了实现上述目的,本发明技术方案的实施例为:
[0007]—种分词方法,包括以下步骤:
[0008]接收输入的待测文本;
[0009]根据预设划分标识对所述待测文本进行划分,得到若干个新文本;
[0010]根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;
[0011]比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;
[0012]当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;
[0013]当比较两次匹配后的分词结果不同时,根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;
[0014]判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求;
[0015]当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;
[0016]当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。
[0017]—种分词系统,包括:
[0018]文本接收模块,用于接收输入的待测文本;
[0019]文本划分模块,用于根据预设划分标识对所述待测文本进行划分,得到若干个新文本;
[0020]匹配分词模块,用于根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;
[0021]结果比较模块,用于比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;
[0022]第一分词结果输出模块,用于当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;
[0023]词频计算模块,用于当比较两次匹配后的分词结果不同时,根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;
[0024]词频判断模块,用于判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求;
[0025]语法判断模块,用于当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;
[0026]第二分词结果输出模块,用于当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。
[0027]与现有技术相比,本发明的有益效果为:本发明分词方法和分词系统,采用三阶段分词,第一阶段使用字典分别进行正向最大匹配分词和反向最大匹配分词;第二阶段对比两次匹配后的分词结果,如果两种结果一致,则分词结束,如果不一致,则使用字典中的词频信息计算两次匹配后的分词结果的词频;第三阶段判断词频高低,如果两种匹配的词频差不符合预设第一条件,使用字典中的语法信息,判断两次匹配后的分词结果的语法是否正确,根据判断结果输出相应的分词结果。对于一些简单的语句,使用第一个阶段就可以完成分词,对于复杂的语句,可以通过词频和语法获得正确的分词结果,兼顾速度和准确率。
【附图说明】
[0028]图1为一个实施例中分词方法流程图;
[0029]图2为一个实施例中字典树的结构示意图;
[0030]图3为基于图1所示方法一个具体示例中分词方法流程图;
[0031]图4为一个实施例中分词系统结构不意图。
【具体实施方式】
[0032]为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的【具体实施方式】仅仅用以解释本发明,并不限定本发明的保护范围。
[0033 ] 一个实施例中分词方法,如图1所示,包括以下步骤:
[0034]步骤SlOl:接收输入的待测文本;
[0035]步骤S102:根据预设划分标识对所述待测文本进行划分,得到若干个新文本;
[0036]步骤S103:根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;
[0037]步骤S104:比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;
[0038]步骤S105:当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;
[0039]步骤S106:当比较两次匹配后的分词结果不同时,根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;
[0040]步骤S107:判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求;
[0041]步骤S108:当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;
[0042]步骤S109:当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。
[0043]从以上描述可知,本发明分词方法,采用三阶段分词法,对于一些简单的语句,使用第一个阶段就可以完成分词,对于复杂的语句,可以通过词频和语法获得正确的分词结果,提高分词速度和准确率,适合实际应用。
[0044]此外,在一个具体示例中,判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求的步骤包括:
[0045]根据计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频,计算所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和与所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和的差值;
[0046]判断所述差值的绝对值是否大于预设差值阈值。
[0047]首先分别计算第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和;然后计算两种匹配的词频总和的差值,判断所述差值是否大于预设差值阈值,根据判断结果输出分词结果,或者使用字典中的语法信息,判断两次匹配后的分词结果的语法是否正确。
[0048]此外,在一个具体示例中,当判定所述差值的绝对值大于所述预设差值阈值时,所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和大于所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则,输出所述第一新文本进行反向最大匹配分词后的分词结果。
[0049]当判定两种匹配的词频总和的差值大于预设差值阈值时,输出词频总和高的分词结果,提高分词结果的准确率。
[0050]此外,在一个具体示例中,所述字典采用字典树的方法进行保存,每个词在字典树里保存预设数目个字节的信息,所述信息包括词的词频、语法和语义分析结果。例如“股票”的语义分析结果为金融词汇,这样可以一次性进行分词和文本分析,一个实施例中“中国”,“中间”,“中间人”这3个词在字典树里面的结构如图2所示,采用字典树方式保存信息可以利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率高。
[0051]此外,在一个具体示例中,所述语法包括词的词类,以及每个词类对应的前一个词类和后一个词类,所述词类包括名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词。根据字典中保存的语法判断两种匹配的语法是否正确,输出语法正确的匹配结果,解决现有分词结果准确率低问题。
[0052]为了更好地理解上述方法,以下详细阐述一个本发明分词方法的应用实例。
[0053]如图3所示,该应用实例可以包括以下步骤:
[0054]步骤S301:根据百度百科中的词汇建立字典,所述字典采用字典树的方法进行保存,每个词在字典树里保存255个字节的信息,所述信息包括词的词频、语法和语义分析结果,例如“股票”的语义分析结果为金融词汇,这样可以一次性进行分词和文本分析,一个实施例中“中国”,“中间”,“中间人”这3个词在字典树里面的结构如图2所示,采用字典树方式保存信息可以利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率高;
[0055]步骤S302:接收输入的待测文本;
[0056]步骤S303:根据预设划分标识对所述待测文本进行划分,得到若干个新文本;
[0057]步骤S304:根据上述字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;
[0058]步骤S305:比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;
[0059]步骤S306:当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;
[0060]如“我们买篮球”,正向最大匹配分词从第一个字开始往后扫描,匹配到的词的顺序是:“我们”,“买”,“篮球”,而反向最大匹配分词从最后一个字开始往前扫描,匹配到的词的顺序是:“篮球”,“买”,“我们”;将正向最大匹配分词匹配到的词的顺序的第一位与反向最大匹配分词匹配到的词的顺序的倒数第一位进行比较,都是“我们”,以此类推,将正向最大匹配分词匹配到的词的顺序的第二位与反向最大匹配分词匹配到的词的顺序的倒数第二位进行比较,都是“买”,将正向最大匹配分词匹配到的词的顺序的第三位与反向最大匹配分词匹配到的词的顺序的倒数第三位进行比较,都是“篮球”;比较两次匹配后的分词结果相同,输出进行正向最大匹配分词或反向最大匹配分词后的分词结果;
[0061]步骤S307:当比较两次匹配后的分词结果不同时,根据上述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;
[0062]步骤S308:根据计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频,计算所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和与所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和的差值;
[0063]步骤S309:判断所述差值的绝对值是否大于预设差值阈值;
[0064]步骤S310:当判定所述差值的绝对值大于所述预设差值阈值时,所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和大于所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则,输出所述第一新文本进行反向最大匹配分词后的分词结果;
[0065]步骤S311:当判定所述差值的绝对值小于或等于所述预设差值阈值时,根据上述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;所述语法包括词的词类,以及每个词类对应的前一个词类和后一个词类,所述词类包括名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词;
[0066]步骤S312:当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。
[0067]从以上描述可知,本实施例采用三阶段分词法,第一阶段使用字典分别进行正向最大匹配分词和反向最大匹配分词;第二阶段对比两次匹配后的分词结果,如果两种结果一致,则分词结束,如果不一致,则使用字典中的词频信息计算两次匹配后的分词结果的词频;第三阶段判断词频高低,如果两种匹配的词频总和的差值大于预设阈值,则输出词频总和大的分词结果,否则使用字典中的语法信息,判断两次匹配后的分词结果的语法是否正确,根据判断结果输出相应的分词结果。本发明对于一些简单的语句,使用第一个阶段就可以完成分词,对于复杂的语句,可以通过词频和语法获得正确的分词结果,兼顾速度和准确率;所述字典采用字典树的方法进行保存,利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率高,每个词在字典树里保存预设数目个字节的信息,所述信息包括词的词频、语法和语义分析结果,可以一次性进行分词和文本分析。
[0068]—个实施例中分词系统,如图4所不,包括:
[0069]文本接收模块401,用于接收输入的待测文本;
[0070]文本划分模块402,用于根据预设划分标识对所述待测文本进行划分,得到若干个新文本;
[0071]匹配分词模块403,用于根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;
[0072]结果比较模块404,用于比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;
[0073]第一分词结果输出模块405,用于当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;
[0074]词频计算模块406,用于当比较两次匹配后的分词结果不同时,根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;
[0075]词频判断模块407,用于判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求;
[0076]语法判断模块408,用于当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;
[0077]第二分词结果输出模块409,用于当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。
[0078I 如图4所示,在一个具体示例中,所述词频判断模块407包括:
[0079]差值计算单元4071,用于根据计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频,计算所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和与所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和的差值;
[0080]词频判断单元4072,用于判断所述差值的绝对值是否大于预设差值阈值。
[0081]首先分别计算第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和;然后计算两种匹配的词频总和的差值,判断所述差值是否大于预设差值阈值,根据判断结果输出分词结果,或者使用字典中的语法信息,判断两次匹配后的分词结果的语法是否正确。
[0082]如图4所示,在一个具体示例中,所述分词系统还包括第三分词结果输出模块410,用于当所述词频判断模块407判定所述差值的绝对值大于所述预设差值阈值时,所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和大于所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则,输出所述第一新文本进行反向最大匹配分词后的分词结果O
[0083]当判定两种匹配的词频总和的差值大于预设差值阈值时,输出词频总和高的分词结果,提高分词结果的准确率。
[0084]此外,在一个具体示例中,所述字典采用字典树的方法进行保存,每个词在字典树里保存预设数目个字节的信息,所述信息包括词的词频、语法和语义分析结果。例如“股票”的语义分析结果为金融词汇,这样可以一次性进行分词和文本分析,一个实施例中“中国”,“中间”,“中间人”这3个词在字典树里面的结构如图2所示,采用字典树方式保存信息可以利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率高。
[0085]此外,在一个具体示例中,所述语法包括词的词类,以及每个词类对应的前一个词类和后一个词类,所述词类包括名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词。根据字典中保存的语法判断两种匹配的语法是否正确,输出语法正确的匹配结果,解决现有分词结果准确率低问题。
[0086]基于图4所示的本实施例的系统,一个具体的工作过程可以是如下所述:
[0087 ]首先文本接收模块401接收输入的待测文本;然后文本划分模块40 2根据预设划分标识对所述待测文本进行划分,得到若干个新文本;匹配分词模块403根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;结果比较模块404比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;当比较两次匹配后的分词结果相同时,第一分词结果输出模块405输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;当比较两次匹配后的分词结果不同时,词频计算模块406根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;词频判断模块407中的差值计算单元4071根据计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频,计算所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和与所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和的差值;词频判断单元4072判断所述差值的绝对值是否大于预设差值阈值;当所述词频判断模块407判定所述差值的绝对值大于所述预设差值阈值时,所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和大于所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和,所述第三分词结果输出模块410输出所述第一新文本进行正向最大匹配分词后的分词结果,否则,输出所述第一新文本进行反向最大匹配分词后的分词结果;当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,语法判断模块408根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,第二分词结果输出模块409输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。
[0088]从以上描述可知,本发明分词系统,采用三阶段分词法,第一阶段使用字典分别进行正向最大匹配分词和反向最大匹配分词;第二阶段对比两次匹配后的分词结果,如果两种结果一致,则分词结束,如果不一致,则使用字典中的词频信息计算两次匹配后的分词结果的词频;第三阶段判断词频高低,如果两种匹配的词频总和的差值大于预设阈值,则输出词频总和大的分词结果,否则使用字典中的语法信息,判断两次匹配后的分词结果的语法是否正确,根据判断结果输出相应的分词结果,提高分词速度和准确率,适合实际应用。
[0089]以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0090]以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
【主权项】
1.一种分词方法,其特征在于,包括以下步骤: 接收输入的待测文本; 根据预设划分标识对所述待测文本进行划分,得到若干个新文本; 根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词; 比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本; 当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果; 当比较两次匹配后的分词结果不同时,根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频; 判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求; 当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确; 当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。2.根据权利要求1所述的分词方法,其特征在于,判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求的步骤包括: 根据计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频,计算所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和与所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和的差值; 判断所述差值的绝对值是否大于预设差值阈值。3.根据权利要求2所述的分词方法,其特征在于,当判定所述差值的绝对值大于所述预设差值阈值时,所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和大于所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则,输出所述第一新文本进行反向最大匹配分词后的分词结果。4.根据权利要求1所述的分词方法,其特征在于,所述字典采用字典树的方法进行保存,每个词在字典树里保存预设数目个字节的信息,所述信息包括词的词频、语法和语义分析结果。5.根据权利要求1至4中任意一项所述的分词方法,其特征在于,所述语法包括词的词类,以及每个词类对应的前一个词类和后一个词类,所述词类包括名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词。6.—种分词系统,其特征在于,包括: 文本接收模块,用于接收输入的待测文本; 文本划分模块,用于根据预设划分标识对所述待测文本进行划分,得到若干个新文本;匹配分词模块,用于根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词; 结果比较模块,用于比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本; 第一分词结果输出模块,用于当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果; 词频计算模块,用于当比较两次匹配后的分词结果不同时,根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;词频判断模块,用于判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求; 语法判断模块,用于当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确; 第二分词结果输出模块,用于当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。7.根据权利要求6所述的分词系统,其特征在于,所述词频判断模块包括: 差值计算单元,用于根据计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频,计算所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和与所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和的差值; 词频判断单元,用于判断所述差值的绝对值是否大于预设差值阈值。8.根据权利要求7所述的分词系统,其特征在于,还包括第三分词结果输出模块,用于当所述词频判断模块判定所述差值的绝对值大于所述预设差值阈值时,所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和大于所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则,输出所述第一新文本进行反向最大匹配分词后的分词结果。9.根据权利要求6所述的分词系统,其特征在于,所述字典采用字典树的方法进行保存,每个词在字典树里保存预设数目个字节的信息,所述信息包括词的词频、语法和语义分析结果。10.根据权利要求6至9中任意一项所述的分词系统,其特征在于,所述语法包括词的词类,以及每个词类对应的前一个词类和后一个词类,所述词类包括名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词。
【文档编号】G06F17/27GK105893353SQ201610251640
【公开日】2016年8月24日
【申请日】2016年4月20日
【发明人】陈炳标
【申请人】广东万丈金数信息技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1