一种计算机拆分汉语句子的方法

文档序号:8282263阅读:594来源:国知局
一种计算机拆分汉语句子的方法
【技术领域】
[0001]本发明属于计算机技术领域,尤其涉及一种计算机拆分汉语句子的方法。
【背景技术】
[0002]现代汉语句子是语言表达和信息交流的主要工具,而在计算机软件领域中,汉语句子的拆分一直是句子分析中的重点和难点。汉语句子的基本组成元素是单个汉字,而表达汉语基本意思的基本单位则是由若干个汉字组成的词,所以要对整个汉语句子进行分析,首先要能够对句子进行基本的汉字词拆分。由于单个的汉字大多具有多个意思,与不同的汉字组合在一起又构成了意思差别很大的不同的词,每个词也可能具有多重意思,因此,这给汉语句子的正确拆分带来了相当大的难度。
[0003]目前现有的句子拆分方法有很多,基本上都是基于词库检索遍历算法,有些还加上歧义解决算法等。这些方法在计算机软件实现时都普遍存算法复杂、运算量大,以及多义字词拆分不准确等缺点。

【发明内容】

[0004]为了解决现有技术中存在的上述问题,本发明提供一种将化学领域中的一些概念引入到汉语句子分析中,通过与化学元素分析类似的方法来分析句子,通过代码简单、运算量小的计算机软件实现对整个汉语句子进行准确、快速的拆分,为汉语句子分析提供有效基础保证的计算机拆分汉语句子的方法。
[0005]为实现上述发明目的,本发明提供的技术方案为:一种计算机拆分汉语句子的方法,其包括以下步骤:
[0006]步骤SI,建立基础数据库;所述基础数据库包括基础词库和可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库;
[0007]步骤S2,将需要被拆分的汉语句子与步骤SI中建立的基础词库进行匹配比对,将需要被拆分的汉语句子拆分成词;
[0008]步骤S3,将步骤S2中拆分得到的词进行词性分类处理;
[0009]步骤S4,对词性分类处理后的词进行重新组合成汉语短语;即完成对被拆汉语句子的拆分。
[0010]所述步骤SI中建立的基础词库包括汉字词、英文字母、数字和其它汉语语句中使用的通用字符。
[0011]所述基础词库中的汉字词包括日常用语、诗词、网络常用词和特殊名称用词。
[0012]所述基础词库存储在计算机内的代码为Unicode编码或者汉字国际GB码。
[0013]所述汉字组词优先原则判断数据库是根据日常生活中汉字的实际使用频率和使用惯例通过穷举法进行归纳总结而得出的优先组合词组。
[0014]所述步骤SI中建立的基础词库中词的尺度范围为I至9 ;其中基础词库中汉字词的尺度定义为汉字词中汉字的个数,英文字母的尺度定义为1,数字的尺度定义为1,其它汉语语句中使用的通用字符也定义为I。
[0015]所述步骤S2中将需要被拆分的汉语句子拆分成词的具体过程如下:
[0016]步骤S21,首先,依次使用基础词库中尺度为9至I的汉字词遍历需要被拆分的汉语句子;
[0017]步骤S22,将上述需要被拆分的汉语句子中遍历出来的汉字词的首个汉字和最后个汉字分别运用汉字组词优先原则判断数据库进行判断对比;该判断对比的过程为:如果该汉字词的首个汉字与在需要被拆分汉语句子中位于其后的组词能力强于该汉字词的首个汉字与在需要被拆分汉语句子中位于其前的组词能力,且该汉字词的最后个汉字与在需要被拆分汉语句子中位于其后的组词能力弱于该汉字词的最后个汉字与在需要被拆分汉语句子中位于其前的组词能力,则认为该次匹配正确;如果该汉字词的首个汉字与在需要被拆分汉语句子中位于其后的组词能力若于该汉字词的首个汉字与在需要被拆分汉语句子中位于其前的组词能力,或者该汉字词的最后个汉字与在需要被拆分汉语句子中位于其后的组词能力强于该汉字词的最后个汉字与在需要被拆分汉语句子中位于其前的组词能力,则认为该次匹配不正确,同时将匹配不正确的汉字词拆开重新遍历基础词库直至所有的拆分出来的汉字词都判断为匹配正确。
[0018]所述步骤S3中对拆分得到的词进行词性分类处理为将拆分得到的词分别分为汉字词、英文字母串、数字串和其它符号串。
[0019]所述汉字词分类处理为中心词、前修饰词、后修饰词;所述中心词分为名词、动词和数词;前修饰词分为名词前修饰词和动词前修饰词;后修饰词分为名词后修饰词、动词后修饰词和量词。
[0020]所述步骤S4中对词性分类处理后的词进行重新组合成汉语短语的具体过程为:将英文字母串和其它符号形成组合成独立的汉语短语;数字串组合成汉字词中的数词;并且将中心词分类组合成名词短语、动词短语和数词短语。
[0021]本发明的有益效果为:
[0022]本发明将化学领域中的一些概念引入到汉语句子分析中,通过与化学元素分析类似的方法来分析句子,通过代码简单、运算量小的计算机软件实现,对整个汉语句子进行准确、快速的拆分,为汉语句子分析提供有效的基础保证。
【附图说明】
[0023]图1为本发明所编写计算软件的基础数据和逻辑算法示意图。
[0024]图2为离子化合算法的流程示意图。
【具体实施方式】
[0025]为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实例并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
[0026]在化学领域中,构成各种元素的基本单位是原子,原子再结合成离子和分子,不同原子、离子和分子的排列组合构成了不同的物质。同样,构成句子的基本单位是字,字再组合成词、词又组合成短语,不同的字、词和短语的排列组合够成了不同的句子。因此,可以将单个字比作一个化学原子,单个词比作一个化学离子、单个短语比作一个化学分子,分别称作原子字、离子词和分子短语。原子与原子间的结合靠“化学键”的作用,字与字、词、短语间的结合同样可称为“作用键”。因为字在句子中的出现是有先后顺序的,所以字之间的作用键要分为“前向键”和“后向键”,类似与化学中的“氧化性”和“还原性”。当一个具有氧化性的原子与一个具有还原性的原子遇到一起,往往可以结合成一个分子;同样,当一个前向键的字和一个后向键字碰到一起,这两个字就结合成一个“离子词”。一个字如果已经跟前面的字结合,但后面的字的前向键作用力更强,这个字就有可能被“拉扯”过来结合成新的离子词,原来的离子词被打破。因此,定义了作用键的强度,就可以基本解决句子中某字前后都是合法词时的分歧拆分问题。
[0027]当给出一个句子需要进行拆分时,类似于化学领域中给定若干个元素符号而求解出化学分子式,针对该句子中的若干个原子字,根据作用键的方向和强度,让这些原子字彼此化合成离子词,再根据离子性质进一步化合成分子短语,短语的先后排列形成了整个句子,进而就完成了对整个句子的合理拆分。因为汉字在句子中的出现顺序已经特定,所以句子拆分比求解分子式还要相对简单:在化合时,每个字只可能与它前一个字或后一个相邻的字结合,句子中的其他有间隔的字则不必考虑。
[0028]离子词中字的个数,以及分子词组中离子词的个数,称为词和词组的“尺度”。类似于化学中元素的“化合价”属性,每个字、词、短语也有其固有的价值属性,即“作用价”,分另IJ称为“字性”、“词性”、“语性”。词中的字根据位置可以分为“首字”,“中间字”和“尾字”;短语中的词根据其位置和词性可以分为“前修身词”、“中心词”和“后修饰词”。
[0029]本发明对句子拆分时,与传统意义上的“拆分”不同,采取的是类似于化学反应的“逆向化合”方法,让字(原子)化合成词(离子),词(离子)再聚合成短语(分子)。基于以上定义,算法上采用“尺度优先遍历” + “作用键竞争”的原则,经过离子化合、离子词性处理、分子短语聚合等步骤,完成句子一短语一词一字的全面拆分。
[0030]本发明采用编写计算软件来实现对汉语句子的拆分,该软件核心如图1所示分为基础数据和逻辑算法两部分:
1、离子词库整理(即步骤Si中建立基础词库)
[0031]如同求解化学分子式时需要已知各原子之间可形成何种组合一样,拆分汉语句子,也需要已知各字之间能组合成何种词,称为离子词库。本发明中的离子词库定义广泛,可以包括现代汉语大词典中的既有成语和词语,日常用语、诗词、谤语、网络常用语、特殊名称等等,只要认为这些字需要组合在一起的,都可以收录为一个离子词。词库存储文字的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1