一种计算机拆分汉语句子的方法_2

文档序号:8282263阅读:来源:国知局
计算机代码Unicode编码或汉字国标GB码),并使用文字代码建立哈希索引表用于快速遍历和检索。离子词库中的数据类型包括四类:汉字词、英文字母、数字、其他字符。
2、作用键值库整理(即步骤SI中建立可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库)
[0032]根据日常生活中实际使用汉语语法的规则收录、建立能够区分汉字之间相互组合成词时的能力强弱的作用键值库。例如,当一个字、词具有双向作用键时,需要定义两个作用键的强度,例如“披上衣服”中:“披上”为一个合理词,“上衣”也为一个合理词,“衣服”仍然为一个合理词。原子字“上”和“衣”都存在双向作用键。因此定义“服”对“衣”的作用键强于“上”对“衣”的作用键,确保“上衣服”三个字遇到一起时拆分成“上衣服”而不是“上衣服”,“上”字再去与前面的字做可能的组合。建立作用键值库的技巧在于:算法采用先前字化合再后字拉扯的方式,所以库中只建立后向作用键更强的可成功拉扯的组合即可,确保库的数据量尽可能的少,提高拆分时遍历扫描的效率。
3、逻辑算法
[0033]全部逻辑算法都将使用基础数据库进行,其中离子词库和作用键值库有特定的存储,逻辑判断库则镶嵌于针对不同字、词的逻辑算法中。
(1)离子化合一一尺度优先遍历+作用键竞争算法(即步骤S2,将需要被拆分的汉语句子拆分成词)
[0034]目前定义支持的汉字离子词尺度为汉字个数,范围为I?9;连续的英文字母和数字串整个作为一个离子词,尺度定义为I ;其他符号则单个字符作为一个尺度为I的离子词。离子化合的算法入图2所示:
[0035]经过该算法之后,句子中的每个字符已经彼此“化合”成若干个尺度为I?9离子
ο
(2)离子词性处理(即步骤S3,词性分类处理)
[0036]本发明中的“词性”概念,与现代汉语语法中规定的词性不同。为了能够更好的对汉语句子进行拆分,根据句子中的字符所表达的意思和功能,将离子词性划分为:
I汉字词 U 中心词 -名词 - 动词 -数词 U前修饰词 -名词前修饰词 -动词前修饰词 U后修饰词 -名词后修饰词 -动词后修饰词 -量词 I英文字母串 I数字串 I其他符号
[0037]离子词库中定义了每个离子词的各种词性,在匹配离子词库时预先读取并加载。本步骤算法中将使用逻辑判断库,根据句子整个上下文词性、词义的相关性逐词进行分析和修改,使整个句子的词性分布更科学更合理。
(3)分子短语聚合(即步骤S4,对词性分类处理后的词进行重新组合成汉语短语)
[0038]每个英文字母串和其他符号形成一个独立的分子短语。数字串将作为汉字词中的“数词”等同处理。短语的“语性”除英文字母串和其他符号外,根据词性中的中心词,分为三类: I 名词短语 I 动词短语 I 数词短语
[0039]中心词具有双向作用键,前修饰词具有后向作用键,后修饰词具有前向作用键,因此在作用键的作用下,句子中的所有字符都彼此“化合”成大分子短语。
[0040]至此,整个汉语句子的详细拆分全部完成。本发明的输出结果可用于各种需要对汉语句子进行拆分处理进而进行句子分析的应用当中。
[0041]应当理解的是,本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的思想和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改。
【主权项】
1.一种计算机拆分汉语句子的方法,其特征在于,其包括以下步骤: 步骤SI,建立基础数据库;所述基础数据库包括基础词库和可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库; 步骤S2,将需要被拆分的汉语句子与步骤SI中建立的基础词库进行匹配比对,将需要被拆分的汉语句子拆分成词; 步骤S3,将步骤S2中拆分得到的词进行词性分类处理; 步骤S4,对词性分类处理后的词进行重新组合成汉语短语;即完成对被拆汉语句子的拆分。
2.根据权利要求1所述的一种计算机拆分汉语句子的方法,其特征在于,所述步骤SI中建立的基础词库包括汉字词、英文字母、数字和其它汉语语句中使用的通用字符。
3.根据权利要求2所述的一种计算机拆分汉语句子的方法,其特征在于,所述基础词库中的汉字词包括日常用语、诗词、网络常用词和特殊名称用词。
4.根据权利要求3所述的一种计算机拆分汉语句子的方法,其特征在于,所述基础词库存储在计算机内的代码为Unicode编码或者汉字国际GB码。
5.根据权利要求4所述的一种计算机拆分汉语句子的方法,其特征在于,所述汉字组词优先原则判断数据库是根据日常生活中汉字的实际使用频率和使用惯例通过穷举法进行归纳总结而得出的优先组合词组。
6.根据权利要求5所述的一种计算机拆分汉语句子的方法,其特征在于,所述步骤SI中建立的基础词库中词的尺度范围为I至9 ;其中基础词库中汉字词的尺度定义为汉字词中汉字的个数,英文字母的尺度定义为1,数字的尺度定义为1,其它汉语语句中使用的通用字符也定义为I。
7.根据权利要求6所述的一种计算机拆分汉语句子的方法,其特征在于,所述步骤S2中将需要被拆分的汉语句子拆分成词的具体过程如下: 步骤S21,首先,依次使用基础词库中尺度为9至I的汉字词遍历需要被拆分的汉语句子; 步骤S22,将上述需要被拆分的汉语句子中遍历出来的汉字词的首个汉字和最后个汉字分别运用汉字组词优先原则判断数据库进行判断对比;该判断对比的过程为:如果该汉字词的首个汉字与在需要被拆分汉语句子中位于其后的组词能力强于该汉字词的首个汉字与在需要被拆分汉语句子中位于其前的组词能力,且该汉字词的最后个汉字与在需要被拆分汉语句子中位于其后的组词能力弱于该汉字词的最后个汉字与在需要被拆分汉语句子中位于其前的组词能力,则认为该次匹配正确;如果该汉字词的首个汉字与在需要被拆分汉语句子中位于其后的组词能力若于该汉字词的首个汉字与在需要被拆分汉语句子中位于其前的组词能力,或者该汉字词的最后个汉字与在需要被拆分汉语句子中位于其后的组词能力强于该汉字词的最后个汉字与在需要被拆分汉语句子中位于其前的组词能力,则认为该次匹配不正确,同时将匹配不正确的汉字词拆开重新遍历基础词库直至所有的拆分出来的汉字词都判断为匹配正确。
8.根据权利要求7所述的一种计算机拆分汉语句子的方法,其特征在于,所述步骤S3中对拆分得到的词进行词性分类处理为将拆分得到的词分别分为汉字词、英文字母串、数字串和其它符号串。
9.根据权利要求8所述的一种计算机拆分汉语句子的方法,其特征在于,所述汉字词分类处理为中心词、前修饰词、后修饰词;所述中心词分为名词、动词和数词;前修饰词分为名词前修饰词和动词前修饰词;后修饰词分为名词后修饰词、动词后修饰词和量词。
10.根据权利要求9所述的一种计算机拆分汉语句子的方法,其特征在于,所述步骤S4中对词性分类处理后的词进行重新组合成汉语短语的具体过程为:将英文字母串和其它符号形成组合成独立的汉语短语;数字串组合成汉字词中的数词;并且将中心词分类组合成名词短语、动词短语和数词短语。
【专利摘要】本发明公开了一种计算机拆分汉语句子的方法,其包括以下步骤:步骤S1,建立基础数据库;所述基础数据库包括基础词库和可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库;步骤S2,将需要被拆分的汉语句子与步骤S1中建立的基础词库进行匹配比对,将需要被拆分的汉语句子拆分成词;步骤S3,将步骤S2中拆分得到的词进行词性分类处理;步骤S4,对词性分类处理后的词进行重新组合成汉语短语;即完成对被拆汉语句子的拆分。本发明将通过与化学元素分析类似的方法来分析句子,通过代码简单、运算量小的计算机软件实现,对整个汉语句子进行准确、快速的拆分,为汉语句子分析提供有效的基础保证。
【IPC分类】G06F17-27
【公开号】CN104598441
【申请号】CN201410818409
【发明人】牟孝金, 洪紫洲, 李维良
【申请人】上海科阅信息技术有限公司
【公开日】2015年5月6日
【申请日】2014年12月25日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1