一种供机器运用语言规律识别语言信息的方法

文档序号:6368412阅读:177来源:国知局
专利名称:一种供机器运用语言规律识别语言信息的方法
技术领域
本发明涉及一种机器语言信息处理技术,尤其是用于机器模拟人的思维分析方式,通过分析、判断识别语言信息。
背景技术
目前的机器语言信息处理技术,仅能依靠文字的形状进行文字交换处理,对文字所携带语音、语义信息根本没有涉及。由于机器本身没有识别语义的功能,所以当输入“公差(g6ngch0i) ”或“公差(g6ngch0) ”、“倒((Ιδο)”或“倒(ddio) ”时,其识别结果是一样的。现在的机器无论是以语音识别还是以键盘录入进行文字输入,其处理文字的过程都只是依
靠“字形”。
另外,我们提供给机器的词库存在一词多义、多词一义的现象,而机器本身没有分析、判断等语法功能,所以对于由多个词汇组成的语言信息,机器根本无法理解成完整的语义,只能分别对单一词汇做出判断并连接,用这样的结果发出指令、处理任何事物,其结果错误率至少在百分之五十以上,而且词组句子越长错误概率越高。这不仅是中文面临的问题,在其他语种也都普遍存在,这也是目前信息化发展最大的瓶颈,只有从根本上彻底解决上述问题,才能真正实现机器自动互换互译、实现各种语言信息交流无障碍的可能。

发明内容
针对上述情况,本发明提供了一种机器模拟人的语言逻辑思维方法,对语言信息进行处理,实现机器对语言信息识别和理解的目的。本发明的一个方面,提供了用于机器运用词态组成的规律,其中所述的“词态”与“词性”不一样,它侧重分析构成词与词之间的关系所形成的规律。例如处所、方向、物称范围词从词性分析都是名词,但是与其它词链接时却各有差异。以链接动词为例,处所名词可以接带有方向或趋向类动词,像“飞到沈阳、来到沈阳等”,而物称范围词像“书、电视、矿石”则不能这样使用,名词的不同词态对链接的动词有不同的要求;动态词中的“动作动词”及物类可以直接带多项名词链接,而不及物类则不行,像“休息、毕业、送行”需要借助其他的虚词;又如,形态词大部分可以受“程度副词”修饰,却很少链接“频率副词”,动词却恰恰相反等等,总之各种词态之间的组合都有必然规律,把这种规律编译成机器可识别的代码,供机器对语言信息进行综合处理,其结果就是机器模拟人的思维识别语言信息。本发明的另一个方面,提供了用于机器对各类词态之间固有的特性、所形成的结构规律,作为机器对语言信息分析判断的第一步。例如构成语言的句义组成成分、从语法角度分析语义的方法,任何入学习一门新的语言,都要同步学习词与语法,要想使机器能够模拟人的思维方式,同样需要它同时具备词与语法的判断功能。通过词代码与词态链接码组合句子成分,例如以动词判断宾语,以副词判断谓语,利用这样的规则构成序码,让机器从语义角度分析句子类型,如陈述句、祈使句、疑问句等句子特征,从句子成分分析词性特征,如名词、代词、数词、量词可以充当主语,动词和形容词充当谓语以及其他构成宾语、定语、状语、补语的词性组成,它们之间所形成的必然规律是判断、理解语言信息、句型结构的关键,所以只有把它设置成为机器可识别、可运算的,才能达到让机器理解语义的目的。另外,每一种语言都有语法规则,各语种间的语法规则既有相同也有不同,例如中国人习惯说“他吃饭了吗? ”,而韩、日则习惯说“他饭吃了吗? ”。当机器掌握了这种语法功能,就可以从语序方面进行调整,通过“宾语提前”完成语序交换。本发明的另一个方面,提供了用于机器对语言信息从句型结构组成方面来分析词性、词义。如果从语义角度分析,绝大多数词汇都具有多个词性、语义。例如“跳水”一词同时具备名词、动词及形容词词性,并且在动词词性下也代表不同语义。而当它们进入句型结构后,可以根据前后词汇的词性,依据特性组成的句型结构规律,确定这个词汇的词性和语义。也就是说机器可以根据句子信息判断出所含词性,在句子中确认词汇的词性,并自动显示出来,同时依据句型代码形成公式供机器识别、运算的语言,用于确定语义依据的另一个 方面。本发明的另一个方面,提供了用于机器对语言信息从语言环境方面分析词性、语义。同一词在不同环境下表达的词性、词义不同,很多专业范畴如军事、考古、医疗等都有很多的专业术语、行业专用语,例如“人参”这个词汇,从词性判断是名词,但是并不能确定是植物还是药物,这样的盲点机器是无法判断的。为了解除这一盲点,数据库模拟各种行业设置一种虚拟环境,把相关行业用语与专用关联词语归纳到同一虚拟行业内,命令机器利用行业用语、相关连接语言判断语义。例如颗、培植、根茎、叶片、开花、结果等语言可判断为植物相关,克、切片、研磨、包装、药与药房等可判断为药物相关。这种关联具有普遍性,机器利用链接语义判断选择词性、词义,这是机器利用虚拟环境内的行业用语、相关连接语言判断语义的另一个方面。本发明的另一个方面,提供了用于机器对语言信息从语音角度识别同型异声文字,例如中文里的倒(ddio)、倒(d00),看(k0n)、看(kdin),落(lu6)、落(la), H (ch0)、差(ch0i)、差(Cl)等,目前所有的文字输入、语音输入,都不能使机器准确识别上述类型的语义,所以造成许多语言信息具有两种以上含义。例如“王大妈看小孩。”、“他正在倒车。”,前者的“看”有“瞧”和“监视”两层语义,后者的“倒”有“换乘”和“把车向后退”两层语义。这种情况不仅中文存在,其他语言也有类似现象。例如英语里,单词“desert”读/di'z:t/时,为动词,意为“离开;放弃;背弃”;当读/'dezt/时,为名词,意为“沙漠”。而单词minute,当读/'minit/时,为名词,意为“分,分钟;一会儿,片刻”;读/mai'nju:t/时,为形容词,意为“微细的,微小的;详细的”。日语单词“旅人”发音为“亡& 时,意为“游侠,走江湖的人”,当发音为“亡^ ”,意为“游客,行路的客人”。词汇“損+石”的发音为‘Hf3 ”时,为名词,意为“损失,亏损”,而发音为“Hf 3 ”时,为动词,意为“损伤。损坏,伤害”。为了使机器能够准确识别上述类型语义,必须彻底解决同型异声字问题,而解决办法只有一个,就是把所有同型异声字进行标记。例如看①、看④(可以用任何符号标记),当语音或者文字输入后,机器会分别提示出来,以目前文字输入法输入的文字,四声字无法确认,只有靠机器从词态关系分析、句子类型分析、句型结构分析、词性词义分析、行业用语分析,它可以对每一条信息,从语法规律分析提示,遇到上述情况机器会自动提示两种情况以供选择,用于判断、确定语义的另一个方面。本发明的另一个方面,提供了用于机器对语言信息、对自定义语言的语义识别方法。因为很多的固有词汇都可以被人为的用作名称,例如“张跳跳、李蹦蹦”这些绰号,按照现有的机器切分方法只能切成姓与动词,又如“桃花、银杏”是植物名词,但它们也可能是某个人的姓名,企业名、地名、商标名等都有类似的情况。对这样的自定义名词,机器是无法判断的,必须设置一种方法,每当机器检索到姓、企事业名称、物称、处所等关键词时,就会自动提示人称、企事业名称、物称、处所等相关用语范围,实现人机对话通知机器确定语义的另一个方面。本发明的另一个方面,提供了用于机器分析、判断识别语言信息的方法,特别是机器运用词态组合、正向分析句型、语言环境、词性确定、词义确定,语言信息确定、句子类型确定等,这是因为我们的数据库是专门为适应机器判断识别而设置的。人与机器的思维不同,现代汉语语法把所有词汇划分为十二种就可以完全满足语法功能的需要 ,因为词汇间可自由组合,不同的词性也可组成短语,例如动词和名词、副词和动词都可以组成短语,人对这些语言现象可以理解和判断,但如果是机器单一运用这一规则,它就会判断“吃黄金,穿苹果,非常学习,太劳动”是正确的,这充分说明现代语法规则对机器来讲,是完全不适用的。为了使机器也能运用语法规则准确掌握和应用语言文字关系,所以本发明设置的词必须细划到符合词态要求,如上述例子,只要把动词划分若干种动词词态,使它们定向链接,就会自动排除歧义,后两个例子只需设置程度副词不能修饰动作动词就可以排除这种搭配。词的划分越细、设置的机器编码越多,机器程序就越多,但是识别准确率也就越高,以名词为例,如果划分到200种,机器运算方式就会超过万亿条,但其识别准确性可以大大提升。如果机器设置逆向选择分析句型、句义,当输入语言信息不符合上述词态链接要求时,机器会自动提示纠正并提供标准的相关词义以供选择,例如动词前后出现程度副词,如果出现“非常学习、太劳动”时,机器就会显示错误并提供“经常、偶尔、有时”等相关词供选择。机器虚拟专业用语数据库的工作原理如下表1(姓)
序号序码词态链接码词代码词 同义词近义词测试词……
·· Maaaaa MChao
· · Maaaaa 钱Chien
· · Maaaaa #Sun
*· Maaaaa ^Lee表2(亲称)
权利要求
1.一种供机器运用语言规律识别语言信息的方法,其特征是利用语言固有的词态组合的自然规律,对语言的结构组成规律,语言信息词性组成的规律,由语言环境确定的语义,由语音声调确定的语义,由人机对话自定义确定的语义,使机器利用上述规律,分析、判断、识别语目Ih息。
2.根据权利要求I所述的一种供机器运用语言规律识别语言信息的方法,其特征是其中所述利用语言固有的词态组合的自然规律,是指以语义分类所形成的动态词、形态词、时态词、状态词、情态词、行业态词、辅助态词之间固定的搭配关系,把这种关系归纳组成编码标识供机器识别的方法。
3.根据权利要求I所述的一种供机器运用语言规律识别语言信息的方法,其特征是其中所述对语言的结构组成规律,是指构成语言的句义结构成分,从句子类型陈述句、疑问句、祈使句到组成句子结构成分主语、谓语、宾语、定语、状语、补语的规律分析判断并识别语目彳目息。
4.根据权利要求I所述的一种供机器运用语言规律识别语言信息的方法,其特征是其中所述语言信息的词性组成,是指构成语言信息词组的成分的词性组成,确定名词、动词、形容词、代词、数词、量词以及副词的词性成分及语义。
5.根据权利要求I所述的一种供机器运用语言规律识别语言信息的方法,其特征是其中所述的由语言环境确定的语义,是指依靠语言环境确定语义的专用语言,由体育、金融、商业、外贸以及各种行业的专业语言组成行业语言数据库,机器通过词态规律、句子类型、结构成分、词性成分,在各专业数据之间分析、比对并确定语义。
6.根据权利要求I所述的一种供机器运用语言规律识别语言信息的方法,其特征是其中所述的由语音声调确定的语义,是指同型异声字存在读音不同而代表语义不同,尤其中文的四声,不同声调代表不同语义,人在文字信息中可以依靠从上下文判断,但是机器没有办法识别,解决办法是把所有同型异声字进行标记,通过机器检测一旦发现歧义会自动提示,人机确认后确定语义。
7.根据权利要求I所述的一种供机器运用语言规律识别语言信息的方法,其特征是其中所述人机对话自定义方法,是指非理论性确定的词性,如人名、企事业单位名、商标物品名、处所名,与理论词性不一致,所选词无论原属何种词性、语义,在这里只能是名称,必须通过特定方法实现人机对话与机器沟通,确定语义。
8.根据权利要求I所述的一种供机器运用语言规律识别语言信息的方法,其特征是其中所述分析、判断识别语言信息,是指机器运用上述规律,可自动把语言信息从语义上分析理解,同时还可以在信息处理过程中进行提示,可以对行业态词、动态词、形态词前后的修饰语提示恰当的选择性词语。
全文摘要
本发明涉及一种机器语言信息处理技术,为了使机器模拟人的逻辑思维方法理解语言,掌握语法功能,即从主语、谓语、宾语、定语、状语、补语的句子结构到名词、动词、形容词、数量词及副词、虚词的理论及其运用,并且可以把每一部分的功能分析过程都演示出来,做为语言教学示范,提供语言学习的基础练习。各语种都有分析、判断、理解语言信息的语法功能,建立在一个通用和交流的平台上,使机器不仅能识别语言信息,而且可以运用语言信息,在各语种之间进行互译互换。
文档编号G06F17/30GK102708205SQ20121015675
公开日2012年10月3日 申请日期2012年5月21日 优先权日2012年5月21日
发明者徐文和 申请人:徐文和
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1