一种自然语言语义信息统一编码方法

文档序号:6601471阅读:334来源:国知局
专利名称:一种自然语言语义信息统一编码方法
技术领域
本发明涉及一种自然语言语义信息统一编码方法,更确切地说是涉及一种采用自然语言语义约定客观规律实现的适合于计算机自然语言处理的语义统一编码的方法。
背景技术
从信息处理基础技术角度讲,图象信息、声音信息数字编码技术已经使人类能够利用计算机技术对图象信息、声音信息进行快捷准确的全球化传递。自然语言的字符集统一编码Unicode已经可以实现对各种自然语言符号的快捷准确的全球化传递。但是,自然语言之所以称为自然语言,是因为它的形成基于每个人均拥有的一种基本权利自由创造语言符号和自由约定符号语义。因此,对自然语言进行语义信息编码,尤其是不同自然语言的语义信息进行统一编码始终未能实现。
但是,人类进行自然语言符号语义约定具有有以下客观规律递归约定规律各种自然语言任意词汇的语义,包括固定搭配短语和句子的语义,均可用其常用词汇的语义进行语义递归约定。(比如,朗曼英语词典用一千多常用词汇的语义对任意词汇进行语义约定。)并且,一种自然语言的常用词汇语义,可以对任意其他语言的词汇进行语义约定。(比如,用常用词汇撰写各种双语词典。)
循环约定规律各种自然语言基本词汇的语义约定规律为循环约定。(比如“好表示使人满意,坏的反义词”。“父亲儿子的爸爸。”)并且,基本词汇与非基本词汇之间也可进行语义循环约定。(比如美漂亮、美丽、好看、中看)根据以上自然语言语义约定客观规律,我们可以做出如下推论所有自然语言的必要语义信息,是其常用符号语义的递归函数。
对各种自然语言常用符号语义概念的编码结果,可对任意自然语言句子和符号的语义信息进行递推统一编码。

发明内容
根据以上原理,实现本发明的技术方案是这样的一种自然语言语义信息统一编码方法,其特征包括以下步骤A、取任意自然语言的语法概念递归集进行语法信息统一编码;B、对各种自染语言常用词汇符号的语义项用本语言其他常用符号以句子形式进行语义描述,对多义符号的不同义项,分别进行语义循描述,并根据常用词汇符号语义项的描述结果,对不同语言常用符号语义项匹配成功者给出一级语义统一编码;C、建立扩展统一编码模板,取自然语言其它词汇符号,根据其不同语义项添入扩展统一编码模板的位置获得二级语义统一编码;D、凡是不能添入一级语义统一编码的语义扩展统一编码模板的其他自然语言词汇符号,或者用已进行一、二级语义统一编码的相关语义项以句子形式进行语义描述得到三级语义编码,或者通过添入语义扩展编码模板得到三级语义编码;E、对组成固定搭配短语、固定搭配句子的自然语言符号,用已进行一、二级语义统一编码的词汇及相关语义项,加语法概念交集以句子形式进行语义描述,实现四级语义统一编码。
F、用不同自然语言的词汇符号调用该词汇符号的所有语义项及语义统一编码结果,自动生成不同语言的语法统一编码词典、词汇语义统一编码词典、固定搭配短语、固定搭配句子统一编码辞典。
G、任意自然语言新增词汇符号或对已有符号新加义项,由用户调用语法统一编码词典、词汇语义统一编码词典、固定搭配短语、固定搭配句子统一编码辞典的符号及相关语义项进行语义描述,以获得语义统一编码。
所述步骤A的任意自然语言的语法概念递归统一编码方法包括所述的编码对象至少包括语法词汇、词汇变形、词汇排序;所述的语法概念递归集至少包括句法成分、时态、语态及语体;所述的语法概念句法递归集成分至少包括主句、子句、主语、主语修饰、主语补充、谓词、谓词修饰、谓词补充、宾语、宾语修饰、宾语补充、插入语;并且所述的子句句法成分、有句法结构的插入语的句法成分与主句句法成分相同。
所述步骤A的取任意自然语言的语法概念进行语义递归统一编码方法还包括定语和状语递归为修饰或补充成分进行句法成分编码;实际为宾语的形式主语作为宾语进行句法成分编码;需要强调的句子成分均通过在相应成分区加用强调符进行编码。
所述步骤B的不同自然语言词汇的语义项内容包括 同义词、反义词、语义描述、词性、上位语义、应用举例,或者上述内容的某一部分。比如汉语表层符号“好”的语义编码对象之一包括“同义词佳、不错/反义词坏/语义描述使人满意的/词性名词、形容词/上位语义评价。举例表现很好”;其中句子连词和可插入其他内容的短语采用专用标识进行语义编码。
所述步骤B的不同自然语言词汇的语义统一编码对象中的上位语义是指语义的种属关系分类。比如汉语表层符号“好”的语义编码对象之一“同义词佳、不错/反义词坏”和汉语表层符号“坏”的语义编码对象之一“反义词好”的上位语义均为评价。
所述步骤B的对不同自然语言常用符号语义项匹配成功者给出一级语义统一编码还包括对不同自然语言常用符号语义项不能对齐者,在缺少对应符号方用常用符号以句子形式进行语义描述,以实现不同语言常用词汇语义的强制性对齐。
所述步骤C的扩展统一编码模板内容至少包括纵向坐标为近义程度+1、近义程度+2、近义程度-1、近义程度-2,横向坐标为通用语、书面语、口语、俚语、专用语、成语。
所述步骤C的取各自语言其它词汇符号,通过添入语义扩展统一编码模板的位置获得二级语义统一编码还包括语义相同、词性不同的符号,保留符号原形并给出词性标注,对“特指”、“特用”词汇符号后面所用词语,必须是已获得语义项统一编码的词汇符号;并且对多义词不同义项,分别进行语义二级编码。
所述步骤C的取各自语言其它词汇符号,通过添入扩展统一编码模板的位置获得二级语义统一编码结果是指在一级编码结果后加上二级编码结果。或者再加上“特指....”的一、二级语义编码结果。
比如,汉语词汇符号“佳”的二级语义编码结果之一为在一级编码对象(同义词佳/不错/;反义词坏;释义使人满意的)的编码结果基础上,加上语体坐标“书面语”的编码结果。
所述步骤D中取各种自然语言其它非常用词汇符号的三级语义扩展统一编码结果是指,由三级语义统一编码结果加上描述其语义的一、二级统一编码,或者再加上“舅父”的语义扩展统一编码结果,再加上“特指....”的一、二级语义编码结果构成。
具体实施例方式
下面结合实施例和附图进一步说明本发明的技术方案

图1是词汇符号一级语义统一编码及扩展统一编码示意2是词汇符号三级语义统一编码及扩展统一编码示意3是句法成分统一编码模板示意图实施例1参见图1,所述步骤B的实施例如图1所示,汉语符号“好”的语义项之一“使人满意的”和英语符号”good”的语义项之一Having the right qualities的语义统一编码结果为A3/a1。
汉语词汇符号“地道”的语义项之一的二级语义统一编码结果由一级统一编码结果与扩展统一编码结果相加,为A3B1/B3b3.n.adj。
英语符号nice的语义项之一的二级语义统一编码结果由一级统一编码结果与扩展统一编码结果相加,为A3a1/B1b1.n.adj。
实施例2所述步骤B、C的实施例如果汉语符号“座”是常用符号,其语义项之一“量词,专用于较大的固定物体”在英语中没有语义对应符号,则用英语的常用词汇及先观语义项进行语义描述“quantifier/of large and solid thing”,以实现不同语言常用符号语义的强制性对齐。
实施例3参见图2,
所述步骤D的实施例汉语符号“舅父”的三级语义统一编码结果由“叔叔”的三级语义统一编码结果加上描述其语义的一、二级统一编码,再加上“舅父”的扩展统一编码结果,为C11c21(描述其语义的一、二级统一编码)B2b1.n,再加上 “特指....”的一级语义编码结果构成。
实施例4所述步骤E的实施例汉语固定搭配短语“绿竹依依”的语义描述结果“形容竹子的美态”的语义统一编码,由已进行一二级语义统一编码的词汇加义项以及通用语法进行语义描述。
实施例5参见图3,设主句统一编码为#A、子句统一编码为#B、主语统一编码为*1-1、主语修饰统一编码为*1-2、主语补充统一编码为*1-3、谓词统一编码为*2-1、谓词修饰统一编码为*2-2、谓词补充统一编码为*2-3、宾语统一编码为*3-1、宾语修饰统一编码为*3-2、宾语补充统一编码为*3-3。
汉语例句“我昨天好不容易才弄到了谁也弄不到的那张光盘。”的整句语义统一编码结果为#A*1-1(汉字符号“我”的语义项统一编码结果)/#A*2-2(汉字符号“好不容易”、“才”的语义项统一编码结果)/#A*2-1(汉字符号“弄到”的语义项统一编码结果、汉字符号“了”的“过去时态”统一编码结果)/#A*2-3(汉字符号“昨天”的语义项统一编码结果)/#A*3-2#B*1-1(汉字符号“谁”的语义项统一编码结果)/#A*3-2#B*2-2(汉字符号“也”的语义项统一编码结果)/#A*3-2#B*2-1(汉字符号“不能、得到”的语义项统一编码结果)/#A*3-2(汉字符号“那”的语义项统一编码结果)/#A*3-1(汉字符号“光盘”的语义项统一编码结果)。
实施例6参见图3,所述步骤A的实施例如果上述汉语例句改为“谁也弄不到的那张光盘我昨天好不容易弄到了。”则在宾语区加用强调符(!)的统一编码。
实施例7所述步骤G的实施例汉语句子“你有吃饭吗?”的实际语义是“你已经吃过饭了吗?”。如果汉语符号“有”的已进行统一编码义项中没有“时态已经”,则用户则调用已进行语义统一编码的词汇符号“时态已经”进行语义描述,以获得语义统一编码。
实施例8所述步骤F中词汇语义统一编码词典的实施例汉语表层符号好(Unicode编码)义项1同义词佳、不错/反义词坏/语义描述使人满意的/词性/上位语义(语义统一编码)义项2同义词赞许、同意....../词性/上位语义(语义统一编码)义项3同义词友爱、和睦....../词性/上位语义(语义统一编码)义项4同义词容易......./词性/上位语义(语义统一编码)义项5同义词非常、相当....../词性/上位语义(语义统一编码)实施例9所述步骤C的句子之间的连词,如“既然你不喜欢我,那么我也不喜欢你”中的句子连词“既然......那么”,用专用符号进行语义信息统一编码;如*{既然}你不喜欢我,*{那么}我也不喜欢你。
实施例10所述步骤C的可插入其他符号的短语,如“在我们遇到的所有问题中,”的可插入其他符号的固定搭配短语“在......中”,在获得语义项统一编码后,用专用符号进行语义信息统一编码。如“*[在→我们遇到的所有问题←中]*”。
发明意义本发明的意义在于1、利用自然语言符号语义约定的递归、循环规律,可用两为数以内的不同符号的组合结果,实现对任意自然语言文本的语义信息统一编码。
2、用户可以通过自己熟悉的任意自然语言进行人机交互,利用计算机技术实现对任意自然语言文本的语义信息统一编码。
3、对任意自然语言文本的语义信息统一编码结果,可利用计算机技术自动转换为与原文语义相同的各种其他自然语言文本和译文语义约定结果,从而实现保证语义信息传递质量的多语通用机器翻译。
4、自然语言语义信息统一编码技术对各种基于计算机技术的自然语言信息处理,比如知识传播、合同签订、语言教学、文本检索、文本分类、自动文摘技术的发展,都可起到十分重要的推动作用。
权利要求
1.一种自然语言语义信息统一编码方法,其特征在于A、取任意自然语言的语法概念递归集进行语法信息统一编码;B、对各种自然语言常用词汇符号的语义项,用其他常用符号以句子形式进行语义描述,对多义符号的不同义项,分别进行语义描述,并根据常用词汇符号语义项的描述结果,对不同语言语义项匹配成功者给出一级语义统一编码;C、建立语义扩展统一编码模板,取各种自然语言非常用词汇符号,通过添入扩展统一编码模板的位置获得二级语义统一编码,并且特指对象、特用于某种情况的词汇符号加上特指、特用对象描述。D、凡是不能添入一级语义编码语义扩展统一编码模板的自然语言其他词汇符号及符号语义项,或用已进行一、二级语义编码的词汇符号及相关语义项以句子形式进行语义描述,或通过添入三级编码语义扩展编码模板,以获得三级语义编码;E、对固定搭配短语、固定搭配句子,用已进行一、二级语义编码的词汇符号及相关语义项加语法概念交集进行语义描述,实现四级语义统一编码。F、用不同自然语言的词汇符号调用该词符号的所有已获得语义统一编码的语义项,自动生成不同语言的语法统一编码词典、词汇语义统一编码词典、固定搭配短语、固定搭配句子统一编码辞典。G、任意自然语言用户自主新增词汇符号或对已有符号新加语义项,均通过调用语法统一编码词典、词汇语义统一编码词典、固定搭配短语、固定搭配句子统一编码辞典的符号及相关语义项进行语义描述,获得语义统一编码。
2.根据权利要求1所述的方法,其特征在于,所述步骤C的语义扩展统一编码模板内容至少包括纵向坐标为近义程度+1、近义程度+2、近义程度-1、近义程度-2,横向坐标为通用语、书面语、口语、俚语、专用语、成语。
3.根据权利要求1所述的方法,其特征在于,所述步骤A的取任意自然语言的语法概念递归集进行统一编码方法还包括所述的编码对象包括语法词汇、词汇变形、词汇排序等各种形式表达的语法概念;所述的语法概念递归集至少包括句法成分、时态、语态、语体;所述的语法概念递归集句法成分至少包括主句、子句、主语、主语修饰、主语补充、谓词、谓词修饰、谓词补充、宾语、宾语修饰、宾语补充、插入语;并且所述的子句句法成分、有句法结构的插入语的句法成分与主句句法成分结构相同。
4.根据权利要求1所述的方法,其特征在于,所述步骤A的取任意自然语言的语法概念递归集进行统一编码方法还包括定语和状语递归为修饰或补充成分进行句法成分编码;实际为宾语的形式主语作为宾语进行句法成分编码;需要强调的句子成分均通过在相应句子成分成分区加用强调符进行统一编码。
5.根据权利要求1所述的方法,其特征在于,所述步骤B的对不同语言词汇符号语义项匹配成功者给出一级语义统一编码方法还包括当不同自然语言常用符号的语义项不能对齐时,则在缺少对应符号方用该自然语言常用符号及相关语义项以句子形式进行语义描述,以保证各种自然语言常用词汇符号的语义项对齐,并获得相同的语义统一编码。
6.根据权利要求1所述的方法,其特征在于,所述步骤B的语义项内容包括同义词、反义词、语义描述、词性、上位语义、应用举例;并且是上述内容的某一部分。
7.根据权利要求1所述的方法,其特征在于,所述步骤C的取各自语言其它词汇符号,通过添入扩展统一编码模板的位置获得二级语义统一编码的方法还包括语义相同、词性不同的符号,保留符号原形并给出词性标注,对“特指”、“特用”词汇符号后面所用词语必须是已被语义统一编码的词汇符号以及相关语义项。
8.根据权利要求1所述的方法,其特征在于,所述步骤C的取各种自然语言其它词汇符号,通过添入扩展统一编码模板的位置获得二级语义统一编码结果,由一级编码结果、语义扩展编码结果,“特指....”的一、二级语义编码结果构成。
9.根据权利要求1所述的方法,其特征在于,所述步骤D中取各种自然语言其它非常用词汇符号的三级语义扩展统一编码结果,由三级语义统一编码结果、描述其语义的一、二级统一编码结果、语义扩展统一编码结果,特指、专用于....”的一、二级语义编码结果构成。
10.根据权利要求1和2所述的方法,其特征还在于,对句子连词和可插入其他内容的短语采用专用标识进行语义编码。
全文摘要
本发明涉及一种采用自然语言语义约定客观规律实现各种自然语言语义信息统一编码的方法。此方法可使用户通过采用自己熟悉的任意自然语言进行人机交互,实现对任意自然语言文本的语义信息统一编码。其语义信息统一编码结果,可利用计算机技术自动转换为保证语义信息传递质量的各种译文,并且对各种自然语言处理技术,比如知识传播、合同签订、语言教学、文本检索、自动文摘技术的发展可起到十分重要的推动作用。
文档编号G06F17/28GK1417707SQ0215370
公开日2003年5月14日 申请日期2002年12月2日 优先权日2002年12月2日
发明者刘莎 申请人:刘莎
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1