表意构件电子词典系统及其实现方法

文档序号:6339241阅读:244来源:国知局
专利名称:表意构件电子词典系统及其实现方法
技术领域
本发明涉及一种计算机电子词典和方法;特别涉及一种以多语种表意构件为元素 的电子词典系统及其实现方法。
背景技术
当今社会已经是信息社会,计算机、网络遍布全球。由于计算机的巨大容量、快速 查询使电子词典相当普及,确确实实帮了不少忙,可以说电子词典已经进入人们的生活。例 如金山词霸、林格斯等电子词典,已经成为人们不可缺或的好帮手。可惜,它们都一样,都和 从古到今的纸上的词典一样;一样是以字、词为单元,对字、词进行解释以至举例。并且这一 切都是面向人的,给人查阅参考用的。对于计算机语言文字信息处理,不适合;计算机无法 读懂它们。关于语言文字信息处理,涉及智能层次的,仅有各自的、类似电子词典片段的数 据结构。至今还没有一种便于计算机语言文字信息处理的电子词典。例如,当前专业翻译 领域的翻译记忆,只是以句对为单元组建数据库。纵观语言文字信息处理,人们都一门心思地让“电脑”模拟“人脑”;试图让电脑能 够像人脑那样进行思维,理解并分析语义;然后对语言文字进行各种处理。其实,这是一条 死胡同。本发明人认为,语言文字在机内的表现、存在型式应当有所改变,使它更适合计算 机处理。显而,语言文字信息处理是否能获得较大进展,其关键在于“人脑”、“电脑”、“语言 文字”三者的最佳协调和最大互补。

发明内容
为克服现有技术中的上述不足,本发明提供一种表意构件电子词典系统,为计算 机语言文字信息处理提供涉足语义进行支持,大幅度提高语言文字信息处理能力,实现“人 脑”、“电脑”、“语言文字”三者的协调和互补。本发明的另一目的在于提供上述表意构件电子词典系统的实现方法,便于从多语 种句对资料中提取出表意构件,并保存在表意构件电子系统的表意构件库内。本发明的目的是通过以下技术方案来实现的一种表意构件电子词典系统,其特 征在于,包括构件提取模块,读入多语种句对,依次进行查询、比对、提取操作,以提取出表意构 件,所述表意构件分为句型、舱模、组串、意群串和习语五种类型;把新提取出来的表意构件 添加到相应构件库的相应语种构件字段,构件数据库,存贮表意构件,设有与各种表意构件种类相应的句型库,舱模库,组 串库,意群串库和习语库,各库都含有表意构件码和若干语种的表意构件,相同语意的所有 语种表意构件及一个表意构件码互相映射;构件操作接口模块,接受服务指令,针对服务指令所给查询内容在构件库进行查 询,而后根据服务指令要求,直接给出或映射给出与查询内容匹配的单项或多项语种的表6意构件;组串构件就是某些较大的句舱中,缺乏类似句型的结构,不能提取舱模且由大于 三个意群串所组成的句舱内容;组串库,用于存储组串构件,有组串码、英文组串、中文组串、俄文组串字段,相同 语意的组串同处一个记录,相应文种的组串存储在相应文种组串字段内,组串码代表了同 一记录内各文种组串字段内的各文种组串的语意。所述构件提取模块设置有配句型子模块,用某语种样本句对与句型库中对应语种的文句型字段内容进行匹 配搜索,如有匹配则输出匹配句型;挖空穴子模块,对调用的句对进行挖句舱操作,输出对应的句型,对调用的句舱进 行挖舱眼操作,输出对应的舱模;串意对齐子模块,把某语种的简单句舱或舱眼以词串为单元切分并依次填入参考 表该语字段后,逐记录取出查找意群串库的该文串字段,找到后取出同记录的某种或某几 种文串字段内容。所述构件操作接口模块设置有直接查询子模块,用于接受命令,不改变参数形式,直接查询某个库的某个字段, 返还查到,有相应记录或没有查到,无相应记录,用于对意群串库、组串库和习语库的查 询;匹配查询子模块,用于接受命令,需事先改变查询参数或和库内容形式,查询后返 回查到,有匹配记录,或没有查到,无匹配记录,用于对当前句例查询句型库返回有或无匹 配句型、或对当前句舱内容查询舱模库返回有无匹配舱模信息;直接给出子模块,接受服务指令,当查询返回查到有相应记录或有匹配记录时,直 接给出当前库的被查字段内容;映射给出子模块,接受服务指令,当查询返回查到有相应记录或有匹配记录时,给 出当前库与被查字段同记录的其它字段内容;更新优化子模块,当存贮五类表意构件的构件库任意其中之一有记录已经被更新 优化后,接受服务指令,用新内容覆盖旧内容,与之相关的表、索引也作相应的改动。上述表意构件电子词典系统的实现方法,包括预设操作和服务指令响应操作;其中,预设操作具体为Si.构件提取模块,读入多语种句对,依次进行查询、比对、提取操作,以提取出表 意构件,所述表意构件分为句型、舱模、组串、意群串和习语五种类型;把新提取出来的表意 构件添加到相应构件库的相应语种构件字段,S2.构件库,存贮表意构件,设有与各种表意构件种类相应的句型库,舱模库,组串 库,意群串库和习语库,各库都含有表意构件码和若干语种的表意构件,相同语意的所有语 种表意构件及一个表意构件码互相映射;服务指令响应操作具体为S3.构件操作接口模块,接受服务指令,针对服务指令所给查询内容在构件库进行 查询,而后根据服务指令要求,直接给出或影射给出与查询内容匹配的单项或多项语种的 表意构件。
步骤Sl所述构件提取模块对多语种句对进行查询、比对、提取操作,提取出句型、 舱模、组串、意群串、习语五类表意构件,包括如下步骤S101.从多语种句对中读入其中的一个双语样本句对;S102.调用配句型子樽块捭索句型库返回A、B语匹配句型,若没有匹配句型,执行 步骤S103提取新句型,若有匹配句型执行步骤S105套入句型;S103.提取句型,以当前双语样本句对为参数调用挖空穴子樽块,分别挖去句舱, 留下句型的操作,挖空穴计数器初始值N = 0 ;S104.若当系统从挖空穴子模块返回,并且N > 1时,表示挖句舱提取句型操作完 毕,把返回的两个新句型作为句型构件分别存入句型库A文句型、B文句型字段,而后执行 步骤S105操作;若当系统从挖空穴子模块返回,且N = O时,表示当前双语样本句对太小不足以分 出或出于语种和习俗难以分出句型句舱时则被判定为习语,把返回的作为习语构件分别存 入习语库A文习语、B文习语字段;S105.套入句型,把当前双语样本句对对号入座地套入当前匹配句型或套入当前 新作句型,作为已经划分出句型、句舱的样本句对暂存;S106.句舱处理,依次取出已经划分出句型、句舱的样本句对当中的一个句舱,开 窗口一,上部显示A、B语样本句对,下部显示A、B语当前句舱内容;S107.判断当前句舱是否为简单句舱,是则盲接执,行步骤Slll操作,若否,则进一 步判断是否可以提取舱模,若能提取舱模,直接执行步骤S108操作;若不能提取舱模,将当 前句舱内容作为组串,存入组串库A、B语组串字段,然后直接执行步骤Slll操作;S108.提取舱模,先以当前句舱内容查询舱模库,若查到为已有舱模则直接执行步 骤Slll操作;若没查到,则需要新作舱模,以当前双语句舱对为参数调用挖空穴子模块,挖 去舱眼,留下舱模的操作,挖空穴计数器初始值N = O;S109.当系统从挖空穴子模块返回时,这里表示挖舱眼提取舱模的操作完毕,把返 回的两个新舱模作为舱模构件分别存入舱模库A文舱模、B文舱模字段,而后执行步骤SllO 操作;S110.套舱模,把当前句舱内容对号入座地套入当前舱模或套入新编舱模作为已 经划分出舱模、舱眼的有模句舱显示;S111.当前句舱处理完毕,如果当前双语样本句对还有句舱待处理,接续S106直 至全部句舱处理完毕;S112.简单句舱和舱眼处理,依次搜索并取出当前句对的一个简单句舱或一个舱 眼的内容,以它们为参数调用串意对齐子模块,以词串为单元切分并依次填入参考表A语 字段,逐记录取出搜索意群串库的A文串字段,找到后取出同记录的B文串字段内容,当B 文串字段内容是当前简单句舱或舱眼所含有时,将B文串字段内容填入参考表B语字段;S113.当系统从串意对齐子模块返回时,参考表内A、B语的词串已经串意对齐、即 已成为意群串,然后逐记录地用A、B语字段内容搜索意群串库,仅当无搜索记录时当前记 录内容作为新的意群串构件存入意群串库的A文串或B文串字段;S114.如果当前句对没有处理完,执行步骤Slll ;如果当前句对已经全部处理完,执行步骤S101,进行下一轮句对操作。
所述调用配句型子模块的具体操作为取句型库中某文句型字段内容,以句舱为 空作成句型词串,以L空N串M舱计数,最长最复杂的句型应小于或等于10段9空16舱; 然后建库与句型映射,进行索引;S115.把例句从左到右,拼音文字逐个单词、表意文字逐个字取下,以它们查询句 型首字或首单词,把符合的句型集于临时库;S116.以循环语句逐个句型考测,循环中又设开关语句;S117.开关语句以句型词串空之数N作开关条件,进入后句型词串每段依次与例 句比对,比对后两者都弃去,当各段都能在例句中依次找到为之符合例句的匹配句型,列表 给出;S118.当列表记录大于1时,隐含选取句型词串最长的作为当前匹配句型,连同句 型列表一并返回调用者;所述挖空穴子模块的具体操作为S119.当调用参数是句对,返回的是句型当调用调用参数是句舱对,返回的是舱 模;S120.弹出一个窗口,上横行显示A语句或A组串、下横行显示B语句或B组串,横 行下再显示挖空穴、保存和悔三个命令按钮,挖空穴计数器N = 0 ;S121.系统以数量串、专名串、名词串、形名串、其它串的优先次序搜索,找出A、B 语句或A、B舱内容中表意对等的1对串,给以变色显示,或当是A、B语句对时查询组串库, 如果查到以它们为A、B语句表意对等的串,给以变色显示等待操作者干预确定;从挖第二个空穴开始,系统还检测已经被挖去的空穴,在剩余部份最长段的中部 选取表意对等串变色显示以作次一轮的比对提取操作,同时检测两个空穴之间至少应有一 个词串作为间隔,如果没有给出提示,操作者认同,反悔重做,如果否定,系统仅可容忍两个 空穴相连;S122.当挖空穴命令按钮被单击,检查A、B语是否都被单击两个点以及这两个点 是否有效,如果无效,提示重作,如果有效,使N = N+1,将A、B语句两点之间的内容挖去并 填入“ [N] ”,该轮挖空穴结束,下一轮重复步骤S123再挖下一个空穴;S123.当悔命令按钮被单击,取消最后一次的挖空穴操作,N = N-I,回复原有显 示;S124.当保存命令按钮被单击,清除子模块,将被挖空穴后的结果和相关参数返 回;所述串意对齐子模块的具体操作为S125.把A语当前句舱或舱眼以词串为单元切分并依次填入参考表A语字段,逐记 录取出查找意群串库的A文串字段,找到后取出同记录的B文串字段内容,如果该B文串内 容在B语当前句舱或舱眼中含有,把B文串内容填入参考表同记录B语字段,不含有的让它 为空;如果意群串库的A文串字段有相同的记录,相应参考表也多一条A语字段有重的 记录备选,作完整个参考表,开窗口显示参考表、对齐确定命令按钮、组复词命令按钮以及 相关提示;S126.参考表接受操作者按实例延伸或增补词义、不改变原有字、单词的前提下加减串长度、粘带附随字、词形变化增补词义项等修改A、B文字段内容;S127.参考表接受用户单击连续的记录使组复词标志字段=“Y”;S128.当组复词命令按钮被单击并且参考表有连续记录的“Y”,将它们的A语字段 内容以“_”相连组成复词,相应记录合并成一条记录,A语字段填入该复词,B语字段以相等 语意的词串填写;S129.当对齐确定命令按钮被单击,表示当前句舱或舱眼内各词串已经串意对齐, 返回调用者。步骤S3所述接受服务指令,针对服务指令所给查询内容在构件库进行查询,而后 根据服务指令要求,直接给出或影射给出与查询内容匹配的单项或多项语种的表意构件, 包括如下步骤利用相同内容的双语或多语种文字版本的语料作为训练样本,每轮选A、B双语作 为一个样本对,其中A语分配给拼音文字或已经比对过的文种,B语可以分配给拼音文字也 可分配给表意文字以及新加入的文种,A、B语的一对句子为多语种句对;第一轮双语对训练样本的查询、比对、提取,其中双语对样本的A语为英文,B语为 中文,从第二轮开始新语对中必须其一是已经进行过查询、比对、提取的,如当加入俄文时, 只能取中俄或英俄语料作为双语对训练样本,第二轮剖析比对的双语对样本中A语应是已 比对过的中文或英文,B语应是新加的俄文;每一轮的训练语料样本应大到新增句型/句例比<0.5%后方可考虑增加新语 种、进行次一轮的查询、比对、提取,另一方面,根据训练样本语料的行业来源或应用范围来 源来标记、划分句型库、舱模库、意群串库、习语库来构成相应分库。本发明相比现有技术具有以下优点及有益效果1、构件库模块含有五个库,分别存贮句型、舱模、组串、意群串和小习语五类表意 构件;只有相同语意的同类构件同处一个记录,同一记录又设计了某某码字段,用以编制意 通代码。意通代码不但唯一地代表了同记录同类构件的共同语意,而且可以分解为某库某 记录。这样的设计得到构件与构件之间可以直接转换或通过意通代码转换而语意不变的有 益效果。2、句型、舱模构件为句子提供了框架,决定了所含句舱及舱眼的位次。可以利用它 们对句子进行拆分;同时又可以利用它们组装出新句子。这就避免了现有技术利用人工智 能进行句法分析、语法分析之不作为。3、组串、意群串构件是填充句舱和舱眼的内容。组串和意群串是多语种词组、术 语、单词表意的对等和统一。有利于不同语种之间的词串的等义与交换(置换)。4、小习语是表意构件之一,也是一类对句型、句舱而言为之特殊的句子,将它们列 为一类,有利于表意构件提取、应用规律的建立,而不致于因为特殊句例而遭到破坏。5、表意构件源于表意,表示语义,它们本身是一些形式、结构不同的语义块。然而, 以表意构件为单元的电子词典,能支持计算机语言文字信息处理同样以表意构件为单元运 作,直接针对语义进行操作。


图1是本发明表意构件电子词典系统的结构示意图;10
图2是构件提取模块示意图;图3是构件数据库示意图;图4是构件操作模块示意图。
具体实施例方式下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限 于此。本发明人认为,语言文字的本质是表意;不同语言文字的句子可以表达相同的语 意。不同语言文字句子的表意都是通过句型、舱模、组串、意群串以及小习语五种表意构件 实现的。然而我们①使语言文字在计算机内,以更符合语言文字表意规律的形式存在和运作。首先把②语法分析、语义理解分配给人脑。组织专人和译者根据句型句舱原理,对 多语种句子进行表意的剖析、比对整理。这些需要理解的艰难的也是一劳永逸的事由人脑 完成。同时③把经常性的、单调、繁琐的记忆、搜索、匹配等工作交给电脑。让计算机提供一个简捷的操作平台,利用人机交互的方式,让“人脑”、“电脑”、“语 言文字”三者最佳地协调,最大地互补;把剖析、比对过程中产生的句型、舱模、意群串等表 意构件建库保存,并统一编制意通代码。下文参照附图、利用实施例将本发明的内容进一步说明如下一、一种表意构件电子词典系统图1是本发明表意构件电子词典结构示意图100 ;表意构件电子词典结构示意图100含有构件提取模块101,构件操作接口模块103 和构件数据库102。构件提取模块101将提取出来的表意构件输出到构件数据库102存贮; 构件操作接口模块103对构件数据库102进行操作、读取数据,将结果由接口输出。(一 )、表意构件提取模块101、200,读入多语种句对,依次进行查询、比对、提取操 作,进行表意构件的提取,将提取出来的表意构件,句型、舱模、组串、意群串、小习语,分别 输出贮存于构件数据库的相应构件库102的相应文种构件字段内。本模块包括配句型子 模块、挖空穴子模块和串对齐子模块(参附图1、附图2)配句型子模块201、用某语种样本句对与句型库中对应语种的文句型字段内容进 行匹配搜索,有匹配的则输出其匹配的句型。挖空穴子模块202、对当前的句对进行挖句舱操作,输出对应的句型;或对当前的 句舱进行挖舱眼操作,输出对应的舱模。串意对齐子模块203、对当前简单句舱或当前舱眼进行操作,备有参考表,含有A 语字段和B语字段;该模块操作使舱或眼内容词串语意对齐后填入参考表,返回。(二)、构件数据库102、300,接受表意构件提取模块101的输出,含有用电子数据 形式构成的、存储了多语种语意对等的表意构件的二维数据库表。它们是句型库、舱模库、 组串库、意群串库和习语库五个表意构件库(参附图3)1、句型库301,用于存储句型构件,有句型码、英文句型、中文句型、俄文句型字段。 其包含至少一个记录,相同语意的句型同处一个记录,相应文种的句型存储在相应文种句型字段内。这里所述文种句型是指句型的框架部分,是面向各自然语言的。2、舱模库302,用于存储舱模构件,有舱模码、英文舱模、中文舱模、俄文舱模字段。 其包含至少一个记录,相同语意的舱模同处一个记录,相应文种的舱模存储在相应文种舱 模字段内。舱模是复杂句舱的框架结构部分,是面向各自然语言的。3、组串库303,用于存储组串构件,有组串码、英文组串、中文组串、俄文组串字段。 其包含至少一个记录,相同语意的组串同处一个记录,相应文种的组串存储在相应文种组 串字段内。组串码代表了同一记录内的各组串字段内各文种组串的语意,影射了各文种组 串;各文种组串又可以通过组串码影射另一个文种组串。4、意群串库304,用于存储意群串构件,有意群码、英文串、中文串、俄文串字段。其 包含至少一个记录,相同语意的意群串同处一个记录,相应文种的意群串存储在相应文种 串字段内。5、习语库305,用于存储小习语构件,有习语码、英文习语、中文习语、俄文习语字 段。其包含至少一个记录,相同语意的小习语同处一个记录,相应文种的小习语存储在相应 文种习语字段内。上述五个库的结构强调只有相同语意的同类构件才同处一个记录,同一记录又设 计了某某码字段,用以编制意通代码。意通代码与同记录的同类构件的相互影射。这样的 结构保证了构件与构件之间可以直接转换或通过意通代码转换而语意不变;也就是说,不 同语种的表意构件之间可以借此进行相互转换。上述五个库之间的关系是平列的,它们互 不干预又共处表意构件数据库之中。(三)、构件操作接口模块103、400,用于接手服务指令,针对服务指令所给查询内 容在构件库进行查询,而后根据服务指令要求,直接给出或映射给出与查询内容匹配的单 项或多项的表意构件。构件操作接口模块由直接查询子模块401、匹配查询子模块402、直 接给出子模块403、映射给出子模块404、更新优化子模块405和接口部406构成(参附图 4)。其中接口部承接本模块操作结果,然后返回给调用者;!。其它五个子模块它们的功 能分别是1)直接查询子模块401、直接查询子模块,用于接受命令,不改变参数形式,直接 查询某个库的某个字段。返还查到、有相应记录,或没有查到、无相应记录。用于对意群串 库、组串库和习语库的查询;2)匹配查询子模块402、匹配查询子模块,用于接受命令,需事先改变查询参数或 和库内容的形式。查询后返回查到、有匹配记录;或没有查到、无匹配记录。用于对当前句 例查询句型库返回有或无匹配句型、或对当前句舱内容查询舱模库返回有无匹配舱模。3)直接给出子模块403、直接给出子模块,接受服务指令,当查询返回查到有相应 记录或有匹配记录时,直接给出当前记录的被查字段内容。4)映射给出子模块404、映射给出子模块,接受服务指令,当查询返回查到有相应 记录或有匹配记录时,给出当前库与被查字段同记录的其它字段内容;5)更新优化子模块405、更新优化子模块,当存贮五类表意构件的构件库任意其 中之一有记录已经被更新优化后,接受服务指令,用新内容覆盖旧内容,与之相关的表、索 引也作相应的改动。二、一种表意构件电子词典系统的实现方法
表意构件电子词典系统的实现方法包括预设操作和服务指令响应操作二部分;预设操作具体部分分为A.构件提取模块,读入多语种句对,依次进行查询、比对、提取操作,以提取出表意 构件,所述表意构件分为句型、舱模、组串、意群串和习语五种类型;把新提取出来的表意构 件添加到相应构件库的相应语种构件字段,B.构件数据库,存贮表意构件,设有与各种表意构件种类相应的句型库,舱模库, 组串库,意群串库和习语库,各库都含有表意构件码和若干语种的表意构件,相同语意的所 有语种表意构件及一个表意构件码互相映射;服务指令响应操作具体部分为C.构件操作接口模块,接受服务指令,针对服务指令所给查询内容在构件库进行 查询,而后根据服务指令要求,直接给出或影射给出与查询内容匹配的单项或多项语种的 表意构件。下文以模块以及它们所包含的步骤、流程分述如下(一)、构件提取模块1)训练样本构件提取模块,输入的是多语种句对。首先需要明白的是多语种句对 来自相同内容的双语或多语种文字版本的语料,以该语料作为训练样本。每一轮构件提取 工作都采用A、B两种语言文字。每轮选A、B双语作为一个样本对,其中A语分配给拼音文 字或已经比对过的文种,B语可以分配给拼音文字也可分配给表意文字以及新加入的文种, A、B语的一对句子为多语种句对;第一轮双语对训练样本的查询、比对、提取,其中双语对样本的A语为英文,B语为 中文,从第二轮开始新语对中必须其一是已经进行过查询、比对、提取的,如当加入俄文时, 只能取中俄或英俄语料作为双语对训练样本,第二轮剖析比对的双语对样本中A语应是已 比对过的中文或英文,B语应是新加的俄文;从第三轮开始,每轮增加一个语种,事先应在 上述五个库任何之一分别增设一个某语或某文字段,用于存贮新增加语种的相应构件。每一轮的训练语料样本应大到新增句型/句例比<0.5%后方可考虑增加新语 种、进行次一轮的查询、比对、提取程序。另一方面,又可以根据训练样本语料的行业来源或 应用范围来源来标记、划分句型库、舱模库、意群串库、习语库来构成相应分库。构件提取模块的步骤流程2)句对读入从多语种句对中读入其中的一个双语样本句对;称当前句对。然后, 调用配句型子模块搜索句型库,查询当前句对是否已经有匹配句型。如果有匹配句型,返回 A、B语匹配句型;下续套入句型步骤。若没有匹配句型,把当前句对作为样本来提取句型。3)提取句型,以当前句对为参数调用挖空穴子樽块,分别挖去句舱,留下句型的操 作,置挖空穴计数器初始值N = O;若当系统从挖空穴子模块返回,并且N > 1时,表示挖句舱提取句型操作完毕,把 返回的两个新句型作为句型构件分别存入句型库A文句型、B文句型字段,而后执行套入句 型步骤。若当系统从挖空穴子模块返回,且N = 0时,表示当前双语样本句对太小不足以分 出或出于语种和习俗难以分出句型句舱,此时当前句对被判定为小习语,把返回的当前句 对作为习语构件分别存入习语库A文习语、B文习语字段。4)套入句型,把当前双语样本句对对号入座地套入当前匹配句型或套入当前新作句型,套入后的句型句例结合型式作为已经划分出句型、句舱的样本句对暂存。如as far as 1 {astronomers}can 2 {determine},the entire universe is3 {built}of 4 {the same matter}.1{宇宙工作者}可以2{确定}整个宇宙都是由4{_相同物质}3{构成}的。5)句舱处理,依次取出已经划分出句型、句舱的样本句对当中的一个句舱,开窗口 一,上部显示A、B语样本句对,下部显示A、B语当前句舱内容;判断当前句舱是否为篮_舱,是则直接执行舱结束判断步骤;若否,则进一步判 断是否可以提取舱模,若能提取舱模,直接执行提取舱模步骤;若不能提取舱模,将当前句 舱内容作为组串,存入组串库A、B语组串字段,然后直接执行舱结束判断步骤。判断当前句舱是否简单句舱、是否可以提取舱模,都是考察A语。如果A语除不表 意虚词外不超出三个意群串(含复串)判为简单句舱。如果A语等于大于7个串判为可以 提取舱模;小于7个串判为不可以提取舱模。组串构件的设置可以使句舱的分析处理更合理更准确。如果没有组串构件,大于 简单句舱的是复杂句舱。复杂句舱等于有模句舱,都应提取舱模;不但麻烦而且实际应用常 常因为过于简短的舱模而招致“舱模”过敏,影响应用。有了组串构件,句舱有简单句舱、组 串句舱、有模句舱三个等级,更合理,也更准确,更符合实际需要。6)提取舱模,先以当前句舱内容查询舱模库,若查到为已有舱模则直接执行舱结 束判断步骤;若没查到,则需要新作舱模,以当前双语句舱对为参数调用挖空穴子模块,挖 去舱眼,留下舱模的操作,挖空穴计数器初始值N = O;当系统从挖空穴子模块返回时,这里表示挖舱眼提取舱模的操作完毕,把返回的 两个新舱模作为舱模构件分别存入舱模库A文舱模、B文舱模字段;7)套舱模,把当前句舱内容对号入座地套入当前舱模或套入新舱模作为已经划分 出舱模、舱眼的有模句舱显示;8)舱结束判断,当前句舱处理完毕,如果当前双语样本句对还有句舱待处理,接续 句舱处理步骤,直至全部句舱处理完毕;9)简单句舱和舱眼处理,依次搜索并取出当前句对的一个简单句舱或一个舱眼的 内容,以它们为参数调用串意对齐子模块;当系统从串意对齐子模块返回时,参考表内A、B 语的词串已经串意对齐、即已成为意群串,然后逐记录地用A、B语字段内容搜索意群串库, 仅当无搜索记录时,把当前记录内容作为新的意群串构件存入意群串库的A文串或B文串 字段;意群串构件就是如此得到的多语种词串语意的对齐和统一。句结束判断,如果当前句对没有处理完,执行舱结束判断步骤;如果当前句对已经 全部处理完,执行句型搜索步骤,进行下一轮句对操作。上文所述调用配句型子模块、挖空穴字模块、串对齐子模块进一步说明如下配句型子模块取句型库中某文句型字段内容,以句舱为空作成句型词串,以L空N串M舱计数, 最长最复杂的句型应小于或等于10段9空16舱;然后建库与句型映射,进行索引;如把句 型as far as[1]can[2], the entire universe is[3]of [4].
作成如下4空5串4舱的句型词串形式as far as can, the entire universe is of.a)、把例句从左到右,拼音文字逐个单词、表意文字逐个字取下,以它们查询句型 首字或首单词,把符合的句型集于临时库;b)、以循环语句逐个句型考测,循环中又设开关语句;C)、开关语句以句型词串空之数N作开关条件,进入后句型词串每段依次与例句 比对,比对后两者都弃去,当各段都能在例句中依次找到为之符合例句的匹配句型,列表给 出;d)、当列表记录大于1时,隐含选取句型词串最长的作为当前匹配句型,连同句型 列表一并返回调用者;挖空穴子模块当调用参数是句对,返回的是句型当调用参数是句舱对,返回的是舱模;a)、弹出一个窗口,上横行显示A语句或A组串、下横行显示B语句或B组串,横行 下再显示“挖空穴”、“保存”和“悔”三个命令按钮,挖空穴计数器N = 0 ;b)、系统以数量串、专名串、名词串、形名串、其它串的优先次序搜索,找出A、B语 句或A、B舱内容中表意对等的1对串,给以变色显示,或当是A、B语句对时查询组串库,如 果查到以它们为A、B语句表意对等的串,给以变色显示作为参考,等待操作者干预确定;C)、操作者可以参考显示,也可以不参考其显示,在上述窗口单击待挖空穴的首尾 两个点;如下面句对当中的“ I ”代表已经单击待挖空穴的首尾两个点I the manager I was dexterous in handling his staff.I那位经理I善於运用他属下的职员。d)、当挖空穴命令按钮被单击,检查A、B语是否都被单击两个点以及这两个点是 否有效(两点之间A语至少包含一个串;B语则语意相当的串),如果无效,提示重作,如果 有效,使N = N+1,将A、B语句两点之间的内容挖去并填入“ [N] ”,该轮挖空穴结束,下一轮 重复步骤再挖下一个空穴;如上例成为[l]was dexterous in handling his staff.[1]善於运用他属下的职员。从挖第二个空穴开始,系统还检测已经被挖去的空穴,在剩余部份最长段的中部 选取表意对等串变色显示以作次一轮的比对提取操作,同时检测两个空穴之间至少应有一 个词串作为间隔,如果没有给出提示,操作者认同,反悔重做,如果否定,系统仅可容忍两个 空穴相连;e).当悔命令按钮被单击,取消最后一次的挖空穴操作,N = N-I,回复原有显示;f).当保存命令按钮被单击,清除子模块,将被挖空穴后的结果和相关参数返回;串意对齐子模块串对齐子模块备有参考表,含有A语字段和B语字段;先清空参考表。a)、把简单句舱或舱眼内容以A语、B语分别取出作为“内容A”、“内容B”。b)、用“内容A”以词串为单元切分并依次填入参考表A语字段,然后逐记录取出查 找意群串库与A语相应的文串字段。C)、如果找到,取出与B语相应的文串字段内容,该字段内容如果“内容B”含有,将15它填入参考本当前记录的B语字段;如果不含有,参考表当前记录B语字段为空。d)、显然,逐记录取出参考表A语字段内容,查找意群串库与A语相应的文串字段 时;可能查出多条相符记录,使得参考表也相应有多条记录。e)、作完整个参考表,开窗口显示参考表、对齐确定命令按钮、组复词命令按钮以 及相关提示;f)、参考表接受操作者按实例延伸或增补词义、不改变原有字、单词的前提下加减 串长度、粘带附随字、词形变化增补词义项等修改A、B语字段内容;g)、参考表接受用户单击连续的记录使组复词标志字段=“Y” ;h)、当组复词命令按钮被单击并且参考表有连续记录的“Y”,将它们的A语字段内 容以“_”相连组成复词,相应记录合并成一条记录,A语字段填入该复词,B语字段以相等语 意的词串填写;i)、当对齐确定命令按钮被单击,弃去参考表B语为空的记录,表示当前句舱或舱 眼内各词串已经串意对齐,分别位于参考表A、B语字段内,返回调用者。如处理句舱“the same matter,,、“相同的物质”;内容A是“ the samematter ”,内容B是“相同物质”,处理后 返回的参考表是A语字段 B语字段same相同的matter 物质其中“the”在这里不表意,故为空。“same”和“matter”还有其它多种语意,如“相 同、同一的、所谓”、“问题、事件、素材”等等,因内容B不含有而未被纳入。(二)、构件数据库存贮表意构件,设有与各种表意构件种类相应的句型库,舱模库,组串库,意群串 库和习语库,各库都含有表意构件码和若干语种的表意构件,相同语意的所有语种表意构 件及一个表意构件码互相映射。(三)、构件操作接口模块构件操作接口模块包含直接查询子模块、匹配查询子模块、直接给出子模块、映射 给出子模块、更新优化子模块。它们各自的流程步骤如下直接查询子模块,用于查询意群串、阻串和小习语;a)、接受命令与参数查询库、语种、查询内容;b)、不改变参数形式,打开其指定查询的库;c)、对所指语种相应的某语构件字段进行查询;d)、字段内容与查询内容参数相同的记录为查到的结果记录;e)、将查到的结果记录号返回调用者。匹配查询子模块,用于查询匹配句型或匹配舱模;事先将句型库或舱模库某语字段内容改变成“句型词+空格”的形式作索引表与 原记录一一对应,加型首或模首字段,其内容拼音文字是首个串,中文(表意文字)是首 字;如句型“the{l}toldhis {2} that {3} on condition that {4}. ” 改变成句型词 + 2SII"白勺? “the to ldhis that on condition that.";
句型“{1}告诉他的{2},如果能{4},就可以{3}。”改变成句型词+空格的形式 “告诉他的,如果能,就可以。”a)、接受查询命令以及参数例句或句舱内容;b)、如果所给参数是例句,打开句型库,进入查句型流程;如果所给参数是句舱内 容,打开舱模库,进入查舱模流程;查句型流程C)、把例句从左到右,英逐个单词、中逐个字取下,以它们查句索引表的型首字或 首单词字段;d)、把符合的记录集于临时库,据临时库取出相应句型;e)、以循环语句再逐个句型考测;f)、循环中又设开关语句,以句型词串空为数作为开关参数;g)、进入开关语句后,以空格切分句型词串,逐段切下与例句比对,比对后两者都 弃去;当句型词串各段都分别能在例句段中找到为之匹配,即与例句匹配的句型;h)、同样的操作搜索完临时表;i)、如果有大于1个匹配句型的,隐含以匹配句型长度降序列表返回。查舱模流程j)、把句舱内容从左到右,英逐个单词、中逐个字取下,以它们查句索引表的型首 字或首单词字段;k)、把符合的记录集于临时库,据临时库取出相应舱模;1)、以循环语句再逐个句型考测;m)、循环中又设开关语句,以舱模词串空为数作为开关参数;η)、进入开关语句后,以空格切分舱模词串,逐段切下与句舱内容比对,比对后两 者都弃去;当舱模词串各段都分别能在句舱内容中找到为之匹配,即与句舱内容匹配的峡 模;ο)、同样的操作搜索完临时表;ρ)、如果有大于1个匹配舱模的,隐含以匹配舱模长度降序列表返回。直接给出子模块接受服务指令,当查询返回查到有相应记录或有匹配记录时,直接给出当前记录 的被查字段内容。映射给出子模块a)、接受服务指令以及参数映射给出某某文构件;b)、当查询返回查到有相应记录或有匹配记录时,给出当前库与被查字段同记录 的其它某某为构件字段内容;更新优化子模块a)、当存贮五类表意构件的构件库任意其中之一有记录或字段内容已经被更新优 化后,b)、接受服务指令以及参数某库,某记录,某字段,更新内容C)、根据参数要求找到目的点,即找到某库,某记录,某字段;d)、用更新内容覆盖目的点内容;
e)、与之相关的表、索引也作相应的改动。说明当某表意构件库有记录或字段内容已经被更新优化后,进行上面的操作。这 是一项预留的功能,致于如何更新优化不属于本发明技术范围。这里只管已经被更新优化 后的内容覆盖原有内容。上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的 限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化, 均应为等效的置换方式,都包含在发明的保护范围之内。
权利要求
1.一种表意构件电子词典系统,其特征在于,包括构件提取模块,读入多语种句对, 依次进行查询、比对、提取操作,以提取出表意构件,所述表意构件分为句型、舱模、组串、意 群串和习语五种类型;把新提取出来的表意构件添加到相应构件库的相应语种构件字段,构件数据库,存贮表意构件,设有与各种表意构件种类相应的句型库,舱模库,组串库, 意群串库和习语库,各库都含有表意构件码和若干语种的表意构件,相同语意的所有语种 表意构件及一个表意构件码互相映射;构件操作接口模块,接受服务指令,针对服务指令所给查询内容在构件库进行查询, 而后根据服务指令要求,直接给出或映射给出与查询内容匹配的单项或多项语种的表意构 件;组串构件就是某些较大的句舱中,缺乏类似句型的结构,不能提取舱模且由大于三个 意群串所组成的句舱内容;组串库,用于存储组串构件,有组串码、英文组串、中文组串、俄文组串字段,相同语意 的组串同处一个记录,相应文种的组串存储在相应文种组串字段内,组串码代表了同一记 录内各文种组串字段内的各文种组串的语意。
2.根据权利要求1所述的表意构件电子词典系统,其特征在于,所述构件提取模块设 置有配句型子模块,用某语种样本句对与句型库中对应语种的文句型字段内容进行匹配搜 索,如有匹配则输出匹配句型;挖空穴子模块,对调用的句对进行挖句舱操作,输出对应的句型,对调用的句舱进行挖 舱眼操作,输出对应的舱模;串意对齐子模块,把某语种的简单句舱或舱眼以词串为单元切分并依次填入参考表该 语字段后,逐记录取出查找意群串库的该文串字段,找到后取出同记录的某种或某几种文 串字段内容。
3.根据权利要求1所述的表意构件电子词典系统,其特征在于,所述构件操作接口模 块设置有直接查询子模块,用于接受命令,不改变参数形式,直接查询某个库的某个字段,返还 查到,有相应记录或没有查到,无相应记录,用于对意群串库、组串库和习语库的查询;匹配查询子模块,用于接受命令,需事先改变查询参数或和库内容形式,查询后返回查 到,有匹配记录,或没有查到,无匹配记录,用于对当前句例查询句型库返回有或无匹配句 型、或对当前句舱内容查询舱模库返回有无匹配舱模信息;直接给出子模块,接受服务指令,当查询返回查到有相应记录或有匹配记录时,直接给 出当前库的被查字段内容;映射给出子模块,接受服务指令,当查询返回查到有相应记录或有匹配记录时,给出当 前库与被查字段同记录的其它字段内容;更新优化子模块,当存贮五类表意构件的构件库任意其中之一有记录已经被更新优化 后,接受服务指令,用新内容覆盖旧内容,与之相关的表、索引也作相应的改动。
4.根据权利要求1所述的表意构件词典系统的实现方法,其特征在于,包括预设操作 和服务指令响应操作;其中,预设操作具体为s1.构件提取模块,读入多语种句对,依次进行查询、比对、提取操作,以提取出表意构 件,所述表意构件分为句型、舱模、组串、意群串和习语五种类型;把新提取出来的表意构件 添加到相应构件库的相应语种构件字段, s2.构件库,存贮表意构件,设有与各种表意构件种类相应的句型库,舱模库,组串库, 意群串库和习语库,各库都含有表意构件码和若干语种的表意构件,相同语意的所有语种 表意构件及一个表意构件码互相映射;服务指令响应操作具体为s3.构件操作接口模块,接受服务指令,针对服务指令所给查询内容在构件库进行查 询,而后根据服务指令要求,直接给出或影射给出与查询内容匹配的单项或多项语种的表 意构件。
5.根据权利要求4所述的表意构件电子词典系统的实现方法,其特征是,步骤Sl所述 构件提取模块对多语种句对进行查询、比对、提取操作,提取出句型、舱模、组串、意群串、习 语五类表意构件,包括如下步骤s101.从多语种句对中读入其中的一个双语样本句对;s102.调用配句型子模块搜索句型库返回A、B语匹配句型,若没有匹配句型,执行步骤 S103提取新句型,若有匹配句型执行步骤S105套入句型;s103.提取句型,以当前双语样本句对为参数调用挖空穴子模块,分别挖去句舱,留下 句型的操作,挖空穴计数器初始值N = O;s104.若当系统从挖空穴子模块返回,并且N> 1时,表示挖句舱提取句型操作完毕, 把返回的两个新句型作为句型构件分别存入句型库A文句型、B文句型字段,而后执行步骤 S105操作;若当系统从挖空穴子模块返回,且N = O时,表示当前双语样本句对太小不足以分出或 出于语种和习俗难以分出句型句舱时则被判定为习语,把返回的作为习语构件分别存入习 语库A文习语、B文习语字段;s105.套入句型,把当前双语样本句对对号入座地套入当前匹配句型或套入当前新作 句型,作为已经划分出句型、句舱的样本句对暂存;s106.句舱处理,依次取出已经划分出句型、句舱的样本句对当中的一个句舱,开窗口 一,上部显示A、B语样本句对,下部显示A、B语当前句舱内容;s107.判断当前句舱是否为简单句舱,是则盲接执,行步骤Slll操作,若否,则进一步判 断是否可以提取舱模,若能提取舱模,直接执行步骤S108操作;若不能提取舱模,将当前句 舱内容作为组串,存入组串库A、B语组串字段,然后直接执行步骤Slll操作;s108.提取舱模,先以当前句舱内容查询舱模库,若查到为已有舱模则直接执行步骤 Slll操作;若没查到,则需要新作舱模,以当前双语句舱对为参数调用挖空穴子模块,挖去 舱眼,留下舱模的操作,挖空穴计数器初始值N = 0 ;s109.当系统从挖空穴子模块返回时,这里表示挖舱眼提取舱模的操作完毕,把返回的 两个新舱模作为舱模构件分别存入舱模库A文舱模、B文舱模字段,而后执行步骤SllO操 作;s110.套舱模,把当前句舱内容对号入座地套入当前舱模或套入新编舱模作为已经划 分出舱模、舱眼的有模句舱显示;· 5111.当前句舱处理完毕,如果当前双语样本句对还有句舱待处理,接续S106直至全 部句舱处理完毕;·5112.简单句舱和舱眼处理,依次搜索并取出当前句对的一个简单句舱或一个舱眼的 内容,以它们为参数调用串意对齐子模块,以词串为单元切分并依次填入参考表A语字段, 逐记录取出搜索意群串库的A文串字段,找到后取出同记录的B文串字段内容,当B文串字 段内容是当前简单句舱或舱眼所含有时,将B文串字段内容填入参考表B语字段;·5113.当系统从串意对齐子模块返回时,参考表内A、B语的词串已经串意对齐、即已成 为意群串,然后逐记录地用A、B语字段内容搜索意群串库,仅当无搜索记录时当前记录内 容作为新的意群串构件存入意群串库的A文串或B文串字段;·5114.如果当前句对没有处理完,执行步骤Slll;如果当前句对已经全部处理完,执行步骤S101,进行下一轮句对操作。
6.根据权利要求5所述的一种表意构件电子词典系统的实现方法,其特征是,所述调 用配句型子模块的具体操作为,取句型库中某文句型字段内容,以句舱为空作成句型词 串,以L空N串M舱计数,最长最复杂的句型应小于或等于10段9空16舱;然后建库与句 型映射,进行索引;·5115.把例句从左到右,拼音文字逐个单词、表意文字逐个字取下,以它们查询句型首 字或首单词,把符合的句型集于临时库;·5116.以循环语句逐个句型考测,循环中又设开关语句;·5117.开关语句以句型词串空之数N作开关条件,进入后句型词串每段依次与例句比 对,比对后两者都弃去,当各段都能在例句中依次找到为之符合例句的匹配句型,列表给 出;·5118.当列表记录大于1时,隐含选取句型词串最长的作为当前匹配句型,连同句型列 表一并返回调用者;
7.根据权利要求6所述的一种表意构件电子词典系统的实现方法,其特征是,所述挖 空穴子模块的具体操作为·5119.挖空穴子模块,当调用参数是句对,返回的是句型当调用调用参数是句舱对, 返回的是舱模;·5120.弹出一个窗口,上横行显示A语句或A组串、下横行显示B语句或B组串,横行下 再显示挖空穴、保存和悔三个命令按钮,挖空穴计数器N = 0 ;·5121.系统以数量串、专名串、名词串、形名串、其它串的优先次序搜索,找出A、B语句 或A、B舱内容中表意对等的1对串,给以变色显示,或当是A、B语句对时查询组串库,如果 查到以它们为A、B语句表意对等的串,给以变色显示等待操作者干预确定;从挖第二个空穴开始,系统还检测已经被挖去的空穴,在剩余部份最长段的中部选取 表意对等串变色显示以作次一轮的比对提取操作,同时检测两个空穴之间至少应有一个词 串作为间隔,如果没有给出提示,操作者认同,反悔重做,如果否定,系统仅可容忍两个空穴 相连;·5122.当挖空穴命令按钮被单击,检查A、B语是否都被单击两个点以及这两个点是否 有效,如果无效,提示重作,如果有效,使N = N+1,将A、B语句两点之间的内容挖去并填入 “ [N] ”,该轮挖空穴结束,下一轮重复步骤·S123再挖下一个空穴;(5123.当悔命令按钮被单击,取消最后一次的挖空穴操作,N= N-I,回复原有显示;(5124.当保存命令按钮被单击,清除子模块,将被挖空穴后的结果和相关参数返回;
8.根据权利要求7所述的一种表意构件电子词典系统的实现方法,其特征是,所述串 意对齐子模块的具体操作为(5125.把A语当前句舱或舱眼以词串为单元切分并依次填入参考表A语字段,逐记录 取出查找意群串库的A文串字段,找到后取出同记录的B文串字段内容,如果该B文串内容 在B语当前句舱或舱眼中含有,把B文串内容填入参考表同记录B语字段,不含有的让它为 空;如果意群串库的A文串字段有相同的记录,相应参考表也多一条A语字段有重的记录 备选,作完整个参考表,开窗口显示参考表、对齐确定命令按钮、组复词命令按钮以及相关 提示;(5126.参考表接受操作者按实例延伸或增补词义、不改变原有字、单词的前提下加减串 长度、粘带附随字、词形变化增补词义项等修改A、B文字段内容;(5127.参考表接受用户单击连续的记录使组复词标志字段=“Y”;(5128.当组复词命令按钮被单击并且参考表有连续记录的“Y”,将它们的A语字段内容 以“_”相连组成复词,相应记录合并成一条记录,A语字段填入该复词,B语字段以相等语意 的词串填写;(5129.当对齐确定命令按钮被单击,表示当前句舱或舱眼内各词串已经串意对齐,返回 调用者。
9.根据权利要求4所述的表意构件电子词典系统的实现方法,其特征是,步骤S3所述 接受服务指令,针对服务指令所给查询内容在构件库进行查询,而后根据服务指令要求,直 接给出或影射给出与查询内容匹配的单项或多项语种的表意构件,包括如下步骤利用相同内容的双语或多语种文字版本的语料作为训练样本,每轮选A、B双语作为一 个样本对,其中A语分配给拼音文字或已经比对过的文种,B语可以分配给拼音文字也可分 配给表意文字以及新加入的文种,A、B语的一对句子为多语种句对;第一轮双语对训练样本的查询、比对、提取,其中双语对样本的A语为英文,B语为中 文,从第二轮开始新语对中必须其一是已经进行过查询、比对、提取的,如当加入俄文时,只 能取中俄或英俄语料作为双语对训练样本,第二轮剖析比对的双语对样本中A语应是已比 对过的中文或英文,B语应是新加的俄文;每一轮的训练语料样本应大到新增句型/句例比< 0. 5%后方可考虑增加新语种、进 行次一轮的查询、比对、提取,另一方面,根据训练样本语料的行业来源或应用范围来源来 标记、划分句型库、舱模库、意群串库、习语库来构成相应分库。
全文摘要
本发明提供一种表意构件电子词典系统,包括构件提取模块、构件数据库、构件操作接口模块。本发明为计算机语言文字信息处理提供涉足语义进行支持,大幅度提高语言文字信息处理能力,实现“人脑”、“电脑”、“语言文字”三者的协调和互补。
文档编号G06F9/44GK102043849SQ20101059705
公开日2011年5月4日 申请日期2010年12月20日 优先权日2010年12月20日
发明者刘树根 申请人:惠州市贝圣科特软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1