用一个词库实现双向词汇翻译和单词分组记忆的方法

文档序号:6445640阅读:937来源:国知局
专利名称:用一个词库实现双向词汇翻译和单词分组记忆的方法
技术领域
本发明涉及一种双向词汇翻译和单词分组记忆的方法,特别是指一种仅用一个词库进行双向词汇翻译的和分组背单词的方法。
有词汇学习功能手持电子产品也很多,主要是专用的电子词典和部分PDA。这种电子设备内置各种词典和电子记事簿等功能,有的能翻译不能背单词,有的能背单词不能翻译。它们在实现背单词时调用不同的分立的词库,做翻译时又用其他的词库,之所以这样是依靠于内部大量的存储空间,存储不同的词库。
如申请号为96112663.9的发明,是一种电子计算器英汉词典,内置了英汉词典,但只能英译汉,更不能背单词。
又如申请号为88218781.3的发明,是一种英汉及汉英电子词典,利用当今微电子和计算机技术在小于32开书本体积内,做成具有英汉、汉英词典功能的一种电子产品。它利用大容量存贮片把英汉单词按编码形式存入,完成查词、翻译,但不具备背单词的功能。

发明内容
本发明提供了一种方法,只利用一个词库,实现了双语翻译和分组背单词两种功能。它利用一个特殊结构的词库和相应的索引表,实现按类、按组记忆词汇,同时又能实现词汇双向翻译。它可方便地作为一个模块嵌入到手持电子设备的软件系统中,实现方法简单,并且节约了资源,降低了成本。
以上目的可通过本发明的一种用一个词库实现双向词汇翻译和单词分组记忆的方法实现,该方法包含(1)使用一个特殊结构的词库,其包含一个词库本体,内含多个词目,每一词目包含一个第一语言标题词、一个第二语言注释、以及至少一个表示该词目所属的分词库的分词库编号;一个词目分类索引表,包含多个分词库索引,每一分词库索引至少包含一个分词库编号和一组位置信息,指出该分词库在所述词库本体中的位置范围;一个快速索引表,其中存储有多条搜索符位置索引,每个索引记录了一个第二语言的搜索符在所述词库本体中的至少一组位置信息;(2)一个背单词方法,包含以下步骤根据用户选择的词目分类确定一个分词库编号;在所述词目分类索引表中找到对应该分词库编号的位置信息;在词库本体中找出词目中的分词库编号与所确定的分词库编号一致的词目;(3)一个正向翻译方法,按用户给出的第一种语言词汇在所述的词库中查询标题词与之相匹配的词目;(4)一个反向翻译方法,包含以下步骤按用户给出的第二种语言词汇确定一个搜索符;从所述快速索引表中取得该搜索符对应的索引的所述位置信息;根据该位置信息找出所述词库中符合要求的词目;(5)将找到的词目提供给用户。
进一步地,本发明的方法中,在词目分类索引表中还可包含一分词库词目总数计数。
进一步地,本发明的方法中,在每一分词库索引中还可还包含一分词库名称信息。
进一步地,本发明的方法中,在词目中还可包含音标、读音数据或各种必要的分割符。
进一步地,本发明的方法中,词目分类索引表可以和词库本体存储在一个文件中,该词目分类索引表位于文件头。
进一步地,本发明的方法中,词库和索引表的任意组合可以是用内部编码形式存储的。
进一步地,本发明的方法中,词库或索引可以是经排序的。
更进一步地,本发明的方法可以应用于一个手持电子设备的,如手机或掌上电脑。


图1(a)是这个词库中词目分类索引表和词库本体的实施例。词目分类索引表可以实现为词库信息头101,包括分词库数目单元105和分词库信息体103,如果分词库信息体103的数目是固定的,则分词库数目单元105也可不要。分词库信息体103应包括分词库编号,分词库名称和在词库中的起始和结束的位置指针104,位置指针104指向词库主体102中的存储位置。通过这种结构实现用一个词库完成分类、分组背单词的功能。
词库主体102由多个词目组成,每一词目包含一个第一语言标题词、一个第二语言注释、以及至少一个表示该词目所属的分词库的分词库编号和分割符,图1(b)和图1(c)揭示了两种可行的词目的构成方式,它们都可在同一个词库中出现,但至少包含第一语言标题词、一个第二语言注释、编号和对应的分割符。
词库主体102按第一种语言的排序顺序存放所有词目,词目包括分词库编号、第一种语言的标题词、音标和第二种语言的注释等元素,和多种不同的分割各元素的分割符。这个分词库编号和分词库信息体103中的分词库编号是一致的,相同的分词库编号表示词目属于同一个分词库。
图2是使用这种结构的词库完成背单词功能的流程图。步骤201通过人机界面获得分词库的设置和分组信息。步骤202在词库信息头101中得到对应的位置指针104。步骤203通过这些位置指针104在词库主体102中可定位分词库的起讫位置,然后根据分组信息可查获对应的词目。这个词目的分词库编号应和选定的分词库编号一致。
在翻译时,如果由第一种语言翻译为第二种语言,将第一种语言的词汇和词库主体102中的标题词进行匹配,即可查到对应的词目。也可配置一个标题词的索引表,则查询速度会更快。在由第二种语言到第一种语言翻译(反向翻译)时,需利用快速索引表,快速索引表记录了第二种语言的搜索符在词库主体中词目开始和结束的位置,或者是每一次出现的位置。搜索符是第二种语言词汇的第一个单字或单词,它们必须在译文中出现。索引表也可以是排序的。
图3是一个反向翻译的操作流程图。在得到输入的词汇后,步骤301提取搜索符,步骤302通过查询模块得到搜索符在词库中出现的位置,步骤303再通过注释的匹配比较,判断当前词汇是否是注释的一部分,如果是,则当前词目是所需词目,翻译成功,可进行下一个翻译查询。
在图3中步骤302用到一种反向翻译算法,先为要查找的第二语言词汇提取搜索符,并在该快速索引表中查找对应的索引;之后在找到的索引中取得该第二语言搜索符在所述词库中的一个位置信息,找出该词库的该位置处的第二语言译文与所述要查找的第二语言词汇相匹配的词目;重复以上步骤直至处理完所有的位置信息即可找出所有符合要求的词汇。
这种反向翻译算法可以使用下面揭示的方案完成,在这个方案中,使用了一个如图4所示的快速索引表,以及一个如图6所示的处理流程。
图4中说明了一种快速索引表,可在步骤302中应用。在一级索引表401中,给每一个搜索符分配了一个指针403,分配顺序可按搜索符的特点排序。指针403都是固定长度,且指向二级索引表402中对应的二级索引表元404的地址。二级索引表402由二级索引表元404组成。二级索引表元404的长度不定,依赖于搜索符在词库中的统计信息。
进一步,图5表示了图4中的二级索引表元404的一种结构,二级索引表元404记录搜索符在词库中开始和结束的位置,或者是每一次发生的位置。如图5所示,如果标志符/计数器500等于0,则指针数为2(n=2),指针1(由标号501表示)指向词库中当前搜索符第一次出现的位置,指针2(由标号502表示)指向词库中当前搜索符最后出现的位置。如果标志符/计数器500大于0,则指针数为标志符/计数器表达的值(n=标志符/计数器值),指针1到指针n分别指向当前搜索符在词库中出现的位置。
图6则揭示了一种反向翻译方法的处理过程得到搜索符后,由步骤602在一级索引表401中查到搜索符对应的位置,该位置存放在二级索引表402中的表元的指针;如果在一级索引表401中没查到,则返回查询不到的信息,这在图中没有标出。这时说明词库中没有当前输入词汇的记录。
再由步骤603在二级索引表的表元中查到在该搜索符在词库中的位置指针,指针可能有多个。
步骤604中当所有位置指针已经取完,则结束处理。
否则在步骤605对词库中由取到的位置指针所指示的位置处的译文进行词汇匹配,即判断所输入词汇是否在译文中出现。
在步骤606中,如果译文中出现了所输入的词汇,即匹配成功(“是”),则得到对应的词目,进而得到其它词目,否则继续处理下一个位置指针。
本发明所用的词库数据库和索引表被表达为内部编码形式,连同背单词的软件主体一起作为手持电子设备软件系统的一部分,一起编译链接,而手持电子设备可根据自己的设计风格提供操作界面。
对于本领域的技术人员来说显而易见的是,可在不脱离本发明的精神和范围的情况下对本发明做出各种改进和变化。因此,这意味着,如果对本发明的这些改进和变化落在所附权利要求的范围及其等效范围内,本发明就涵盖了这些改进和变化。
权利要求
1.一种用一个词库实现双向词汇翻译和单词分组记忆的方法,其特征在于该方法包含(1)建立一个特殊结构的词库,其包含一个词库本体,内含多个词目,每一词目包含一个第一语言标题词、一个第二语言注释、以及至少一个表示该词目所属的分词库的分词库编号数据;一个词目分类索引表,包含多个分词库索引数据,每一分词库索引数据至少包含一个分词库编号数据和一组分词库位置数据,其中该分词库位置数据指出该分词库在所述词库本体中的位置范围;一个快速索引表,其中存储有多条搜索符位置索引数据,每个索引数据记录了一个第二语言的搜索符在所述词库本体中的至少一组搜索符位置数据;(2)一个背单词方法,进一步包含以下步骤根据用户选择的词目分类确定一个分词库编号;在所述词目分类索引表中找到对应该分词库编号的分词库位置数据;根据该找到的分词库位置数据,在词库本体中找出词目中的分词库编号数据与所确定的分词库编号一致的词目;(3)一个正向翻译方法,按用户给出的第一种语言词汇在所述的词库中查询第一语言标题词与该待查的第一种语言词汇相匹配的词目;(4)一个反向翻译方法,包含以下步骤按用户给出的第二种语言词汇确定一个搜索符;从所述快速索引表中取得该搜索符对应的索引数据中的所述搜索符位置数据;根据该找到的搜索符位置数据找出所述词库中符合要求的词目;(5)将找到的词目提供给用户。
2.如权利要求1所述的方法,其特征在于,所述一个词目分类索引表还包含一分词库词目总数计数数据。
3.如权利要求1所述的方法,其特征在于,所述每一分词库索引还包含一分词库名称数据。
4.如权利要求1所述的方法,其特征在于,所述词目还包含音标数据、读音数据和必要的分割符的任意组合。
5.如权利要求1、2、3或4所述的方法,其特征在于所述的词目分类索引表与所述词库本体存储于一个文件中,该词目分类索引表位于文件头。
6.如权利要求1、2、3或4所述的方法,其特征在于,所述词库和/或索引表是以内部编码形式存储的。
7.如权利要求1、2、3或4所述的方法,其特征在于,所述词库和/或索引表是经排序的。
8.如权利要求1、2、3或4所述的方法,其特征在于,该方法是应用于一个手持电子设备的。
9.如权利要求8所述的方法,其特征在于所述的手持电子设备是一个手机或掌上电脑。
全文摘要
一种利用一个特殊结构的词库和相应的索引表实现双语翻译和分组背单词功能的方法。它可方便地作为一个模块嵌入到手持电子设备的软件系统中,实现方法简单,且节约资源和成本。
文档编号G06F17/28GK1452101SQ03110620
公开日2003年10月29日 申请日期2003年4月21日 优先权日2003年4月21日
发明者祝庆涛 申请人:北京嘉盛联侨信息工程技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1