使用xml表示电子字典目录数据的方法

文档序号:6615502阅读:145来源:国知局
专利名称:使用xml表示电子字典目录数据的方法
技术领域
本发明涉及的是一种表示电子字典目录数据的方法,更确切地说是涉及一种使用可扩展标记语言(extensible Markup Language,简称为XML )表示电子字典目录数据的方法。
背景技术
随着数字化时代的来临,学习也逐渐走向电子化信息化,电子字典或词典(electronic dictionary)的普及,大大减少了人们学习时烦瑣的查阅数据的时间。然而对于大量的数据,却对电子字典的软件发展带来了一定的难度,使得测试工作相当地繁重,识别电子字典中表示数据的二进制数据,又大大增加了测试难度。
为了解决出版商提供的原始字典数据和应用到电子字典硬件上的二进制数据之间差別太大的问题,建立一种中间过渡的数据文件是非常必要的。自从微软(Microsoft)发布了 .net开发平台以来,大批量地处理XML结构化数据变得相当方便自然。而且,由于XML本身所具有的灵活性和结构性,使得利用程序分析XML结构化数据,例如电子字典目录数据的逻辑关系变得容易起来。

发明内容
本发明的目的就是在提供一种使用XML表示电子字典目录数据的方法,使得各种繁多的电子字典目录数据结构化及标准化,用以克服上迷缺陷。
本发明提出一种使用XML表示电子字典目录数据的方法,其首先通过程序将出版商提供的原始文本数据结构化;接着将结构化的原始文本数据的目录数据通过一 定的规则转码生成XML目录数据文件;然后通过公用程序读取XML目录数据文件,以便对XML目录数据文件进行测试校验;再来将完成测试校验后的XML目录数据文件生成二进制目录数据文件;最后,将二进制目录数据文件应用到电子字典硬件上。其中,所述的XML目录数据文件的生成规则包括(1) 对结构化的原始文本数据的目录数据在逻辑上进行结构化处理,形成一目录数据树形结构(catalog—tree),其中结构化的原始文本数据的每个目录数据即是目录数据树形结构(catalog—tree)的一个目录节点(catalog)。
(2) 所述的目录数据树形结构(catalog—tree)的每个目录节点(catalog)具有下面至少一个属性
(a) 节点标识(id)属性用来表征目录节点(catalog)的唯一标识。
(b) 跳跃标识(jumpjd)属性和节点标识(id)属性配套使用,若第 一 目录节点具有跳跃标识(jump—id)属性、第二目录节点具有节点标识(id)属性、且所述的跳跃标识(jumpjd)属性和节点标识(id)属性内容一致,则第一目录节点藉此直接访问第二目录节点,可实现目录节点之间非层次化的访问。
(c) 参考标识(refjd)属性用来作为中间参考标识,使得被引用的目录节点通过其它方式被引用。
(3) 所述的目录数据树形结构(catalog—tree)的每个目录节点(catalog)具有下面至少一个子域
(a) 标题(title)域用来存放和目录数据相应的使用在电子字典硬件上的数据。
(b) 页组(leaf—group)域若目录节点(catalog)为 一对多关系,贝'j目录节点(catalog)具有页组(leaf—group)域,以提供访问时返回目录节点(catalog)的信息;若目录节点(catalog)不具有页组(leaflgroup)域,则默认目录节点(catalog)为 一对一的关系。
本发明通过XML表示电子字典目录数据,产生更结构化及标准化的XML目录数据文件作为中间过渡的数据文件,可以克服出版商提供的原始字典数据和应用到电子字典硬件上的二进制数据之间差别太大的问题,大大降低测试难度及工作量。


图1为依照本发明一实施例所绘示的使用XML表示电子字典目录数据的方法流程图2A为依照本发明一实施例所绘示的结构化的原始文本数据的示意5图2B为图2A所示结构化的原始文本数据的树形结构的示意图;图3A为依照本发明一实施例所绘示的XML目录数据文件的示意图;图3B为图3A所示XML目录数据文件的树形结构的示意图。附图标记说明Sll-通过程序将原始文本数据结构化;S12-将结构化的原始文本数据转码生成XML目录数据文件;S13 -通过公用程序读取XML目录数据文件,并进行测试校验;S14-将校验后的XML目录数据文件生成二进制目录数据文件;S15 -将二进制目录数据文件应用到电子字典硬件上。
具体实施例方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。图1为依照本发明一实施例所绘示的使用XML表示电子字典目录数据的方法的流程图。请参照图1,首先,在步骤Sll,通过程序将出版商提供的原始文本数据结构化。接着,在步骤S12,由于结构化的原始文本数据其目录数据亦已结构化,因此可通过一定的规则将结构化的目录数据转码生成XML目录数据文件。然后,在步骤S13,通过公用程序(如支持XML的浏览器程序)读取XML目录数据文件,以便对XML目录数据文件进行测试校验。最后,在步骤S14,将完成测试校验后的XML目录数据文件生成二进制数据文件,并在步骤S15,将二进制数据文件应用到电子字典硬件上。下面将针对上述部分的步骤进一步说明。
在步骤Sll,原始文本数据例如是英汉字典、汉英字典、英英字典、专业字典、文法宝典、生活美语、旅游会话等可应用在电子字典的文本数据。但是,由曱出版商提供的原始文本数据和乙出版商提供的原始文本数据两者格式通常是不相同的,甚至于由曱出版商提供的两性质相近的原始文本数据(如电机专业字典及化学专业字典)也有可能格式是不相同的,因此必须依据不同的原始文本数据格式釆用相应的程序以便对原始文本数据进行结构化。
在步骤S12,生成XML目录数据文件的具体规则如下
(1)在结构化的原始文本数据中,其目录数据亦已结构化且可在逻辑上进行结构化处理,形成一目录数据树形结构(catalog—tree)。这个树形结构具有一字典标识(dictjd)属性,用来标识不同的原始文本数据的目录数据。在这个树形结构中,每个节点皆是一个目录数据(catalog),故这些节点亦称为目录数据节点或简称为目录节点。每个目录节点都可以向下继续包括子目录节点,直到树形结构的叶子节点。
(2) 在这个树形结构中,每个目录节点可以具有下面几种属性
(a) 节点标识(id)属性用来表征目录节点的唯一标识,可和跳跃标识(jump—id)属性配套使用;
(b) 参考标识(ref—id)属性若需要通过其它方式引用目录节点标识,则被引用的目录节点需存在此ref—id属性以作为中间参考标识;以及
(c) 跳跃标识(jump—id)属性若第一目录节点具有jump—id属性、第二目录节点具有id属性、且所述的jump一id属性内容和所述的id属性内容一致,则通过所述的jumpjd属性和所述的id属性的配套使用,第一目录节点可直接去访问第二目录节点,而不需要按照树形结构逐层访问。换句话说,jump—id属性是用来实现目录节点之间非层次化的
-沐问,是一种自由"i方问。
(3) 在这个树形结构中,每个目录节点还可以包括以下几种子域
(a) 标题(tMe)域用来存放和目录数据相应的二进制数据,这个二进制数据是使用在电子字典硬件上;
(b) 页组(leaf—group)域在目录节点存在一对多关系时leaf—group域才存在,反之,若目录节点不具有leaf—group域则默认 一对 一 的关系。这是由于电子字典硬件的显示屏幕一次能显示的内容有限或其它因素,导致一个目录节点所对应到的内容必须分段显示,每个分段后的内容需要有一个内容标号来区分。此时,这个目录节点将对应到多个内容标号,即存在一对多关系,因此需要leaf—group域使得访问到任意内容标号时能有足够的信息供返回目录节点或第一个内容标号(通常遍历目录节点所对应的多个内容标号时,先进入第一个内容标号)。例如,目录节点A分成5段,而目录节点A对应到内容标号Al ~ A5。当访问到内容标号A3时,若选择退回目录节点A,则根据leaf—group域内容可以直接返回内容标号A1 。
leaf—group域具有一索引类型(type)属性,反映索引目录节点是否连续,若连续则type属性内容为"from—to", leaf—group域内容为目录节点对应到的首末内容标号;若不连续则type属性内容为"list", leaf—group
7域内容枚举所有目录节点对应到的内容标号。
举例来说,某出版商提供名称为文法宝典的原始文本数据,其结构化后如图
2A所示。其中,"第l章名词"、"第2章形容词"、"第3章动词",还有"第l节及物动词"、"第2节不及物动词"等即是目录数据,各目录数据后面跟着相关的内容,如目录数据"第l章名词"后面跟着相关的内容"<名词>是生物、事物、地方以及抽象概念的名称"。这些目录数据本身具有逻辑意义上的结构,如"第l章名词"、"第2章形容词"和"第3章动词"是平等的逻辑关系,而"第3章动词"和"第1节及物动词,,则是主从的逻辑关系,故可在逻辑上进行结构化处理,形成如图2B所示的树形结构。事实上,只要是可在电子字典中起到索引电子字典主要内容而存在的章节、标题等数据均可定义为目录数据。
图2A所示结构化的原始文本数据文法宝典在步骤S12通过一定的规则转码生成XML目录数据文件。例如,首先,先读取结构化的原始文本数据,在读到"第1章"这个信息时,判断出这是一个目录数据,而目录数据即是前述的目录数据树形结构中的一个目录节点。另外,根据"章"这个信息,判断出这个目录节点所应该在的层次,同时根据"第l"这个信息,判断出这个目录节点在其所在层次中的位置。然后,根据这个目录节点所在的层次及其位置,将其写入XML目录数据文件中,同时将这个目录数据转码成在电子字典硬件上使用的二进制数据并写入XML目录数据文件中,如下
<catalog ref—id="l">
〈title string二"第l章名词"〉730F 0031 7EB7 0020 7854 72Al</title〉</catalog〉
其中,catalog为此目录节点的元素(element)名称,其具有ref_id属性且内容为"1"。此目录节点还具有title域用来存放和目录数据相应的二进制数据(即"730F0031 7EB7 0020 7854 72A1")。为了开发者方便观察,title域具有一个字符串(string)属性,如此目录节点的string属性内容为"第l章名词,,,其对应到"730F0031 7EB7 0020 7854 72A1",事实上在实际转换流程中将忽略这个string属性。再来,继续读取剩下的结构化的原始文本数据,在读到"<名词>是生物、事物、地方以及抽象概念的名称",判断出不是目录数据并忽略,然后在读到换行符号(即如图所示的"r符号)也忽略,跟着读到"第2章"时,重复前面"第l章"的步骤将其写入XML目录数据文件中。
当继续读到"第1节"这个信息时,判断出这是一个目录数据。另外,根据"节,,这个信息,判断出这个目录节点所应该在的层次,且由于前面一个最近上一层的目录节点是"第3章",可以判断这是属于目录节点"第3章,,的子节点,同时根据"第l"这个信息,得到这个目录节点在其所在层次中的位置。然后,根据这个目录节点所在的层次及其位置,将其写入XML目录数据文件中,同时将这个目录节点的目录数据转码成二进制数据并写入XML目录数据文件中,如下
〈catalog ref—id="3">
〈title string-"第3章动词"〉730F 0033 7EB7 0020 7342 72Al</title〉<catalog ref_id="3-l"〉
〈title string二"第1节及物动词"〉730F 0031 75FF 0020 7577 7C527342 72Al</title〉</catalog〉</catalog>
依此类推,将前述的图2A所示结构化的原始文本数据遍历后可生成XML目录数据文件,如图3A所示。而图3A所示的XML目录数据文件包含着如图3B所示的目录数据树形结构的信息。
请同时参照图3A及图3B,目录数据树形结构(catalog—tree)具有一字典标识(diet—id)属性且diet—id属性内容为"stsh"。在目录数据树形结构(catalog—tree)中包括有多个目录节点,首先往下一层的节点是根目录节点(root一catalog),其具有title域且内存"文法宝典"的二进制数据;接着往下一层的节点有三个目录节点(catalog),分别是目录节点1 3;在接着往下一层的节点有两个目录节点(catalog),分别是目录节点3-1和3-2,均为目录节点3的子目录节点。在本实施例中,由于目录节点1、2、 3-1和3-2没有子目录节点,故为所谓的叶子节点。包括才艮目录节点在内的所有目录节点都有可能具有前述的id、 refjd或jump_id属性,例如目录节点2具有jumpjd属性且内容为"3.1",相应地目录节点3-1具有id属性且内容为"3.1",因此目录节点2通过jumpjd和id属性将接着访问目录节点3-1而非目录节点3。
由于图2B所示树形结构对应到图2A所示结构化的原始文本数据、图3B所示树形结构对应到图3A所示的XML目录数据文件,而图3B所示树形结构和图2B所示树形结构相比之下包含更多有关标准化、结构化的信息。所以,在步骤S13,通过公用程序读取图3A所示的XML目录数据文件,将由于这种更结构化及标准化的XML目录数据文件,使得测试校验XML目录数据文件变得更容易。例如,欲确认应用到电子字典硬件上的二进制目录数据的正确性,可以通过XML目录数据文件中各目录节点title域的string属性内容来判断。欲确认应用到电子字典硬件上的二进制目录数据结构的正确性,可以通过比对出版商提供的原始文本数据和XML目录数据文件两者的树形结构来判断。欲确认各目录数据索引的正确性,可以通过比对XML目录数据文件中各目录节点的id、ref—id及jumpjd属性,快速地检查索引的正确。
综上所述,本发明的使用XML表示电子字典目录数据的方法,其通过产生更结构化及标准化的XML目录数据文件作为中间过渡的数据文件,可以克服出版商提供的原始字典数据和应用到电子字典硬件上的二进制数据之间差别太大的问题,大大降低测试难度及工作量。
以上所迷仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
10
权利要求
1、一种使用可扩展标记语言表示电子字典目录数据的方法,其特征在于,其包括通过程序将出版商提供的原始文本数据结构化;将结构化的原始文本数据的目录数据通过一定的规则转码生成XML目录数据文件;通过公用程序读取XML目录数据文件,以便对XML目录数据文件进行测试校验;将完成测试校验后的XML目录数据文件生成二进制目录数据文件;以及将二进制目录数据文件应用到电子字典硬件上,其中,所述的XML目录数据文件的生成规则包括(1)对结构化的原始文本数据的目录数据在逻辑上进行结构化处理,形成一目录数据树形结构,其中结构化的原始文本数据的每个目录数据即是目录数据树形结构的一个目录节点;(2)所述的目录数据树形结构的每个目录节点具有下面至少一个属性(a)节点标识属性用来表征目录节点的唯一标识;(b)跳跃标识属性和节点标识属性配套使用,若第一目录节点具有跳跃标识属性、第二目录节点具有节点标识属性、且所述的跳跃标识属性和节点标识属性内容一致,则第一目录节点通过这样直接访问第二目录节点,实现目录节点之间非层次化的访问;以及(c)参考标识属性用来作为中间参考标识,使得被引用的目录节点通过其它方式被引用;以及(3)所述的目录数据树形结构的每个目录节点具有下面至少一个子域(a)标题域用来存放和目录数据相应的使用在电子字典硬件上的数据;以及(b)页组域若目录节点为一对多关系,则目录节点具有页组域,以提供访问时返回目录节点的信息;若目录节点不具有页组域,则默认目录节点为一对一的关系。
2、 根据权利要求1所述的使用可扩展标记语言表示电子字典目录数据的方 法,其特征在于,所述的目录数据树形结构具有一字典标识属性,用来标识不同的原始文本数据的目录数据。
3、 根据权利要求1所述的使用可扩展标记语言表示电子字典目录数据的方 法,其特征在于,所述的目录节点所对应到的内容被分段显示,每个分段后的 内容由一个内容标号所区分。
4、 根据权利要求3所述的使用可扩展标记语言表示电子字典目录数据的方 法,其特征在于,所述的页组域具有一索引类型属性,反映索引目录节点是否 连续,若索引类型属性内容反映索引目录节点是连续的,则页组域内容为目录 节点对应到的首末内容标号;若索引类型属性内容反映索引目录节点不是连续 的,则页组域内容为枚举所有目录节点对应到的内容标号。
全文摘要
本发明是一种使用可扩展标记语言(简称为XML)表示电子字典目录数据的方法,其首先通过程序将出版商提供的原始文本数据结构化;接着将结构化的原始文本数据的目录数据通过一定的规则转码生成XML目录数据文件;然后通过公用程序读取XML目录数据文件,以便对XML目录数据文件进行测试校验;再来将完成测试校验后的XML目录数据文件生成二进制目录数据文件;最后,将二进制目录数据文件应用到电子字典硬件上。其中,更结构化及标准化的XML目录数据文件作为中间过渡的数据文件,可以克服出版商提供的原始字典数据和应用到电子字典硬件上的二进制数据之间差别太大的问题,大大降低测试难度及工作量。
文档编号G06F17/30GK101464874SQ20071030123
公开日2009年6月24日 申请日期2007年12月17日 优先权日2007年12月17日
发明者陆春勇 申请人:金宝电子(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1