字典的数据文件转换为二进制文件的转换方法

文档序号:6469561阅读:470来源:国知局
专利名称:字典的数据文件转换为二进制文件的转换方法
技术领域
本发明涉及一种转换方法,特别是涉及一种将字典的数据文件转换为二进制文件
的转换方法。
背景技术
随着数字化时代的来临,学习的环境也逐渐走向电子化、信息化,而电子字典或词 典(electronic dictionary)的普及,大大减少了人们进行学习时对字典或词典查阅数据 所造成的时间影响。除了电子字典机之外,也随着科技的提升,使得手机、个人数字助理 (PDA) 、MP3或MP4等产品,纷纷加入了电子字典功能,以提升产品的优势。对于开发者而言, 产生电子字典数据的做法通常是针对不同出版商所提供不同格式的原始数据,建立多个相 应的处理程序,以将某特定格式(例如excel格式)的原始数据直接生成最终应用到硬件 上的二进制数据。当这些二进制数据的显示格式或资料格式被修改后,原先用来生成这些 二进制数据的处理程序都必须做相应的修改,才能产生对应修改后的二进制数据。由于二 进制数据较不易于阅读,以致于使用二进制数据调试、查找错误及进行编辑都会比较麻烦 而容易出错,尤其当电子字典的数据量越来越庞大时,会使得资料测试及修正的工作会更 加的繁重。

发明内容
本发明提供一种字典的数据文件转换为二进制文件的转换方法,以便透过编辑文 字布局(text layout)的可扩展标记语言文件(extensible Markup Language, XML)对二 进制文件的格式及内容进行修改。 本发明提出一种字典的数据文件转换为二进制文件的转换方法,其包括下列步 骤。首先,取得字典的数据文件。接着,将数据文件转换为文字布局的可扩展标记语言文 件,其中可扩展标记语言文件具有数据结构,此数据结构具有根节点,并且根节点包括至少 一记录节点,记录节点包括标题节点及段落节点,以及标题节点包括关键词节点。最后,将 文字布局的可扩展标记语言文件转换为二进制文件。 在本发明的一实施例中,此数据结构的根节点更包括字典编号节点、版本节点、描 述节点、缺省语言节点及缺省字号大小节点。此数据结构的记录节点更包括记录编号节点、 来源编号节点、连接节点、可隐藏节点、图像节点及行节点。 在本发明的一实施例中,此文字布局的可扩展标记语言文件包括主文件及配置文 件,此主文件包括文字布局的可扩展标记语言文件的内容及其显示的方式及顺序,而此配 置文件包括于显示主文件的内容时所对应的縮排信息。 在本发明的一实施例中,此二进制文件用以写入电子字典,以使电子字典显示的 字典的内容。 在本发明的一实施例中,此字典的数据文件为word格式或excel格式。 综合以上所述,本发明的字典的数据文件转换为二进制文件的转换方法,先将字
3典的数据文件转换为文字布局的可扩展标记语言文件,再将此文字布局的可扩展标记语言 文件转换为二进制文件。藉此,可透过编辑文字布局的可扩展标记语言文件,对二进制文件 的格式及内容进行修改,以使电子字典显示修改后的格式及内容。 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,
并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。


图1为根据本发明一实施例的字典的数据文件转换为二进制文件的转换方法的
流程图。 图2为根据本发明一实施例的文字布局的可扩展标记语言文件的数据结构示意 图。 图3A及图3B为根据本发明一实施例的文字布局的可扩展标记语言文件的主文件 的内容示意图。 图4为根据本发明一实施例的文字布局的可扩展标记语言文件的配置文件的内 容示意图。 图5是根据本发明一实施例的电子字典显示示意图。 图6为根据本发明一实施例的文字布局的可扩展标记语言文件转换为二进制文 件的转换方法。
具体实施例方式
以下结合附图及较佳实施例,对依据本发明提出的字典的数据文件转换为二进制 文件的转换方法其特征及其功效,详细说明如后。 图1为根据本发明一实施例的字典的数据文件转换为二进制文件的转换方法的 流程图。请参照图1首先,步骤S101会先取得字典的数据文件,其中此数据文件例如为 word格式或excel格式。接着,步骤S102会将数据文件转换为文字布局的可扩展标记语 言(text layout XML)文件,其中可扩展标记语言文件具有数据结构。最后,步骤S103会 将文字布局的可扩展标记语言原始文件转换为二进制文件,其中此二进制文件用以写入电 子字典,以使电子字典显示的字典的内容。 图2为根据本发明一实施例的文字布局的可扩展标记语言文件的数据结构示意 图。请参照图2,文字布局的可扩展标记语言文件的数据结构具有根节点TLayout (201)。而 根节点201包括记录节点rec (202)、字典编号节点dict」d (202)、版本节点version (204)、 描述节点description (205)、缺省语言节点defaultFontLan (206)、缺省字号大小节 点defaultFontSize(207)。记录节点rec 202包括标题节点title (208)及段落节点 sec(209)、可隐藏节点wrap (210)、成句节点idiom(211)、图像节点image (212)、行节点 row(213)、记录编号节点rec_id(214)及来源编号节点src_id(215)。 标题节点title 208包括属性节点meta(216)及段落节点sec(217)。段落节 点sec209包括连接节点link(218)、发音节点sound(219)、符号节点sym(220)、斜体节点 i (221)、粗体节点b (222)、粗斜体节点bi (223)、音标节点pr (224)、拼音节点py (225)、效果 节点effect (226)、上标节点sub (227)、下标节点sup (228)、及名称节点name (229)。属性节点meta 216包括关键词节点Key (230)及显示节点hword (231)。 在根节点201底下,可以具有多个记录节点202。 一个记录节点202会对应于字典 中的一个词条,其包含了此词条的可见内容(即印刷出来的内容),以及用于程序处理的检 索信息及其它标志信息其中。因此,根节点201底下通常同时具有多个记录节点202,以分 别对应至字典中的多个词条。字典编号节点203记录了对应此字典的编号。版本节点204 则记录了此字典的版本。描述节点205用以描述与此字典相关的信息。缺省语言节点206 及缺省字号大小节点207则分别记录此字典缺省的语言种类及字号。 在记录节点202底下,标题节点208记录了对应此词条词头的相关信息。段落节点 209则记录了其对应的段落所要显示的内容。可隐藏节点210用于在显示时可以把内容隐 藏于图标底下。成句节点211用以记录对应此词条的成句或复合语的内容。图像节点212 用以记录所使用图像的存放路径和名称。行节点213用来添加不同种类的空行,其中此空 行的种类例如横线、虚线或空白等。记录编号节点214则存放此记录节点202的编号,以及 来源编号节点215用以记载记录节点202内容的数据来源。 在标题节点208底下,属性节点216的关键词节点230会包含检索用的方式(例 如英文或中文)及检索的字符串(亦即关键词),而属性节点216的显示节点231则用于 对应此检索方式的显示。而段落节点217的内容会与段落节点209相同,在此则不作赘述。 而可隐藏节点210、成句节点211、图像节点212及行节点213展开后的结构会与标题节点 208相似,故不在此赘述。 在段落节点209底下,连接节点218用以记录此词条中的所参考的另一个词条的 编号。发音节点219记录此词条对应的声音文件的存放路径和名称。符号节点220代表使 用自造字,斜体节点221代表文字以斜体表示,粗体节点222代表文字以粗体表示,粗斜体 节点223代表文字以粗斜体表示,音标节点224代表此文字为音标,拼音节点225代表此文 字为拼音,效果节点226则代表使用修饰字体其它效果(例如上划线、下划线或删除线),上 标节点227代表文字以上标表示,下标节点228代表文字以下标表示,及名称节点229则存 放段落节点209的名称。 此外,上述的数据结构亦会存放于可扩展标记语言纲要文件中,用以通过可扩展 标记语言纲要文件来验证每个可扩展标记语言文件的正确性。并且,所述文字布局的可扩 展标记语言文件包括主文件和配置文件,上述的数据结构可以使用于描述主文件。主文件 包括文字布局的可扩展标记语言文件的内容及其显示的方式及顺序,而配置文件包括于显 示主文件的内容时所对应的縮排信息。藉此,以更方便地定义不同的对齐排版风格。
以下则提出一文字布局的可扩展标记语言文件的实施例,以对应说明本实施例的 文字布局的可扩展标记语言文件于电子字典上的显示效果。图3A及图3B为根据本发明一 实施例的文字布局的可扩展标记语言文件的主文件的内容示意图。图4为根据本发明一实 施例的文字布局的可扩展标记语言文件的配置文件的内容示意图。图5是根据本发明一实 施例的电子字典显示示意图。请参照图3A、图3B、图4及图5,在主文件300的文字段落301 中,包含了根节点TLayout、字典编号节点dict」d、描述节点description及缺省语言节点 defaultFontLan的信息。在文字段落310中,其包含了来源编号节点src_id的信息。
在文字段落320中,其包含标题节点title内的信息,亦即设定检索用的关键词节 点Key的方式(type)为"en"(亦即英文),以及检索的字符串为aback。显示节点hword
5则对应前述检索方式来显示粗体词头a. back。段落节点sec用以显示音标及发音的部份。 并且,标题节点title的縮排方式定义在图4的配置文件400的文字段落430中,可以看到 其定义了第一列及第二列的縮排皆为O,所以可以看到图5中相对应的部份。
在文字段落330中,其包含了多个段落节点sec的信息,而这些段落的名称皆定义 为hdsec。于配置文件400中,文字段落470定义了名称为hdsec的縮排信息,亦即段落名 称为hdsec的所有段落的縮排量皆为5。因此,文字段落330中的多个段落节点的文字信 息,其显示会如图5中相对应的部份。在文字段落340中,其包括可隐藏节点wrap的信息。 在此可隐藏节点wrap底下,亦包含了一个标题节点title的信息,亦即此标题节点title 的信息可被其它的字符串检索到,并且在此可检索到的字符串为take或sb以及检索的方 式为英文。并且,此可隐藏节点wrap底下包含了二个段落节点sec的信息,其名称分别为 ct_e与ct_c。名称为ct_e的段落节点,其縮排信息对应配置文件400中的文字段落450。 名称为ct_c的段落节点,其縮排信息对应配置文件400中的文字段落460。由于此时可隐 藏节点wrap为隐藏状态,所以在图5中,只能看到显示"例文"的图像。
看到文字段落350,此包含名称为hdsec的段落节点sec的信息。与文字段落330 相似,文字段落350的段落节点sec的名称为hdsec,故其縮排信息已定义于配置文件400 中的文字段落470。图5中显示文字段落350相对应的部份。 请参照图3A与图3B。在文字段落360中,其包含了一个成句节点idiom的信息, 并且记录了数据来源的来源编号。在此成句节点idiom底下,包含了一个标题节点title、 多个可隐藏节点wrap以及多个段落节点sec。在文字段落361中,名称为idiom的段落节 点sec的縮排信息对应至配置文件400中的文字段落440的描述。其文字段落縮排的对应 可参照如上述节点的说明,不在此赘述。文字段落361-366则如图5中相对应的部份所示。
在配置文件400中,文字段落410定义主文件中所有未定义名称或找不到对应名 称的段落节点的縮排方式,文字段落420定义则定义了主文件中可隐藏节点底下所有未定 义名称或找不到对应名称的段落节点的縮排方式。藉此,可透过手工编辑主文件300与配 置文件400而修改电子字典显示的内容及格式。 而文字布局的可扩展标记语言文件转换为二进制文件的方式,可以利用下述方法 来完成。图6为根据本发明一实施例的文字布局的可扩展标记语言文件转换为二进制文件 的转换方法。请参照图6,首先步骤S601会先扫描文字布局的可扩展标记语言文件,并建立 一记录编号对照表,以记录主文件中各记录对应的编号。接着,步骤S602会读取配置文件 下各节点的縮排信息,以建立配置对照表。接着,步骤S603会依序读取主文件中各个节点 中属性节点的内容,把关键词节点的内容写到用于查询的文件中,把显示节点的内容写到 用于索引画面显示的文件中。然后,在步骤S604中,会分辨记录节点具有几个部分,并写入 二进制文件中,例如在本实施例中此记录节点分为9个部份(亦即标题节点、可隐藏节点和 成句节点把此记录节点分成了 9个部分),则在二进制文件写入"09 00"。
而在步骤S605中,会在二进制文件写入标题节点中字符串的总长度,并且在配置 对照表中查找与标题节点相关的项目,以将字符串转换为标志段落縮进的格式并写入二进 制文件中。例如标题节点中字符串的总长度为28,则在二进制文件写入"1B 00"。接着, 步骤S606会把把段落节点中的内容写入到二进制文件中,并且步骤S607会将"FF FF"写 入二进制文件中,以表示此节点写入结束。在步骤S608中,会判断此记录节点中所有节点是否皆写入结束,若还有节点的内容未写入的话,其判断结果会为「否」,使得此方法会再执 行步骤S605-S607,以再写入一个节点的内容;反之,若此记录节点下所有的节点都写入的 话,则判断结果会为「是」,接着执行步骤S609。 在步骤S609中,会判断所有记录节点是否皆写入结束,若还有记录节点的内容未 写入的话,其判断结果会为「否」,使得此方法会再执行步骤S603-S608,以再写入一个记录 节点的内容;反之,若所有的记录节点都写入的话,则判断结果会为「是」,接着结束此转换 方法。值得一提的是,当上述转换方法遇到连接节点时,则通过查找已建立的记录编号对照 表把目标记录的编号写入二进制文件中,用以当电子字典需要跳转时,就知道目标记录的 实际位置。藉此,可以将文字布局的可扩展标记语言文件转换为二进制文件。
值得一提的是,记录节点分几个部分可以由规格需求和处理程序来决定。在本实 施例中,由于标题节点、可隐藏节点和成句节点具有跳转属性,所以其规格需求把标题节 点、可隐藏节点和成句节点与其它节点区别开来,以便能直接跳转到这些节点。藉此,在生 成二进制文件时,才能把这些节点与其它部分分开,而不需要总是从头开始扫描可扩展标 记语言文件。若规格需求和处理程序无要求的话,实际上其它实施例的记录节点可以不用 分几个部份的。 本发明实施例的字典的数据文件转换为二进制文件的转换方法,先将字典的数据 文件转换为文字布局的可扩展标记语言文件,再将文字布局的可扩展标记语言文件转换为 二进制文件,以避免以往直接将字典的数据文件转换为二进制表示,难以阅读和编辑所造 成调试的困难,并以统一的规范定义了不同字典显示的方式。若二进制文件的格式不同的 话,只要修改负责从可扩展标记语言文件转换到二进制文件的程序即可。藉此,可提高调试 的效率,从而大大减少了调试的工作量和出错的可能性。 以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽 然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人 员,在不脱离本发明技术方案范围内,当可利用上述揭示的结构及技术内容作出些许的更 动或修饰为等同变化的等效实施例,但是凡是未脱离本发明技术方案的内容,依据本发明 的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方 案的范围内。
权利要求
一种字典的数据文件转换为二进制文件的转换方法,其特征在于包括取得一字典的一数据文件;将该数据文件转换为一文字布局的可扩展标记语言文件,其中该文字布局的可扩展标记语言文件具有一数据结构,而该数据结构具有一根节点,并且该根节点包括至少一记录节点,所述记录节点包括一标题节点及一段落节点,以及该标题节点包括一关键词节点;以及将该文字布局的可扩展标记语言文件转换为一二进制文件。
2. 根据权利要求1所述的转换方法,其特征在于该数据结构的该根节点还包括一字典 编号节点、一版本节点、一描述节点、一缺省语言节点及一缺省字号大小节点。
3. 根据权利要求1所述的转换方法,其特征在于所述记录节点还包括一记录编号节 点、一来源编号节点、一连接节点、一可隐藏节点、一图像节点及一行节点。
4. 根据权利要求1所述的转换方法,其特征在于该文字布局的可扩展标记语言文件包 括一主文件及一配置文件。
5. 根据权利要求4所述的转换方法,其特征在于该主文件包括该文字布局的可扩展标 记语言文件的内容及其显示的方式及顺序。
6. 根据权利要求4所述的转换方法,其特征在于该配置文件包括于显示该主文件的内 容时所对应的縮排信息。
7. 根据权利要求1所述的转换方法,其特征在于该二进制文件用以写入一电子字典, 以使该电子字典显示的该字典的内容。
8. 根据权利要求l所述的转换方法,其特征在于该字典的该数据文件为一word格式或 一 excel格式。
全文摘要
本发明公开了一种字典的数据文件转换为二进制文件的转换方法,此方法包括下列步骤。首先,取得字典的数据文件。接着,将数据文件转换为文字布局的可扩展标记语言文件,其中可扩展标记语言文件具有数据结构,此数据结构具有根节点,并且根节点包括至少一记录节点,记录节点包括标题节点及段落节点,以及标题节点包括关键词节点。最后,将文字布局的可扩展标记语言文件转换为二进制文件。藉此,可透过修改文字布局的可扩展标记语言文件,变更写入电子字典内的二进制文件的格式及内容。
文档编号G06F17/22GK101751380SQ20081020355
公开日2010年6月23日 申请日期2008年11月28日 优先权日2008年11月28日
发明者王晓东 申请人:金宝电子(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1