用于比较文本的设备和方法

文档序号：6509860阅读：166来源：国知局

用于比较文本的设备和方法
【专利摘要】本发明提供了一种用于比较文本的设备，包括：第一提取单元，被配置为从模板中提取包含格式化信息的文本数据，并将所提取的文本数据保存到第一数据表中；第二提取单元，被配置为从待比较的文本数据中提取包含格式化信息的文本数据，并将所提取的文本数据保存到第二数据表中；比较单元，被配置为将第一数据表中的每一项文本数据所包含的格式化信息与第二数据表中的对应文本数据所包含的格式化信息进行比较；以及输出单元，被配置为输出通过比较单元获得的、格式化信息不完全相同的文本数据。本发明还提供了一种用于比较文本的方法。本发明节省了比较文本所需的时间，提高了效率。
【专利说明】用于比较文本的设备和方法
【技术领域】
[0001]本发明涉及信息处理领域，更具体地，涉及一种用于比较文本的设备和一种用于比较文本的方法。
【背景技术】
[0002]校对过程(文本比较过程)主要应用在出版领域。一般由经过专业训练的校对人员对稿件进行校对。软件开发过程中，由于设计到本地化的问题，需要对其中使用的语言进行翻译然后进行校对。这些专业校对人员可以完成语义和语法的校对，但对于其中涉及的格式化信息一般很难进行正确的校对。目前常用的方式是:专业校对人员完成语义和语法等校对，然后交由软件开发工程师，完成格式化信息的校对。
[0003]格式化信息可以理解为是为了对字符串中的部分内容进行动态替换而定义的格式化字符串。具体地，格式化字符串可以包含一些占位符，表示在运行时要使用可变信息替换的数据。例如，“He I 1 everyone, my name is% l$s”是格式化字符串，其中的占位符的定义如下:使用％ [index] $ [type]格式进行标记，index标记替换资源中第index个资源对应的位置，type则标示所要替换的资源的类型(s表示资源为字符串格式)。
[0004]然而，这种校对方式将占用软件开发工程师的大量时间，并且随着语言版本的增多，工作量将随之增加。

【发明内容】

[0005]为了解决上述问题，本发明提供了一种用于比较文本的设备和一种用于比较文本的方法。本发明首先提取格式化模板中的格式化信息，然后和待比较的文本进行比较，最后输出包含错误格式化信息的文本数据。
[0006]具体地，根据本发明的第一方案，提供了一种用于比较文本的设备，包括:第一提取单元，被配置为从模板中提取包含格式化信息的文本数据，并将所提取的文本数据保存到第一数据表中；第二提取单元，被配置为从待比较的文本数据中提取包含格式化信息的文本数据，并将所提取的文本数据保存到第二数据表中；比较单元，被配置为将第一数据表中的每一项文本数据所包含的格式化信息与第二数据表中的对应文本数据所包含的格式化信息进行比较；以及输出单元，被配置为输出通过比较单元获得的、格式化信息不完全相同的文本数据。
[0007]在一个实施例中，所述第一提取单元和所述第二提取单元均被配置为:将文本数据的ID和文本数据的值保存到所述数据表中。
[0008]在一个实施例中，所述比较单元还被配置为:针对第一数据表中的每一项文本数据，将所述文本数据包含的格式化信息保存在第一数组中，并将第二数据表中的对应文本数据所包含的格式化信息保存在第二数组中；以及比较第一数组和第二数组中的每个元素，只有两个数组中的元素完全相同，才确定该文本数据包含的格式化信息相同。
[0009]在一个实施例中，所述输出单元还被配置为:针对每一项具有不同格式化信息的文本数据，输出该文本数据的ID、第一数据表中该文本数据的值以及第二数据表中该文本数据的值。
[0010]根据本发明的第二方案，提供了一种用于比较文本的方法，包括:从模板中提取包含格式化信息的文本数据，并将所提取的文本数据保存到第一数据表中；从待比较的文本数据中提取包含格式化信息的文本数据，并将所提取的文本数据保存到第二数据表中；将第一数据表中的每一项文本数据所包含的格式化信息与第二数据表中的对应文本数据所包含的格式化信息进行比较；以及输出通过比较步骤获得的、格式化信息不完全相同的文本数据。
[0011]在一个实施例中，将文本数据的ID和文本数据的值保存到所述数据表中。
[0012]在一个实施例中，针对第一数据表中的每一项文本数据，将所述文本数据包含的格式化信息保存在第一数组中，并将第二数据表中的对应文本数据所包含的格式化信息保存在第二数组中；以及比较第一数组和第二数组中的每个元素，只有两个数组中的元素完全相同，才确定该文本数据包含的格式化信息相同。
[0013]在一个实施例中，针对每一项具有不同格式化信息的文本数据，输出该文本数据的ID、第一数据表中该文本数据的值以及第二数据表中该文本数据的值。
[0014]通过本发明的方法，可以自动实现新增语言版本中的格式化信息的比较，从而节省了时间成本，提高了效率。
【专利附图】

【附图说明】
[0015]通过下面结合【专利附图】

【附图说明】本发明的优选实施例，将使本发明的上述及其它目的、特征和优点更加清楚，其中:
[0016]图1是示出了根据本发明的一个实施例的用于比较文本的设备的框图。
[0017]图2是示出了根据本发明的一个实施例的用于比较文本的方法的流程图。
[0018]在本发明的所有附图中，相同或相似的结构均以相同或相似的附图标记标识。
【具体实施方式】
[0019]下面参照附图对本发明的优选实施例进行详细说明，在描述过程中省略了对于本发明来说是不必要的细节和功能，以防止对本发明的理解造成混淆。
[0020]图1是示出了根据本发明的一个实施例的用于比较文本的设备10的框图。如图1所示，设备10包括第一提取单元110、第二提取单元120、比较单元130和输出单元140。下面，对图1所示的设备10的各个组件进行详细描述。
[0021]第一提取单元110被配置为从模板中提取包含格式化信息的文本数据，并将所提取的文本数据保存到第一数据表中。模板可以是任何语言版本，下文以英语版本作为示例。对于模板，需要经过严格的测试，保证其中的格式化信息完全正确。第一提取单元110通过遍历的方式，依次读取模板中的每一项文本数据。如果其中包含格式化信息，就保存下来。保存时，可以以文本的标识(ID)作为关键字(key)，以具体的文本数据为值(value)，保存为哈希表中的一项，直至读取模板中的所有文本数据。
[0022]第二提取单元120被配置为从待比较的文本数据中提取包含格式化信息的文本数据，并将所提取的文本数据保存到第二数据表中。这里假设待比较的文本是简体中文文本。同样，第二提取单元120通过遍历的方式，依次读取每一项文本数据。如果其中包含格式化信息，就保存下来，保存方式与上文描述的第一提取单兀110的方式相同。
[0023]比较单元130被配置为将第一数据表中的每一项文本数据所包含的格式化信息与第二数据表中的对应文本数据所包含的格式化信息进行比较。在一个实施例中，比较单元130针对第一数据表中的每一项文本数据，将所述文本数据包含的格式化信息保存在第一数组中，并将第二数据表中的对应文本数据所包含的格式化信息保存在第二数组中。然后，比较单元130比较第一数组和第二数组中的每个元素，只有两个数组中的元素完全相同，才确定该文本数据包含的格式化信息相同。
[0024]输出单元140被配置为输出通过比较单元130获得的、格式化信息不完全相同的文本数据。例如，输出单元140可以针对每一项具有不同格式化信息的文本数据，输出该文本数据的ID、第一数据表中该文本数据的值以及第二数据表中该文本数据的值。
[0025]下面，通过一个示例应用场景，详细描述图1所示的设备10的各个组件的操作。首
先，假设模板包括以下字符串数据:
[0026]
<string name=”first—guide—agreement”>By clicking Startf you agree to the %l$s</string>
<string name="fe-ture—new—ti亡JeTs New?</string>
<string name= "current—posi tion_identifyingff>%l$d/%2$d</str±nq> 〈string name="sms_progress_white_text_firstn>SHS Capacity: %l$d%% used (Total 名2$己)</string>
<string name= "sins—iri亡o_dbw>TotaI of %l$d messages imported</string>
[0027]以“〈string name=" feature—new—title " >What\，s New ?〈/string〉”为例，其中 name = " feature—new—title "中的 feature—new—title 为本条字符串数据的 ID，What\- s New ?为本条字符串的值。
[0028]第一提取单元110判断当前字符串的值中是否包含格式化信息。例如，可以采用正则表达式"％ [0-9]*[$]*[0-9]*[a-z]"来判断格式化信息。如果符合此正则表达式，则第一提取单元110将(ID，值)作为一个键值对，存入数据表中。遍历上述数据，则得到的数据表如下:
【权利要求】
1.一种用于比较文本的设备，包括: 第一提取单元，被配置为从模板中提取包含格式化信息的文本数据，并将所提取的文本数据保存到第一数据表中；第二提取单元，被配置为从待比较的文本数据中提取包含格式化信息的文本数据，并将所提取的文本数据保存到第二数据表中；比较单元，被配置为将第一数据表中的每一项文本数据所包含的格式化信息与第二数据表中的对应文本数据所包含的格式化信息进行比较；以及输出单元，被配置为输出通过比较单元获得的、格式化信息不完全相同的文本数据。
2.根据权利要求1所述的设备，其中，所述第一提取单元和所述第二提取单元均被配置为:将文本数据的ID和文本数据的值保存到所述数据表中。
3.根据权利要求1所述的设备，其中，所述比较单元还被配置为: 针对第一数据表中的每一项文本数据，将所述文本数据包含的格式化信息保存在第一数组中，并将第二数据表中的对应文本数据所包含的格式化信息保存在第二数组中；以及比较第一数组和第二数组中的每个元素，只有两个数组中的元素完全相同，才确定该文本数据包含的格式化信息相同。
4.根据权利要求1所述的设备，其中，所述输出单元还被配置为:针对每一项具有不同格式化信息的文本数据，输出该文本数据的ID、第一数据表中该文本数据的值以及第二数据表中该文本数据的值。
5.一种用于比较文本的方法，包括: 从模板中提取包含格式化信息的文本数据，并将所提取的文本数据保存到第一数据表中；从待比较的文本数据中提取包含格式化信息的文本数据,并将所提取的文本数据保存到第二数据表中；将第一数据表中的每一项文本数据所包含的格式化信息与第二数据表中的对应文本数据所包含的格式化信息进行比较；以及输出通过比较步骤获得的、格式化信息不完全相同的文本数据。
6.根据权利要求5所述的方法，其中，将文本数据的ID和文本数据的值保存到所述数据表中。
7.根据权利要求5所述的方法，其中，针对第一数据表中的每一项文本数据，将所述文本数据包含的格式化信息保存在第一数组中，并将第二数据表中的对应文本数据所包含的格式化信息保存在第二数组中；以及比较第一数组和第二数组中的每个元素，只有两个数组中的元素完全相同，才确定该文本数据包含的格式化信息相同。
8.根据权利要求5所述的方法，其中，针对每一项具有不同格式化信息的文本数据，输出该文本数据的ID、第一数据表中该文本数据的值以及第二数据表中该文本数据的值。
【文档编号】G06F17/22GK103440231SQ201310392331
【公开日】2013年12月11日申请日期:2013年9月2日优先权日:2013年9月2日
【发明者】李明申请人:北京网秦天下科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李明
技术所有人：北京网秦天下科技有限公司
我是此专利的发明人

上一篇：通用即插即用整合装置及其整合方法
上一篇：用于计算设备的软件转移安装方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。