多语文档分离的方法和系统的制作方法

文档序号:6332269阅读:286来源:国知局
专利名称:多语文档分离的方法和系统的制作方法
技术领域
本发明涉及数据处理领域,尤其涉及一种多语文档分离技术。
背景技术
在日常文档处理过程中,通常会遇到一个文档中同时存在多语种内容,如在一个 文档中同时存在中文、英文和日文。如果需要将这种多语种文档中的不同语种分开,目前都 是通过人工一点点进行操作,非常浪费人力资源和时间。

发明内容
本发明的目的是提供一种多语文档分离的方法和系统,该发明不仅可以将多语种 文档中的不同语种语言按照语种类别分离开,而且操作简单,大大节省了人力资源和时间。本发明的目的是通过以下技术方案实现的本发明提供一种多语文档分离的方法,其包括对文档字符进行扫描;根据字符属性信息为当前扫描字符确定语种标识;将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录 当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时, 记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配 存放指针;根据所述存放指针,将当前句写入到与该语种标识对应的文件中。其中,更优选的,所述根据字符属性信息为当前扫描字符确定语种标识的过程包 括提取当前扫描字符的字符属性信息;根据预设的字符属性信息与语种标识之间的映射关系,为当前扫描字符分配相应 的语种标识。其中,更优选的,所述多语文档分离的方法还包括判断文档中的字符是否全部被扫描,若是,则结束扫描过程;否则,继续扫描。其中,更优选的,在根据字符属性信息为当前扫描字符确定语种标识的过程之前, 还包括获取用户选择的需分离语种标识;获取用户选择的文档的链接地址;获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。其中,更优选的,所述多语文档分离的方法还包括根据授权的用户身份标识库,对登录用户的身份进行验证。本发明还提供一种多语文档分离的系统,其包括扫描单元,用于对文档字符进行扫描;
语种确定单元,用于根据字符属性信息为当前扫描字符确定语种标识;语句定位单元,用于将所述语种确定单元所确定的语种标识与需分离语种标识进 行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符 号进行比较,并当二者相同时,记录其为句尾字符,将自句首字符至句尾字符的所有字符定 位为当前句,并为当前句分配存放指针;语种分离单元,用于根据所述语句定位单元确定的存放指针,将当前句写入到与 该语种标识对应的文件中。其中,更优选的,所述多语文档分离的系统还包括文档扫描控制单元,用于判断文档中的字符是否全部被扫描,若是,则通知所述扫 描单元结束扫描;否则,不操作。其中,更优选的,所述多语文档分离的系统还包括信息获取单元,用于获取用户选择的需分离语种标识,以及获取用户选择的文档 的链接地址;指令获取单元,用于获取用户的开始指令,并根据所述文档的链接地址打开对应 的文档。其中,更优选的,所述多语文档分离的系统还包括人机交互界面,所述交互界面设置有用户添加按钮,用于添加用户所选择的需分离语种标识,以及添加用户所选择的 文档的链接地址;指令操作按钮,用于用户发送指令。其中,更优选的,所述多语文档分离的系统还包括登录单元,用于获取用户的登录信息,并根据所述登录信息发送身份验证请求给 服务器,并当服务器通过验证后,允许所述用户登录所述人机交互界面。由上述本发明提供的技术方案可以看出,本发明通过提取与需分离语种标识相同 的字符所在的语句,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操 作,而且能够大大节约人力资源和时间。


图1为本发明第一实施例中提供的多语文档分离的方法的流程图;图2为本发明第二实施例中提供的多语文档分离的系统的结构原理图。
具体实施例方式下面结合附图对本发明实施例进行详细描述。本发明第一实施例提供了一种多语文档分离的方法,在实施该方法之前,需要在 服务器数据库中保存被授权用户身份标识信息,在客户端设置字符属性信息与语种标识之 间的映射关系。以及,完成如下系统登录和获取用户添加的需分离语种标识和需分离文档 的链接地址的过程一、系统登录在登录过程中,客户端接收到用户输入的登录信息后,根据该登录信息构造身份验证请求,该请求可以是HTTP (HyperText Transfer Protocol,超文本传送协议)请求, 也可以是其它协议请求,该请求中携带有用户身份标识信息;服务器接收到用户身份验证 请求,根据该请求中携带的用户身份标识信息查找数据库,若发现该用户是被授权用户,则 给客户端返回通过验证的信息;客户端接到该通知后,允许用户登录到客户端的操作界面; 否则,通知用户无权使用该功能。二、获取用户添加的需分离语种标识和需分离文档的链接地址系统登录通过后,客户端呈现给用户一个人机交互操作界面,该客户端操作界面 中设置有文档添加和语种标识添加栏,还设置有指令按钮,该按钮包括开始,暂停和停止。 通过该操作界面,用户可以添加需分离语种标识和需分离文档的链接地址,添加完成后,客 户端会获取到需分离语种标识和需分离文档的链接地址。获取到开始指令后,就会执行上 述第一实施例的具体流程。第一实施例的具体实现流程如图1所示,包括步骤S101,打开需分离文档,记录需分离语种;获取开始指令后,根据需分离文档的链接地址打开对应的文档,并记录需分离语 种标识以备用。步骤S102,执行字符扫描。步骤S103,确定当前扫描字符的语种标识。提取当前扫描字符的字符属性信息;根据预设的字符属性信息与语种标识之间的 映射关系,为当前扫描字符分配相应的语种标识。例如,如果字符属性信息是a,b,c... z, 则认为其是英文语种,于是为其分配一个英语语种标识。步骤S104,将当前字符语种标识与需分离语种标识进行比较,若相同,则执行步骤 S105 ;若不相同,则执行步骤S102。步骤S105 ;记录当前字符为句首字符。步骤S106,继续向后扫描字符。步骤S107,判断扫描到的当前字符是否与句尾符号相同,若相同,则执行步骤 S108 ;否则,转入步骤S106。步骤S108,记录当前字符为句尾字符,分配存放指针。上述存放指针包括待存放文档的路径信息,句首字符和句尾字符在待存放文档 中的存放位置。步骤S109,复制自句首字符至句尾字符整句字符,根据存放指针将其写入到与需 分离语种标识对应的独立文档中。如果该独立文档不存在,则新创建一个;如果存在,则直接将整句字符写入到其 中。步骤S110,判断扫描是否到达文档结束位置,若是,则执行步骤S111,即结束扫 描;否则,继续步骤S102。本发明第二实施例提供了一种多语文档分离的系统,为方便用户操作,上述多语 文档分离的系统设置了登录界面和人机交互界面。在登录界面上,可以输入用户的身份信 息。在该交互界面上设置有用户添加按钮和指令操作按钮。用户添加按钮,用于添加用户 所选择的需分离语种标识,以及添加用户所选择的文档的链接地址;指令操作按钮,用于用户发送指令。这些指令按钮包括开始按钮、暂停按钮和结束按钮。该多语文档分离的系统的内部结构原理参见图2,其包括如下功能单元扫描单元21、语种确定单元22、语句定位单元23、语种分离单元24、文档扫描控制单元25、信息获取单元26、指令获取单元27、登录单元28和数据库29。登录单元28,用于获取用户的登录信息,并根据所述登录信息发送身份验证请求 给服务器,并当服务器通过验证后,允许所述用户登录人机交互界面。信息获取单元26,用于获取用户选择的需分离语种标识,以及获取用户选择的文 档的链接地址。指令获取单元27,用于获取用户的开始指令,并根据所述文档的链接地址打开对 应的文档,随后触及扫描单元21启动。用户点击指令按钮后,指令获取单元27可以获取到指令信息,这些指令包括开 始指令、暂停指令和结束指令。扫描单元21,用于对文档字符进行扫描,并将扫描到的字符信息传输给语种确定 单元22。语种确定单元22,用于根据字符属性信息为当前扫描字符确定语种标识。语种确 定单元22将扫描单元21扫描到的字符信息与设定的字符属性信息匹配,若匹配到,则会调 取数据库29中字符属性信息与语种标识之间的映射关系,根据该映射关系为当前扫描字 符确定一个语种标识,并将该确定的语种标识传输给语句定位单元23。语句定位单元23,用于将所述语种确定单元22所确定的语种标识与需分离语种 标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与 句尾符号进行比较,并当二者相同时,记录其为句尾字符,将自句首字符至句尾字符的所有 字符定位为当前句,并为当前句分配一个存放指针。语种分离单元24,用于根据所述语句定位单元22确定的存放指针,将当前句写入 到与该语种标识对应的文件中。文档扫描控制单元25,用于判断文档中的字符是否全部被扫描,若是,则通知所述 扫描单元结束扫描;否则,不操作。上述实施例中,如果获取到用户选择了多个文档,则按照此方法依次对这些文档 循环进行处理。由上述本发明提供的技术方案可以看出,通过提取与需分离语种标识相同的字符 所在的语句,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操作,而 且能够大大节约人力资源和时间。以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围 为准。
权利要求
一种多语文档分离的方法,其特征在于,所述多语文档分离的方法包括对文档字符进行扫描;根据字符属性信息为当前扫描字符确定语种标识;将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;根据所述存放指针,将当前句写入到与该语种标识对应的文件中。
2.根据权利要求1所述的多语文档分离的方法,其特征在于,所述根据字符属性信息 为当前扫描字符确定语种标识的过程包括提取当前扫描字符的字符属性信息;根据预设的字符属性信息与语种标识之间的映射关系,为当前扫描字符分配相应的语 种标识。
3.根据权利要求1或2所述的多语文档分离的方法,其特征在于,所述多语文档分离的 方法还包括判断文档中的字符是否全部被扫描,若是,则结束扫描过程;否则,继续扫描。
4.根据权利要求3所述的多语文档分离的方法,其特征在于,在根据字符属性信息为 当前扫描字符确定语种标识的过程之前,还包括获取用户选择的需分离语种标识;获取用户选择的文档的链接地址;获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。
5.根据权利要求4所述的多语文档分离的方法,其特征在于,所述多语文档分离的方 法还包括根据授权的用户身份标识库,对登录用户的身份进行验证。
6.一种多语文档分离的系统,其特征在于,所述多语文档分离的系统包括扫描单元,用于对文档字符进行扫描;语种确定单元,用于根据字符属性信息为当前扫描字符确定语种标识;语句定位单元,用于将所述语种确定单元所确定的语种标识与需分离语种标识进行比 较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进 行比较,并当二者相同时,记录其为句尾字符,将自句首字符至句尾字符的所有字符定位为 当前句,并为当前句分配存放指针;语种分离单元,用于根据所述语句定位单元确定的存放指针,将当前句写入到与该语 种标识对应的文件中。
7.根据权利要求6所述的多语文档分离的系统,其特征在于,所述多语文档分离的系 统还包括文档扫描控制单元,用于判断文档中的字符是否全部被扫描,若是,则通知所述扫描单 元结束扫描;否则,不操作。
8.根据权利要求6或7所述的多语文档分离的系统,其特征在于,所述多语文档分离的 系统还包括信息获取单元,用于获取用户选择的需分离语种标识,以及获取用户选择的文档的链 接地址;指令获取单元,用于获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。
9.根据权利要求8所述的多语文档分离的系统,其特征在于,所述多语文档分离的系 统还包括人机交互界面,所述交互界面设置有用户添加按钮,用于添加用户所选择的需分离语种标识,以及添加用户所选择的文档 的链接地址;指令操作按钮,用于用户发送指令。
10.根据权利要求9所述的多语文档分离的系统,其特征在于,所述多语文档分离的系 统还包括登录单元,用于获取用户的登录信息,并根据所述登录信息发送身份验证请求给服务 器,并当服务器通过验证后,允许所述用户登录所述人机交互界面。
全文摘要
本发明提供一种多语文档分离的方法和系统,其主要原理是对文档字符进行扫描;根据字符属性信息为当前扫描字符确定语种标识;将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;根据所述存放指针,将当前句写入到与该语种标识对应的文件中。通过本发明,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操作,而且能够大大节约人力资源和时间。
文档编号G06F17/22GK101996164SQ20101028596
公开日2011年3月30日 申请日期2010年9月19日 优先权日2010年9月19日
发明者赵国伟 申请人:传神联合(北京)信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1