一种基于XML标签的数据处理方法、装置及终端设备与流程

文档序号:12120890阅读:197来源:国知局
本发明涉及数据处理
技术领域
:,具体涉及一种基于可扩展标记语言(ExtensibleMarkupLanguage,简称XML)标签的数据处理方法、装置及终端设备。
背景技术
::在数据处理时一些数据可能会被提取出来反复使用,如文本数据。通常而言,文本数据的数据内容比较多,若要提取某些数据,可以通过检索方式检索到数据的所在位置,然后再进行提取。检索有精确检索和模糊检索,如果是精确检索,需要输入精确的检索信息,对用户对数据的记忆力要求较高,如果是模糊检索,虽然只需要输入主要的检索信息,但是检测精确度不高,从而导致文本数据的复用效率较低。技术实现要素:本发明实施例公开了一种基于XML标签的数据处理方法、装置及终端设备,用于快速查找文本数据中的内容,以提高文本数据的复用效率。本发明第一方面公开了一种基于XML标签的数据处理方法,可包括:获取文本数据;对所述文本数据的数据内容标记预定义XML标签,其中,不同类别的数据内容标记不同类型的预定义XML标签;以预定义XML标签标记的数据内容为单位,对所述文本数据进行分割得到若干数据片,一个预定义XML标签标记的数据内容对应一个数据片;将所述若干数据片与预定义XML标签进行关联保存。作为一种可选的实施方式,在本发明第一方面中,所述数据处理方法还包括:当需要读取所述若干数据片中的任意一个数据片时,查找所述任意一个数据片对应的预定义XML标签,根据查找到的预定义XML标签查找所述任意一个数据片。作为一种可选的实施方式,在本发明第一方面中,所述获取文本数据之前,所述数据处理方法还包括:在云存储节点建立每一种类型的预定义XML标签分别对应的数据库;所述将所述若干数据片与预定义XML标签进行关联保存包括:根据所述若干数据片中的每一个数据片对应的预定义XML标签,从云存储节点中确定所述若干数据片中的每一个数据片保存的数据库;将所述若干数据片中的每一个数据片保存到确定的数据库中。作为一种可选的实施方式,在本发明第一方面中,所述在云存储节点建立每一种类型的预定义XML标签分别对应的数据库之前,所述数据处理方法还包括:收集不同业务和/或不同分类的文本数据样本,根据所述文本数据样本的数据内容的类别,自定义若干XML标签得到若干不同类型的预定义XML标签,一种类型的预定义XML标签对应一种类别的数据内容。作为一种可选的实施方式,在本发明第一方面中,所述数据处理方法还包括:建立所述云存储节点的备份云存储节点,并在所述备份云存储节点中建立每一种类型的预定义XML标签分别对应的备份数据库;所述将所述若干数据片中的每一个数据片保存到确定的数据库中之后,所述数据处理方法还包括:根据所述若干数据片中的每一个数据片对应的预定义XML标签,从备份云存储节点中确定所述若干数据片中的每一个数据片保存的备份数据库;将所述若干数据片中的每一个数据片保存到确定的备份数据库中。本发明第二方面公开了一种基于XML标签的数据处理装置,可包括:获取单元,用于获取文本数据;标记单元,用于对所述文本数据的数据内容标记预定义XML标签,其中,不同类别的数据内容标记不同类型的预定义XML标签;分割单元,用于以预定义XML标签标记的数据内容为单位,对所述文本数据进行分割得到若干数据片,一个预定义XML标签标记的数据内容对应一个数据片;保存单元,用于将所述若干数据片与预定义XML标签进行关联保存。作为一种可选的实施方式,在本发明第二方面中,所述数据处理装置还包括:查找单元,用于当需要读取所述若干数据片中的任意一个数据片时,查找所述任意一个数据片对应的预定义XML标签,根据查找到的预定义XML标签查找所述任意一个数据片。作为一种可选的实施方式,在本发明第二方面中,所述数据处理装置还包括:建立单元,用于在所述获取单元获取文本数据之前,在云存储节点建立每一种类型的预定义XML标签分别对应的数据库;所述保存单元具体包括:确定单元,用于根据所述若干数据片中的每一个数据片对应的预定义XML标签,从云存储节点中确定所述若干数据片中的每一个数据片保存的数据库;关联保存单元,用于将所述若干数据片中的每一个数据片保存到确定的数据库中。作为一种可选的实施方式,在本发明第二方面中,所述数据处理装置还包括:收集单元,用于收集不同业务和/或不同分类的文本数据样本,根据所述文本数据样本的数据内容的类别,自定义若干XML标签得到若干不同类型的预定义XML标签,一种类型的预定义XML标签对应一种类别的数据内容。作为一种可选的实施方式,在本发明第二方面中,所述建立单元还用于,建立所述云存储节点的备份云存储节点,并在所述备份云存储节点中建立每一种类型的预定义XML标签分别对应的备份数据库;所述确定单元还用于,根据所述若干数据片中的每一个数据片对应的预定义XML标签,从备份云存储节点中确定所述若干数据片中的每一个数据片保存的备份数据库;所述关联保存单元还用于,将所述若干数据片中的每一个数据片保存到确定的备份数据库中。本发明第三方面公开了一种终端设备,可包括:如第二方面公开的基于XML标签的数据处理装置。与现有技术相比,本发明实施例具有以下有益效果:在本发明实施例中,获取到文本数据后,根据文本数据中的不同类别的数据内容,分别标记不同类型的预定义XML标签,然后以标记了预定义XML标签的数据内容为单位,对文本数据进行分割得到若干数据片,一个预定义XML标签标记的数据内容对应得到一个数据片,然后将若干数据片与预定义XML标签进行关联保存。可以看出,实施本发明实施例,根据不同类别的数据内容来标记不同类型的预定义XML标签,然后根据预定义XML标签标记的数据内容,将文本数据进行分割得到若干数据片,最后将数据片与预定义XML标签进行关联保存后,可以通过预定义XML标签查找到相应的数据片,从而简单快速地完成对文本数据内容的查找,提高查找速度,从而提高文本数据的复用效率。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a为本发明实施例公开的基于XML标签的数据处理方法的流程示意图;图1b为本发明实施例公开的在文本数据中标记预定义XML标签的示意图;图2a为本发明实施例公开的基于XML标签的数据处理方法的流程示意图;图2b为本发明实施例公开的数据库的使用示意图;图3为本发明实施例公开的基于XML标签的数据处理装置的结构示意图;图4为本发明实施例公开的基于XML标签的数据处理装置的另一结构示意图;图5为本发明实施例公开的基于XML标签的数据处理装置的另一结构示意图;图6为本发明实施例公开的基于XML标签的数据处理装置的另一结构示意图;图7为本发明实施例公开的终端设备的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明实施例公开了一种基于XML标签的数据处理方法,用于快速查找文本数据中的内容,以提高文本数据的复用效率。本发明实施例还公开了一种基于XML标签的数据处理方法对应的装置及终端设备。本发明实施例涉及的终端设备可以是计算机、智能手机、平板电脑、电子书阅读器等,下面将从终端设备的角度出发,结合具体实施例,对本发明实施例进行详细说明。实施例一请参阅图1a,图1a为本发明实施例公开的基于XML标签的数据处理方法的流程示意图;如图1a所示,一种基于XML标签的数据处理方法可包括:101、终端设备获取文本数据;可以理解,在数据处理中常见格式TXT或者便携式文档格式(PortableDocumentFormat,简称PDF)等等的文本数据,这些文本数据涉及不同业务和/或不同分类的内容,比如,用于记载程序的TXT文本数据和用于记载小说的PDF文本数据等,两种文本数据属于不同的业务,而且文本数据的内容也属于不同的分类。102、终端设备对文本数据的数据内容标记预定义XML标签,其中,不同类别的数据内容标记不同类型的预定义XML标签;在本发明实施例中,根据不同类别的数据内容对文本数据中的数据内容进行预定义XML标签的标记,从而通过预定义XML标签将文本数据中的数据内容进行区分。进一步地,在本发明实施例中终端设备先确定文本数据的业务和/或分类,根据确定的业务和/或分类,选择确定的业务和/或分类对应的预定义XML标签;进一步地,终端设备根据文本数据中的不同类别的数据内容标记不同类型的预定义XML标签。其中,传统XML标签在标记的意义上相当灵活,描述了文本数据中的结构和意义,一般在<>中用具有说明意义的字母或者单词等表示,如<B>是一种格式化标记;<STRONG>是一种语义标记,说明其中的内容特别重要;<TD>是结构标记,指明内容是表中的一个单元。本发明实施例在定义预定义XML标签时,可以借鉴传统XML标签,以及结合文本数据的业务和/分类、文本数据中的数据内容的类别等,灵活地定义出具有标记意义的预定义XML标签,比如<TITLE>,表示主题。103、终端设备以预定义XML标签标记的数据内容为单位,对文本数据进行分割得到若干数据片,一个预定义XML标签标记的数据内容对应一个数据片;预定义XML标签将文本中的数据内容分割开来,然后再以预定义XML标签标记的数据内容为单位,对文本数据进行分割得到若干数据片。请参阅图1b,图1b为本发明实施例公开的在文本数据中标记预定义XML标签的示意图;在图1b中,根据不同类别的数据内容,进行预定义XML标签标记,<预定义XML标签1>用于标记<预定义XML标签1>与接下来的预定义XML标签之间的数据内容,<预定义XML标签2>用于标记<预定义XML标签2>与接下来的预定义XML标签之间的数据内容等,其中,在图1b中,<预定义XML标签1>、<预定义XML标签2>、<预定义XML标签3>等表示不同类型的预定义XML标签。在进行数据内容分割时,根据每个预定义XML标签标记的数据内容来分割,如<预定义XML标签1>与<预定义XML标签2>之间的数据内容被分割出来得到一个数据片。步骤103中的一个预定义XML标签是指文本数据中标记的任意一个预定义XML标签,与上述介绍的一种类型的预定义XML标签为不同的解析。从图1b还可以看出,用1、2、3等数字区分出不同类型的预定义XML标签,在文本数据中会多次使用同一种类型的预定义XML标签,如<预定义XML标签2>多次使用。104、终端设备将若干数据片与预定义XML标签进行关联保存;可以理解,终端设备将每一种数据片与相应的类型的预定义XML标签进行关联保存,同一种类型的预定义XML标签下保存有多个数据片。105、当需要读取若干数据片中的任意一个数据片时,终端设备查找任意一个数据片对应的预定义XML标签,根据查找到的预定义XML标签查找任意一个数据片。在本发明实施例中,获取到文本数据后,根据文本数据中的不同类别的数据内容,分别标记不同类型的预定义XML标签,然后以标记了预定义XML标签的数据内容为单位,对文本数据进行分割得到若干数据片,一个预定义XML标签标记的数据内容对应得到一个数据片,然后将若干数据片与预定义XML标签进行关联保存。可以看出,实施本发明实施例,根据不同类别的数据内容来标记不同类型的预定义XML标签,然后根据预定义XML标签标记的数据内容,将文本数据进行分割得到若干数据片,最后将数据片与预定义XML标签进行关联保存后,可以通过预定义XML标签查找到相应的数据片,从而简单快速地完成对文本数据内容的查找,提高查找速度,从而提高文本数据的复用效率。实施例二请参阅图2a,图2a为本发明实施例公开的基于XML标签的数据处理方法的流程示意图;如图2a所示,一种基于XML标签的数据处理方法可包括:201、终端设备收集不同业务和/或不同分类的文本数据样本,根据文本数据样本的数据内容的类别,自定义若干XML标签得到若干不同类型的预定义XML标签,一种类型的预定义XML标签对应一种类别的数据内容;进一步地,在本发明实施例中终端设备先根据文本数据样本的业务和/或分类分开进行预定义XML标签自定义,然后终端设备再根据文本数据样本中的不同类别的数据内容自定义预定义XML标签。202、终端设备在云存储节点建立每一种类型的预定义XML标签分别对应的数据库;作为一种可选的实施方式,终端设备在云存储节点中根据文本数据的业务和/或分类先建立相应数量的大数据库,然后在每个大数据库下,再针对不同类别的数据内容而自定义的预定义XML标签建立相应的数据库,如图2b所示,针对电子书和程序两种业务分别建立了大数据库1和大数据库2,在大数据库1中还设置了数据库A1、数据库A2、直到数据库An,同样,在大数据库2中还设置了数据库B1、数据库B2、直到数据库Bn。其中,大数据库1和大数据库2中的数据库分别对应着不同类型的预定义XML标签。203、终端设备获取文本数据;204、终端设备对文本数据的数据内容标记预定义XML标签,其中,不同类别的数据内容标记不同类型的预定义XML标签;205、终端设备以预定义XML标签标记的数据内容为单位,对文本数据进行分割得到若干数据片,一个预定义XML标签标记的数据内容对应一个数据片;206、终端设备根据若干数据片中的每一个数据片对应的预定义XML标签,从云存储节点中确定若干数据片中的每一个数据片保存的数据库;207、终端设备将若干数据片中的每一个数据片保存到确定的数据库中;作为一种可选的实施方式,在本发明实施例中可以通过在备份云存储节点上建立每一种类型的预定义XML标签分别对应的备份数据库,根据若干数据片中的每一个数据片对应的预定义XML标签,从备份云存储节点中确定若干数据片中的每一个数据片保存的备份数据库;将若干数据片中的每一个数据片保存到确定的备份数据库中。通过本发明实施例,对数据片进行备份存储,在无法从云存储节点中读取数据片或者云存储节点中的数据片被损坏时,可以通过从备份云存储节点上读取到相应的数据片,并在云存储节点修复后,用从备份云存储节点上读取到的数据片保存到云存储节点上,从而达到实现数据片备份的目的。208、终端设备查找任意一个数据片对应的预定义XML标签,根据查找到的预定义XML标签查找任意一个数据片。可以看出,在本发明实施例中,终端设备通过收集文本数据样本,通过对文本数据样本中的数据内容的类别分析,从而自定义与数据内容的类别一一对应的预定义XML标签,并建立每种类型的预定义XML标签对应的数据库。基于自定义的预定义XML标签和数据库,终端设备在获取到待处理的文本数据后,根据本文数据的数据内容的类别,对其数据内容标记对应的类型的预定义XML标签,然后根据标记的预定义XML标签将数据内容分割出来,得到数据片,将数据片分别保存到对应的数据库中完成保存,后续用户则可以通过XML标签来查找数据内容,查找简单方便,以提高文本数据的复用效率。举例来说,当文本数据为电子书的文本数据,此时终端设备可以为电子书阅读器或者与电子书阅读器相连接的其它终端设备,终端设备通过收集若干电子书样本,然后通过对电子书样本中的数据内容的类别进行分析,根据分析出来的数据内容的类别,自定义出每种类别的数据内容对应的XML标签,然后进一步根据数据内容的类别,对自定义的XML标签进行分类,得到一种类别的数据内容对应一种类型的XML标签。接着,终端设备针对每一种类型的XML标签分别建立对应的数据库。之后,终端设备获取目标电子书,分析目标电子书中数据内容的类别,然后根据类别进行XML标签的标记,然后再根据标记的XML标签将目标电子书中数据内容分割成数据片,并分别将数据片保存到相应的数据库中。实施例三请参阅图3,图3为本发明实施例公开的基于XML标签的数据处理装置的结构示意图;如图3所示,一种基于XML标签的数据处理装置可包括:获取单元310,用于获取文本数据;标记单元320,用于对所述文本数据的数据内容标记预定义XML标签,其中,不同类别的数据内容标记不同类型的预定义XML标签;分割单元330,用于以预定义XML标签标记的数据内容为单位,对所述文本数据进行分割得到若干数据片,一个预定义XML标签标记的数据内容对应一个数据片;保存单元340,用于将所述若干数据片与预定义XML标签进行关联保存。在本发明实施例中,获取单元310获取到文本数据后,标记单元320根据文本数据中的不同类别的数据内容,分别标记不同类型的预定义XML标签,然后分割单元330以标记了预定义XML标签的数据内容为单位,对文本数据进行分割得到若干数据片,一个预定义XML标签标记的数据内容对应得到一个数据片,保存单元340将若干数据片与预定义XML标签进行关联保存。可以看出,实施本发明实施例,根据不同类别的数据内容来标记不同类型的预定义XML标签,然后根据预定义XML标签标记的数据内容,将文本数据进行分割得到若干数据片,最后将数据片与预定义XML标签进行关联保存后,可以通过预定义XML标签查找到相应的数据片,从而简单快速地完成对文本数据内容的查找,提高查找速度,从而提高文本数据的复用效率。实施例四请参阅图4,图4为本发明实施例公开的基于XML标签的数据处理装置的另一结构示意图;其中,图4所示的基于XML标签的数据处理装置是由图3所示的基于XML标签的数据处理装置进行优化得到的。在图4所示的基于XML标签的数据处理装置中,该基于XML标签的数据处理装置具体还包括:查找单元410,用于当需要读取所述若干数据片中的任意一个数据片时,查找所述任意一个数据片对应的预定义XML标签,根据查找到的预定义XML标签查找所述任意一个数据片。实施例五请参阅图5,图5为本发明实施例公开的基于XML标签的数据处理装置的另一结构示意图;其中,图5所示的基于XML标签的数据处理装置是由图3所示的基于XML标签的数据处理装置进行优化得到的。在图5所示的基于XML标签的数据处理装置中,该基于XML标签的数据处理装置具体还包括:建立单元510,用于在所述获取单元310获取文本数据之前,在云存储节点建立每一种类型的预定义XML标签分别对应的数据库;上述保存单元340具体包括:确定单元341,用于根据所述若干数据片中的每一个数据片对应的预定义XML标签,从云存储节点中确定所述若干数据片中的每一个数据片保存的数据库;关联保存单元342,用于将所述若干数据片中的每一个数据片保存到确定的数据库中。可以理解,基于实施例五,所述建立单元510还用于,在所述获取单元获取文本数据之前,建立所述云存储节点的备份云存储节点,并在所述备份云存储节点中建立每一种类型的预定义XML标签分别对应的备份数据库;所述确定单元341还用于,根据所述若干数据片中的每一个数据片对应的预定义XML标签,从备份云存储节点中确定所述若干数据片中的每一个数据片保存的备份数据库;所述关联保存单元342还用于,将所述若干数据片中的每一个数据片保存到确定的备份数据库中。通过本发明实施例,对数据片进行备份存储,在无法从云存储节点中读取数据片或者云存储节点中的数据片被损坏时,可以通过从备份云存储节点上读取到相应的数据片,并在云存储节点修复后,用从备份云存储节点上读取到的数据片保存到云存储节点上,从而达到实现数据片备份的目的。实施例六请参阅图6,图6为本发明实施例公开的基于XML标签的数据处理装置的另一结构示意图;其中,图6所示的基于XML标签的数据处理装置是由图5所示的基于XML标签的数据处理装置进行优化得到的。在图6所示的基于XML标签的数据处理装置中,该基于XML标签的数据处理装置具体还包括:收集单元610,用于收集不同业务和/或不同分类的文本数据样本,根据所述文本数据样本的数据内容的类别,自定义若干XML标签得到若干不同类型的预定义XML标签,一种类型的预定义XML标签对应一种类别的数据内容。实施例七请参阅图7,图7为本发明实施例公开的终端设备的结构示意图;如图7所示,一种终端设备可包括:附图3~附图6中任意一个附图所涉及的基于XML标签的数据处理装置。其中,基于XML标签的数据处理装置可以参阅方法实施例和装置实施例中的详细说明,在此不再赘述。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-OnlyMemory,ROM)、随机存储器(RandomAccessMemory,RAM)、可编程只读存储器(ProgrammableRead-onlyMemory,PROM)、可擦除可编程只读存储器(ErasableProgrammableReadOnlyMemory,EPROM)、一次可编程只读存储器(One-timeProgrammableRead-OnlyMemory,OTPROM)、电子抹除式可复写只读存储器(Electrically-ErasableProgrammableRead-OnlyMemory,EEPROM)、只读光盘(CompactDiscRead-OnlyMemory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。以上对本发明实施例公开的一种基于XML标签的数据处理方法、装置及终端设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1