一种将非结构化数据转化为结构化数据的方法及装置与流程

文档序号:16881077发布日期:2019-02-15 22:09阅读:1603来源:国知局
一种将非结构化数据转化为结构化数据的方法及装置与流程

本发明涉及数据类型转化领域,特别涉及一种将非结构化数据转化为结构化数据的方法及装置。



背景技术:

目前使用的数据类型主要包括三种结构:结构化数据这类信息能够用数据或统一的结构加以表示,并存储在数据库中,有一定的路基结构,可以用二维表来表示。非结构化数据这类信息是指数据结构不固定,无法用二维数据表结构表示的数据,如文档、图像和视频。半结构化数据是介于结构化数据和非结构化数据之间的一种数据形式(如xml、文档),它是具有结构的数据,但是结构变化很大。

三种类型的结构化数据的特征是:结构化数据易于管理、查询效率高、可靠度高、可以增加权限控制、管理成本非常低。结构化数据常常存放在关系型数据库中,可以让使用者更方便、更高效的进行搜寻。但是对于结构化数据来说最大的弊端就是不易于扩展,有固定的格式、模板,增加数据属性时异常困难。对于半结构化数据的重要性日趋凸显,主要是因为它的灵活性,半结构化数据是“无模式”的,其数据是自描述的,并且关联了其模式的信息,这种模式可以随时间在单一数据库内任意改变。而对于非结构化数据,虽然具有很好的可扩展性且足够灵活,但是在数据管理、查询方面面临很大的困难,所以将分结构化数据转化为结构化数据显得尤为重要。

目前主要是将非结构数据类型的文件标题、存储地址以及标注等可以代表非结构数据类型的主要信息进行转化,利用转化后的文件标题、存储地址以及标注等结构化数据去查找或管理非结构数据类型的文件。但是这种转化方式比较单一,会导致转化后的文件的内容依然是由非结构数据类型组成的文件,仍然存在可视化以及管理问题,并且采用现有技术中的这种转化方式管理难度和查询难度较大。

由此可见,如何克服由于非结构化数据转化为结构化数据的方式单一,进而导致的非结构化数据可视化效果差以及查询和管理难度大的问题是本领域技术人员亟待解决的问题。



技术实现要素:

本申请实施例提供了一种将非结构化数据转化为结构化数据的方法及装置,以解决现有技术中由于非结构化数据转化为结构化数据的方式单一,进而导致的非结构化数据可视化效果差以及查询和管理难度大的问题。

为解决上述技术问题,本发明提供了一种将非结构化数据转化为结构化数据的方法,包括将待转化的非结构化数据的目标信息转化为结构化数据,其中,所述目标信息至少包括除所述待转化的非结构化数据的内容之外的文件标题、存储地址以及文件索引信息,其特征在于,还包括:

依据与所述待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息;

根据预定义规则将所述第一目标信息转化为结构化数据以将所述待转化的非结构化数据的内容转化为结构化数据。

优选地,当所述待转化的非结构化数据的类型为文本文件时,所述算法模型具体为lda主题模型。

优选地,所述依据与所述待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息具体包括:

确定所述文本文件的内容中各数据的先验概率;

依据所述先验概率计算所述文本文件的内容中各数据的相似度;

依据所述相似度确定出所述文本文件的内容中各数据的类型或语义,并采用聚类算法对相同类型或相同语义的数据进行聚类处理以得出所述第一目标信息。

优选地,当所述待转化的非结构化数据的类型为图像文件或视频文件时,所述算法模型具体为深度神经网络模型。

优选地,所述依据与所述待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息具体为:

采用所述深度神经网络模型中的rbf径向基函数神经网络提取所述第一目标信息。

优选地,当所述待转化的非结构化数据的类型为图像文件时,所述采用所述深度神经网络模型中的rbf径向基函数神经网络提取所述第一目标信息具体包括:

对所述图像进行分割处理得出多个子图像;

采用所述rbf径向基函数神经网络对各所述子图像进行特征提取,并对所提取的特征进行聚类分析以得出第二目标信息,并将所述第二目标信息作为所述第一目标信息。

优选地,当所述待转化的非结构化数据的类型为视频文件时,所述采用所述深度神经网络模型中的rbf径向基函数神经网络提取所述第一目标信息具体包括:

依据确定出的分割参数将所述视频文件的内容进行分割处理得出多个子视频;

将各所述子视频采用逐帧分析的方式转换为子图像;

采用所述rbf径向基函数神经网络对各所述子图像进行特征提取,并对所提取的特征进行聚类分析以得出第三目标信息,并将所述第三目标信息作为所述第一目标信息。

优选地,所述根据预定义规则将所述第一目标信息转化为结构化数据具体包括:

按照与所述待转化的非结构化数据的文件模板将所述第一目标信息转换为半结构化数据;

对所述半结构化数据进行mapreduce并行处理;

利用xml技术将所述mapreduce并行处理后的半结构化数据转化为结构化数据。

为解决上述技术问题,本发明还提供了一种与将非结构化数据转化为结构化数据的方法对应的将非结构化数据转化为结构化数据的装置,包括第一结构转化模块,用于将待转化的非结构化数据的目标信息转化为结构化数据,其中,所述目标信息至少包括除所述待转化的非结构化数据的内容之外的文件标题、存储地址以及文件索引信息,还包括:

提取模块,用于依据与待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息;

第二结构转化模块,用于根据预定义规则将所述第一目标信息转化为结构化数据以将所述待转化的非结构化数据的内容转化为结构化数据。

为解决上述技术问题,本发明还提供了另一种与将非结构化数据转化为结构化数据的方法对应的将非结构化数据转化为结构化数据的装置,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序以实现上述任意一种将非结构化数据转化为结构化数据的步骤。

相比于现有技术,本发明所提供的一种将非结构化数据转化为结构化数据的方法,除了可以将待转化的非结构化数据的文件标题、存储地址以及文件索引信息等转化为结构化数据之外,还可以根据与待转化的非结构化数据的类型所对应的算法模型提取待转化的非结构化数据中与该待转化的非结构化数据内容相关的第一目标信息;再根据预定义规则将第一目标信息转化为结构化数据,进而可将非结构化数据的内容转化为结构化数据。可以从多个方面对待转化的非结构化数据进行结构化转化,利用非结构化数据的内容信息也可查找或管理非结构化数据,可提高非结构化数据的可视化和查询效率、降低管理难度。另外,本发明还提供了一种将非结构化数据转化为结构化数据的装置,效果如上。

附图说明

图1为本发明实施例所提供的一种将非结构化数据转化为结构化数据的方法流程图;

图2为本发明实施例所提供的一种将非结构化数据转化为结构化数据的装置组成示意图;

图3为本发明实施例所提供的另一种将非结构化数据转化为结构化数据的装置组成示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明的核心是提供一种将非结构化数据转化为结构化数据的方法及装置,可以解决由于非结构化数据转化为结构化数据的方式单一,进而导致的非结构化数据可视化效果差以及查询和管理难度大的问题。

为了使本技术领域的人员更好地理解本发明的方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例所提供的一种将非结构化数据转化为结构化数据的方法流程图,如图1所示,该方法包括以下步骤:

s101:将待转化的非结构化数据的目标信息转化为结构化数据,其中,目标信息至少包括除待转化的非结构化数据的内容之外的文件标题、存储地址以及文件索引信息。

具体就是将待转化的非结构数据类型的文件标题、存储地址以及索引信息等可以代表待转化的非结构数据类型的主要信息进行转化,可以利用转化后的文件标题、存储地址以及索引信息等结构化数据去查找或管理非结构化数据。非结构化数据其实就是文件,例如图片,视频等。

s102:依据与待转化的非结构化数据的类型所对应的算法模型提取与待转化的非结构化数据的内容对应的第一目标信息。

具体就是不同类型的待转化的非结构化数据,需要利用不同的算法模型提取与该类型待转化的非结构化数据内容对应的第一目标信息,第一目标信息其实就是待转化的非结构化数据内容中的关键信息。

s103:根据预定义规则将第一目标信息转化为结构化数据以将待转化的非结构化数据的内容转化为结构化数据。

当提取待转化的非结构化数据内容中的关键信息之后,就可利用预定义规则将第一目标信息转化为结构化数据就可实现待转化的非结构化数据内容的结构化转化,利用待转化的非结构化数据内容即可对待转化的非结构化数据进行查询或管理,进而可以提高非结构化数据的查询效率、降低非结构化数据的管理难度,并且可以便于可视化。在实际应用中,步骤s101和步骤s102并没有执行的先后顺序,可以先执行步骤s101,也可以先执行步骤s102,在条件允许的前提下,步骤s101和步骤s102还可以同时执行。也就是说,对待转化的非结构化数据的内容进行结构化转化与对待转化的非结构化数据的文件标题、存储地址以及文件索引信息等进行结构化转化,两者没有执行的先后顺序,步骤s101和步骤s102的具体执行顺序本发明并不作限定。本申请实施例中的待转化的非结构化数据主要包括文本文件、图片文件以及视频文件。下面分别对文本文件、图片文件以及视频文件的结构化转化过程进行详细说明。

第一,待转化的非结构化数据的类型为文本文件的结构化转化过程。

为了确保提取的文本文件内容关键词的覆盖率和准确性,在上述实施例的基础上,作为优选地实施方式,当待转化的非结构化数据的类型为文本文件时,算法模型具体为lda主题模型。

为了进一步提高文本文件内容关键词的提取覆盖率和准确性,当采用lda主题模型对文本文件的内容进行结构化转化时,在上述实施例的基础上,作为优选地实施方式,依据与待转化的非结构化数据的类型所对应的算法模型提取与待转化的非结构化数据的内容对应的第一目标信息具体包括:

确定文本文件的内容中各数据的先验概率;

依据先验概率计算文本文件的内容中各数据的相似度;

依据相似度确定出文本文件的内容中各数据的类型或语义,并采用聚类算法对相同类型或相同语义的数据进行聚类处理以得出第一目标信息。

第一步,提取文本文件内容中的关键词信息(第一目标信息)。关键词提取是从文本文件集中提取可靠有意义的词语或短语关键的一步,它影响着后续的步骤。这些词语或者短语往往都有固定的结构,主题词语较为显著,语义高度相同,领域归属特征显著等特点,常常用来描述该领域相关话题、知识等类别信息。因此文本文件的内容信息提取称为整个文本内容分类最为关键且基础的一步,没有准确的、全面的提取到关键词就没有办法保证整个文本信息知识体系的覆盖率和准确性。

采用lda主题模型较其它模型提取关键词信息的精确和显著度均较高,lda主题模型本质是采用了三层贝叶斯概率模型,包含词、主题、文档三层结构,是一种非监督机器学习技术,lda主题模型可以用来识别大规模文档集、语料库中的主体信息,首先要获得该文本文件中每个数据的先验概率,并采用词袋模型方法将每篇文本视为一个词频向量,这样方便将文本中的词频向量转化为易于建模的数学模型,但是词袋模型并没有考虑文本文件内容中数据与数据之间的顺序,因此根据词频向量建模后会得到一些数据的概率排序。

第二步,计算文本文件内容中各数据的相似度。

词语或短语是构成一句话或一篇文章的最小单元,对于词语相似度计算是进行自然语言处理和文本知识挖掘的前提和基础。词语相似度计算可以为大批量的数据信息匹配,搜索引擎快速响应用户等任务提供最重要的技术支持。可以根据庞大的语料库构建一个关键词语相似度自动计算系统,进而确定最优策略的相似度匹配算法。

第三步,确定文本文件内容中各数据的类型或语义,并采用聚类算法对相同类型或相同语义的数据进行聚类处理以得出第二目标信息。

具体地,将适用于相同类型或相同语义的数据进行聚类处理,可以减少庞大的计算量,量化处理各数据之间的语义关系,基于聚类算法(例如k-means聚类、层次聚类)获取各数据之间的层次关系进一步将数据归类,可以将文本文件里的内容化成彰显主题的几类词语,进而得出第二目标信息。本申请实施例可以有效且精确的提取到文本文件内容中的关键词信息。

第四步,将得出的第一目标信息转化为结构化数据文本文件。

利用最优的文本关键词信息提取方法、最优关键词相似度匹配算法以及最优聚类分析算法获取到的结果结合成形式化方法表示按照一定的规则转换、处理将其转换为半结构化数据。非结构化数据转结构化数据的过程具体将在下文介绍,在此暂不赘述。

第二,待转化的非结构化数据的类型为图像文件或视频文件的结构化转化过程。

为了提高文件内容关键信息的提取准确性,在上述实施例的基础上,作为优选地实施方式,当待转化的非结构化数据的类型为图像文件或视频文件时,算法模型具体深度神经网络模型。为了提高文件内容关键信息的提取效率,当采用深度神经网络模型对图像文件或视频文件的内容进行结构化转化时,作为优选地实施方式,依据与待转化的非结构化数据的类型所对应的算法模型提取与待转化的非结构化数据的内容对应的第一目标信息具体为:

采用深度神经网络模型中的rbf径向基函数神经网络提取第一目标信息。

深度神经网络模型是一个新型的人工神经网络方法,具有局部感知区域、层次结构化、特征抽取和分类过程结合的全局训练等特点,在图像识别领域获得了广泛的应用。在该算法模型中构造了若干个具有不同大小特征抽取的过滤器层,将这些模型应用到图像识别的问题上。按照深度神经网络模型所具有的层次化和局部感激区域抽取特征的特点,适当增加感知起的数量,能够提高网络中各层所能抽取的特征数量以及质量,从而提高深度神经网络模型的识别能力,并且具有更好的鲁棒性。

为了提高关键信息的提取效率,在本申请实施例中限制了对每帧图像的领域,缩小了低级特征和高级概念之间存在的语义间隔。故借助支持向量机作为模型学习,模型内核采用高斯径向基核函数,从而得到径向基函数分类器,因为rbf核可以将样本映射到一个更高维的空间,它可以处理图片标签与特征之间的非线性关系,是局部性很强的核函数,具有相当高的灵活性,也是使用最广泛的核函数。使用rbf核函数时要考虑参数调节,好的参数能使分类器正确的预测未知数据,得到高的训练正确率,即分类器预测类别标签的正确率。

本发明所提供的一种将非结构化数据转化为结构化数据的方法,除了可以将待转化的非结构化数据的文件标题、存储地址以及文件索引信息等转化为结构化数据之外,还可以根据与待转化的非结构化数据的类型所对应的算法模型提取待转化的非结构化数据中与该待转化的非结构化数据内容相关的第一目标信息;再根据预定义规则将第一目标信息转化为结构化数据,进而可将非结构化数据的内容转化为结构化数据。可以从多个方面对待转化的非结构化数据进行结构化转化,利用非结构化数据的内容信息也可查找或管理非结构化数据,可提高非结构化数据的可视化和查询效率、降低管理难度。

为了进一步提高对图像文件内容中关键信息的提取速度,在上述实施例的基础上,作为优选地实施方式,当待转化的非结构化数据的类型为图像文件时,采用深度神经网络模型中的rbf径向基函数神经网络提取第一目标信息具体包括:

对图像文件进行分割处理得出多个子图像;

采用rbf径向基函数神经网络对各子图像进行特征提取,并对所提取的特征进行聚类分析以得出第二目标信息,并将第二目标信息作为第一目标信息。

具体就是依据分割参数将图像文件分割成多个字图像,然后对各子图像进行特征提取,即从各子图像中提取关键信息,最后将各子图像中提取的关键信息进行聚类分析得出第二目标信息,并将第二目标信息作为最终图像文件内容的关键信息(第一目标信息)。在图像特征提取过程中特征选择和提取的基本任务是从众多特征集中选取最有效的特征。所谓的图像特征是从彩色图像中提取有效映射图像本身,但又区别于其他图像特征的特点。通过特征提取可以获得更有效的识别依据的特征,并且缩小了度量空间的维数,将图像识别放在低维的特征空间中进行,极大的提升了图像的识别质量。

在上述实施例的基础上,作为优选地实施方式,当待转化的非结构化数据的类型为视频文件时,采用所述深度神经网络模型中的rbf径向基函数神经网络提取第一目标信息具体包括:

依据确定出的分割参数将视频文件的内容进行分割处理得出多个子视频;

将各子视频采用逐帧分析的方式转换为子图像;

采用rbf径向基函数神经网络对各子图像进行特征提取,并对所提取的特征进行聚类分析以得出第三目标信息,并将第三目标信息作为第一目标信息。

具体就是将视频文件先分割为多个子视频,然后将多个子视频通过逐帧分析的方式转换为子图像,即转换为图像文件,最后提取子图像的第三目标信息,并将第三目标信息作为第一目标信息。也就是视频文件的处理方式可以等同于图像文件的处理方式。

视频文件不仅是存储规模最大的数据,同时也是最典型的异构大数据,视频文件在不同的处理阶段对应不同的数据类型:非结构化数据(视频、图像)、半结构化数据(特征)、结构化(特征向量、描述属性)。视频图像数据处理的方法是逐步将非结构化数据转换为半结构化数据然后做统计和关联过程分析,最后转换为结构化数据存放在数据库中。

视频数据标记有助于提取视频文件中的内容以及描述的准确性和稳定性,使得视频内容的分析算法更具有针对性,原则上对视频文件内容的结构化描述越详细越好,但是这对视频属性标记要求非常苛刻,因此将视频文件的场景按照颜色、场景、时间等进行划分。视频文件数据包含了大量了非结构化数据信息,视频内容挖掘是通过对视频文件解码后逐帧进行分析的。首先对视频文件根据参数帧数、份数进行分割。分割参数是进行视频文件处理准确性和可靠性的前提和基础。对子视频文件进行属性标记,属性标记的好坏直接会影响到对视频内容的结构化描述的全面性。

在对视频文件逐帧分析过程的实质就是对每帧图片进行信息提取的过程。视频文件中的某一帧图片与前一时刻的某一帧图片进行对比有明显差异的部分是检测的主要对象,通过背景建模、对目标分割算法确定潜在的差异部分。为了加速训练模型的迅速收敛,一般会在图像识别前进行预处理,包含:去除噪音、输入降维数据以及删除无关的数据等。

为了提高转化速度,在上述实施例的基础上,作为优选地实施方式,根据预定义规则将第一目标信息转化为结构化数据具体包括:

按照与待转化的非结构化数据的文件模板将第一目标信息转换为半结构化数据;

对半结构化数据进行mapreduce并行处理;

利用xml技术将mapreduce并行处理后的半结构化数据转化为结构化数据。

具体就是将非结构化内容中通过分类产生的关键信息按照一定的规则转换、处理将其转换为半结构化数据。无论是文本文件,图像文件还是视频文件,在提取出对应文件内容的关键信息之后,均可通过本申请实施例中的方式进行结构化转化,半结构化数据表现形式一般由xml文件进行存储,也就是将提取的关键信息(第一目标信息),即对非结构化数据进行xml化。以达到非结构化数据使用xml管理的目的。对于文本文件的xml化处理方法,microsoftoffice的较新版本都自带转换功能或工具,能够方便地将office系列文档向xml文档的转化。用户也可以根据自己的需求,分析本领域内word文档的内容和结构编写相应的程序,应用适合自己的xslt,输出合适的xml文档。此外,也可借助一些专门的工具用于将这些文档转换为xml文档。对于图片、视频、声音文件的xml化处理方法,建立对应的xml文档对图片、视频、声音、动画等文件内容中提取的关键信息进行记录,在需要使用这些文件的时候,可以根据xml文档中的内容进行查找和筛选。并根据文档中记录的与对应文件内容相关的关键信息进行调用。也就是说可以通过非结构化数据的内容信息对相关非结构化数据进行查询。如文本类的文档可以采用逐级转换或是根据文档的特点编写相应有转换程序转换成xml文档,其它类型的文档通过xml文档存储对象属性的方法对其进行链接等等。

xml文件的主要有以下特点:第一,简单性,整个xml文档都有严格的格式界定,整体看起来简洁明了。第二,开放性,xml标准本身及文档在web上是完全开放的,任何人能够自由阅读规范、所采用的标记以及文本。第三,高效且可扩充性,xml支持复用文档片断,使用者可以创建和使用自己的标签,也可与他人共享,可延伸性较大。第四,高通用性,xml具有统一性功能,支持世界上大多数语言文字。对于xml数据结构化将非结构化数据转换成为xml文档以后,对非结构化数据的管理就转移到对xml文档的管理上。而对xml数据的管理,业界已有比较成熟的管理方式和方法,从而使得非结构化数据的管理也变得容易。xml数据是典型的半结构化数据,通过建立xml与关系数据库的映射。按照一定的规则转换、处理,可将它转换成为结构化数据,为传统的基于关系模型的数据库所支持。

但是在实际应用中,因为非结构化数据具有多种类型,所以转化为半结构化的xml文件也会有多种类型,随着数据量增大xml文件数量也随之变得愈来愈大。因为xml文件属于半结构化数据,这些因素使得采用结构的关系型数据库不适用于xml文件的查询处理。因此,在本申请实施例中,在xml文件转化为结构化数据之前,采用mapreduce对xml文件进行并行处理,mapreduce是一个分布式计算框架,应用于大数据开发平台hadoop中,该平台可部署在廉价的pc集群中,数据会分布在集群中的各个节点,从而实现数据的并行处理,因而将mapreduce用于xml的数据查询。对xml在dtd里面定义了所有文档类型的元素清单、属性、标记、文档中的实体及其相互关系。dtd还为xml文档结构制定了一套规则。在进行文档和数据库的转换时,可以充分利用dtd文档,从而建立起较为符合原文档的数据库结构,并且将文档中的信息都尽量的保存在数据库当中。

下面对dtd生成一个关系型结构的过程进行说明:

第一步,根据dtd文档得到所有的数据项和数据项之间的数据关系表。通过相关算法,就可以将dtd文档中所有元素和它们的基本信息都保存数据结构中,然后再建立一张对应此结构的数据表,将信息存储在关系数据库中,这样就实现了xml中非结构化数据向关系数据库中的结构化数据转换的第一步。

第二步,根据数据关系表建立数据库主表和子表根据上面建立的数据结构,在找到基本元素之后。建立起相应的关系数据表(反映xml文档的基本信息),称这张表为基本表。表名为基本元素名,基本表中的字段由基本元素均为基本表字段。根据对象信息,建立起所有的主表和子表,并保存对应的元素在xml文档中的位置信息。

第三步,根据特殊符号的不同含义构建包含特殊符号子元素的不确定子表。对这些子元素进行编号,并确定一个编号上限来区分它们。但是如果这样做,会给数据库带来大量的数据,造成大量的磁盘浪费。所以可以将在一个表的不确定元素不多的情况下把它们分成不同的记录来保存。

第四步,实现xml文档中的数据向关系数据库转换。在建立数据库的基础上。将xml文档中的元素形式的数据转换成关系数据库中记录形式的数据。通过以上步骤实现了从xml文档到关系数据库的转换。从而实现xml对非结构化数据的管理。

上文中对于一种将非结构化数据转化为结构化数据的方法的实施例进行了详细描述,基于上述实施例描述的一种将非结构化数据转化为结构化数据的方法,本发明实施例还提供了一种与该方法对应的将非结构化数据转化为结构化数据的装置。由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参照方法部分的实施例描述,这里不再赘述。

图2为本发明实施例所提供的一种将非结构化数据转化为结构化数据的装置组成示意图,如图2所示,该装置包括第一结构转化模块201,提取模块201和第二结构转化模块203。

第一结构转化模块201,用于将待转化的非结构化数据的目标信息转化为结构化数据,其中,目标信息至少包括除待转化的非结构化数据的内容之外的文件标题、存储地址以及文件索引信息。

提取模块202,用于依据与待转化的非结构化数据的类型所对应的算法模型提取与待转化的非结构化数据的内容对应的第一目标信息;

第二结构转化模块203,用于根据预定义规则将第一目标信息转化为结构化数据以将待转化的非结构化数据的内容转化为结构化数据。

本发明所提供的一种将非结构化数据转化为结构化数据的装置,除了可以将待转化的非结构化数据的文件标题、存储地址以及文件索引信息等转化为结构化数据之外,还可以根据与待转化的非结构化数据的类型所对应的算法模型提取待转化的非结构化数据中与该待转化的非结构化数据内容相关的第一目标信息;再根据预定义规则将第一目标信息转化为结构化数据,进而可将非结构化数据的内容转化为结构化数据。可以从多个方面对待转化的非结构化数据进行结构化转化,利用非结构化数据的内容信息也可查找或管理非结构化数据,可提高非结构化数据的可视化和查询效率、降低管理难度。

上文中对于一种将非结构化数据转化为结构化数据的方法实施例进行了详细描述,基于上述实施例描述的一种将非结构化数据转化为结构化数据的方法,本发明实施例还提供了另一种与该方法对应的将非结构化数据转化为结构化数据的装置。由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参照方法部分的实施例描述,这里不再赘述。

图3为本发明实施例所提供的另一种将非结构化数据转化为结构化数据的装置组成示意图,如图3所示,该装置包括存储器301和处理器302。

存储器301,用于存储计算机程序;

处理器302,用于执行计算机程序以实现上述任意一个实施例所提供的将非结构化数据转化为结构化数据的步骤。

本发明所提供的另一种将非结构化数据转化为结构化数据的装置,除了可以将待转化的非结构化数据的文件标题、存储地址以及文件索引信息等转化为结构化数据之外,还可以根据与待转化的非结构化数据的类型所对应的算法模型提取待转化的非结构化数据中与该待转化的非结构化数据内容相关的第一目标信息;再根据预定义规则将第一目标信息转化为结构化数据,进而可将非结构化数据的内容转化为结构化数据。可以从多个方面对待转化的非结构化数据进行结构化转化,利用非结构化数据的内容信息也可查找或管理非结构化数据,可提高非结构化数据的可视化和查询效率、降低管理难度。

以上对本发明所提供的一种将非结构化数据转化为结构化数据的方法及装置进行了详细介绍。本文中运用几个实例对本发明的原理及实施方式进行了阐述,以上实施例的说明,只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,本领域技术人员,在没有创造性劳动的前提下,对本发明所做出的修改、等同替换、改进等,均应包含在本申请中。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个操作与另一个操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”等类似词,使得包括一系列要素的单元、设备或系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种单元、设备或系统所固有的要素。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1