数据提取的方法及装置的制造方法

文档序号:9326986阅读:255来源:国知局
数据提取的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数据处理领域,尤其涉及一种数据提取的方法及装置。
【背景技术】
[0002] 现今数据种类繁多,在对数据的数字化处理过程中,可采集到各种类型的数据,对 某一类事件或现象的记录和采集有多种方式,比如文字描述、相机拍照、拍摄、电话记录、短 信、微信、博客、邮件、电视台、广播台等。在这些数据中,体现出数据类型多样、数据源多样、 数据结构复杂、数据容量庞大等特征。
[0003] 面对这些多种多样且数量十分庞大的数据,如果需要进行某种数据提取或数据统 计的话,目前主流的处理思路在于通过数据相似度的比较,将过于相似甚至完全相同的多 份数据择一保留,剔除重复数据,达到数据去重的目的。例如,对拍摄内容基本相同的多张 照片进行去重处理,或者对语义内容实质相同的文本信息进行去重处理等。由于数据类型 多种多样,并且数据本身大多又是半结构化或非结构化的异构数据,因此现有的数据提取 方式主要是由人工操作实现,网络运营人员通过肉眼比对及手动筛选的方式完成有用数据 的提取。
[0004] 在上述数据提取的过程中,发明人发现:随着大数据时代的到来,网络中的数据量 将会成几何状增长。面对如此庞大的数据量,人工提取数据的方式需要消耗大量的处理时 间,提取效率过于低下。

【发明内容】

[0005] 本发明提供了一种数据提取的方法及装置,能够解决人工提取数据效率低下的问 题。
[0006] 为解决上述技术问题,一方面,本发明提供了一种数据提取的方法,该方法包括:
[0007] 对数据进行预处理,获得位置在前的第一数据和位置在后的第二数据;
[0008] 计算所述第一数据和所述第二数据的相似度;
[0009] 若所述第一数据和所述第二数据的相似度满足预设的相似度阈值,则删除位置在 后的所述第二数据;
[0010] 保留位置在前的所述第一数据,获得摘要信息。
[0011] 另一方面,本发明还提供了一种数据提取的装置,该装置包括:
[0012] 处理单元,用于对数据进行预处理,获得位置在前的第一数据和位置在后的第二 数据;
[0013] 计算单元,用于计算所述处理单元获得的所述第一数据和所述第二数据的相似 度;
[0014] 删除单元,用于当所述计算单元计算的所述第一数据和所述第二数据的相似度满 足预设的相似度阈值时,删除位置在后的所述第二数据,保留位置在前的所述第一数据,获 得摘要信息。
[0015] 本发明提供的数据提取的方法及装置,能够通过计算机自动对数据进行预处理, 获得第一数据和第二数据,并对第一数据和第二数据的相似度进行计算,若两者满足相似 度阈值,则说明第一数据和第二数据是重复的,计算机自动删除第二数据以达到剔除冗余 数据,保留数据摘要信息的目的。与现有技术相比,本发明可以通过计算机处理快速得到 数据摘要信息,无需人工对原始数据进行查看比对、手动筛选,大大的减少了数据的处理时 间,能够提尚数据提取的效率。
[0016] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0017] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0018] 图1示出了本发明实施例提供的一种数据提取的方法流程图;
[0019] 图2示出了本发明实施例提供的一种文本格式数据摘要信息提取的方法流程图;
[0020] 图3示出了本发明实施例提供的一种图片格式数据摘要信息提取的方法流程图;
[0021] 图4示出了本发明实施例提供的一种视频格式数据摘要信息提取的方法流程图;
[0022] 图5示出了本发明实施例提供的一种摘要信息提取评估方法的流程图;
[0023] 图6示出了本发明实施例提供的一种数据提取的装置的组成框图;
[0024] 图7示出了本发明实施例提供的另一种数据提取装置的组成框图。
【具体实施方式】
[0025] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0026] 为解决现有技术中人工提取摘要信息效率低下的问题,本发明实施例提供了一种 数据提取的方法,如图1所示,该方法包括:
[0027] 101、对数据进行预处理,获得位置在前的第一数据和位置在后的第二数据。
[0028] 在本实施例中,进行预处理的数据包括不同形式的数据,对不同形式的数据预处 理的方式也不同。
[0029] 对数据进行预处理是对不同形式的数据进行按不同的特征进行简单的分类处理, 得到更小范围的数据,也为接下来的数据相似度的计算提供更明确的数据集合,节约计算 的时间。
[0030] 对通过不同方法得到的每个数据集合中的相邻数据进行定义,为便于表述,这里 将位置在前数据的定为第一数据,将位置在后的数据定为第二数据。
[0031] 本实施例中对数据的定义方式不是唯一的,也可以将相邻数据中位置在前的数据 定为第二数据,位置在后的数据定为第一数据。
[0032] 102、计算第一数据和第二数据的相似度。
[0033] 将步骤101中获得的第一数据和第二数据进行相似度的计算,不同的数据形式所 用的计算方法不同。
[0034] 本实施例中计算相似度的原理是通过比较第一数据和第二数据的相同或相似的 程度来定义相似度的。本步骤中计算相似度的目的在于找出重复的第一数据和第二数据, 相似度的计算结果用于为后续步骤中删除重复数据提供参考。
[0035] 103、若第一数据和第二数据的相似度满足预设的相似度阈值,则删除位置在后的 第二数据。
[0036] 本实施例中第一数据和第二数据的相同或相似的判定,是通过一个预设的阈值来 衡量的,不同形式数据对应的相似度阈值不同。
[0037] 由步骤102获得的相似度值与预设相似度阈值进行比较,若相似度满足其相应形 式的预设阈值,则认为第一数据和第二数据相同或相似,两者互为重复数据,删除位置在后 的第二数据;若数据的相似度不满足相似度阈值,则认为第一数据和第二数据不相同或不 相似,两者不为重复数据,保留第一数据和第二数据。
[0038] 本实施例中删除第二数据的目的在于删除两个相似度高的数据中的一个数据,以 达到数据"去重"的效果,并继而实现摘要信息的提取。本实施例仅要求将重复的第一数据 和第二数据中的一者删除即可,删除第二数据仅为本实施例提供的一种实现方式,实际应 用中,也可以删除位置在前的第一数据。为避免混淆,本发明后续实施例将以删除位置在后 的第二数据为例进行说明。
[0039] 104、保留位置在前的第一数据,获得摘要信息。
[0040] 在步骤103删除了位置在后的第二数据后,获得的保留下来的位置在前的第一数 据。
[0041] 在获得第一数据后,重复执行步骤101至步骤104,对数据集合中剩余的数据重新 进行排序,区分第一数据和第二数据,并再次进行数据相似度的计算和比较,删除其中的重 复数据。通过反复执行上述步骤101至步骤104,将数据集合中所有重复的数据全部删除, 直至数据集合中不再存在任何相同或相似的数据,即得到两两数据相似度阈值均满足预设 相似度的数据集合,也就是提取得到了数据的摘要信息。不同形式的数据经过处理得到不 同形式的摘要形式。
[0042] 本发明实施例提供的数据提取的方法,能够通过计算机自动对数据进行预处理, 获得第一数据和第二数据,并对第一数据和第二数据的相似度进行计算,若两者满足相似 度阈值,则说明第一数据和第二数据是重复的,计算机自动删除第二数据以达到剔除冗余 数据,保留数据摘要信息的目的。与现有技术相比,本发明实施例可以通过计算机处理快速 得到数据摘要信息,无需人工对原始数据进行查看比对、手动筛选,大大的减少了数据的处 理时间,能够提高数据提取的效率。
[0043] 进一步的,作为对图1所示实施例的细化及扩展,本发明还提供了以下不同实施 例。
[0044] 在本发明的一个实施例中,可以对文字、图片及视频格式的数据进行摘要信息的 提取,下面针对不同的数据格式,给出三种摘要信息提取的实现方式。应当明确,以下实现 方式中的具体公式、算法、参数仅为示例性说明,不作为对实际应用的具体限制。
[0045] 如图2所示,针对文本格式的摘要信息的提取方式包括:
[0046] 201、对文本数据进行分词处理,获得先后相邻的两个语句。
[0047] 本实施例中对文本数据进行分词处理包括,在分词前对源文本数
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1