数据提取的方法及装置的制造方法_2

文档序号：9326986阅读：来源：国知局

据根据特征值分成不同集合的文本数据，然后对不同集合中的文本数据进行分段处理和分句处理。
[0048] 将得到的文本语句数据进行分词处理，这里的分词方法可以是正向最大匹配法，就是按照从左至右的方式进行分词。例如将"不知道你在说什么"按照正向最大匹配法进行分词就可以分为"不知道"、"你"、"在"、"说什么"。本实施例中的分词方法只是具体的实现方式的一种，在实际的应用中也可以按照反向最大匹配法、最短路径分词法、双向最大匹配法的方法进行分词。
[0049] 将经过分词处理得到的文本语句进行定义，为了方便叙述，将相邻的文本数据中位置在先的文本数据定为第一语句，将位置在后的文本数据定为第二语句。
[0050] 202、计算第一语句和第二语句的相似度。
[0051] 本实施例中计算相似度的算法为最大公共子序列LCS算法，具体的实现方式包括：
[0052] 首先，将由步骤201获得的第一语句与第二语句进行比对找出最大公共子序列，也就是找出两个语句最大连续相同的文本信息。
[0053] 考虑到实际应用中存在两个词词义相同但是文字表达不同的情况，例如，"天安门广场"和"广场"，虽然在字面上判断不相同，但在特定的环境都代表了天安门广场，应当认为是相同的词；或者"高兴"和"兴奋"也是同义词的不同表述方式。
[0054] 为了避免上述类似情况下错判的发生，并保证相似度的计算精确度，本实施例加入了同义词库。该同义词库是由不同领域专家总结的在不同实际应用中同义词的不同表达方式。
[0055] 用基于同义词库的LCS算法对先后相邻的两个语句进行模糊匹配，找出第一语句和第二语句的最大公共子序列。在基于同义词库的LCS算法对先后相邻的两个语句进行模糊匹配的过程中，本实施例还提供了一种使用名词作为特征词进行向前搜索的方法来匹配，该方法是考虑到在体现和表达语句的含义时，名词相比与动词或其它词性的词具有更好的特征性。
[0056] 然后，由得到的第一语句和第二语句的最大公共子序列进行相似度的计算，输出得到相似度值λ i
[0057] 203、若第一语句和第二语句的相似度满足预设的相似度阈值，则删除位置在后的第二语句。
[0058] 本实施例中，文本数据的预设相似度阈值设为λτ，将由步骤202得到的相似度A 1 与λ满行比对，若λ，λ τ，则认为满足预设相似度阈值，说明第一语句和第二语句是重复的，计算机自动删除第二语句以达到剔除冗余文本数据的目的；若A 1S λ τ，则认为不满足预设相似度阈值，说明第一语句和第二语句不相同或不相似，两者不为重复语句，保留第一语句和第二语句。
[0059] 204、保留第一语句，得到文本摘要信息。
[0060] 在步骤203删除了位置在后的第二语句后，获得的保留下来的位置在前的第一语句。
[0061] 在获得第一语句后，重复执行步骤201至步骤204,对文本数据集合中剩余的数据重新进行排序，区分第一语句和第二语句，并再次进行语句相似度的计算和比较，删除其中的重复语句。通过反复执行上述步骤201至步骤204,将文本数据集合中所有重复的数据全部删除，直至数据集合中不再存在任何相同或相似的语句，即得到两两语句相似度阈值均满足预设相似度的数据集合，也就是提取得到了文本数据的摘要信息。
[0062] 如图3所示，针对图片格式的摘要信息的提取方式包括：
[0063] 301、按照预设的特征值对图片数据进行分类，获得多个图片集合。
[0064] 目前对图片数据进行摘要信息提取时，是对所有的图片中的数据进行两两比对，考虑到现有方法一次处理数据对象数量大，计算的时间长，本实施例中，提供了一种对图片数据进行预处理的方法。该方法可以将所有的图片数据分成不同的数据集合，然后对每个集合中的图片进行处理就可以减少一次处理的数据，节省了时间。
[0065] 具体的本发明实施例是通过一些固定的特征值，由计算机来对图片数据进行分类的。比如按地点对图片数据分类，可以将图片分成几种不同地点的数据集合。这些特征值在特定的情况下是固定的。当然，本实施例对特征值的识别是基于图片识别技术实现的。
[0066] 在得到的不同集合的图片数据中，反复抽取任意两张图片，得到第一图片和第二图片。
[0067] 302、计算第一图片和第二图片的相似度。
[0068] 将步骤301得到的第一图片和第二图片进行相似度计算的方法为颜色直方图统计法。该方法的具体实现方式包括：
[0069] 首先，对第一图片和第二图片中的所有像素点的颜色分别进行统计。例如，一个图片中由1000个像素点，通过统计得到红色的像素点有300个，绿色的像素点有300个，蓝色的像素点有400个。
[0070] 其次，实现第一图片和第二图片的直方图均衡化，直方图均衡化是通过灰度变换将一幅图片转换为另一幅具有均衡直方图，即在每个灰度级上都具有相同的像素点数过程。对于黑白图片用单通道的灰色图像函数就行，对于彩色图片，可以把每个通道R、G、B分别均衡化，再合成为彩色图像。
[0071] 最后，得到高斯分布图，黑白图片为一维高斯分布，彩色图片为三维高斯分布。本实施例中为了对比的快速性，删除由第一图片和第二图片得到的高斯分布中小于10%的部分，对剩下的部分进行匹配对比，计算得到相似度λ 2。
[0072] 303、若第一图片和第二图片的相似度满足预设的相似度阈值，则删除位置在后的所述第二图片。
[0073] 本实施例中，图片数据的预设相似度阈值设为Xu，将由步骤302得到的相似度λ 2 与λ。进行比对，若λ 2> λ。，则认为满足预设相似度阈值，说明第一图片和第二图片是重复的，计算机自动删除第二图片以达到剔除冗余图片数据的目的；若λ 2< λ。，则认为不满足预设相似度阈值，说明第一图片和第二图片不相同或不相似，两者不为重复图片，保留第一图片和第二图片。
[0074] 304、保留第一图片，得到图片摘要信息。
[0075] 在步骤303删除了位置在后的第二图片后，获得的保留下来的位置在前的第一图片。
[0076] 在获得第一图片后，重复执行步骤302至步骤304,对图片数据集合中剩余的数据再次进行图片相似度的计算和比较，删除其中的重复图片。通过反复执行上述步骤302至步骤304,将图片数据集合中所有重复的图片全部删除，直至图片集合中不再存在任何相同或相似的图片，即得到两两图片相似度阈值均满足预设相似度的数据集合，也就是提取得到了图片数据的摘要信息。
[0077] 如图4所示，针对视频格式的摘要信息的提取方式包括：
[0078] 401、对视频数据进行帧分割，获得视频帧序列，从视频帧序列中抽取任意相邻的两个视频帧。
[0079] 本实施例中，在帧分割之前先对全部的视频进行人工去重处理，即对内容基本一致的视频只保留其中一个视频，删除多余的重复数据。然后对剩余的内容不同的视频进行帧分割，获得视频帧序列，并从中去抽取任意相邻的两个帧，为后面的相似度计算作准备。
[0080] 将经过帧分割处理得到的视频帧进行定义，为了方便叙述，将相邻的视频帧中位置在先的视频帧数据定为第一帧，将位置在后的视频帧数据定为第二帧。
[0081] 402、计算第一帧和第二帧的相似度。
[0082] 本实施例中是通过帧差法来计算两个视频帧的相似度的。帧差法通常是用来将运动目标从背景图像中提取出来的一种方法，原理是在图像序列相邻两帧或三帧间采用基于像素的时间差分通过闭值化来提取出图像中的运动区域。考虑帧差法是依据视频中背景图像的基本不变来找出变化区域，因此，本实施例就运用帧差法这一原理就可以找到背景相同或相似的帧，从而删除视频中重复相同的帧。具体的实现方式如下：
[0083] 首先，步骤401获得的第一帧和第二帧进行处理，得到他们的像素值。若为黑白图片他们的灰度值就是其像素值，若为彩色图片，则需要对其先进性灰度化处理，分别得到R、 G、B三维空间上的灰度值，来构成其像素值；
[0084] 其次，对比第一帧和第二帧的对应点的像素值的变化，得到差分图像，将差分图像再进行二值化处理；
[0085] 最后，根据处理过的差分图像来计算第一帧和所述第二帧的相似度λ 3。
[0086] 403、若第一帧和第二帧的相似度满足预设的相似度阈值，则删除位置在后的第二帧。
[0087] 本实施例中，视频数据的预设相似度阈值设为λν，将由步骤402得到的相似度λ 3 与λ ,进行比对，若λ 3> λ ν，则认为满足预设相似度阈值，说明第一帧和第二帧是重复的，计算机自动删除第二帧以达到剔除冗余视频帧数据的目的；若λ 2< λ。，则认为不满足预设相似度阈值，说明第一帧和第二帧不相同或不相似，两者不为重复帧，保留第一帧和第二帧。
[0088] 404、保留第一帧，得到视频摘要信息。
[0089] 在步骤403删除了位置在后的第二帧后，获得的保留下来的位置在前的第一帧。
[0090] 在获得第一帧后，重复执行步

完整全部详细技术资料下载

当前第2页1 2 3 4