一种判断文件内容与标题间一致性的方法及装置制造方法

文档序号:6488118阅读:270来源:国知局
一种判断文件内容与标题间一致性的方法及装置制造方法
【专利摘要】本发明提供了一种判断文件内容与标题间一致性的方法及装置,其中判断文件内容与标题间一致性的方法包括:A.利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;B.将所述目标文件及各候选文件基于内容之间的相似度进行聚类;C.确定聚类结果中的最优类簇;D.当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。通过上述方式,能够准确判断文件内容与标题间是否一致。
【专利说明】一种判断文件内容与标题间一致性的方法及装置
【【技术领域】】
[0001]本发明涉及数据处理技术,特别涉及一种判断文件内容与标题间一致性的方法及
>J-U装直。
【【背景技术】】 [0002]随着互联网技术的发展,网络上资源越来越丰富,用户通过向搜索引擎输入检索关键字,即可得到自己想要的信息资源。例如,用户向音乐网站的搜索引擎输入“北京欢迎您”,就可以从音乐网站得到与“北京欢迎您”相关的音乐文件。然而,由于互联网上存在大量的资源,在音乐网站的数据库中,有可能存在歌曲名为“北京欢迎您”的音乐文件,其实质的音频内容却是“北京一夜”,即现有网络资源中存在着文件内容与标题不一致的现象,这种现象会导致向用户返回数据时出现错误。
[0003]此外,由于互联网成为越来越开放的平台,用户除了可以从网络上获取资源,也可以将自己的资源分享到网络上。当用户将文件上传到网络上时,用户有可能出于有意或无意的目的,将文件内容与标题保存得不一致。例如有的用户故意将某个非法视频的名称保存为“建国大业”,或者有的用户误将音频内容为“北京一夜”的文件名记错为“北京欢迎您”而导致错误上传。

【发明内容】

[0004]本发明所要解决的技术问题是提供一种判断文件内容与标题间一致性的方法及装置,以对文件内容与标题间不一致的情况做出准确判断。
[0005]本发明为解决技术问题而采用的技术方案是提供一种判断文件内容与标题间一致性的方法,包括:A.利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件将所述目标文件及各候选文件基于内容之间的相似度进行聚类;C.确定聚类结果中的最优类簇;D.当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
[0006]根据本发明之一优选实施例,所述方法在所述步骤D后进一步包括:E.当所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
[0007]根据本发明之一优选实施例,所述步骤B包括:B1.提取所述目标文件及各候选文件的内容特征;B2.基于所述内容特征对所述目标文件及各候选文件进行聚类。
[0008]根据本发明之一优选实施例,当所述目标文件的类型为音频时,所述内容特征为音频指纹特征。
[0009]根据本发明之一优选实施例,当所述目标文件的类型为视频时,所述步骤BI包括:Bll.分别从所述目标文件及各候选文件中分离出各自的音频;B12.提取每个音频的音频指纹特征作为对应文件的内容特征。
[0010]根据本发明之一优选实施例,所述步骤B2包括:B21.依次将所述目标文件及各候选文件中各个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将所述内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在所述内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中所述内容特征库初始包含的内容特征数为非负整数,且每个内容特征对应一个文件标识;B22.将具有相同标识的文件确定为一个类簇。
[0011]根据本发明之一优选实施例,所述步骤C包括:Cl.从聚类结果中确定各有效类簇,其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇;C2.从各有效类簇中选取最优类簇。
[0012]根据本发明之一优选实施例,所述步骤C2包括:C21.基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与所述目标文件标题之间的匹配度;C22.根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分;C23.选取得分最高的有效类簇为最优类簇。
[0013]本发明还提供了一种判断文件内容与标题间一致性的装置,包括:检索单元,用于利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;聚类单元,用于将所述目标文件及各候选文件基于内容之间的相似度进行聚类;确定单元,用于确定聚类结果中的最优类簇;判断单元,用于当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
[0014]根据本发明之一优选实施例,所述装置进一步还包括:替换单元,用于当所述判断单元确定所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
[0015]根据本发明之一优选实施例,所述聚类单元包括:特征提取单元,用于提取所述目标文件及各候选文件的内容特征;文件聚类单元,用于基于所述内容特征对所述目标文件及各候选文件进行聚类。
[0016]根据本发明之一优选实施例,当所述目标文件的类型为音频时,所述内容特征为音频指纹特征。
[0017]根据本发明之一优选实施例,当所述目标文件的类型为视频时,所述特征提取单元包括:分离单元,用于分别从所述目标文件及各候选文件中分离出各自的音频;提取单元,用于提取每个音频的音频指纹特征作为对应文件的内容特征。
[0018]根据本发明之一优选实施例,所述文件聚类单元包括:迭代单元,用于依次将所述目标文件及各候选文件中每个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将所述内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在所述内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中所述内容特征库初始包含的内容特征数为非负整数,且每一内容特征对应一个文件标识;结果生成单元,用于将具有相同标识的文件确定为一个类簇。
[0019]根据本发明之一优选实施例,所述确定单元包括:类簇确定单元,用于从聚类结果中确定各有效类簇,其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇;类簇选取单元,用于从各有效类簇中选取最优类簇。
[0020]根据本发明之一优选实施例,所述类簇选取单元包括:文件得分确定单元,用于基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与所述目标文件标题之间的匹配度;类簇得分确定单元,用于根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分;最终类簇确定单元,用于选取得分最高的有效类簇为最优类簇。
[0021]由以上技术方案可以看出,本发明通过利用目标文件的标题在候选网站获取候选文件,并基于内容之间的相似度对目标文件和候选文件进行聚类,能够充分利用互联网上绝大多数正确的资源为目标文件内容与标题之间的关联性判断提供依据,当目标文件不属于最优类簇时,说明目标文件的内容与标题之间的联系不符合互联网上可信资源的规律,从而使得目标文件内容与标题间不一致的判断的准确性大大增加。通过本发明的方法,能够很好的对文件内容和标题之间的一致性进行判断,从而使得解决由于文件内容和标题间不一致而导致的各种问题成为可能,如对数据库中内容与标题不一致的数据进行修正,或者对用户上传的内容与标题不一致的数据进行警示等。
【【专利附图】

【附图说明】】
[0022]图1为本发明中判断文件内容与标题间一致性的方法的流程示意图;
[0023]图2为本发明中对音频类型的目标文件和候选文件进行聚类的示意流程图;
[0024]图3为本发明中判断文件内容与标题间一致性的装置的实施例的结构示意框图;
[0025]图4为本发明中特征提取单元的一个实施例的结构示意框图;
[0026]图5为本发明中文件聚类单元的一个优选实施例的结构示意框图;
[0027]图6为本发明中类簇选取单元的一个优选实施例的结构示意框图。
【【具体实施方式】】
[0028]为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0029]请参考图1,图1为本发明中判断文件内容与标题间一致性的方法的流程示意图。如图1所示,该方法包括:
[0030]步骤SlOl:利用目标文件的标题在至少一个候选网站进行检索,以获取与目标文件类型相同的候选文件。
[0031]步骤S102:将目标文件及各候选文件基于内容之间的相似度进行聚类。
[0032]步骤S103:确定聚类结果中的最优类簇。
[0033]步骤S104:当目标文件不属于最优类簇时,确定目标文件内容与标题不一致,否则确定目标文件内容与标题一致。
[0034]为了便于理解,下面的例子中主要以目标文件为音频类型的文件来对上述步骤进行介绍,本领域技术人员应该理解,根据本发明的思想,将本发明的目标文件类型扩展到文本类型或视频类型并不影响本发明的实施。
[0035]本发明中的目标文件的标题,不仅仅局限于文件名的范围,凡是能够用于定位目标文件的属性特征,均可归属于本发明中标题的概念范围。例如对于歌曲音频文件而言,其标题可包括歌曲名、歌手名以及专辑名等要素。
[0036]步骤SlOl中得到的候选文件是与目标文件类型相同的文件,这是指如果目标文件为文本类型的文件,则候选文件也为文本类型,如果目标文件为音频类型的文件,则候选文件也为音频类型。
[0037]假设目标文件为刘德华专辑《笨小孩》中的《冰雨》音频文件,则步骤SlOl中,可利用冰雨、刘德华、笨小孩,即歌曲名、歌手名、专辑名组成的检索词在候选网站A中进行检索,得到若干个候选文件,同时利用冰雨、刘德华,即歌曲名、歌手名组成的检索词在候选网站B中进行检索,得到若干个候选文件,可见,在获取候选文件时,可以选择不同的检索词或候选网站。因此,在本发明中可以预先设置检索词置信度C1和网站置信度C2来对候选文件进行评价。例如:预先将包含歌曲名、歌手名及专辑名三个维度的检索词X的置信度值设置为1,而仅包含歌曲名、歌手名两个维度的检索词Y的置信度值设置为0.9,则使用X检索得到的候选文件的检索词置信度C1的值就等于1,使用Y检索得到的候选文件的检索词置信度C1的值就等于0.9。又如,预先将百度的网站置信度值设置为1,腾讯的网站置信度值设置为0.9,则来源于百度的候选文件的网站置信度C2的值就是1,来源于腾讯的候选文件的网站置信度C2的值就是0.9。候选文件的检索词置信度C1和网站置信度C2可在步骤S103中用于确定最优类簇,具体的使用方式将在后续介绍。
[0038]步骤S102具体地包括:
[0039]步骤S1021:提取目标文件及各候选文件的内容特征。
[0040]步骤S1022:基于上述内容特征对目标文件及各候选文件进行聚类。
[0041]其中,本发明对不同类型的目标文件,步骤S1021提取的内容特征也不相同。
[0042]如果目标文件是文本类型的文件,则根据步骤SlOl中所述,候选文件也是文本类型的文件,则步骤S1021中提取的内容特征,可以是现有技术为了对文本文件进行聚类时采用的任何特征,例如由特征词构成的特征向量,甚至可以将整个文本文件作为内容特征,使得聚类结果中的每个类簇包含的文本内容是完全一致的。由于现有技术的文本内容特征提取技术已经非常成熟,本发明在此不再赘述。
[0043]如果目标文件为音频文件,则步骤S1021中提取的内容特征为音频指纹特征。具体地,步骤S1021中提取音频指纹特征的方式,于本领域有多种已知的做法,例如可以参考中国发明专利申请号为201110218558.3的专利文件(下面称为专利文件一),该专利文件即公开了一种提取音频指纹的方式。
[0044]如果目标文件为视频文件,则作为一种实施方式,步骤S1021具体包括:
[0045]步骤S1021_l:分别从目标文件及各候选文件中分离出各自的音频。
[0046]步骤S1021_2:提取每个音频的音频指纹特征作为对应文件的内容特征。
[0047]如将目标文件A和候选文件B中的音频分别分离出来,这通过现有技术即可实现,然后采用专利文件一中公开的音频指纹特征提取方法对A的音频提取音频指纹特征作为A的内容特征,以及对B的音频提取音频指纹特征作为B的内容特征。本实施方式充分利用了视频中的声音来对视频的内容进行定位,计算量小,方便实施。
[0048]此外,也可以提取视频指纹特征作为视频目标文件和候选文件的内容特征,提取视频指纹特征于本领域也有多种做法,例如可以参考中国发明专利申请号为200910046777.0的专利文件(下面称为专利文件二),该专利文件即公开了一种提取视频指纹特征的方式。
[0049]在得到目标文件及各候选文件的内容特征后,步骤S1022中可采用各种已知的聚类算法对目标文件及各候选文件进行聚类,其中聚类采用的特征即为步骤S1021中提取的内容特征。
[0050]此外,本发明还给出了步骤S1022的一个优选实施方式,在该实施方式下,步骤S1022包括:
[0051]步骤S1022_l:依次将目标文件及各候选文件中各个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在内容特征库中以供与下一个未被标识的文件的内容特征比对时使用。
[0052]步骤S1022_2:将具有相同标识的文件确定为一个类簇。
[0053]下面以目标文件和候选文件为音频类型文件对上述聚类过程进行进一步说明。请参考图2,图2为本发明中对音频类型的目标文件和候选文件进行聚类的示意流程图。如图2所示,对由目标文件和各候选文件构成的集合,每次从中取一个未被标识的文件W与预设的音频指纹特征库中的音频指纹特征进行比对,如果比对成功,则将音频指纹特征库中相匹配的音频指纹特征对应的文件标识赋予W,转向下一个未被标识的文件比对,否则为W赋予一个新的文件标识,并将W的音频指纹特征保存到音频指纹特征库,转向下一个未被标识的文件比对。上述过程重复进行直到目标文件和各候选文件均比对完成。
[0054]其中上述的音频指纹特征库初始包含的音频指纹特征数为非负整数,且每个音频指纹特征对应一个文件标识。这里的音频指纹特征库可以是一个已建立好的音频指纹特征库,其中包含了若干数量的音频指纹特征,每个音频指纹特征对应一个文件标识,此外,这里的音频指纹特征库也可以为空,即音频指纹特征库中初始包含零个音频指纹特征,这种情况下,随着上述比对过程的进行,音频指纹特征库中的音频指纹特征会增加。
[0055]当目标文件和各候选文件均完成比对之后,目标文件和各候选文件均会得到一个文件标识,在步骤S1022_2中,即可根据文件标识将目标文件和各候选文件分为不同的类簇。
[0056]将两个音频指纹特征进行比对以确定是否比对成功的方式,可以参考专利文件一中的相关描述,本发明在此不再赘述。
[0057]请继续参考图1。在步骤S102得到聚类结果后,步骤S103确定最优类簇的方式具体包括:
[0058]步骤S1031:从聚类结果中确定有效类簇。
[0059]步骤S1032:从有效类簇中选取最优类簇。
[0060]其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇。例如目标文件及候选文件,即参与聚类的文件数为100,假设设定阈值为0.2,则类簇中文件数大于20的类簇都属于有效类簇。
[0061]通过设定阈值,可以对有效类簇的多样性进行控制,设定阈值越高,则步骤S1031得到的有效类簇数量越少。
[0062]若步骤S1031得到的有效类簇有多个,则步骤S1032还需要在多个有效类簇中选取出最优类簇。
[0063]具体地,步骤S1032包括:
[0064]步骤S1032_l:基于以下至少一个因素确定每个有效类簇中的各候选文件的得分:候选文件的检索词置信度、候选文件的网站置信度、候选文件标题与目标文件标题之间的匹配度。
[0065]候选文件的检索词置信度,就是前文在说明步骤SlOl时提到的C1,候选文件的网站置信度,则是前文在说明步骤SlOl时提到的c2。候选文件标题与目标文件标题之间的匹配度,可以通过编辑距离、余弦相似度、汉明距离等现有技术的手段来确定,本文不再详述。
[0066]优选的,一个候选文件的得分,可以参见下列公式:
[0067]SF=w1*C1+w2*C2+w3*C3
[0068]其中,SF是一个候选文件的得分,CpCyC3分别为该候选文件的检索词置信度、该候选文件的网站置信度及该候选文件标题与目标文件标题之间的匹配度,而W2, W3分别是预先为Cp C2、C3这三个参数确定的权重。
[0069]候选文件的网站置信度C2预先可根据经验值设定,随着使用本发明方法对大量目标文件进行判断后,可以看出来源于哪个网站的候选文件的质量更好,从而对网站置信度的值进行调整。
[0070]步骤S1032_2:根据每个有效类簇包含的候选文件的得分确定该有效类簇的得分。
[0071]一个有效类簇包含了若干候选文件,作为一种实施方式,步骤S1032_2中可将有效类簇中的各候选文件的得分相加后作为该有效类簇的得分,如下列公式所示:
【权利要求】
1.一种判断文件内容与标题间一致性的方法,包括: A.利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件; B.将所述目标文件及各候选文件基于内容之间的相似度进行聚类; C.确定聚类结果中的最优类簇; D.当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
2.根据权利要求1所述的方法,其特征在于,所述方法在所述步骤D后进一步包括: E.当所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
3.根据权利要求1所述的方法,其特征在于,所述步骤B包括: B1.提取所述目标文件及各候选文件的内容特征; B2.基于所述内容特征对所述目标文件及各候选文件进行聚类。
4.根据权利要求3所述的方法,其特征在于,当所述目标文件的类型为音频时,所述内各特征为首频指纹特征。
5.根据权利要求3所述的方法,其特征在于,当所述目标文件的类型为视频时,所述步骤BI包括: BH.分别从所述目标文件及各候选文件中分离出各自的音频; B12.提取每个音频的音频指纹特征作为对应文件的内容特征。
6.根据权利要求3所述的方法,其特征在于,所述步骤B2包括: B21.依次将所述目标文件及各候选文件中各个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将所述内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在所述内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中所述内容特征库初始包含的内容特征数为非负整数,且每个内容特征对应一个文件标识; B22.将具有相同标识的文件确定为一个类簇。
7.根据权利要求1所述的方法,其特征在于,所述步骤C包括: Cl.从聚类结果中确定各有效类簇,其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇; C2.从各有效类簇中选取最优类簇。
8.根据权利要求7所述的方法,其特征在于,所述步骤C2包括: C21.基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与所述目标文件标题之间的匹配度; C22.根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分; C23.选取得分最高的有效类簇为最优类簇。
9.一种判断文件内容与标题间一致性的装置,包括: 检索单元,用于利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;聚类单元,用于将所述目标文件及各候选文件基于内容之间的相似度进行聚类; 确定单元,用于确定聚类结果中的最优类簇; 判断单元,用于当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
10.根据权利要求9所述的装置,其特征在于,所述装置进一步还包括: 替换单元,用于当所述判断单元确定所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
11.根据权利要求9所述的装置,其特征在于,所述聚类单元包括: 特征提取单元,用于提取所述目标文件及各候选文件的内容特征; 文件聚类单元,用于基于所述内容特征对所述目标文件及各候选文件进行聚类。
12.根据权利要求11所述的装置,其特征在于,当所述目标文件的类型为音频时,所述内容特征为音频指纹特征。
13.根据权利要求11所述的装置, 其特征在于,当所述目标文件的类型为视频时,所述特征提取单元包括: 分离单元,用于分别从所述目标文件及各候选文件中分离出各自的音频; 提取单元,用于提取每个音频的音频指纹特征作为对应文件的内容特征。
14.根据权利要求11所述的装置,其特征在于,所述文件聚类单元包括: 迭代单元,用于依次将所述目标文件及各候选文件中每个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将所述内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在所述内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中所述内容特征库初始包含的内容特征数为非负整数,且每一内容特征对应一个文件标识; 结果生成单元,用于将具有相同标识的文件确定为一个类簇。
15.根据权利要求9所述的装置,其特征在于,所述确定单元包括: 类簇确定单元,用于从聚类结果中确定各有效类簇,其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇; 类簇选取单元,用于从各有效类簇中选取最优类簇。
16.根据权利要求15所述的装置,其特征在于,所述类簇选取单元包括: 文件得分确定单元,用于基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与所述目标文件标题之间的匹配度; 类簇得分确定单元,用于根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分; 最终类簇确定单元,用于选取得分最高的有效类簇为最优类簇。
【文档编号】G06F17/27GK103631769SQ201210303895
【公开日】2014年3月12日 申请日期:2012年8月23日 优先权日:2012年8月23日
【发明者】朱中的 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1