挖掘图片中的主题关键词的方法和设备的制作方法

文档序号:6487031阅读:140来源:国知局
挖掘图片中的主题关键词的方法和设备的制作方法
【专利摘要】本发明涉及一种挖掘图片中的主题关键词的方法和设备。挖掘图片中的主题关键词的方法包括:初始检索词识别步骤,识别图片中的关键词作为初始的检索词;候选关键词提取步骤,利用检索词检索与图片相关的主题网页以从中提取候选关键词;检索词选择步骤,根据候选关键词和搜索候选关键词所用的检索词之间的链接关系,从候选关键词中选择一部分候选关键词作为下次的候选关键词提取步骤所用的检索词;以及重复候选关键词提取步骤和检索词选择步骤直到满足预定条件。
【专利说明】挖掘图片中的主题关键词的方法和设备
【技术领域】
[0001]本发明涉及信息处理领域,具体涉及挖掘图片中的主题关键词的方法和设备。
【背景技术】
[0002]图片中的文字往往对了解该图片的内容非常重要。例如,广告图片中文本信息对客户了解广告内容具有重要作用。利用字符识别(例如,OCR识别)的结果和网络信息可以更加全面地提取广告的文本内容,通过挖掘这些信息并提取广告的主题,将向客户推荐其扩展应用或服务。
[0003]由于字符识别技术不能锁定代表图片(例如,广告图片)主题的关键词,所以借助互联网大量的文本信息,验证并提取广告图像中的文本。使用字符识别结果中关键词检索,文本聚类和匹配等数据挖掘手段,可获取和广告相关的主题网页(检索的网页和广告本身都表达一个内容)。然而由于字符识别结果的具有一定不完整性或不正确性,导致部分关键词检索出的网页可能具有发散性,生成噪音数据,而且如果关键词搜索的网页发散,其输入的关键词的正确识别结果将被丢弃,不能召回。
[0004]因此,需要一种能够解决上述问题的技术。

【发明内容】

[0005]在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0006]本发明的一个主要目的在于,提供一种挖掘图片中的主题关键词的方法和设备。
[0007]根据本发明的一个方面,提供了一种挖掘图片中的主题关键词的方法包括:初始检索词识别步骤,识别图片中的关键词作为初始的检索词;候选关键词提取步骤,利用检索词检索与图片相关的主题网页以从中提取候选关键词;检索词选择步骤,根据候选关键词和搜索候选关键词所用的检索词之间的链接关系,从候选关键词中选择一部分候选关键词作为下次的候选关键词提取步骤所用的检索词;以及重复候选关键词提取步骤和检索词选择步骤直到满足预定条件。
[0008]根据本发明的另一个方面,提供了一种挖掘图片中的主题关键词的设备,包括:初始检索词识别模块,被配置用于识别图片中的关键词作为初始的检索词;候选关键词提取模块,被配置用于利用检索词搜索与图片相关的主题网页以从中提取候选关键词;检索词选择模块,被配置用于根据候选关键词和搜索候选关键词所用的检索词之间的链接关系,从候选关键词中选择一部分候选关键词作为候选关键词提取模块下次搜索候选关键词所用的检索词;以及控制模块,被配置用于控制候选关键词提取模块和检索词选择模块循环操作直到满足预定条件。
[0009]另外,本发明的实施例还提供了用于实现上述方法的计算机程序。[0010]此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
[0011]通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
【专利附图】

【附图说明】
[0012]参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
[0013]图1是示出根据本发明实施例的挖掘图片中的主题关键词的方法的流程图;
[0014]图2是示出根据本发明的一个示例的挖掘图片中的主题关键词的方法的示意图;
[0015]图3是示出通过特征融合来选择候选关键词的示意图;
[0016]图4是示出根据本发明的图片的一个示例;
[0017]图5是示出根据本发明的搜索网页的一个示例;
[0018]图6是不出检索词和候选关键词的链接关系的不意图;
[0019]图7是示出根据本发明的一个实施例的挖掘图片中的主题关键词的设备的框图;
[0020]图8是示出检索词选择模块的配置的框图;
[0021]图9是示出根据本发明的另一个实施例的挖掘图片中的主题关键词的设备的框图;
[0022]图10是示出候选关键词提取模块的配置的框图;以及
[0023]图11是示出可以用于实施本发明的挖掘图片中的主题关键词的方法和设备的计算设备的举例的结构图。
【具体实施方式】
[0024]下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
[0025]图1是示出根据本发明实施例的挖掘图片中的主题关键词的方法100的流程图。
[0026]如图1所示,在步骤S102中,可以识别图片中的关键词作为初始的检索词。例如,可以通过OCR (Optical Character Recognition)方法来识别图片中的关键词。但是字符识别方法不限于此,而可以采用任意适当的字符识别方法。图片可以是任意需要处理的图片,例如,广告图片、从视频中截取的图片或任意其他图片。
[0027]在步骤S104中,可以利用检索词检索与图片相关的主题网页以从中提取候选关键词。
[0028]在步骤S106中,可以根据候选关键词和搜索候选关键词所用的检索词之间的链接关系,从候选关键词中选择一部分候选关键词作为下次的候选关键词提取步骤所用的检索词。例如,可以优先选择被更多检索词检索到的候选关键词作为下次的候选关键词提取步骤所用的检索词。[0029]在步骤S108中,判断预定的条件是否被满足。
[0030]如果在步骤S108中判断预定的条件不被满足,则返回步骤S104。
[0031]如果在步骤S108中判断预定的条件被满足,则结束流程。
[0032]此处所说的预定的条件可以为任意适当的条件,包括但不限于预定的收敛条件、预定的循环次数或其结合等。
[0033]在执行检索词选择步骤S106时,还可以利用从图片中识别的关键词和候选关键词之间的相似度。例如,可以根据从图片中识别的关键词和候选关键词之间的相似度以及根据候选关键词和搜索候选关键词所用的检索词之间的链接关系,从候选关键词中选择一部分候选关键词作为下次的候选关键词提取步骤S104所用的检索词。
[0034]以下将参照图2来描述根据本发明的一个示例的挖掘图片中的主题关键词的框架流程200。
[0035]首先,在步骤S202中,通过适当的文本识别方法如OCR (Optical CharacterRecognition)文本识别方法来识别图片中的字符。
[0036]接着,在步骤S204-1中,从识别的字符中提取图片中的关键词(以下称为从图片中识别的关键词)。最初,该从图片中识别的关键词将被直接用作步骤S206和步骤S208中的结果,即作为步骤S210中的初始的检索词的一部分。
[0037]此外,可以在步骤S204-2中从识别出的字符中提取实体名称,实体名称可以包括人名、地名、机构名、时间、数量以及其他自定义的实体名称,如图片中出现的商标名等。由于这些实体名称对搜索相关网页具有重要指示作用,所以在步骤S210中,利用在步骤S204-2中提取的实体名称以及在步骤S204-1中提取的OCR关键词的组合形式来生成检索词。换句话说,在步骤S210中生成的检索词的形式可以是一个关键词和一个或多个实体名称的结合。但实际上,检索词的形式不限于此。例如,检索词可以只包括一个或多个关键词,而不包括实体名称。
[0038]接着,在步骤S212中,将步骤S210中生成的检索词放入搜索引擎中检索。
[0039]在步骤S214中利用文本聚类和并在步骤S216中通过文本匹配方式提取主题网页。
[0040]具体而言,文本聚类是对搜索出的网页进行聚类,这是因为可以聚类的网页更有可能描述与图片相关的主题。
[0041]此外,尽管聚类的网页彼此之间比较相似,然而不能保证这些网页都描述与图片相关的主题。例如,如果输入实体名称:人名、地名和机构名等,则聚类的网页可能仅描述所述输入实体名称的详细信息,而非描述与图片相关的主题。例如,参照图4中的图片,如果以“银行”为检索词来搜索网页并执行聚类,则聚类的网页可能仅描述了“银行”,而非描述与图片相关的主题“咖啡”。因此,在步骤S216中,以文本匹配方式进一步挖掘描述与图片相关的主题网页。具体而言,在步骤S216中,在步骤S214的文本聚类的基础上,将每个网页和该图片的OCR识别结果做匹配计算。
[0042]接着,在步骤S218中,按照文本匹配的分值对网页进行排序,来选择描述与图片相关的主题的网页,即主题网页。
[0043]尽管描述了通过文本聚类和文本匹配来得到主题网页,但是应当理解到,此处可以不执行文本聚类和文本匹配而直接使用搜索到的网页来执行之后的步骤,或者可以仅执行文本聚类和文本匹配中的一个来进行网页筛选。
[0044]接着,在步骤S220中,判断预定条件是否被满足。此处所说的预定条件可以为任意适当的条件,包括但不限于预定的收敛条件、预定的循环次数或其结合等。
[0045]如果在步骤S220中判断出预定条件未被满足,则前进到步骤S206。
[0046]在步骤S206中,根据主题网页中的字符与从图片中识别的关键词之间的相似度从主题网页中提取候选关键词。优选地,可以根据稍后描述的特定编辑距离公式并通过多项特征融合的方式来计算相似度。
[0047]在步骤S208中,可以根据候选关键词和搜索该候选关键词所用的检索词之间的链接关系从候选关键词中选择一部分候选关键词。例如,可以优先选择被更多检索词检索到的一个或多个候选关键词作为随后的检索词或检索词的一部分(另一部分可以是实体名称),稍后将详细描述。
[0048]例如,可以将被最多检索词检索到的候选关键词和实体名称组合生成下一次执行步骤S210时所用的检索词。
[0049]接下来执行步骤S212至步骤S220。如果在步骤S220中判断出预定条件未被满足,则再次前进到步骤S206。当在步骤S220中判断出预定条件被满足时,例如,当关键词满足预定条件时,结束流程。在此处,该预定条件可以是人工方式设定阈值。
[0050]接下来,将描述从图片中识别出的关键词与候选关键词之间的相似度的计算。相似度的计算涉及编辑距离以及多特征选择和融合。
[0051]首先描述基于在图片中识别出的关键词的置信度的编辑距离计算方法。
[0052]因为字符识别算法可能不是完全准确,例如,字符识别出现错误、噪音等问题,所以可以采用编辑距离算法提取从图片中识别的关键词(即,初始的检索词或初始的检索词的一部分)。编辑距离的计算是以动态规划方式寻找当前最小编辑代价来实现的。编辑代价包括三种:增加一个字符所花费的代价,删除一个字符所花费的代价,以及替换一个字符所花费的代价。
[0053]在本发明的一个实施例中,对一般的编辑距离算法进行了改进。
[0054]由于字符识别的每个字符都具有置信度。置信度的值表示字符识别的准确率。置信度越高,说明字符识别越准确。因此,在本发明中,修改了编辑代价函数,即,将每个字符的替换函数变换成字符的置信度。
[0055]假设从图片中识别的关键词字符串为0=01;02,……,Om和对应的候选关键词字符串为C=C1, C2,……,Cn,那么从字符串O到字符串C的编辑距离δ (O, C)如下:
[0056]δ (O, C) =min { Y ⑶ I S 为 O 到 C 的编辑序列}(I)
[0057]上述公式可递归定义如下:
[0058]δ((\=t,(l ,Umnjkknce(Oi)(2)

(, j, i [ ,) + /(£ —> (,)
[0059]y⑶表示编辑序列S的代价函数,ε表示空串,Y (Oi — ε)表示删除字符Oi,修改的替换代价变为置信度值confidence (Oi)。
[0060]图4是示出根据本发明的图片的示例。
[0061]图4中的图片为一广告图片。从该图片中识别的关键词之一“枷I的午后”的每个字符(“枷”,“1”,“的”,“午”,“后”,“,”)都具有置信度。具体如下:“枷I的午后,”整体的置信度为0.8827,“枷”的置信度为0.3346,“I”的置信度为“0.7777”,“的”的置信度为
0.8571,“午,,的置信度为“0.9577”,“后”的置信度为0.9417,“,”的置信度为“-1.0000,,。
[0062]该关键词的和候选关键词的编辑距离如下:
[0063]Edit(i,j)表示O中[0....1]的子串Oi到C中[0....j]的子串Cj的编辑距离,f(i, j)表示O中第i个字符O (i)转换到C中第j个字符C(j)所需要的操作代价,如果O (i) =C (j),则不需要任何操作f(i,j)=0 ;否则,需要替换操作,f(i, j) =Conf (i,j)。
[0064]如果i=0 且 j=0,贝丨J edit (O, O) =1
[0065]如果i=0 且 j>0,贝丨J edit (O, j) =edit (0, j_l) +1
[0066]如果i>0 且 j=0, edit (i, 0) =edit (1-1, 0) +1
[0067]如果i>0 且 j>0,则 edit (i, j) =min (edit (1-1, j) +1, edit (i, j_l) +1, edit (1-1, j-l)+conf (i, j))
[0068]以下描述多特征选择和融合。图3是示出通过特征融合来选择候选关键词的示意图。
[0069]从图片中识别的关键词和主题网页的特征对候选关键词的选择具有重要作用,其特征如图3所示。
[0070]可以采用特征融合的方式来计算从图片中识别出的关键词O与候选关键词C之间相似度Sim (0,C),如下:
[0071]Sim (O, C) = a ^1+ a 2f2+......+ a nfn(3)
[0072]其中,Q1, a2,……,%为特征的参数,^2,……,fn为可以选择的特征,0为从图片中识别出的关键词,C为候选关键词。
[0073]其中,特征f\,f2,......,fn可以包括以下各项中的至少一项:从图片中识别的关键
词的大小、候选关键词在相应文本中的位置、候选关键词和从图片中识别的关键词的公共子串、从图片中识别的关键词在图片中的几何距离、候选关键词在相应文本中的互信息、以及从图片中识别的关键词和候选关键词之间的编辑距离。
[0074]从图片中识别的关键词的大小说明信息重要性。从图片中识别的关键词越大则越能说明图片本身想呈现给用户的信息,就越能表示该图片的意思。例如,可以通过下式(4)把从图片中识别的关键词的大小归一化作为上述特征之一。
[0075]Normalizaikmi =———— (4)

Max(Size)
[0076]其中,Normalizationi表示从图片中识别的第i个关键词的归一化的大小,Sizei表不未归一化的第i个关键词的大小,Max(Size)表不最大的那个关键词的大小。
[0077]本领域技术人员可以理解到,不一定执行归一化,而可以直接使用关键词的大小。
[0078]候选关键词是来自网页内容文本,而其所在的位置具有不同的权重,如标题、摘要、内容具有不同的权重意义,所以候选关键词所在文中的位置是一个关键特征。
[0079]候选关键词C和从图片中识别的关键词O的公共子串表示从网页中提取的候选关键词C与从图片中识别的关键词O的相似程度。所以公共子串的多少也影响了选择所候选的关键词的可信度。
[0080]图片图像的文字排版其实说明了图片的重要信息的匹配依赖程度。从几何角度,图片图像的多个字符排列紧密说明它们是在表示同一个意义,或者在补充说明一个活动和产品的特性,因此文本中多个字符的共现程度更能详细解释图片的信息,使用字符识别的坐标信息来提取多个字符相互之间的欧式距离的特征如下:
[0081]
【权利要求】
1.一种挖掘图片中的主题关键词的方法,包括: 初始检索词识别步骤,识别所述图片中的关键词作为初始的检索词; 候选关键词提取步骤,利用所述检索词检索与所述图片相关的主题网页以从中提取候选关键词; 检索词选择步骤,根据所述候选关键词和搜索所述候选关键词所用的检索词之间的链接关系,从所述候选关键词中选择一部分候选关键词作为下次的所述候选关键词提取步骤所用的检索词;以及 重复所述候选关键词提取步骤和所述检索词选择步骤直到满足预定条件。
2.根据权利要求1所述的方法,其中,所述检索词选择步骤包括: 根据从所述图片中识别的关键词和所述候选关键词之间的相似度以及根据所述候选关键词和搜索所述候选关键词所用的检索词之间的链接关系,从所述候选关键词中选择一部分候选关键词作为下次的所述候选关键词提取步骤所用的检索词。
3.根据权利要求1或2所述的方法,其中,所述根据所述候选关键词和搜索所述候选关键词所用的检索词之间的链接关系从所述候选关键词中选择一部分候选关键词作为下次的所述候选关键词提取步骤所用的检索词包括:在从所述候选关键词中选择一部分候选关键词作为下次的所述候选关键词提取步骤所用的检索词时,优先选择被更多检索词检索到的候选关键词作为下次的所述候选关键词提取步骤所用的检索词。
4.根据权利要求3所述的方法,其中,所述优先选择被更多检索词检索到的候选关键词作为下次的所述候选关键词提取步骤所用的检索词包括: 计算每个所述候选关键词C的词汇得分PR(C),PR(C) = {l-d) + d\++…+,其中,Si是检索所述候选关键词C所利用的第i个检索词,PR(Si)是检索词Si的词汇得分,O(Si)是利用所述检索词Si进行检索所产生的候选关键词的个数,其中,i = 1,2,……,n,d是阻尼系数;以及 所述候选关键词C的词汇得分PR(C)越高,越优先选择所述候选关键词C作为下次的所述候选关键词提取步骤所用的检索词。
5.根据权利要求3所述的方法,其中,所述优先选择被更多检索词检索到的候选关键词作为下次的所述候选关键词提取步骤所用的检索词包括: 计算每个所述候选关键词C的词汇得分PR (C),PR (C) = (l-d)+d (P(Sn) X PR (S1)+P (S2^c) XPR(S2)+~+P(Sn—c) XPR(Sn)), 其中,P(SiM)是通过检索词Si产生候选关键词C的概率,PR(Si)是检索词Si的词汇得分,其中,i = l,2,……n,d是阻尼系数, 苴中 P(iV "、J X?, Sim(()k, ( , ) X Pr ob{(,) + m 其中,Ok表示从所述图片中识别的关键词,Cf表示与Ok做计算的候选关键词,S’m(m)表示Ok与Cf之间的相似度,Pr婊示出现的概率, 所述候选关键词C的词汇得分PR(C)越高,越优先选择所述候选关键词C作为下次的所述候选关键词提取步骤所用的检索词。
6.根据权利要求2或5所述的方法,其中,根据从所述图片中识别的关键词和所述候选关键词的特征来计算所述相似度。
7.根据权利要求6所述的方法,其中,所述特征包括以下各项中的至少一项:从所述图片中识别的关键词的大小、所述候选关键词在相应文本中的位置、所述候选关键词和从所述图片中识别的关键词的公共子串、从所述图片中识别的关键词在所述图片中的几何距离、所述候选关键词在相应文本中的互信息、以及从所述图片中识别的关键词和所述候选关键词之间的编辑距离。
8.根据权利要求7所述的方法,其中,根据从所述图片中识别的关键词的置信度来计算所述编辑距离中的字符替换的代价。
9.根据权利要求1所述的方法,其中,所述候选关键词提取步骤包括: 对通过所述检索词搜索到的网页和所述图片的识别结果进行文本匹配; 根据文本匹配结果从搜索到的网页中选择与所述图片相关的主题网页;以及 从所述主题网页中提取所述候选关键词。
10.一种挖掘图片中的主题关键词的设备,包括: 初始检索词识别模块,被配置用于识别所述图片中的关键词作为初始的检索词;候选关键词提取模块,被配置用于利用所述检索词搜索与所述图片相关的主题网页以从中提取候选关键词; 检索词选择模块,被配置用于根据所述候选关键词和搜索所述候选关键词所用的检索词之间的链接关系,从所述候选关键词中选择一部分候选关键词作为所述候选关键词提取模块下次搜索所述候选关键词`所用的检索词;以及 控制模块,被配置用于控制所述候选关键词提取模块和所述检索词选择模块循环操作直到满足预定条件。
【文档编号】G06F17/30GK103544186SQ201210246688
【公开日】2014年1月29日 申请日期:2012年7月16日 优先权日:2012年7月16日
【发明者】孙健, 夏迎炬, 潘屹峰, 葛付江, 杨宇航, 张明明, 陈思源, 何源, 孙俊, 于浩 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1