数据处理方法和设备的制作方法

文档序号:6487126阅读:127来源:国知局
数据处理方法和设备的制作方法
【专利摘要】本发明公开了一种数据处理方法和设备,该方法包括:图片识别步骤,用于从图片识别关键词作为初始的检索词;网页和候选关键词获取步骤,用于在搜索引擎中利用检索词进行搜索来获取网页并从网页中挖掘候选关键词;评级步骤,用于基于检索词和/或候选关键词与网页之间的链接关系,对检索词和/或候选关键词以及网页进行评级;以及检索词选择步骤,用于基于评级结果从候选关键词中选择网页和候选关键词获取步骤中下次所用的检索词,重复执行网页和候选关键词获取步骤、评级步骤和检索词选择步骤,直到满足预定条件。根据本发明实施例,可以提高数据处理效率,更准确地从图片挖掘主题关键词和主题网页,从而有利于向用户进行后续的扩展应用和服务推荐。
【专利说明】数据处理方法和设备
【技术领域】
[0001]本发明涉及一种数据处理方法和设备,更具体地,涉及一种用于从图片挖掘主题关键词和主题网页的方法和设备。
【背景技术】
[0002]图片中的文字往往对了解该图片的内容非常重要。例如,广告图片中文本信息对客户了解广告内容具有重要作用。利用字符识别(例如,OCR (光学字符识别))的结果和网络信息可以更加全面地提取广告的文本内容,通过挖掘这些信息并提取广告的主题(包括主题词和主题网页),将向客户推荐其扩展应用或服务。
[0003]由于字符识别技术不能锁定代表图片(例如,广告图片)主题的关键词,所以借助互联网大量的文本信息,验证并提取广告图像中的文本。使用字符识别结果中的关键词进行检索,文本聚类和匹配等数据挖掘手段,可获取和广告相关的主题网页(检索的网页和广告本身都表达一个内容)。然而由于字符识别结果的具有一定不完整性或不正确性,导致部分关键词检索出的网页可能具有发散性,生成噪音数据,而且如果关键词搜索的网页发散,其输入的关键词的正确识别结果将被丢弃,不能召回。
[0004]因此,需要一种能够解决上述问题的技术。

【发明内容】

[0005]在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。
[0006]因此,鉴于上述情形,本发明的目的是提供一种数据处理方法和设备,其能够通过利用网络挖掘所获得的网页对图片的识别结果进行校验,将校验产生的候选词再次作为检索词进行网络检索和网络挖掘,并根据检索词与网页之间的链接关系来进一步挖掘与图片的主题关键词和主题网页。
[0007]根据本发明的实施例的一方面,提供了一种数据处理方法,其包括:图片识别步骤,用于从图片识别关键词作为初始的检索词;网页和候选关键词获取步骤,用于在搜索引擎中利用检索词进行搜索来获取网页,并从网页中挖掘候选关键词;评级步骤,用于基于检索词和/或候选关键词与网页之间的链接关系,对检索词和/或候选关键词以及网页进行评级;以及检索词选择步骤,用于基于评级结果从候选关键词中选择网页和候选关键词获取中下次所用的检索词,其中,重复执行网页和候选关键词获取步骤、评级步骤和检索词选择步骤,直到满足预定条件为止。
[0008]根据本发明的优选实施例,在评级步骤中,还可以基于检索词和/或候选关键词以及网页与图片识别结果之间的相似度来对检索词和/或候选关键词以及所述网页进行评级。[0009]根据本发明的另一优选实施例,在评级步骤中,基于检索词和/或候选关键词与网页之间的链接关系、以及检索词和/或候选关键词以及网页与图片识别结果之间的相似度,分别计算检索词和/或候选关键词以及网页的指向性级别和被指向性级别,并且基于指向性级别和被指向性级别中的至少一个对检索词和/或候选关键词以及网页进行评级。
[0010]根据本发明的另一优选实施例,该数据处理方法还可以包括:评分步骤,用于在达到预定条件的情况下,基于指向性级别、被指向性级别以及这两种级别的加权组合中的一种或多种,对检索词和/或候选关键词以及网页进行评分;以及输出步骤,基于评分结果,分别输出满足预定标准的检索词和/或候选关键词以及网页作为主题关键词和主题网页。
[0011]根据本发明的另一优选实施例,在网页和候选关键词获取步骤中,还可以进一步将网页与图片识别结果进行比较来筛选网页。
[0012]根据本发明的实施例的另一方面,还公开了一种数据处理设备,其包括:图片识别单元,被配置成从图片识别关键词作为初始的检索词;网页和候选关键词获取单元,被配置成在搜索引擎中利用检索词进行搜索来获取网页,并从网页中挖掘候选关键词;评级单元,被配置成基于检索词和/或候选关键词与网页之间的链接关系,对检索词和/或候选关键词以及网页进行评级;检索词选择单元,被配置成基于评级结果从候选关键词中选择网页和候选关键词获取单元下次所用的检索词;以及控制单元,被配置成控制网页和候选关键词获取单元、评级单元和检索词选择单元重复执行处理,直到满足预定条件为止。
[0013]另外,根据本发明的实施例的另一方面,还提供了一种终端设备,该终端设备包括上述数据处理设备。这种终端设备例如可以包括移动电话、掌上电脑、平板电脑、个人计算机7等等。
[0014]另外,根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本发明的数据处理方法。
[0015]此外,根据本发明的实施例的再一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本发明的数据处理方法。
[0016]因此,根据本发明的实施例,能够提高数据处理效率,更准确地从图片挖掘主题关键词和主题网页,从而有利于向用户进行后续的扩展应用和服务推荐。
[0017]在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。
【专利附图】

【附图说明】
[0018]本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。其中:
[0019]图1是示出根据本发明的一个实施例的数据处理方法的流程图;
[0020]图2是示出根据本发明的图片的示例;
[0021]图3是示出检索词和/或候选关键词与网页之间的链接关系的示意图;[0022]图4是示出根据本发明的另一实施例的数据处理设备的功能配置的框图;以及
[0023]图5是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。
【具体实施方式】
[0024]在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0025]在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其它细节。
[0026]以下将参照图1至5来详细描述根据本发明的实施例的数据处理方法和数据处理设备。
[0027]首先将参照图1来描述根据本发明的一个实施例的数据处理方法。如图1所示,该数据处理方法可以包括图片识别步骤S101、网页和候选关键词获取步骤S102、评级步骤S103、检索词选择步骤S104以及判断步骤S105。优选地,该数据处理方法还可以包括评分步骤S106以及输出步骤S107。接下来将详细描述各个步骤中的处理。
[0028]首先,在图片识别步骤SlOl中,可以从图片识别关键词作为初始的检索词。该图片例如可以为广告图片,并且例如可以采用OCR (光学字符识别)技术来从广告图片识别关键词作为初始的检索词。然而,应理解,字符识别方法不限于此,而可以采用任意适当的字符识别方法。图片可以是任意需要处理的图片,例如,广告图片、从视频中截取的图片或任意其他图片。
[0029]接下来,在网页和候选关键词获取步骤S102中,可以在搜索引擎中利用所获得的检索词进行搜索来获取网页,并且从网页挖掘候选关键词。从搜索到的网页挖掘候选关键词的方法是本领域公知的,在此不再赘述。
[0030]优选地,由于搜索引擎返回的网页的数量非常大并且其中可能存在许多与图片相关性较低的网页,因此在网页和候选关键词获取步骤S102中,还可以在挖掘候选关键词之前,将搜索到的网页与步骤SlOl中的图片识别结果进行比较,以初步对网页进行筛选,从而在一定程度上减少了数据处理量,提高了数据处理效率。
[0031 ] 在评级步骤S103中,可以基于所获取的检索词和/或候选关键词与网页之间的链接关系,对检索词和/或候选关键词以及网页进行评级。
[0032]优选地,在评级步骤S103中,还可以基于所获取的检索词和/或候选关键词以及网页与步骤SlOl中的图片识别结果之间的相似度进行评级。通过与图片识别结果进行匹配来进行评级,可以进一步提高处理的准确性。优选地,可以根据接下来描述的特定编辑距离公式并通过多项特征融合的方式来计算相似度。
[0033]相似度的计算涉及编辑距离以及多特征选择和融合。以下以从网页中挖掘的候选关键词为例来描述相似度的计算。
[0034]首先描述基于在图片中识别出的关键词的置信度的编辑距离计算方法。
[0035]因为字符识别算法可能不是完全准确,例如,字符识别出现错误、噪音等问题,所以可以采用编辑距离算法提取从图片中识别的关键词(即,初始的检索词或初始的检索词的一部分)。编辑距离的计算是以动态规划方式寻找当前最小编辑代价来实现的。编辑代价包括三种:增加一个字符所花费的代价,删除一个字符所花费的代价,以及替换一个字符所花费的代价。
[0036]在本发明的一个实施例中,对一般的编辑距离算法进行了改进。
[0037]由于字符识别的每个字符都具有置信度。置信度的值表示字符识别的准确率。置信度越高,说明字符识别越准确。因此,在本发明中,修改了编辑代价函数,即,将每个字符的替换函数变换成字符的置信度。
[0038]假设从图片中识别的关键词字符串为O=O1, O2,……,Om,候选关键词字符串为C=C1, C2,……,Cn,那么从字符串O到候选字符串C的编辑距离δ (O, C)如下:
[0039]δ (O, C) =min { Y ⑶ I S 为 O 到 C 的编辑序列}(I)
[0040]上述公式可递归定义如下:
【权利要求】
1.一种数据处理方法,包括: 图片识别步骤,用于从图片识别关键词作为初始的检索词; 网页和候选关键词获取步骤,用于在搜索引擎中利用所述检索词进行搜索来获取网页,并从所述网页中挖掘候选关键词; 评级步骤,用于基于所述检索词和/或所述候选关键词与所述网页之间的链接关系,对所述检索词和/或所述候选关键词以及所述网页进行评级;以及 检索词选择步骤,用于基于评级结果从所述候选关键词中选择所述网页和候选关键词步骤中下次所用的检索词, 其中,重复执行所述网页和候选关键词获取步骤、所述评级步骤和所述检索词选择步骤,直到满足预定条件为止。
2.根据权利要求1所述的方法,其中,在所述评级步骤中,还基于所述检索词和/或所述候选关键词以及所述网页与图片识别结果之间的相似度来对所述检索词和/或所述候选关键词以及所述网页进行评级。
3.根据权利要求2所述的方法,其中,在所述评级步骤中,基于所述检索词和/或所述候选关键词与所述网页之间的链接关系、以及所述检索词和/或所述候选关键词以及所述网页与图片识别结果之间的相似度,分别计算所述检索词和/或所述候选关键词以及所述网页的指向性级别和被指向性级别,并且基于所述指向性级别和所述被指向性级别中的至少一个对所述检索词和/或所述候选关键词以及所述网页进行评级。
4.根据权利要求3所述的方法,还包括: 评分步骤,用于在达到所述预定条件的情况下,基于所述指向性级别、所述被指向性级别以及这两种级别的加权组合中的一种或多种,对所述检索词和/或所述候选关键词以及所述网页进行评分;以及 输出步骤,基于评分结果,分别输出满足预定标准的检索词和/或候选关键词以及网页作为主题关键词和主题网页。
5.一种数据处理设备,包括: 图片识别单元,被配置成从图片识别关键词作为初始的检索词; 网页和候选关键词获取单元,被配置成在搜索引擎中利用所述检索词进行搜索来获取网页,并从所述网页中挖掘候选关键词; 评级单元,被配置成基于所述检索词和/或所述候选关键词与所述网页之间的链接关系,对所述检索词和/或所述候选关键词以及所述网页进行评级; 检索词选择单元,被配置成基于所述评级结果从所述候选关键词中选择所述网页和候选关键词获取单元下次所用的检索词;以及 控制单元,被配置成控制所述网页和候选关键词获取单元、所述评级单元和所述检索词选择单元重复执行处理,直到满足预定条件为止。
6.根据权利要求5所述的设备,其中,所述评级单元还被配置成基于所述检索词和/或所述候选关键词以及所述网页与图片识别结果之间的相似度来对所述检索词和/或所述候选关键词以及所述网页进行评级。
7.根据权利要求6所述的设备,其中,所述评级单元被配置成基于所述检索词和/或所述候选关键词与所述网页之间的链接关系、以及所述检索词和/或所述候选关键词以及所述网页与图片识别结果之间的相似度,分别计算所述检索词和/或所述候选关键词以及所述网页的指向性级别和被指向性级别,并且基于所述指向性级别和所述被指向性级别中的至少一个对所述检索词和/或所述候选关键词以及所述网页进行评级。
8.根据权利要求7所述的设备,还包括: 评分单元,被配置成在达到所述预定条件的情况下,基于所述指向性级别、所述被指向性级别以及这两种级别的加权组合中的一种或多种,对所述检索词和/或所述候选关键词以及所述网页进行评分;以及 输出单元,被配置成基于评分结果,分别输出满足预定标准的检索词和/或候选关键词以及网页作为主题关键词和主题网页。
9.根据权利要求5所述的设备,其中,所述网页和候选关键词获取单元被配置成进一步将所述网页与图片识别结果进行比较来筛选所述网页。
10.一种终端设备,·包括根据权利要求5-9中任一项所述的数据处理设备。
【文档编号】G06F17/30GK103577414SQ201210254434
【公开日】2014年2月12日 申请日期:2012年7月20日 优先权日:2012年7月20日
【发明者】孙健, 夏迎炬, 杨宇航, 张明明 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1