数据处理方法和数据处理设备的制作方法

文档序号:6486439阅读:111来源:国知局
数据处理方法和数据处理设备的制作方法
【专利摘要】公开了一种数据处理方法和设备,该方法包括:微博搜索步骤,在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理步骤,对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取步骤,基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。
【专利说明】数据处理方法和数据处理设备
【技术领域】
[0001]本发明涉及一种数据处理方法和数据处理设备,更具体地,涉及一种用于确定微博与给定实体的相关性的数据处理方法和数据处理设备。
【背景技术】
[0002]微博(例如,推特、搜狐微博、腾讯微博和新浪微博等)作为一种社交媒体,迅速地赢得了世界范围的欢迎。如何管理与微博有关的信息以掌握人们对相关实体的反馈和评论等已受到广泛关注,而关键的问题之一即是获得与所关注实体(例如,产品、企业以及特定事件等)相关的微博信息。
[0003]获得与所关注实体有关的微博信息将面临以下问题:微博和实体都包含很少信息。微博不同于传统的由用户所生成的媒体,它仅允许用户生成不超过140个字符的消息。因此,监控和分析这些消息具有一定难度。此外,实体名称可能是模糊的,例如,苹果公司的名称Apple也可以表示水果苹果。亚马逊公司的名称Amazon也可以表示亚马逊河。因此,这使得微博信息与实体之间的匹配变得困难,因而希望能够通过挖掘上网络上与该实体相关的信息来丰富实体的相关信息。

【发明内容】

[0004]在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。
[0005]因此,鉴于上述情形,本发明的目的是提供一种数据处理方法和数据处理设备,其能够通过挖掘网络上与实体相关的信息来扩展实体方面的信息,从而有助于微博信息与实体之间的匹配,并且还能够通过半监督方式,分别从两个视角建立两个分类器,增强对微博信息的整体分类性能,从而更准确地确定微博与给定实体之间的相关性。
[0006]根据本发明的实施例的第一方面,提供了一种数据处理方法,其可以包括:微博搜索步骤,用于在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理步骤,用于对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取步骤,用于基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,其中,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,并且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,用于利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。
[0007]根据本发明的优选实施例,相关性确定步骤可以进一步包括:标注子步骤,用于分别利用第一分类器和第二分类器对目标集合中的每条微博进行标注;种子添加子步骤,用于根据预定规则,将多条微博中的、第一分类器和/或所述第二分类器以高于预定阈值的置信度标注的微博作为新种子添加到预设的种子集合中,并相应地从目标集合移除该微博,其中预设的种子集合是预先标注好的多条微博的集合;训练子步骤,用于利用添加了新种子的种子集合,分别根据种子集合中的各条微博的第一关系特征和第二关系特征对第一分类器和所述第二分类器进行训练;迭代子步骤,用于利用添加了新种子的种子集合迭代执行标注子步骤、种子添加子步骤以及训练子步骤中的处理,直到达到预定指标为止;以及输出子步骤,用于基于最终的标注结果,输出表示多条微博中的各条微博与实体之间的相关性的结果。
[0008]根据本发明的另一优选实施例,在种子添加子步骤中,可以通过以下方式中的一种或多种而将微博添加到种子集合中:将第一分类器和第二分类器具有相同的标注结果的、并且第一分类器和第二分类器均以高于预定阈值的置信度标注的微博添加到种子集合中;以及将第一预定数量的、第一分类器以高于预定阈值的置信度标注的微博以及第二预定数量的、第二分类器以高于预定值的置信度标注的微博添加到种子集合中。
[0009]根据本发明的又一优选实施例,预定指标可以包括以下中的一种或多种:达到预定的迭代次数;目标集合中不存在分类置信度高于预定置信度阈值的微博;以及完成了对目标集合中的所有微博的标注。
[0010]根据本发明的再一优选实施例,当达到预定指标时,如果目标集合中还存在尚未被标注的微博,则在相关性确定步骤中可以以下述方式之一来确定未被标注的微博与给定实体之间的相关性:基于第一分类器和第二分类器之一的分类结果;以及基于第一分类器以及第二分类器对未被标注的微博的分类结果的分类置信度。
[0011]根据本发明的实施例的另一方面,还提供了一种数据处理设备,其可以包括:微博搜索单元,被配置成在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理单元,被配置成对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取单元,被配置成基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,其中,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,并且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定单元,被配置成利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。
[0012]另外,根据本发明的实施例的另一方面,还提供了一种终端设备,该终端设备包括上述数据处理设备。这种终端设备例如包括移动电话、掌上电脑、平板电脑、个人计算机,等
坐寸O
[0013]另外,根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本发明的数据处理方法。
[0014]此外,根据本发明的实施例的再一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本发明的数据处理方法。
[0015]因此,根据本发明的实施例,能够提高数据处理效率,有利于快速准确地找到与给定实体相关的微博信息。
[0016]在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。
【专利附图】

【附图说明】
[0017]本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。其中:
[0018]图1是示出根据本发明的实施例的数据处理方法的流程图;
[0019]图2是详细示出图1所示的关系特征获取步骤中的处理的流程图;
[0020]图3是示出具有百科全书属性的网页的示意图,该网页用于消除词汇的歧义;
[0021]图4是详细示出图1所示的相关性确定步骤中的处理的流程图;
[0022]图5是示出根据本发明的实施例的数据处理设备的示例性功能配置的框图;
[0023]图6是详细示出图5所示的关系特征获取单元的示例性功能配置的框图;
[0024]图7是详细示出图5所示的相关性确定单元的示例性功能配置的框图;以及
[0025]图8是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。
【具体实施方式】
[0026]在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0027]在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其它细节。
[0028]以下将参照图1至图8来描述根据本发明的实施例的数据处理方法和数据处理设备。
[0029]首先,将参照图1描述根据本发明的实施例的数据处理方法。该数据处理方法可以包括:微博搜索步骤S101、预处理步骤S102、关系特征获取步骤S103以及相关性确定步骤 S104。
[0030]在微博搜索步骤SlOl中,可以在搜索引擎(诸如新浪微博等的搜索栏)中输入给定实体(例如,可以为人、事件、公司等)的名称,以获取与给定实体的名称相关的多条微博作为目标集合,该目标集合即为要确定其与给定实体的相关性的微博集合。
[0031]接下来,在预处理步骤S102中,可以对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息。提取微博正文信息的方法是本领域公知的技术,在此不再赘述。
[0032]然后,在关系特征确定步骤S103中,可以基于在步骤S102中所获取的正文信息,获取所提取的多条微博中的各条微博的第一关系特征和第二关系特征,其中,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,并且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系。
[0033]优选地,直接相关网页信息是指与给定实体直接相关的网页的信息,例如可以包括但不限于给定实体的主页信息以及具有百科全书属性的网页中包含的与给定实体相关联的页面信息(例如,维基百科等中包含的关于该实体的介绍页面信息)。间接相关网页信息是指与给定实体间接相关的网页的信息,例如可以包括但不限于链接到给定实体的主页的链接网页的信息以及与给定实体相关的同类实体的网页信息。具体地,例如,利用诸如Google等的搜索引擎,利用与给定实体对应的URL (统一资源定位符)构造搜索关键词,通过Link、related Link查找功能,获取检索返回结果中的预定数量(例如为排序靠前的200个网页)的网页信息作为给定实体的间接相关网页信息。例如,对于与给定实体相关的同类实体的网页信息,以苹果公司为例,通过构造URL “http://www.google, com/search?q=related:http://www.apple, com” ,可以获得与苹果公司类似的企业,如戴尔公司(Dell)、惠普公司(HP)和微软公司(Microsoft)等的网页信息。应理解,这些信息均是为了解决实体名称信息不足问题而进行的信息扩展。
[0034]以下将参照图2详细描述关系特征获取步骤S103的处理流程。如图2所示,关系特征获取步骤S103可以包括微博相关特征提取子步骤S201、实体相关特征提取子步骤S202以及关系特征确定子步骤S203。
[0035]首先,在微博相关特征提取子步骤S201中,可以从所获取的多条微博的各条微博的正文信息提取微博相关特征。可以利用本领域公知的任何适当的方法(例如,分词、停用词过滤等)来提取微博的相关特征并以适当的方式来表示微博。
`[0036]接着,在实体相关特征提取子步骤S202中,可以从给定实体的直接相关网页信息提取实体的第一实体特征并且从给定实体的间接相关网页信息提取实体的第二实体特征。
[0037]具体地,可以从上述给定实体的直接相关网页和间接相关网页中的至少一个页面中提取与给定实体相关联的词语作为特征。由于实体的名称通常包括很少的词汇,并且有些实体的名称可能有歧义,例如Apple、Amazon等,因此通过引入外部资源可以获得关于实体的更多信息。
[0038]例如,可以从给定实体的实体主页中提取与给定实体相关联的词语作为第一实体特征。可以根据每个实体的URL来查找实体主页。实体主页中的词语通常与该实体更相关并且更能表示该实体,从实体主页中选择词语来表示该实体,其中不包括无用词。然而,一些实体的网页是用Java Script创建的,甚至是用Flash创建的,因而目前为止难以从这些网页提取文本信息。
[0039]此外,可以从具有百科全书属性的网页(例如,图3所示的网页)中提取与给定实体相关联的词语作为第一实体特征。具有百科全书属性的网页的一个示例是维基百科(Wikipedia)网页。为了获得更高质量的实体信息,并克服相关主页的丢失问题,可以利用例如维基百科消除多义性页。例如,如果给定实体的名称有歧义,则可以从具有网络百科全书属性的网页查询候选相关页面。然后,可以对候选相关页面进行分析以确定候选相关页面中是否含有给定实体的实体主页的URL信息。如果候选相关页面中含有给定实体的实体主页的URL信息,则可以认为该候选相关页面确实与给定实体相关联,然后提取该主页中的词语作为与该实体相关的特征。
[0040]图3是示例性地示出具有百科全书属性的网页的示意图,该网页用于消除词汇的歧义。如图3中所示,例如,在网页中输入Linux,可以获得对Linux的一些解释,通过这些解释可以消除Linux的歧义。
[0041]此外,可以从通过搜索引擎而挖掘到的指向给定实体的页面或与给定实体相关的同类别实体的页面(即,与给定实体间接相关的网页)提取与给定实体相关联的词语作为第二实体特征。这些页面中的信息在一定程度上给出潜在的语义信息。
[0042]优选地,可以从上述两类页面中分别提取例如以下特征作为第一实体特征和第二实体特征:URL,网页中的URL是很强的指示器,如果微博与网页包含相同URL,则该微博更可能与该实体相关;元数据,HTML (超文本标记语言)页中的元标签提供用来表示其网页的高质量关键词,因此如果网页具有元数据,则它们是用来表示该实体的良好特征;以及大写词语,大写词语更可能是重要的词语或命名实体。应理解,这些特征仅是表示给定实体的示例性特征,并且可以提取更多的其它特征作为表示给定实体的相关特征。
[0043]对应于用于 实体的上述特征,可以在上述微博相关特征提取子步骤S201中从所获取的多条微博提取unigrams (即一元词信息)、bigrams (即二元词信息)、大写词语以及URL等作为微博相关特征。以“西安交通大学”为例,在unigram的情况下,“西安交通大学”将被表示为西/安/交/通/大/学,而在bigram的情况下,“西安交通大学”将被表示为西安/安交/交通/通大/大学。
[0044]接下来,在关系特征确定子步骤S203中,可以基于所提取的微博相关特征和所提取的第一实体特征来确定第一关系特征,并且基于所提取的微博相关特征和所提取的第二实体特征来确定第二关系特征。作为示例,第一关系特征和第二关系特征均可以以下面表达式(I)来表示:
[0045]
【权利要求】
1.一种数据处理方法,包括: 微博搜索步骤,用于在搜索引擎中输入给定实体的名称,以获取与所述名称相关的多条微博作为目标集合; 预处理步骤,用于对所获取的多条微博中的每条微博进行预处理,以获取与所述多条微博中的每条微博相关的正文信息; 关系特征获取步骤,用于基于所获取的正文信息,获取所述多条微博中的各条微博的第一关系特征和第二关系特征,其中,所述第一关系特征表示微博与所述给定实体的直接相关网页信息之间的关系,并且所述第二关系特征表示微博与所述给定实体的间接相关网页信息之间的关系;以及 相关性确定步骤,用于利用第一分类器和第二分类器,分别根据所述第一关系特征和所述第二关系特征,基于共同训练方式来确定所述多条微博中的各条微博与所述给定实体之间的相关性。
2.根据权利要求1所述的数据处理方法,其中,所述相关性确定步骤进一步包括: 标注子步骤,用于分别利用所述第一分类器和所述第二分类器对所述目标集合中的每条微博进行标注; 种子添加子步骤,用于根据预定规则,将所述多条微博中的、所述第一分类器和/或所述第二分类器以高于预定阈值的置信度标注的微博作为新种子添加到预设的种子集合中,并相应地从所述目标集合移除该微博,其中所述预设的种子集合是预先标注好的多条微博的集合; 训练子步骤,用于利用添加了所述新种子的种子集合,分别根据所述种子集合中的各条微博的第一关系特征和第二关系特征对所述第一分类器和所述第二分类器进行训练;迭代子步骤,用于利用添加了所述新种子的种子集合迭代执行所述标注子步骤、所述种子添加子步骤以及所述训练子步骤中的处理,直到达到预定指标为止;以及 输出子步骤,用于基于最终的标注结果,输出表示所述多条微博中的各条微博与所述实体之间的相关性的结果。
3.根据权利要求2所述的数据处理方法,其中,在所述种子添加子步骤中,通过以下方式中的一种或多种而将微博添加到所述种子集合中: 将所述第一分类器和所述第二分类器具有相同的标注结果的、并且所述第一分类器和所述第二分类器均以高于预定阈值的置信度标注的微博添加到所述种子集合中;以及将第一预定数量的、所述第一分类器以高于预定阈值的置信度标注的微博以及第二预定数量的、所述第二分类器以高于预定值的置信度标注的微博添加到所述种子集合中。
4.根据权利要求2所述的数据处理方法,其中,当达到所述预定指标时,如果所述目标集合中还存在尚未被标注的微博,则在所述相关性确定步骤中以下述方式之一来确定所述未被标注的微博与所述给定实体之间的相关性: 基于所述第一分类器和所述第二分类器之一的分类结果;以及基于所述第一分类器以及所述第二分类器对所述未被标注的微博的分类结果的分类置信度。
5.一种数据处理设备,包括: 微博搜索单元,被配置成在搜索引擎中输入给定实体的名称,以获取与所述名称相关的多条微博作为目标集合; 预处理单元,被配置成对所获取的多条微博中的每条微博进行预处理,以获取与所述多条微博中的每条微博相关的正文信息; 关系特征获取单元,被配置成基于所获取的正文信息,获取所述多条微博中的各条微博的第一关系特征和第二关系特征,其中,所述第一关系特征表示微博与所述给定实体的直接相关网页信息之间的关系,并且所述第二关系特征表示微博与所述给定实体的间接相关网页信息之间的关系;以及 相关性确定单元,被配置成利用第一分类器和第二分类器,分别根据所述第一关系特征和所述第二关系特征,基于共同训练方式来确定所述多条微博中的各条微博与所述给定实体之间的相关性。
6.根据权利要求5所述的数据处理设备,其中,所述相关性确定单元进一步包括: 标注子单元,被配置成分别利用所述第一分类器和所述第二分类器对所述目标集合中的每条微博进行标注; 种子添加子单元,被配置成根据预定规则,将所述多条微博中的、所述第一分类器和/或所述第二分类器以高于预定阈值的置信度标注的微博作为新种子添加到预设的种子集合中,并相应地从所述目标集合移除该微博,其中所述预设的种子集合是预先标注好的多条微博的集合; 训练子单元,被配置成利用添加了所述新种子的种子集合,分别根据所述种子集合中的各条微博的第一关系特征和第二关系特征对所述第一分类器和所述第二分类器进行训练;` 迭代子单元,被配置成控制所述标注子单元、所述种子添加子单元以及所述训练子单元利用添加了所述新种子的种子集合迭代执行各自的处理,直到达到预定指标为止;以及输出子单元,被配置成基于最终的标注结果,输出表示所述多条微博中的各条微博与所述实体之间的相关性的结果。
7.根据权利要求6所述的数据处理设备,其中,所述种子添加子单元被配置成通过以下方式中的一种或多种而将微博添加到所述种子集合中: 将所述第一分类器和所述第二分类器具有相同的标注结果的、并且所述第一分类器和所述第二分类器均以高于预定阈值的置信度标注的微博添加到所述种子集合中;以及将第一预定数量的、所述第一分类器以高于预定阈值的置信度标注的微博以及第二预定数量的、所述第二分类器以高于预定值的置信度标注的微博添加到所述种子集合中。
8.根据权利要求6所述的数据处理设备,其中,所述预定指标包括以下中的一种或多种:达到预定的迭代次数;所述目标集合中不存在分类置信度高于预定置信度阈值的微博;以及完成了对所述目标集合中的所有微博的标注。
9.根据权利要求6所述的数据处理设备,其中,当达到所述预定指标时,如果所述目标集合中还存在尚未被标注的微博,则所述相关性确定单元被配置成以下述方式之一来确定所述未被标注的微博与所述给定实体之间的相关性: 基于所述第一分类器和所述第二分类器之一的分类结果;以及基于所述第一分类器以及所述第二分类器对所述未被标注的微博的分类结果的分类置信度。
10.一种终端设备`,包括根据权利要求5-9中任一项所述的数据处理设备。
【文档编号】G06F17/30GK103514192SQ201210212254
【公开日】2014年1月15日 申请日期:2012年6月21日 优先权日:2012年6月21日
【发明者】张姝, 孟遥, 夏迎炬, 于浩 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1