用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置的制造方法

文档序号:9829927阅读:281来源:国知局
用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置的制造方法
【专利说明】用于跟踪与通过关联的文本和图像可识别的实体相关的微博 消息的方法和装置
[0001 ]
[0002] 明涉及一种用于跟踪微博消息的方法和装置,其中所述微博消息与通过关联 的文本和图像可识别的实体相关。
[0003] 罝量
[0004] ??媒体平台[15,17],如推特?、脸书?或新浪微博?,已经成为普遍存在并且必 不可少的实时信息来源,具有广泛的用户及应用。消费者在社交媒体平台上发布与品牌相 关的信息时,通常会提供正面/负面的评论,而这些评论可能会通过整个社交网络迅速并且 广范围地传播。因此对这些评论的集体效应的认识和见解在了解品牌曝光度和消费者认同 度方面对企业和机构具有重要的社会和市场价值[8,12,20]。即使对于个人用户,这些见解 也能非常有用地帮助他们对感兴趣的品牌的产品做出购买决定。因此,针对在社交媒体流 中迅猛增加的生活资讯,需要开发用于数据采集和媒体内容分析的高效品牌跟踪技术[7]。
[0005] 因此,近年来,从社交媒体流中进行品牌跟踪已经开始吸引研究的关注[14,21], 这是不足为奇的。进行品牌跟踪的一个主要目的是从生活社交媒体流中采集品牌相关数 据。然而,由于社交媒体流的多个独特特性,品牌跟踪不是一个传统的搜索工作。首先,社交 媒体平台上的帖子本质上倾向于简短和会话式,因而其中使用的内容/词汇常常更新的很 快。特别地,传统基于关键词的数据抓取方法[2,4,13]受限于相关数据的覆盖程度。因此, 使用一个固定的关键词集已不能保证能采集到与实体(如品牌/产品)有关的一个充分具有 代表性的社交媒体数据集。第二,针对热门实体采集到的社交媒体数据的数量可能是庞大 的。例如,2013年采集到的超级碗大停电游戏每分钟有231,500篇推文,总计有2400万篇。第 三,微博内容本质上已经变得越来越多样化和多媒体化。最近的统计数据显示大约30%的 微博帖子包含图像(如,对来自新浪微博1的4亿件推文的研究显示,27%的推文包含图像), 并且大多数图像不包含相关文本注释(如,对新浪微博1的4亿件推文的另一项研究显示,仅 有约32%的推文有图像和具有兼容含义的关联文本)。因此,仅使用一个固定的关键词集可 能不足以采集相关数据。
[0006] 应指出的是,现有的解决方案趋于主要关注于查询扩展技术。Chen等人[2]介绍了 一种推文采集方法,其中同时应用关键词、候选话题和热门话题进行数据采集。Massoudi等 人[13]介绍了一种用于采集相关数据的话题扩展技术,其中通过进行查询扩展来生成目标 的动态话题。Massoudi还介绍了利用微博帖子的质量指标,即,转帖、粉丝和时效性,其中这 些指标被结合在一起,来评价一篇微博帖子的关联概率。同样,Weerkamp和De Rijke[23]提 出了一种用于采集微博帖子的可信度框架。Sakaki等人[18]提出了一种用于推特?的实时 事件信息采集,其中应用一个大的目标事件查询集来进行数据抓取。在B. O'Connor等人 [16]的帖子中,通过利用频繁的关键词和副主题,提出了一种命名为"TweetMotif"的探测 数据采集方法。Zhou等人[27]建议扩大个性化查询用于数据采集。除了目标,用户的注释和 资源也被考虑用于进行进一步的数据抓取。在演进特征图中规划了一个标签主题模型,以 探查从社交媒体流获得的文本数据。Leung等人[11]建议利用人类判断来生成语义索引。然 而,值得注意的是,以上所讨论的解决方案主要依赖于基于文本的技术,但是考虑到现代社 交媒体流的会话式和多模式性质,那些方法在相关数据的覆盖方面受到限制。
[0007] 因此,本发明的一个目的在于解决至少一个现有技术的问题和/或提供一个对本 领域有用的选择。
[0008] 根据本发明的第一方面,提供了一种用于跟踪微博消息的方法,其中所述微博消 息与通过关联的文本和关联的图像可识别的实体相关。所述方法,包括:(i)基于关联的文 本对微博消息进行搜索,以获得第一结果集,(ii)基于关联的图像,在所述第一结果集中进 行图像检测,以获得种子消息集,(iii)基于来源于所述种子消息的特征集,对微博消息进 行搜索,以获得第二结果集,和(iv)基于与所述实体的相关性,从所述第一结果集和第二结 果集中选择条目,其中所述特征集与所述实体有关。
[0009] 所提出的方法的优点在于:通过利用演变的关键字、社交因素(如用户、关系和位 置)和视觉内容,从发布在社交媒体平台上的微博消息中采集与所述实体(如品牌)相关/有 关的数据。因此,通过利用社交媒体内容数据的异质性,有益于采集更相关和更精确的数 据。此外,还利用噪声过滤,从返回的结果中过滤噪声数据。性能评价显示了所提出的方法 达到了比传统方法更好的性能。
[0010] 优选地,所述实体可能包括一个品牌或产品。
[0011]优选地,执行图像检测过程可能包括:(i)将从所述第一结果集中获得的每一个图 像划分为多个子窗口,和(ii)对所述多个子窗口进行滑动窗口搜索,以确定所述图像是否 对应于与实体关联的图像。
[0012] 优选地,所述特征集可能包括基于社交背景的数据和基于图像的数据。更进一步, 所述第二结果集可能包括根据所述基于社交背景的数据和所述基于图像的数据获得的相 应结果集。具体地,所述基于社交背景的数据可能包括与所述种子消息的作者有关的信息, 与所述种子消息或所述种子消息的作者关联的用户有关的信息,与对所述种子消息发表评 论的用户有关的信息,与对应的用户身份里具有关联文本的用户有关的信息,和与发布所 述种子消息的地理位置有关的信息。
[0013] 此外,优选地,对微博消息进行的搜索可能包括利用关联的文本进行的基于文本 的搜索。
[0014] 优选地,从所述第一和第二结果集中选择条目的过程,可能包括:(i )构建一个超 图来确定所述第一和第二结果集中的微博消息之间的相互关系,从而获得关联的相互关系 结果,(i i)根据所述相互关系结果,确定所述微博消息各自的分数,和(i i i)根据所述各自 的分数来排名所述微博消息。
[0015] 本发明的第二方面,提供了一种跟踪有关可被关联文本和图像识别的实体的微博 消息的装置。所述装置,包括:一个处理器模块,适用于根据所述关联文本搜索所述微博消 息,从而获得第一结果集,根据关联图像,在所述第一结果集中进行图像检测,从而获得一 个种子消息集,并且根据一个来源于所述种子消息的特征集搜索所述微博消息,从而获得 第二结果集;和一个选择模块,用于根据与所述实体的相关性,从所述第一和第二结果集中 选择条目,其中所述特征集与所述实体有关。
[0016] 显然,与本发明的其中一个方面有关的特征,也可以应用到本发明的其它方面。
[0017] 本发明的这些方面及其他方面,将参考下文中描述的实施例进行阐述并明了化。
[0018] 附图的简要说明
[0019] 将参考附图对本发明中的实施例进行说明:
[0020] 图1是根据一个实施例的一种用于跟踪与通过关联的文本和图像可识别的实体相 关的微博消息的方法的流程图;
[0021] 图2是详细说明图1中的步骤的流程图;
[0022] 图3示出在图1方法中使用的一种图像检测方法,用于在微博消息中检测与实体有 关的图像;
[0023]图4包括图4a和图4b,其分别为图3中的图像检测方法的训练过程和检测过程的流 程图;
[0024]图5包括图5a和图5b,示出图1的方法所采用的扩展数据采集的示例,分别通过利 用关键用户和利用已知位置的社交背景;
[0025] 图6示出利用视觉内容进行图1的方法的扩展数据采集的示例;
[0026] 图7示出在图1方法中所使用的一种噪声数据过滤方法的图形化概览;
[0027] 图8示出一个采集到的候选微博的聚合集,将要通过图7中的噪声去除方法对其进 行处理;
[0028] 图9是图7中的噪声数据过滤方法的流程图;
[0029] 图10包括图10a和图10b,其分别描述了通过基于文本的超边和基于视觉的超边构 建的微博超图的例子;
[0030] 图11示出用于评价图1方法的品牌-社交-网络数据集;
[0031] 图12包括图12a至图12c,描述了在图11中的品牌-社交-网络数据集中收集的品 牌/广品的分布指标;
[0032] 图13示出导致生成在图11中的品牌-社交-网络数据集中收集的品牌/产品的数据 的事件细节;
[0033] 图14是对所评价的不同数据采集方法的数据覆盖率结果进行比较的表;
[0034] 图15包括图15a和图15b,其描述了所评价的数据采集方法的性能结果。
[0035] 优选实施例的详细描述
[0036] 1.社交媒体流中的品牌数据采集
[0037] 根据图1的流程图所示的实施例,公开了一种用于跟踪与通过关联的文本和图像 可识别的实体相关的微博消息/帖子的方法1〇〇。图2是详细说明图1的特定步骤的另一流程 图。在此阐明,所述微博消息/帖子从社交媒体流(如新浪微博?)中接收。为简洁起见,所述 微博消息/帖子在下文中被称为微博,但不能被解释为限制。实体的一个例子是消费者/机 构特别感兴趣的目标品牌(即B),下文中将参考所述目标品牌来说明所述方法100,但是同 样在任何方面都不能被解释为限制(例如,所述实体也可能是一个产品)。
[0038] 如图1所示,所述方法100包括四个连续的阶段,即基于文本特征采集数据阶段102 (下文中称为数据采集阶段),种子提取和分析阶段1〇4(下文中称为种子采集阶段),扩展数 据采集阶段106,和噪声数据过滤阶段108(下文中称为噪声过滤阶段)。参照图2,所述数据 采集阶段102包括:首先在步骤202中,采集与所述目标品牌有关的特定查询关键词,其次在 步骤204中,利用所述采集到的关键词搜索指定的微博数据集(即目标集),从而获得一个基 于文本的结果(即A#)。应理解的是,所述目标集包含从不同的社交媒体流获得并采集到的 微博。因此,所述数据采集阶段102,被安排来执行基于文本的搜索,以获得所述基于文本的 结果身匕利用所述基于文本的结果、,在下一步步骤206中,通过检测与所述目标品牌有关 的图像(如标识),生成一个微博种子集(即种子微博),即所述种子采集阶段104。在下文中, 所述种子集和种子微博将可互换地被称呼使用。具体地,在步骤206中,对与所述目标品牌 有关的文本和视觉内容都进行了分析,以获得从文本和视觉角度都相关的种子微博。因此, 所述种子微博被认为与所述目标品牌高度相关,因此可用于通过所述目标品牌的社交背景 (例如活跃用户和已知位置)和视觉背景搜索更多的相关数据。以与所述社交背景和视觉背 景有关的数据为基础,在步骤208(即所述"扩展数据采集"阶段106)中,进一步对所述目标 集进行扩展数据搜索,以获得一个基于社交背景的结果集(即Af ; )和一个基于视觉内容的 结果集(即、/ν·Γ)。所述基于文本的结果、,基于社交背景的结果和基于视觉内容的结果 Λ_·Γ:被一并表示为与所述目标品牌有关的候选
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1