用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置的制造方法

文档序号：9829927阅读：281来源：国知局

用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置的制造方法
【专利说明】用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置
[0001 ]
[0002] 明涉及一种用于跟踪微博消息的方法和装置，其中所述微博消息与通过关联的文本和图像可识别的实体相关。
[0003] 罝量
[0004] ??媒体平台[15,17]，如推特?、脸书?或新浪微博?，已经成为普遍存在并且必不可少的实时信息来源，具有广泛的用户及应用。消费者在社交媒体平台上发布与品牌相关的信息时，通常会提供正面/负面的评论，而这些评论可能会通过整个社交网络迅速并且广范围地传播。因此对这些评论的集体效应的认识和见解在了解品牌曝光度和消费者认同度方面对企业和机构具有重要的社会和市场价值[8，12，20]。即使对于个人用户，这些见解也能非常有用地帮助他们对感兴趣的品牌的产品做出购买决定。因此，针对在社交媒体流中迅猛增加的生活资讯，需要开发用于数据采集和媒体内容分析的高效品牌跟踪技术[7]。
[0005] 因此，近年来，从社交媒体流中进行品牌跟踪已经开始吸引研究的关注[14,21]，这是不足为奇的。进行品牌跟踪的一个主要目的是从生活社交媒体流中采集品牌相关数据。然而，由于社交媒体流的多个独特特性，品牌跟踪不是一个传统的搜索工作。首先，社交媒体平台上的帖子本质上倾向于简短和会话式，因而其中使用的内容/词汇常常更新的很快。特别地，传统基于关键词的数据抓取方法[2,4,13]受限于相关数据的覆盖程度。因此，使用一个固定的关键词集已不能保证能采集到与实体(如品牌/产品)有关的一个充分具有代表性的社交媒体数据集。第二，针对热门实体采集到的社交媒体数据的数量可能是庞大的。例如，2013年采集到的超级碗大停电游戏每分钟有231，500篇推文，总计有2400万篇。第三，微博内容本质上已经变得越来越多样化和多媒体化。最近的统计数据显示大约30%的微博帖子包含图像(如，对来自新浪微博1的4亿件推文的研究显示，27%的推文包含图像），并且大多数图像不包含相关文本注释(如，对新浪微博1的4亿件推文的另一项研究显示，仅有约32%的推文有图像和具有兼容含义的关联文本）。因此，仅使用一个固定的关键词集可能不足以采集相关数据。
[0006] 应指出的是，现有的解决方案趋于主要关注于查询扩展技术。Chen等人[2]介绍了一种推文采集方法，其中同时应用关键词、候选话题和热门话题进行数据采集。Massoudi等人[13]介绍了一种用于采集相关数据的话题扩展技术，其中通过进行查询扩展来生成目标的动态话题。Massoudi还介绍了利用微博帖子的质量指标，即，转帖、粉丝和时效性，其中这些指标被结合在一起，来评价一篇微博帖子的关联概率。同样，Weerkamp和De Rijke[23]提出了一种用于采集微博帖子的可信度框架。Sakaki等人[18]提出了一种用于推特?的实时事件信息采集，其中应用一个大的目标事件查询集来进行数据抓取。在B. O'Connor等人 [16]的帖子中，通过利用频繁的关键词和副主题，提出了一种命名为"TweetMotif"的探测数据采集方法。Zhou等人[27]建议扩大个性化查询用于数据采集。除了目标，用户的注释和资源也被考虑用于进行进一步的数据抓取。在演进特征图中规划了一个标签主题模型，以探查从社交媒体流获得的文本数据。Leung等人[11]建议利用人类判断来生成语义索引。然而，值得注意的是，以上所讨论的解决方案主要依赖于基于文本的技术，但是考虑到现代社交媒体流的会话式和多模式性质，那些方法在相关数据的覆盖方面受到限制。
[0007] 因此，本发明的一个目的在于解决至少一个现有技术的问题和/或提供一个对本领域有用的选择。
[0008] 根据本发明的第一方面，提供了一种用于跟踪微博消息的方法，其中所述微博消息与通过关联的文本和关联的图像可识别的实体相关。所述方法，包括：（i)基于关联的文本对微博消息进行搜索，以获得第一结果集，（ii)基于关联的图像，在所述第一结果集中进行图像检测，以获得种子消息集，（iii)基于来源于所述种子消息的特征集，对微博消息进行搜索，以获得第二结果集，和（iv)基于与所述实体的相关性，从所述第一结果集和第二结果集中选择条目，其中所述特征集与所述实体有关。
[0009] 所提出的方法的优点在于:通过利用演变的关键字、社交因素（如用户、关系和位置)和视觉内容，从发布在社交媒体平台上的微博消息中采集与所述实体(如品牌)相关/有关的数据。因此，通过利用社交媒体内容数据的异质性，有益于采集更相关和更精确的数据。此外，还利用噪声过滤，从返回的结果中过滤噪声数据。性能评价显示了所提出的方法达到了比传统方法更好的性能。
[0010] 优选地，所述实体可能包括一个品牌或产品。
[0011]优选地，执行图像检测过程可能包括：（i)将从所述第一结果集中获得的每一个图像划分为多个子窗口，和（ii)对所述多个子窗口进行滑动窗口搜索，以确定所述图像是否对应于与实体关联的图像。
[0012] 优选地，所述特征集可能包括基于社交背景的数据和基于图像的数据。更进一步，所述第二结果集可能包括根据所述基于社交背景的数据和所述基于图像的数据获得的相应结果集。具体地，所述基于社交背景的数据可能包括与所述种子消息的作者有关的信息，与所述种子消息或所述种子消息的作者关联的用户有关的信息，与对所述种子消息发表评论的用户有关的信息，与对应的用户身份里具有关联文本的用户有关的信息，和与发布所述种子消息的地理位置有关的信息。
[0013] 此外，优选地，对微博消息进行的搜索可能包括利用关联的文本进行的基于文本的搜索。
[0014] 优选地，从所述第一和第二结果集中选择条目的过程，可能包括：（i )构建一个超图来确定所述第一和第二结果集中的微博消息之间的相互关系，从而获得关联的相互关系结果，（i i)根据所述相互关系结果，确定所述微博消息各自的分数，和（i i i)根据所述各自的分数来排名所述微博消息。
[0015] 本发明的第二方面，提供了一种跟踪有关可被关联文本和图像识别的实体的微博消息的装置。所述装置，包括:一个处理器模块，适用于根据所述关联文本搜索所述微博消息，从而获得第一结果集，根据关联图像，在所述第一结果集中进行图像检测，从而获得一个种子消息集，并且根据一个来源于所述种子消息的特征集搜索所述微博消息，从而获得第二结果集;和一个选择模块，用于根据与所述实体的相关性，从所述第一和第二结果集中选择条目，其中所述特征集与所述实体有关。
[0016] 显然，与本发明的其中一个方面有关的特征，也可以应用到本发明的其它方面。
[0017] 本发明的这些方面及其他方面，将参考下文中描述的实施例进行阐述并明了化。
[0018] 附图的简要说明
[0019] 将参考附图对本发明中的实施例进行说明：
[0020] 图1是根据一个实施例的一种用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法的流程图；
[0021] 图2是详细说明图1中的步骤的流程图；
[0022] 图3示出在图1方法中使用的一种图像检测方法，用于在微博消息中检测与实体有关的图像；
[0023]图4包括图4a和图4b，其分别为图3中的图像检测方法的训练过程和检测过程的流程图；
[0024]图5包括图5a和图5b，示出图1的方法所采用的扩展数据采集的示例，分别通过利用关键用户和利用已知位置的社交背景；
[0025] 图6示出利用视觉内容进行图1的方法的扩展数据采集的示例；
[0026] 图7示出在图1方法中所使用的一种噪声数据过滤方法的图形化概览；
[0027] 图8示出一个采集到的候选微博的聚合集，将要通过图7中的噪声去除方法对其进行处理；
[0028] 图9是图7中的噪声数据过滤方法的流程图；
[0029] 图10包括图10a和图10b，其分别描述了通过基于文本的超边和基于视觉的超边构建的微博超图的例子；
[0030] 图11示出用于评价图1方法的品牌-社交-网络数据集；
[0031] 图12包括图12a至图12c，描述了在图11中的品牌-社交-网络数据集中收集的品牌/广品的分布指标；
[0032] 图13示出导致生成在图11中的品牌-社交-网络数据集中收集的品牌/产品的数据的事件细节；
[0033] 图14是对所评价的不同数据采集方法的数据覆盖率结果进行比较的表；
[0034] 图15包括图15a和图15b，其描述了所评价的数据采集方法的性能结果。
[0035] 优选实施例的详细描述
[0036] 1.社交媒体流中的品牌数据采集
[0037] 根据图1的流程图所示的实施例，公开了一种用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息/帖子的方法1〇〇。图2是详细说明图1的特定步骤的另一流程图。在此阐明，所述微博消息/帖子从社交媒体流(如新浪微博?)中接收。为简洁起见，所述微博消息/帖子在下文中被称为微博，但不能被解释为限制。实体的一个例子是消费者/机构特别感兴趣的目标品牌（即B)，下文中将参考所述目标品牌来说明所述方法100,但是同样在任何方面都不能被解释为限制(例如，所述实体也可能是一个产品）。
[0038] 如图1所示，所述方法100包括四个连续的阶段，即基于文本特征采集数据阶段102 (下文中称为数据采集阶段），种子提取和分析阶段1〇4(下文中称为种子采集阶段），扩展数据采集阶段106,和噪声数据过滤阶段108(下文中称为噪声过滤阶段）。参照图2,所述数据采集阶段102包括:首先在步骤202中，采集与所述目标品牌有关的特定查询关键词，其次在步骤204中，利用所述采集到的关键词搜索指定的微博数据集(即目标集），从而获得一个基于文本的结果（即A#)。应理解的是，所述目标集包含从不同的社交媒体流获得并采集到的微博。因此，所述数据采集阶段102,被安排来执行基于文本的搜索，以获得所述基于文本的结果身匕利用所述基于文本的结果、，在下一步步骤206中，通过检测与所述目标品牌有关的图像(如标识），生成一个微博种子集（即种子微博），即所述种子采集阶段104。在下文中，所述种子集和种子微博将可互换地被称呼使用。具体地，在步骤206中，对与所述目标品牌有关的文本和视觉内容都进行了分析，以获得从文本和视觉角度都相关的种子微博。因此，所述种子微博被认为与所述目标品牌高度相关，因此可用于通过所述目标品牌的社交背景 (例如活跃用户和已知位置)和视觉背景搜索更多的相关数据。以与所述社交背景和视觉背景有关的数据为基础，在步骤208(即所述"扩展数据采集"阶段106)中，进一步对所述目标集进行扩展数据搜索，以获得一个基于社交背景的结果集（即Af ; )和一个基于视觉内容的结果集(即、/ν·Γ)。所述基于文本的结果、，基于社交背景的结果和基于视觉内容的结果 Λ_·Γ:被一并表示为与所述目标品牌有关的候选

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王芳林;高跃;栾焕博;蔡达成;
技术所有人：新加坡国立大学;
我是此专利的发明人

上一篇：与搜索栏相关联来提供信息的制作方法
上一篇：影像检索装置、影像检索方法以及存储介质的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。