社交媒体分析与输出的制作方法_2

文档序号：9620909阅读：来源：国知局

该系统包括识别模块2,该识别模块接收社交媒体对象的数据流1，并识别来自数据流1的相关社交媒体对象的子组3。该系统包括输出模块4,该输出模块可操作为将相关社交媒体对象3集成为能够作为新闻门户网站呈现给用户的输出格式。
[0037] 社交媒体对象的数据流1包括多数个社交媒体对象，例如微博，脸书状态、链接或用户在社交媒体平台上生成的任何其他内容。
[0038] 现在参考附图的图2,识别模块2可操作为通过最初从至少一个新闻网站5中提取信息，来识别数据流1中的相关社交媒体对象。识别模块2通过从每个新闻网站5中提取一篇或多篇文章6,来存储至少一篇内容文章。识别模块2将文章6分组为至少一个不同类另IJ，例如政治7、体育8或科技9。
[0039] 识别模块2包括关键短语提取模块10,该模块可操作为分析每个类别中的新闻文章，并提取至少一个关键词或关键短语（KW)。在一个实施方式中，该关键短语提取模块10 可操作为从每篇文章中提取命名的条目。在本发明的实施方式中，关键短语提取模块10 可操作为筛选出某些预定义关键词，例如文章作者的姓名或与新闻文章内容无关的其他信息。
[0040] 识别模块2包括关键词排名模块12,该模块接收由关键词提取模块10提取的关键词11。该关键词排名模块12使用指示提取的关键词11与新闻文章类别的相关性的重要性值，来对提取的关键词11排序。该排序采用本领域的技术人员熟悉的适合的排序方法（例如词频-逆向文件频率（TFIDF))进行实施。关键词排名模块12输出排序的关键词13。识别模块12包含查询公式模块14,该模块可接收排序的关键词13,并生成搜索查询。该搜索查询针对所提取的重要性值高于预定水平的关键词搜索社交媒体对象。该搜索查询因此识别数据流1中与排名的关键词13对应或者匹配的社交媒体对象。
[0041] 识别模块2将识别的社交媒体对象添加到相关社交媒体对象的子组中，并将匹配的社交媒体对象输出到输出模块4。该输出模块4以将社交媒体对象分组为多个新闻类别的新闻门户网站的形式输出相关社交媒体对象的子组。
[0042] 参见附图的图3,本发明的另一个实施方式包括更为保守的方法，来识别上文描述的实施方式中的相关社交媒体对象。图3的实施方式所应用的保守方法通过将可扩展过滤方法（scalablefilteringapproach)应用于社会媒体对象数据流，来得到更精确的结果。本实施方式更详细的描述如下。
[0043] 1.检索相关微博的初始组
[0044] 任何地理区域都有一组预定值，在此称为关键人物，这些关键人物预计将经常出现在新闻标题中。例如，"奥巴马"是美国政治中的关键人物。一组关键人物几乎是静态的，因为该组不随时间的推移而经常变化。因此，准备代表某一区域关键人物的准确的预定义查询列表以检索相关微博的初始组。查询可包括政客、政党、机构或其他人员或实体及其相对应的推特账户。
[0045] 根据该地区的变化，该组关键人物需要每几个月或每几年更新一次。需对查询进行精心设置以实现高度精准，避免检索到不相关的微博。例如，将查询项"奥巴马"设置为指代美国总统是可以接受的，因为大部分谈论"奥巴马"的微博指代的是总统本人。而将"克林顿"作为"比尔·克林顿"的查询项进行搜索，会引起对大量不相关的微博进行检索，因为这些微博有关"希拉里?克林顿"。因此，在后一种情况下，最好是将"比尔·克林顿"作为查询来提高结果的精确度。
[0046] 与任何预定义关键词或查询项匹配的微博数据流被认为是相关的。匹配的微博称为一组关键人物微博集合（MicroblogsKP)。
[0047]2.检索一组潜在相关的微博
[0048] 有关突发的区域新闻的微博可能无法使用一组预定义查询来获取。为克服这个问题，新闻在一个或多个新闻网站上被发掘，并将关键词提取出来，如图2所示。
[0049] 所述方法包括识别一个或多个新闻网站，并将不同网站上的文章分成不同类别，例如政治、体育和科技。
[0050] 关键短语（KW)是从已分类的文章中提取的。该关键短语采用本领域的技术人员熟知的、用于识别和提取文章中最重要的关键短语的方法进行提取。在一个实施方式中，命名的实体是从文章中提取的。优选地，所述方法过滤出某些关键词，例如文章作者的姓名，以便该作者的姓名不会与相关的关键短语混淆。
[0051] 随后，使用基于重要性和与文章新闻类别的相关性的重要性值对被提取的关键短语排序。这可利用本领域技术人员所熟知的排序方法来实现，例如词频-逆向文件频率 (TF-IDF)。
[0052] 所述被提取的关键短语随后被用来制定应用于社交帖子数据流（诸如，微波）的搜索查询。包括关键短语的社交帖子被匹配，并被认为是相关帖子。关键词在新闻文章中通常作为元数据存在。收集的关键词被用来检索另外的微博。微博匹配关键词将被分配到关联分类器，因为该关键词可能包括常用词汇或不正确的词汇，这些词汇会导致检索出大量不相关的微博。被提取的关键词分别由分类器利用重要性值进行排序，且重要性值高于预定值的关键词将用于分类器中以搜索和识别相关微博的子组。该微博的子组被称为关键词微博（MicroblogsKW) 〇
[0053]3.分类微博
[0054] 在一个实施方式中，使用MicroblogsKP作为正面样本和一组随机选定的微博作为负面样本（MicroblogsN)来训练支持向量机（SVM)分类器。MicroblogsN不应与预定义查询或从新闻中提取的关键词匹配。
[0055]这保证：MicroblogsN(MicroblogsKW U MicroblogsKP)=Φ〇
[0056]负面样本的数量选定为正面样本的N倍，因为预计不相关微博的范围将更大。在一个实施方式中，N是10。正面样本和负面样本都是从最近一段时间，优选是24小时，中选定来代表最近的数据。
[0057] 用于训练SVM分类器的一组特征包括出现在MicroblogsKP中的词汇。此外，还用一个特征来表示微博中不与任何词汇匹配的词汇的百分比。生成的模型随后被用于对 MicroblogsKW进行分类。分类的相关微博被添加到MicroblogsKP中，以形成相关微博的完整组。最后，生成包含这些微博的综合报告。
[0058]训练分类器的过程将周期性应用，以保持用户被更新有与实时新闻相关的微博。通常情况下，被分类为相关的微博显著地丰富了相关微博的总数量；尤其是当突发新闻以新实体的形式出现时。主观上，根据当时的新闻类型，相关微博的增长介于50%和300%之间，而且准确度超过90%。
[0059] 参见附图的图4,本发明的另一个实施方式包括可扩展的过滤步骤，该步骤将可扩展过滤应用到微博数据流或其他社交帖子。这一实施方式采用更加保守的方法来识别相关微博，并可产生更精确的结果，且更具普遍性以应用到新闻或不同的话题，例如追踪与医疗保健、电视节目、灾害等相关的微博。
[0060] 相关微博的过滤在下文更详细地讨论。布尔过滤（booleanfiltering)、具备查询扩展的布尔过滤和基于分类的过滤技术是本领域的技术人员所熟知的。这些过滤技术可用作相关推文的收集组件，但作用有限。下文将描述这些技术以提供过滤技术的背景信息，然后再描述本发明的一个实施方式所述的过滤技术。所述的第四种过滤技术是新颖的并且从检索率和精确度角度来说，在追踪政治和体育新闻等动态和广泛的话题上还能实现更好的效果。
[0061] 布尔过滤
[0062] 最简单的过滤技术是将Q。看作布尔查询集合，因而将用^表示的布尔过滤器用于追踪即将到来的数据流中符合布尔查询集合％中的任一项的微博。由此产生的匹配微博用 TB表示。该技术的有效性取决于在布尔查询集合Q。中选定的查询的质量；如果这些查询是精确选定的，预计将检索出高精度的结果；但是，如果话题高度动态，预计检索率会较低。
[0063] 具备查询扩展的布尔过滤
[0064] 扩展布尔过滤器fB以实现更好检索率的经典理论是，应用使用初始查询集合Q。的查询扩展，以匹配更多的微博。在这种方法中，一组扩展词汇集合E被添加到采用伪相关反馈的查询集合％中。该新词汇

完整全部详细技术资料下载

当前第2页1 2 3 4