基于证据理论的中文微博可信度评估方法

文档序号:6543746阅读:225来源:国知局
基于证据理论的中文微博可信度评估方法
【专利摘要】本发明属于信息检索与评估领域,具体涉及基于证据理论的中文微博可信度评估方法。本发明从中文微博的固有特点入手,兼顾了这些特点的可测量性和实际任务,系统地梳理了中文微博信息的可信度测量指标,并将其归属为文本信息、信息来源与信息传播三个高层维度。考虑到人类认知的模糊性本质,提出一个基于多维证据的微博可信度评估方法用于融合上述三个异构维度。与现有的仅针对网络文本或互连关系的单一特征评估方法比较,基于证据理论的中文微博可信度评估方法考虑更全面、合理,在同样的查询条件下,可以优选哪些来源可靠,传播广泛的信息。
【专利说明】基于证据理论的中文微博可信度评估方法
【技术领域】
[0001]基于证据理论的中文微博可信度评估方法属于信息检索与评估领域。
【背景技术】
[0002]最近几年,社会媒体得到迅猛发展,特别是微博,如美国的推特(Twitter)、中国的新浪微博、腾讯微博等,已发展成为互联网上的巨擘。中国互联网络信息中心(CNNIC)于2012年7月发布的《第30次中国互联网络发展状况统计报告》显示,截至2012年6月底,我国微博用户数达到2.74亿,微博的渗透率已经过半,而且微博在手机端的增长幅度仍然明显,增速达到24.2%。根据中国互联网调查社区(http://h.cnnicresearch.cn/sv/result/sid/22253) 2013年I月13日完成的关于“社会化媒体使用率的调查”结果显示,微博(73.46%)已经取代“即时聊天工具”(66.93%)、搜索引擎(61.64%)、官方网站(56.64%)成为大众接触最多的社会媒体。
[0003]随着微博的蓬勃发展而带来的一大隐患,就是用户对微博内容的真实性和价值越来越难以判断。这主要是由微博内容的固有特点造成的。和其他社会媒体相似,微博的最大特点依然是媒体内容产生于用户(UGC,用户创造内容)和消费者(CGM,消费者产生媒体)。而且比起强调版面布置的博客来说,微博内容更简短、零碎,微博书写更随意、自由。正是由于微博内容的创造者自由度很大,没有编辑条款限制,使得微博上的信息质量差异很大。而且,由于信息的随便发布,群体的话语暴力,不负责任的非理性表达,也使得微博成为了众多网络谣言的发源地。因此,针对微博在信息书写、信息传播、社会网络分析等方面的固有特点,分析、评估微博内容、微博用户,并将其应用于微博信息综合或垂直搜索、微博知识发现等领域的研究,已经引起了国内外计算机科学、信息科学、传媒科学领域研究人员的关注和重视,成为微博研究领域的重要内容之一。
[0004]由于时间因素,目前对微博质量的研究实例大多集中于推特(Twitter)分析,这些研究可以分为两类,一类是利用传统分类技术的定性分析,这类研究需要大量样本,获取的是非数值结论,无法用于定量评估;另一类是针对不同性能指标的一些定量算法,只是现有质量评估函数多数只关注信息本身或某一侧面,缺少系统、全面地分析和评估,更没有从模糊认知的角度进行度量。目前针对中文微博质量分析的研究多数集中于内容分析和特定主题提取,缺少专门针对质量进行定量评估的系统方法。

【发明内容】

[0005]本发明从中文微博的固有特点入手,兼顾了这些特点的可测量性和实际任务,系统地梳理了中文微博信息的可信度测量指标,并将其归属为文本信息、信息来源与信息传播三个高层维度,考虑到人类认知的模糊性本质,提出一个基于多维证据的微博可信度评估方法用于融合上述三个异构维度,具体流程如图1所示。与现有的仅针对网络文本或互连关系的单一特征评估方法比较,基于证据理论的中文微博可信度评估方法考虑更全面、合理,在同样的查询条件下,可以优选哪些来源可靠,传播广泛的信息。本发明提供的中文微博可信度评估方法,具体步骤如下:
[0006]步骤1:预处理,将从各微博平台获取的Json格式微博,通过格式解析形成有效数据,然后借助现有的自然语言处理工具,对有效数据中的微博文本进行分词、词性标注、图标检测、错误词检测、重复标点检测等预处理工作,并统计相关数据;
[0007]步骤2:文本信息的可信度测量,信息本身的可信度可以从客观和主观两个方面入手考察,客观因素主要包括句法、语法、语气和语义四个层面,前两个层面,考虑了文本长度Slmgth和拼写错误Sspelling两个指标,具体计算方法如表1所示,表1同时列出了本发明考虑的和语气相关的三个因素分别是:图标S_ti_s、重复标点Spun。以及正性词/负性词Spwneg’本发明将语义因素归结到任务相关领域,信息本身的可信度测量不涉及,影响文本信息可信度的主观因素反映的是其他用户对该文本质量的主观看法,通过分析主流中文微博平台数据,发现针对单个文本的可直接测量的主观因素有直接转贴数Smwsts和用户评论数Sranmmts,具体计算方法如表1所示;
[0008]本发明采用均值模式来分别融合客观因素和主观因素,然后再通过一个介于[0,
I]之间的权重λ来控制客观和主观因素的相对权重,将各个影响因素的得分进行min-max标准化,计算方法如下:
[0009]
【权利要求】
1.基于证据理论的中文微博可信度评估方法,其特征在于步骤如下: 步骤1:预处理,将从各微博平台获取的Json格式微博,通过格式解析形成有效数据,然后借助现有的自然语言处理工具,对有效数据中的微博文本进行分词、词性标注、图标检测、错误词检测、重复标点检测等预处理工作,并统计相关数据; 步骤2:文本信息的可信度测量,信息本身的可信度可以从客观和主观两个方面入手考察,客观因素主要包括句法、语法、语气和语义四个层面,前两个层面,考虑了文本长度Slmgth和拼写错误Sspelling两个指标,具体计算方法如表1所示,表1同时列出了本发明考虑的和语气相关的三个因素分别是:图标S_ti_s、重复标点Spum以及正性词/负性词Sp()si/Mg,本发明将语义因素归结到任务相关领域,信息本身的可信度测量不涉及;影响文本信息可信度的主观因素反映的是其他用户对该文本质量的主观看法,通过分析主流中文微博平台数据,发现针对单个文本的可直接测量的主观因素有直接转贴数Smwsts和用户评论数Sranmmts,具体计算方法如表1所示; 本发明采用均值模式来分别融合客观因素和主观因素,然后再通过一个介于[0,1]之间的权重λ来控制客观和主观因素的相对权重,将各个影响因素的得分进行min-max标准化,计算方法如下:
【文档编号】G06F17/27GK103927297SQ201410149429
【公开日】2014年7月16日 申请日期:2014年4月13日 优先权日:2014年4月13日
【发明者】高明霞 申请人:北京工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1