一种展示微博评论的方法和装置制造方法

文档序号:6505494阅读:128来源:国知局
一种展示微博评论的方法和装置制造方法
【专利摘要】本发明实施方式提出了一种展示微博评论的方法和装置。方法包括:获取微博评论数据,并对微博评论数据执行数据清洗;从数据清洗后的微博评论数据中提取排序因子特征,并根据所述排序因子特征计算所述数据清洗后微博评论数据的排序值;基于所述排序值对清洗后微博评论数据进行排序,并按照排序结果展示所述清洗后微博评论数据。本发明实施方式提高了阅读效率。
【专利说明】一种展示微博评论的方法和装置

【技术领域】
[0001] 本发明实施方式涉及信息处理【技术领域】,更具体地,涉及一种展示微博评论的方 法和装置。

【背景技术】
[0002] 微博,即微博客(MicroBlog)的简称,是一种基于用户关系的信息共享、传播以及 获取平台。通过微博平台,用户可以应用WEB、WAP以及各种客户端组件,以140字左右的文 字更新信息,并实现即时共享。相对于强调版面布置的博客来说,微博的内容组成只是由简 单的只言片语组成,从这个角度来说,对用户的技术要求门槛很低,而且在语言的编排组织 上,没有博客那么高。微博开通的多种API使得大量的用户可以通过手机、网络等方式来即 时更新自己的个人信息。微博草根性更强,且广泛分布在桌面、浏览器、移动终端等多个平 台上,有多种商业模式并存,或形成多个垂直细分领域的可能。现今,微博已经成为许多人 的生活组成部分:获取资讯、社交、娱乐;甚至社交和娱乐融为一体,比如在微博上和好友 玩一些社交游戏。
[0003] 在微博技术中,当微博作者发出微博后,经常会得到大量的评论信息,在现有技术 中通常按照评论时间顺序来展示评论信息,最近评论的信息一般能得到优先展示。
[0004] 然而,由于评论信息中经常掺杂有大量的无意义评论或不相关评论,这种按照评 论时间顺序展示评论信息的处理方式可能会将真正有意义的评论内容淹没在大量无意义 评论中,不利于高质量评论信息的展示,用户不得不耗费大量时间来自行寻找高质量评论 信息,从而降低了阅读效率。


【发明内容】

[0005] 本发明实施方式提出一种展示微博评论的方法,从而提高阅读效率。
[0006] 本发明实施方式提出一种展示微博评论的装置,从而提高阅读效率。
[0007] 本发明实施方式的具体方案如下:
[0008] -种展示微博评论的方法,该方法包括:
[0009] 获取微博评论数据,并对所述微博评论数据执行数据清洗;
[0010] 从数据清洗后的微博评论数据中提取排序因子特征,并根据所述排序因子特征计 算所述数据清洗后微博评论数据的排序值;
[0011] 基于所述排序值对清洗后微博评论数据进行排序,并按照排序结果展示所述清洗 后微博评论数据。
[0012] 一种展示微博评论的装置,包括数据清洗单元、排序值计算单元和数据展示单元, 其中:
[0013] 数据清洗单元,用于获取微博评论数据,并对所述微博评论数据执行数据清洗;
[0014] 排序值计算单元,用于从数据清洗后的微博评论数据中提取排序因子特征,并根 据所述排序因子特征计算所述数据清洗后微博评论数据的排序值;
[0015] 数据展示单元,用于基于所述排序值对清洗后微博评论数据进行排序,并按照排 序结果展示所述清洗后微博评论数据。
[0016] 从上述技术方案可以看出,在本发明实施方式中,获取微博评论数据,并对所述微 博评论数据执行数据清洗;从数据清洗后的微博评论数据中提取排序因子特征,并根据所 述排序因子特征计算所述数据清洗后微博评论数据的排序值;基于所述排序值对清洗后微 博评论数据进行排序,并按照排序结果展示所述清洗后微博评论数据。由此可见,可以基于 数据清洗和排序因子特征过滤无意义评论或不相关评论,利于高质量评论信息的展示,并 节约用户时间,提高了阅读效率。
[0017] 而且,还可以将本发明实施方式应用到各种终端中,并且可以跨平台跨终端使用, 适用范围非常广泛。

【专利附图】

【附图说明】
[0018] 图1为根据本发明实施方式展示微博评论的方法流程图;
[0019] 图2为根据本发明实施方式展示微博评论的流程图;
[0020] 图3为根据本发明实施方式展示微博评论的装置结构图。

【具体实施方式】
[0021] 为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步 的详细描述。
[0022] 可以在各种终端上展示微博页面。本发明实施方式中,这些终端是指具有数据 计算处理功能和电话通讯功能的通讯终端。包括但不限于:智能手机、个人电脑(PC)、月艮 务器(Server)、带有电话通讯功能的掌上电脑、平板电脑、个人数字助理器(PDA,Personal Digital Assistant)等,甚至是带有电话通讯功能的便携式智能电视(Smart TV)。
[0023] 以上详细罗列了一些终端的具体类型,但是本领域技术人员可以意识到,本发明 实施方式并不局限于上述罗列的类型,而还可以适用于其他任意具有计算和通讯能力的端 类型和操作系统类型之中,尤其适合于智能终端。
[0024] 本发明实施方式的智能终端操作系统可以是任意的智能终端操作系统,具体可以 采用的操作系统包括但是不局限于:安卓(Andorid)、Palm OS、Symbian (塞班)、Windows mobile、Linux、Android (安卓)、iPhone (苹果)OS、Black Berry (黑莓)0S6. 0、Windows Phone系列,等等。
[0025] 优选地,智能终端操作系统具体可以采用Andorid操作系统,而且智能终端可以 采用到Andorid的各个版本之中,包括但是不局限于:阿童木(Android Beta)、发条机器人 (Androidl. 0)、纸杯蛋糕(Androidl. 5)、甜甜圈(Androidl. 6)、松饼(Android2. 0/2. 1),冻 酸奶(Android2. 2)、姜饼(Android2. 3)、蜂巢(Android3. 0)、冰激凌三明治(Android4. 0)、 果冻豆(Jelly Bean, Android4.1)等版本。
[0026] 以上详细罗列了 Android平台的具体版本,本领域技术人员可以意识到,本发明 实施方式并不局限于上述罗列版本,而还可以适用于其他基于Android软件架构的任意版 本之中。
[0027] 图1为根据本发明实施方式展示微博评论的方法流程图。
[0028] 如图1所示,该方法包括:
[0029] 步骤101 :获取微博评论数据,并对所述微博评论数据执行数据清洗。
[0030] 数据清洗(Data Cleaning)指发现并纠正微博评论数据中可识别的错误,包括检 查数据一致性、处理无效值和缺失值等,主要用于滤除不完整的数据、错误的数据和重复的 数据。
[0031] 具体地,数据清洗可以包括数据预处理、数据去重、过滤抄袭内容、过滤相似内容, 等处理。其中:
[0032] 数据预处理:可以包括过滤掉含有关键词黑名单中所列词的微博转评数据,过滤 掉转评作者在微博内容原用户黑名单中的微博转评数据。
[0033] 数据去重:首先对微博评论数据进行切词,将切词后词语相连以获得字符串;再 计算字符串的哈希值,并针对哈希值相同的字符串,去除发布时间最新的微博评论数据。 [0034] 比如,首先根据微博评论数据切词后的所有词语相连得到一字符串,用此字符串 计算其32位整数的哈希值,同一原创微博内容的不同转评依据此哈希值去重,其中哈希值 相同时去掉最新的微博评论。
[0035] 过滤抄袭内容:首先计算全量微博数据的整数哈希值,并确定各个哈希值的频数; 计算微博评论数据的哈希值,并确定对应于微博评论数据哈希值的频数;当对应于微博评 论数据哈希值的频数大于预先设定的频数门限值时,滤去该微博评论数据。
[0036] 比如:可以应用simhash算法计算最近一个季度的全量微博内容的64位整数哈希 值,相同哈希值则认为内容相同,从而可以统计出每个哈希值的频数(即抄袭度),再根据当 前转评微博内容计算的哈希值可找出其对应的频数,然后通过预先设置的门限值过滤掉频 数过高的微博评论。
[0037] 过滤相似内容:分别对原微博和与评论内容切词,相同词总数除以转评的总词数, 即得相似度,并去掉相似度高于阈值的转评
[0038] 步骤102 :从数据清洗后的微博评论数据中提取排序因子特征,并根据所述排序 因子特征计算所述数据清洗后微博评论数据的排序值。
[0039] 在这里,排序因子特征具体可以包括文本特征、用户特征和时间特征。可以首先从 数据清洗后的微博评论数据中提取文本特征、用户特征和时间特征,并根据所述文本特征、 用户特征和时间特征加权计算所述数据清洗后微博评论数据的排序值,其中排序值与时间 特征的新颖度成正比、与用户特征的可信度成正比以及与文本特征的质量度成正比。
[0040] 时间特征具体可以为微博评论的发布时间;用户特征可以为发出该微博评论的用 户级别;而文本特征为微博评论内容中与文本总长度、有效词数、过滤词数、总词数、词重复 度等词参数相关的特征。时间特征的新颖度与微博评论数据发布时间相关,而发布时间越 新颖,时间特征的新颖度越高。用户特征的可信度与用户等级相关,用户等级越高,用户特 征的可信度越高。
[0041] 在一个实施方式中,文本特征的质量度由下列因子中的至少一个所确定:文本总 长度;有效词数;过滤词数;总词数;词重复度;其中:文本特征的质量度与文本总长度和 有效词数成正比,与词重复度和过滤词数成反比,与有效词数除以总词数的计算结果成正 比。
[0042] 示范性地:
[0043] 排序值=wl*文本分+w2*时间分+w3*用户分;
[0044] 文本分=文本基础分* (有效词数/总词数)*f 1* (1-词重复度)/w4
[0045] 而文本基础分=文本总长度+w5*有效词数+w6*过滤词数;其中:
[0046] 过滤词可以人工整理的一些广告、骂街之类的词;
[0047] 有效词数=总词数-过滤词数-标点符号数;
[0048] Π 是以标点符号数和总词数为参数的函数
[0049] 词重复度=词重复数/总词数;其中前后相接的两个词一样算作一次重复
[0050] 时间分=(微博发表时间-基准时间)/w7
[0051] 用户分:发文质量宏观上跟用户等级正相关,等级越高用户分越高;
[0052] 其中wl、w2、w3、w4、w5、w6、w7是各个因素的权重,而权重数值可根据训练数据训 练得出。
[0053] 在一个实施方式中,进一步计算清洗后微博评论数据与原始微博内容的相关度; 并根据所述相关度调整所述数据清洗后微博评论数据的排序值,其中所述相关度越大,所 述数据清洗后微博评论数据的排序值越小。
[0054] 示范性地:
[0055] 相关度=vl*分类匹配得分+v2*相似度;
[0056] 分类匹配得分:分类匹配得分初始值为0,假设转评微博文本分类后得到类目 A1A2. . . Ai. . . An,原创微博文本分类后得到类目B1B2. . . Bj. . . Bm,如果Ai与Bj是同一类 目,则分类匹配得分+=Ai的相关性*B j的相关性;
[0057] 其中vl、v2是各个因素的权重,权重数值可根据训练数据训练得出。
[0058] 对一个类目,计算相关性的公式如下:
[0059] 类目相关性=xl*fl (weight)+x2*f2 (rate)+x3*f3 (rank);
[0060] 其中,xl、x2、x3分别是三个因素的权重;
[0061] weight是该类目的权重;
[0062] rate是该类目权重除以总权重;
[0063] rank是该类目在所有类目中的权重排名;
[0064] fl是将"该类目的权重"归约到0-1的函数;
[0065] f2是将"该类目权重除以总权重"归约到0-1的函数;
[0066] f3是将"该类目在所有类目中的权重排名"归约到0-1的函数。
[0067] 以上详细描述了计算排序值和相关度的具体算法,本领域技术人员可以意识到, 这种描述仅仅是示范性的,并不用于对本发明实施方式进行限定。
[0068] 步骤103 :基于所述排序值对清洗后微博评论数据进行排序,并按照排序结果展 示所述清洗后微博评论数据。
[0069] 再这里,可以按排序值对清洗后微博评论数据进行排序,过滤掉排序值低于预先 设置阈值的评论数据,并展示最终的排序结果。
[0070] 图2为根据本发明实施方式展示微博评论的流程图。
[0071] 如图2所示,该方法包括:
[0072] 步骤201 :针对微博评论数据执行预处理操作。
[0073] 在这里,可以获取某一原创微博及其转评内容,并根据预先设置的关键词黑名单, 过滤掉一部分评论内容。
[0074] 比如:假设得到如下的微博和评论数据:
[0075]

【权利要求】
1. 一种展示微博评论的方法,其特征在于,该方法包括: 获取微博评论数据,并对所述微博评论数据执行数据清洗; 从数据清洗后的微博评论数据中提取排序因子特征,并根据所述排序因子特征计算所 述数据清洗后微博评论数据的排序值; 基于所述排序值对清洗后微博评论数据进行排序,并按照排序结果展示所述清洗后微 博评论数据。
2. 根据权利要求1所述展示微博评论的方法,其特征在于,所述对微博评论数据执行 数据清洗包括: 滤去包含有预先设定黑名单中词汇的微博评论数据;和/或 滤去由位于微博用户黑名单中的用户所发出的微博评论数据。
3. 根据权利要求1所述展示微博评论的方法,其特征在于,所述对微博评论数据执行 数据清洗包括: 对微博评论数据进行切词,将切词后词语相连以获得字符串; 计算所述字符串的哈希值; 针对哈希值相同的字符串,去除发布时间最新的微博评论数据。
4. 根据权利要求1所述展示微博评论的方法,其特征在于,所述对微博评论数据执行 数据清洗包括: 计算全量微博数据的整数哈希值,并确定各个哈希值的频数; 计算微博评论数据的哈希值,并确定对应于微博评论数据哈希值的频数; 当对应于微博评论数据哈希值的频数大于预先设定的频数门限值时,滤去该微博评论 数据。
5. 根据权利要求1所述展示微博评论的方法,其特征在于,所述从数据清洗后的微博 评论数据中提取排序因子特征,并根据所述排序因子特征计算所述数据清洗后微博评论数 据的排序值包括: 从数据清洗后的微博评论数据中提取文本特征、用户特征和时间特征,并根据所述文 本特征、用户特征和时间特征加权计算所述数据清洗后微博评论数据的排序值,其中排序 值与时间特征的新颖度成正比、与用户特征的可信度成正比以及与文本特征的质量度成正 比。
6. 根据权利要求5所述展示微博评论的方法,其特征在于,所述文本特征的质量度由 下列因子中的至少一个所确定: 文本总长度; 有效词数; 过滤词数; 总词数;和 词重复度; 其中:文本特征的质量度与文本总长度和有效词数成正比,与词重复度和过滤词数成 反比,与有效词数除以总词数的计算结果成正比。
7. 根据权利要求5所述展示微博评论的方法,其特征在于,该方法进一步包括: 计算清洗后微博评论数据与原始微博内容的相关度; 根据所述相关度调整所述数据清洗后微博评论数据的排序值,其中所述相关度越大, 所述数据清洗后微博评论数据的排序值越小。
8. -种展示微博评论的装置,其特征在于,包括数据清洗单元、排序值计算单元和数据 展示单元,其中: 数据清洗单元,用于获取微博评论数据,并对所述微博评论数据执行数据清洗; 排序值计算单元,用于从数据清洗后的微博评论数据中提取排序因子特征,并根据所 述排序因子特征计算所述数据清洗后微博评论数据的排序值; 数据展示单元,用于基于所述排序值对清洗后微博评论数据进行排序,并按照排序结 果展示所述清洗后微博评论数据。
9. 根据权利要求8所述的展示微博评论的装置,其特征在于, 数据清洗单元,用于滤去包含有预先设定黑名单中词汇的微博评论数据;和/或滤去 由位于微博用户黑名单中的用户所发出的微博评论数据。
10. 根据权利要求8所述的展示微博评论的装置,其特征在于, 数据清洗单元,用于对微博评论数据进行切词,将切词后词语相连以获得字符串;计算 字符串的哈希值;并针对哈希值相同的字符串,去除发布时间最新的微博评论数据。
11. 根据权利要求8所述的展示微博评论的装置,其特征在于, 排序值计算单元,用于从数据清洗后的微博评论数据中提取文本特征、用户特征和时 间特征,并根据所述文本特征、用户特征和时间特征加权计算所述数据清洗后微博评论数 据的排序值,其中排序值与时间特征的新颖度成正比、与用户特征的可信度成正比以及与 文本特征的质量度成正比。
12. 根据权利要求11所述的展示微博评论的装置,其特征在于,所述文本特征的质量 度由下列因子中的至少一个所确定:文本总长度;有效词数;过滤词数;总词数;词重复度; 其中文本特征的质量度与文本总长度和有效词数成正比,与词重复度和过滤词数成反比, 与有效词数除以总词数的计算结果成正比。
13. 根据权利要求8所述的展示微博评论的装置,其特征在于, 排序值计算单元,进一步用于计算清洗后微博评论数据与原始微博内容的相关度,并 且根据所述相关度调整所述数据清洗后微博评论数据的排序值,其中所述相关度越大,所 述数据清洗后微博评论数据的排序值越小。
【文档编号】G06F17/30GK104281606SQ201310283548
【公开日】2015年1月14日 申请日期:2013年7月8日 优先权日:2013年7月8日
【发明者】阳云, 李维刚 申请人:腾讯科技(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1