一种基于即时通讯社交软件的舆情监测方法与流程

文档序号:14950797发布日期:2018-07-17 22:30阅读:527来源:国知局
本发明涉及的是舆情监测
技术领域
,具体涉及一种基于即时通讯社交软件的舆情监测方法。
背景技术
:目前,对于及时通讯社交软件的舆情监测均是通过人工加qq群和微信群,人工去浏览信息,效率比较低。因此,很有必要设计了一种基于即时通讯社交软件的舆情监测方法。技术实现要素:针对现有技术上存在的不足,本发明目的是在于提供一种基于即时通讯社交软件的舆情监测方法,提高了信息采集的有效性,方便与通用舆情系统进行整合,舆情监测效率高,效果好。为了实现上述目的,本发明是通过如下的技术方案来实现:一种基于即时通讯社交软件的舆情监测方法,包括以下步骤:1、进行账号养殖,维护若干qq号和微信号,定期检测账号有效期;支持qq号和微信号绑定的手机号和登陆代理ip所在地区相一致,避免封号;2、自动加群:分别用若干qq和微信号自动加好友和自动加群。加qq群可以根据行业或关键词搜群,然后加入;加微信群可以从多个微信群导航或聚合网站采集最新的群,然后加入;加群采用自动化手段+人工加群相结合,从而覆盖更多的群;3、在前面两个准备工作完成后,采集群聊信息。采用两种方式采集,第一种方式是通过扫码登陆qq网页版和微信网页版,然后监听页面通讯内容;第二种是通过在pc电脑安装qq客户端和微信客户端,然后通过采用hook技术的专用采集工具监听群聊天内容。两种方式同时采集,在入库时进行去重,确保当一种方式失效时,仍可采集到数据。采集元数据主要包括发言人、内容、时间、所在群等。支持分布式采集。4、将采集到的内容定期自动生成html文件,然后将文件内容解析存入elasticsearch,匹配不同的关键词进行分类展示和预警。由于单个聊天内容不能完整表达意思,系统提供前后10条消息的聚合视图。本发明具有以下有益效果:1、支持分布式采集,可以若干个号同时采集,从而扩大了监测范围;2、支持采集冗余,当一种采集方式失效,另外一种采集方式仍可采集到数据,从而保证采集有效性;3、支持自动加群,从而减轻人工加群的工作量。附图说明下面结合附图和具体实施方式来详细说明本发明;图1为本发明实施例的社交软件内容采集流程图;图2为本发明实施例的专用采集器定期生成的html文件格式图;图3和图4为本发明实施例的系统展示效果图。具体实施方式为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。参照图1-4,本具体实施方式采用以下技术方案:一种基于即时通讯社交软件的舆情监测方法,包括以下步骤:1、进行账号养殖,维护若干qq号和微信号,定期检测账号有效期;支持qq号和微信号绑定的手机号和登陆代理ip所在地区相一致,避免封号;2、自动加群:分别用若干qq和微信号自动加好友和自动加群。加qq群可以根据行业或关键词搜群,然后加入;加微信群可以从多个微信群导航或聚合网站采集最新的群,然后加入;加群采用自动化手段+人工加群相结合,从而覆盖更多的群;3、在前面两个准备工作完成后,采集群聊信息。采用两种方式采集,第一种方式是通过扫码登陆qq网页版和微信网页版,然后监听页面通讯内容;第二种是通过在pc电脑安装qq客户端和微信客户端,然后通过采用hook技术的专用采集工具监听群聊天内容。两种方式同时采集,在入库时进行去重,确保当一种方式失效时,仍可采集到数据。采集元数据主要包括发言人、内容、时间、所在群等。支持分布式采集。4、将采集到的内容定期自动生成html文件,然后将文件内容解析存入elasticsearch,匹配不同的关键词进行分类展示和预警。由于单个聊天内容不能完整表达意思,系统提供前后10条消息的聚合视图。本具体实施方式在国内率先实现了针对qq群和微信群内容的有效采集,并采用了两种冗余采集方式,即使腾讯对于软件进行了升级或变更,也能保证一定的采集有效性,同时为采集工具的更新赢得时间。针对社交软件的群聊内容较短、单个信息内容不完整的特点,提供前后10条信息进行上下面含义聚合,确保舆情分析效果。本具体实施方式将采集到的群聊信息自动定期生成html文件,舆情系统从html文件解析内容字段,从而可以和通用网站的格式保持一致,方便与通用舆情系统进行整合。实施例1:针对qq和微信这两种社交软件,有两种途径可以实现对其内容的采集。第一种是在手机上安装手机版专业采集客户端agent(一般使用安卓系统);第二种方式是在pc上安装客户端或使用网页版,再安装pc版的专业采集客户端agent(一般使用windows系统)。采集agent实时获取应用窗口信息,实时发给舆情服务器。由于部分app版本更新较快,采集软件也需要及时更新。针对社交软件的采集过程,如图1所示。综合考虑实现方法难易程度,我们针对qq群、微信群和朋友圈使用了两种不同的采集手段,开发了4个专用采集器。如表1所示:表1专用采集器一览表软件名称专用采集器qq群网页版webqq消息监听采集器微信群网页版微信网页版消息监听采集器qq群pc客户端qq群pc专用采集器微信群pc客户端微信群pc专用采集器专用采集器定期生成的html文件格式如图2所示:专用采集生成的html文件内容。1)、qq群采集针对目前版本的webqq协议监听,整个流程包含以下几步:1)获取二维码;2)确认二维码已被扫描;3)获取鉴权参数ptwebqq;4)获取鉴权参数vfwebqq;5)获取鉴权参数uin和psessionid;6)登陆成功,获取好友列表;7)消息监听;8)每隔5分钟将聊天内容生成一个html文件。2)、微信群采集针对目前版本的web微信协议监听,整个流程包含以下几步:1)获取uuid,获取二维码;2)等待扫码登录。(1)如果一直没有扫描,则得到408返回码;(2)扫描成功后,得到201返回码:(3)登录成功,得到200返回码;3)获取登录参数(uin、skey、sid、pass_ticket);4)获取初始化信息(账号头像信息、聊天好友、阅读等);5)开启微信状态通知;6)获取好友列表(webwxgetcontact)和群组列表(webwxbatchgetcontact);7)消息检查(synccheck),获取最新消息(webwxsync);8)每隔5分钟将聊天内容生成一个html文件。系统展示效果如图3所示。以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1