舆情数据预测方法、装置、终端及存储介质与流程

文档序号:15636913发布日期:2018-10-12 21:35阅读:176来源:国知局

本发明涉及数据预测技术领域,具体涉及一种舆情数据预测方法、装置、终端及存储介质。



背景技术:

随着互联网的快速发展,计算机技术已经在各行各业方便着人们的生活,在医疗领域也不例外。在网络上潜藏着大量的疾病的专业数据和用户的问诊记录,但是这些数据不够系统、不够完整,当一种流行病迅速爆发时,往往并不能及时更新网站信息,导致信息录入滞后,用户不能及时了解最新信息,及时预防,防患于未然。

目前采用网络爬虫技术爬取关于疾病的舆情数据,但是爬取方法比较单一,采用简单爬虫的方法。其次,对爬取得到的数据没有进行有效的、及时的检验。另外,对于不同分布的数据,采用相同的数据清洗、填充的方式,数据处理效果较差。



技术实现要素:

鉴于以上内容,有必要提出一种舆情数据预测方法、装置、终端及存储介质,能够爬取不同的数据源中的疾病数据,并采用不同的数据检查、清洗和异常值处理方法。

本发明的第一方面提供一种舆情数据预测方法,所述方法包括:

接收用户输入的疾病的至少一个关键词;

确定互联网中与所述关键词相关的数据源,并利用爬虫程序从所述数据源中爬取与所述关键词相关的疾病数据;

对所述疾病数据进行解析得到疾病的舆情因子;

对所述疾病的舆情因子进行数据清洗和异常值处理;

对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,得到新的疾病数据;及

根据所述新的疾病数据计算疾病的舆情因子的衍生变量,根据所述衍生变量对疾病进行预测。

根据本发明的一个优选实施例,所述确定互联网中与所述关键词相关的数据源,并利用爬虫程序从所述数据源中爬取与所述关键词相关的疾病数据包括:

确定互联网中与所述关键词相关的数据源,根据所述数据源的类型对所述数据源进行分类;

根据对与所述数据源进行分类得到的类别数,设置与所述类别数相同的多线程爬虫程序;

利用所述多线程爬虫程序分别从对应的所述数据源中爬取与所述关键词相关的疾病数据。

根据本发明的一个优选实施例,所述方法还包括:

根据计算出的衍生变量制作成图表进行可视化展示,所述衍生变量包括:最大值、最小值、平均数、方差、标准差、协方差、极差、中位数、众数、四分位数。

根据本发明的一个优选实施例,所述数据标准化包括以下一种或几种的组合:

总和标准化、标准差标准化、极大值标准化或者极差标准化。

根据本发明的一个优选实施例,所述利用爬虫程序从所述数据源中爬取与所述关键词相关的疾病数据包括:

利用爬虫程序在预设爬虫时间段内从所述数据源中爬取与所述关键词相关的疾病数据。

根据本发明的一个优选实施例,所述对所述疾病数据进行解析得到疾病的舆情因子包括:

计算所述疾病的所有子舆情因子的数量总和,计算每一个子舆情因子占所述总和的百分比,所述百分比为对应的子舆情因子的权重,将权重大于预设权重阈值的子舆情因子确定为疾病的舆情因子。

根据本发明的一个优选实施例,所述对所述疾病的舆情因子进行数据清洗和异常值处理包括:

根据所述疾病的舆情因子的类型对所述疾病的舆情因子进行数据清洗;

根据所述疾病的舆情因子的分布对所述疾病的舆情因子进行缺失值替换;或者

直接丢弃有异常的疾病的舆情因子。

本发明的第二方面提供一种舆情数据预测装置,所述装置包括:

接收模块,用于接收用户输入的疾病的至少一个关键词;

爬取模块,用于确定互联网中与所述关键词相关的数据源,并利用爬虫程序从所述数据源中爬取与所述关键词相关的疾病数据;

解析模块,用于对所述疾病数据进行解析得到疾病的舆情因子;

清洗模块,用于对所述疾病的舆情因子进行数据清洗和异常值处理;

标准化模块,用于对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,得到新的疾病数据;及

预测模块,用于根据所述新的疾病数据计算疾病的舆情因子的衍生变量,根据所述衍生变量对疾病进行预测。

本发明的第三方面提供一种终端,所述终端包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述舆情数据预测方法。

本发明的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述舆情数据预测方法。

本发明所述的舆情数据预测方法、装置、终端及存储介质,通过设置不同的爬虫程序对应不同类别的数据源,利用多线程爬虫程序爬取从对应的数据源中爬取与输入的关键词相关的疾病数据,并行的爬取方式可以加快爬取的效率,爬取得到的疾病数据的数据格式较为统一,且能够避免由于不同的数据源的数据的存储格式或者其他问题导致爬取困难或者无法对爬取后的数据进行解析的问题的发生;对所述疾病的舆情因子进行数据整理、深度分析和计算,这种对爬取得到的疾病数据进行精细化处理后,制作成图形或表格类,结果展示更加清晰,便于直观的分析问题。另外,根据疾病的舆情因子衍生出多个变量,增加了数据指标,为疾病预测提供了参考依据,使得疾病的预测将不再盲目、凭经验,预测结果更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的舆情数据预测方法的流程图。

图2是本发明实施例二提供的舆情数据预测方法的流程图。

图3是本发明实施例三提供的舆情数据预测装置的结构图。

图4是本发明实施例四提供的舆情数据预测装置的结构图。

图5是本发明实施例五提供的终端的结构图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

本发明实施例的舆情数据预测方法应用在一个或者多个终端中。所述舆情数据预测方法也可以应用于由终端和通过网络与所述终端进行连接的服务器所构成的硬件环境中。网络包括但不限于:广域网、城域网或局域网。本发明实施例的舆情数据预测方法可以由服务器来执行,也可以由终端来执行;还可以是由服务器和终端共同执行。

所述对于需要进行舆情数据预测方法的终端,可以直接在终端上集成本发明的方法所提供的舆情数据预测功能,或者安装用于实现本发明的方法的客户端。再如,本发明所提供的方法还可以以软件开发工具包(步骤oftwaredevelopmentkit,步骤dk)的形式运行在服务器等设备上,以步骤dk的形式提供舆情数据预测功能的接口,终端或其他设备通过提供的接口即可实现舆情数据的预测。

实施例一

图1是本发明实施例一提供的舆情数据预测方法的流程图。根据不同的需求,该流程图中的执行顺序可以改变,某些步骤可以省略。

步骤11、接收用户输入的疾病的至少一个关键词。

所述关键词是与疾病的症状相关的词语,例如,当疾病为感冒时,所述关键词可以包括:打喷嚏、流鼻涕、鼻塞、头痛头晕、咳嗽无痰、喉咙痛等。再如,当疾病为手足口时,所述关键词可以包括:口痛、厌食、低热、手部小疱疹、口部小溃疡等。

为了便于后续爬取到更多与疾病相关的数据,用户可以输入疾病的多个关键词。所述关键词可以是用户根据自身经验获得的疾病的症状,也可以是从疾病专家处收集得到的疾病的症状。

本实施例中,终端预先设置供用户输入疾病的关键词的功能,例如,所述终端提供一文本输入框,用户可通过所述文本输入框输入至少一个关键词。或者,所述终端提供语音助手的功能,用户可通过所述语音助手输入至少一个关键词。

步骤12、确定互联网中与所述关键词相关的数据源,并利用爬虫程序从所述数据源中爬取与所述关键词相关的疾病数据。

互联网中与所述关键词相关的数据源可以包括,但不限于:百度、谷歌、腾讯、微博、热搜、知乎及任何支持用户搜索访问的网站等。利用爬虫程序从各种数据源中爬取与所述关键词相关的疾病数据可以包括:百度指数、谷歌趋势、腾讯分析、新闻资讯、广告数据、渠道数据、微博热度、论坛舆情信息等。

本实施例中,用户确定互联网中的数据源的全球资源定位器(uniformresourcelocator,url),所述爬虫程序根据url爬取与所述关键词相关的疾病数据。

步骤13、对所述疾病数据进行解析得到疾病的舆情因子。

对疾病数据进行包括舆情分析的具体分析工作,其中包括文本处理、文本分析、词频统计、相关性分析等处理,以获取疾病的舆情因子。

本实施例中,所述疾病的舆情因子可以包括多个子舆情因子,例如,第一子舆情因子、第二子舆情因子、第三子舆情因子、第四舆情因子等。

举例而言,所述第一子舆情因子可以是头痛,所述第二子舆情因子可以是流鼻涕,所述第三子舆情因子可以是发烧、第四子舆情因子可以是咳嗽。

步骤14、对所述疾病的舆情因子进行数据清洗和异常值处理。

对所述疾病的舆情因子进行数据清洗和异常值处理,是为了消除所述疾病的舆情因子中的冗余数据,得到具有一致性的标准格式的疾病数据,使得清洗和异常值处理后的疾病的舆情因子可用且更适合进行后续的分析工作。

本实施例中,所述对所述疾病的舆情因子进行数据清洗包括:根据所述疾病的舆情因子的类型对所述疾病的舆情因子进行数据清洗。

所述疾病的舆情因子的类型包括,但不限于:含有噪声的疾病的舆情因子、不符合常理的疾病的舆情因子、含有重复信息的疾病的舆情因子、数据不平衡的疾病的舆情因子、不一致的疾病的舆情因子、不完整的疾病的舆情因子等。

对于所述含有噪声的疾病的舆情因子采用去除特大值及负值点的方法进行数据清洗;对于所述不符合常理的疾病的舆情因子采用去除异常值的方法进行数据清洗;对于所述含有重复信息的疾病的舆情因子采用删除重复项的方法进行数据清洗;对于所述不平衡的疾病的舆情因子采用数据去噪的方法进行数据清洗;对于所述不一致的疾病的舆情因子采用按数据类型归类的方法进行数据清洗;对于所述不完整的疾病的舆情因子,采用确立相关标准参照值的方法进行数据清洗。

本实施例中,所述对所述疾病的舆情因子进行异常值处理包括:根据所述疾病的舆情因子的分布对所述疾病的舆情因子进行缺失值替换。

本实施例中,所述疾病的舆情因子的分布包括,但不限于:稳定型及剧烈型。所述稳定型分布的疾病的舆情因子是指所述疾病的舆情因子的变化趋势比较平稳,例如,50、53、52、49、51等。所述剧烈型分布的疾病的舆情因子是指所述疾病的舆情因子的变化趋势比较尖锐,变化幅度较大,例如,50、100、43、89、4等。

对于稳定型分布的所述疾病的舆情因子,可以采用k-最近距离邻居法,根据欧式距离或相关分析来确定距离具有缺失的疾病的舆情因子样本最近的k个样本,将这k个疾病的舆情因子值加权平均来估计该样本的缺失数据;对于稳定型分布的所述疾病的舆情因子,还可以采用预测模型来预测每一个缺失的疾病的舆情因子,如果缺失的疾病的舆情因子是数值型的,可以采用平均值来填充该缺失的疾病的舆情因子,如果缺失的疾病的舆情因子是非数值型的,可以采用众数来填充该缺失的疾病的舆情因子。

对于剧烈型分布的所述疾病的舆情因子,可以采用均值法替代所缺失的疾病的舆情因子。

优选地,由于采用均值法替代所缺失的疾病的舆情因子的方法是建立在完全随机缺失的假设之上,会造成疾病的舆情因子的方差及标准差变小,因而,所述方法还可以包括:将通过均值替代后得到的疾病的舆情因子与预设扩大系数进行求积,得到新的疾病的舆情因子作为最终的疾病的舆情因子。

所述预设扩大系数为预先设置的扩大系数,所述扩大系数大于1。

在其他实施例中,所述对所述疾病的舆情因子进行异常值处理还包括:直接丢弃有异常的疾病的舆情因子。直接将有异常的疾病的舆情因子进行丢弃,可以保证爬取得到的疾病的舆情因子的干净,避免对所述疾病的舆情因子进行分析时造成了干扰。

步骤15、对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,得到新的疾病数据。

对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,是为了将所述疾病的舆情因子转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

本实施例中,所述数据标准化的方法包括,但不限于:总和标准化、标准差标准化、极大值标准化、极差标准化等。优选为极差标准化,经过极差标准化处理后所得到的新数据的极大值为1,极小值为0,其余各数值在0与1之间。

步骤16、根据所述新的疾病数据计算疾病的舆情因子的衍生变量,根据所述衍生变量对疾病进行预测。

本实施例中,所述衍生变量包括:最大值、最小值、平均数、方差、标准差、协方差、极差(最大值-最小值)、中位数、众数、四分位数。其中,所述平均数、中位数、众数、四分位数描述了疾病的舆情因子的集中程度,疾病的舆情因子的集中程度越大,表明预测出的该疾病越严重;极差、方差、标准差刻画了疾病的舆情因子的离散程度,疾病的舆情因子的离散程度越小,表明预测出的该疾病越严重。

所述舆情数据预测方法,通过接收用户输入的疾病的至少一个关键词,确定互联网中与所述关键词相关的数据源,并利用爬虫程序从所述数据源中爬取与所述关键词相关的疾病数据,对所述疾病数据进行解析得到疾病的舆情因子,接着对所述疾病的舆情因子进行数据清洗和异常值处理,对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,得到新的疾病数据,根据所述新的疾病数据计算疾病的舆情因子的衍生变量,从而根据所述衍生变量对疾病进行预测。通过用户粗略的输入与疾病相关的关键词,利用爬虫程序爬取与输入的关键词相关的疾病数据,得到了与该疾病相关的较全面的疾病的舆情因子;对所述疾病的舆情因子进行数据整理、深度分析和计算,这种对爬取得到的疾病数据进行精细化处理可以获得从基础数据展示到决策性数据展示的目的,为疾病预测提供了参考依据,预测结果准确。

实施例二

图2是本发明实施例二提供的舆情数据预测方法的流程图。根据不同的需求,该流程图中的执行顺序可以改变,某些步骤可以省略。

步骤21、接收用户输入的疾病的至少一个关键词。

本实施例中的步骤21同实施例一中的步骤11,本文再此不再详细赘述。

步骤22、确定互联网中与所述关键词相关的数据源,根据所述数据源的类型对所述数据源进行分类。

本实施例中,可以根据数据源的类型,将与所述关键词相关的数据源分为两大类,第一类为指数型数据源,第二类为舆情量数据源。所述指数型数据源包括,但不限于:百度,谷歌,360等。所述舆情量数据源包括,但不限于:微博、论坛、微信、热搜等。

步骤23、根据对与所述数据源进行分类得到的类别数,设置与所述类别数相同的多线程爬虫程序。

设置不同的爬虫程序对应不同类别的数据源,可以便于更顺畅的爬取到该类别的数据源的数据,可以避免由于不同的数据源的数据的存储格式或者其他问题导致爬取困难或者无法对爬取后的数据进行解析。

本实施例中,若所述数据源分为两类,则对应的设置双线程爬虫程序。例如,百度和微博是两个不同类型的数据源,均有各自的文本存储格式,则设置第一爬虫程序专用于爬取百度中的与所述关键词相关的疾病数据,第二爬虫程序专用于爬取微博中的与所述关键词相关的疾病数据。

在其他实施例中,还可以根据实际需要,将互联网中与所述关键词相关的数据源细分为多个类别,并分别为每一类别的数据源设置对应的爬虫程序。

步骤24、利用所述多线程爬虫程序分别从对应的所述数据源中爬取与所述关键词相关的疾病数据。

本实施例中,将对应爬虫程序的数据源的url放入爬取队列中,所述多线程爬虫程序并行地从所述数据源中爬取与所述关键词相关的疾病数据。

步骤25、对所述疾病数据进行解析得到疾病的舆情因子。

步骤26、对所述疾病的舆情因子进行数据清洗和异常值处理。

步骤27、对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,得到新的疾病数据。

本实施例中的步骤25-27分别对应实施例一中的步骤13-15,本文在此不再详细赘述。

步骤28、根据所述新的疾病数据计算疾病的舆情因子的衍生变量,根据计算出的衍生变量制作成图表进行可视化展示。

优选的,所述步骤24还可以包括:对爬取得到的所述疾病数据进行分类存储。

所述疾病数据存储在本地数据库中或者存储于存储服务器中或者存储于云端中。例如,将从百度爬取的疾病数据存储于本地数据库中第一存储位置,将从微薄爬取的疾病数据存储于本地数据库中的第二存储位置。所述第一存储位置和所述第二存储位置可以同时位于所述本地数据中的同一根目录下,也可以位于不同的根目录下。所述第一存储位置和所述第二存储位置还可以以不同的名称进行区别显示。对从不同的数据源爬取得到的数据进行分类存储,便于对同一数据源的数据进行分析。

优选的,为保证爬取到的疾病数据是最新的,需要定期对疾病数据进行更新,所述方法还可以包括:利用爬虫程序在预设爬虫时间段内从所述数据源中爬取与所述关键词相关的疾病数据。

预设爬虫时间段为预先设置的爬虫时间段,例如,预先设置爬虫时间段在每天晚上的24点到3点,因此时一般访问数据源的服务器的人比较少,不会给数据源的服务器造成很大的访问压力,有利于数据源的服务器的平稳运行,且可以提高爬取效率。

优选地,在利用爬虫程序在预设爬虫时间段内从所述数据源中爬取与所述关键词相关的疾病数据,对所述疾病数据进行解析得到疾病的舆情因子之后,所述方法还可以包括:分别对每个所述疾病的子舆情因子进行量化,得到疾病的子舆情因子的权重,将权重大于预设权重阈值的子舆情因子确定为疾病的舆情因子。

所述对每个所述疾病的子舆情因子进行量化,得到疾病的子舆情因子的权重的具体过程为:计算所述疾病的所有子舆情因子的数量总和,计算每一个子舆情因子占所述总和的百分比,所述百分比为对应的子舆情因子的权重。

预设权重阈值为预先设置的权重阈值,当子舆情因子的权重大于所述预设权重阈值时,将该子舆情因子确定为疾病的舆情因子,能够有效地筛选掉权重较小的子舆情因子,可以减小数据计算量,有效缩短疾病预测时间,而权重较小的子舆情因子不会对疾病预测的结果造成任何影响。

综上所述,所述舆情数据预测方法,通过接收用户输入的疾病的至少一个关键词,确定互联网中与所述关键词相关的数据源,根据所述数据源的类型对所述数据源进行分类,根据对与所述数据源进行分类得到的类别数,设置与所述类别数相同的多线程爬虫程序,利用所述多线程爬虫程序分别从对应的所述数据源中爬取与所述关键词相关的疾病数据,接着对所述疾病的舆情因子进行数据清洗和异常值处理,对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,得到新的疾病数据,根据所述新的疾病数据计算疾病的舆情因子的衍生变量,根据计算出的衍生变量制作成图表进行可视化展示,从而对疾病进行预测。通过设置不同的爬虫程序对应不同类别的数据源,利用多线程爬虫程序爬取从对应的数据源中爬取与输入的关键词相关的疾病数据,并行的爬取方式可以加快爬取的效率,爬取得到的疾病数据的数据格式较为统一,且能够避免由于不同的数据源的数据的存储格式或者其他问题导致爬取困难或者无法对爬取后的数据进行解析的问题的发生;对所述疾病的舆情因子进行数据整理、深度分析和计算,这种对爬取得到的疾病数据进行精细化处理后,制作成图形或表格类,结果展示更加清晰,便于直观的分析问题,为疾病预测提供了参考依据,预测结果准确。

以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。

下面结合第3至5图,分别对实现上述舆情数据预测方法的终端的功能模块及硬件结构进行介绍。

实施例三

图3为本发明实施例三提供的舆情数据预测装置的功能模块图。

在一些实施例中,所述舆情数据预测装置30运行于终端中。所述舆情数据预测装置30可以包括多个由程序代码段所组成的功能模块。所述舆情数据预测装置30中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行(详见图1及其相关描述)对舆情数据的预测。

本实施例中,所述终端的舆情数据预测装置30根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:接收模块301、爬取模块302、解析模块303、清洗模块304、扩大模块305、标准化模块306及预测模块307。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在所述存储器中。在一些实施例中,关于各模块的功能将在后续的实施例中详述。

接收模块301,用于接收用户输入的疾病的至少一个关键词。

所述关键词是与疾病的症状相关的词语,例如,当疾病为感冒时,所述关键词可以包括:打喷嚏、流鼻涕、鼻塞、头痛头晕、咳嗽无痰、喉咙痛等。再如,当疾病为手足口时,所述关键词可以包括:口痛、厌食、低热、手部小疱疹、口部小溃疡等。

为了便于后续爬取到更多与疾病相关的数据,用户可以输入疾病的多个关键词。所述关键词可以是用户根据自身经验获得的疾病的症状,也可以是从疾病专家处收集得到的疾病的症状。

本实施例中,终端预先设置供用户输入疾病的关键词的功能,例如,所述终端提供一文本输入框,用户可通过所述文本输入框输入至少一个关键词。或者,所述终端提供语音助手的功能,用户可通过所述语音助手输入至少一个关键词。

爬取模块302,用于确定互联网中与所述关键词相关的数据源,并利用爬虫程序从所述数据源中爬取与所述关键词相关的疾病数据。

互联网中与所述关键词相关的数据源可以包括,但不限于:百度、谷歌、腾讯、微博、热搜、知乎及任何支持用户搜索访问的网站等。利用爬虫程序从各种数据源中爬取与所述关键词相关的疾病数据可以包括:百度指数、谷歌趋势、腾讯分析、新闻资讯、广告数据、渠道数据、微博热度、论坛舆情信息等。

本实施例中,用户确定互联网中的数据源的全球资源定位器(uniformresourcelocator,url),所述爬虫程序根据url爬取与所述关键词相关的疾病数据。

解析模块303,用于对所述疾病数据进行解析得到疾病的舆情因子。

对疾病数据进行包括舆情分析的具体分析工作,其中包括文本处理、文本分析、词频统计、相关性分析等处理,以获取疾病的舆情因子。

本实施例中,所述疾病的舆情因子可以包括多个子舆情因子,例如,第一子舆情因子、第二子舆情因子、第三子舆情因子、第四舆情因子等。

举例而言,所述第一子舆情因子可以是头痛,所述第二子舆情因子可以是流鼻涕,所述第三子舆情因子可以是发烧、第四子舆情因子可以是咳嗽。

清洗模块304,用于对所述疾病的舆情因子进行数据清洗和异常值处理。

对所述疾病的舆情因子进行数据清洗和异常值处理,是为了消除所述疾病的舆情因子中的冗余数据,得到具有一致性的标准格式的疾病数据,使得清洗和异常值处理后的疾病的舆情因子可用且更适合进行后续的分析工作。

所述清洗模块304,还用于根据所述疾病的舆情因子的类型对所述疾病的舆情因子进行数据清洗。

所述疾病的舆情因子的类型包括,但不限于:含有噪声的疾病的舆情因子、不符合常理的疾病的舆情因子、含有重复信息的疾病的舆情因子、数据不平衡的疾病的舆情因子、不一致的疾病的舆情因子、不完整的疾病的舆情因子等。

对于所述含有噪声的疾病的舆情因子采用去除特大值及负值点的方法进行数据清洗;对于所述不符合常理的疾病的舆情因子采用去除异常值的方法进行数据清洗;对于所述含有重复信息的疾病的舆情因子采用删除重复项的方法进行数据清洗;对于所述不平衡的疾病的舆情因子采用数据去噪的方法进行数据清洗;对于所述不一致的疾病的舆情因子采用按数据类型归类的方法进行数据清洗;对于所述不完整的疾病的舆情因子,采用确立相关标准参照值的方法进行数据清洗。

所述清洗模块304,还用于根据所述疾病的舆情因子的分布对所述疾病的舆情因子进行缺失值替换。

本实施例中,所述疾病的舆情因子的分布包括,但不限于:稳定型及剧烈型。所述稳定型分布的疾病的舆情因子是指所述疾病的舆情因子的变化趋势比较平稳,例如,50、53、52、49、51等。所述剧烈型分布的疾病的舆情因子是指所述疾病的舆情因子的变化趋势比较尖锐,变化幅度较大,例如,50、100、43、89、4等。

对于稳定型分布的所述疾病的舆情因子,可以采用k-最近距离邻居法,根据欧式距离或相关分析来确定距离具有缺失的疾病的舆情因子样本最近的k个样本,将这k个疾病的舆情因子值加权平均来估计该样本的缺失数据;对于稳定型分布的所述疾病的舆情因子,还可以采用预测模型来预测每一个缺失的疾病的舆情因子,如果缺失的疾病的舆情因子是数值型的,可以采用平均值来填充该缺失的疾病的舆情因子,如果缺失的疾病的舆情因子是非数值型的,可以采用众数来填充该缺失的疾病的舆情因子。

对于剧烈型分布的所述疾病的舆情因子,可以采用均值法替代所缺失的疾病的舆情因子。

所述清洗模块304,还用于直接丢弃有异常的疾病的舆情因子。直接将有异常的疾病的舆情因子进行丢弃,可以保证爬取得到的疾病的舆情因子的干净,避免对所述疾病的舆情因子进行分析时造成了干扰。

扩大模块305,用于将通过均值替代后得到的疾病的舆情因子与预设扩大系数进行求积,得到新的疾病的舆情因子作为最终的疾病的舆情因子。由于采用均值法替代所缺失的疾病的舆情因子的方法是建立在完全随机缺失的假设之上,会造成疾病的舆情因子的方差及标准差变小。所述预设扩大系数为预先设置的扩大系数,所述扩大系数大于1。

标准化模块306,用于对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,得到新的疾病数据。

对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,是为了将所述疾病的舆情因子转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

本实施例中,所述数据标准化的方法包括,但不限于:总和标准化、标准差标准化、极大值标准化、极差标准化等。优选为极差标准化,经过极差标准化处理后所得到的新数据的极大值为1,极小值为0,其余各数值在0与1之间。

预测模块307,用于根据所述新的疾病数据计算疾病的舆情因子的衍生变量,根据所述衍生变量对疾病进行预测。

本实施例中,所述衍生变量包括:最大值、最小值、平均数、方差、标准差、协方差、极差(最大值-最小值)、中位数、众数、四分位数。其中,所述平均数、中位数、众数、四分位数描述了疾病的舆情因子的集中程度,疾病的舆情因子的集中程度越大,表明预测出的该疾病越严重;极差、方差、标准差刻画了疾病的舆情因子的离散程度,疾病的舆情因子的离散程度越小,表明预测出的该疾病越严重。

所述舆情数据预测装置30,通过接收模块301接收用户输入的疾病的至少一个关键词,爬取模块302确定互联网中与所述关键词相关的数据源,并利用爬虫程序从所述数据源中爬取与所述关键词相关的疾病数据,解析模块303对所述疾病数据进行解析得到疾病的舆情因子,接着清洗模块304对所述疾病的舆情因子进行数据清洗和异常值处理,标准化模块306对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,得到新的疾病数据,预测模块307根据所述新的疾病数据计算疾病的舆情因子的衍生变量,从而根据所述衍生变量对疾病进行预测。通过用户粗略的输入与疾病相关的关键词,利用爬虫程序爬取与输入的关键词相关的疾病数据,得到了与该疾病相关的较全面的疾病的舆情因子;对所述疾病的舆情因子进行数据整理、深度分析和计算,这种对爬取得到的疾病数据进行精细化处理可以获得从基础数据展示到决策性数据展示的目的,为疾病预测提供了参考依据,预测结果准确。

实施例四

图4为本发明实施例四提供的舆情数据预测装置的功能模块图。

在一些实施例中,所述舆情数据预测装置40运行于终端中。所述舆情数据预测装置40可以包括多个由程序代码段所组成的功能模块。所述舆情数据预测装置40中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行(详见图2及其相关描述)对舆情数据的预测。

本实施例中,所述终端的舆情数据预测装置40根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:接收模块401、分类模块402、设置模块403、爬取模块404、解析模块405、清洗模块406、标准化模块407、可视化模块408、存储模块409及量化模块410。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在所述存储器中。在一些实施例中,关于各模块的功能将在后续的实施例中详述。

接收模块401,用于接收用户输入的疾病的至少一个关键词。

分类模块402,用于确定互联网中与所述关键词相关的数据源,根据所述数据源的类型对所述数据源进行分类。

本实施例中,可以根据数据源的类型,将与所述关键词相关的数据源分为两大类,第一类为指数型数据源,第二类为舆情量数据源。所述指数型数据源包括,但不限于:百度,谷歌,360等。所述舆情量数据源包括,但不限于:微博、论坛、微信、热搜等。

设置模块403,用于根据对与所述数据源进行分类得到的类别数,设置与所述类别数相同的多线程爬虫程序。

设置不同的爬虫程序对应不同类别的数据源,可以便于更顺畅的爬取到该类别的数据源的数据,可以避免由于不同的数据源的数据的存储格式或者其他问题导致爬取困难或者无法对爬取后的数据进行解析。

本实施例中,若所述数据源分为两类,则对应的设置双线程爬虫程序。例如,百度和微博是两个不同类型的数据源,均有各自的文本存储格式,则设置第一爬虫程序专用于爬取百度中的与所述关键词相关的疾病数据,第二爬虫程序专用于爬取微博中的与所述关键词相关的疾病数据。

在其他实施例中,还可以根据实际需要,将互联网中与所述关键词相关的数据源细分为多个类别,并分别为每一类别的数据源设置对应的爬虫程序。

爬取模块404,用于利用所述多线程爬虫程序分别从对应的所述数据源中爬取与所述关键词相关的疾病数据。

本实施例中,将对应爬虫程序的数据源的url放入爬取队列中,所述多线程爬虫程序并行地从所述数据源中爬取与所述关键词相关的疾病数据。

解析模块405,用于对所述疾病数据进行解析得到疾病的舆情因子。

清洗模块406,用于对所述疾病的舆情因子进行数据清洗和异常值处理。

标准化模块407,用于对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,得到新的疾病数据。

可视化模块408,用于根据所述新的疾病数据计算疾病的舆情因子的衍生变量,根据计算出的衍生变量制作成图表进行可视化展示。

存储模块409,用于对爬取得到的所述疾病数据进行分类存储。

所述疾病数据存储在本地数据库中或者存储于存储服务器中或者存储于云端中。例如,将从百度爬取的疾病数据存储于本地数据库中第一存储位置,将从微薄爬取的疾病数据存储于本地数据库中的第二存储位置。所述第一存储位置和所述第二存储位置可以同时位于所述本地数据中的同一根目录下,也可以位于不同的根目录下。所述第一存储位置和所述第二存储位置还可以以不同的名称进行区别显示。对从不同的数据源爬取得到的数据进行分类存储,便于对同一数据源的数据进行分析。

优选的,为保证爬取到的疾病数据是最新的,需要定期对疾病数据进行更新,所述爬取模块404,还用于利用爬虫程序在预设爬虫时间段内从所述数据源中爬取与所述关键词相关的疾病数据。

预设爬虫时间段为预先设置的爬虫时间段,例如,预先设置爬虫时间段在每天晚上的24点到3点,因此时一般访问数据源的服务器的人比较少,不会给数据源的服务器造成很大的访问压力,有利于数据源的服务器的平稳运行,且可以提高爬取效率。

优选地,在利用爬虫程序在预设爬虫时间段内从所述数据源中爬取与所述关键词相关的疾病数据,对所述疾病数据进行解析得到疾病的舆情因子之后,所述舆情数据预测装置40还可以包括量化模块410,用于分别对每个所述疾病的子舆情因子进行量化,得到疾病的子舆情因子的权重,将权重大于预设权重阈值的子舆情因子确定为疾病的舆情因子。

所述对每个所述疾病的子舆情因子进行量化,得到疾病的子舆情因子的权重的具体过程为:计算所述疾病的所有子舆情因子的数量总和,计算每一个子舆情因子占所述总和的百分比,所述百分比为对应的子舆情因子的权重。

预设权重阈值为预先设置的权重阈值,当子舆情因子的权重大于所述预设权重阈值时,将该子舆情因子确定为疾病的舆情因子,能够有效地筛选掉权重较小的子舆情因子,可以减小数据计算量,有效缩短疾病预测时间,而权重较小的子舆情因子不会对疾病预测的结果造成任何影响。

综上所述,所述舆情数据预测装置40,通过接收模块401接收用户输入的疾病的至少一个关键词,分类模块402确定互联网中与所述关键词相关的数据源,根据所述数据源的类型对所述数据源进行分类,设置模块403根据对与所述数据源进行分类得到的类别数,设置与所述类别数相同的多线程爬虫程序,爬取模块404利用所述多线程爬虫程序分别从对应的所述数据源中爬取与所述关键词相关的疾病数据,接着解析模块405对所述疾病数据进行解析得到疾病的舆情因子,清洗模块406对所述疾病的舆情因子进行数据清洗和异常值处理,标准化模块407对经过数据清洗和异常值处理之后的疾病的舆情因子进行数据标准化,得到新的疾病数据,可视化模块408根据所述新的疾病数据计算疾病的舆情因子的衍生变量,根据计算出的衍生变量制作成图表进行可视化展示,从而对疾病进行预测。通过设置不同的爬虫程序对应不同类别的数据源,利用多线程爬虫程序爬取从对应的数据源中爬取与输入的关键词相关的疾病数据,并行的爬取方式可以加快爬取的效率,爬取得到的疾病数据的数据格式较为统一,且能够避免由于不同的数据源的数据的存储格式或者其他问题导致爬取困难或者无法对爬取后的数据进行解析的问题的发生;对所述疾病的舆情因子进行数据整理、深度分析和计算,这种对爬取得到的疾病数据进行精细化处理后,制作成图形或表格类,结果展示更加清晰,便于直观的分析问题,为疾病预测提供了参考依据,预测结果准确。上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,双屏设备,或者网络设备等)或处理器执行本发明各个实施例所述方法的部分。

实施例五

图5为本发明实施例五提供的终端的示意图。

所述终端5包括:存储器51、至少一个处理器52、存储在所述存储器51中并可在所述至少一个处理器52上运行的计算机程序53、至少一条通讯总线54。

所述至少一个处理器52执行所述计算机程序53时实现上述舆情数据预测方法实施例中的步骤,或者,所述至少一个处理器52执行所述计算机程序53时实现上述装置实施例中各模块/单元的功能。

示例性的,所述计算机程序53可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述至少一个处理器52执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序53在所述终端5中的执行过程。

所述终端5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图5仅仅是终端5的示例,并不构成对终端5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端5还可以包括输入输出设备、网络接入设备、总线等。

所述至少一个处理器52可以是中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器52可以是微处理器或者该处理器52也可以是任何常规的处理器等,所述处理器52是所述终端5的控制中心,利用各种接口和线路连接整个终端5的各个部分。

所述存储器51可用于存储所述计算机程序53和/或模块/单元,所述处理器52通过运行或执行存储在所述存储器51内的计算机程序和/或模块/单元,以及调用存储在存储器51内的数据,实现所述终端5的各种功能。所述存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端5的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述终端5集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中,应该理解到,所揭露的终端和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图表记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1