一种基于移动设备的网页健康度的测评方法、装置及系统与流程

文档序号：13876232阅读：176来源：国知局

本发明涉及一种信息技术领域，尤其涉及一种对手机应用内容健康度的测评方法、电子设备、存储介质及系统。

背景技术：

目前，随着当今移动互联网技术的迅速更新与发展，通过互联网、手机应用(比如app等)已经成为人们获取和传递消息的重要载体。如今网民可以通过各种移动设备访问各种网页、论坛、博客等网上交流平台，并自由地就各种话题发表自己的见解。但是，不可忽视的是网络舆情事件同时也对网民态度、社会稳定产生了极为重大的影响，其发生范围之广、传播速度之快，时时令人感到震惊。网络舆情事件已经成为当前网络信息技术研究热点之一，尤其是利用信息技术对网络舆情进行挖掘和分析已经成为网络舆情事件研究的重中之重。虽然当前已设立的部分舆情监测平台已经具备了舆情信息的检索、分类、聚类、过滤、摘要等基本信息挖掘动能。而移动互联网在近几年比较流行，但是却缺少一套完善的针对移动设备上的应用的内容监测系统。

技术实现要素：

为了克服现有技术的不足，本发明的目的之一在于提供一种基于移动设备的网页健康度的测评方法，其能够解决现有技术中缺少对于移动设备的应用app的网页内容的健康度测评的问题。

本发明的目的之二在于提供一种电子设备，其能够解决现有技术中缺少对于移动设备的应用app的网页内容的健康度测评的问题。

本发明的目的之三在于提供一种计算机可读存储介质，其能够解决现有技术中缺少对于移动设备的应用app的网页内容的健康度测评的问题。

本发明的目的之四在于提供一种基于移动设备的网页健康度的测评系统，其能够解决现有技术中缺少对于移动设备的应用app的网页内容的健康度测评的问题。

本发明的目的之一采用如下技术方案实现：

一种基于移动设备的网页健康度的测评方法，包括以下步骤：

数据获取步骤：逐个调用每个采集任务并根据每个采集任务获取网页中的目标数据；

数据处理步骤：根据目标数据的类型分别对目标数据进行归类处理并得出归类结果，从而根据目标数据的归类结果得出网页健康度的分析结果。

进一步地，目标数据的类型包括文本数据类型、音频数据类型、图像数据类型和视频数据类型。

进一步地，所述采集任务包括入口url、任务描述、多个抽取模板和其他参数配置；数据获取步骤具体包括：根据采集任务获取入口url，并根据入口url进入对应网页，然后逐个根据每个抽取模板对对应的网页进行数据抽取，从而获取对应的目标数据。

进一步地，所述抽取模板至少包括模板描述、url正则表达式、页面下载器以及抽取字段列表；其中，模板描述是对对抽取模板的描述；url正则表达式用于匹配需要进行数据抽取的网页的url；页面下载器用于获取网页信息；抽取字段列表包括从网页中抽取的字段以及抽取对应字段的方法。

进一步地，所述数据获取步骤与数据处理步骤之间还包括数据存储步骤：通过分布式存储系统对目标数据进行对应存储。

本发明的目的之二采用如下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如前所述的基于移动设备的网页健康度的测评方法的步骤。

本发明的目的之三采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如前所述的基于移动设备的网页健康度的测评方法的步骤。

本发明的目的之四采用如下技术方案实现：

一种基于移动设备的网页健康度的测评系统，包括：爬虫配置模块、任务调度模块、数据采集模块和数据处理模块，爬虫配置模块用于根据网页配置对应的采集任务和抽取模板；所述任务调用模块用于对采集任务进行管理和调度；数据采集模块用于根据采集任务采集对应的目标数据并发送给数据处理模块，从而使得数据处理模块根据目标数据的类型分别对目标数据进行归类处理，并最终得出网页健康度的分析结果。

进一步地，还包括数据存储模块，数据存储模块用于将数据采集模块所采集的目标数据进行存储。

进一步地，还包括程序日志模块，程序日志模块用于记录系统中执行过程的状态、操作以及各种报错信息。。

相比现有技术，本发明的有益效果在于：

本发明通过配置对应的网页模板和采集任务，然后针对网页中的不同数据进行采集并进行归类处理，从而得出网页中数据内容的健康度的测评结果，实现了对于网页站点中数据内容的分析、监测等，为建立良好的网络环境提供了基础。

附图说明

图1为本发明提供的基于移动设备的网页健康度的测评系统模块图；

图2为本发明提供的基于移动设备的网页健康度的测评方法流程图；

图3为本发明提供的视频数据的处理过程示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例

本发明通过对移动设备中各个网页中的数据进行采集、处理、存储、分析、归类等从而能够对网页中的数据进行监测分析、评估等，达到对移动设备上网页健康度的监测分析。比如监测分析某一应用app的健康度等。

如图1和2所示，一种基于移动设备的网页健康度的测评系统，包括任务调度模块、爬虫配置模块、数据采集模块、数据存储模块、数据处理模块以及程序日志模块。

系统对数据采集之前，首先通过爬虫配置模块配置对应的网页模板，然后根据配置的网页模板对目标数据进行采集。

在配置网页模板时，需要配置目标站点、采集任务和抽取模板，其中目标站点比如腾讯、微博、新浪等门户网站，也即是要采集数据的目标网址，对于一个网站中可包括多个网页、链接等。而采集任务是根据采集的数据不同或其他预设的规则进行划分的。本发明中的采集任务有多个，比如针对娱乐数据的、针对国内新闻数据、针对文本数据、针对视频数据等，可根据不同的需求或规则，将建立多个采集任务。

另外，每个采集任务均包含一个入口url、任务描述、多个抽取模板和其他参数配置。入口url表示进入目标站点的入口网址，任务描述用于对采集任务的简单描述，参数配置可能包括一些系统参数，比如创建时间等一些系统数据。而抽取模板至少包含模板描述、url正则表达式、页面下载器、抽取字段列表四个部分。模板描述是对抽取模板的简单描述，使得描述该抽取模板的作用；url正则表达式负责匹配指定url的网页，只有网页的url与该抽取模板的url正则表达式匹配时，该网页才能被该抽取模板处理；页面下载器用于负责获取网页信息，比如获取网页中固定的数据包、信息等；抽取字段列表定义了一组要从网页中抽取出来的字段以及抽取该字段的方法。

当模板建立好后，通过任务调度模块逐个调用每个采集任务。任务调度模块用于协调管理采集任务执行的先后顺序、管理每个采集任务的生命周期等。比如当一个采集任务执行完成后，将采集任务从系统中删除等操作。

数据采集模块用于根据每个采集任务采集对应的数据并将其发送给数据存储模块。比如，数据采集模块通过采集任务获取入口url，然后进入目标站点，并根据每个抽取模板的url正则表达式匹配到对应的网页，在根据抽取字段以及页面下载器来抽取到对应网页中的数据。

另外，对于一个抽取模板可能被多个采集任务所引用，一个目标站点可以包含多个采集任务。对于一个具体的采集任务中，一个网页可能被采集任务中多个抽取模板所处理。比如同一个网页中可能涉及到视频、音频、文本、新闻、娱乐等数据，这样在抽取时，就有可能被多个采集任务进行处理，也可以被同一个采集任务中的多个抽取模板所处理。

数据存储模块用于对采集的数据对应存储。另外，对于数据采集模块所采集到的数据，首先经过数据存储模块进行存储，这样可避免因为采集到的数据没有及时地被数据处理模块进行处理而丢失。由于采集的互联网中的数据，其数据量很多、很大，因此，本发明在对数据进行存储时，采用分布式存储，可以提高存储效率。比如采用kafka，其是一种分布式存储系统，基于发布/订阅的消息系统，由apache维护。该存储系统具有以下优势：a、访问性能好、速度快，其是以时间复杂度为o(1)的方式提供消息持久化能力，即使对tb级以上数据也能保证常数时间的访问性能；b、高吞吐率，其即使在非常廉价的商用机器上也能做到单机支持每秒100k条消息的传输；c、支持kafkaserver间的消息分区以及分布式消费，同时保证每个partition内的消息顺序传输；d、还同时支持离线数据处理和实时数据处理；e、还可实现业务分离等。

数据处理模块用于对采集到的数据根据数据类型的不同分别进行对应处理、分析、归类以及评估等处理，从而根据处理结果分析得出网页内容的健康度分析结果。程序日志模块用于记录系统内执行过程的状态、重要操作和各种报错信息等。

其中，数据类型包括文本数据类型、图像数据类型、音频数据类型和视频数据类型。

对于文本数据的处理本发明采用基于关键词以及命中规则的文本分类模型进行处理、分析以及分类的，其具体处理过程如下：

a1、对所采集的文本数据进行预处理。预处理包括分析处理、去除停用词、翻译等操作。另外，本发明中的文本数据，不仅仅限于中文，其还可以涉及到其他比较常见的语言：英文、日文等。

a2、逐个利用滑动窗口对预处理后的文本数据通过关键词匹配原则对其进行匹配并得出每个关键词的命中结果。

a3、根据每个关键词的命中结果得出文本数据的类别。

另外，本发明中的关键词匹配并不是简单地相同就认为命中，在判断命中时还需要符合预先设置的匹配规则。系统预先设置了文本数据的所属类别表，其中，类别比如性感、涉黄、暴力等，一个类别包含类别名称、关键词集合、匹配规则等。而且，在关键词匹配过程中设置滑动窗口，滑动窗口包括滑动窗口大小和滑动位移，其中滑动位移是以词为单位的滑动位移。滑动窗口在文本信息中滑动，每滑动逐个，窗口内的全部词语需要进行逐个类别匹配，符合匹配规则认为该文本数据属于该种类别，直到窗口遍历整个文本，从而得出一个文本所属的多个可能的类别。

其中，这里的滑动窗口指的是每一次进行匹配的词数量，比如预处理得到的文本数据为：text＝＜word1,word2,word3,word4,word5,word6......wordn＞，设定滑动窗口大小为3，滑动位移为2，则一开始对关键词进行匹配时，首先选择窗口内的word1,word2,word3三个关键词与系统中关键词表中的全部类别进行匹配，并判断每个关键词的命中情况是否符合匹配规则，然后每次滑动两个单词的量，来对文本数据中每个关键词进行匹配，并判断其命中情况，最终根据文本数据中所有关键词的命中情况来判断出文本数据所属的类别。另外，对于滑动大小以及滑动位移具体设置为多少，可根据具体的需求进行设置。

对于音频数据的处理，是基于深度学习算法的音频处理技术首先对其进行识别处理，将其转换为对应的文本数据，最后在通过对文本数据的归类方法来判断音频数据所属的类别。

对于图像数据的处理，其是通过基于深度学习算法的图像识别技术来判断图像数据所属的类别，其处理过程如下：

在识别时，通过将待识别的图像与系统中的图像识别模型中的图像进行匹配，从而得到待识别图像的所属类别。而图像识别模型是通过预先收集大量的相关图片作为训练集，通过卷积神经网络算法建立的。

对视频数据的处理，首先对视频数据文件进行抽帧处理，将视频数据文件分解成多个图片的集合，并对集合中的图片去重处理，然后通过系统中建立的图像识别模型对每个图片进行识别，从而判断出每个图片的所属类别，最终根据所有图片的所属类别得出视频数据的所属类别，如图3所示为视频数据的归类处理示意图。

另外，对于数据来说，其类型不仅仅只包括本实施例中所提到的文本数据类型、音频数据类型、图像数据类型和视频数据类型，还可以是其他的数据类型，而这些数据类型均可以通过间接或直接的方式转换为本实施例中所提到的数据类型，然后进行相应的处理，其具体可参照实际的应用，这里不再一一举例介绍。

本发明提供了一种基于移动设备的网页健康度的测评方法，包括以下步骤：

s1、逐个调用每个采集任务并根据每个采集任务获取网页中的目标数据；

s2、根据目标数据的类型分别对目标数据进行归类处理并得出对应的归类结果，从而根据目标数据的归类结果得出网页健康度的分析结果。

其中s1和s2之间还包括s3：将采集的目标数据通过分布式存储系统进行对应存储。这样可使得采集的目标数据首先进行缓存，而不至于出现当采集的目标数据较多而来不及处理，使得数据丢失的现象。

本发明还提供了一种电子设备，其包括存储器、处理器以及存储在存储器上并可在处理上运行的计算机程序，所述处理器执行所述程序时实现如前所述的基于移动设备的网页健康度的测评方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如前所述的基于移动设备的网页健康度的测评方法的步骤。

本发明应用于移动设备上网页的健康度分析，也可以应用于移动设备上的应用app的健康度的分析。比如通过对应用app的使用数据测评，可以得出该应用app的健康度，建议用户是否使用等问题。比如该应用app的使用是否健康、涉及到哪些内容等。另外，还可以根据该测评方法对大多数的网站、app等进行健康度的测评，从而实现对网络环境的监管，为提供良好的网络环境提供了基础。当然，本发明也可以应用于pc端的各个网页或网页站点的数据内容的健康度的监测分析。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄晋;蔡致暖;何金城;莫根生
技术所有人：广州数沃信息科技有限公司
我是此专利的发明人

上一篇：一种化妆品加工用均质化真空乳化机的制作方法
上一篇：一种实验室用乳化机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。