一种信息推送方法及装置与流程

文档序号：11155480阅读：472来源：国知局

本发明涉及数据挖掘技术领域，更具体地说，涉及一种信息推送方法及装置。

背景技术：

信息推送就是通过一定的技术标准或协议，在互联网上通过定期传送用户需要的信息来减少信息过载的一项新技术。

现有技术中主要是通过机器学习来实现信息推送的，具体来说，预先获取预设量的信息，对这部分信息的趣味值进行标注，训练出对应的分类器；当出现新的信息时，将新的信息作为分类器的输入，即可输出信息的趣味值，进而基于该趣味值对信息进行推送。但是这种方式只适用于具有与训练分类器时所使用的信息相同趣味值的信息，对于其他信息则并不适用，因此，难以满足信息推送的应用场景需求。

综上所述，现有技术中的信息推送方案存在仅针对部分信息，不具有通用性的问题。

技术实现要素：

本发明的目的是提供一种信息推送方法及装置，以解决现有技术中的信息推送方案存在的仅针对部分信息，不具有通用性的问题。

为了实现上述目的，本发明提供如下技术方案：

一种信息推送方法，包括：

利用分布式爬虫技术由互联网上采集数据信息，所述数据信息包括互联网文章及对应的文章评论；

利用K最临近回归算法对所述数据信息进行词法分析及语法分析，得到所述数据信息中包含的关键描述短语及每个关键描述短语对应的情感极性强度值；

基于每个所述关键描述短语对应的情感极性强度值确定出所述数据信息的总情感极性强度值，将符合预设要求的总情感极性强度值对应的数据信息推送至指定推荐类应用。

优选的，利用分布式爬虫技术由互联网上采集数据信息，包括：

预先在不同地域部署第一预设数量的服务器，并在每台服务器上使用虚拟机技术创建第二预设数量个容器；

将数据采集任务划分为多个子任务，并将所述多个子任务分配到各个容器上，利用各个容器上的爬虫程序由互联网上采集与被分配到的子任务对应的数据信息。

优选的，对所述数据信息进行词法分析及语法分析之前，还包括：

通过JSOUP将采集到的HTML格式的数据信息转换为JSON格式的数据信息。

优选的，利用K最临近回归算法得出每个关键描述短语对应的情感极性强度值之前，还包括：

确定预先设置的用户词典中是否存在与所述关键描述短语一致的信息，如果是，则确定该信息对应的情感极性强度值为所述关键描述短语的情感极性强度值，如果否，则执行利用K最临近回归算法得到每个关键描述短语对应的情感极性强度值的步骤，并将所述关键描述短语及对应的情感极性强度值加入所述用户词典中。

优选的，将符合预设要求的总情感极性强度值对应的数据信息推送至指定推荐类应用，包括：

选取出最高及最低的总情感极性强度值，并将选取出的总情感极性强度值对应的互联网文章推送至所述指定推荐类应用。

一种信息推送装置，包括：

采集模块，用于利用分布式爬虫技术由互联网上采集数据信息，所述数据信息包括互联网文章及对应的文章评论；

分析模块，用于利用K最临近回归算法对所述数据信息进行词法分析及语法分析，得到所述数据信息中包含的关键描述短语及每个关键描述短语对应的情感极性强度值；

计算模块，用于基于每个所述关键描述短语对应的情感极性强度值确定出所述数据信息的总情感极性强度值，将符合预设要求的总情感极性强度值对应的数据信息推送至指定推荐类应用。

优选的，所述采集模块包括：

部署单元，用于预先在不同地域部署第一预设数量的服务器，并在每台服务器上使用虚拟机技术创建第二预设数量个容器；

采集单元，用于将数据采集任务划分为多个子任务，并将所述多个子任务分配到各个容器上，利用各个容器上的爬虫程序由互联网上采集与被分配到的子任务对应的数据信息。

优选的，还包括：

预处理模块，用于通过JSOUP将采集到的HTML格式的数据信息转换为JSON格式的数据信息。

优选的，还包括：

判别模块，用于确定预先设置的用户词典中是否存在与所述关键描述短语一致的信息，如果是，则确定该信息对应的情感极性强度值为所述关键描述短语的情感极性强度值，如果否，则执行利用K最临近回归算法得到每个关键描述短语对应的情感极性强度值的步骤，并将所述关键描述短语及对应的情感极性强度值加入所述用户词典中。

优选的，所述计算模块包括：

推送单元，用于选取出最高及最低的总情感极性强度值，并将选取出的总情感极性强度值对应的互联网文章推送至所述指定推荐类应用。本发明提供了一种信息推送方法及装置，其中该方法包括：利用分布式爬虫技术由互联网上采集数据信息，所述数据信息包括互联网文章及对应的文章评论；利用K最临近回归算法对数据信息进行词法分析及语法分析，得到数据信息中包含的关键描述短语及每个关键描述短语对应的情感极性强度值；基于每个所述关键描述短语对应的情感极性强度值确定出所述数据信息的总情感极性强度值，将符合预设要求的总情感极性强度值对应的数据信息推送至指定推荐类应用。本申请公开的上述技术特征中，通过爬虫技术获取数据信息，进而利用利用K最临近回归算法对数据信息进行词法分析及语法分析得到数据信息中包含的关键描述短语及每个关键描述短语对应的情感极性强度值，基于每个关键描述短语的情感极性强度值计算出数据信息的总情感极性强度值，以根据该总情感极性强度值对数据信息进行推送。可见，本申请公开的上述技术方案并未对被推送的数据信息有所限定，即可以应用于全部数据信息，因此具有通用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种信息推送方法的流程图；

图2为本发明实施例提供的一种信息推送方法中文本标记引擎的结构示意图；

图3为本发明实施例提供的一种信息推送装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种信息推送方法的流程图，可以包括以下步骤：

S11：利用分布式爬虫技术由互联网上采集数据信息，数据信息包括互联网文章及对应的文章评论。

本申请中获取的数据信息为由互联网上采集的数据，并非来自系统内部，因此可以称之为互联网数据。本申请中获取到的数据信息可以包括由社交媒体和新闻门户等获取的互联网文章及对应的文章评论，具体来说，获取的互联网文章可以为多篇，而互联网文章具体可以为新闻等文章。另外，爬虫技术是一种按照一定规则从互联网中抓取需获取的信息的技术，在这里爬虫技术构建于轻量级虚拟机之上，它通过多个轻量级虚拟机之间的分布式协同，实现更快速的信息获取。

S12：利用K最临近回归算法对数据信息进行词法分析及语法分析，得到数据信息中包含的关键描述短语及每个关键描述短语对应的情感极性强度值。

利用K最临近回归算法实现上述词法分析及语法分析分析的过程具体可以包括：先对数据信息进行中文分词处理，得到该数据信息包含的多个短语，然后统计这些短语中一至三阶共现，即一至三个词组成的短语在文章中出现的频次，并对此频次进行互信息权重和左右信息熵算法的计算(该计算步骤与现有技术中对应概念的实现原理一致，在此不再赘述)，得到两个词或者三个词最可能组成的短语的频率大小，最终提取出频率最大的短语作为关键描述短语，如数据信息为“在这我只想说，这部引人入胜的电影真的太好看啦！”，从中提取出的关键描述短语为“引人入胜”、“太好看”。对应的，该例中计算出的“引人入胜”及“太好看”的情感极性强度值均为+2。

S13：基于每个关键描述短语对应的情感极性强度值确定出数据信息的总情感极性强度值，将符合预设要求的总情感极性强度值对应的数据信息推送至指定推荐类应用。

基于每个关键描述短语对应的情感极性强度值确定出数据信息的总情感极性强度值，或者称之为趣味值，具体可以是确定与每个关键描述短语对应的权重，将任一关键描述短语的情感极性强度值与其权重做乘法计算得到对应的加法因子，再将全部关键描述短语对应的加法因子进行加法计算得到数据信息的总情感极性强度值。最后将符合预设要求的总情感极性强度值(如总情感极性强度值大于预先设定的值)对应数据信息推送至指定推荐类应用。其中指定推荐类应用可以为根据实际需要设定的推荐类应用，如供该推荐类应用将获取的数据信息进行推荐使用。

本申请公开的上述技术特征中，通过爬虫技术获取数据信息，进而利用利用K最临近回归算法对数据信息进行词法分析及语法分析得到数据信息中包含的关键描述短语及每个关键描述短语对应的情感极性强度值，基于每个关键描述短语的情感极性强度值计算出数据信息的总情感极性强度值，以根据该总情感极性强度值对数据信息进行推送。可见，本申请公开的上述技术方案并未对被推送的数据信息有所限定，即可以应用于全部数据信息，因此具有通用性。

另外，本发明提供的上述技术方案具体可以是按照总情感极性强度值按照大小进行排序，进而根据排序得到的序列选取中符合预设要求的一篇或者多篇文章推送至指定推荐类应用，且本申请中上述采集、分析及推送流程是实时更新的，计算速度极快，数秒内完成。

具体来说，本申请中实现利用K最临近回归算法对数据信息进行词法分析及语法分析，得到数据信息中包含的关键描述短语及每个关键描述短语对应的情感极性强度值中所使用到的情感分析算法的核心可以为可插拔式通用文本标记引擎，如图2所示。该引擎结合K-最临近算法(KNN)和回归分析，提出一种基于回归分析的KNN算法(KNNR，K最邻近回归算法)，借助内含的闵可夫斯基距离计算器(MDC)，对数据信息进行词法和语法分析，在分析过程中，KNN算法首先根据选定的多个实体名词在一段长文字中选择锚点(核心点)，再以任意两个字的位置偏移量作为距离，计算每个实体名词与周围两个锚点的距离，进而根据通过训练所得的阈值表划分每个实体名词的实体归属。例如，有实体A与B，在经过KNN算法之后，则变为<A,情感属性>，<B，情感属性>。完成上述KNN算法之后，将锚点实体名词作为被解释变量，围绕实体名词的多个情感属性的变量作为解释变量，根据情感极性强度来实现锚点的回归，回归之后就可以确定该实体名词的符合正态分布的情感属性。

其中，标签压缩器是将多个近似情感属性的标签整合为一个标签的程序，减少情感指数回归运算时的计算复杂度，从而加速整个运算过程。以上过程结合标签压缩器，在完成KNNR之后得到一系列摘要性的关键标签，将这些标签与多种可插拔式的特征库进行匹配，如用户特征库、程度特征库等，匹配的过程是一种特征词典查询过程。匹配后得到的结果存入到标签库(即MySQL数据库)，最后输出到应用层。与此同时，将标签库的数据附加时间的维度，然后存入到标签仓库(即NoSQL数据库)，起到标签归档作用。利用KNNR算法计算文章的情感极性强度值并持久化存储。新闻推送类应用可根据需要从持久化存储中选择合适的内容，如选出极具正能量和极具负能量的文章用以推送。

需要说明的是，可插拔性是本引擎的一个特点，所谓可插拔性，即算法或者服务可以在运行过程中通过配置动态增加、移除或者调整。可插拔通过配置文件实现。配置文件是一个位图，每一位表示一个组件，当标记为1的时候，则表示该组件启用，反之弃用。在程序中，所有子模块都会被默认集成，每个子模块都会首先读取配置表来确定是否被执行。当需要动态调整程序算法时，本引擎通过热编译以及微服务实现秒级的服务停止、修改、重启步骤。本引擎包含多项服务及算法，大部分服务可插拔、算法可插拔，这种高度的可插拔性能够满足组件按需调用的敏捷需求，在情感分析算法应用场景中极为适用。图2中的标签压缩器也为可插拔，当需要时，只需手工配置相关文件即可完成压缩能力的变动。基于回归分析的K最临近回归算法(KNNR)也可插拔，可实现文本回归区域大小的灵活变动。

本发明实施例提供的一种信息推送方法，利用分布式爬虫技术由互联网上采集数据信息，可以包括：

预先在不同地域部署第一预设数量的服务器，并在每台服务器上使用虚拟机技术创建第二预设数量个容器；

将数据采集任务划分为多个子任务，并将多个子任务分配到各个容器上，利用各个容器上的爬虫程序由互联网上采集与被分配到的子任务对应的数据信息。

其中，爬虫程序即为实现爬虫技术的程序，虚拟技术具体可以为Docker轻量级虚拟机技术，而第一预设数量和第二预设数量可以根据实际需要进行确定，在此不做具体限定。分布式爬虫技术可以简单理解为将采集任务进行分布式处理，具体如上述步骤中，预先建立分布式爬虫系统，即上述包含有第一预设数量的服务器的服务器系统，进而将数据采集任务划分为多个子任务，实现分布式处理。具体来说，将数据采集任务划分为多个子任务可以是按照预先设定的任意规则进行划分的，如按照所需采集的互联网位置不同进行划分等，划分完成后可以构建对应的子任务队列，然后通过多地多容器协同的任务调度机制将子任务按需分配至各个容器上执行，从而实现超高并发的分布式爬虫，提高了数据采集效率。

本发明实施例提供的一种信息推送方法，对数据信息进行词法分析及语法分析之前，还包括：

通过JSOUP将采集到的HTML格式的数据信息转换为JSON格式的数据信息。

如果数据信息采集自结构化混乱的网页文本，通过上述方式将数据信息转换为JSON格式的数据信息，能够将将需要分析的数据信息提取出来，而将无关的如HTML标签、JavaScript代码等数据信息都去掉，从而通过上述方式实现对数据信息的预处理，保证了后续对于数据信息的处理效率。

本发明实施例提供的一种信息推送方法，利用K最临近回归算法得出每个关键描述短语对应的情感极性强度值之前，还可以包括：

由此，通过预先设置用户词典的方式保存关键描述短语及情感极性强度值之间的对应的关系，其中一致即为完全相同，由此，方便快捷的实现关键描述短语的情感极性强度值的确定。

本发明实施例提供的一种信息推送方法，将符合预设要求的总情感极性强度值对应的数据信息推送至指定推荐类应用，可以包括：

选取出最高及最低的总情感极性强度值，并将选取出的总情感极性强度值对应的互联网文章推送至指定推荐类应用。

可以按照总情感极性强度值由高到低对其进行排列，然后选取出最高及最低的总情感极性强度值，其对应的数据信息即为被认为为极富情感价值的选择，从而保证了信息推送的情感准确性。

本发明实施例还提供了一种信息推送装置，如图3所示，可以包括：

采集模块11，用于利用分布式爬虫技术由互联网上采集数据信息，数据信息包括互联网文章及对应的文章评论；

分析模块12，用于利用K最临近回归算法对数据信息进行词法分析及语法分析，得到数据信息中包含的关键描述短语及每个关键描述短语对应的情感极性强度值；

计算模块13，用于基于每个关键描述短语对应的情感极性强度值确定出数据信息的总情感极性强度值，将符合预设要求的总情感极性强度值对应的数据信息推送至指定推荐类应用。

本发明实施例提供的一种信息推送装置，采集模块可以包括：

部署单元，用于预先在不同地域部署第一预设数量的服务器，并在每台服务器上使用虚拟机技术创建第二预设数量个容器；

采集单元，用于将数据采集任务划分为多个子任务，并将多个子任务分配到各个容器上，利用各个容器上的爬虫程序由互联网上采集与被分配到的子任务对应的数据信息。

本发明实施例提供的一种信息推送装置，还可以包括：

预处理模块，用于通过JSOUP将采集到的HTML格式的数据信息转换为JSON格式的数据信息。

本发明实施例提供的一种信息推送装置，还可以包括：

匹配单元，用于确定预先设置的用户词典中与关键描述短语匹配的信息，并确定该信息对应的情感极性强度值为关键描述短语的情感极性强度值。

本发明实施例提供的一种信息推送装置，计算模块可以包括：

本发明实施例提供的一种信息推送装置中相关部分的说明请参见本发明实施例提供的一种信息推送方法中对应部分的详细说明，在此不再赘述。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈桓;李鑫楠;黄译萱;蔡晓胜;张良杰;
技术所有人：金蝶软件（中国）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。