基于人工智能的新闻推荐方法及装置与流程

文档序号：12271582阅读：458来源：国知局

本发明实施例涉及信息处理技术领域，尤其涉及一种基于人工智能的新闻推荐方法及装置。

背景技术：

人工智能(Artificial Intelligence，AI)，它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

在信息快速发展的时代，随着互联网技术发展，越来越多的新闻资讯进入大众视野，随之新闻相关产品也出现在人们的日常生活中，与人们日常生活息息相关。例如，常见的新闻相关产品有“今日头条”、“百度好看”、“手机百度资讯”等。它们主要是从各类新闻网站挖掘新闻，根据不同用户的兴趣和新闻本身热度、关注度等情况，将新闻推荐给用户。

由于新闻来源广泛，不可避免有雷同新闻的情况。比如，A网站原创一条新闻，B网络转载，C网站略加修改之后转载，D网站基于相同新闻事件，又原创一条新闻。四则新闻其实是同一事件，新闻推荐产品都会挖掘出来，并不知道其中差别，会都推荐给用户，但是用户往往看过一条新闻之后已经知道新闻事件，没有必要再看到同样的新闻。尤其对于那些标题有差别的雷同新闻，用户往往看完新闻之后才知道是雷同新闻，造成用户时间浪费。

技术实现要素：

本发明实施例提供一种基于人工智能的新闻推荐方法及装置，能够避免重复向用户推荐雷同新闻，以提高新闻推荐效率。

第一方面，本发明实施例提供了一种基于人工智能的新闻推荐方法，包括：

获取待推荐新闻的第一新闻特征和已浏览新闻的第二新闻特征；

根据所述第一新闻特征和所述第二新闻特征确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻；

若为雷同新闻，则拒绝推荐所述待推荐新闻；若为非雷同新闻，则推荐所述待推荐新闻。

第二方面，本发明实施例还提供了一种基于人工智能的新闻推荐装置，包括：

特征获取模块，用于获取待推荐新闻的第一新闻特征和已浏览新闻的第二新闻特征；

雷同确定模块，用于根据所述第一新闻特征和所述第二新闻特征确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻；

新闻推荐模块，用于若为雷同新闻，则拒绝推荐所述待推荐新闻；若为非雷同新闻，则推荐所述待推荐新闻。

本发明实施例提供了一种基于人工智能的新闻推荐的方法，通过确定待推荐新闻和所述已浏览新闻是否为雷同新闻，仅将非雷同新闻推荐给用户，能够有效避免重复向用户推荐雷同新闻，以提高新闻推荐效率。

附图说明

图1是本发明实施例一中的一种基于人工智能的新闻推荐方法的流程图；

图2是本发明实施例二中的一种基于人工智能的新闻推荐方法的流程图；

图3是本发明实施例三中的一种基于人工智能的新闻推荐方法的流程图；

图4是本发明实施例四中的一种基于人工智能的新闻推荐方法的流程图；

图5是本发明实施例五中的一种基于人工智能的新闻推荐方法的流程图；

图6是本发明实施例六中的一种基于人工智能的新闻推荐装置的结构图；

图7是本发明实施例七中的一种基于人工智能的新闻推荐装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种基于人工智能的新闻推荐方法的流程图，本实施例可适用于各种新闻推荐的情况，该方法可以由本发明实施例提供的新闻推荐装置来执行，该装置可采用软件和/或硬件的方式实现，该装置可集成在任何提供新闻推荐功能的设备中，例如典型的是用户终端设备，可以是电脑，也可以是移动终端(例如手机)、平板电脑等，如图1所示，具体包括：

S110、获取待推荐新闻的第一新闻特征和已浏览新闻的第二新闻特征。

其中，新闻是指新近发生的事实的报道，是消息、通讯、特写、速写、报告文学等多种新闻文体的总称，狭义的新闻专指消息。待推荐新闻的第一新闻特征可以是待推荐新闻的标题、正文、图片、视频等，能够详细报道该待推荐新闻的一些关键性信息；同样，已浏览新闻的第二新闻特征也可以是已浏览新闻的标题、正文、图片、视频等，能够详细报道该新闻的一些关键性信息。当获取待推荐新闻的第一新闻特征为推荐新闻的标题时，那么获取已浏览新闻的第二新闻特征也为已浏览新闻的标题；当获取待推荐新闻的第一新闻特征为推荐新闻的正文内容时，那么获取已浏览新闻的第二新闻特征也为已浏览新闻的正文内容；当获取待推荐新闻的第一新闻特征为推荐新闻的视频时，那么获取已浏览新闻的第二新闻特征也为已浏览新闻的视频。获取上述新闻特征的执行主体可以为网页中的搜索引擎，也可以为移动终端中包含的新闻类应用软件。

S120、根据所述第一新闻特征和所述第二新闻特征确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻。

其中，雷同新闻可以是新闻内容完全一样的新闻，也可以是关于同一新闻事件的不同报道，虽然文字表达有所不同，但是实质内容一样。所述第一新闻特征和所述第二新闻特征可以为标题，也可以为正文内容，还可以为图片或者视频等。根据第一新闻特征和所述第二新闻特征确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻。判断是否为雷同新闻的方法可以为Min Hash算法、Shingling算法、Sim Hash去重算法或者构造训练模型(如神经网络模型)等。

具体的，若确定所述待推荐新闻和所述已浏览新闻为雷同新闻，则执行步骤S130，若确定所述待推荐新闻和所述已浏览新闻为非雷同新闻，则执行步骤S140。

S130、拒绝推荐所述待推荐新闻。

S140、推荐所述待推荐新闻。

具体的，如果待推荐新闻和已浏览过的新闻为雷同新闻，说明待推荐新闻和已浏览过的新闻为重复性新闻或者类似新闻，那么应该拒绝该条推荐新闻；但是如果待推荐新闻和已浏览过的新闻为非雷同新闻，说明待推荐新闻和已浏览过的新闻重复性不高，那么可以推荐所述待推荐新闻。

例如，用户A打开手机中的新闻类应用软件浏览新闻，新闻类应用软件的首页会推荐最新、最热、跟用户A生活息息相关或者跟用户A兴趣爱好有关的新闻内容供用户A选择观看。当用户A点开了“2016年国庆节放假安排”的新闻内容时，那么“2016年国庆节放假安排”的标题作为已浏览新闻的第二特征信息。当待推荐新闻为“2016年国庆节放假几天？”时，获取待推荐新闻的标题作为第一新闻特征。由于两个标题雷同，确定待推荐新闻和已浏览新闻为雷同新闻，因此新闻类应用软件不会再为用户A推荐“2016年国庆节放假几天？”的新闻。

由于互联网的崛起给报纸、电视以及杂志等传统媒体带来了巨大挑战，互联网的新闻是突破传统的新闻概念，在视、感方面给用户全新的体验。同一条新闻，不仅有文字和图片，还有视频、音频和网络评论等，呈现方式多种多样。互联网新闻满足了用户在信息时代对信息的需求，但也使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息，对信息的使用效率反而降低了，而通常解决这个问题最常规的办法是新闻推荐。但是互联网上存在大量的近似重复或完全重复的新闻，因此，在用户已经浏览过一个新闻后，不管是一天前浏览过的新闻还是一个月前浏览过的新闻，推荐新闻时都有必要对获取推荐的新闻进行检测，获取待推荐新闻的第一新闻特征和已浏览新闻的第二新闻特征进行比较，避免重复推荐该新闻。

本实施例通过获取待推荐新闻的第一新闻特征和已浏览新闻的第二新闻特征，确定待推荐新闻和所述已浏览新闻是否为雷同新闻，能够有效避免重复向用户推荐雷同新闻，以提高新闻推荐效率。

实施例二

图2为本发明实施例二提供的一种基于人工智能的新闻推荐方法的流程图，本实施例在上述实施例的基础上进行优化，提供了优化的根据所述第一新闻特征和所述第二新闻特征确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻的处理方法，具体是：将所述第一新闻特征和所述第二新闻特征输入神经网络模型中进行学习；根据学习结果确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻。

相应的，本实施例的方法包括：

S210、获取待推荐新闻的第一新闻特征和已浏览新闻的第二新闻特征。

S220、将所述第一新闻特征和所述第二新闻特征输入神经网络模型中进行学习。

其中，神经网络是试图模仿大脑的神经元之间传递，处理信息的模式。神经网络分两个过程包括神经网络模型训练阶段与使用神经网络模型进行学习阶段。典型的神经网络模型有感知器、线性神经网络、BP(Back Propagation)网络、深度学习网络模型等。待推荐新闻和已浏览新闻雷同的确定可以采用已有的模型进行学习，还可以采用在已有的模型基础上改进再进行学习。一般来说，神经网络模型具备两个特性：包括神经元和神经元之间的信息传递的强度。神经网络模型的构建分为三部分，包括输入层，隐含层和输出层。在此基础上，本实施例的神经网络模型在训练阶段，需要依靠大量的已知雷同新闻数据和/或由已知非雷同新闻数据来训练，在使用阶段，将待推荐新闻的数据即第一新闻特征和已浏览新闻的数据即第二新闻特征输入训练好的神经网络模型进行学习，在输出层输出学习结果，根据学习结果可确定待推荐新闻和已浏览新闻是否为雷同新闻。

S230、根据学习结果确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻。

其中，神经网络模型输出的学习结果可以为文字、数值、分值或有关新闻的特征信息。如果输出的学习结果为文字，例如，直接输出雷同新闻和非雷同新闻，根据文字即可确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻；

如果输出的学习结果为分值，则根据输出的分值确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻，例如，如果分值高于预设分值则确定所述待推荐新闻和所述已浏览新闻为雷同新闻，否则，为非雷同新闻；

如果输出的学习结果为数值，则根据输出的数值确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻，例如，如果数值为1则确定所述待推荐新闻和所述已浏览新闻为雷同新闻，如果数值为-1，则确定所述待推荐新闻和所述已浏览新闻为非雷同新闻，等等。

若确定所述待推荐新闻和所述已浏览新闻为雷同新闻，则执行步骤S240，若确定所述待推荐新闻和所述已浏览新闻为非雷同新闻，则执行步骤S250。

S240、拒绝推荐所述待推荐新闻。

S250、推荐所述待推荐新闻。

例如，上述用户A打开手机中的新闻类应用软件浏览新闻。当“2016年国庆节放假安排”的标题作为已浏览新闻的第二特征信息，“2016年国庆节放假几天？”的标题作为获取待推荐新闻的第一新闻特征时，将两个标题“2016年国庆节放假安排”和“2016年国庆节放假几天？”分别输入神经网络模型中进行学习，如果确定结果为雷同新闻，那么拒绝推荐标题为“2016年国庆节放假几天？”的新闻，如果确定结果为非雷同新闻，那么推荐标题为“2016年国庆节放假几天？”的新闻。

本实施例通过将所述第一新闻特征和所述第二新闻特征输入神经网络模型中进行学习确定是否为雷同新闻，由于神经网络模型具有模拟人脑信息处理的功能，因此能够提高判断雷同新闻的精确度与新闻推荐的效率。

实施例三

图3为本发明实施例三提供的一种基于人工智能的新闻推荐方法的流程图，本实施例在上述实施例的基础上进行优化，提供了优化的根据学习结果确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻的处理方法，具体是：若所述学习结果满足预设条件，则确定所述待推荐新闻和已浏览新闻为雷同新闻；若所述学习结果不满足预设条件，则确定所述待推荐新闻和已浏览新闻为非雷同新闻。

相应的，本实施例的方法包括：

S310、获取待推荐新闻的第一新闻特征和已浏览新闻的第二新闻特征。

S320、将所述第一新闻特征和所述第二新闻特征输入神经网络模型中进行学习。

S330、确定学习结果是否满足预设条件。

其中，预设条件包含以下至少一种：所述神经网络模型输出的分值高于预设分值、标题一致、正文相似度高于预设阈值和来源相同。若所述学习结果满足预设条件，则确定所述待推荐新闻和已浏览新闻为雷同新闻，执行步骤S340，若所述学习结果不满足预设条件，则确定所述待推荐新闻和已浏览新闻为非雷同新闻，执行步骤S350。

具体的，当神经网络模型输出的分值高于预设分值时，确定所述待推荐新闻和已浏览新闻为雷同新闻，预设分值可以为系统默认的静态值，也可以为根据个人需求设定的动态值；

当待推荐新闻和已浏览新闻的标题一致时，确定所述待推荐新闻和已浏览新闻为雷同新闻，否则为非雷同新闻；

当待推荐新闻正文相似度高于预设阈值时，确定所述待推荐新闻和已浏览新闻为雷同新闻，否则为非雷同新闻，预设阈值可以为系统默认的静态值，也可以为根据个人需求设定的动态值；

当待推荐新闻和已浏览新闻的来源相同时，确定所述待推荐新闻和已浏览新闻为雷同新闻，否则为非雷同新闻。

例如，以预设条件为正文相似度高于预设阈值为例进行详细说明，若正文相似度高于预设阈值，则确定所述待推荐新闻和已浏览新闻为雷同新闻。其中，可将正文完全雷同的新闻的相似度对应的数值设定为100，将正文完全非雷同的新闻的相似度对应的数值设为0，预设阈值可自定义设定为70。当“2016年国庆节放假安排”的正文相似度作为已浏览新闻的第二特征信息，“2016年国庆节放假几天？”的正文相似度作为获取待推荐新闻的第一新闻特征时，将两个正文“2016年国庆节放假安排”和“2016年国庆节放假几天？”分别输入神经网络模型中进行学习，学习结果为90，由于高于预设阈值70，则确定待推荐新闻和已浏览新闻为雷同新闻，那么拒绝推荐标题为“2016年国庆节放假几天？”的新闻。

S340、拒绝推荐所述待推荐新闻。

S350、推荐所述待推荐新闻。

本实施例通过设定预定条件确定待推荐新闻和已浏览新闻是否为雷同新闻，使得新闻推荐更加精准。

实施例四

图4为本发明实施例四提供的一种基于人工智能的新闻推荐方法的流程图，本实施例在上述实施例的基础上进行优化，提供了将所述第一新闻特征和所述第二新闻特征输入神经网络模型中进行学习的处理方法，具体是：确定判定所述待推荐新闻和所述已浏览新闻是否为雷同新闻所采用的判定雷同标准；若所述判定雷同标准为第一类雷同标准，则采用神经网络模型中的第一类雷同训练子模型对所述第一新闻特征和所述第二新闻特征进行学习，若所述判定雷同标准为第二类雷同标准，则采用神经网络模型中的第二类雷同训练子模型对所述第一新闻特征和所述第二新闻特征进行学习。

相应的，本实施例的方法包括：

S410、获取待推荐新闻的第一新闻特征和已浏览新闻的第二新闻特征。

S420、确定判定所述待推荐新闻和所述已浏览新闻是否为雷同新闻所采用的判定雷同标准。

具体的，确定判定所述待推荐新闻和所述已浏览新闻是否为雷同新闻也可以采用判定雷同标准。其中，判定雷同标准可以有不同的判定标准，包括第一类雷同标准与第二类雷同标准，根据判断待推荐新闻和已浏览新闻更符合哪个判定雷同标准，再根据判定雷同标准对待推荐新闻进行判定。其中，所述第一类雷同标准为同一新闻事件和同一新闻来源，被其它新闻网站进行如下任意一种操作：转载、盗版和改编；所述第二类雷同标准为同一新闻事件，被不同媒体进行如下任意一种操作：报道、原创和附加自己媒体的评论。

具体选择哪个标准作为判定标准，可由用户自定义设置。具体的，可在本发明实施例提供的新闻推荐装置上设置标准选择选项，供用户选择。

若采用的所述判定雷同标准为第一类雷同标准，则执行步骤S430，若采用的所述判定雷同标准为第二类雷同标准，则执行步骤S440。

S430、采用神经网络模型中的第一类雷同训练子模型对所述第一新闻特征和所述第二新闻特征进行学习。

S440、采用神经网络模型中的第二类雷同训练子模型对所述第一新闻特征和所述第二新闻特征进行学习。

其中，第一类雷同标准指同一新闻事件和同一新闻来源，被其它新闻网站进行原封不动的转载、盗版抓取、在原文基础上加上广告等附属内容或者对其内容稍加工和改编等。该类新闻诸多内容完全一致。我们认为基本所有用户对此类新闻阅读一遍足够，不会将其二次展现。如果判定雷同标准为第一类雷同标准时，那么采用神经网络模型中的第一类雷同训练子模型对所述第一新闻特征和所述第二新闻特征进行学习。其中，第一类雷同训练子模型为基于深度学习技术的训练模型。

第二类雷同标准为同一新闻事件、不同的新闻来源。具体指针对同一新闻事件，不同媒体进行报道，原创、附加上媒体自己的评论。该类新闻内容一般不完全一致，但是描述的是一件事情。此类新闻不同的用户需要不同，有的用户在阅读之后不希望二次展现，有的用户希望阅读相同事件在不同媒体的报道。确定判定所述待推荐新闻和所述已浏览新闻是否为雷同新闻也可以采用判定雷同标准。如果判定雷同标准为第二类雷同标准时，那么采用神经网络模型中的第二类雷同训练子模型对所述第一新闻特征和所述第二新闻特征进行学习。其中，第二类雷同训练子模型同样为基于深度学习技术的训练模型。

S450、根据学习结果确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻。

若确定所述待推荐新闻和所述已浏览新闻为雷同新闻，则执行步骤S460，若确定所述待推荐新闻和所述已浏览新闻为非雷同新闻，则执行步骤S470。

具体的，如果采用的是所述第一类雷同标准，通过神经网络模型中的第一类雷同训练子模型对所述第一新闻特征和所述第二新闻特征进行学习，若根据学习结果确定所述待推荐新闻和所述已浏览新闻为雷同新闻，则执行步骤S460，若根据学习结果确定所述待推荐新闻和所述已浏览新闻为非雷同新闻，则执行步骤S470。

或者，如果采用的是所述第二类雷同标准，通过神经网络模型中的第二类雷同训练子模型对所述第一新闻特征和所述第二新闻特征进行学习，若根据学习结果确定所述待推荐新闻和所述已浏览新闻为雷同新闻，且检测到推荐设置项为拒绝推荐，则执行步骤S460；若根据学习结果确定所述待推荐新闻和所述已浏览新闻为非雷同新闻，或，若根据学习结果确定所述待推荐新闻和所述已浏览新闻为雷同新闻，且检测到推荐设置项未设置为拒绝推荐，则执行步骤S470。

S460、拒绝推荐所述待推荐新闻。

S470、推荐所述待推荐新闻。

本实施例通过选择判定雷同标准，确定待推荐新闻和已浏览新闻是否为雷同新闻，使得新闻推荐更加精准。

此外，为保证结果更为精确，也可同时采用第一类雷同标准和第二类雷同标准判定所述待推荐新闻和所述已浏览新闻是否为雷同新闻，即通过同时采用神经网络模型中的第一类雷同训练子模型和第二类雷同训练子模型对所述第一新闻特征和所述第二新闻特征分别进行学习，根据学习结果确定待推荐新闻和已浏览新闻是否为雷同新闻。

本实施例同样通过选择判定雷同标准，根据不同判定雷同标准确定待推荐新闻和已浏览新闻是否为雷同新闻，使得新闻推荐更加精准。

实施例五

图5为本发明实施例五提供的一种基于人工智能的新闻推荐方法的流程图，本实施例在上述实施例的基础上还包括：获取已知雷同新闻和/或已知非雷同新闻；根据所述已知雷同新闻的第三新闻特征构造已知雷同新闻的第一训练样本，和/或根据所述已知非雷同新闻的第四新闻特征构造已知非雷同新闻的第二训练样本；利用神经网络对所述第一训练样本和/或所述第二训练样本进行训练，得到所述神经网络模型。

相应的，本实施例的方法包括：

S510、获取已知雷同新闻和/或已知非雷同新闻。

具体的，神经网络模型为基于深度学习算法的一种雷同新闻去重的训练模型，在待推荐新闻的第一新闻特征和已浏览新闻的第二新闻特征输入神经网络模型中进行学习前，要对神经网络模型进行构造，通过对已知的雷同新闻和已知的非雷同新闻进行分析训练，获得有效判定待推荐新闻是否为雷同新闻的神经网络模型。

例如，可采用爬虫技术从互联网上挖掘新闻数据，根据新闻数据确定雷同新闻和非雷同新闻，将确定的雷同新闻和非雷同新闻分别作为已知雷同新闻和已知非雷同新闻。

S520、根据所述已知雷同新闻的第三新闻特征构造已知雷同新闻的第一训练样本，和/或根据所述已知非雷同新闻的第四新闻特征构造已知非雷同新闻的第二训练样本。

具体的，针对已知雷同新闻，提取已知雷同新闻的新闻特征即第三新闻特征包括但不限于标题、正文和来源，作为第一训练样本，并对训练样本进行标注，即告知神经网络该训练样本为雷同新闻的训练样本。同理，针对已知非雷同新闻，提取已知非雷同新闻的新闻特征即第四新闻特征包括但不限于标题、正文和来源，作为第二训练样本，并对训练样本进行标注，即告知神经网络该训练样本为非雷同新闻的训练样本。。

S530、利用神经网络对所述第一训练样本和/或所述第二训练样本进行训练，得到所述神经网络模型。

具体的，通过对第一训练样本和第二训练样本经过反复多次的训练，得到最终的神经网络模型。其中，第一训练样本对已经雷同新闻的标题、正文内容、图片或者视频等特征进行分别且多次的训练；第二训练样本对已经非雷同新闻的标题、正文内容、图片或者视频等特征进行分别且多次的训练。

S540、获取待推荐新闻的第一新闻特征和已浏览新闻的第二新闻特征。

S550、将所述第一新闻特征和所述第二新闻特征输入神经网络模型中进行学习。

S560、根据学习结果确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻。

若确定所述待推荐新闻和所述已浏览新闻为雷同新闻，则执行步骤S570，若确定所述待推荐新闻和所述已浏览新闻为非雷同新闻，则执行步骤S580。

S570、拒绝推荐所述待推荐新闻。

S580、推荐所述待推荐新闻。

本实施例由于构造的深度神经网络中对于新闻标题与正文进行联合训练，不会仅仅依赖于标题或正文字面的重合度，降低了新闻推荐重复率。

在上述实施例的基础上，所述神经网络模型可以包含第一雷同训练子模型和/或第二雷同训练子模型。其中，第一雷同训练子模型的训练过程包括：

采用爬虫技术挖掘存在转载、盗版和改编中的至少一种关系的新闻聚对，将所述新闻聚对作为第一已知雷同新闻；

将不存在转载、盗版和改编中的至少一种关系的新闻作为第一已知非雷同新闻；

利用神经网络对所述第一已知雷同新闻的训练样本和/或所述第一已知非雷同新闻的训练样本进行训练，得到所述神经网络模型中的第一雷同训练子模型；

采用爬虫技术挖掘具有转载、盗版和改编中的一种关系的新闻，将该新闻作为第一已知雷同新闻。例如，A被B转载、B被C转载，则A、B、C两两都是存在转载关系的聚对，可以通过新闻内部明确注明“出处”及其链接，找到某一新闻转载于哪里。

类似的，将不存在转载、盗版和改编中的至少一种关系的新闻作为第一已知非雷同新闻。在通过爬虫技术挖掘到整个新闻集合中，任意挑出两条新闻样本，如果这两条新闻不是第一已知雷同新闻，我们认为这样的新闻对为第一已知非雷同新闻。相应的，神经网络模型中的第一雷同训练子模型由第一已知雷同新闻的训练样本和第一已知非雷同新闻的训练样本进行训练而成。例如，爬虫技术对关于“2016年国庆放假安排”的所有新闻进行挖掘，把属于同一新闻内容、同一新闻来源的该新闻进行新闻聚对，作为第一已知雷同新闻；把随意挑出来的两个新闻不是第一已知雷同新闻作为第一已知非雷同新闻。最后训练得到关于新闻“2016年国庆放假安排”的神经网络模型中的第一雷同训练子模型。

其中，第二雷同训练子模型的训练过程包括：

采用爬虫技术挖掘新闻标题、内容和发布时间匹配程度超过预设程度的新闻组合，将所述新闻组合作为第二已知雷同新闻；

将所述匹配程度未过预设程度的新闻作为第二已知非雷同新闻；

利用神经网络对所述第二已知雷同新闻的训练样本和/或所述第二已知非雷同新闻的训练样本进行训练，得到所述神经网络模型中的第二雷同训练子模型。

通过网络爬虫技术挖掘一部分新闻，利用这部分新闻的标题和内容去搜索引擎搜索，通过搜索引擎返回结果找到相似各种新闻。如果两条新闻新闻发布时间匹配程度超过预设程度、两条新闻内容字面重合程度高或者新闻标题的新闻组合，我们认为将新闻组合作为第二已知雷同新闻。其中，新闻匹配程度超过预设程度中的预设程度可以为默认的静态值，也可以为依据个人需要设定的动态值。

神经网络模型中的第二雷同训练子模型由第二已知雷同新闻的训练样本和第二已知非雷同新闻的训练样本进行训练而成。例如，爬虫技术对关于“2016年国庆放假安排”的所有新闻进行挖掘，把属于同一新闻事件、相近发布时间、不同新闻来源的该新闻进行新闻组合，作为第二已知雷同新闻；把随意挑出来的两个新闻不是第二已知雷同新闻作为第二已知非雷同新闻。最后训练得到关于新闻“2016年国庆放假安排”的神经网络模型中的第二雷同训练子模型。

本实施例对神经网络模型中的第一雷同训练子模型和第二雷同训练子模型的构造进行了详细说明，这种针对新闻雷同这个专门的应用进行有针对性的、有监督的训练能够提高新闻推荐效率。

实施例六

图6所示为本发明实施例六提供的一种基于人工智能的新闻推荐装置的结构示意图。本实施例可适用于各种新闻推荐的情况，该方法可以由本发明实施例提供的新闻推荐装置来执行，该装置可采用软件和/或硬件的方式实现，该装置可集成在任何提供新闻推荐功能的设备中，例如典型的是用户终端设备，可以是电脑，也可以是移动终端(例如手机)、平板电脑等，如图6所示，具体包括：特征获取模块61、雷同确定模块62和新闻推荐模块63。

特征获取模块61用于获取待推荐新闻的第一新闻特征和已浏览新闻的第二新闻特征；

雷同确定模块62用于根据所述第一新闻特征和所述第二新闻特征确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻；

新闻推荐模块63用于若为雷同新闻，则拒绝推荐所述待推荐新闻；若为非雷同新闻，则推荐所述待推荐新闻。

本实施例所述新闻推荐装置用于执行上述各实施例所述的新闻推荐方法，其技术原理和产生的技术效果类似，这里不再赘述。

实施例七

图7所示为本发明实施例七提供的一种基于人工智能的新闻推荐装置的结构示意图。如图7所示：

在上述实施例的基础上，雷同确定模块62优选包括学习单元71和雷同确定单元72。

学习单元71用于将所述第一新闻特征和所述第二新闻特征输入神经网络模型中进行学习；

雷同确定单元72用于根据学习结果确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻。

在上述实施例的基础上，雷同确定单元72具体用于：若所述学习结果满足预设条件，则确定所述待推荐新闻和已浏览新闻为雷同新闻；若所述学习结果不满足预设条件，则确定所述待推荐新闻和已浏览新闻为非雷同新闻

在上述实施例的基础上，所述装置的预设条件包含以下至少一种：所述神经网络模型输出的分值高于预设分值、标题一致、正文相似度高于预设阈值和来源相同。

在上述实施例的基础上，学习单元71具体用于：确定判定所述待推荐新闻和所述已浏览新闻是否为雷同新闻所采用的判定雷同标准；若所述判定雷同标准为第一类雷同标准，则采用神经网络模型中的第一类雷同训练子模型对所述第一新闻特征和所述第二新闻特征进行学习；或者，若所述判定雷同标准为第二类雷同标准，则采用神经网络模型中的第二类雷同训练子模型对所述第一新闻特征和所述第二新闻特征进行学习。

在上述实施例的基础上，所述第一类雷同标准为同一新闻事件和同一新闻来源，被其它新闻网站进行如下任意一种操作：转载、盗版和改编；和/或，所述第二类雷同标准为同一新闻事件，被不同媒体进行如下任意一种操作：报道、原创和附加自己媒体的评论。

在上述实施例的基础上，所述新闻推荐模块63具体用于：若根据所述第一类雷同标准确定所述待推荐新闻和所述已浏览新闻为雷同新闻，则直接拒绝推荐所述待推荐新闻；或者，若根据所述第二类雷同标准确定所述待推荐新闻和所述已浏览新闻为雷同新闻，且检测到推荐设置项为拒绝推荐，则拒绝推荐所述待推荐新闻。

在上述实施例的基础上，所述的装置还包括新闻获取模块73、样本构造模块74和神经网络训练模块75。

新闻获取模块73用于获取已知雷同新闻和/或已知非雷同新闻；

样本构造模块74用于根据所述已知雷同新闻的第三新闻特征构造已知雷同新闻的第一训练样本，和/或根据所述已知非雷同新闻的第四新闻特征构造已知非雷同新闻的第二训练样本；

神经网络训练模块75用于利用神经网络对所述第一训练样本和/或所述第二训练样本进行训练，得到所述神经网络模型。

在上述实施例的基础上，所述神经网络模型的输出结果满足以下条件：所述待推荐新闻和所述已浏览新闻为雷同新闻的分值高于为非雷同新闻的分值。

在上述实施例的基础上，所述新闻获取模块61具体用于：采用爬虫技术挖掘存在转载、盗版和改编中的至少一种关系的新闻聚对，将所述新闻聚对作为第一已知雷同新闻；将不存在转载、盗版和改编中的至少一种关系的新闻作为第一已知非雷同新闻；

相应的，所述神经网络训练模块75具体用于：利用神经网络对所述第一已知雷同新闻的训练样本和/或所述第一已知非雷同新闻的训练样本进行训练，得到所述神经网络模型中的第一雷同训练子模型；

和/或，所述新闻获取模61具体用于：采用爬虫技术挖掘新闻标题、内容和发布时间匹配程度超过预设程度的新闻组合，将所述新闻组合作为第二已知雷同新闻；将所述匹配程度未过预设程度的新闻作为第二已知非雷同新闻；

相应的，所述神经网络训练模块75具体用于：利用神经网络对所述第二已知雷同新闻的训练样本和/或所述第二已知非雷同新闻的训练样本进行训练，得到所述神经网络模型中的第二雷同训练子模型。

本实施例所述新闻推荐的装置用于执行上述各实施例所述的新闻推荐的方法，其技术原理和产生的技术效果类似，这里不再赘述。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田植良;
技术所有人：北京百度网讯科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。