用于确定新闻主题的方法与设备与流程

文档序号:14571866发布日期:2018-06-01 22:42阅读:195来源:国知局
用于确定新闻主题的方法与设备与流程

本申请涉及通信技术领域,尤其涉及一种用于确定新闻主题的技术。



背景技术:

随着信息技术的飞速发展,人们的生活面临着越来越多的信息,例如,新闻等,在如此海量的新闻中,用户感兴趣的新闻可能只是包含一个或几个类别,现有技术中,虽然对新闻进行了不同的分类,但是存在分类粗略、不够精细的问题,因此,如何解决这个问题、更好的满足用户的需求,成为一个亟待解决的问题。



技术实现要素:

本申请的目的是提供一种用于确定新闻主题的方法与设备。

根据本申请的一个方面,提供了一种用于确定新闻主题的方法,其中,该方法包括:

对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;

对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;

基于所述聚类簇确定所述目标新闻对应的目标新闻主题。

根据本申请的另一方面,还提供了一种用于确定新闻主题的设备,其中,该设备包括:

第一装置,用于对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;

第二装置,用于对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;

第三装置,用于基于所述聚类簇确定所述目标新闻对应的目标新闻主题。

与现有技术相比,本申请通过对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;基于所述聚类簇确定所述目标新闻对应的目标新闻主题。这种确定目标新闻主题的方式,能够使确定的新闻主题更精细,从而更好的满足不同用户的需求,提升用户的体验。

此外,本申请还可以根据所述目标新闻的热度信息、发布时间、发布地点、图片信息、长度信息、传播信息等附加特征,确定所述目标新闻的附加属性信息,这种方式,能够更好、更全面的增加新闻的属性信息,以使用户能够更好地根据自己的需求选择不同的新闻。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1示出根据本申请一个优选实施例的一种用于确定新闻主题的拓扑图;

图2示出根据本申请一个方面的一种用于确定新闻主题的方法流程图;

图3示出根据本申请一个优选实施例的一种用于确定新闻主题的方法流程图;

图4示出根据本申请另一个方面的一种用于确定新闻主题方法的设备示意图;

图5示出根据本申请另一个优选实施例的一种用于确定新闻主题方法的设备示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

为更进一步阐述本申请所采取的技术手段及取得的效果,下面结合附图及较佳实施例,对本申请的技术方案,进行清楚和完整的描述。

图1示出根据本申请一个优选实施例的一种用于确定新闻主题的拓扑图,在该拓扑图中,在此,所述网络设备11对应为一个设备或是多个设备集群,所述网络设备11优选为各种计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。所述终端设备12及所述网络设备13为提供所述多条新闻的设备,包括但不限于各种移动智能设备、计算机、网络主机、单个网络服务器等。在此,所述网络设备11对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量,然后基于预设的知识图谱和所述词向量确定所述目标新闻对应的目标新闻主题。

图2示出本申请一个方面提供的一种用于确定新闻主题的方法,其中,该方法包括:

S1对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;

S2对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;

S3基于所述聚类簇确定所述目标新闻对应的目标新闻主题。

在该实施例中,在所述步骤S1中,设备1对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量。在此,所述设备1包括但不限于各种移动智能设备、个人计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;其中,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机;所述设备1还包括各种智能终端,如移动智能设备、个人计算机等。当然,本领域技术人员应能理解上述设备1仅为举例,其他现有的或今后可能出现的设备1如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

在此,所述目标新闻包括新闻主题未确定的新闻;所述词向量是对所述目标新闻进行切词处理后获取到的、具有实体意义的、与确定所述目标新闻主题有关的词。优选地,其中,所述步骤S1包括:对所述目标新闻进行切词处理,获取切词结果;在所述切词结果中确定所述目标新闻的词向量。在此,所述切词结果包括所述目标新闻中的所有词,具体地,在所述切词结果中确定所述目标新闻的词向量的方式,可以通过将所述切词结果中没有实体意义的词向量删除,例如,将所述切词结果中的“的”、“了”、“中”、“和”等等与确定所述目标新闻主题的词向量删除。

继续在该实施例中,在所述步骤S2中,设备1对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量。具体地,设备1在确定了词向量之后,统计每个词向量在所述目标新闻中的出现次数,并把每一个不重复的词向量作为一个聚类簇的基础,对每个不重复的词向量进行扩充聚类,从而确定与所述词向量对应的聚类簇。

优选地,其中所述步骤S2包括:基于预设的知识图谱对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及基于预设的知识图谱确定的所述词向量的扩充词向量。在此,所述预设的知识图谱包括基于所述词向量进行的扩展,例如,可以基于一个词向量的不同属性扩展出其他不同的词向量,比如,所述目标新闻中包含“姚明”这个词向量,那么姚明在所述知识图谱中会包含其地理属性“上海”,以及其身份属性“篮球运动员”等等,则“上海”及“篮球运动员”就属于所述目标新闻中包含的词向量“姚明”的扩充词向量,因此,“姚明”、“篮球运动员”、“上海”包含在一个聚类簇中。

优选地,其中所述步骤S2包括:基于语义分析对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及基于语义分析确定的所述词向量的扩充词向量。在此,还可以基于语义分析对所述目标新闻对应的词向量进行扩充聚类,例如,所述语义分析包括但不限于基于所述词向量的语义进行的近义词等等的扩展,以使所述聚类簇包括所述词向量及其与所述词向量相近的扩充词向量。

继续在该实施例中,在所述步骤S3中,所述设备1基于所述聚类簇确定所述目标新闻对应的目标新闻主题。在此,所述目标新闻的每个不重复的词向量都会对应一个聚类簇,具体地,所述设备1可以根据每个聚类簇的主题来确定所述目标新闻对应的目标新闻主题,例如,如果个数较多的聚类簇对应的新闻主题是体育新闻,则可以确定所述目标新闻对应的目标新闻主题为体育新闻。

图3示出本申请一个优选实施例的一种用于确定新闻主题的方法,其中,图3中的步骤S1'、S2'与图2实施例中的步骤S1、S2相同或基本相同,故在此不再赘述,仅以引用的方式包含于此。优选地,其中,所述步骤S3'包括:S31'基于所述聚类簇中的所述词向量及所述词向量的扩充词向量,确定所述聚类簇的聚类主题;S32'基于所述聚类簇的聚类主题确定所述目标新闻对应的目标新闻主题。

在该实施例中,为了确定所述目标新闻对应的目标新闻主题,首先确定所述目标新闻中对应的多个聚类簇的聚类主题,然后进一步地,基于所述聚类簇的聚类主题确定所述目标新闻对应的目标新闻主题。

因此,在所述步骤S31'中,所述设备1基于所述聚类簇中的所述词向量及所述词向量的扩充词向量,确定所述聚类簇的聚类主题。优选地,其中,所述步骤S31'包括:基于所述聚类簇中的所述词向量及所述词向量的扩充词向量的出现频率,确定所述聚类簇的聚类主题。具体地,本领域的技术人员可以理解,每个词向量在所述目标新闻中出现的频率是不同的,不难理解,出现频率较高的词向量所代表的主题能够更好地反映该词向量所对应的聚类簇的聚类主题,进而能够更好的反映所述目标新闻对应的目标新闻主题。

优选地,所述步骤S31'包括:S311'(未示出)所述设备1基于所述聚类簇中的所述词向量的出现频率,确定所述聚类簇的第一聚类主题;S312'(未示出)所述设备1基于所述第一聚类主题及所述词向量的扩充词向量在所述目标新闻中的出现频率,确定所述聚类簇的聚类主题。

具体地,在所述步骤S311'中,所述设备1基于所述聚类簇中的所述词向量的出现频率,确定所述聚类簇的第一聚类主题,在此,所述聚类簇的第一聚类主题是基于所述词向量在所述目标新闻中的出现频率确定的,能够反映所述词向量所在的聚类簇的基本主题,即所述第一聚类主题。优选地,其中,所述步骤S311'包括:将所述词向量在所述目标新闻中的出现频率、与所述词向量在新闻库中对应新闻主题的出现频率的频率阈值作比较;当所述词向量在所述目标新闻中的出现频率大于在所述对应新闻主题的出现频率的频率阈值,确定所述对应新闻主题为所述聚类簇的第一聚类主题。

在此,所述新闻库中包含新闻主题确定的海量新闻,例如,体育新闻、娱乐新闻、教育新闻、军事新闻、财经新闻等等;所述目标新闻中的出现频率是指所述词向量的出现次数与所述目标新闻的总的词向量的数目的比值,本领域的技术人员应能理解,某个词向量在所述目标新闻中的出现比重越大,则对该第一聚类主题的影响越大,因此,可以通过所述词向量的出现频率,在新闻库中确定所述聚类簇的第一聚类主题。

具体地,本领域的技术人员应能理解,某个词向量在新闻库中对应新闻主题的出现频率会存在频率阈值,例如,“足球”在所述新闻库的体育新闻中会存在出现频率的阈值P1,在教育新闻的频率阈值为P2,在军事新闻的频率阈值为P3等等,若在所述目标新闻中,也包含“足球”这个词向量,且该词向量在所述目标新闻中的出现频率为P,可以将出现频率P与P1、P2、P3等等作比较,找出与出现频率P最接近的频率阈值,例如,频率阈值P1与出现频率P是最接近的,那么频率阈值P1对应的体育新闻主题可以确定为所述词向量“足球”对应的第一聚类主题。

在所述第一聚类主题确定了之后,在所述步骤S312'中,所述设备1基于所述第一聚类主题及所述词向量的扩充词向量在所述目标新闻中的出现频率,确定所述聚类簇的聚类主题。具体地,例如,所述目标新闻中包含“刘翔”、“姚明”、“王励勤”等等词向量,且该三个词向量的扩充词向量都包含“上海”,则“上海”这个扩充词向量在所述目标新闻中出现的频率较高,则在确定了所述聚类簇的第一聚类主题为体育新闻之后,进一步地,可以确定所述聚类簇的聚类主题为上海体育新闻,因此,可以使新闻主题确定的更加精细化,便于用户按照自己的喜好选择。

更优选地,所述步骤S311'还包括:基于所述词向量在所述目标新闻中的出现频率确定所述词向量对应的聚类簇的第一聚类主题的分值;其中,所述步骤S312'包括:基于所述分值超过分值阈值的所述词向量对应的聚类簇的第一聚类主题,及所述词向量的扩充词向量在所述目标新闻中的出现频率,确定所述聚类簇的聚类主题。

本领域的技术人员应能理解,每个聚类簇中包含的所述目标新闻的词向量出现的频率是不一样的,有些词向量可能偏向于体育新闻,有些词向量可能偏向于娱乐新闻、财经新闻等等其他新闻,因此,可以通过词向量的出现频率对不同的新闻主题进行打分,例如,所述目标新闻中有200个偏向于体育新闻,有100个偏向于娱乐新闻,有700个偏向于财经新闻,因此,可以为财经新闻主题打分为70分,体育新闻主题打分20分,娱乐新闻主题打分10分等等,因此,可以确定所述目标新闻主题为财经新闻。在此,所述打分方式仅为举例,其他现有的或者今后可能出现的打分方式,如适用于本申请也应包含在本申请的保护范围内,在此以引用的方式包含于此。

优选地,其中,所述方法还包括:S4(未示出)设备1基于所述目标新闻的附加特征确定所述目标新闻的附加属性信息。在此,所述附加特征包括但不限于热度信息;发布时间;发布地点;图片信息;长度信息;传播信息等等;所述附加属性信息包括但不限于:某地的热门新闻,爆炸性新闻、纯图片新闻、热门短新闻等等。在此,所述附加特征以及附加属性信息仅为举例,其他现有的或者今后可能出现的附加特征及附加属性信息如适用于本申请,也应包含在本申请的保护范围内,在此,以引用的方式包含于此。具体地,例如,若所述目标新闻中只包含图片,说明该目标新闻为纯图片新闻;又例如,还可以根据所述目标新闻的发布时间、发布地点等,确定所述目标新闻的时间属性和地理属性;又例如,还可以根据所述目标新闻的传播信息,比如传播时间和传播热点等等,确定所述目标新闻是否为热点新闻或者爆炸性新闻等等。

与现有技术相比,本申请通过对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;基于所述聚类簇确定所述目标新闻对应的目标新闻主题。这种确定目标新闻主题的方式,能够使确定的新闻主题更精细,从而更好的满足不同用户的需求,提升用户的体验。

此外,本申请还可以根据所述目标新闻的热度信息、发布时间、发布地点、图片信息、长度信息、传播信息等附加特征,确定所述目标新闻的附加属性信息,这种方式,能够更好、更全面的增加新闻的属性信息,以使用户能够更好地根据自己的需求选择不同的新闻。

图4示出本申请另一个方面提供的一种用于确定新闻主题的设备,其中,该设备包括:

第一装置,用于对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;

第二装置,用于对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;

第三装置,用于基于所述聚类簇确定所述目标新闻对应的目标新闻主题。

在该实施例中,所述设备1的第一装置对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量。在此,所述设备1包括但不限于各种移动智能设备、个人计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;其中,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机;所述设备1还包括各种智能终端,如移动智能设备、个人计算机等。当然,本领域技术人员应能理解上述设备1仅为举例,其他现有的或今后可能出现的设备1如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

在此,所述目标新闻包括新闻主题未确定的新闻;所述词向量是对所述目标新闻进行切词处理后获取到的、具有实体意义的、与确定所述目标新闻主题有关的词。优选地,其中,所述第一装置用于:对所述目标新闻进行切词处理,获取切词结果;在所述切词结果中确定所述目标新闻的词向量。在此,所述切词结果包括所述目标新闻中的所有词,具体地,在所述切词结果中确定所述目标新闻的词向量的方式,可以通过将所述切词结果中没有实体意义的词向量删除,例如,将所述切词结果中的“的”、“了”、“中”、“和”等等与确定所述目标新闻主题的词向量删除。

继续在该实施例中,所述设备1的第二装置对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量。具体地,设备1在确定了词向量之后,统计每个词向量在所述目标新闻中的出现次数,并把每一个不重复的词向量作为一个聚类簇的基础,对每个不重复的词向量进行扩充聚类,从而确定与所述词向量对应的聚类簇。

优选地,其中所述第二装置用于:基于预设的知识图谱对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及基于预设的知识图谱确定的所述词向量的扩充词向量。在此,所述预设的知识图谱包括基于所述词向量进行的扩展,例如,可以基于一个词向量的不同属性扩展出其他不同的词向量,比如,所述目标新闻中包含“姚明”这个词向量,那么姚明在所述知识图谱中会包含其地理属性“上海”,以及其身份属性“篮球运动员”等等,则“上海”及“篮球运动员”就属于所述目标新闻中包含的词向量“姚明”的扩充词向量,因此,“姚明”、“篮球运动员”、“上海”包含在一个聚类簇中。

优选地,其中所述第二装置用于:基于语义分析对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及基于语义分析确定的所述词向量的扩充词向量。在此,还可以基于语义分析对所述目标新闻对应的词向量进行扩充聚类,例如,所述语义分析包括但不限于基于所述词向量的语义进行的近义词等等的扩展,以使所述聚类簇包括所述词向量及其与所述词向量相近的扩充词向量。

继续在该实施例中,所述设备1的第三装置基于所述聚类簇确定所述目标新闻对应的目标新闻主题。在此,所述目标新闻的每个不重复的词向量都会对应一个聚类簇,具体地,所述设备1可以根据每个聚类簇的主题来确定所述目标新闻对应的目标新闻主题,例如,如果个数较多的聚类簇对应的新闻主题是体育新闻,则可以确定所述目标新闻对应的目标新闻主题为体育新闻。

图5示出本申请一个优选实施例的一种用于确定新闻主题的方法,其中,图5中的第一装置、第二装置与图4实施例中的第一装置、第二装置相同或基本相同,故在此不再赘述,仅以引用的方式包含于此。优选地,其中,所述第三装置包括:第一单元,用于基于所述聚类簇中的所述词向量及所述词向量的扩充词向量,确定所述聚类簇的聚类主题;第二单元,用于基于所述聚类簇的聚类主题确定所述目标新闻对应的目标新闻主题。

在该实施例中,为了确定所述目标新闻对应的目标新闻主题,首先确定所述目标新闻中对应的多个聚类簇的聚类主题,然后进一步地,基于所述聚类簇的聚类主题确定所述目标新闻对应的目标新闻主题。

因此,所述设备1的第一单元基于所述聚类簇中的所述词向量及所述词向量的扩充词向量,确定所述聚类簇的聚类主题。优选地,其中,所述第一单元用于:基于所述聚类簇中的所述词向量及所述词向量的扩充词向量的出现频率,确定所述聚类簇的聚类主题。具体地,本领域的技术人员可以理解,每个词向量在所述目标新闻中出现的频率是不同的,不难理解,出现频率较高的词向量所代表的主题能够更好地反映该词向量所对应的聚类簇的聚类主题,进而能够更好的反映所述目标新闻对应的目标新闻主题。

优选地,所述第一单元包括:第一子单元(未示出),所述设备1的第一子单元基于所述聚类簇中的所述词向量的出现频率,确定所述聚类簇的第一聚类主题;第二子单元(未示出),所述设备1的第二子单元基于所述第一聚类主题及所述词向量的扩充词向量在所述目标新闻中的出现频率,确定所述聚类簇的聚类主题。

具体地,所述设备1的第一子单元基于所述聚类簇中的所述词向量的出现频率,确定所述聚类簇的第一聚类主题,在此,所述聚类簇的第一聚类主题是基于所述词向量在所述目标新闻中的出现频率确定的,能够反映所述词向量所在的聚类簇的基本主题,即所述第一聚类主题。优选地,其中,所述第一子单元用于:将所述词向量在所述目标新闻中的出现频率、与所述词向量在新闻库中对应新闻主题的出现频率的频率阈值作比较;当所述词向量在所述目标新闻中的出现频率大于在所述对应新闻主题的出现频率的频率阈值,确定所述对应新闻主题为所述聚类簇的第一聚类主题。

在此,所述新闻库中包含新闻主题确定的海量新闻,例如,体育新闻、娱乐新闻、教育新闻、军事新闻、财经新闻等等;所述目标新闻中的出现频率是指所述词向量的出现次数与所述目标新闻的总的词向量的数目的比值,本领域的技术人员应能理解,某个词向量在所述目标新闻中的出现比重越大,则对该第一聚类主题的影响越大,因此,可以通过所述词向量的出现频率,在新闻库中确定所述聚类簇的第一聚类主题。

具体地,本领域的技术人员应能理解,某个词向量在新闻库中对应新闻主题的出现频率会存在频率阈值,例如,“足球”在所述新闻库的体育新闻中会存在出现频率的阈值P1,在教育新闻的频率阈值为P2,在军事新闻的频率阈值为P3等等,若在所述目标新闻中,也包含“足球”这个词向量,且该词向量在所述目标新闻中的出现频率为P,可以将出现频率P与P1、P2、P3等等作比较,找出与出现频率P最接近的频率阈值,例如,频率阈值P1与出现频率P是最接近的,那么频率阈值P1对应的体育新闻主题可以确定为所述词向量“足球”对应的第一聚类主题。

在所述第一聚类主题确定了之后,所述设备1的第二子单元基于所述第一聚类主题及所述词向量的扩充词向量在所述目标新闻中的出现频率,确定所述聚类簇的聚类主题。具体地,例如,所述目标新闻中包含“刘翔”、“姚明”、“王励勤”等等词向量,且该三个词向量的扩充词向量都包含“上海”,则“上海”这个扩充词向量在所述目标新闻中出现的频率较高,则在确定了所述聚类簇的第一聚类主题为体育新闻之后,进一步地,可以确定所述聚类簇的聚类主题为上海体育新闻,因此,可以使新闻主题确定的更加精细化,便于用户按照自己的喜好选择。

更优选地,所述第一子单元还用于:基于所述词向量在所述目标新闻中的出现频率确定所述词向量对应的聚类簇的第一聚类主题的分值;其中,所述第二子单元用于:基于所述分值超过分值阈值的所述词向量对应的聚类簇的第一聚类主题,及所述词向量的扩充词向量在所述目标新闻中的出现频率,确定所述聚类簇的聚类主题。

本领域的技术人员应能理解,每个聚类簇中包含的所述目标新闻的词向量出现的频率是不一样的,有些词向量可能偏向于体育新闻,有些词向量可能偏向于娱乐新闻、财经新闻等等其他新闻,因此,可以通过词向量的出现频率对不同的新闻主题进行打分,例如,所述目标新闻中有200个偏向于体育新闻,有100个偏向于娱乐新闻,有700个偏向于财经新闻,因此,可以为财经新闻主题打分为70分,体育新闻主题打分20分,娱乐新闻主题打分10分等等,因此,可以确定所述目标新闻主题为财经新闻。在此,所述打分方式仅为举例,其他现有的或者今后可能出现的打分方式,如适用于本申请也应包含在本申请的保护范围内,在此以引用的方式包含于此。

优选地,其中,所述设备还包括:第四装置(未示出),所述设备1的第四装置基于所述目标新闻的附加特征确定所述目标新闻的附加属性信息。在此,所述附加特征包括但不限于热度信息;发布时间;发布地点;图片信息;长度信息;传播信息等等;所述附加属性信息包括但不限于:某地的热门新闻,爆炸性新闻、纯图片新闻、热门短新闻等等。在此,所述附加特征以及附加属性信息仅为举例,其他现有的或者今后可能出现的附加特征及附加属性信息如适用于本申请,也应包含在本申请的保护范围内,在此,以引用的方式包含于此。具体地,例如,若所述目标新闻中只包含图片,说明该目标新闻为纯图片新闻;又例如,还可以根据所述目标新闻的发布时间、发布地点等,确定所述目标新闻的时间属性和地理属性;又例如,还可以根据所述目标新闻的传播信息,比如传播时间和传播热点等等,确定所述目标新闻是否为热点新闻或者爆炸性新闻等等。

与现有技术相比,本申请通过对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;基于所述聚类簇确定所述目标新闻对应的目标新闻主题。这种确定目标新闻主题的方式,能够使确定的新闻主题更精细,从而更好的满足不同用户的需求,提升用户的体验。

此外,本申请还可以根据所述目标新闻的热度信息、发布时间、发布地点、图片信息、长度信息、传播信息等附加特征,确定所述目标新闻的附加属性信息,这种方式,能够更好、更全面的增加新闻的属性信息,以使用户能够更好地根据自己的需求选择不同的新闻。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1