热门内容搜索方法和系统与流程

文档序号:11216377阅读:907来源:国知局
热门内容搜索方法和系统与流程

本发明涉及数据检索技术领域,特别是涉及一种热门内容搜索方法和系统。



背景技术:

在数据检索服务中,首先采集内容信息,然后根据采集到的内容信息数据建立索引。外部应用在使用这些内容信息数据的时候,通过索引进行全文检索,默认根据信息的发布时间、评论数、点赞数等维度进行排序,得到关注度高的内容信息。

在实现过程中,发明人发现传统技术中至少存在如下问题:采用传统内容检索方法,由于评论数、点赞数等会随着时间的增长而变大,得出的内容热度值会不断地增大;但内容热度值往往是有时效性的,会随着时间的变化产生波动,传统热门内容搜索方法不能体现这种时效性,无法得到准确的内容热度值,从而得到热门内容信息的准确率低。



技术实现要素:

基于此,有必要针对传统热门内容搜索方法得到热门内容信息的准确率低的问题,提供一种热门内容搜索方法和系统。

为了实现上述目的,一方面,本发明实施例提供了一种热门内容搜索方法,包括以下步骤:

获取检索关键词;根据检索关键词,在预设索引库中进行检索,得到各文本数据;

根据预设的时间波动热度算法,得到文本数据的各维度参数对应的热度增幅值;将热度增幅值和预设衰减值的乘积作为维度参数的热度值,并对各维度参数的热度值进行相加求和,得到文本数据的内容热度值;

根据内容热度值,对各文本数据进行排序,得到排序后的各文本数据;

将排序后的各文本数据作为根据检索关键词搜索出的热门内容进行显示或发送给相应的外部应用。

另一方面,本发明实施例还提供了一种热门内容搜索系统,包括:

全文检索单元,用于获取检索关键词,并根据检索关键词,在预设索引库中进行检索,得到各文本数据;

内容热度值获取单元,用于根据预设的时间波动热度算法,得到文本数据的各维度参数对应的热度增幅值;将热度增幅值和预设衰减值的乘积作为维度参数的热度值,并对各维度参数的热度值进行相加求和,得到文本数据的内容热度值;

排序单元,用于根据内容热度值,对各文本数据进行排序,得到排序后的各文本数据;

反馈单元,用于将排序后的各文本数据作为根据检索关键词搜索出的热门内容进行显示或发送给相应的外部应用。

本发明具有如下优点和有益效果:

本发明热门内容搜索方法和系统,根据预设的时间波动热度算法,获取各文本数据内容热度值;其中,例如通过时间热度衰减值乘以热度增幅值得出热度值的步骤,可以大大降低随着时间增长对内容热度定义的偏差,得出的内容热度值更准确;然后根据内容热度值,对各文本数据进行排序,得到能够准确体现内容热度的排序结果;以上步骤使得本发明可以体现时间段内的热度情况和内容热度值的时效性;同时根据时间段内的热度增幅值进行计算,将各维度参数的热度值之和作为内容热度值,能够有效提高获取热门内容信息的准确性。

附图说明

图1为本发明热门内容搜索方法实施例1的流程示意图;

图2为本发明热门内容搜索方法实施例2的流程示意图;

图3为本发明热门内容搜索系统实施例1的结构示意图;

图4为本发明热门内容搜索系统实施例2的结构示意图。

具体实施方式

为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明热门内容搜索方法和系统应用场景说明:

在传统内容检索方法中,关注度是根据发布时间、评论数量、点赞数等维度数据进行求和运算后得出的值,值越高表示关注度越高。而索引是用来提供全文检索用的,关注度是对检索的结果排序的参照依据。传统热门内容搜索方法在进行检索时,根据检索关键词获取各文本数据,然后结合关注度确定最终的排序结果。但传统方法根据维度参数(即维度数据)的值进行直接运算,易出现不同的内容的维度数据具有较大的偏差的情况,最终会导致因为内容热度值本身的大小造成排序结果的不准确。

本发明热门内容搜索方法和系统,具体可以适用于针对性的网站,例如各行业网站;优选的,本发明热门内容搜索方法和系统适用于智能语义知识图谱这类内容云系列软件项目;智能语义知识图谱作为媒体运营的中央厨房,担任着媒体数据收集、清洗、入库以及给内容编辑提供检索服务的重要角色,即在智能语义平台根据预先设定的爬取规则从合作媒体客户网站爬取相关媒体数据存入数据库,沉淀媒体数据,为媒体内容编辑提供数据搜索服务。本发明可以从合作媒体客户网站爬取相关数据,最后搜索到的热门内容更贴近某一类行业的行业热度,提高搜索结果的准确性。

本发明热门内容搜索方法实施例1:

为了解决传统热门内容搜索方法得到热门内容信息的准确率低的问题,本发明提供了一种热门内容搜索方法实施例1,图1为本发明热门内容搜索方法实施例1的流程示意图;如图1所示,可以包括以下步骤:

步骤s110:获取检索关键词;根据检索关键词,在预设索引库中进行检索,得到各文本数据;

步骤s120:根据预设的时间波动热度算法,得到文本数据的各维度参数对应的热度增幅值;将热度增幅值和预设衰减值的乘积作为维度参数的热度值,并对各维度参数的热度值进行相加求和,得到文本数据的内容热度值;

步骤s130:根据内容热度值,对各文本数据进行排序,得到排序后的各文本数据;

步骤s140:将排序后的各文本数据作为根据检索关键词搜索出的热门内容进行显示或发送给相应的外部应用。

具体而言,本发明通过检索获取各文本数据(优选的,可以采取全文检索的方式),对文本数据根据预设的时间波动热度算法,通过衰减值乘以热度增幅算出各维度参数的热度值,并根据热度值得到文本数据的内容热度值;在用户输入关键字检索时,首先根据关键字进行全文检索,然后对各文本数据按照内容热度值进行排序,再把排序后的结果返回给用户。

其中,维度参数为根据用户行为数据得到的衡量内容热度的参数;优选的,维度参数指的是能够体现文本数据的用户关注度的维度数据(例如喜欢、点赞数、评论数以及转载数等记载用户行为的数据);衰减值可以是根据时间段内的不同,随着时间的递增而逐渐衰减的数值常量。热度增幅值可以是根据时间范围内某一维度数据(即某一维度参数)所增加的值。而内容热度值是体现内容随着时间的变化而体现出来的热门程度的值,值越大代表越热门。优选的,热度增幅值可以指根据计算文本数据在一个时间段内维度参数(例如点赞数、阅读数、评论数)的增幅值。衰减值可以是根据时间段来灵活划分得到的,优选的,三天时间的衰减值是0.8,一周时间的衰减值是0.5,半个月时间的衰减值是0.3,衰减值越小代表衰减的程度越大。

本发明通过预设索引库进行全文检索,然后对得到的各文本数据按照内容热度值进行排序,这样的排序结果可以准确的体现文本数据的热度情况和内容热度值的时效性,从而有效提高获取热门内容信息的准确性。

在一个具体的实施例中,根据预设的时间波动热度算法,基于以下公式得到文本数据的各维度参数对应的热度增幅值:

热度增幅值=维度参数当前时间的参数值-维度参数上一个时间段的参数值。

具体而言,通过本发明中预设的时间波动热度算法,能够体现时间段内的热度情况,而不是只是根据评论数、阅读数、点赞数等维度参数的值进行直接运算,因为不同的内容其评论数、阅读数、点赞数具有较大的偏差,最终会导致因为值本身的大小影响到排序结果的不准确,而根据这种预设的时间波动热度算法,使得本发明可以根据时间段内的增幅进行计算,有效的提高了准确性。

优选的,可以依据以下公式实现预设的时间波动热度算法:(1)热度增幅值=某一维度(即某一维度参数)当前时间的值-某一维度(即某一维度参数)上一个时间段的值;(2)衰减值是随着时间推移而不断衰减的特定常量值;(3)某一维度的热度值=衰减值*某一维度的热度增幅值(即二者的乘积);(4)内容热度值=将多个维度的热度值进行求和相加;

进一步的,当维度参数的数量为一个时,内容热度值也可以通过衰减值乘以该维度参数的热度增幅值计算得到的。

在一个具体的实施例中,维度参数包括点赞参数、评论参数和阅读参数;

将各维度参数的热度值进行相加求和,得到文本数据的内容热度值的步骤包括:

获取热度值与维度参数对应的热度权重的乘积,对各乘积进行相加求和,得到内容热度值。

具体而言,为了更为准确的得到内容热度值,可以根据用户行为(例如点赞、喜欢、评论等)的使用频次,分别设置维度参数的热度权重;优选的,可以将用户喜欢的热度权重数值设置为最大,评论次之。然后将热度权重和维度参数的热度值进行乘积运算,将各乘积值进行相加求和,从而得到文本数据的内容热度值。如此,能够更准确的反映文本数据的真实热度。

在一个具体的实施例中,在获取检索关键词的步骤之前还包括步骤:

根据预设的爬取规则,爬取网站的内容信息,获取内容信息的文本数据;

对文本数据进行分词,得到分词后的词语和句子;

根据分词后的词语和句子,建立倒排索引,并根据倒排索引,构建预设索引库。

具体而言,本发明中的行业网站可以是行业门户网站;本发明可以根据爬取到的网站内容的文本建立索引,首先对文本数据进行分词,然后根据切分出来的词语和句子建立倒排索引,索引就是被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射的数据。通过从行业门户网站爬取相关数据,最后搜索到的热门内容更贴近某一类行业的行业热度,可以进一步提高搜索结果的准确性。

需要说明的是,预设的爬取规则可以指网络爬虫;对文本数据进行分词,得到分词后的词语和句子的步骤,可以采用例如基于字典匹配的分词方法、基于语义分析的分词算法以及基于概率统计模型的分词方法来实现。

优选的,可以通过solr(企业级搜索应用服务器)实现本发明中根据检索关键词进行全文检索,得到各文本数据的步骤,从而进一步提高各文本数据与关键词的匹配度,保证搜索热门内容的准确性。同时为建立索引以及获取维度参数的准确的热度增幅值提供技术支持。

本发明热门内容搜索方法实施例1,根据预设的时间波动热度算法,获取各文本数据内容热度值;其中,使用时间热度衰减值乘以热度增幅值得出的热度值可以大大降低随着时间增长对内容热度定义的偏差,得出的内容热度值更准确;然后根据内容热度值,对各文本数据进行排序,得到能够准确体现内容热度的排序结果;以上步骤使得本发明可以体现时间段内的热度情况和内容热度值的时效性;同时根据时间段内的热度增幅值进行计算,将各维度参数的热度值之和作为内容热度值,能够有效提高获取热门内容信息的准确性。

本发明热门内容搜索方法实施例2:

为了解决传统热门内容搜索方法得到热门内容信息的准确率低的问题,本发明还提供了一种热门内容搜索方法实施例2;实施例2与上述实施例1相比,除了依据内容热度值对各文本数据进行排序外,在对文本数据进行全文搜索时,还需要根据文本匹配的程度计算匹配值得分,并将匹配值与热度值进行结合的结果排序后返回检索内容,这样的排序结果更能体现文章的热度情况。图2为本发明热门内容搜索方法实施例2的流程示意图;如图2所示,可以包括以下步骤:

步骤s210:获取检索关键词;根据检索关键词,在预设索引库中进行检索,得到各文本数据;

步骤s220:根据预设的时间波动热度算法,得到文本数据的各维度参数对应的热度增幅值;将热度增幅值和预设衰减值的乘积作为维度参数的热度值,并对各维度参数的热度值进行相加求和,得到文本数据的内容热度值;

步骤s230:根据检索关键词与预设索引库中词句的匹配程度,得到各文本数据匹配值;

步骤s240:对内容热度值和匹配值进行相加求和,得到最终分值;

步骤s250:根据最终分值由大到小的顺序,对各文本数据进行排序,得到排序后的各文本数据;

步骤s260:将排序后的各文本数据作为根据检索关键词搜索出的热门内容进行显示或发送给相应的外部应用。

具体而言,即在实施例1中根据内容热度值,对各文本数据进行排序的步骤之前还包括步骤:

根据检索关键词与预设索引库中词句的匹配程度,得到各文本数据匹配值;

实施例1中对各文本数据进行排序,得到排序后的各文本数据的步骤可以包括:

对内容热度值和匹配值进行相加求和,得到最终分值;

根据最终分值由大到小的顺序,对各文本数据进行排序,得到排序后的各文本数据。

优选的,本发明在检索时,首先根据关键字到索引库中进行全文匹配,根据关键词与索引库中的词匹配的程度计算得出分值(例如,通过相似度算法获得匹配值),接着再结合内容热度值进行相加得到最终分数值,各文本数据就是根据分数值进行从大到小的排序返回的,这样的排序结果更能体现文本数据的热度情况。

可以明确的是,本发明热门内容搜索方法实施例2的其它步骤流程可以与上述实施例1中的步骤流程相同,并达到相同或更佳的技术效果(例如更准确的体现搜索内容的热度或获得更准确的内容热度值等),此处不再重复赘述。

本发明热门内容搜索系统实施例1:

基于以上热门内容搜索方法各实施例的技术方案,同时为了解决传统热门内容搜索方法得到热门内容信息的准确率低的问题,本发明还提供了一种热门内容搜索系统实施例1;图3为本发明热门内容搜索系统实施例1的结构示意图;如图3所示,可以包括

全文检索单元310,用于获取检索关键词,并根据检索关键词,在预设索引库中进行全文检索,得到各文本数据;

内容热度值获取单元320,用于根据预设的时间波动热度算法,得到文本数据的各维度参数对应的热度增幅值;将热度增幅值和预设衰减值的乘积作为维度参数的热度值,并对各维度参数的热度值进行相加求和,得到文本数据的内容热度值;

排序单元330,用于根据内容热度值,对各文本数据进行排序,得到排序后的各文本数据;

反馈单元340,用于将排序后的各文本数据作为根据检索关键词搜索出的热门内容进行显示或发送给相应的外部应用。

在一个具体的实施例中,内容热度值获取单元根据预设的时间波动热度算法,基于以下公式得到文本数据的各维度参数对应的热度增幅值:

热度增幅值=维度参数当前时间的参数值-维度参数上一个时间段的参数值。

在一个具体的实施例中,维度参数包括点赞参数、评论参数和阅读参数;

内容热度值获取单元320,还用于获取热度值与维度参数对应的热度权重的乘积,对各乘积进行相加求和,得到内容热度值。

在一个具体的实施例中,热门内容搜索系统还包括索引库构建单元350;

构建索引库单元350包括:

爬取模块352,用于根据预设的爬取规则,爬取行业网站的内容信息,获取内容信息的文本数据;

分词模块354,用于对文本数据进行分词,得到分词后的词句;

索引库构建模块356,根据分词后的词句,建立倒排索引,并根据倒排索引,构建预设索引库。

具体而言,需要说明的是本发明热门内容搜索系统实施例1可以对应实现上述热门内容搜索方法实施例1中的各方法步骤,此处不再重复赘述。

本发明热门内容搜索系统实施例2:

基于以上热门内容搜索方法各实施例的技术方案,同时为了解决传统热门内容搜索方法得到热门内容信息的准确率低的问题,本发明基于热门内容搜索系统实施例1的系统结构,还提供了一种热门内容搜索系统实施例2;图4为本发明热门内容搜索系统实施例2的结构示意图;如图2所示,热门内容搜索系统还可以包括:

匹配值获取单元460,用于根据检索关键词与预设索引库中词句的匹配程度,得到各文本数据匹配值;

排序单元430可以包括:

加和模块432,用于对内容热度值和匹配值进行相加求和,得到最终分值;

排序模块434,用于根据最终分值由大到小的顺序,对各文本数据进行排序,得到排序后的各文本数据。

具体而言,需要说明的是本发明热门内容搜索系统实施例2可以对应实现上述热门内容搜索方法实施例2中的各方法步骤,此处不再重复赘述。

本发明热门内容搜索系统各实施例,根据预设的时间波动热度算法,获取各文本数据内容热度值;其中,使用时间热度衰减值乘以热度增幅值得出的热度值可以大大降低随着时间增长对内容热度定义的偏差,得出的内容热度值更准确;然后根据内容热度值,对各文本数据进行排序,得到能够准确体现内容热度的排序结果;以上步骤使得本发明可以体现时间段内的热度情况和内容热度值的时效性;同时根据时间段内的热度增幅值进行计算,将各维度参数的热度值之和作为内容热度值,能够有效提高获取热门内容信息的准确性。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括以上方法所述的步骤,所述的存储介质,如:rom/ram、磁碟、光盘等。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1