一种信息处理方法和装置与流程

文档序号:12598052阅读:208来源:国知局
一种信息处理方法和装置与流程

本发明涉及网络视频技术领域,特别是涉及一种信息处理方法和装置。



背景技术:

在用户利用网络视频播放终端获取音频、视频、文字新闻等相关信息时,网络视频网站会根据各种条件向用户推荐用户可能会感兴趣的多个信息,为了使用户能够获得丰富的音视频、新闻等资讯,所推荐的信息一般较为丰富,从而不可避免地会出现相似或高度相似等重复的信息,会使用户感到累赘和繁琐,不利用用户的选择,造成用户体验较差。



技术实现要素:

有鉴于此,本发明实施例提供了一种信息处理方法和装置,以避免向用户推荐重复的信息。

为了解决上述问题,本发明实施例公开了一种信息处理方法,其特征在于,包括:

获取信息的描述内容;

根据所述信息的描述内容,建立所述信息的分词向量;

根据所述信息的分词向量和预置的权重系数,确定所述信息是否为相似信息;

当所述信息为相似信息时,将所述相似信息中的任意一个确定为待推荐信息。

可选的,根据所述信息的分词向量和预置的权重系数,确定所述信息是否为相似信息,包括:

根据所述信息的分词向量和预置的权重系数,计算所述信息的哈希值;

根据所述信息的哈希值判断所述信息是否为相似信息。

可选的,根据所述信息的分词向量和预置的权重系数,计算所述信息的哈希值,包括:

为所述信息的分词向量中的分词元素预置权重系数;

根据所述权重系数计算所述分词元素的权重值;

将所述分词元素的所述权重值相加,得到所述信息的哈希值。

可选的,根据所述信息的哈希值判断所述信息是否为相似信息,包括:

根据所述信息的哈希值计算所述信息之间的海明距离;

将所述海明距离转换为相似度,将所述相似度与预设的相似度阈值进行比较;

如果所述相似度小于所述相似度阈值,则判定所述信息为相似信息。

可选的,所述分词向量包括信息类型、编剧、导演、演员、获奖信息、票房和评价信息中部分或全部分词元素。

相应的,为了保证上述方法的实施,本发明还提供了一种信息处理装置,包括:

描述内容获取模块,用于获取信息的描述内容;

分词向量建立模块,用于根据所述信息的描述内容,建立所述信息的分词向量;

相似信息确定模块,用于根据所述信息的分词向量和预置的权重系数,确定所述信息是否为相似信息;

推荐信息确定模块,用于当所述信息为相似信息时,将所述相似信息中的任意一个确定为待推荐信息。

可选的,所述相似信息确定模块包括:

哈希值计算单元,用于根据所述信息的分词向量和预置的权重系数,计算所述信息的哈希值;

相似信息判定单元,用于根据所述信息的哈希值判断所述信息是否为相似信息。

可选的,哈希值计算单元包括:

权重系数预置子单元,用于为所述信息的分词向量中的分词元素预置权重系数;

权重值计算子单元,用于根据所述权重系数计算所述分词元素的权重值;

加法计算子单元,用于将所述分词元素的所述权重值相加,得到所述信息的哈希值。

可选的,相似信息判定单元包括:

海明距离计算子单元,用于根据所述信息的哈希值计算所述信息之间的海明距离;

相似度判断子单元,用于将所述海明距离转换为相似度,将所述相似度与预设的相似度阈值进行比较;

相似判定子单元,用于当所述相似度小于所述相似度阈值时,判定所述信息为相似信息。

可选的,所述分词向量包括信息类型、编剧、导演、演员、获奖信息、票房和评价信息中部分或全部分词元素。

从上述技术方案可以看出,本发明实施例提供了一种信息理方法和装置,,具体为获取信息的描述内容;根据信息的描述内容,建立信息的分词向量;根据信息的分词向量和预置的权重系数,确定信息是否为相似信息;当上述信息为相似信息时,将相似信息中的任意一个确定为待推荐信息。通过上述方法,能够将相似信息进行过滤,从而实现推荐给用户的信息都是不同的,避免用户看到过多的相似的推荐信息,不会使用户感到累赘和繁琐。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的一种信息处理方法实施例的步骤流程图;

图2为本发明的另一种信息处理方法实施例的步骤流程图;

图3为本发明的一种信息处理装置实施例的结构框图;

图4为本发明的另一种信息处理装置实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明的一种信息处理方法实施例的步骤流程图。

参照图1所示,本实施例提供的信息处理方法应用于服务器端,在用户接收信息时,为了使用户得到良好的使用体验,一般会根据用户的特点、行为、历史观看记录等因素向用户推荐用户可能会喜欢的各类信息,但是这些信息的内容有可能是相似甚至是重复的,在这种情况下该收视终端可以采用如下方法步骤实现去重,具体步骤包括:

S101:获取信息的描述内容。

这里的信息包括准备向用户推送的多条信息,信息则指的是音频、视频或者新闻文本等资讯,在向用户推送上述信息之前获取每条信息的描述内容,该描述内容用于体现该信息的种类、来源、体现其内容的其他相关信息等。

例如,对于视频信息而言,其描述内容可以包括视频类型、编剧、导演、演员、获奖信息、票房、评价信息等内容,因为这些内容能够描述一个视频内容的基本特征,从而能够为去重做好信息准备。

S102:根据描述内容建立信息的分词向量。

分词向量可以作为一个函数,其中包含多个变量。分词向量内包括多个分词元素可以看作上述的变量。所谓分词元素是指用于描述视频描述内容的基本特征的分词,例如对于视频内容来说,这些分词元素包括视频类型、编剧、导演、演员、获奖信息、票房、评价信息等。其中,建立的分词向量可以包括上述全部分词元素,也可以包括部分分词元素。

S103:根据分词向量和权重系数确定信息是否为相似信息。

在得到上述分词向量后,根据每个分词向量中分词元素与信息的相关程度确定其权重系数,例如对于视频信息来说,对于视频类型、编剧、导演和演员与视频信息的相关程度较高,一般来说通过以上的描述基本能够确定一个唯一的视频内容,因此对上述的分词元素赋予较高的权重系数;对于获奖信息、票房、评价信息来说与视频信息的相关程度较差,从而赋予较低的权重系数。

在对分词向量和对分词向量赋予相应的权重系数的基础上判断两个信息是否为相似信息。

S104:当判定相似信息后从中选取任意一个确定为待推荐信息。

在通过信息的分词向量和相应的权重系数确定两个信息为相似信息后,从中任选一个作为待推荐信息,并利用该收视终端使用户获取该推荐信息,从而使用户得到有用的推荐信息。

从上述技术方案可以看出,本实施例提供了一种信息理方法,该信息处理方法应用于网络视频网站的收视终端,具体为获取信息的描述内容;根据信息的描述内容,建立信息的分词向量;根据信息的分词向量和预置的权重系数,确定信息是否为相似信息;当上述信息为相似信息时,将相似信息中的任意一个确定为待推荐信息。通过上述方法,能够将相似信息进行过滤,从而实现推荐给用户的信息都是不同的,避免用户看到过多的相似的推荐信息,不会使用户感到累赘和繁琐。

图2为本发明的另一种信息处理方法实施例的步骤流程图。

参照图2所示,本实施例提供的信息处理方法应用于服务器端,在用户接收信息时,为了使用户得到良好的使用体验,一般会根据用户的特点、行为、历史观看记录等因素向用户推荐用户可能会喜欢的各类信息,但是这些信息的内容有可能是相似甚至是重复的,在这种情况下该收视终端可以采用如下方法步骤实现去重,具体步骤包括:

S201:获取信息的描述内容。

这里的信息包括准备向用户推送的多条信息,信息则指的是音频、视频或者新闻文本等资讯,在向用户推送上述信息之前获取每条信息的描述内容,该描述内容用于体现该信息的种类、来源、体现其内容的其他相关信息等。

例如,对于视频信息而言,其描述内容可以包括视频类型、编剧、导演、演员、获奖信息、票房、评价信息等内容,因为这些内容能够描述一个视频内容的基本特征,从而能够为去重做好信息准备。

S202:根据描述内容建立信息的分词向量。

分词向量可以作为一个函数,其中包含多个变量。分词向量内包括多个分词元素可以看作上述的变量。所谓分词元素是指用于描述视频描述内容的基本特征的分词,例如对于视频内容来说,这些分词元素包括视频类型、编剧、导演、演员、获奖信息、票房、评价信息等。其中,建立的分词向量可以包括上述全部分词元素,也可以包括部分分词元素。

S203:根据分词向量和权重系数计算信息的哈希值。

哈希值是一段数据唯一且紧凑的数值表示形式,其可以检验数据的完整性,一般用于快速查找和加密算法。

可选地,基于以上论述,通过以下的方法实现对信息的哈希值的计算。

首先根据分词元素的特点对每个分词元素分别赋予一个不同的权重系数。例如对于视频信息来说,对于视频类型、编剧、导演和演员与视频信息的相关程度较高,一般来说通过以上的描述基本能够确定一个唯一的视频内容,因此对上述的分词元素赋予较高的权重系数;对于获奖信息、票房、评价信息来说与视频信息的相关程度较差,从而赋予较低的权重系数。

然后计算每个分词元素的权重值,即将分词向量转换为一个权重向量,其中包括一系列的权重值,每个权重值对应于相应的分词元素。

最后将每个分词元素的权重值相加,从而得到视频描述内容的哈希值,即以哈希值表述的视频描述内容的总权重值。

S204:根据信息的哈希值判断信息是否为相似信息。

即在得到的多个信息的每个描述内容的哈希值后,将任意两个描述内容的哈希值进行比较,根据比较结果判断这两个信息是否为相似信息。

可选地,具体判断过程包括:

首先将两个描述内容的哈希值进行比较,从而得到两个描述内容之间的海明距离。在信息编码中,两个合法代码对应位上编码不同的位数称为码距,又称海明距离,本实施例中用于表述两个哈希值之间的相似程度。

然后将得到的海明距离进行归一化处理,将归一化处理后得到的数值作为相似度,该相似度为一个介于0~1.0之间的归一值,再将该相似度与一个预设的相似度阈值进行比较,该相似度阈值一般选取0.7~1.0之间的一个任意数值,这个任意数值选取的越小,判定的相似视频描述内容的可能性也越大,反之可能性会较小。

最后,当任意两个信息之间的相似度小于该相似度阈值时,判定上述两个信息为相似信息,反之则确认不是相似信息。本实施例中该预设阈值优选0.7。

S205:当判定相似信息后从中选取任意一个确定为待推荐信息。

在通过信息的分词向量和相应的权重系数确定两个信息为相似信息后,从中任选一个作为待推荐信息,并利用该收视终端使用户获取该推荐信息,从而使用户得到有用的推荐信息。

从上述技术方案可以看出,本实施例提供了一种信息理方法,该信息处理方法应用于收视终端,具体为获取信息的描述内容;根据所述信息的描述内容,建立所述信息的分词向量;根据所述信息的分词向量和预置的权重系数,确定所述信息是否为相似信息;当所述信息为相似信息时,将所述相似信息中的任意一个确定为待推荐信息。通过上述方法,能够将相似信息进行过滤,从而实现推荐给用户的信息都是不同的,避免用户看到过多的相似的推荐信息,不会使用户感到累赘和繁琐。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

图3为本发明的一种信息处理装置实施例的结构框图。

参照图3所示,本实施例提供的信息处理方法应用于服务器端,在用户接收信息时,为了使用户得到良好的使用体验,一般会根据用户的特点、行为、历史观看记录等因素向用户推荐用户可能会喜欢的各类信息,但是这些信息的内容有可能是相似甚至是重复的,在这种情况下该收视终端可以采用如下方法步骤实现去重,具体包括描述内容获取模块10、分词向量建立模块20、相似信息确定模块30和推荐信息确定模块40。

描述内容获取模块10用于获取信息的描述内容。

这里的信息包括准备向用户推送的多条信息,信息则指的是音频、视频或者新闻文本等资讯,在向用户推送上述信息之前获取每条信息的描述内容,该描述内容用于体现该信息的种类、来源、体现其内容的其他相关信息等。

例如,对于视频信息而言,其描述内容可以包括视频类型、编剧、导演、演员、获奖信息、票房、评价信息等内容,因为这些内容能够描述一个视频内容的基本特征,从而能够为去重做好信息准备。

分词向量建立模块20用于根据描述内容建立信息的分词向量。

分词向量可以作为一个函数,其中包含多个变量。分词向量内包括多个分词元素可以看做上述的变量。所谓分词元素是指用于描述视频描述内容的基本特征的分词,例如对于视频内容来说,这些分词元素包括视频类型、编剧、导演、演员、获奖信息、票房、评价信息等。其中,建立的分词向量可以包括上述全部分词元素,也可以包括部分分词元素。

相似信息确定模块30用于根据分词向量和权重系数确定信息是否为相似信息。

在得到上述分词向量后,根据每个分词向量中分词元素与信息的相关程度确定其权重系数,例如对于视频信息来说,对于视频类型、编剧、导演和演员与视频信息的相关程度较高,一般来说通过以上的描述基本能够确定一个唯一的视频内容,因此对上述的分词元素赋予较高的权重系数;对于获奖信息、票房、评价信息来说与视频信息的相关程度较差,从而赋予较低的权重系数。

在对分词向量和对分词向量赋予相应的权重系数的基础上判断两个信息是否为相似信息。

推荐信息确定模块40用于当相似信息确定模块30判定相似信息后,从相似信息中选取任意一个确定为待推荐信息。

在通过信息的分词向量和相应的权重系数确定两个信息为相似信息后,从中任选一个作为待推荐信息,并利用该收视终端使用户获取该推荐信息,从而使用户得到有用的推荐信息。

从上述技术方案可以看出,本实施例提供了一种信息理装置,该信息处理装置应用于网络视频网站的收视终端,具体为获取信息的描述内容;根据信息的描述内容,建立信息的分词向量;根据信息的分词向量和预置的权重系数,确定信息是否为相似信息;当上述信息为相似信息时,将相似信息中的任意一个确定为待推荐信息。通过上述装置,能够将相似信息进行过滤,从而实现推荐给用户的信息都是不同的,避免用户看到过多的相似的推荐信息,不会使用户感到累赘和繁琐。

图4为本发明的另一种信息处理这种实施例的结构框图。

参照图1所示,本实施例提供的信息处理方法应用于为用户提供信息的网络视频网站的收视终端,,具体包括描述内容获取模块10、分词向量建立模块20、相似信息确定模块30和推荐信息确定模块40。

描述内容获取模块10用于获取信息的描述内容。

这里的信息包括准备向用户推送的多条信息,信息则指的是音频、视频或者新闻文本等资讯,在向用户推送上述信息之前获取每条信息的描述内容,该描述内容用于体现该信息的种类、来源、体现其内容的其他相关信息等。

例如,对于视频信息而言,其描述内容可以包括视频类型、编剧、导演、演员、获奖信息、票房、评价信息等内容,因为这些内容能够描述一个视频内容的基本特征,从而能够为去重做好信息准备。

分词向量建立模块20用于根据描述内容建立信息的分词向量。

分词向量可以作为一个函数,其中包含多个变量。分词向量内包括多个分词元素可以看做上述的变量。所谓分词元素是指用于描述视频描述内容的基本特征的分词,例如对于视频内容来说,这些分词元素包括视频类型、编剧、导演、演员、获奖信息、票房、评价信息等。其中,建立的分词向量可以包括上述全部分词元素,也可以包括部分分词元素。

相似信息确定模块30用于根据分词向量和权重系数确定信息是否为相似信息,可选地,相似信息确定模块30具体包括哈希值计算单元31和相似信息判定单元32。

哈希值计算单元31用于根据分词向量和权重系数计算信息的哈希值。哈希值是一段数据唯一且紧凑的数值表示形式,其可以检验数据的完整性,一般用于快速查找和加密算法。可选地,基于以上论述,哈希值计算单元31包括哈希权重系数预置子单元311、权重值计算子单元312和加法计算子单元313。

权重系数预置子单元311用于根据分词元素的特点对每个分词元素分别赋予一个不同的权重系数。例如对于视频信息来说,对于视频类型、编剧、导演和演员与视频信息的相关程度较高,一般来说通过以上的描述基本能够确定一个唯一的视频内容,因此对上述的分词元素赋予较高的权重系数;对于获奖信息、票房、评价信息来说与视频信息的相关程度较差,从而赋予较低的权重系数。

权重值计算子单元312用于计算每个分词元素的权重值,即将分词向量转换为一个权重向量,其中包括一系列的权重值,每个权重值对应于相应的分词元素。

加法计算子单元313用于将每个分词元素的权重值相加,从而得到视频描述内容的哈希值,即以哈希值表述的视频描述内容的总权重值。

相似信息判定单元32用于根据信息的哈希值判断信息是否为相似信息。

即在哈希值计算单元得到的多个信息的描述内容的哈希值后,将任意两个描述内容的哈希值进行比较,根据比较结果判断这两个信息是否为相似信息。可选地,相似信息判定单元32包括海名距离计算子单元321、相似度判断子单元322和相似判定子单元323。

海名距离计算子单元321用于将两个描述内容的哈希值进行比较,从而得到两个描述内容之间的海明距离。在信息编码中,两个合法代码对应位上编码不同的位数称为码距,又称海明距离,本实施例中用于表述两个哈希值之间的相似程度。

相似度判断子单元322用于将海名距离计算子单元得到的海明距离进行归一化处理,将归一化处理后得到的数值作为相似度,该相似度为一个介于0~1.0之间的归一值,再将该相似度与一个预设的相似度阈值进行比较,该相似度阈值一般选取0.7~1.0之间的一个任意数值,这个任意数值选取的越小,判定的相似视频描述内容的可能性也越大,反之可能性会较小。

相似判定子单元323在当任意两个信息之间的相似度小于该相似度阈值时,判定上述两个信息为相似信息,反之则确认不是相似信息。本实施例中该预设阈值优选0.7。

推荐信息确定模块40用于当相似信息判定单元30判定相似信息后从中选取任意一个确定待推荐信息。

在通过信息的分词向量和相应的权重系数确定两个信息为相似信息后,从中任选一个作为待推荐信息,并利用该收视终端使用户获取该推荐信息,从而使用户得到有用的推荐信息。

从上述技术方案可以看出,本实施例提供了一种信息理装置,该信息处理装置应用于收视终端,具体为获取信息的描述内容;根据所述信息的描述内容,建立所述信息的分词向量;根据所述信息的分词向量和预置的权重系数,确定所述信息是否为相似信息;当所述信息为相似信息时,将所述相似信息中的任意一个确定为待推荐信息。通过上述装置,能够将相似信息进行过滤,从而实现推荐给用户的信息都是不同的,避免用户看到过多的相似的推荐信息,不会使用户感到累赘和繁琐。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相似相似的部分互相参见即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相似要素。

以上对本发明所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1