多媒体标题显示方法及装置与流程

文档序号:19924447发布日期:2020-02-14 16:45阅读:400来源:国知局
多媒体标题显示方法及装置与流程

本发明涉及多媒体处理领域,尤其涉及一种多媒体标题显示方法及装置。



背景技术:

由于用户多媒体数据、例如用户视频数据的标题编写是不完全可控行为,因此会出现字符较多的标题。这些标题在不同设备中显示的效果也有差别,不同终端设备的屏幕可显示的字符长短不一,对于字符较多的标题,有些屏幕无法全部显示,这样会影响信息显示的完整性,从而降低用户对视频主题的理解。

同时,在例如视频数据聚合等应用中,会存在长短差别大且不同序列的标题在同一个页面显示,这种显示会造成视觉上的突兀,页面显得零乱而不美观,降低用户浏览体验。因此,需要根据终端设备统一视频标题的布局样式,提升用户体验和获取视频主题的效率。

在现有技术中,解决多媒体过长标题显示已有多种方案:方案一,在标题长度超出限定范围时,对该标题从左到右进行截取,并将超出部分用省略号替换;方案二,在标题长度超出限定范围时,保留标题中含有搜索关键词前后的字符,并将左右超出部分用省略号替换;方案三,根据专利文献1即、中国专利公开号cn1860454a使用的方法,为标题提供一个字符较短的第二标题,根据可容纳字符长度而选择使用该第二标题;方案四,根据专利文献2、即中国专利公开号cn104008115a使用的方法,为wap页面中不在设备屏幕内的标题,提供预设浮动标题栏,这样标题就可以通过窗口浮动来进行完整显示。

通过以上这些技术,基本可以解决一般的过长字符标题的显示问题,但对于诸如用户视频聚合数据等应用中,则无法达到好的效果。例如,在用户视频聚合数据中,有些视频标题是一个系列,有些视频标题是关键词的堆砌,整个系列的视频标题除编号或主题外几乎一致。因而,如果仅缩略超出屏幕的字符,用户阅览视频标题时会造成所有视频都一样的错觉,无法准确体现视频标题主题,从而无法分辨各个视频主题,影响用户对视频的选择,更使得用户无法直接观看,影响用户体验。另外,对于生成包括第二标题的多个标题而言,其对存储是一种浪费,在视频标题数量大时更难以承受,并且多种终端的屏幕可容纳字符数量不一,可能需要生成多种标题去适应。另外,浮动框的使用会延长用户对每一个长标题的等待,而且需要一直盯着屏幕才能获取视频主题信息,这样会延长用户确定视频标题主题的时间,影响用户获取主题信息的效率,这在一定程度上降低了用户体验。



技术实现要素:

技术问题

有鉴于此,本发明要解决的技术问题是,如何对多媒体标题、特别是长标题进行恰当地显示,以提升用户体验。

解决方案

为了解决上述技术问题,根据本发明的一实施例,提供了一种多媒体标题显示方法,包括:对多媒体标题数据集中所包括的各样本标题进行分词处理,以得到多个词语;根据所得到的多个词语建立统计模型;根据所建立的统计模型来计算与所得到的各个词语分别相对应的词间关联权重和词间关联度因素;根据所计算出的词间关联权重和词间关联度因素来确定与所得到的各个词语相对应的词间关联度;以及根据所述词间关联度对所述多媒体标题数据集中的各所述样本标题进行缩略显示。

对于上述多媒体标题显示方法,在一种可能的实现方式中,根据所计算出的词间关联权重和词间关联度因素来确定与所得到的各个词语相对应的词间关联度,包括:根据所述词间关联度因素来计算与所得到的各个词语相对应的词权重;根据所述词间关联权重和所述词权重来确定与所得到的各个词语相对应的词间关联度。

对于上述多媒体标题显示方法,在一种可能的实现方式中,根据所述词间关联权重和所述词权重来确定与所得到的各个词语相对应的词间关联度,包括:

采用下式1,来计算所述词间关联度,

式1,

其中,co(x,y)表示词语x和词语y之间的词间关联度,x(x,y)表示词语x和词语y之间的词间关联权重,w(x)、w(y)、w(xy)分别表示与词语x、y、xy相对应的词权重。

对于上述多媒体标题显示方法,在一种可能的实现方式中,所述词间关联度因素包括词频和文档反转频率,

根据所述词间关联度因素来计算与所得到的各个词语相对应的词权重,包括:

采用下式2,根据所述词频和所述文档反转频率来计算与所得到的各个词语相对应的词权重,

式2,

其中,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率。

对于上述多媒体标题显示方法,在一种可能的实现方式中,所述词间关联度因素包括词频、文档反转频率和词活跃度,

根据所述词间关联度因素来计算与所得到的各个词语相对应的词权重,包括:

采用下式3,根据所述词频、所述文档反转频率和所述词活跃度来计算与所得到的各个词语相对应的词权重,

式3,

其中,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率,h(x)、h(y)、h(xy)分别表示与词语x、y、xy相对应的词活跃度。

对于上述多媒体标题显示方法,在一种可能的实现方式中,所述词间关联度因素包括词频、文档反转频率和词性权重,

根据所述词间关联度因素来计算与所得到的各个词语相对应的词权重,包括:

采用下式4,根据所述词频、所述文档反转频率和所述词性权重来计算与所得到的各个词语相对应的词权重,

式4,

其中,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率,tn(x)、tn(y)、tn(xy)分别表示与词语x、y、xy相对应的词性权重,α表示词性权重参数,用于加降词性权重。

对于上述多媒体标题显示方法,在一种可能的实现方式中,所述词间关联度因素包括词频、文档反转频率、词活跃度和词性权重,

根据所述词间关联度因素来计算与所得到的各个词语相对应的词权重,包括:

采用下式5,根据所述词频、所述文档反转频率、所述词活跃度和所述词性权重来计算与所得到的各个词语相对应的词权重,

式5,

其中,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率,h(x)、h(y)、h(xy)分别表示与词语x、y、xy相对应的词活跃度,tn(x)、tn(y)、tn(xy)分别表示与词语x、y、xy相对应的词性权重,α表示词性权重参数,用于加降词性权重。

对于上述多媒体标题显示方法,在一种可能的实现方式中,所述多媒体标题显示方法还包括:

根据所述词间关联度对所述多媒体标题数据集之外的其它多媒体标题进行缩略显示。

对于上述多媒体标题显示方法,在一种可能的实现方式中,在进行分词处理之前,所述多媒体标题显示方法还包括对各所述样本标题进行预处理,具体包括:

对各所述样本标题进行规范化处理;以及

对进行规范化处理后的各所述样本标题进行清洗。

对于上述多媒体标题显示方法,在一种可能的实现方式中,根据所述词间关联度对所述多媒体标题数据集中的各所述样本标题进行缩略显示,包括:

根据所述词间关联度对由对各所述样本标题进行分词而得到的各个词语进行分层;

根据分层结果对各所述样本标题进行差异化的缩略显示。

为了解决上述技术问题,根据本发明的另一实施例,提供了一种多媒体标题显示装置,包括:分词单元,用于对多媒体标题数据集中所包括的各样本标题进行分词处理,以得到多个词语;统计模型建立单元,与所述分词单元连接,用于根据所得到的多个词语建立统计模型;计算单元,与所述分词单元和所述统计模型建立单元连接,用于根据所建立的统计模型来计算与所得到的各个词语分别相对应的词间关联权重和词间关联度因素;确定单元,与所述计算单元连接,用于根据所计算出的词间关联权重和词间关联度因素来确定与所得到的各个词语相对应的词间关联度;以及缩略显示单元,与所述确定单元连接,用于根据所述词间关联度对所述多媒体标题数据集中的各所述样本标题进行缩略显示。

对于上述多媒体标题显示装置,在一种可能的实现方式中,所述确定单元包括:

计算模块,用于根据所述词间关联度因素来计算与所得到的各个词语相对应的词权重;

确定模块,与所述计算模块连接,用于根据所述词间关联权重和所述词权重来确定与所得到的各个词语相对应的词间关联度。

对于上述多媒体标题显示装置,在一种可能的实现方式中,所述确定模块采用下式1来计算所述词间关联度,

式1,

其中,co(x,y)表示词语x和词语y之间的词间关联度,x(x,y)表示词语x和词语y之间的词间关联权重,w(x)、w(y)、w(xy)分别表示与词语x、y、xy相对应的词权重。

对于上述多媒体标题显示装置,在一种可能的实现方式中,所述词间关联度因素包括词频和文档反转频率,

所述计算模块采用下式2来计算与所得到的各个词语相对应的词权重,

式2,

其中,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率。

对于上述多媒体标题显示装置,在一种可能的实现方式中,所述词间关联度因素包括词频、文档反转频率和词活跃度,

所述计算模块采用下式3来计算与所得到的各个词语相对应的词权重,

式3,

其中,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率,h(x)、h(y)、h(xy)分别表示与词语x、y、xy相对应的词活跃度。

对于上述多媒体标题显示装置,在一种可能的实现方式中,所述词间关联度因素包括词频、文档反转频率和词性权重,

所述计算模块采用下式4来计算与所得到的各个词语相对应的词权重,

式4,

其中,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率,tn(x)、tn(y)、tn(xy)分别表示与词语x、y、xy相对应的词性权重,α表示词性权重参数,用于加降词性权重。

对于上述多媒体标题显示装置,在一种可能的实现方式中,所述词间关联度因素包括词频、文档反转频率、词活跃度和词性权重,

所述计算模块采用下式5来计算与所得到的各个词语相对应的词权重,

式5,

其中,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率,h(x)、h(y)、h(xy)分别表示与词语x、y、xy相对应的词活跃度,tn(x)、tn(y)、tn(xy)分别表示与词语x、y、xy相对应的词性权重,α表示词性权重参数,用于加降词性权重。

对于上述多媒体标题显示装置,在一种可能的实现方式中,所述缩略显示单元还用于:

根据所述词间关联度对所述多媒体标题数据集之外的其它多媒体标题进行缩略显示。

对于上述多媒体标题显示装置,在一种可能的实现方式中,所述多媒体标题显示装置还包括预处理单元,所述预处理单元与所述分词单元连接,用于对各所述样本标题进行预处理,

其中,所述预处理单元具体用于:

对各所述样本标题进行规范化处理;以及

对进行规范化处理后的各所述样本标题进行清洗。

对于上述多媒体标题显示装置,在一种可能的实现方式中,所述缩略显示单元用于:

根据所述词间关联度对由对各所述样本标题进行分词而得到的各个词语进行分层;

根据分层结果对各所述样本标题进行差异化的缩略显示。

有益效果

通过本发明实施例的多媒体标题显示方法及装置,能够利用自然语言处理技术,基于分词处理及其提供的词性标签及其对应的词性权重,结合公知的统计模型,来构建词语关联网络(词语关联度),并根据词语关联度来优先显示标题的核心主题词,而隐藏与核心主题词关联的修饰重叠或权重较低的词,以动态适应终端设备的屏幕。这样,在不改变标题的前提下,明确了标题的核心主题和要显示的内容,解决了用户对长视频标题的主题定位,提升了信息获取效率和用户体验。

根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面,并且用于解释本发明的原理。

图1示出根据本发明一实施例的多媒体标题显示方法的流程图;

图2示出根据本发明另一实施例的多媒体标题显示方法的流程图;

图3示出根据词频、文档反转频率、词性、以及词活跃度这四个词间关联度因素以及词间关联权重来确定词间关联度的示意图;

图4示出根据本发明又一实施例的多媒体标题显示方法的流程图;

图5示出对各样本标题进行预处理的示意图;

图6示出根据本发明一实施例的多媒体标题显示装置的结构框图;

图7示出根据本发明另一实施例的多媒体标题显示装置的结构框图。

具体实施方式

以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。

有鉴于背景技术中存在的上述问题,本发明针对多媒体标题、特别是长标题的显示策略问题,提出一种融合词语关联度的多媒体标题显示方法。该方法利用nlp(naturallanguageprocessing,自然语言处理)技术,基于分词处理及其提供的词性标签(是否有实体词)及其对应的词性权重,结合公知的统计模型,来构建词语关联网络(词语关联度),并根据词语关联度来优先显示标题的核心主题词,而隐藏与核心词关联的修饰重叠或权重较低的词,以动态适应终端设备的屏幕。这样,在不改变标题的前提下,明确了标题的核心主题和要显示的内容,解决了用户对长视频标题的主题定位,提升了信息获取效率和用户体验。

需要说明的是,在本发明中,主要以视频作为多媒体的示例说明了本发明的多媒体标题显示方法及装置,但本发明不限于此。本领域技术人员知晓,本发明的多媒体标题显示方法及装置同样适用于音频、电子书等其它的多媒体的标题的显示。

下面,通过以下实施例来具体阐述本发明的多媒体标题显示方法及装置。

实施例1

图1示出根据本发明一实施例的多媒体标题显示方法的流程图。如图1所示,该多媒体标题显示方法主要包括以下步骤s110~s150。

步骤s110、对多媒体标题数据集中所包括的各样本标题进行分词处理,以得到多个词语。

具体而言,首先获取一个包括多个、例如10000个样本标题的数据集(样本数据集),然后利用自然语言处理技术,通过现有的分词方法、例如基于字符串匹配的分词方法或结合词典和统计的分词器,来对所获取的数据集中的各个样本标题进行分词处理。

需要说明的是,以上获取的样本标题的数量仅是示例,本发明不限于此。本领域技术人员能够根据实际需要来选择适当的标题数量。并且,本领域技术人员知晓,所选择的标题数量越多,得到的结果越准确,但进行统计等的计算量会随之增大。

通过上述分词处理,能够将各上述样本标题分割成多个词语。并且根据现有的词典和统计,可以得到各个词语的类型及其相应的词性权重。在这里,可以将词语的类型分为实体词和非实体词。例如,“西游记”这个词语可以认为是电视剧,也可以认为是电影,而电视剧和电影均属于实体词范畴。又如,“比如”这个词语无实际含义,属于非实体词。此外,这里的词性权重指的是在标题中某一词语为实体词或非实体词的概率。例如,“西游记”这个词语的词性权重即表示在标题中该词语为电视剧和电影等实体词时的概率。

步骤s120、根据所得到的多个词语建立统计模型。

具体而言,在根据上述步骤s110的分词处理而得到多个词语之后,可以基于所得到的多个词语来建立统计模型、例如三元模型。

在进行分词处理后,例如可以得到a、b、c、d、……等多个词。在建立模型的过程中,可以根据需要来清理例如“和”等常见单字停用词,然后针对各个词(语),计算其在上述数据集中出现的数量及概率等数据。

此外,在一种可能的实现方式中,在建立模型的过程中,还可以统计出计算后述的词间关联权重和词间关联度因素所需的参数。

例如,在建立模型的过程中,针对各个词,可以统计出各个词的数量以及总词频数、即所有的词语出现的次数之和。换句话说,在建立模型的过程中可以统计出计算后述的每个词的词频所需要的参数。

又如,可以统计词x出现的标题次数以及标题总数。换句话说,可以统计出计算后述的每个词的文件反转频率所需要的参数。

又如,可以统计出既包含词x又包含与x相关联的词y的标题数量、不包含词x而包含与x相关联的词y的标题数量、包含词x而不包含及与x相关联的词y的标题数量、以及既不包含词x也不包含与x相关联的词y的标题数量等。换句话说,在建立模型的过程中可以统计出计算后述的词与词之间的关联权重所需要的参数。

又如,还可以统计出与x相关联的n个词的概率。换句话说,在建立模型的过程中可以统计出计算后述的词活跃度所需要的参数。

步骤s130、根据所建立的统计模型来计算与所得到的各个词语分别相对应的词间关联权重和词间关联度因素。

具体而言,可以根据步骤s120中建立的统计模型的过程中统计出的各种类型的参数及数据,来计算与分词处理所得到的各个词语分别相对应的词间关联权重以及诸如词频、文档反转频率等词间关联度因素。

步骤s140、根据所计算出的词间关联权重和词间关联度因素来确定与所得到的各个词语相对应的词间关联度。

其中,在步骤s130中计算出词间关联权重和词间关联度因素后,可以根据这两个参数来计算与各个词语相对应的词间关联度。

这样,基于所获取到的数据集以及所建立的统计模型,就能够建立起词语间的关系网络,在此基础上判断标题中字符的显示和隐藏,以进行后述的缩略显示。

步骤s150、根据词间关联度对多媒体标题数据集中的各样本标题进行缩略显示。

具体而言,将根据步骤s140中所确定的与各个词语相对应的词间关联度而建立的词语间的关系网络应用至上述数据集中各样本标题,这样可以实现对该数据集中的各样本标题进行缩略显示。

这样,对于不同的终端设备,通过应用本发明的多媒体标题显示方法,超出屏幕显示的标题字符不再是简单的省略,而会优先显示标题的核心主题词,省略重复的描述词和权重低的词语,直到适应设备屏幕,同时不会改变标题本身的含义,提升了用户获取信息体验。

这样,通过本发明实施例的多媒体标题显示方法,能够利用自然语言处理技术,基于分词处理及其提供的词性标签及其对应的词性权重,结合公知的统计模型,来构建词语关联网络(词语关联度),并根据词语关联度来优先显示标题的核心主题词,而隐藏与核心主题词关联的修饰重叠或权重较低的词,以动态适应终端设备的屏幕。这样,在不改变标题的前提下,明确了标题的核心主题和要显示的内容,解决了用户对长视频标题的主题定位,提升了信息获取效率和用户体验。

实施例2

图2示出根据本发明另一实施例的多媒体标题显示方法的流程图。图2中标号与图1相同的步骤具有相同的功能,为简明起见,省略对这些步骤的详细说明。

如图2所示,图2所示的多媒体标题显示方法与图1所示多媒体标题显示方法的主要区别在于,上述步骤s140具体可以包括步骤s1401~s1402。

s1401、根据词间关联度因素来计算与所得到的各个词语相对应的词权重。

具体而言,在步骤s130中,可以根据所建立的统计模型中的各种类型的数据以及参数来计算得到影响词间关联度的因素、即词间关联度因素。其中,词间关联度因素例如可以包括词频和文档反转频率,然后可以利用统计模型中所统计出的计算词频和文档反转频率所需的参数来计算词频和文档反转频率,再通过所计算出的词频和文档反转频率来相应地计算与分词处理后所得到的各个词语相对应的词权重。其中,词权重表示词语在样本数据集中的重要程度。

另外,除词频和文档反转频率这两个因素外,词间关联度因素例如还可以包括词活跃度。相应地,可以利用统计模型中所统计出的计算词活跃度所需的参数来计算词活跃度,然后通过所计算出的词频、文档反转频率以及词活跃度来计算词权重。

另外,除词频和文档反转频率这两外因素外,词间关联度还可以考虑词性。相应地,词间关联度因素还可以包括词性权重,然后通过所计算出的词频、文档反转频率以及分词处理中所得到的词性权重来计算词权重。

另外,除词频和文档反转频率这两个因素外,词间关联度因素还可以同时包括词活跃度和词性权重,然后通过词频、文档反转频率、词活跃度和词性权重这四个因素来计算词权重。

s1402、根据词间关联权重和词权重来确定与所得到的各个词语相对应的词间关联度。

在一种可能的实现方式中,可以通过以下公式1,来计算步骤s1402中的与所得到的各个词语相对应的词间关联度。

式1,

其中,co(x,y)表示词语x和词语y之间的词间关联度,x(x,y)表示词语x和词语y之间的词间关联权重。其中,词间关联权重x(x,y)可以使用卡方分布衡量,卡方值越大则词语x和y之间的相关性越大。具体的计算如下式6所示:

式6,

其中,x(x,y)表示词间关联权重,x为某词,y为关联词,a表示含有x和y的标题数量,b表示不含x但含有y的标题数量,c表示含有x不含y的标题数量,d表示既不包含x也不含y的标题数量。

w(x)、w(y)、w(xy)分别表示与词语x、y、xy相对应的词权重。其中,在有些标题中,可能只出现词语x;在有些标题中,可能只出现词语y;在有些标题中,可能同时出现词语x和y。相应地,在上式1中,w(x)是根据出现词语x的标题的相应数据而计算出的,w(y)是根据出现词语y的标题的相应数据而计算出的,而w(xy)是根据同时出现词语x和y的标题的相应数据而计算出的。

在利用上述公式1计算出与分词处理后的各个词语相对应的词间关联度co(x,y)之后,就能够建立起所获取到的数据集中的词语间的关系网络。然后,利用所建立起的词语间的关系网络、即各词语之间的词间关联度来对数据集中的包括各样本标题进行缩略显示。

在一种可能的实现方式中,根据所获取到的数据集中各样本标题的词语间的词间关联度,除了可以对各样本标题进行缩略显示外,还可以对该数据集之外的其它任意多媒体标题进行缩略显示。

这样,通过本发明实施例的多媒体标题显示方法,能够利用自然语言处理技术,基于分词处理及其提供的词性标签及其对应的词性权重,结合公知的统计模型,来构建词语关联网络(词语关联度),并根据词语关联度来优先显示标题的核心主题词,而隐藏与核心主题词关联的修饰重叠或权重较低的词,以动态适应终端设备的屏幕。这样,在不改变标题的前提下,明确了标题的核心主题和要显示的内容,解决了用户对长视频标题的主题定位,提升了信息获取效率和用户体验。

实施例3

本实施例与上述实施例的主要区别在于,上述词间关联度因素具体包括词频和文档反转频率。在这种情况下,具体可以采用下式2来计算与所得到的各个词语相对应的词权重,

式2,

其中,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频。tf(x)是根据出现词语x的标题的相应数据而计算出的,tf(y)是根据出现词语y的标题的相应数据而计算出的,而tf(xy)是根据同时出现词语x和y的标题的相应数据而计算出的。idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率。同上,idf(x)是根据出现词语x的标题的相应数据而计算出的,idf(y)是根据出现词语y的标题的相应数据而计算出的,而idf(xy)是根据同时出现词语x和y的标题的相应数据而计算出的。词频(termfrequency,tf)衡量了词语在标题中的重要性和普遍性。文档反转频率(inversedocumentfrequency,idf)衡量了词语的区分力,词语越常见其区分力越低。在自然语言处理技术中,以上两个因素通常是放在一起考虑的,它们的计算公式如下式7和8:

式7,

式8,

其中,tf(x)表示词频,tx表示标题中出现的某一词x的数量,t表示总词频数;idf(x)表示文档反转频率,nx表示出现x的标题数量,n表示标题总数。

这样,通过以上公式2,就能够考虑词频和文档反转频率这两个因素而计算出与各个词语相对应的词权重,然后通过以上公式1来计算出相应的词间关联度。

在一种可能的实现方式中,上述词间关联度因素具体可以包括词频、文档反转频率和词活跃度。在这种情况下,具体可以采用下式3来计算与所得到的各个词语相对应的词权重,

式3,

其中,如上所述,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率。h(x)、h(y)、h(xy)分别表示与词语x、y、xy相对应的词活跃度。其中,h(x)是根据出现词语x的标题的相应数据而计算出的,h(y)是根据出现词语y的标题的相应数据而计算出的,而h(xy)是根据同时出现词语x和y的标题的相应数据而计算出的。

词语的活跃度是从信息论角度而言,可以使用信息熵衡量词语的信息量和活跃程度,从而得到词活跃度,其具体的计算公式如下式8:

式8,

其中,h(x)表示词活跃度,x表示信息源,即指定的某词语,n表示与词语x相关的词语的数量,p(xi)表示第i个相关词的概率。

这样,通过以上公式3,就能够除了考虑词频和文档反转频率这两个因素之外,还考虑词活跃度,从而计算出与各个词语相对应的词权重,然后通过以上公式1来计算出相应的词间关联度。

这样,可以使得所计算出的词间关联度更加准确可靠。

在一种可能的实现方式中,上述词间关联度因素包括词频、文档反转频率和词性权重。在这种情况下,具体可以采用下式4来计算与所得到的各个词语相对应的词权重。

式4,

其中,如上所述,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率。tn(x)、tn(y)、tn(xy)分别表示与词语x、y、xy相对应的词性权重。其中,tn(x)是由分词处理过程中根据例如字典和统计中而获得的词语x在标题中出现的词性权重,tn(y)是由分词处理过程中根据例如字典和统计中而获得的词语y在标题中出现的词性权重,而tn(xy)是由分词处理过程中根据例如字典和统计中而获得的词语x和y同时在标题中出现的词性权重。α表示词性权重参数,用于加降词性权重,例如实体词做较高的加权,而非实体词做较低的加权。通过加降词性权重,可以使得实体词和非实体词具有一定的区分性,从而适当突出实体词,而隐藏非实体词。

这样,通过以上公式4,就能够除了考虑词频和文档反转频率这两个因素之外,还考虑词性及其权重,从而计算出与各个词语相对应的词权重,然后通过以上公式1来计算出相应的词间关联度。

由于单独使用词频和反文档频率可能会导致侧重那些有一定区分度的高频词,而标题中的一些具有主题区分度的词语可能是低频词。通过结合词性及其权重tn,能够使得既考虑到那些有一定区分度的高频词,又考虑到那些具有主题区分度的低频词,从而使得所计算出的词间关联度更加准确可靠。

在一种可能的实现方式中,上述词间关联度因素包括词频、文档反转频率、词活跃度和词性权重。即上述词间关联度因素除了包括词频和文档反转频率这两个因素外,还可以同时包括词活跃度和词性权重这两个因素。在这种情况下,可以具体采用下式5计算与所得到的各个词语相对应的词权重,

式5,

其中,如上所述,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率,h(x)、h(y)、h(xy)分别表示与词语x、y、xy相对应的词活跃度,tn(x)、tn(y)、tn(xy)分别表示与词语x、y、xy相对应的词性权重,α表示词性权重参数,用于加降词性权重。

这样,通过以上公式5,就能够除了考虑词频和文档反转频率这两个因素之外,还同时考虑词性以及词活跃度,以计算出与各个词语相对应的词权重,然后通过以上公式1来计算出相应的词间关联度。

如图3所示为根据词频、文档反转频率、词性、以及词活跃度这四个词间关联度因素以及词间关联权重来确定词间关联度的示意图。

通过针对考虑的词语关联度因素的不同,可以相应地采用上述公式2~5中的其中一个来计算与各个词语相对应的词权重,然后通过以上公式1来计算出相应的词间关联度。

这样,通过本发明实施例的多媒体标题显示方法,能够利用自然语言处理技术,基于分词处理及其提供的词性标签及其对应的词性权重,结合公知的统计模型,来构建词语关联网络(词语关联度),并根据词语关联度来优先显示标题的核心主题词,而隐藏与核心主题词关联的修饰重叠或权重较低的词,以动态适应终端设备的屏幕。这样,在不改变标题的前提下,明确了标题的核心主题和要显示的内容,解决了用户对长视频标题的主题定位,提升了信息获取效率和用户体验。

实施例4

图4示出根据本发明又一实施例的多媒体标题显示方法的流程图。图4中标号与图1、2相同的步骤具有相同的功能,为简明起见,省略对这些步骤的详细说明。

如图4所示,图4所示的多媒体标题显示方法与图2所示多媒体标题显示方法的主要区别在于,在进行分词处理之前,上述多媒体标题显示方法还可以包括以下步骤s100(步骤s1001、s1002),并且上述步骤s150具体可以包括步骤s1501~s1502。

以下是对上述各步骤的具体说明。

步骤s100、对各样本标题进行预处理。

其中,上述步骤s100具体可以包括以下步骤:

步骤s1001、对各样本标题进行规范化处理;以及

步骤s1002、对进行规范化处理后的各样本标题进行清洗。

例如,可以根据图5所示的示意图来执行上述步骤s1001、s1002。

具体而言,如图5所示,首先,对多媒体标题数据集中的各个样本标题进行规范化处理,具体可以为:将标题的一些特殊字符、例如符号&、*等一般不属于标题组成部分的字符删除,然后根据预设的标题长度阈值对多媒体标题数据进行过滤,以忽略长度低于阈值的标题。其中,针对多媒体的类型不同,预设的标题长度阈值可以不同。

其次,进行规范化处理后,对各样本标题进行清洗,具体可以为将一些垃圾数据、例如标题中植入的广告(qq号等)清理掉,对剩下的数据做分析后再次重复上述清洗过程,直至确认数据满足预定的质量标准为止(满足预定的质量标准即为图5中的“通过”,不满足即为图5中的“未通过”)。

需要说明的是,可以改变步骤s1001、s1002的执行顺序,即可以先执行步骤s1002、再执行步骤s1001。

通过上述预处理,能够使得步骤s110~s150中多媒体标题数据集中的样本标题的质量更高,以利于后续步骤s110~s150的处理的进行。

在一种可能的实现方式中,上述步骤s150具体可以包括步骤:

步骤s1501、根据所述词间关联度对由对各样本标题进行分词而得到的各个词语进行分层;以及

步骤s1502、根据分层结果对各样本标题进行差异化的缩略显示。

具体而言,例如,对于标题“宋小宝小品大全之疯狂相亲”,经过分词及常见停用词清理之后,可以将该标题分词成“宋小宝”、“小品”、“大全”、“疯狂相亲”四个词语。根据上述步骤s140的计算,得出与“宋小宝”、“疯狂相亲”相对应的词间关联度值最高,与“小品”相对应的词间关联度值次之,与“大全”相对应的词间关联度值最低。

然后,根据上述步骤s1501,即可以将“宋小宝”、“疯狂相亲”划分成第一层,“小品”划分成第二层,“大全”划分成第三层。

之后,在步骤s1502中,根据上述分层结果对该样本标题进行差异化的显示,以适应终端设备的屏幕并突出核心主题。例如,当终端设备的屏幕的显示长度只够显示“宋小宝”和“疯狂相亲”这两个词时,则只显示上述第一层,而隐藏第二层和第三层。当终端设备的屏幕的显示长度够显示“宋小宝”、“疯狂相亲”以及“小品”这三个词时,可以显示上述第一层和第二层,而仅隐藏第三层,并且可以利用诸如颜色的不同等来突出显示第一层。

这样,通过上述步骤s1501、s1502,可以对样本标题进行差异化的缩略显示,以获得更优的显示效果。

这样,通过本发明实施例的多媒体标题显示方法,能够利用自然语言处理技术,基于分词处理及其提供的词性标签及其对应的词性权重,结合公知的统计模型,来构建词语关联网络(词语关联度),并根据词语关联度来优先显示标题的核心主题词,而隐藏与核心主题词关联的修饰重叠或权重较低的词,以动态适应终端设备的屏幕。这样,在不改变标题的前提下,明确了标题的核心主题和要显示的内容,解决了用户对长视频标题的主题定位,提升了信息获取效率和用户体验。

实施例5

图6示出根据本发明一实施例的多媒体标题显示装置的结构框。如图6所示,该多媒体标题显示装置60包括:分词单元61,用于对多媒体标题数据集中所包括的各样本标题进行分词处理,以得到多个词语;统计模型建立单元62,与所述分词单元61连接,用于根据所得到的多个词语建立统计模型;计算单元63,与所述分词单元61和所述统计模型建立单元62连接,用于根据所建立的统计模型来计算与所得到的各个词语分别相对应的词间关联权重和词间关联度因素;确定单元64,与所述计算单元63连接,用于根据所计算出的词间关联权重和词间关联度因素来确定与所得到的各个词语相对应的词间关联度;以及缩略显示单元65,与所述确定单元64连接,用于根据所述词间关联度对所述多媒体标题数据集中的各所述样本标题进行缩略显示。

本发明实施例的多媒体标题显示装置60能够执行上述实施例1~4中任一实施例中所描述的多媒体标题显示方法,上述多媒体标题显示方法的具体流程请参见上述实施例的详细阐述。

通过本发明实施例的多媒体标题显示装置,能够利用自然语言处理技术,基于分词处理及其提供的词性标签及其对应的词性权重,结合公知的统计模型,来构建词语关联网络(词语关联度),并根据词语关联度来优先显示标题的核心主题词,而隐藏与核心主题词关联的修饰重叠或权重较低的词,以动态适应终端设备的屏幕。这样,在不改变标题的前提下,明确了标题的核心主题和要显示的内容,解决了用户对长视频标题的主题定位,提升了信息获取效率和用户体验。

实施例6

图7示出根据本发明一实施例的多媒体标题显示装置的结构框。图7中标号与图6相同的组件具有相同的功能,为简明起见,省略对这些组件的详细说明。

如图7所示,本发明实施例的多媒体标题显示装置70与上一实施例的多媒体标题显示装置60的主要区别在于,上述确定单元64主要包括:计算模块641,用于根据所述词间关联度因素来计算与所得到的各个词语相对应的词权重;确定模块642,与所述计算模块641连接,用于根据所述词间关联权重和所述词权重来确定与所得到的各个词语相对应的词间关联度。

在一种可能的实现方式中,所述确定模块642采用下式1来计算所述词间关联度,

式1,

其中,co(x,y)表示词语x和词语y之间的词间关联度,x(x,y)表示词语x和词语y之间的词间关联权重,w(x)、w(y)、w(xy)分别表示与词语x、y、xy相对应的词权重。

在一种可能的实现方式中,所述词间关联度因素包括词频和文档反转频率,

所述计算模块641采用下式2来计算与所得到的各个词语相对应的词权重,

式2,

其中,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率。

在一种可能的实现方式中,所述词间关联度因素包括词频、文档反转频率和词活跃度,

所述计算模块641采用下式3来计算与所得到的各个词语相对应的词权重,

式3,

其中,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率,h(x)、h(y)、h(xy)分别表示与词语x、y、xy相对应的词活跃度。

在一种可能的实现方式中,所述词间关联度因素包括词频、文档反转频率和词性权重,

所述计算模块641采用下式4来计算与所得到的各个词语相对应的词权重,

式4,

其中,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率,tn(x)、tn(y)、tn(xy)分别表示与词语x、y、xy相对应的词性权重,α表示词性权重参数,用于加降词性权重。

在一种可能的实现方式中,所述词间关联度因素包括词频、文档反转频率、词活跃度和词性权重,

所述计算模块641采用下式5来计算与所得到的各个词语相对应的词权重,

式5,

其中,tf(x)、tf(y)、tf(xy)分别表示与词语x、y、xy相对应的词频,idf(x)、idf(y)、idf(xy)分别表示与词语x、y、xy相对应的文档反转频率,h(x)、h(y)、h(xy)分别表示与词语x、y、xy相对应的词活跃度,tn(x)、tn(y)、tn(xy)分别表示与词语x、y、xy相对应的词性权重,α表示词性权重参数,用于加降词性权重。

在一种可能的实现方式中,所述缩略显示单元65还用于:

根据所述词间关联度对所述多媒体标题数据集之外的其它多媒体标题进行缩略显示。

在一种可能的实现方式中,所述多媒体标题显示装置70还可以包括预处理单元66,所述预处理单元66与所述分词单元61连接,用于对各所述样本标题进行预处理,

其中,所述预处理单元66具体用于:对各所述样本标题进行规范化处理;以及对进行规范化处理后的各所述样本标题进行清洗。

在一种可能的实现方式中,所述缩略显示单元65用于:根据所述词间关联度对由对各所述样本标题进行分词而得到的各个词语进行分层;根据分层结果对各所述样本标题进行差异化的缩略显示。

本发明实施例的多媒体标题显示装置70能够执行上述实施例1~4中任一实施例中所描述的多媒体标题显示方法,上述多媒体标题显示方法的具体流程请参见上述实施例的详细阐述。

通过本发明实施例的多媒体标题显示装置,能够利用自然语言处理技术,基于分词处理及其提供的词性标签及其对应的词性权重,结合公知的统计模型,来构建词语关联网络(词语关联度),并根据词语关联度来优先显示标题的核心主题词,而隐藏与核心主题词关联的修饰重叠或权重较低的词,以动态适应终端设备的屏幕。这样,在不改变标题的前提下,明确了标题的核心主题和要显示的内容,解决了用户对长视频标题的主题定位,提升了信息获取效率和用户体验。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1