多媒体资源的标签信息生成方法、装置、存储介质及设备与流程

文档序号：15558372发布日期：2018-09-29 01:39阅读：165来源：国知局

本发明涉及互联网
技术领域：
，特别涉及一种多媒体资源的标签信息生成方法、装置、存储介质及设备。
背景技术：
：随着互联网技术的飞速发展，时下各大网站均致力于如何高效且精准地向用户进行多媒体资源推荐，以提升用户体验。其中，上述提及的多媒体资源可涵盖影片、电视剧、小说、文章等等。通常情况下，在进行多媒体资源推荐之前，一般还需先为多媒体资源生成相应的标签信息，进而通过标签信息来完成多媒体资源推荐。其中，标签信息用于对多媒体资源进行标识，以便于用户甄别多媒体资源的题材类型或核心主题等。基于以上叙述可知，多媒体资源的标签信息对进行多媒体资源推荐十分重要，为此，如何为多媒体资源生成标签信息成为了时下本领域技术人员关注的一个焦点。其中，相关技术在为多媒体资源生成标签信息时完全依赖人工完成。以多媒体资源为影片为例，则参见图1a，若影片为“肖申克的救赎”，那么工作人员可能会人工为其添加“剧情”、“犯罪”这样的标签信息。在实现本发明的过程中，相关技术至少存在以下问题：标签信息依赖于人工生成，而多媒体资源的数目海量，所以该种标签信息的生成方式会消耗大量的人力和时间，不够智能化；此外，人工生成的标签信息存在精确性较差的缺陷，这会导致后续在基于标签信息进行多媒体资源推荐时精准度大大降低。技术实现要素：本发明实施例提供了一种多媒体资源的标签信息生成方法、装置、存储介质及设备，解决了相关技术存在的生成标签信息时不够智能化以及精确性较差，从而导致在推荐多媒体资源时推荐精准度也大大下降的问题。所述技术方案如下：一方面，提供了一种多媒体资源的标签信息生成方法，所述方法包括：获取目标多媒体资源的评论信息，对所述评论信息进行分词处理；获取分词后得到的至少一个词汇的词向量；对所述至少一个词汇的词向量进行聚类，得到多个词汇分类，不同的所述词汇分类具有不同的主题信息；在分词后得到的至少一个词汇中，提取所述目标多媒体资源的关键词汇；基于所述关键词汇和所述多个词汇分类的主题信息，为所述目标多媒体资源生成标签信息。另一方面，提供了一种多媒体资源的标签信息生成装置，所述装置包括：第一获取模块，用于获取目标多媒体资源的评论信息，对所述评论信息进行分词处理；第二获取模块，用于获取分词后得到的至少一个词汇的词向量；聚类模块，用于对所述至少一个词汇的词向量进行聚类，得到多个词汇分类，不同的所述词汇分类具有不同的主题信息；提取模块，用于在分词后得到的至少一个词汇中，提取所述目标多媒体资源的关键词汇；生成模块，用于基于所述关键词汇和所述多个词汇分类的主题信息，为所述目标多媒体资源生成标签信息。另一方面，提供了一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述的多媒体资源的标签信息生成方法。另一方面，提供了一种用于生成标签信息的设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述的多媒体资源的标签信息生成方法。本发明实施例提供的技术方案带来的有益效果是：在为多媒体资源生成标签信息时实现了完全自动化，由于无需投入人力进行标签信息的添加，所以无需消耗大量的人力和时间，智能性较佳；且，本发明实施例基于多媒体资源的评论信息，获取到针对该项多媒体资源的多个词汇分类的主题信息以及用于评述该项多媒体资源的多个关键词汇，以此来为该项多媒体资源生成标签信息，不但使得生成的标签信息更为精确，而且提升了后续在进行多媒体资源推荐时的精准度。附图说明为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1a是
背景技术：
提供的一种用于展示标签信息的界面示意图；图1b是本发明实施例提供的一种多媒体资源的标签信息生成方法所涉及的实施环境的架构示意图。图2是本发明实施例提供的一种多媒体资源的标签信息生成方法的整体处理流程图；图3是本发明实施例提供的一种多媒体资源的标签信息生成方法的流程图；图4是本发明实施例提供的一种计算标签信息的权重值的示意图；图5是本发明实施例提供的一种多媒体资源的标签信息生成方法的流程图；图6是本发明实施例提供的一种用于展示标签信息的界面示意图；图7是本发明实施例提供的一种多媒体资源的标签信息生成装置的结构示意图；图8是本发明实施例提供的一种用于生成标签信息的设备的结构示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。在对本发明实施例进行详细地解释说明之前，先对本发明实施例涉及到的一些名词进行解释说明。多媒体资源：其表现形式包括但不限于文本形式、视频形式、语音形式、图像形式，其可涵盖影片、电视剧、小说、文章、音频片段、综艺视频等等，本发明实施例对此不进行具体限定。且，多媒体资源可通过电子设备的可视用户界面向用户呈现。其中，电子设备可为智能手机、平板电脑、电视机、笔记本电脑、台式电脑等任意具有显示屏幕的设备。标签信息：用于对多媒体资源进行标识，以便于用户甄别多媒体资源的题材类型或核心主题等。以影片为例，影片的标签信息可包括：剧情、犯罪、动作、爱情、戏剧、冒险、战争、惊悚、悬疑、恐怖、科幻、歌舞、历史、家庭、武侠、伦理、记录、传记等。如前文所述，时下各大网站均致力于如何高效且精准地向用户进行多媒体资源推荐，而进行多媒体资源推荐的一大前提便是：通过标签信息将海量多媒体资源进行精准分类。然而，由于相关技术采取人工为多媒体资源添加标签信息的方式，所以通常会带来下述类似的问题：1)、由于标签信息是人工添加的，所以很难控制不同工作人员定义标签信息的标准及分类粒度；此外，多媒体资源的数目海量，因此人工为多媒体资源添加标签信息会消耗大量的人力和时间，缺乏智能性。2)、人工添加的标签信息精确性一般较差，所以基于这样的标签信息进行多媒体资源推荐会存在推荐效果不佳的问题。3)、人工添加的标签信息定义的领域范围通常过于广泛。以影片为例，属于剧情和犯罪这个范畴的影片数量很多，因此在基于诸如“剧情、犯罪”这样的标签信息进行相关影片推荐时，会存在推荐的影片不够精准的问题。为了解决上述问题，本发明实施例提出了一种基于大数据自动为多媒体资源添加标签信息的方法，且还实现了基于生成的标签信息进行相似的多媒体资源推荐。其中，上述大数据指代海量用户对多媒体资源进行评论的评论信息。图1b是本发明实施例提供的一种多媒体资源的标签信息生成方法所涉及的实施环境的结构图。参见图1b，该实施环境中包括终端101和服务器102。其中，终端101用于展示多媒体资源的标签信息，以及展示与该项多媒体资源相似的多媒体资源，终端101的类型包括但不限于智能手机、平板电脑、电视机、笔记本电脑、台式电脑等，本发明实施例对此不进行具体限定。服务器102用于为多媒体资源自动添加标签信息，并基于添加的标签信息确定与该项多媒体资源相似的其他多媒体资源。在另一个实施例中，本发明实施例基于来自互联网上的大数据，采用机器学习方法，实现了为多媒体资源添加带有权重的标签信息，添加的标签信息能够良好反映一项多媒体资源的题材类型或核心主题。例如，对于“肖申克的救赎”这部影片，除了剧情和犯罪这两项标签信息外，本发明实施例能够为其添加诸如[公民权利,0.325]、[监狱,0.212]、[自由,0.23]、[信念,0.14]、[生死,0.093]这样的标签信息。其中，方括号的前面为具体的标签信息，方括号的后面为该项标签信息对应的权重。综上所述，本发明实施例实现了：1)、标签信息的添加完全自动化，无需投入人力进行添加，智能性较佳。2)、使用了来自互联网上的大数据进行标签信息的添加，使得添加的标签更加精准。3)、添加的标签信息带有权重，在基于带有权重的标签信息进行多媒体资源推荐时，能够获得更好的推荐效果。简言之，本发明实施例基于来自互联网上的大数据，通过机器学习方法能够自动为多媒体资源添加带有权重的标签信息，并进一步地基于带有权重的标签信息来进行相似多媒体资源的推荐。在另一个实施例中，本发明实施例在产品侧角度来将主要体现在两个方面，一方面是标签信息的展示，另一个方面是标签信息的应用，即通过添加的标签信息可以进行相似的多媒体资源推荐。以“肖申克的救赎”的标签信息为“公民权利、监狱、自由、信念、生死”为例，则采用本发明实施例提供的推荐方式，能够精准地向用户推荐诸如“美国往事、完美的世界、教父3、猜火车”等影片，而非归属于剧情和犯罪范畴下的一系列不是很相关的影片。需要说明的是，本发明实施例提出的个性化推荐方式，可广泛应用于新上线的多媒体资源。因为对于新上线的多媒体资源来讲，观看的用户数量可能不足够，所以无法通过用户的行为数据来进行相关多媒体资源推荐，因此可采取基于多媒体资源之间内容的相似来完成推荐。当然，本发明实施例提出的上述个性化推荐方式还可应用在其他场景下，本发明实施例对此不进行具体限定。在另一个实施例中，先对本发明实施例的整体处理流程进行简单说明。参见图2，本发明实施例包含的处理流程如下：a、数据采集；该步骤用于采集来自互联网上的大数据。以多媒体资源为影片为例，则采集到的大数据即为海量用户对影片进行评价的影评信息。b、数据处理；该步骤主要用于对采集到的数据进行加工，比如过滤质量较差的评论信息、对评论信息进行分词处理等。c、词向量训练；该步骤用于对分词后得到的至少一个词汇进行词向量训练，训练结果是将每个词汇均表示成一个维数统一的向量。d、词向量聚类，提取主题；该步骤用于对步骤c得到的各个词向量进行聚类，并对聚类得到的各个词汇分类进行主题信息的标注。e、多媒体资源的关键词汇提取；该步骤用于按照一定方式在多媒体资源的评论信息中提取出部分词汇，并将提取出的部分词汇作为用于评论该项多媒体资源的关键词汇。具体的提取方式请参见后文描述。f、为多媒体资源自动添加标签信息；该步骤用于基于步骤d和步骤e的结果自动为多媒体资源添加标签信息。g、基于为多媒体资源生成的标签信息进行相似多媒体资源推荐。下面以具体的实施方式来对上述描述的各个步骤进行详细解释说明。图3是本发明实施例提供的一种多媒体资源的标签信息生成方法的流程图。参见图3，本发明实施例提供的方法流程包括：301、服务器获取目标多媒体资源的评论信息。在本发明实施例中，将待添加标签信息的多媒体资源称之为目标多媒体资源。而评论信息根据多媒体资源的类型不同，通常具有不同的称谓。以多媒体资源为影片为例，则上述评论信息也可称之为影评信息，以多媒体资源为电视剧为例，则上述评论信息也可称之为剧评信息。一项评论信息通常指代一个用户发表的对一项多媒体资源的一篇评论。其中，目标多媒体资源的评论信息本发明实施例可从具有大量评论数据的数据源获取，比如各大论坛、网站、社区等，本发明实施例对此不进行具体限定。此外，在获取评论信息时具体可使用开源爬虫软件scrapy实现。以目标多媒体资源为影片为例，假设a社区专用于积累各个影片的影评信息，其中，这些影评信息从不同角度描述了不同用户对同一部影片的认知，那么针对目标多媒体资源来讲，本发明实施例可使用开源爬虫软件scrapy从a社区爬取海量用户对它的影评信息。需要说明的是，针对不同的数据源来讲，有的数据源除了记录评论信息本身以外，可能还会记录用户对每一项评论信息的相关评价，比如各个用户对每项影评信息的评分、各个用户确定该项影评信息是否有用的投票数据，本发明实施例在进行评论信息的爬取时，也可将对评论信息的相关评价一并爬取，以将其用于后续对爬取到的数据进行处理的步骤。302、服务器对获取到的评论信息进行分词处理。在本发明实施例中，若爬取到的数据中包括针对评论信息的相关评价，则本发明实施例还支持根据这些评价来过滤质量较差的评论信息，以净化数据。在具体进行过滤时，可选择将评分不大于预设分值、或无用投票数大于有用投票数的评论信息过滤掉，因为这些影评的质量不高，对后续生成标签信息可能会带来不良影响。以满分为5分为例，则预设分值可为1分或2分，本发明实施例对此不进行具体限定。其中，对评论信息进行分词处理属于上述步骤b中进行数据处理的一个分支。在对爬取到的评论信息完成过滤后，服务器可使用开源的jieba分词工具来对过滤后的评论信息进行分词。需要说明的第一点是，jieba开源分词工具主要支持三种分词模式：一种为精确模式，试图将句子最精确地切开，主要适用于文本分析；另一种为全模式，将句子中所有的可以成词的词语都扫描出来，虽然速度非常快，但是不能解决歧义问题；最后一种为搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率。本发明实施例可基于最后一种分词模式对评论信息进行分词处理。需要说明的第二点是，由于本发明实施例需要的是一些可以来形容、概括一项多媒体资源的描述性词语，因此在对评论信息进行分词后，通常仅保留具有目标词性的词汇。其中，目标词性包括但不限于名词、形容词以及动词。举例来说，假设评论信息中的部分文字为“半夜的时候终于将整部电影看完了，决定去买书。整部电影没有任何暴力血腥的情节，虽然基调一直是灰暗的，毕竟主要场景是鲨堡——监狱。安迪的无罪入狱，以谋杀妻子和她情人之名被判两个无期徒刑关入鲨堡，一个全是男犯、腐朽肮脏的监狱。气质与众囚犯迥异的安迪，之前几年受过怎样的待遇寥寥带过，但是他所受的伤害可以想象。他让我想起小天狼星布莱克，因为他知道自己是无辜的，这种信念算不上美好就没有被摄魂怪吸走，保持了清醒并最终逃出阿兹卡班。我想，如果生命中有一种信念，心中有一束光芒永不熄灭，百折不饶必将光明。有一个黄昏下的场景，劳动了一天的囚犯在空地上喝着啤酒，配着阿瑞说的那句，“我认为他只想重温自由，哪怕只有一瞬间。”很美，就那么一刻认为逃脱了束缚，享受着自由”，则本发明实施例对其的分词结果为：“终于整部看完了去买整部暴力血腥情节基调一直是灰暗的场景鲨堡监狱安迪无罪入狱谋杀妻子和她情人之名被判无期徒刑关入鲨堡全是男犯腐朽肮脏监狱气质囚犯迥异安迪受过怎样的待遇寥寥是他所受伤害想象让我想为他无辜信念算不上美好就没有摄魂吸走清醒最终逃出卡班我想生命有一种信念光芒永不熄灭不饶光明有一个下的场景劳动囚犯空地啤酒阿瑞说的我认为只想重温自由就那么逃脱束缚享受自由”。303、服务器获取分词后得到的至少一个词汇的词向量。由于分词后得到的至少一个词汇之间是没有关联的，所以本发明实施例通过计算两个词向量之间的相似度，来获取两个词汇之间的相似度。换一种表达方式，本发明实施例将判断两个词汇之间是否语义相近的问题，转换成为计算两个词向量之间的相似度的问题。在本发明实施例中，服务器使用开源的word2vec(词转向量)工具，对分词后得到的至少一个词汇进行词向量训练，得到至少一个词向量。其中，word2vec工具能够将词汇转换成向量,并且保证向量间的相对相似度和语义相似度是相关的。换句话说，word2vec技术是一种将词表征为实数值向量的高效算法模型，其利用深度学习思想，通过训练将对文本内容的处理简化为k维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本在语义上的相似。在本发明实施例中，词向量的训练结果是将每个词汇均表示成一个k维的向量。其中，k的取值可为400，本发明实施例对此不进行具体限定。在另一个实施例中，word2vec工具的训练参数可如下述表1所示：表1304、服务器对至少一个词汇的词向量进行聚类，得到多个词汇分类，不同的词汇分类具有不同的主题信息。在本发明实施例中，在经过上述步骤303得到多个词向量后，还需要通过聚类的方法，将词向量相似的词汇聚集成一个集合。而之所以这样做的原因是：不同用户对一项多媒体资源进行评论时，使用的词汇是有差异的，但不同词汇表达的意思却可能在语义上是相近的，所以本步骤可将语义相近的词汇聚在一起，可选地，可人工为聚类得到的各个词汇分别标记一个主题，即每一个词汇分类对应一个主题词汇。其中，主题词汇可为一个词汇分类中出现频次最高的那个词，也可为对一个词汇分类中各个词汇进行总结概括的词，本发明实施例对此不进行具体限定。本发明实施例采取k-means算法来对上述步骤303得到多个词向量进行聚类，聚类参数可如下述表2所示：表2参数n_clusters＝200,max_iter＝300,n_init＝10参数说明聚类为200个簇，最多迭代300次，质心种子选取10次其中，质心种子指代在进行聚类前初始化的质心点，聚类为200个簇，那么也会初始化200个质心点。由上述表2可知，本发明实施例将分词后得到的多个词汇聚类为200个簇，即聚类为200个词汇分类。下面以下述表3为例对本步骤进行举例说明。表3中示出了6个词汇分类，其中，每一个词汇分类中均包括语义相似的多个词汇，且每一个词汇分类分别具有一个主题信息，不同的词汇分类之间主题信息不同。比如簇id为1的词汇分类与簇id为2的词汇分类之间主题信息便不同，一个为救亡，另一个为谍战。另外，主题信息示出了一个词汇分类的核心思想以及主旨所在。以簇id为1的词汇分类为例，其主题信息为“救亡”，相应地，该词汇分类中包含的词汇均与救亡相关，比如包括“解救,冒着危险,接回,逃离,寻回,出逃,逃出来,要救”等等词汇。表3305、服务器在分词后得到的至少一个词汇中，提取用于评论目标多媒体资源的关键词汇。针对该步骤，本发明实施例使用tf-idf(termfrequency–inversedocumentfrequency，词频-逆文档频率)技术在用于评论目标多媒体资源的至少一个词汇中进行关键词汇提取。在具体实施时，本发明实施例首先将至少一个词汇整合成一个文档，tf用于统计某一个词汇出现的频率，即tf用于表征一个词汇在该文档中出现的次数和该文档中包含的总词数的比值；idf为逆文档词频，用于表征一个词汇的重要程度。以第一概率分值指代tf为例，则对于至少一个词汇中的每个词汇来说，该词汇的第一概率分值的计算方式如下：首先，获取该词汇在至少一个词汇中的出现次数；之后，基于该词汇在至少一个词汇中的出现次数和至少一个词汇中包括的词汇数量，获取该词汇的第一概率分值。换一种表达方式，tf＝一个词汇出现的次数/词汇总数目。以第二概率分值指代idf为例，则对于至少一个词汇中的每个词汇来说，该词汇的第二概率分值的计算方式如下：对于至少一个词汇中的每个词汇，首先服务器在数据库存储的全部文档中确定包括该词汇的至少一个文档；之后，基于至少一个文档的数量和数据库存储的全部文档的数量，获取第二概率分值。换一种表达方式，idf＝log(文档总数/包含该词汇的文档数+1)需要说明的是，本发明实施例将存储的每一项多媒体资源的评论信息整合为一个文档进行存储。即，一个文档与一项多媒体资源对应。综上所述，针对一个词汇来说，该词汇的概率总分值是基于该词汇的第一概率分值和第二概率分值得到的，即tf-idf＝tf*idf。在另一个实施例中，在得到至少一个词汇中每个词汇的概率总分值后，本发明实施例可对各个词汇的概率总分值进行由大到小的排序；之后，将概率总分值排在前预设数目位的词汇作为目标多媒体资源的关键词汇。其中，预设数目的取值可为10或20，本发明实施例对此不进行具体限定。306、服务器基于目标多媒体资源的关键词汇和多个词汇分类的主题信息，为目标多媒体资源生成标签信息。在通过上述步骤304获取到多个词汇分类的主题信息，以及通过上述步骤305获取到目标多媒体资源的关键词汇后，本步骤具体是将上述关键词汇映射到各个主题信息上，即利用关键词汇进行相应的主题信息查找，进而将查找到的主题信息作为目标多媒体资源的标签信息。即，在基于关键词汇和多个词汇分类的主题信息为目标多媒体资源生成标签信息时，本发明实施例采取下述方式实现：首先在多个词汇分类的主题信息中，确定目标多媒体资源的关键词汇对应的主题信息；之后，将目标多媒体资源的关键词汇对应的主题信息作为目标多媒体资源的标签信息。其中，对于在多个词汇分类的主题信息中确定关键词汇对应的主题信息的具体实现方式，又可细分为下述步骤：a、对于任意一个关键词汇，查找多个词汇分类中是否包括该关键词汇；b、若一个词汇分类中包括该关键词汇，则将该词汇分类的主题信息确定为该关键词汇对应的主题信息。在另一个实施例中，本发明实施例还会为生成的每一项标签信息设置权重。其中，权重的来源如下：对于生成的每一项标签信息，将与该标签信息对应的关键词汇的概率总分值，作为该标签信息的权重值。特别的是，若该标签信息对应的关键词汇个数为至少两个，则将与该标签信息对应的各个关键词汇的概率总分值之和，作为该标签信息的权重值。下面以图4为例，对上述标签信息的生成以及权重设置进行举例说明。以影片“窃听风暴”为例，该影片的4个关键词汇“窃听、监听、秘密警察、监视”均对应“窃听”这一主题信息，所以该影片的一项标签信息便是“窃听”，且该标签信息的权重是0.149+0.131+0.129+0.052＝0.461。其中，0.149为关键词汇“窃听”的概率总分值，0.131为关键词汇“监听”的概率总分值，0.129为关键词汇“秘密警察”的概率总分值，0.052为关键词汇“监视”的概率总分值。需要说明的是，服务器重复执行上述步骤301至步骤306便可为数据库中存储的各项多媒体资源自动添加标签信息。而在提取出多媒体资源的标签信息后，一个有效应用便是进行相似多媒体资源的推荐。在另一个实施例中，参见图5，本发明实施例提供的多媒体资源推荐方式包括下述步骤：501、服务器获取目标多媒体资源的第一向量信息。502、服务器获取其他多媒体资源的第二向量信息。其中，其他多媒体资源为数据库存储的除了目标多媒体资源之外的资源。在本发明实施例中，为了计算一项多媒体资源与数据库中其他多媒体资源之间的相似度，还需先将各项多媒体资源向量化。其中，向量化的过程包括：(1)、对于任意一项多媒体资源，对该项多媒体资源的各项标签信息进行词向量训练，得到各项标签信息的词向量。对于任意标签信息w，w的词向量可表示为[w1v1,w1v2,...w1v400]。即，每个词向量可用一个1*400的矩阵进行表示。(2)、对于每一项标签信息，获取该标签信息的词向量与该标签信息的权重值的乘积运算结果，将各项标签信息的乘积运算结果之和，作为该多媒体资源的向量信息。假设某部影片的标签信息分别为“窃听、特工、演奏、人性、生活、政法、艺术家、自由和历史”，那么该部影片的向量＝窃听的词向量*权重+特工的词向量*权重+...+历史的词向量*权重。若每一个词向量均是用一个1*400的矩阵进行表示，则该部影片的向量同样为一个1*400大小。503、服务器基于目标多媒体资源的第一向量信息以及其他多媒体资源的第二向量信息，计算目标多媒体资源与其他多媒体资源之间的相似度。以目标多媒体资源为a影片，其他任意的一项多媒体资源为b影片为例，则本发明实施例可使用余弦相似度算法来计算a影片和b影片之间的相似度：其中，i和n均为正整数，n指代两个影片的向量信息的维度，比如n的取值为400。504、服务器在其他多媒体资源中，选取相似度大于预设阈值的指定多媒体资源。假设目标多媒体资源为“肖申克的救赎”，则计算该部影片与数据库中存储的其他所有影片两两之间的相似度。其中，预设阈值的大小可为0.8或0.9等，本发明实施对此不进行具体限定。继续以“肖申克的救赎”为例，如下述表4所示，可将该影片通其他影片的相似度按照数值大小进行排序。表4影片名称相似度美国往事0.816完美的世界0.811教父30.805猜火车0.802撞车0.802你丫闭嘴！0.742空中监狱0.72421克0.723十一罗汉0.723这个杀手不太冷0.720505、服务器将指定多媒体资源作为与目标多媒体资源相似的资源进行推荐。假设预设阈值的大小为0.8，则将“美国往事、完美的世界、教父3、猜火车、撞车”等几部影片作为与“肖申克的救赎”相似的影片进行推荐。506、终端在展示目标多媒体资源的标签信息时，同时展示与目标多媒体资源相似的资源。继续以目标多媒体资源为“肖申克的救赎”为例，则终端在展示该部影片的标签信息以及与其相似的资源时，可按照如图6所示的方式进行展示，本发明实施例对此不进行具体限定。综上所述，本发明实施例提供的方法具有以下有益效果：1)、在为多媒体资源添加标签时实现了完全自动化，由于无需投入人力进行标签信息的添加，所以无需消耗大量的人力和时间，智能性较佳。2)、爬取了来自互联网上的大数据，以此来获取多媒体资源的评论信息，且还在全部的评论信息中过滤掉了质量较差的评论信息，并进一步基于过滤好的评论信息来生成标签信息，所以生成的标签信息更加精准，进而后续在基于生成的标签信息进行多媒体资源推荐时，推荐效果更佳。3)、生成的标签信息带有权重，在基于带有权重的标签信息推荐相似多媒体资源时，确保了良好的推荐效果。图7是本发明实施例提供的一种多媒体资源的标签信息生成装置的结构示意图。参见图7，该装置包括：第一获取模块701，用于获取目标多媒体资源的评论信息，对所述评论信息进行分词处理；第二获取模块702，用于获取分词后得到的至少一个词汇的词向量；聚类模块703，用于对所述至少一个词汇的词向量进行聚类，得到多个词汇分类，不同的所述词汇分类具有不同的主题信息；提取模块704，用于在分词后得到的至少一个词汇中，提取所述目标多媒体资源的关键词汇；生成模块705，用于基于所述关键词汇和所述多个词汇分类的主题信息，为所述目标多媒体资源生成标签信息。本发明实施例提供的装置，在为多媒体资源生成标签信息时实现了完全自动化，由于无需投入人力进行标签信息的添加，所以无需消耗大量的人力和时间，智能性较佳；且，本发明实施例基于多媒体资源的评论信息，获取到针对该项多媒体资源的多个词汇分类的主题信息以及用于评述该项多媒体资源的多个关键词汇，以此来为该项多媒体资源生成标签信息，不但使得生成的标签信息更为精确，而且提升了后续在进行多媒体资源推荐时的精准度。在另一个实施例中，提取模块，还用于对于所述至少一个词汇中的每个词汇，获取所述词汇的第一概率分值和第二概率分值，所述第一概率分值用于表征所述词汇的出现频率，所述第二概率分值用于表征所述词汇的重要程度；基于所述第一概率分值和所述第二概率分值，获取所述词汇的概率总分值；按照由大到小的顺序，获取概率总分值排在前预设数目位的词汇作为所述关键词汇。在另一个实施例中，提取模块，还用于将所述至少一个词汇整合为一个文档；对于所述至少一个词汇中的每个词汇，在数据库存储的全部文档中确定包括所述词汇的至少一个文档；基于所述至少一个文档的数量和所述数据库存储的全部文档的数量，获取所述词汇的第二概率分值。在另一个实施例中，生成模块，还用于在所述多个词汇分类的主题信息中，确定所述关键词汇对应的主题信息；将所述关键词汇对应的主题信息作为所述目标多媒体资源的标签信息。在另一个实施例中，每个所述词汇分类中包括语义相似的至少一个词汇；生成模块，还用于对于任意一个关键词汇，查找所述多个词汇分类中是否包括所述关键词汇；若一个词汇分类中包括所述关键词汇，则将所述词汇分类的主题信息确定为所述任意一个关键词汇对应的主题信息。在另一个实施例中，该装置还包括：设置模块，用于对于为所述目标多媒体资源生成的每一项标签信息，将与所述标签信息对应的关键词汇的概率总分值，作为所述标签信息的权重值。在另一个实施例中，设置模块，还用于若所述标签信息对应的关键词汇个数为至少两个，则将与所述标签信息对应的各个关键词汇的概率总分值之和，作为所述标签信息的权重值。在另一个实施例中，该装置还包括：推荐模块，用于获取所述目标多媒体资源的第一向量信息；获取其他多媒体资源的第二向量信息，所述其他多媒体资源为数据库存储的除了所述目标多媒体资源之外的资源；基于所述第一向量信息以及所述第二向量信息，获取所述目标多媒体资源与所述其他多媒体资源之间的相似度；按照获取到的相似度进行与所述目标多媒体资源相似的资源推荐。在另一个实施例中，推荐模块，还用于对于任意一项多媒体资源，获取所述多媒体资源的各项标签信息的词向量；基于所述各项标签信息的词向量与权重值，获取所述多媒体资源的向量信息。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。需要说明的是：上述实施例提供的多媒体资源的标签信息生成装置在生成标签信息时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多媒体资源的标签信息生成装置与多媒体资源的标签信息生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。图8是本发明实施例提供的一种用于生成标签信息的设备的结构示意图，该设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessingunits，cpu)801和一个或一个以上的存储器802，其中，所述存储器802中存储有至少一条指令，所述至少一条指令由所述处理器801加载并执行以实现上述各个方法实施例提供的多媒体资源的标签信息生成方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中的多媒体资源的标签信息生成方法。例如，所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王聪
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。