推荐多媒体文件的方法及装置与流程

文档序号:11063581阅读:173来源:国知局
本公开涉及互联网
技术领域
:,尤其涉及一种推荐多媒体文件的方法及装置。
背景技术
::随着信息时代的到来,服务器中存储的视频文件越来越多;用户可以使用终端从服务器中获取用户感兴趣的视频文件。为了提高用户的体验,服务器还可以为用户推荐用户感兴趣的视频文件。目前,服务器在为用户推荐视频文件时,统计服务器中每个视频文件的点击率,根据每个视频文件的点击率,选择点击率最高的视频文件,向用户推荐选择的视频文件。技术实现要素:为克服相关技术中存在的问题,本公开提供一种推荐多媒体文件的方法及装置,所述技术方案如下:根据本公开实施例的第一方面,提供一种推荐多媒体文件的方法,所述方法包括:获取终端对应的第一多媒体文件的第一标签信息,所述第一标签信息为基于所述第一多媒体文件的第一字幕信息提取的;根据所述第一标签信息和多媒体文件库中每个第二多媒体文件的第二标签信息,从所述多媒体文件库中选择第二标签信息与所述第一标签信息匹配的第二多媒体文件,所述每个第二多媒体文件的第二标签信息为基于所述每个第二多媒体文件的第二字幕信息提取的;向所述终端发送所述第二多媒体文件的标识。在本公开实施例中,由于第一标签信息为基于第一多媒体文件的第一字幕信息提取的,每个第二多媒体文件的第二标签信息为基于每个第二多媒体文件的第二字幕信息提取的,因此提取的第一标签信息和每个第二多媒体文件的第二标签信息较准确,从而根据第一标签信息和每个第二多媒体文件的第二标签信息,向用户推荐第二多媒体文件,能够提高向用户推荐第二多媒体文件的准确性。在一种可能实现方式中,所述获取终端对应的第一多媒体文件的第一标签信息,包括:获取所述第一多媒体文件的第一字幕信息;对所述第一字幕信息进行分词,得到第一关键词集合;对所述第一关键词集合中的每个关键词进行分析,得到所述第一标签信息。在本公开实施例中,通过对第一多媒体文件的第一字幕信息进行语义分析,提取第一多媒体文件的第一标签信息,从而提高了第一标签信息的准确性。在一种可能实现方式中,所述对所述第一关键词集合中的每个关键词进行分析,得到所述第一标签信息,包括:获取所述每个关键词在所述第一字幕信息中的概率,以及,获取所述每个关键词属于主题信息库中的每个主题信息的概率,所述主题信息库用于存储多个预设的主题信息;根据所述每个关键词在所述第一字幕信息中的概率和所述每个关键词属于每个主题信息的概率,确定所述第一多媒体文件属于所述每个主题信息的概率;根据所述第一多媒体文件属于所述每个主题信息的概率,从所述每个主题信息中选择概率最大的预设数目个主题信息;将选择的预设数目个主题信息组成所述第一标签信息。在本公开实施例中,根据每个关键词在第一字幕信息中的概率和每个关键词属于每个主题信息的概率,确定第一多媒体文件属于每个主题信息的概率;根据第一多媒体文件属于每个主题信息的概率,从每个主题信息中选择概率最大的预设数目个主题信息,从而提高了第一标签信息的准确性。在一种可能实现方式中,所述根据所述每个关键词在所述第一字幕信息中的概率和所述每个关键词属于每个主题信息的概率,确定所述第一多媒体文件属于所述每个主题信息的概率,包括:将所述每个关键词在所述第一字幕信息中的概率组成第一概率矩阵,以及,将所述每个关键词属于每个主题信息的概率组成第二概率矩阵;将所述第二概率矩阵的逆矩阵与所述第一概率矩阵相乘,得到第三概率矩阵;从所述第三概率矩阵中获取所述第一多媒体文件属于所述每个主题信息的概率。在本公开实施例中,将每个关键词在第一字幕信息中的概率组成第一概率矩阵,将每个关键词属于每个主题信息的概率组成第二概率矩阵,根据第一概率矩阵和第二概率矩阵,确定第一多媒体文件属于每个主题信息的概率,提高了确定出第一多媒体文件属于每个主题信息的概率的准确性,进而提高了第一标签信息的准确性。在一种可能实现方式中,所述获取所述每个关键词属于主题信息库中的每个主题信息的概率,包括:对于所述每个主题信息,获取所述主题信息对应的预设关键词集合;根据所述每个关键词在所述第一字幕信息中的概率、所述预设关键词集合和所述预设关键词集合包含的关键词的数目,确定所述每个关键词属于所述主题信息的概率。在一种可能实现方式中,所述根据所述每个关键词在所述第一字幕信息中的概率、所述预设关键词集合和所述预设关键词集合包含的关键词的数目,确定所述每个关键词属于所述主题信息的概率,包括:如果所述预设关键词集合中包含所述每个关键词,将所述每个关键词在所述第一字幕信息中的概率和所述预设关键词集合包含的关键词的数目的比值作为所述每个关键词属于所述主题信息的概率;如果所述预设关键词集合中不包含所述每个关键词,确定所述每个关键词属于所述主题信息的概率为零。在本公开实施例中,将每个关键词在第一字幕信息中的概率和预设关键词集合包含的关键词的数目的比值作为每个关键词属于该主题信息的概率,由于结合了每个关键词在第一字幕信息中的概率,确定每个关键字属于该主题信息的概率,提高了确定出每个关键词属于该主题信息的概率的准确性,进而提高了第一标签信息的准确性。在一种可能实现方式中,所述对所述第一字幕信息进行分词,得到第一关键词集合,包括:对所述第一字幕信息进行分词,将所述第一字幕信息包括的每个分词组成第二关键词集合;将所述第二关键词集合中预设类型的关键词去除,得到所述第一关键字集合。在本公开实施例中,将第二关键词集合中预设类型的关键词去除,不仅降低了运算量,还提高了第一标签信息的准确性。在一种可能实现方式中,所述第一标签信息包括所述第一多媒体文件所属的主题信息、制作所述第一多媒体文件的用户信息和被拍摄的用户信息中的至少一个。在本公开实施例中,第一标签信息中包括第一多媒体文件所属的主题信息、制作第一多媒体文件的用户信息和被拍摄的用户信息中的至少一个。因此结合第一多媒体文件所属的主题信息、制作第一多媒体文件的用户信息和被拍摄的用户信息中的至少一个为用户推荐第二多媒体文件,能够提高向用户推荐第二多媒体文件的准确性。根据本公开实施例的第二方面,提供一种推荐多媒体文件的装置,所述装置包括:获取模块,用于获取终端对应的第一多媒体文件的第一标签信息,所述第一标签信息为基于所述第一多媒体文件的第一字幕信息提取的;选择模块,用于根据所述第一标签信息和多媒体文件库中每个第二多媒体文件的第二标签信息,从所述多媒体文件库中选择第二标签信息与所述第一标签信息匹配的第二多媒体文件,所述每个第二多媒体文件的第二标签信息为基于所述每个第二多媒体文件的第二字幕信息提取的;发送模块,用于向所述终端发送所述第二多媒体文件的标识。在一种可能实现方式中,所述获取模块,包括:获取单元,用于获取所述第一多媒体文件的第一字幕信息;分词单元,用于对所述第一字幕信息进行分词,得到第一关键词集合;分析单元,用于对所述第一关键词集合中的每个关键词进行分析,得到所述第一标签信息。在一种可能实现方式中,所述分析单元,还用于获取所述每个关键词在所述第一字幕信息中的概率,以及,获取所述每个关键词属于主题信息库中的每个主题信息的概率,所述主题信息库用于存储多个预设的主题信息,根据所述每个关键词在所述第一字幕信息中的概率和所述每个关键词属于每个主题信息的概率,确定所述第一多媒体文件属于所述每个主题信息的概率,根据所述第一多媒体文件属于所述每个主题信息的概率,从所述每个主题信息中选择概率最大的预设数目个主题信息,将选择的预设数目个主题信息组成所述第一标签信息。在一种可能实现方式中,所述分析单元,还用于将所述每个关键词在所述第一字幕信息中的概率组成第一概率矩阵,以及,将所述每个关键词属于每个主题信息的概率组成第二概率矩阵,将所述第二概率矩阵的逆矩阵与所述第一概率矩阵相乘,得到第三概率矩阵,从所述第三概率矩阵中获取所述第一多媒体文件属于所述每个主题信息的概率。在一种可能实现方式中,所述分析单元,还用于对于所述每个主题信息,获取所述主题信息对应的预设关键词集合,根据所述每个关键词在所述第一字幕信息中的概率、所述预设关键词集合和所述预设关键词集合包含的关键词的数目,确定所述每个关键词属于所述主题信息的概率。在一种可能实现方式中,所述分析单元,还用于如果所述预设关键词集合中包含所述每个关键词,将所述每个关键词在所述第一字幕信息中的概率和所述预设关键词集合包含的关键词的数目的比值作为所述每个关键词属于所述主题信息的概率,如果所述预设关键词集合中不包含所述每个关键词,确定所述每个关键词属于所述主题信息的概率为零。在一种可能实现方式中,所述分词单元,还用于对所述第一字幕信息进行分词,将所述第一字幕信息包括的每个分词组成第二关键词集合,将所述第二关键词集合中预设类型的关键词去除,得到所述第一关键字集合。在一种可能实现方式中,所述第一标签信息包括所述第一多媒体文件所属的主题信息、制作所述第一多媒体文件的用户信息和被拍摄的用户信息中的至少一个。根据本公开实施例的第三方面,提供一种推荐多媒体文件的装置,所述装置包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取终端对应的第一多媒体文件的第一标签信息,所述第一标签信息为基于所述第一多媒体文件的第一字幕信息提取的;根据所述第一标签信息和多媒体文件库中每个第二多媒体文件的第二标签信息,从所述多媒体文件库中选择第二标签信息与所述第一标签信息匹配的第二多媒体文件,所述每个第二多媒体文件的第二标签信息为基于所述每个第二多媒体文件的第二字幕信息提取的;向所述终端发送所述第二多媒体文件。本公开的实施例提供的技术方案可以包括以下有益效果:在本公开实施例中,由于第一标签信息为基于第一多媒体文件的第一字幕信息提取的,每个第二多媒体文件的第二标签信息为基于每个第二多媒体文件的第二字幕信息提取的,因此提取的第一标签信息和每个第二多媒体文件的第二标签信息较准确,从而根据第一标签信息和每个第二多媒体文件的第二标签信息,向用户推荐第二多媒体文件,能够提高向用户推荐第二多媒体文件的准确性。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1是根据一示例性实施例示出的一种实施环境示意图;图2是根据一示例性实施例示出的一种推荐多媒体文件的方法的流程图;图3是根据一示例性实施例示出的一种推荐多媒体文件的方法的流程图;图4是根据一示例性实施例示出的一种推荐多媒体文件的装置的框图;图5是根据一示例性实施例示出的一种获取模块的框图;图6是根据一示例性实施例示出的一种推荐多媒体文件的装置的框图。具体实施方式为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。图1是本公开实施例提供的一种实施环境的示意图,参见图1,该实施环境包括:终端101和服务器102,终端101与服务器102之间通过通信网络连接。其中,终端101中运行服务器102关联的应用,可以基于用户标识登录该应用,从而与该服务器102进行交互。该应用可以为视频应用或者音频应用等多种应用,该用户标识可以为用户账号、电话号码等,本公开实施例对此不做限定。终端101可以为手机终端、PAD(portableandroiddevice,平板电脑)终端或者电脑终端等。服务器102可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务器中心,本公开实施例对此不做限定。终端上安装某应用,该应用可以为视频应用或者音频应用。当终端通过该应用播放多媒体文件时,服务器可以基于用户当前播放或者历史播放的第一多媒体文件为用户推荐第二多媒体文件,在推荐第二多媒体文件时,服务器获取第一多媒体文件的第一标签信息,第一标签信息为基于第一多媒体文件的第一字幕信息提取的,并且,第一多媒体文件可以为一个多媒体文件,也可以包括多个多媒体文件;获取多媒体文件库中每个第二多媒体文件的第二标签信息,根据第一标签信息和每个第二多媒体文件的第二标签信息,向用户推荐第二多媒体文件,第二多媒体文件可以为一个多媒体文件,也可以包括多个多媒体文件。由于第一标签信息为基于第一多媒体文件的第一字幕信息提取的,每个第二多媒体文件的第二标签信息为基于每个第二多媒体文件的第二字幕信息提取的,因此提取的第一标签信息和每个第二多媒体文件的第二标签信息较准确,从而根据第一标签信息和每个第二多媒体文件的第二标签信息,向用户推荐第二多媒体文件,能够提高向用户推荐第二多媒体文件的准确性。图2是根据一示例性实施例示出的一种推荐多媒体文件的方法流程图,该方法的执行主体可以为服务器,如图2所示,包括以下步骤。在步骤S201中,获取终端对应的第一多媒体文件的第一标签信息,第一标签信息为基于第一多媒体文件的第一字幕信息提取的。在步骤S202中,根据第一标签信息和多媒体文件库中每个第二多媒体文件的第二标签信息,从多媒体文件库中选择第二标签信息与第一标签信息匹配的第二多媒体文件,每个第二多媒体文件的第二标签信息为基于每个第二多媒体文件的第二字幕信息提取的。在步骤S203中,向终端发送第二多媒体文件的标识。在一种可能实现方式中,获取终端对应的第一多媒体文件的第一标签信息,包括:获取第一多媒体文件的第一字幕信息;对第一字幕信息进行分词,得到第一关键词集合;对第一关键词集合中的每个关键词进行分析,得到第一标签信息。在一种可能实现方式中,对第一关键词集合中的每个关键词进行分析,得到第一标签信息,包括:获取每个关键词在第一字幕信息中的概率,以及,获取每个关键词属于主题信息库中的每个主题信息的概率,该主题信息库用于存储多个预设的主题信息;根据每个关键词在第一字幕信息中的概率和每个关键词属于每个主题信息的概率,确定第一多媒体文件属于每个主题信息的概率;根据第一多媒体文件属于每个主题信息的概率,从每个主题信息中选择概率最大的预设数目个主题信息;将选择的预设数目个主题信息组成第一标签信息。在一种可能实现方式中,根据每个关键词在第一字幕信息中的概率和每个关键词属于每个主题信息的概率,确定第一多媒体文件属于每个主题信息的概率,包括:将每个关键词在第一字幕信息中的概率组成第一概率矩阵,以及,将每个关键词属于每个主题信息的概率组成第二概率矩阵;将第二概率矩阵的逆矩阵与第一概率矩阵相乘,得到第三概率矩阵;从第三概率矩阵中获取第一多媒体文件属于每个主题信息的概率。在一种可能实现方式中,获取每个关键词属于主题信息库中的每个主题信息的概率,包括:对于每个主题信息,获取该主题信息对应的预设关键词集合;根据每个关键词在第一字幕信息中的概率、预设关键词集合和预设关键词集合包含的关键词的数目,确定每个关键词属于该主题信息的概率。在一种可能实现方式中,根据每个关键词在第一字幕信息中的概率、预设关键词集合和预设关键词集合包含的关键词的数目,确定每个关键词属于该主题信息的概率,包括:如果预设关键词集合中包含每个关键词,将每个关键词在第一字幕信息中的概率和预设关键词集合包含的关键词的数目的比值作为每个关键词属于该主题信息的概率;如果预设关键词集合中不包含每个关键词,确定每个关键词属于该主题信息的概率为零。在一种可能实现方式中,对第一字幕信息进行分词,得到第一关键词集合,包括:对第一字幕信息进行分词,将第一字幕信息包括的每个分词组成第二关键词集合;将第二关键词集合中预设类型的关键词去除,得到第一关键字集合。在一种可能实现方式中,第一标签信息包括第一多媒体文件所属的主题信息、制作第一多媒体文件的用户信息和被拍摄的用户信息中的至少一个。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。图3是根据一示例性实施例示出的一种设置标签信息的方法流程图,该方法的执行主体可以为服务器,如图3所示,包括以下步骤。在步骤S301中,服务器获取终端对应的第一多媒体文件的第一标签信息,第一标签信息为基于第一多媒体文件的第一字幕信息提取的。当终端登录服务器或者从服务器中获取多媒体文件时,服务器根据终端的终端标识,从终端的历史播放记录中获取终端对应的第一多媒体文件;第一多媒体文件可以为一个多媒体文件,也可以包括多个多媒体文件。为了提高准确性,服务器可以从终端的历史播放记录中获取播放时间离当前时间最近的第一预设数目个多媒体文件作为第一多媒体文件。其中,第一标签信息包括第一多媒体文件所属的主题信息、制作第一多媒体文件的用户信息和被拍摄的用户信息中的至少一个。第一多媒体文件可以为视频文件或者音频文件;当第一多媒体文件为视频文件时,制作第一多媒体文件的用户信息可以为第一多媒体文件的导演和/或制片人,被拍摄的用户信息可以为拍摄第一多媒体文件的演员等。当第一多媒体文件为音频文件时,制作第一多媒体文件的用户信息可以为演唱者等。第一预设数目可以为1或者5。当第一标签信息包括第一多媒体文件所属的主题信息时,本步骤可以通过以下步骤3011-3013实现,包括:3011:服务器获取第一多媒体文件的第一字幕信息。服务器中存储了多媒体文件的标识和字幕文件的对应关系;相应的,本步骤可以为:服务器根据第一多媒体文件的标识,从多媒体文件的标识和字幕文件的对应关系中获取第一多媒体文件的字幕文件,从第一多媒体文件的字幕文件中获取该第一多媒体文件的字幕信息。第一多媒体文件可以为视频文件或者音频文件。第一多媒体文件的标识可以为第一多媒体文件的名称或者编号等。在本公开实施例中,对第一多媒体文件的标识不作具体限定。3012:服务器对第一字幕信息进行分词,得到第一关键词集合。在本步骤中,服务器可以对第一字幕信息进行分词,将第一字幕信息包括的每个分词组成第一关键词集合;服务器也可以通过以下步骤(1)-(2),得到第一关键词集合,包括:(1):服务器对第一字幕信息进行分词,将第一字幕信息包括的每个分词组成第二关键词集合。服务器通过预设分词工具,对第一字幕信息进行分词,得到第一字幕信息包括的每个分词,将第一字幕信息包括的每个分词组成第二关键词集合。例如,第一字幕信息为“最了解你的人不是你的朋友,而是你的敌人。”则通过预设分词工具,对第一字幕信息进行分词,得到第一字幕信息包括的每个分词为“最”、“了解”、“你的”、“人”、“不是”、“你的”、“朋友”、“而是”、“你的”、“敌人”,则第二关键词集合为{“最”、“了解”、“你的”、“人”、“不是”、“你的”、“朋友”、“而是”、“你的”、“敌人”}。预设分词工具可以为StandardAnalyzer(标准化分词工具),ChineseAnalyzer(中国分词工具),CJKAnalyzer(CJK分词工具)或者IKAnalyzer(IK分词工具)。在本公开实施例中,对预设分词工具不做具体限定。由于“的”、“了”、“么”、“吧”、“啊”、“最”之类的关键词对标签信息起不到关键作用;因此,为了减少运算量以及提高设置标签信息的准确性,在本步骤中,服务器还可以通过以下步骤(2)将“的”、“了”、“么”、“吧”、“啊”、“最”之类的关键词从第二关键词集合中去除。(2):服务器将第二关键词集合中预设类型的关键词去除,得到第一关键字集合。预设类型的关键词可以为语气词或者助词等。则本步骤可以为:服务器标注第二关键词集合中的每个关键词的词性,根据第二关键词集合中的每个关键词,从第二关键词集合中查找预设类型的关键词,将预设类型的关键词从第二关键词集合中去除,得到第一关键词集合。例如,服务器将第二关键词集合{“最”、“了解”、“你的”、“人”、“不是”、“你的”、“朋友”、“而是”、“你的”、“敌人”}中的“最”、“你的”、“人”、“不是”和“而是”去除,得到第一关键词集合为{“了解”、“朋友”、“敌人”}。在一个可能的实现方式中,由于第一关键词集合中可能包含同义词或者近义词,例如,“首都”和“北京”是同义词;因此,为了减少运算量,服务器得到第一关键词集合之后,还可以将第一关键词集合中的多个同义词或者近义词合并为一个关键词。由于减少了第一关键词集合中的关键词的数量,因此,减少了服务器的运算量,进而提高了获取第一标签信息的效率。3013:服务器对第一关键词集合中的每个关键词进行分析,得到第一标签信息。本步骤可以通过以下第一种方式或者第二种方式实现;对于第一种实现方式,本步骤可以通过以下步骤(1)-(3)实现,包括:(1):服务器获取每个关键词在第一字幕信息中的概率。服务器获取每个关键词在第一字幕信息中出现的出现次数,计算每个关键词的出现次数之和,将每个关键词的出现次数与该出现次数之和的比值确定为每个关键词在第一字幕信息中的概率。需要说明的是,如果服务器将第一关键词集合中的多个同义词或者近义词合并为一个关键词,则服务器获取该关键词在第一字幕信息中的概率时,服务器获取该关键词的同义词或者近义词在第一字幕信息中出现的出现次数之和,计算每个关键词的出现次数之和,将该关键词的同义词或者近义词在第一字幕信息中出现的出现次数之和与每个关键词的出现次数之和的比值确定为该关键词在第一字幕信息中的概率。(2):服务器获取每个关键词属于主题信息库中的每个主题信息的概率,该主题信息库用于存储多个预设的主题信息。预设的主题信息可以为“友谊”、“情感”和“爱情”等。本步骤可以通过以下步骤(2-1)-(2-2)实现,包括:(2-1):对于每个主题信息,服务器获取该主题信息对应的预设关键词集合。对于主题信息库中的每个主题信息,服务器中存储每个主题信息和预设关键词集合的对应关系;相应的,本步骤可以为:服务器根据该主题信息,从主题信息和预设关键词集合的对应关系中获取该主题信息对应的预设关键词集合。其中,该预设关键词集合中包括属于该主题信息的多个预设的关键词。例如,服务器获取主题信息“友谊”对应的预设关键词集合为{朋友、友谊、义气}。(2-2):服务器根据每个关键词在字幕信息中的概率、该预设关键词集合和该预设关键词集合包含的关键词的数目,确定该每个关键词属于该主题信息的概率。对于每个关键词,服务器检测该预设关键词集合中是否包含该关键词;如果该预设关键词集合中包含该关键词,将该关键词在第一字幕信息中的概率和该预设关键词集合包含的关键词的数目的比值作为该关键词属于该主题的概率。如果该预设关键词集合中不包含该关键词,确定该关键词属于该主题信息的概率为零。(3):服务器根据每个关键词在第一字幕信息中的概率和每个关键词属于每个主题信息的概率,确定第一多媒体文件属于每个主题信息的概率。本步骤可以通过以下步骤(3-1)-(3-3)实现,包括:(3-1):服务器将每个关键词在第一字幕信息中的概率组成第一概率矩阵,以及,将每个关键词属于每个主题信息的概率组成第二概率矩阵。服务器将每个关键词在第一字幕信息中的概率作为一行数据,组成第一概率矩阵;对于每个关键词,服务器将该关键词属于每个主题信息的概率作为一行数据,组成第二概率矩阵。第一概率矩阵为n×1的矩阵,第二概率矩阵为n×m的矩阵;其中,n为第一关键词集合中包括的关键词的个数,m为主题信息库中包括的预设的主题信息的个数。例如,每个关键词分别为A、B和C;A、B和C在第一字幕信息中的概率分别为PA、PB和PC,主题信息库中包括的每个主题信息分别为主题1、主题2、主题3和主题4;关键词A属于每个主题信息的概率分别为A1、A2、A3和A4,关键词B属于每个主题信息的概率分别为B1、B2、B3和B4,关键词C属于每个主题信息的概率分别为C1、C2、C3和C4。则第一概率矩阵为第二概率矩阵为(3-2):服务器将第二概率矩阵的逆矩阵与第一概率矩阵相乘,得到第三概率矩阵。服务器根据第二概率矩阵,确定第二概率矩阵的逆矩阵;将第二概率矩阵的逆矩阵与第一概率矩阵相乘,得到第三概率矩阵。其中,第三概率矩阵为m×1的矩阵,第三概率矩阵中的每行数据即为该第一多媒体文件属于每个主题信息的概率。例如,服务器得到第三概率矩阵为(3-3):服务器从第三概率矩阵中获取第一多媒体文件属于每个主题信息的概率。第三概率矩阵中的每行数据即为该第一多媒体文件属于每个主题信息的概率。服务器从第三概率矩阵中即可获取第一多媒体文件属于每个主题信息的概率。例如,第三矩阵为则P1为该第一多媒体文件属于主题信息1的概率,P2为该第一多媒体文件属于主题信息2的概率,P3为该第一多媒体文件属于主题信息3的概率,P4为该第一多媒体文件属于主题信息4的概率。(4):服务器根据该第一多媒体文件属于每个主题信息的概率,从每个主题信息中选择概率最大的预设数目个主题信息。为了便于区分,将该处的预设数目称为第二预设数目,第二预设数目可以根据需要进行设置并更改,在本公开实施例中,对第二预设数目不作具体限定;例如,第二预设数目可以为1或者2等。(5):服务器将选择的第二预设数目个主题信息组成该第一多媒体文件的第一标签信息。例如,选择的主题信息为喜剧和爱情,则第一多媒体文件的第一标签信息为喜剧和爱情。对于第二种实现方式,本步骤可以为:服务器获取每个关键词在第一字幕信息中的概率,根据每个关键词在第一字幕信息中的概率,从每个关键词中选择概率最大的第三预设数目个关键词,获取选择的关键词所属的主题信息,将选择的关键字所属的主题信息组成该第一多媒体文件的标签信息。当第一标签信息包括制作第一多媒体文件的用户信息和/或被拍摄的用户信息时,第一字幕信息中包括制作第一多媒体文件的用户信息和/或被拍摄的用户信息,服务器可以直接从第一字幕信息中提取制作第一多媒体文件的用户信息和/或被拍摄的用户信息。服务器通过关键词匹配的方法,从第一字幕信息中提取制作第一多媒体文件的用户信息和/或被拍摄的用户信息。例如,制作第一多媒体文件的用户信息为第一多媒体文件的导演,则服务器在第一字幕信息中提取关键词“导演”后的名称。需要说明的是,服务器可以事先获取服务器中的每个多媒体文件的标签信息,并建立每个多媒体文件的标识和标签信息的对应关系;相应的,本步骤可以为:服务器根据第一多媒体文件的标识,从多媒体文件的标识和标签信息的对应关系中获取第一多媒体文件的第一标签信息。其中,服务器事先获取服务器中的每个多媒体文件的标签信息的步骤和服务器获取第一多媒体文件的第一标签信息的过程相同,在此不再赘述。在步骤S302中,服务器获取多媒体文件库中每个第二多媒体文件的第二标签信息,每个第二多媒体文件的第二标签信息为基于每个第二多媒体文件的第二字幕信息提取的。对于每个第二多媒体文件,服务器可以按照以上获取第一多媒体文件的第一标签信息的过程获取该第二多媒体文件的第二标签信息。服务器也可以事先获取服务器中的每个多媒体文件的标签信息,并建立每个多媒体文件的标识和标签信息的对应关系;相应的,本步骤可以为:服务器根据每个第二多媒体文件的标识,从多媒体文件的标识和标签信息的对应关系中获取每个第二多媒体文件的第二标签信息。其中,第二标签信息包括第二多媒体文件所属的主题信息、制作第二多媒体文件的用户信息和被拍摄的用户信息中的至少一个。在步骤S303中,服务器根据第一标签信息和多媒体文件库中每个第二多媒体文件的第二标签信息,从多媒体文件库中选择第二标签信息与第一标签信息匹配的第二多媒体文件。服务器计算第一标签信息和多媒体文件库中每个第二多媒体文件的第二标签信息之间的匹配度,根据第一标签信息和多媒体文件库中每个第二多媒体文件的第二标签信息之间的匹配度,从多媒体文件中选择匹配度最大或者匹配度超过预设数值的第二标签信息对应的第二多媒体文件。由于第一标签信息中包括第一多媒体文件所属的主题信息、制作第一多媒体文件的用户信息和被拍摄的用户信息中的至少一个。因此结合第一多媒体文件所属的主题信息、制作第一多媒体文件的用户信息和被拍摄的用户信息中的至少一个为用户推荐第二多媒体文件,能够提高向用户推荐第二多媒体文件的准确性。例如,第一标签信息包括主题信息和制作第一多媒体文件的用户信息,第一标签信息为爱情和浪漫,张三。多媒体文件库中包括3个第二多媒体文件,分别为第二多媒体文件1、第二多媒体文件2和第二多媒体文件3,第二多媒体文件1的第二标签信息为:恐怖和惊悚,李四。第二多媒体文件2的第二标签信息为:爱情和浪漫,张三。第二多媒体文件3的第二标签信息为:古装和喜剧,赵五。则服务器从多媒体文件库中选择第二多媒体文件2。在步骤S304中,服务器向终端发送第二多媒体文件的标识。终端接收服务器发送的第二多媒体文件的标识,显示第二多媒体文件的标识;当用户播放第二多媒体文件时,终端根据第二多媒体标识,从服务器中拉取第二多媒体文件。其中,第二多媒体文件的标识可以为第二多媒体文件的播放链接。由于第一标签信息为基于第一多媒体文件的第一字幕信息提取的,每个第二多媒体文件的第二标签信息为基于每个第二多媒体文件的第二字幕信息提取的,因此提取的第一标签信息和每个第二多媒体文件的第二标签信息较准确,从而根据第一标签信息和每个第二多媒体文件的第二标签信息,向用户推荐第二多媒体文件,能够提高向用户推荐第二多媒体文件的准确性。图4是根据一示例性实施例示出的一种推荐多媒体文件的装置框图。参照图4,该装置包括获取模块401,选择模块402和发送模块403。获取模块401,被配置为获取终端对应的第一多媒体文件的第一标签信息,所述第一标签信息为基于所述第一多媒体文件的第一字幕信息提取的;选择模块402,被配置为根据所述第一标签信息和多媒体文件库中每个第二多媒体文件的第二标签信息,从所述多媒体文件库中选择第二标签信息与所述第一标签信息匹配的第二多媒体文件,所述每个第二多媒体文件的第二标签信息为基于所述每个第二多媒体文件的第二字幕信息提取的;发送模块403,被配置为向所述终端发送所述第二多媒体文件。在一种可能实现方式中,参见图5,所述获取模块401,包括:获取单元4011,被配置为获取所述第一多媒体文件的第一字幕信息;分词单元4012,被配置为对所述第一字幕信息进行分词,得到第一关键词集合;分析单元4013,被配置为对所述第一关键词集合中的每个关键词进行分析,得到所述第一标签信息。在一种可能实现方式中,所述分析单元4013,还被配置为获取所述每个关键词在所述第一字幕信息中的概率,以及,获取所述每个关键词属于主题信息库中的每个主题信息的概率,所述主题信息库被配置为存储多个预设的主题信息,根据所述每个关键词在所述第一字幕信息中的概率和所述每个关键词属于每个主题信息的概率,确定所述第一多媒体文件属于所述每个主题信息的概率,根据所述第一多媒体文件属于所述每个主题信息的概率,从所述每个主题信息中选择概率最大的预设数目个主题信息,将选择的预设数目个主题信息组成所述第一标签信息。在一种可能实现方式中,所述分析单元4013,还被配置为将所述每个关键词在所述第一字幕信息中的概率组成第一概率矩阵,以及,将所述每个关键词属于每个主题信息的概率组成第二概率矩阵,将所述第二概率矩阵的逆矩阵与所述第一概率矩阵相乘,得到第三概率矩阵,从所述第三概率矩阵中获取所述第一多媒体文件属于所述每个主题信息的概率。在一种可能实现方式中,所述分析单元4013,还被配置为对于所述每个主题信息,获取所述主题信息对应的预设关键词集合,根据所述每个关键词在所述第一字幕信息中的概率、所述预设关键词集合和所述预设关键词集合包含的关键词的数目,确定所述每个关键词属于所述主题信息的概率。在一种可能实现方式中,所述分析单元4013,还被配置为如果所述预设关键词集合中包含所述每个关键词,将所述每个关键词在所述第一字幕信息中的概率和所述预设关键词集合包含的关键词的数目的比值作为所述每个关键词属于所述主题信息的概率,如果所述预设关键词集合中不包含所述每个关键词,确定所述每个关键词属于所述主题信息的概率为零。在一种可能实现方式中,所述分词单元4012,还被配置为对所述第一字幕信息进行分词,将所述第一字幕信息包括的每个分词组成第二关键词集合,将所述第二关键词集合中预设类型的关键词去除,得到所述第一关键字集合。在一种可能实现方式中,所述第一标签信息包括所述第一多媒体文件所属的主题信息、制作所述第一多媒体文件的用户信息和被拍摄的用户信息中的至少一个。由于第一标签信息为基于第一多媒体文件的第一字幕信息提取的,每个第二多媒体文件的第二标签信息为基于每个第二多媒体文件的第二字幕信息提取的,因此提取的第一标签信息和每个第二多媒体文件的第二标签信息较准确,从而根据第一标签信息和每个第二多媒体文件的第二标签信息,向用户推荐第二多媒体文件,能够提高向用户推荐第二多媒体文件的准确性。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。需要说明的是:上述实施例提供的推荐多媒体文件的装置在推荐多媒体文件时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的推荐多媒体文件的装置与推荐多媒体文件的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。图6是根据一示例性实施例示出的一种用于推荐多媒体文件的装置600的框图。例如,装置600可以被提供为一服务器。参照图6,装置600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理组件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述推荐多媒体文件的方法。装置600还可以包括一个电源组件626被配置为执行装置600的电源管理,一个有线或无线网络接口650被配置为将装置600连接到网络,和一个输入输出(I/O)接口658。装置600可以操作基于存储在存储器632的操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本
技术领域
:中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1