内容推荐装置、推荐内容搜索方法和程序的制作方法

文档序号:6366766阅读:154来源:国知局
专利名称:内容推荐装置、推荐内容搜索方法和程序的制作方法
技术领域
本技术涉及ー种内容推荐装置、推荐内容搜索方法和程序。
背景技术
近年来,使用网络的商业正在快速发展。例如,诸如可以在线购买产品的网上商店等的系统得到了广泛使用。这些网上商店当中的许多网上商店使用向用户推荐产品的机制。例如,当用户观看产品的详细信息吋,将关于与该产品相关的多个产品的信息作为推荐产品呈现给用户。例如通过使用诸如JP 2003-167901A中所描述的协同过滤(collaborativefiltering)的方法来实现这样的机制。该协同过滤是ー种基于许多用户的偏好信息、通过使用具有相似偏好的用户的信息来自动给出推荐的方法。当使用这种协同过滤时,还可以 向没有购买历史的新用户提供推荐結果。此外,也可以将被称作基于内容的过滤的方法用于产品的推荐。该基于内容的过滤是ー种将内容的属性与用户的品味相匹配、并由此推荐相关内容的方法。根据这种基于内容的过滤,与协同过滤相比,甚至在使用推荐系统的用户的数目小的状况下也可以提供高度准确的推荐結果。然而,在用于识别目标用户喜欢的内容的信息(例如,购买历史、内容元信息等)缺乏的状况下,使用基于内容的过滤难以获得高度准确的推荐結果。

发明内容
协同过滤和基于内容的过滤均具有其优缺点。例如,基于内容的过滤所具有的优点是可以实现反映了用户的偏好的推荐。另ー方面,基于内容的过滤所具有的缺点是其导致了如下状況仅推荐适合用户的偏好的特定类型的信息,而不推荐对用户而言的新的信息。就协同过滤而言,其具有的优点是可以向用户提供其他用户所偏好的新信息。然而,其他用户所偏好的新信息可能并不适合向其进行推荐的这位用户的偏好。也就是说,协同过滤具有的缺点是存在向用户提供不适合该用户的偏好的信息的可能性。鉴于以上情况而开发了本技术,并且本技术g在提供一种新颖且改进的内容推荐装置、推荐内容捜索方法和程序,该内容推荐装置、推荐内容捜索方法和程序能够向用户提供包括了将会适合用户的偏好的新信息的内容。根据本技术的实施例,提供了ー种内容推荐装置,包括第一特征生成単元,用于基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征;第二特征生成単元,用于基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征;关系特征生成単元,用于基于所述第一特征生成単元所生成的第一特征以及所述第二特征生成単元所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及推荐内容搜索单元,用于通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及所述关系特征生成単元所生成的关系特征,捜索要推荐给所述目标用户的内容。
所述推荐内容搜索单元可以通过执行从所述第一特征生成単元所生成的第一特征中提取与所述目标用户新选择的内容中所包括的第一类型的信息相对应的第一特征的第一处理、执行从所述关系特征生成単元所生成的关系特征中提取与通过所述第一处理所提取的第一特征相对应的关系特征的第二处理、并且使用通过所述第二处理所提取的关系特征,来捜索要推荐给所述目标用户的内容。所述第一特征可以由第一特征向量来表示,所述第一特征向量包括形成所述第一类型的信息的多个信息元素并且表征所述第一内容。所述第二特征可以由第二特征向量来表示,所述第二特征向量包括形成所述第二类型的信息的多个信息元素并且表征所述第二内容。所述第一特征生成単元可以考虑到所述目标用户选择所述第一内容的顺序来生成所述第一特征。所述第一特征生成単元可以通过參考所述第一内容的元数据的结构而从添加有对应于第一类型的元数据的区域获取信息。所述第二特征生成単元可以通过參考所述第二 内容的元数据的结构而从添加有对应于第二类型的元数据的区域获取信息。所述内容推荐装置还可以包括关系选择请求単元,以用于向所述目标用户呈现所述关系特征生成単元所生成的关系特征中的多于ー个关系特征,并使所述目标用户选择关系特征。在所述目标用户选择了关系特征的情况下,所述推荐内容搜索单元通过使用所述目标用户所选择的关系特征来搜索要推荐给所述目标用户的内容。所述推荐内容搜索单元可以通过根据所述第一内容与所述第二内容之间的关系的強度而计算出得分并考虑所计算的得分,来捜索要推荐给所述目标用户的内容。所述第一特征生成単元可以在所述目标用户新选择内容之前生成所述第一特征。所述第二特征生成単元可以在所述目标用户新选择内容之前生成所述第二特征。所述关系特征生成単元可以在所述目标用户新选择内容之前生成所述关系特征。在所述目标用户新选择内容之前,所述推荐内容搜索単元可以通过使用与所述第一类型的信息对应的预定信息来执行提取与该预定信息对应的第一特征的第一处理,执行从所述关系特征生成単元所生成的关系特征中提取与通过所述第一处理所提取的第一特征相对应的关系特征的第二处理,并执行计算通过所述第二处理所提取的关系特征的得分的第三处理。在所述目标用户新选择了内容的情况下,所述推荐内容搜索单元可以执行提取与所述目标用户新选择的内容中所包括的第一类型的信息相对应的预定信息的第四处理,并基干与通过所述第四处理所提取的预定信息相对应的关系特征的得分来捜索要推荐给所述目标用户的内容。所述第一内容和所述第二内容所属的类别与所述目标用户新选择的内容所属的类别可以是不同的类别。根据本技术的另ー实施例,提供了ー种内容推荐装置,包括特征存储单元,用于存储基于目标用户过去选择的第一内容中所包括的第一类型的信息而生成的第一特征、基于所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息而生成的第二特征、以及基于所生成的第一特征和所生成的第二特征而生成的并且表明所述第一内容与所述第二内容之间的关系的第三特征;以及推荐内容搜索单元,用于通过使用所述目标用户新选择的内容中所包括的第一类型的信息以及所述特征存储单元中所存储的第三特征,来捜索要推荐给所述目标用户的内容。根据本技术的另ー实施例,提供了一种推荐内容捜索方法,包括基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征;基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征;基于在生成第一特征的步骤中所生成的第一特征以及在生成第二特征的步骤中所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及在生成关系特征的步骤中所生成的关系特征,捜索要推荐给所述目标用户的内容。根据本技术的另ー实施例,提供了ー种使计算机实现以下功能的程序第一特征生成功能,用于基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第ー特征;第二特征生成功能,用于基于在所述目标用户在选择所述第一内容之后选择的第ニ内容中所包括的第二类型的信息,生成第二特征;关系特征生成功能,用于基于所述第一特征生成功能所生成的第一特征以及所述第二特征生成功能所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及推荐内容捜索功能,用于通过 使用在所述目标用户新选择的内容中所包括的第一类型的信息以及所述关系特征生成功能所生成的关系特征,捜索要推荐给所述目标用户的内容。根据本技术的另ー实施例,提供了一种记录有该程序的计算机可读记录介质。根据以上描述的本技术的实施例,可以向用户提供包括了将会适合用户的偏好的新信息的内容。


图I是用于描述四项类推的概念的说明图;图2是用于描述与四项类推相关的处理的流程的说明图;图3是用于描述多维化的四项类推的概述的说明图;图4是用于描述内容元数据的结构的说明图;图5是用于描述根据本技术的第一实施例的推荐系统的配置的说明图;图6是用于描述根据本技术的第一实施例的内容特征数据库的结构的说明图;图7是用于描述根据本技术的第一实施例的用户偏好数据库的结构的说明图;图8是用于描述根据本技术的第一实施例的事例数据库的结构的说明图;图9是用于描述根据本技术的第一实施例的事例数据库的创建方法的说明图;图10是用于描述根据本技术的第一实施例的事例数据库的创建方法的说明图;图11是用于描述根据本技术的第一实施例的事例数据库的创建方法的说明图;图12是用于描述根据本技术的第一实施例的事例数据库的创建方法的说明图;图13是用于描述根据本技术的第一实施例的推荐处理的说明图;图14是用于描述根据本技术的第一实施例的偏好学习处理的说明图;图15是用于描述根据本技术的第一实施例的推荐处理的说明图;图16是用于描述根据本技术的第一实施例的推荐处理的说明图;图17是用于描述根据本技术的第一实施例的推荐处理的说明图;图18是用于描述根据本技术的第一实施例的推荐处理的说明图19是用于描述根据本技术的第二实施例的推荐系统的配置的说明图;图20是用于描述根据本技术的第二实施例的中心数据库的结构的说明图;图21是用于描述根据本技术的第二实施例的R模式数据库的结构的说明图;图22是用于描述根据本技术的第二实施例的推荐处理的说明图;图23是用于描述根据本技术的第二实施例的推荐处理的说明图;图24是用于描述根据本技术的第二实施例的推荐处理的说明图;图25是用于描述根据本技术的第二实施例的聚类处理的说明图;图26是用于描述根据本技术的第二实施例的聚类处理的说明图;
图27是用于描述根据本技术的第二实施例的R模式的选择的说明图;图28是用于描述根据本技术的第二实施例的推荐处理的说明图;图29是用于描述根据本技术的第二实施例的推荐处理的说明图;图30是用于描述根据本技术的第三实施例的推荐系统的配置的说明图;图31是用于描述根据本技术的第三实施例的推荐列表数据库的结构的说明图;图32是用于描述根据本技术的第三实施例的离线处理(关系R的得分计算)的说明图;图33是用于描述根据本技术的第三实施例的离线处理(关系R的得分计算)的说明图;图34是用于描述根据本技术的第三实施例的离线处理的说明图;图35是用于描述根据本技术的第三实施例的在线处理的说明图;图36是用于描述根据本技术的第三实施例的在线处理的说明图;图37是用于描述根据本技术的第一至第三实施例的技术的示例性应用(交叉类别推荐)的说明图;以及图38是用于描述能够实现根据本技术的第一至第三实施例的推荐系统的功能的硬件配置的说明图。
具体实施例方式下文中,将參照附图详细描述本公开的优选实施例。注意,在本说明书和附图中,用相同的附图标记表示具有基本相同的功能和配置的结构元件,并省略对这些结构元件的重复说明。根据本公开实施例,提供了ー种内容推荐装置,包括第一特征生成単元,用于基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征;第二特征生成単元,用于基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征;关系特征生成単元,用于基于所述第一特征生成単元所生成的第一特征以及所述第二特征生成単元所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及推荐内容搜索单元,用于通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及所述关系特征生成単元所生成的关系特征,捜索要推荐给所述目标用户的内容。根据本公开实施例,提供了ー种内容推荐装置,包括特征存储单元,用于存储基于目标用户过去选择的第一内容中所包括的第一类型的信息而生成的第一特征、基于所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息而生成的第二特征、以及基于所生成的第一特征和所生成的第二特征而生成的并且表明所述第一内容与所述第二内容之间的关系的第三特征;以及推荐内容搜索单元,用于通过使用所述目标用户新选择的内容中所包括的第一类型的信息以及所述特征存储单元中所存储的第三特征,来捜索要推荐给所述目标用户的内容。根据本公开实施例,提供了一种推荐内容捜索方法,包括基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征;基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征;基于在生成第一特征的步骤中所生成的第一特征以及在生成第二特征的步骤中所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及在生成关系特征的步骤中 所生成的关系特征,捜索要推荐给所述目标用户的内容。[说明的流程]这里将简要阐述以下描述的说明的流程。首先,将描述被用于根据下述实施例的技术的四项类推(four-term analogy)的概念。首先,将參照图I描述四项类推的概念。然后,将參照图2描述与四项类推相关的处理的流程。接着,将參照图3描述多维化四项类推的概述。此外,将參照图4描述在将四项类推应用于特定情况时所使用的内容元数据的结构。接着,将描述本技术的第一实施例。首先,将參照图5描述根据本技术的第一实施例的推荐系统100的配置。此外,将參照图6描述根据本技术的第一实施例的内容特征数据库104的结构。此外,将參照图7描述根据本技术的第一实施例的用户偏好数据库102的结构。接着,将參照图8至图12描述根据本技术的第一实施例的事例数据库106的结构及其创建方法。接着,将參照图13至图18描述根据本技术的第一实施例的推荐处理。这里,还将对根据本技术的第一实施例的偏好学习处理给出说明。接着,将描述本技术的第二实施例。首先,将參照图19描述根据本技术的第二实施例的推荐系统200的配置。接着,将參照图20描述根据本技术的第二实施例的中心数据库(R模式数据库209)的结构。此外,将參照图21描述根据本技术的第二实施例的R模式数据库209的结构。然后,将參照图22至图29描述根据本技术的第二实施例的推荐处理。这里,还将对根据本技术的第二实施例的聚类处理和R模式的选择给出说明。接着,将描述本技术的第三实施例。首先,将參照图30描述根据本技术的第三实施例的推荐系统300的配置。此外,将參照图31描述根据本技术的第三实施例的推荐列表数据库309的结构。然后,将參照图31至图34描述根据本技术的第三实施例的离线处理。接着,将參照图35和图36描述根据本技术的第三实施例的在线处理。接着,将參照图37描述根据本技术的第一至第三实施例的技术的示例性应用(交叉类别推荐)。然后,将參照图38描述能够实现根据本技术的第一至第三实施例的推荐系统的功能的硬件配置。最后,将综述这些实施例的技术构思,并简要描述通过这些技术构思而获得的效果O(描述项)I:引言
トI:四项类推1-2:四项类推的多维化2 :第一实施例2-1 :系统配置2-2 :离线处理的流程2-3 :在线处理的流程
3 :第二实施例3-1 :系统配置3-2 :离线处理的流程3-3 :在线处理的流程4 :第三实施例4-1 :系统配置4-2 :离线处理的流程4-3 :在线处理的流程5 :示例性应用(交叉类别推荐)6 :示例性硬件配置7 :综述〈I:引言〉首先,在详细描述根据这些实施例的技术之前,将简要描述四项类推的概念和这些实施例的概述。[1-1:四项类推]首先,将參照图I描述四项类推的概念。图I是用于描述四项类推的概念的说明图。四项类推是ー种已被模型化的、由人基于先前知识通过类推来推断事物的过程。当在以“事例作为先前知识的情况下对人给出信息C吋,人通过类推从信息C推断出哪种信息X呢?例如,当给出词“鱼”作为A并给出词“鳞”作为B时,人可能想到由词“具有”、词“覆盖”等表达的概念来作为A与B之间的关系R。于是,当对此人给出词“鸟”作为信息C并使此人基于关系R通过类推来推断信息X吋,假定此人通过类推推断出词“羽毛”、词“翅勝”等。通过使人的这种推断过程模型化来获得四项类推。作为这种四项类推,如下技术正不断获得关注该技术在以“事例作为先前知识的情况下,估计人通过类推推断出的“事例c->x”的解(Solution)X。另外,在下文中,通过类推而从“事例A->B”推断出“事例C->X”的过程可以被表示为“A B =C X”。作为用于估计“A B = C X”的解X的技术,例如已知ー种被称作结构映射理论(structure-mapping theory)的估计方法。根据此估计方法,如图I中所示,通过将“事例A->B”的A(下文中称为状况A)与B(下文中称为结果B)之间的关系R应用于“事例C_>X”的C(下文中称为状况C),来估计解X (下文中称为结果X)。也就是说,以上描述的结构映射理论还可以称为将构成先前知识的知识域(下文中称为基本域)的结构映射到获得解X的问题域(下文中称为目标域)的方法。例如,在D. Gentner 的“Structure-Mapping :ATheoretical Framework for Analogy,,(CognitiveScience, 1983)中描述了结构映射理论。当使用以上描述的结构映射理论时,可以消除在对基本域的结构进行映射时所产生的无用知识,并且可以获得一定程度上适当的推断结果X。例如,在给出词“鱼”作为状况A的情况下,如图I中所示,在估计结果X时可以消除通过类推而从词“鱼”推断出的诸如“藍”、“小”等的知识。类似地,在给出词“鳞”作为结果B的情况下,在估计结果X时可以消除诸如“硬”、“透明”等的知识。例如通过图2中所示的处理步骤来执行基于结构映射理论的对结果X的估计处理。首先,如图2中所示,执行对状况A与结果B之间的关系R进行估计的处理(S10)。然后,执行将在步骤SlO中估计出的关系R从基本域映射到目标域的处理(S11)。接着,执行将关系R应用于状况C并估计结果X的处理(S12)。在执行了这些步骤SlO至S12的处理的情况下,基于“事例A->B”而估计出了 “事例C->X”的解X。至此,已经描述了四项类推的概念。Kaneko等人正在研究从模糊理论的角度来系统化以上描述的四项类推的概念,并且报告了研究結果。例如,这些报告包括Yosuke Kaneko> Kazuhiro Okada> Sninichiro Ito、TaKuya Nomura 和 Tomihiro TaKagi 的iA Proposa丄 of Analogical Reasoning Based on Structure丄 Mapping and ImageSchemas,,(5th International Conference on Soft Computing and Intelligent Systemsandllth International Symposium on Advanced Intelligent Systems(SCIS&ISIS10), 2010) 0在这些报告中,Kaneko等人提出了ー种推荐系统,该系统根据词的同现频率(co-occurrence frequency)提取要映射的关系R,并使用词的词性(part-of-speech)信息作为结构。该报告能够帮助理解四项类推的概念。[1-2:四项类推的多维化]接着,将參照图3描述将四项类推多维化的方法。图3是用于描述将四项类推多维化的方法的说明图。另外,作为与四项类推的多维化相关的研究结果,在日本专利申请2011-18787中描述了ー种方法。图I的示例涉及从ー个基本域映射到一个目标域的结构。此外,在图I的示例中,状况A、结果B、状况C和结果X分别由ー个词来表示。此处扩展了四项类推的概念,并且将考虑如图3中所示的从多个基本域到一个目标域的映射结构的新方法。此外,将考虑通过由一个或更多个词形成的词向量来表示状况A、结果B、状况C和结果X中的每ー个的方法。另外,这里要考虑的新方法将被称作“多維四项类推”。下文中,将描述多維四项类推的概念。如图3中所示,假定η个基本域(基本域I到基本域η)。此外,假定“事例Ak_>Bk”属于基本域k(k= I到η)。此外,假定状况Ak和结果Bk由包括多个词的词向量来表示。此外,假定基本域I到基本域η的结构被映射到一个目标域。此外,假定“事例C->Xj(j =I到η)”属于该目标域。另外,状况Ak与结果Bk之间的关系Rk被用于估计“事例C->Xk”的结果Xk。例如,状况Ak(k = I到η)由如下的词向量来表示该词向量表征了从人(下文中称为目标用户)过去曾选择的各条内容的群组中所提取出的目标用户的偏好。此外,结果Bk(k= I到η)基于状况Ak,并由表征了目标用户在这个多条内容的群组之后所选择的内容的词向量来表示。此外,关系Rk(k = I到η)由表征状况Ak与结果Bk之间的关系的词向量来表示。此外,状况C由如下词向量来表示该词向量表征了从包括目标用户新选择的内容的各条内容的群组中所提取出的目标用户的偏好。此外,结果Xk(k= I到η)是表征了基于状况C的词向量和关系R的词向量来通过类推而推断出的内容的词向量。也就是说,结果Xl是使用状况Al与结果BI之间的关系Rl以及状况C通过类推而推断出的。类似地,结果Χ2是根据关系R2和状况C通过类推而推断出的,结果Χ3是根据关系R3和状况C通过类推而推断出的,...,而结果Xn是根据关系Rn和状况C通过类推而推断出的。另外,例如使用被称为TF-IDF的算法来创建每个词向量。该TF-IDF是用于从文档提取特征词的算法。TF-IDF输出被称为TF-IDF值的索引。该TF-IDF值由TF值与IDF值的乘积来表示,其中TF值指示词的术语频率(term frequency),而IDF值指示逆文档频!率 Unverse aocument frequency;。例如,在Nj是文档d中的词j的术语频率、N是文档d中包括的词的总数并且Dj是出现词j的文档的数目的情况下,TF值tf(j,d)由下面的公式⑴来表示。此外,IDF值idf(j)由下面的公式(2)来表示。此外,TF-IDF值tfidf(j,d)由下面的公式(3)来表示。也就是说,一个在许多文档中出现的词的TF-IDF值下降,而ー个在特定文档中频繁出 现的词的TF-IDF值増大。因此,通过使用该索引,可以提取出表征每个文档的词。此外,通过提取具有高TF-IDF值的多个词,创建了表征文档的词向量。tf (j, d) = Nj/N…(I)idf(j) = l+ln(D/Dj)…⑵tfidf (j, d) = tf (j, d) · idf (j). . . (3)这里,将考虑使用食谱网站作为信息源的示例性实施例。许多食谱网站被配置为使得允许用户自由张贴用户烹调过的菜肴的食谱。此外,这样的食谱网站被配置为使得允许观看过这些食谱网站的其他用户张贴评论。当然,与其它信息网站一祥,食谱网站设置有诸如标题、图像和说明的部分。此外,一些食谱网站设置有诸如配料、烹调指导、烹调提示、食谱历史和登记类别的部分。这些部分是通过元数据来定义的。例如,如图4中所示,食谱网站具有通过标题、图像、描述、配料、烹调过程、烹调过程的诀窍、评价、历史、类别等的元数据而定义的结构。以上各项当中,标题、描述、配料、烹调过程、烹调过程的诀窍、评价和历史的部分包括可用于多维四项类推的信息。例如,如图4中所示,配料、烹调过程和烹调过程的诀窍的部分可以用作与状况A和状况C相关的信息源。此外,标题、描述和评价的部分可以用作与结果B相关的信息源。此外,历史的部分可以用作与关系R相关的信息源。也就是说,在指示用户的偏好(在此示例中为配料、烹调指导、烹调提示等)的区域中设置与状况A和状况C相关的信息源。另ー方面,在表示实际品尝食谱网站中所描述的食物的结果等的区域中设置与结果B相关的信息源。此外,在表示状况A与结果B之间的关系的区域(在此示例中为导致食谱网站上所张贴的该食谱的背景等)中设置与关系R相关的信息源。如所描述的,通过使用元数据的结构,可以容易地设置与状况A、结果B、状况C和关系R相关的信息源。此外,可以通过使用上述的TF-IDF值等,根据区域中所描述的文档来创建与状况A、结果B或状况C对应的词向量。虽然考虑了使用食谱网站作为信息源的示例性实施例,但是对于其它类型的网站也可以通过參考元数据的结构来设置与状况A、结果B、状况C和关系R相关的信息源。另夕卜,在与同结果B相关的信息源相同的元数据所附着的区域中设置与结果X相关的信息源。当以这种方式设置信息源时,可以使用从用户观看的网站历史等提取出的词向量,基于如图3中所示的多維四项类推来估计结果Xl至Xn。根据本实施例的技术涉及上述估计。然而,根据本实施例的技术并非集中于基于多維四项类推来估计结果Xl至Xn,而是涉及通过使用关系Rl至Rn来搜索适合用户的偏好的推荐内容的技术。此外,本实施例的应用范围不限于食谱网站,并且可以应用于各种类型的内容。在前文中,已经简要描述了四项类推的概念和本实施例的概述。在下文中,将详细描述根据本实施例的技术。〈2:第一实施例〉将描述根据本技术的第一实施例。[2_1:系统配置] 首先,将參照图5描述根据本实施例的推荐系统100的系统配置。图5是用于描述根据本实施例的推荐系统100的系统配置的说明图。如图5所示,推荐系统100主要由偏好提取引擎101、用户偏好数据库102、内容特征提取引擎103、内容特征数据库104、事例关系提取引擎105、事例数据库106和推荐引擎107构成。另外,偏好提取引擎101、内容特征提取引擎103、事例关系提取引擎105和推荐引擎107的功能是通过图38中所示的硬件配置当中的CPU902等的功能来实现的。此外,用户偏好数据库102、内容特征数据库104和事例数据库106是通过图38中所示的硬件配置当中的ROM 904、RAM906、存储单元920、可拆卸记录介质928等的功能来实现的。此外,推荐系统100的功能可以使用单个硬件或经由网络或专线连接的多个硬件来实现。(内容特征提取引擎103、内容特征数据库104)首先,将描述内容特征提取引擎103和内容特征数据库104。内容特征提取引擎103是用于构造如图6中所示的内容特征数据库104的装置。内容特征提取引擎103首先获取内容的元数据。然后,内容特征提取引擎103通过參考所获取的元数据的结构来识别形成内容的每个区域,并基于TF-IDF值等来提取表征每个区域的一个或更多个词。此外,内容特征提取引擎103将关于内容的信息、关于区域的信息、关于所提取的词的信息等存储在内容特征数据库104中。例如,如图6中所示,项目ID、区域ID、特征ID、更新次数以及重要性被存储在内容特征数据库104中。项目ID是用于识别内容的识别信息。此外,区域ID是用于识别形成该内容的每个区域的识别信息。例如,通过区域ID识别图4中所示的标题部分和配料部分。此外,特征ID是用于识别表征对应区域的词的识别信息。此外,更新次数是指示已经更新了对应区域的细节的次数的信息。重要性是指示对应词的重要性的信息。另外,内容特征数据库104由偏好提取引擎101、事例关系提取引擎105和推荐引擎107来使用。(偏好提取引擎101、用户偏好数据库102)接着,将描述偏好提取引擎101和用户偏好数据库102。当用户经由设备10输入信息时,所输入的信息被输入到偏好提取引擎101。例如,将用户的操作日志输入到偏好提取引擎101。当输入了用户的操作日志时,偏好提取引擎101基于所输入的操作日志来提取用户的偏好。用于指示由偏好提取引擎101提取的用户的偏好的信息被存储在用户偏好数据库102中。用户偏好数据库102具有如图7中所示的结构。如图7中所示,用户ID、区域ID、特征ID和指示重要性的信息被存储在用户偏好数据库102中。用户ID是用于识别用户的识别信息。区域ID是用于识别形成内容的每个区域的识别信息。特征ID是用于识别表征对应区域的词的识别信息。此外,重要性是指示由特征ID指定的词的重要性的信息。此外,在推荐引擎107处使用用户偏好数据库102。(事例关系提取引擎105、事例数据库106)接着,将描述事例关系提取引擎105和事例数据库106。事例关系提取引擎105基于存储在内容特征数据库104中的信息来提取事例关系。该事例关系是指状况A、结果B与关系R之间的关系。用于指示由事例关系提取引擎 105提取的事例关系的信息被存储在事例数据库106中。具体地,如图8中所示,状况A的词向量、结果B的词向量和关系R的词向量被存储在事例数据库106中。在图8的示例中,针对状况A的词向量和结果B的词向量,维数被设置为ニ。下面将基于该示例性设置来给出说明,但是维数可以是三或更大。如图6所示,项目ID、区域ID和特征ID彼此相关联地存储在内容特征数据库104中。因此,事例关系提取引擎105提取与被设置为与状况A相关的信息源的区域ID相对应的特征ID的集合(词Al、词A2),并且将该集合设置为状况A的词向量。此外,事例关系提取引擎105提取与被设置为与结果B相关的信息源的区域ID相对应的特征ID集合(词BI、词B2),并且将该集合设置为结果B的词向量。此外,事例关系提取引擎105提取与被设置为与关系R相关的信息源的区域ID相对应的特征ID (词R)。然后,事例关系提取引擎105将与同一项目ID对应的(词Al、词A2)、(词BI、词B2)和词R相关,并将其存储在事例数据库106中。在图8的示例中,针对状况A的词向量(1,5)和结果B的词向量(2,I)的组合,提取出关系R的词向量(8,3,10,15)。以这种方式,事例关系提取引擎105从内容特征数据库104提取状况A、结果B和关系R的事例关系,并构造事例数据库106。另外,可以针对每个用户构造事例数据库106。由推荐引擎107使用以这种方式构造的事例数据库106。(推荐引擎107)接着,将描述推荐引擎107。当经由设备10从用户接收推荐请求时,推荐引擎107基于存储在用户偏好数据库102、内容特征数据库104和事例数据库106中的信息来提取推荐内容。然后,推荐引擎107将已经提取的各条推荐内容的列表作为推荐结果呈现给用户。例如,当用户选择特定内容(下文中称为新内容)吋,将关于新内容的信息输入到推荐引擎107。当输入关于新内容的信息时,推荐引擎107从包括已输入的新内容的各条内容的群组中提取与被设置为与状况C相关的信息源的区域ID相对应的特征ID集合。也就是说,推荐引擎107针对新内容来提取状况C的词向量。当提取状况C的词向量时,推荐引擎107通过使用所提取的状况C的词向量和存储在事例数据库106中的关系R的词向量来提取推荐内容。此时,推荐引擎107提取多条推荐内容,并计算每条推荐内容的得分。然后,推荐引擎107创建被算出得分的各条推荐内容的列表,并将该列表作为推荐结果呈现给用户。在前文中,描述了推荐系统100的系统配置。接着,将详细描述由推荐系统100执行的处理的流程。[2-2 :离线处理的流程]首先,将參照图9至图12描述由推荐系统100执行的处理当中的离线处理的流程。图9至图12是用于描述由推荐系统100执行的处理当中的离线处理的流程的说明图。另外,这里离线处理是指可以在没有从设备10接收到推荐请求的状态下执行的处理。(图9:离线处理的概述)如图9中所示,作为离线处理执行的主要处理是构造事例数据库106。如已经描述 的,构造事例数据库106主要是通过使用事例关系提取引擎105来实现的。 将用户过去创建的各条内容的群组用于离线处理。因此,如图9中所示,在离线处理之前,存在用户进行的创建内容((I)用户输入)的处理。在图9的示例中,准备n+1条内容,即内容I到内容n+1。这里,添加到内容上的数目越大,新创建的内容就越多。首先,在n+1条内容当中,事例关系提取引擎105按照从最旧的内容开始的顺序来选择η条内容作为与状况A相关的信息源。此外,事例关系提取引擎105选择最新的内容作为与结果B相关的信息源。这里,被选择作为与状况A相关的信息源的η条内容将被表示为状况Al,而被选择作为与结果B相关的信息源的内容将被表示为结果BI。类似地,对于q = 1,. . .,m_l,事例关系提取引擎105按照从最旧的内容开始的顺序选择n-q条内容作为与状况A相关的信息源。此外,事例关系提取引擎105选择第q+1新的内容作为与结果B相关的信息源。针对每个q= 1,被选择作为与状况A相关的信息源的n-q条内容将被表示为状况A(q+1),而被选择作为与结果B相关的信息源的内容将被表示为结果B (q+Ι)。另外,m被设置为使得状况Am的内容条数将是预定数目。当提取状况Ak(k= l,...,m)和结果Bk的集合时(2),事例关系提取引擎105针对每个k =I, . . . , m来创建表征状况Ak与结果Bk之间的关系Rk的词向量。这里,作为示例,将描述表征状况Al与结果BI之间的关系Rl的词向量的创建方法。首先,对于状况Al的η条内容,事例关系提取引擎105參考被设置为与状况A相关的信息源的区域(下文中称为区域Α),并创建表征该区域的词向量(3)。例如,事例关系提取引擎105创建分别表征内容i到内容η的区域A的η个词向量,将η个词向量整合,并将其设置为状况Al的词向量。然后,事例关系提取引擎105从状况Al的词向量中提取词(本示例中为两个词)(4)。另外,在以下说明中,这里提取的词集合有时被称作状况Al的词向量。接着,对于与结果BI对应的内容,事例关系提取引擎105创建表征被设置为与结果B相关的信息源的区域(下文中称为区域B)的词向量,并将该词向量设置为结果BI的词向量(5)。然后,事例关系提取引擎105从结果BI的词向量中提取词(本示例中为两个词)(6)。另外,在以下说明中,这里提取的词集合有时被称作结果BI的词向量。然后,事例关系提取引擎105捜索在区域A中包括从状况Al的词向量中提取的词并且在区域B中包括从结果BI的词向量中提取的词的内容。然后,对于由捜索处理提取出的内容,事例关系提取引擎105创建表征被设置为与关系R相关的信息源的区域(下文中称为区域R)的词向量,并将该词向量设置为关系Rl的词向量(8)。另外,在捜索处理提取出多条内容的情况下,创建表征各条内容的区域R的多个词向量,将这些个词向量整合,并将其设置为关系R的词向量。以这种方式创建的关系Rl的词向量与从状况Al的词向量中提取的词以及从结果BI的词向量中提取的词相关联地存储在事例数据库106中。另外,存在从词向量中提取的词的多种组合。因此,针对每种不同的词组合执行处理⑷、(6)、(7)和⑶。然后,以上在⑶处创建的词向量被顺序地添加到关系Rl的词向量上。此外,不仅对状况Al和结果BI的组合执行以上描述的处理,而且对状况A2,. . . ,Am和结果B2,. . .,Bm的所有组合执行以上描述的处理。于是,创建了关系Rl,. .,Rm的词向量。(图10至图12:离线处理的细节)
离线处理基本如以上所述。在下文中,将更详细地描述作为离线处理执行的处理的流程。如图10中所示,首先,事例关系提取引擎105按照时间顺序来布置用户过去选择的各条内容,并设置状况A与结果B的组合(SlOl)。也就是说,事例关系提取引擎105设置属于状况Al,...,Am和结果BI,...,Bm的各条内容。例如,事例关系提取引擎105如图11中所示那样按照从最旧的内容开始的顺序来布置各条内容rel,re4,并且设置属于状况Al,. . .,A3和结果BI,. . .,B3的各条内容。然后,事例关系提取引擎105从属于状况Aj的各条内容的群组中提取具有高重要性的N个词(N是自然数),并创建状况Aj的词向量(S102)。例如,如图11中所示,事例关系提取引擎105从属于状况Al的各条内容rel、re2和re3中提取具有高重要性的N个词,并创建状况Al的词向量。此时,事例关系提取引擎105对每个词的重要性设置权重,使得包括在较新的内容中的词的重要性増加。利用这种权重设置,包括在较新的内容中的特征词更有可能被包括在状况Al的词向量中。接着,事例关系提取引擎105从属于结果Bj的各条内容的群组中提取具有高重要性的N个词(N是自然数),并创建结果Bj的词向量(S103)。例如,如图11中所示,事例关系提取引擎105从属于结果Bj的内容re4中提取具有高重要性的N个词,并创建结果Bj的词向量。然后,如图12中所示,事例关系提取引擎105从状况Aj的词向量中提取词(本示例中为两个词),并且还从结果Bj的词向量中提取词(本示例中为两个词)(S104)。接着,事例关系提取引擎105捜索同时出现了步骤S104中所提取的那些词的内容。然后,事例关系提取引擎105从作为搜索结果而提取出的内容的区域R中提取具有高得分的词,并将该词设置为关系Rj的词向量(S105)。在图12的示例中,提取各条内容rel,,···,re8’作为搜索結果。此外,在表征各条内容rel’,.. .,re8’的区域R的词当中,按照得分的降序来提取词(在图12的示例中为五个词),并且创建关系Rj的词向量。另外,基于以下公式(4)来计算词ri的得分R(ri)。此外,从状况Aj的词向量中提取的词被表示为ap(p = 1,2,...),而从结果Bj的词向量中提取的词被表示为bp(q =1,2,. . . ) ο此外,函数ht (X)指示当以词X作为关键词来执行内容搜索时所找到的内容的条数。此外,函数ht(xl,x2)指示当针对同时出现了词xl和词x2的内容来执行搜索时所找到的内容的条数。此外,函数ht(xl,x2,x3)指示当针对同时出现了词xl、词x2和词x3的内容来执行搜索时所找到的内容的条数。此外,以下公式(4)中所包括的score(i,p,q)(得分(i,P,q))是通过以下公式(5)到⑶来定义的。此外,出现在以下公式(6)到(8)中的N是内容的总条数。
权利要求
1.一种内容推荐装置,包括 第一特征生成单元,用于基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征; 第二特征生成单元,用于基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征; 关系特征生成单元,用于基于所述第一特征生成单元所生成的第一特征以及所述第二特征生成单元所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及 推荐内容搜索单元,用于通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及所述关系特征生成单元所生成的关系特征,搜索要推荐给所述目标用户的内 容。
2.根据权利要求I所述的内容推荐装置,其中,所述推荐内容搜索单元通过执行从所述第一特征生成单元所生成的第一特征中提取与所述目标用户新选择的内容中所包括的第一类型的信息相对应的第一特征的第一处理,执行从所述关系特征生成单元所生成的关系特征中提取与通过所述第一处理所提取的第一特征相对应的关系特征的第二处理,并且使用通过所述第二处理所提取的关系特征,来搜索要推荐给所述目标用户的内容。
3.根据权利要求I所述的内容推荐装置, 其中,所述第一特征由第一特征向量来表示,所述第一特征向量包括形成所述第一类型的信息的多个信息元素并且表征所述第一内容,并且 其中,所述第二特征由第二特征向量来表示,所述第二特征向量包括形成所述第二类型的信息的多个信息元素并且表征所述第二内容。
4.根据权利要求I所述的内容推荐装置,其中,所述第一特征生成单元考虑到所述目标用户选择所述第一内容的顺序来生成所述第一特征。
5.根据权利要求I所述的内容推荐装置, 其中,所述第一特征生成单元通过参考所述第一内容的元数据的结构,从添加有对应于第一类型的元数据的区域获取信息,并且 其中,所述第二特征生成单元通过参考所述第二内容的元数据的结构,从添加有对应于第二类型的元数据的区域获取信息。
6.根据权利要求I所述的内容推荐装置,还包括 关系选择请求单元,用于向所述目标用户呈现所述关系特征生成单元所生成的关系特征中的多于一个的关系特征,并使所述目标用户选择关系特征, 其中,在所述目标用户选择了关系特征的情况下,所述推荐内容搜索单元通过使用所述目标用户所选择的关系特征来搜索要推荐给所述目标用户的内容。
7.根据权利要求I所述的内容推荐装置,其中,所述推荐内容搜索单元通过根据所述第一内容与所述第二内容之间的关系的强度而计算出得分并考虑所计算的得分,来搜索要推荐给所述目标用户的内容。
8.根据权利要求I所述的内容推荐装置, 其中,所述第一特征生成单元在所述目标用户新选择内容之前生成所述第一特征, 其中,所述第二特征生成单元在所述目标用户新选择内容之前生成所述第二特征,并且 其中,所述关系特征生成单元在所述目标用户新选择内容之前生成所述关系特征。
9.根据权利要求I所述的内容推荐装置, 其中,在所述目标用户新选择内容之前,所述推荐内容搜索单元通过使用与所述第一类型的信息对应的预定信息来执行提取与该预定信息对应的第一特征的第一处理,执行从所述关系特征生成单元所生成的关系特征中提取与通过所述第一处理所提取的第一特征相对应的关系特征的第二处理,并执行计算通过所述第二处理所提取的关系特征的得分的第三处理,并且 其中,在所述目标用户新选择了内容的情况下,所述推荐内容搜索单元执行提取与所 述目标用户新选择的内容中所包括的第一类型的信息相对应的预定信息的第四处理,并基于与通过所述第四处理所提取的预定信息相对应的关系特征的得分来搜索要推荐给所述目标用户的内容。
10.根据权利要求I所述的内容推荐装置,其中,所述第一内容和所述第二内容所属的类别与所述目标用户新选择的内容所属的类别是不同的类别。
11.一种内容推荐装置,包括 特征存储单元,用于存储基于目标用户过去选择的第一内容中所包括的第一类型的信息而生成的第一特征、基于所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息而生成的第二特征、以及基于所生成的第一特征和所生成的第二特征而生成的并且表明所述第一内容与所述第二内容之间的关系的第三特征;以及 推荐内容搜索单元,用于通过使用所述目标用户新选择的内容中所包括的第一类型的信息以及所述特征存储单元中所存储的第三特征,来搜索要推荐给所述目标用户的内容。
12.—种推荐内容搜索方法,包括 基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征; 基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征; 基于在生成第一特征的步骤中所生成的第一特征以及在生成第二特征的步骤中所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及 通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及在生成关系特征的步骤中所生成的关系特征,搜索要推荐给所述目标用户的内容。
13.一种使计算机实现以下功能的程序 第一特征生成功能,用于基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征; 第二特征生成功能,用于基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征; 关系特征生成功能,用于基于所述第一特征生成功能所生成的第一特征以及所述第二特征生成功能所生成的第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;以及 推荐内容搜索功能,用于通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及所述关系特征生成功能所生成的关系特征,搜索要推荐给所述目标用户的内容。
全文摘要
本发明提供了一种内容推荐装置、推荐内容搜索方法和程序。该装置基于在目标用户过去选择的第一内容中所包括的第一类型的信息,生成第一特征;基于在所述目标用户在选择所述第一内容之后选择的第二内容中所包括的第二类型的信息,生成第二特征;基于所述第一特征以及所述第二特征,生成表示所述第一内容与所述第二内容之间的关系的关系特征;并且,通过使用在所述目标用户新选择的内容中所包括的第一类型的信息以及所述关系特征,搜索要推荐给所述目标用户的内容。
文档编号G06F17/30GK102737092SQ20121007864
公开日2012年10月17日 申请日期2012年3月22日 优先权日2011年3月29日
发明者上前田直树, 宫原正典, 高木友博 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1