信息处理装置、关连语句提供方法和程序的制作方法

文档序号:6429450阅读:163来源:国知局
专利名称:信息处理装置、关连语句提供方法和程序的制作方法
技术领域
本公开涉及信息处理装置、关连语句提供方法和程序。
背景技术
使用网络的商业活动近年来迅速地扩大。例如,现今广泛地使用在网络上的在线商店中购买产品的系统。许多这样的在线商店并入了用于向用户推荐产品的机制。例如,当用户查看特定产品的详细信息时,与该产品关连的信息作为关连产品或推荐产品被呈现给用户。使用例如在日本未审专利申请公布第2003-167901号中公开的协调过滤方法来实现该机制。协调过滤方法是使用具有相似的偏好的用户的购买历史等来推荐产品的方法。此外,使用向其进行推荐的用户的购买历史等推荐产品的、基于内容的过滤方法也是已知的。

发明内容
协调过滤方法或者基于内容的过滤方法的使用实现了对适合用户偏好的产品的推荐。然而,即使当产品被推荐时,用户仍不能清楚地了解推荐产品的原因。因此,当在购买产品A时推荐产品B时,用户难于清楚地了解产品A和产品B之间的关连性。结果,不了解产品B的用户不太可能对在购买产品A时推荐的产品B发生兴趣。注意,如果作为推荐契机的事项和推荐的事项(不限于产品)之间的关连性是未知的,则用户不太可能对推荐的事项感兴趣。考虑到前文,期望提供新型的和改进的信息处理装置、关连语句提供方法和程序, 其能够自动地生成指示作为推荐契机的事项和推荐的事项之间的关连性的语句。根据本公开的一个实施例,提供了一种装置,其包括信息处理装置,该信息处理装置包括信息提供单元,其提供与主要信息关连的关连信息;关连语句生成单元,其生成指示主要信息和关连信息之间的关连性的语句;以及关连语句提供单元,其提供由关连语句生成单元生成的语句。该信息处理装置可以进一步包括存储单元,该存储单元存储第一数据库,其使指示第一信息和第二信息之间的关连性的关连性信息、第一信息和第二信息相关联;以及第二数据库,其使关连性信息和语句模板相关联。关连语句生成单元从第一数据库提取第一记录,其中第一或第二信息与主要信息匹配并且第二或第一信息与关连信息匹配,从第二数据库提取语句模板,该语句模板对应于第一记录中包含的关连性信息,以及通过使用第一记录中包含的第一和第二信息以及从第二数据库提取的语句模板来生成指示主要信息和关连信息之间的关连性的语句。关连语句生成单元可以从第一数据库提取第二记录,其中第一或第二信息与主要信息匹配,并且第二记录不同于第一记录;以及第三记录,其中第一或第二信息与关连信息匹配,并且第三记录不同于第一记录,当提取第二和第三记录时,提取第二和第三记录的集合,其中第二记录中包含的第二或第一信息与主要信息不同,并且第三记录中包含的第二或第一信息与关连信息不同,从第二数据库提取与形成第二和第三记录的集合的第二或
4第三记录中包含的关连性信息相对应的语句模板,以及通过使用形成第二和第三记录的集合的第二或第三记录中包含的第一和第二信息以及从第二数据库中提取的语句模板来生成指示主要信息和关连信息之间的关连性的语句。主要信息、关连信息以及第一和第二信息可以是单词。关连性信息可以是指示单词之间的关连性的信息,以及关连语句生成单元通过将主要信息的单词和关连信息的单词应用到对应于关连性信息的语句模板来生成语句。该信息处理装置可以进一步包括短语获取单元,其从包括多个语句的语句集合获取每个语句中包含的短语;短语特征值确定单元,其确定用于指示由短语获取单元获取的每个短语的特征值的短语特征值;聚类单元,其根据特征值之间的相似度对由短语特征值确定单元确定的短语特征值进行聚类;以及关连性信息生成单元,其使用聚类单元的聚类结果来提取语句集合中包含的单词之间的关连性,并且生成指示第一信息的单词和第二信息的单词之间的关连性的关连性信息。关连性信息生成单元将第一信息的单词、第二信息的单词、以及第一信息的单词和第二信息的单词之间的关连性信息存储到第一数据库中。该信息处理装置可以进一步包括短语获取单元,其从包括多个语句的语句集合获取每个语句中包含的短语;短语特征值确定单元,其确定用于指示由短语获取单元获取的每个短语的特征值的短语特征值;集合特征值确定单元,其确定用于指示语句集合的特征的集合特征值;压缩短语特征值生成单元,其基于短语特征值确定单元确定的短语特征值和由集合特征值确定单元确定的集合特征值,生成具有比短语特征值的维度低的压缩短语特征值;聚类单元,其根据特征值之间的相似度对由压缩短语特征值生成单元生成的压缩短语特征值进行聚类;以及关连性信息生成单元,其使用聚类单元的聚类结果来提取语句集合中包含的单词之间的关连性,并且生成指示第一信息的单词和第二信息的单词之间的关连性的关连性信息。关连性信息生成单元将第一信息的单词、第二信息的单词、以及第一信息的单词和第二信息的单词之间的关连性信息存储到第一数据库中。根据本公开的另一实施例,提供了一种关连语句提供方法,其包括提供与主要信息关连的关连信息,生成指示主要信息和关连信息之间的关连性的语句,以及提供语句。根据本公开的另一实施例,提供了一种程序,使计算机实现如下功能,其包括信息提供功能,其提供与主要信息关连的关连信息;关连语句生成功能,其生成指示主要信息和关连信息之间的关连性的语句;以及关连语句提供功能,其提供由关连语句生成功能生成的语句。根据本公开的另一实施例,提供了一种计算机可读记录介质,其中记录该程序。根据上述的本公开的实施例,可以自动地生成指示作为推荐契机的事项和推荐的事项之间的关连性的语句。


图1是图示能够实现提取单词之间的关连性的方法的信息处理装置的功能配置的说明图;图2是图示由信息处理装置的数据获取单元获取短语的方法的说明图;图3是图示由信息处理装置的数据获取单元获取短语的方法的说明图4是图示数据获取单元的数据获取处理的流程的说明图;图5是图示由信息处理装置的短语特征值确定单元确定短语特征值的方法的说明图;图6是图示短语特征值确定单元的短语特征值确定处理的流程的说明图;图7是图示由信息处理装置的集合特征值确定单元确定集合特征值的方法的说明图;图8是图示集合特征值确定单元的集合特征值确定处理的流程的说明图;图9是图示集合特征值确定单元的集合特征值确定处理的流程的说明图;图10是图示由信息处理装置的压缩单元压缩短语特征值的方法说明图;图11是图示由信息处理装置的压缩单元压缩短语特征值的方法说明图;图12是示出实现由信息处理装置的聚类单元对短语进行聚类的方法的结果的说明图;图13是图示聚类单元的聚类处理的流程的说明图;图14是图示由信息处理装置的总结单元创建的总结信息的说明图;图15是图示总结单元的总结信息创建处理的流程的说明图;图16是图示根据本公开的一个实施例的信息处理装置的功能配置的说明图;图17是图示根据实施例的关连信息DB的结构的说明图;图18是图示根据实施例的检索关连信息的方法的说明图;图19是图示根据实施例的实体DB的结构的说明图;图20是图示根据实施例的确定实体标志的方法的说明图;图21是图示根据实施例的确定实体标志的方法的说明图;图22是图示根据实施例的语句模板DB的结构的说明图;图23是图示根据实施例的生成关连信息语句的方法的说明图;图M是图示根据实施例的生成关连信息语句的方法的说明图;图25是图示根据实施例的信息处理装置中包括的关连信息检索单元的具体操作的说明图;图沈是图示根据实施例的信息处理装置中包括的实体检索单元的具体操作的说明图;图27是图示根据实施例的信息处理装置中包括的关连信息语句生成单元的具体操作的说明图;图观是图示根据实施例的信息处理装置中包括的关连信息语句生成单元的具体操作的说明图;图四是图示根据实施例的信息处理装置的功能生成的关连信息语句的示例的说明图;图30是图示根据实施例的信息处理装置的功能生成的关连信息语句的示例的说明图;以及图31是图示根据实施例的能够实现提取单词之间的关连性的方法和生成关连信息语句的方法的信息处理装置的硬件配置的说明图。
具体实施例方式在下文中,将参照附图详细描述本公开的优选实施例。注意,在说明书和附图中, 具有基本上相同的功能和结构的结构元件标有相同的附图标记,并且省略了这些结构元件的重复解释。[描述的流程]简要地描述下文提供的根据本公开的实施例的描述的流程。首先,参照图1至15 描述能够提取单词之间的关连性的信息处理装置10的功能配置。接着,参照图16至对描述根据实施例的信息处理装置100的功能配置。随后,参照图25至30描述根据实施例的信息处理装置100的操作。此后,参照图31描述能够实现信息处理装置10、100的功能的硬件配置。最后,总结了实施例的技术思想,并且简要地描述了从该技术思想获得的优点。(描述项目)1 介绍(提取单词之间的关连性的方法)1-1 概况1-2 信息处理装置10的功能配置2 实施例2-1 信息处理装置100的功能配置2-2 信息处理装置100的操作3 硬件配置4 总结<介绍(提取单词之间的关连性的方法)>下面描述的实施例涉及一种技术,其在推荐与用作种子的实体(在下文中被称为种子实体)关连的实体(在下文中被称为关连实体)时,自动地生成描述种子实体和关连实体之间的关连性的语句(在下文中被称为关连信息语句)。注意,实体是关于诸如视频或音乐,或者诸如网页或书籍的文本的内容的信息的一般表述。在下面的描述中,为了简单提供了关于单词(专有名词)之间的关连性的讨论。当生成关连信息语句时,使用单词之间的关连性。因此,在描述生成关连信息语句的方法之前,在下文中描述提取单词之间的关连性的方法。[1-1 概况]在计算机的信息处理容量近来已增强的背景下,对文本的语义方面进行统计处理的技术正引起注意。该技术的一个示例是文档分类技术,其分析文档的内容并且将每个文档分类为各种类型。该技术的另一示例是文本挖掘技术,其从诸如互联网的网页或者来自企业中的消费者的问题和意见的记录的积累文本集合中提取有用的信息。注意,常常存在如下情况,其中当表述一个相同的或相似的含意时在文本中使用了不同的单词或短语。因此,尝试通过在文本的统计分析中定义表示文本的统计特征的向量空间并且对该向量空间中的每个文本的特征进行聚类,来识别具有相似含意的文本。例如,在 Alexander Yates 禾口 Oren Etzioni 的"Unsupervised Methods for Determining Object and Relation Synonyms on the Web,,,Journal of Artificial Intelligence Research (JAIR) 34,March, 2009, pp. 255-296 (在下文中被称为文献 Α)中描述了该尝试的示例。
常常使用例如如下向量空间作为用于表示文本的统计特征的向量空间其中很可能出现在文本中的词表中包含的每个单词被设置为向量的每个分量(向量空间的轴)。然而,尽管对特征值进行聚类的技术在对包括至少多个语句的文档分类等时是有效的,但是当辨认短语之间的同义或准同义关系时,难于产生显著的效果。其主要原因在于短语仅包含几个单词。例如,介绍人物、内容或产品的诸如新闻文章或网页的文档通常包含几十个到几百个单词。另一方面,作为比一个语句小的单位的短语通常仅包含几个单词。即便是文档, 其特征值也很可能是稀疏向量(其中大多数分量是零的向量)。因此,短语的特征值变为更加稀疏的超稀疏向量。超稀疏向量具有如下方面当辨认含意时,仅存在可以用作线索的少量信息。结果,例如,当基于超稀疏向量之间的相似度(例如余弦距离等)执行聚类时,出现如下问题应在语义上属于一个聚簇的两个或更多个向量未被聚类到一个聚簇中。有鉴于此,当前正在研究对文档的特征值的维度进行压缩的技术。例如,使用诸如SVD (奇异值分解)、 PLSA(概率潜在语义分析)或LDA(潜在狄利克雷分布)的概率技术来压缩向量的维度的技术是已知的。然而,如果该概率技术被简单地应用于作为超稀疏向量的短语的特征值,则在许多情况中丧失了数据的有意性,仅产生不再适于在诸如聚类的后继阶段中处理的输出。考虑到这一点,上述文献A的技术提出通过从Web上的文本收集数百个字符串来获取大规模的数据集合,用于获得关于短的字符串的特征值的有意性(significance)。然而,处置该大规模数据集合引起了对资源的约束的问题。此外,存在相当多的其中基本上不能获取大规模数据集合的情况,诸如当应对属于所谓的长尾的目标时。考虑到上文,下文引入了一种技术,其压缩短语的特征值的维度以及维持或改进特征值的有意性,并且进一步使得更易于在短语层级上辨认同义或准同义关系。使用该技术使得可以基于充分大的数据集合,提取具有关连性的单词并且提取单词之间的关连性和表示关连性的类型的短语。注意,在后面描述的实施例中,提出了一种技术,其通过使用利用该技术提取的具有关连性的单词的组合或者表示单词之间的关连性的类型的短语来生成关连信息语句。[1-2 信息处理装置10的功能配置]根据本发明的一个实施例,提供了一种信息处理装置,包括信息提供单元,其提供与主要信息关连的关连信息;关连语句生成单元,其生成指示主要信息和关连信息之间的关连性的语句;以及关连语句提供单元,其提供由关连语句生成单元生成的语句。首先参照图1至15描述能够基于大量数据集合提取单词之间的关连性的信息处理装置10的功能配置。(整体配置)参照图1,信息处理装置10主要包括文档DB 11、数据获取单元12、短语特征值确定单元13、集合特征值确定单元14、特征值DB 15、压缩单元16、压缩特征值DB 17、聚类单元18、总结单元19和总结DB 20。注意,DB代表数据库。此外,信息处理装置10的功能由后面描述的硬件配置实现。此外,在构成信息处理装置10的元件中,文档DB 11、特征值DB 15、压缩特征值DB 17和总结DB 20使用诸如硬盘或半导体存储器的存储介质构建。该存储介质可以位于信息处理装置10内部或者信息处理装置10外部(文档 DB 11)文档DB 11是预先存储包括多个语句的语句集合的数据库。存储在文档DB 11中的语句集合可以是例如介绍人物、内容或产品的诸如新闻文章、电子词典或网页的文档集合。此外,存储在文档DB 11中的语句集合可以是例如,电子邮件消息、电子公告牌上的布告、输入Web上的表单的某些文本的历史等。此外,存储在文档DB 11中的语句集合可以是例如文本化的人演讲的收集的文集。文档DB 11响应于来自获取单元12的请求将所存储的语句集合输出到数据获取单元12。(数据获取单元12)数据获取单元12从文档DB 11获取包括多个语句的语句集合。此外,数据获取单元12获取语句集合中包含的多个短语。具体地,数据获取单元12提取均包含在语句集合的一个语句中的单词对,并且获取分别表示每个提取的对的单词之间的关连性的多个短语。数据获取单元12从语句集合中提取的单词对可以是任意的单词对。在下面的描述中, 假设如下场景,其中数据获取单元12特别地提取专有名词对,并且获取表示专有名词之间的关连性的短语。图2和3是图示数据获取单元12从语句集合获取短语的方法的说明图。图2示出了从文档DB 11获取的语句集合的示例。语句集合包含例如,第一语句 SOl和第二语句S02。数据获取单元12首先辨认语句集合中的每个语句并且指定其中两个或更多个专有名词出现在所辨认的语句中的语句。可以使用例如已知的命名实体提取技术来进行专有名词的辨别。例如,图2的第一语句SOl包含两个专有名词“Jackson 5”和“CBS Records”。此外,第二语句S02包含两个专有名词 “ Jackson ” 和 “ Offthe Wal 1 ”。接着,数据获取单元12执行每个指定语句的句法分析并且得到句法树。随后,数据获取单元12获取用于链接得到的句法树中两个专有名词的对的短语。在图2的示例中, 链接第一语句 SOl 的"Jackson 5” 和 “CBS Records” 的短语是"signed a new contract with(签订新合同)”。另一方面,链接第二语句S02的“Jackson”和“Off the Wall”的短语是 “produced (制作),,。在本说明书中,一对单词和对应于该对的短语的组被称为关连性。图3示出了数据获取单元12得到的句法树的示例。在图3的示例中,数据获取单元12通过分析第三语句S03的句法得到句法树T03。句法树T03具有两个专有名词“Alice Cooper”和“MCR Records”之间的最短路径“signed to (签约)”。副词“subsequently (随后)”脱离两个专有名词之间的最短路径。数据获取单元12基于该句法分析的结果提取满足规定提取条件的单词对并且获取仅关于所提取的对的短语。作为规定的提取条件,例如可以应用下面的条件El至E3。(条件El)在专有名词之间的最短路径上不存在对应于语句的中断的节点。(条件E》专有名词之间的最短路径的长度是三个节点或更少。(条件E3)语句集合中的专有名词之间的单词的数目是十个或更少。条件1中的语句的中断是例如关系代词、逗号等。这些提取条件防止数据获取单元12不适当地获取不适于作为表示两个专有名词之间的关连性的短语的字符串。
9
注意,从语句集合中提取短语的操作可以在信息处理装置10的外部装置中预先执行。在该情况中,数据获取单元12在信息处理装置10的信息处理开始时从外部装置获取预先提取的短语以及从其提取短语的语句集合。此外,专有名词对与通过以上条件El至 E3提取的短语的组合被称为关连性数据。数据获取单元12将包含以上述方式获取的多个短语的关连性数据输出到短语特征值确定单元13。此外,数据获取单元12将用作获取短语时的基础的语句集合输出到集合特征值确定单元14。下文参照图4描述数据获取单元12的数据获取处理的流程。图4是图示数据获取单元12的数据获取处理的流程的说明图。参照图4,数据获取单元12首先从文档DB 11获取语句集合(SlOl)。接着,数据获取单元12在所获取的语句集合中包含的语句中指定其中出现两个或更多个单词(例如专有名词)的语句(S10》。随后,数据获取单元12分析指定语句的句法并且从而得到每个语句的句法树(S10;3)。数据获取单元12随后从步骤S202中指定的语句中提取满足规定的提取条件(例如条件El至E3)的单词对。随后,数据获取单元12从每个对应的语句中获取链接在步骤S104中提取的单词对的短语610 。数据获取单元12随后向短语特征值确定单元13输出关连性数据,其包含分别与单词对和相应的短语的组相对应的多个关连性。此外,数据获取单元12将用作获取短语的基础的语句集合输出到集合特征值确定单元14(S106)。(短语特征值确定单元 13)短语特征值确定单元13确定表示由数据获取单元12获取的每个短语的特征的短语特征值。注意,这里提到的短语特征值是向量空间中的向量,该向量空间具有分别与在多个短语中出现一次或多次的单词对应的分量。例如,当300个类别的单词出现在100个短语中时,短语特征值的维度可以是300维。短语特征值确定单元13基于多个短语中出现的单词的词表确定短语特征值的向量空间,并且随后根据每个短语中的每个单词的出现与否确定每个短语的短语特征值。例如,短语特征值确定单元13将对应于在每个短语中出现的单词的分量设定为“1”并且将对应于在每个短语中未出现的单词的分量设定为“0”,作为每个短语的短语特征值。注意,当确定短语特征值的向量空间时,优选的是将在表示短语特征时没有意义的单词(例如,冠词、指示词、关系代词等)视为停止单词并且从分量中排除等同于停止单词的单词。此外,短语特征值确定单元13可以评估例如短语中出现的单词的TF/IDF(词频 /反文档频率)分数,并且从向量空间的分量中排除具有低分数的单词(具有低重要性)。此外,短语特征值的向量空间可以不仅具有在多个短语中出现的单词,而且还可以具有对应于在多个短语中出现的单词双连、单词三连等的分量。此外,诸如词性类型或者单词属性的其他参数可以包含在短语特征值中。图5是图示由短语特征值确定单元13确定短语特征值的方法的说明图。图5的上部示出了从数据获取单元12输入的关连性数据的示例。在该示例中,关连性数据包含三个关连性R01、R02和R03。例如,短语特征值确定单元13从关连性数据中包含的短语中提取六个单词, “Signed”、“a”、“new”、“c0ntract”、“pr0duc” 和 “signed”。接着,短语特征值确定单元 13对这六个单词执行词干操作(解释词干的处理)并且随后排除停止单词等。作为该处理的结果,指定唯一的四个单词(词干),“sign,,、“new,,、“contract,,和“produc,,。随后,短语特征值确定单元13形成具有“Sign”、“new”、“c0ntract”和“produc”作为分量的短语特征
值的向量空间。另一方面,图5的下部示出了具有“Sign”、“neW”、“COntraCt”和“produc”作为分
量的向量空间中的短语特征值的示例。短语FOl是对应于关连性ROl的短语。短语FOl的短语特征值是(〃 sign",丨‘ new“,“ contract“,“ produc“,…)=(1,1,1,0,…)。短语F02是对应于关连性R02的短语。短语F02的短语特征值是 (〃 sign",“ new “,“ contract",“ produc “,…)=(0,0,0,1,· · ·)。短语F03是对应于关连性R03的短语。短语F03的短语特征值是(〃 sign",“ new“,“ contract“,“ produc“,…)=(1,0,0,0,…)。在实践中,短语特征值具有更大量的分量,并且其是超稀疏向量,其中仅少数分量具有不同于零的值。其中这些短语特征值排列成列(或行)的矩阵形成了短语特征值矩阵。图6是图示短语特征值确定单元13的短语特征值确定处理的流程的说明图。参照图6,短语特征值确定单元13首先提取从数据获取单元12输入的关连性数据中的短语中包含的单词(S111)。接着,短语特征值确定单元13对所提取的单词执行词干操作并且消除由于词形变化引起的单词差异(S112)。随后,短语特征值确定单元13在词干操作之后从单词中排除诸如停止单词和具有低TF/IDF分数的单词的不需要的单词 (S113)。短语特征值确定单元13随后根据包含剩余单词的词表形成短语特征值的向量空间(Si14)。随后,短语特征值确定单元13根据例如所形成的向量空间中的每个短语中的单词的出现与否,确定每个短语的短语特征值(SlK)。此后,短语特征值确定单元13将所确定的每个短语的短语特征值存储到特征值DB 15中(S116)。(集合特征值确定单元14)集合特征值确定单元14确定表示从数据获取单元12输入的语句集合的特征的集合特征值。这里提到的集合特征值是具有与在语句集合中出现的每种单词组合对应的分量的矩阵。此外,短语特征值的向量空间的至少一部分与构成集合特征值的行向量或列向量的向量空间的一部分重叠。集合特征值确定单元14可以根据例如关于每种单词组合在语句集合中的同现 (co-occurrence)次数确定集合特征值。在该情况中,集合特征值是表示每种单词组合的同现次数的同现矩阵。此外,集合特征值确定单元14可以根据例如单词之间的准同义词关系确定集合特征值。此外,集合特征值确定单元14可以确定反映每种单词组合的同现次数以及与准同义关系对应的数值两者的集合特征值。图7是图示由集合特征值确定单元14确定集合特征值的方法的说明图。图7的上部示出了从数据获取单元12输入的语句集合的示例。语句集合具有两个语句SOl和S02以及多个其他语句。集合特征值确定单元14 提取例如语句集合的多个语句中包含的单词。接着,集合特征值确定单元14对所提取的单词执行词干操作并且随后排除停止单词等,并且确定用于形成集合特征值的特征值空间的词表。这里确定的词表包括短语中出现的单词,诸如作为短语特征值的向量空间的分量的 “Sign”、“neW”、“COntraCt”和“produc”,并且此外,包括不同于短语的部分中出现的单词, 诸如"album(专集)”和 “together (一起)”。另一方面,图7的下部将集合特征值示出为同现矩阵,其中语句集合中出现的单词词表被分配作为行和列两者的分量。例如,对应于“sign”和“contract”的组合的集合特征值的分量的值是“30”。该值指示“sign”和“contract”的组合一起出现在语句集合中的一个语句中的次数(语句的数目)是30。同样地,对应于“sign”和“agree”的组合的分量的值是“10”。此外,对应于 “sign”和“born”的组合的分量的值是“0”。这些值分别指示语句集合中的每种单词组合的同现次数是10和0。注意,当集合特征值确定单元14根据单词之间的准同义关系确定集合特征值时, 例如,集合特征值确定单元14可以将与具有预先准备的准同义词词典中的准同义词关系 (包括同义词关系)的单词组合相对应的分量确定为“1”并且将其他分量确定为“0”。此外,集合特征值确定单元14可以使用给定的因子进行每种单词组合的同现次数和根据准同义词词典给出的值的加权加法。图8是图示集合特征值确定单元14的集合特征值确定处理的流程(第一示例) 的说明图。如图8中所示,集合特征值确定单元14首先提取从数据获取单元12输入的语句集合中包含的单词(S121)。接着,集合特征值确定单元14对所提取的单词执行词干操作并且消除由于词形变化引起的单词差异(S122)。随后,集合特征值确定单元14在词干操作之后从单词中排除诸如停止单词和具有低TF/IDF分数的单词的不需要的单词(S123)。集合特征值确定单元14随后根据包含剩余单词的词表形成集合特征值的特征值空间(矩阵空间)(S124)。随后,集合特征值确定单元14针对与所形成的特征值空间的每个分量对应的每种单词组合来对语句集合中的同现次数进行计数(S12Q。此后,集合特征值确定单元14将作为计数结果的同现矩阵存储到特征值DB 15中作为集合特征值(S126)。图9是图示集合特征值确定单元14的集合特征值确定处理的流程(第二示例) 的说明图。如图9中所示,集合特征值确定单元14首先提取从数据获取单元12输入的语句集合中包含的单词(S131)。接着,集合特征值确定单元14对所提取的单词执行词干操作并且消除由于词形变化引起的单词差异(S132)。随后,集合特征值确定单元14在词干操作之后从单词中排除诸如停止单词和具有低TF/IDF分数的单词的不需要的单词(S133)。集合特征值确定单元14随后根据包含剩余单词的词表形成集合特征值的特征值空间(矩阵空间)(S134)。此后,集合特征值确定单元14获取准同义词词典(S135)。随后, 集合特征值确定单元14针对与具有所获取的准同义词词典中的准同义词关系的每种单词组合相对应的矩阵的分量给出数值(S136)。最后,集合特征值确定单元14将其中针对分量给出数值的特征值矩阵存储到特征值DB 15中作为集合特征值(S137)。(特征值DB 15)特征值DB 15通过使用存储介质存储由短语特征值确定单元13确定的短语特征值和由集合特征值确定单元14确定的集合特征值。随后,响应于来自压缩单元16的请求,特征值DB 15将所存储的短语特征值和集合特征值输出到压缩单元16。(压缩单元16)压缩单元16通过使用来自特征值DB 15的短语特征值和集合特征值,生成维度比上述短语特征值低并且指示由数据获取单元12获取的每个短语的特征的压缩短语特征值。如前面所述,短语特征值确定单元13确定的短语特征值是超稀疏向量值。因此, 在将基于一般概率技术的向量压缩技术应用于该短语特征值时,数据的有意性因压缩而丧失。因此,压缩单元16除了短语特征值之外将集合特征值视为观测数据以补偿特征值的信息的不足,并且使用概率技术压缩短语特征值。从而可以不仅基于单个短语的统计特征,还基于短语所属的语句集合的统计特征,有效地训练压缩数据。压缩单元16使用的概率模型是将关于多个短语的短语特征值和集合特征值用作观测数据而构建的概率模型,从而潜在变量对于观测数据的出现有贡献。此外,在压缩单元 16使用的概率模型中,对集合特征值的出现有贡献的潜在变量和对与多个短语关连的短语特征值的出现有贡献的潜在变量是至少部分公共的变量。概率模型由例如下式(1)表示。式(1)
N M Γ1 L L Γ
i=\ j=l j=l在上式⑴中,X(Xij)指示短语特征值矩阵。F(fjk)指示集合特征值(矩阵)。Ui 指示对应于第i个短语的潜在向量。Vj(或Vk)指示对应于第j个(或第k个)单词的潜在向量。α x对应于短语特征值的精度并且给出下式O)中的正态分布的离散度。aF对应于集合特征值的精度并且给出下式(3)中的正态分布的离散度。N指示所获取的短语的总数,M指示短语特征值的向量空间的维度,而L指示集合特征值的阶数。应当注意,上式(1)的左手侧包括的两个随机变量由下式( 和C3)定义。然而, G(x μ , α)是具有平均值μ和精度α的正态分布。式(2)P(Xij)Ui, Vj, αχ) = G (XiJ IUi1 Vj, α χ)式(3)ρ (fJk I Vj, Vk, α F) = G (fJk | Vj1Vk, α F)压缩单元16基于上述概率模型设定共轭先验分布并且随后根据诸如最大后验估计或者贝叶斯估计的最大似然估计方法,估计N个潜在向量Ui和L个潜在向量Vj,这些潜在向量是潜在变量。随后,压缩单元16将作为估计结果而获得的每个短语的潜在向量Ui (i =1至N)输出到压缩特征值DB 17作为每个短语的压缩短语特征值。现在参照图10和11。图10和11是概念性图示压缩短语特征值的方法的示图。在图10中,在上部中示出了作为潜在变量的数据空间的示例的潜在话题空间,并且在下部中示出了观测数据空间。潜在向量Ui属于潜在话题空间并且对在语句集合中观测到第i个短语的出现有贡献。这意味着短语的语义方面引起了对作为语言的短语的出现的概率影响。另一方面, 潜在向量仏和潜在向量Vj(Vk)对第i个短语中包含的第j个单词的出现有贡献。这意味着语句集合的上下文的语义方面(或者文档的语言趋势等)引起了对例如个别单词的出现的概率影响。此时,潜在向量Vj(Vk)不仅对第i个短语中包含的第j个单词的出现有贡献,而且对不同于关注的短语的语句集合的另一部分中的单词的出现也有贡献。因此,通过除第i 个短语的短语特征值Xij之外观测集合特征值fjk,可以进行潜在向量Ui和潜在向量Vj (Vk) 的良好估计。应当注意,潜在向量Ui和Vj的维度等于潜在话题空间中的话题数目。当话题数目小于短语特征值的维度时,可以获得维度比短语特征值低的潜在向量Ui作为压缩短语特征值。潜在话题空间中的话题数目可以例如根据后继阶段中的处理要求或者对资源的约束而被设定为适当的数目(例如20)。在图11的上部中示出了具有N行和M列的短语特征值矩阵X。此外,在图11的下部中示出了具有L行和L列的集合特征值F。应当注意,在图11中的短语特征值矩阵X和集合特征值F中,行和列分别相对于图5和7中图示的短语特征值矩阵和集合特征值的行和列反转。当图10中示出的潜在话题空间中的话题数目是T时,例如,图11中示出的具有N 行和M列的短语特征值矩阵X可以被分解为较低阶的具有N行和T列的低阶矩阵Mtl与较低阶的具有T行和M列的低阶矩阵Mt2的积。低阶矩阵Mtl是其中按行布置具有维度T的潜在向量Ui的矩阵。同样地,具有L行和L列的集合特征值F可以被分解为具有L行和T 列的低阶矩阵Mt3和具有T行和L列的低阶矩阵Mt4的积。低阶矩阵Mt3是其中按行布置具有维度T的潜在向量Vj的矩阵。基于低阶矩阵Mt2的阴影区域中的潜在变量和低阶矩阵Mt4的阴影区域中的潜在变量具有相同值的假设,压缩单元16估计近似得到短语特征值矩阵X和集合特征值F的具有最大似然的低阶矩阵Mtl、Mt2、Mt3和Mt4。压缩单元16从而可以获得比当仅根据短语特征值矩阵X估计低阶矩阵Mtl和Mt2时更有意义的低阶矩阵Mtl (即潜在向量Ui)。在图11的示例中,示出了其中集合特征值的向量空间的维度L大于短语特征值的向量空间的维度M的结构。对于L > M,基于不仅出现在短语中的单词、而且未出现在短语中但是出现在短语所属的语句集合中的单词的趋势,可以增强短语特征值的压缩的有意性。然而,维度可以是L = M或者L<M。在该情况中,同样地,由于具有L行和L列的集合特征值通常比具有N行和M列的短语特征值矩阵更密集(非超稀疏的),因此由集合特征值补偿短语特征值的信息的不足,并且可以预期其效果。(压缩特征值DB17)压缩特征值DB 17使用存储介质存储由压缩单元16生成的压缩短语特征值。随后,响应于来自聚类单元18的请求,压缩特征值DB 17将所存储的压缩短语特征值输出到聚类单元18。此外,压缩特征值DB 17与压缩短语特征值关联地存储聚类单元18的聚类结^ ο(聚类单元I8)聚类单元18根据特征值之间的相似度对压缩单元16生成的多个压缩短语特征值进行聚类。根据诸如K-means的聚类算法执行聚类单元18的聚类。此外,聚类单元18将对应于代表每个聚簇的短语的标志分配给作为聚类结果而生成的一个或多个聚簇中的每个。
然而,被分配标志的聚簇并非是根据聚类算法生成的所有聚簇,而是例如满足如下选择条件的一些聚簇。(选择条件)聚簇中的短语的数目(分离地对重叠短语计数)在所有聚簇的顶部的Nf以内,并且聚簇中的所有短语对的压缩短语特征值的相似度等于或高于规定阈值。注意,作为上述选择条件中的相似度,可以使用例如压缩短语特征值之间的余弦相似度或内积。此外,代表所选择的聚簇的短语可以是例如,聚簇中的唯一短语中的最常包含在聚簇中的短语。聚类单元18可以例如针对具有相同字符串的短语计算压缩短语特征值的和,并且分配具有最大和的短语的字符串作为聚簇标志。图12是示出聚类单元18的短语聚类的结果的说明图。图12示出了压缩短语特征值空间的示例。在压缩短语特征值空间中,十一个短语 Fll至F21位于对应于它们的压缩短语特征值的位置。在^^一个短语Fll至F21中,短语F12至F14被分类为聚簇Cl。此外,短语F15至 F17被分类为聚簇C2。此外,短语F18至F20被分类为聚簇C3。此外,字符串“Sign”作为标志被分配给聚簇Cl。字符串“Collaborate”作为标志被分配给聚簇C2。字符串“Born”作为标志被分配给聚簇C3。根据代表每个聚簇的短语的字符串分配这些聚簇标志。聚类单元18与压缩短语特征值关联地将该聚类结果存储到压缩特征值DB 17中。注意,不同于根据代表每个聚簇的短语分配聚簇标志,当预先给定已知将属于聚簇的短语(在下文中被称为教师短语)时,可以分配教师短语或者与教师短语关联的字符串作为聚簇标志。图13是图示聚类单元18的聚类处理的流程的说明图。如图13中所示,聚类单元18首先从压缩特征值DB 17读取与语句集合中包含的多个短语关连的压缩短语特征值(S141)。接着,聚类单元18根据规定的聚类算法对压缩短语特征值进行聚类(S14》。随后,聚类单元18确定是否每个聚簇满足规定的选择条件,并且选择满足规定的选择条件的主要聚簇(S14!3)。此后,聚类单元18将对应于代表每个聚簇的短语的字符串的标志分配给每个所选择的聚簇(S144)。(总结单元19)总结单元19将注意力集中于语句集合中包含的特定单词,并且通过使用聚类单元18对与关注单词关连的短语进行聚类的结果来创建关于关注单词的总结信息。具体地, 总结单元19从关连性数据提取与关注单词关连的多个关连性。随后,如果所提取的第一关连性的短语和第二关连性的短语均被分类为一个聚簇,则总结单元19将具有第一关连性的其他单词和具有第二关连性的其他单词添加到关于分配给该一个聚簇的标志的总结内容。图14示出了总结单元19创建的作为示例的总结信息的说明图。总结信息中的关注单词是“Michael Jackson”。此外,总结信息包含四个标志“Sign(签订),,、“Born(出生)”、"Collaborate (合作),,和"Album(专辑)”。在该总结信息中,与标志“Sign”关连的内容是“CBS Records”和“Motown”。例如,对于作为关注单词的“Michael Jackson”与“CBS Records”的单词对,短语是“signedto”,并且对于 “Michael Jackson” 与“Motown” 的单词对,短语是 “contracted with”。当这些短语被分类为具有标志“Sign”的聚簇时,可以创建这样的总结信息的条目。图15是图示总结单元19的总结信息创建处理的流程的说明图。参照图15,总结单元19首先指定关注单词(S151)。关注单词可以是例如用户指示的单词。可替选地,总结单元19可以例如自动地将诸如关连性数据中包含的一个或多个专有名词的单词指定为关注单词。接着,总结单元19从关连性数据中提取与指定的关注单词相关连的关连性。与关注单词相关连的关连性是例如其中单词对中的任一单词是关注单词的关连性。随后,总结单元19从聚类结果获取所提取的关连性中包含的短语所属的聚簇的标志(S153)。总结单元19随后对于每个所获取的标志列出与关注单词配对的单词,从而生成总结内容(S154)。 总结单元19将以该方式创建的总结信息输出到总结DB 20。(总结DB 20)总结DB 20通过使用存储介质存储总结单元19创建的总结信息。例如,对于诸如信息检索、广告或推荐的各种目的,存储在总结DB 20中的总结信息可由信息处理装置10 的内部或外部应用使用。前文描述了信息处理装置10的功能配置。如上文所述,通过使用信息处理装置 10,自动地提取具有与特定的关注单词的某种关连性的单词,并且进一步分配指示所提取的单词和关注单词之间的关连性的标志。因此信息处理装置10的使用使得可以自动地生成指示两个单词之间的关连性的信息。注意,当在下文描述的实施例中通过语句表示种子实体和关连实体之间的关连性时,使用该信息。<2:实施例〉下文描述了本公开的一个实施例。该实施例涉及自动地生成指示种子实体和关连实体之间的关连性的语句(其在下文中被称为关连信息语句)。[2-1 信息处理装置100的功能配置]首先参照图16描述根据实施例的能够实现自动地生成关连信息语句的方法的信息处理装置100的功能配置。图16是图示根据实施例的信息处理装置100的功能配置的说明图。参照图16,信息处理装置100主要包括输入单元101、关连信息检索单元102、实体检索单元103、关连信息语句生成单元104、输出单元105和存储单元106。此外,关连信息 DB 1061、实体DB 1062和语句模板DB 1063存储在存储单元106中。首先,种子实体的信息(在下文中被称为“种子实体信息”)和关连实体的信息(在下文中被称为“关连实体信息”)被输入到输入单元101。注意,种子实体是例如用于在内容推荐系统中选择要推荐的内容(在下文中被称为“推荐内容”)的内容(在下文中被称为 “种子内容”;例如由用户购买的内容)。在该情况中,关连实体是要推荐给用户的内容。此外,种子实体信息是例如与种子内容关连的元信息(例如艺术家名称、专辑名称等)。关连实体信息是与推荐内容关连的元信息(例如艺术家名称、专辑名称等)。输入到输入单元101的种子实体信息和关连实体信息随后被输入到关连信息检索单元102。在输入种子实体信息和关连实体信息时,关连信息检索单元102参考关连信息 DB 1061并且检索与种子实体信息和关连实体信息相关连的关连标志。关连信息DB 1061是存储指示两个实体之间的关连性的信息的数据库。例如,在关连信息DB 1061中,如图17 中所示与实体#1和实体#2相关联地存储指示实体#1和#2之间的关连性的关连标志。注意,前面描述的信息处理装置10的功能可以自动地从实体#1和#2的元信息等提取实体#1 和#2之间的关连性。在图17的示例中,在关连信息DB 1061中,实体#1的信息“歌手A”、实体#2的信息“位置X”以及关连标志“出生于(NORN IN)”彼此关联。在该示例中,关连标志“出生于” 指示关连性“歌手A出生于位置X”。此外,在图17中图示的关连信息DB 1061中,实体#1 的信息“歌手A”、实体#2的信息“歌手B”以及关连标志“合作(COLLABORATE WITH)”彼此关联。在该示例中,关连标志“合作(COLLABORATE WITH) ”指示关连性“歌手A与歌手B合作”。通过该方式,实体#1和#2的信息以及关连标志相关联地存储在关连信息DB 1061中。关连信息检索单元102首先在关连信息DB 1061中检索包含种子实体信息和关连实体信息两者的记录(在下文中被称为“同现记录”)。在图17的示例中,考虑其中种子实体信息是“歌手A”并且关连实体信息是“歌手B”的情况,同现记录是记录No. 002。在以该方式从关连信息DB1061检测到同现记录之后,关连信息检索单元102将检测到的同现记录中包含的种子实体信息、关连实体信息和关连标志输入到实体检索单元103。接着,关连信息检索单元102在关连信息DB 1061中检索包含种子实体信息但是不包含关连实体信息的记录(在下文中被称为“种子实体记录”)。此外,关连信息检索单元102在关连信息DB 1061中检索不包含种子实体信息但是包含关连实体信息的记录(在下文中被称为“关连实体记录”)。此外,关连信息检索单元102检索其中不同于种子实体记录中包含的种子实体记录的实体信息和不同于关连实体记录中包含的关连实体信息的实体信息相匹配的记录(在下文中被称为“公共记录”)。在图17的示例中,考虑其中种子实体信息是“歌手A”并且关连实体信息是“歌手 B”的情况,公共记录是记录No. 001和No. 004。在该示例中,种子实体记录是记录No. 001 和No. 003。另一方面,关连实体记录是记录No. 004。比较记录No. 001、No. 003和No. 004, 记录No. 001和No. 004均包含实体的信息“位置X”。因此,在该示例中,No. 001和No. 004 被检测为公共记录。在以该方式从关连信息DB 1061检测到公共记录之后,关连信息检索单元102将检测到的公共记录中包含的种子实体信息、关连实体信息和关连标志输入到实体检索单元103。在未检测到任何同现记录和公共记录时,关连信息检索单元102输出指示未检测到同现记录和公共记录的信息(NULL(空))。当输出NULL时,信息处理装置100终止关连信息语句的生成。图18提供了上述关连信息检索单元102的检索处理的总结。此外参照图18描述关连信息检索单元102的检索处理的流程。注意,在图18的示例中,示出了当种子实体信息是“歌手A”并且关连实体信息是“歌手B”时的由关连信息检索单元102执行的检索处理的流程。首先,种子实体信息“歌手A”和关连实体信息“歌手B”从输入单元101输入到关连信息检索单元102(步骤1)。接着,关连信息检索单元102提取包含“歌手A”、“歌手B” 的记录(步骤幻。在该情况中,提取了记录No. 001至No. 004。随后,关连信息检索单元 102检索满足如下检索条件#1的记录(步骤3)。在该情况中,由于包含“歌手A”和“歌手B”两者的记录是记录No. 002,因此提取记录No. 002作为检索条件#1的检索结果。此后,关连信息检索单元102检索满足如下检索条件#2的记录(步骤4)。在该情况中,包含“歌手A”但是不包含“歌手B”的记录是记录No. 001和No. 003。此外,不包含 “歌手A”但是包含“歌手B”的记录是记录No. 004。在记录No. 001、No. 003和No. 004中, 公共实体信息是“位置X”。这样,包含“位置X”的记录是记录No. 001和No. 004。因此,提取记录No. 001和No. 004作为检索条件#2的检索结果。(检索条件#1关于同现记录的检索条件)检索包含种子实体信息和关连实体信息两者的记录(检索条件#2关于公共记录的检索条件)在包含种子实体信息和关连实体信息中的任一个的记录中检索包含公共实体信息的记录回来参照图16,在以上述方式提取同现记录和公共记录之后,关连信息检索单元 102将同现记录和公共记录中的每个中包含的种子实体信息、关连实体信息和关连标志输入到实体检索单元103。注意,在下面的描述中,在一些情况中,同现记录和公共记录中包含的种子实体信息、关连实体信息和关连标志被分别简单地称为“同现记录”和“公共记录”。在输入同现记录和公共记录之后,实体检索单元103参考实体DB1062并且检索与同现记录和公共记录中包含的实体的信息对应的实体标志。实体标志是指示实体的属性的信息。实体DB 1062具有例如图19中示出的结构。参照图19,实体“歌手A”与实体标志“人物(PERSON)”关联,其指示该实体是“人物”。此外,实体“位置X”与实体标志“位置 (LOCATION),,关联,其指示该实体是“位置”。首先,实体检索单元103从实体DB 1062提取与从关连信息检索单元102输入的同现记录中包含的种子实体信息(例如“歌手A”)对应的实体标志(例如“人物 (PERSON)”)。接着,实体检索单元103从实体DB 1062提取与从关连信息检索单元102 输入的同现记录中包含的关连实体信息(例如“歌手B”)对应的实体标志(例如“人物 (PERSON)”)。随后,实体检索单元103从实体DB 1062提取与从关连信息检索单元102输入的公共记录中包含的种子实体信息和关连实体信息不同的实体信息(例如“位置X”)所对应的实体标志(例如“位置(LOCATION)”)。此后,实体检索单元103将实体标志分配给同现记录和公共记录中包含的每个实体的信息并且将同现记录和公共记录输入到关连信息语句生成单元104。图20和21提供了由上述实体检索单元103确定实体标志的方法。参照图20,当检索条件#1的提取结果(同现记录)被输入到实体检索单元103时(步骤1),确定与同现记录中包含的实体信息对应的实体标志(步骤2)。此时,实体检索单元103参考实体DB 1062并且提取与种子实体信息和关连实体信息中的每个对应的实体标志。随后,将实体检索单元103提取的实体标志分配给同现记录中包含的种子实体信息和关连实体信息。进一步参照图21,当检索条件#2的提取结果(公共记录)被输入到实体检索单元 103时(步骤1),从实体DB 1062提取与公共记录中包含的种子实体信息和关连实体信息不同的实体信息所对应的实体标志(步骤2)。随后,将从实体DB 1062提取的实体标志分配给与公共记录中包含的种子实体信息和关连实体信息不同的实体信息(步骤3)。通过该
18方式,实体标志被分配给同现记录和公共记录中包含的每个实体的信息。回来参照图16,在如上文所述由实体检索单元103将实体标志分配给每个实体的信息之后,将同现记录和公共记录中包含的每个实体的信息输入到关连信息语句生成单元 104。在输入同现记录和公共记录中包含的每个实体的信息之后,关连信息语句生成单元 104参考语句模板DB 1063并且基于所输入的每个实体的信息确定用于生成关连信息语句的语句模板。随后,关连信息语句生成单元104将每个实体的信息分配给所确定的语句模板并且从而生成关连信息语句。语句模板DB 1063具有例如图22中所示的结构。参照图22,语句模板DB 1063是使关连标志、实体标志和语句模板彼此关联的数据库。例如,语句模板“[实体#1]出生于 [实体 #2] ([entity#l]was born in[entity#2]) ”与关连标志“出生于(BORN IN)”和实体标志“位置”关联。然而,注意,实体#1和#2的信息被分别分配给语句模板中的[实体#1] 和[实体#2]。下面参照图23和M更详细地描述关连信息语句生成单元104生成关连信息语句的方法。图23是示出在输入同现记录的情况中关连信息语句生成单元104生成关连信息语句的方法的说明图。另一方面,图M是示出在输入公共记录的情况中关连信息语句生成单元104生成关连信息语句的方法的说明图。参照图23,同现记录中包含的关连标志以及分配给种子实体信息和关连实体信息的实体标志的信息(在下文中被称为“标志信息”)被输入到关连信息语句生成单元 104(步骤1)。在图23的示例中,种子实体信息(对应于实体#1)“歌手A”、关连标志“合作 (COLLABORATE WITH) ”和实体标志“人物(PERSON) ”作为标志信息被输入到关连信息语句生成单元104。此外,关连实体信息(对应于实体#2)“歌手B”、关连标志“合作(COLLABORATE WITH) ”和实体标志“人物(PERSON) ”作为标志信息被输入到关连信息语句生成单元104。关连信息语句生成单元104参考语句模板DB 1063 (参见图2 并且提取语句模板“[实体#1]出生于[实体#2]”,其与来自输入标志信息的关连标志“合作(COLLABORATE WITH) ”和实体标志“人物(PERSON) ”对应(步骤2)。随后,关连信息语句生成单元104将每个实体的信息“歌手A”和“歌手B”分配给所提取的语句模板中包含的变量[实体#1]和 [实体#2]并且从而生成关连信息语句“歌手A与歌手B合作”(步骤3)。接下来参照图24,公共记录中包含的关连标志以及分配给种子实体信息和关连实体信息的实体标志的信息(标志信息)被输入到关连信息语句生成单元104(步骤1)。在图M的示例中,种子实体信息(对应于实体#1) “歌手A”、关连标志“出生于 (BORN IN),,和实体标志“人物(PERSON),,作为标志信息被输入到关连信息语句生成单元 104。此外,关连实体信息(对应于实体#1) “歌手B”、关连标志“演出(PLAY)”和实体标志“人物(PERSON)”作为标志信息被输入到关连信息语句生成单元104。此外,与种子实体信息和关连实体信息不同的实体信息(对应于实体#2) “位置X”以及实体标志“位置 (LOCATION) ”作为标志信息被输入到关连信息语句生成单元104。关连信息语句生成单元104参考语句模板DB 1063 (参见图22)并且从实体#1的输入关连标志和实体#2的实体标志提取语句模板(步骤2)。例如,当输入实体#1 “歌手 A”的关连标志“出生于(BORN IN)”和实体#2的实体标志“位置(LOCATION) ”时,提取语句模板“[实体#1]出生于[实体#2]”。此外,当输入实体#1 “歌手B”的关连标志“演出(PLAY) ”和实体#2的实体标志“位置(LOCATION),,时,提取语句模板“[实体#1]在[实体 #2]演出([entity#l]played in [entity #2]),,。在确定种子实体信息的语句模板(在下文中被称为“种子实体语句模板”)和关连实体信息的语句模板(在下文中被称为“关连实体语句模板”)之后,关连信息语句生成单元104根据需要修改语句模板(步骤3)。例如,当如图M中所示种子实体语句模板和关连实体语句模板不同时,关连信息语句生成单元104将“,while(而)”添加到种子实体语句模板并且随后在其之后添加关连实体语句模板。另一方面,当种子实体语句模板和关连实体语句模板相同时,关连信息语句生成单元104将排除[实体#1]的种子实体语句模板的部分添加到“种子实体信息和关连实体信息两者”。此时,关连信息语句生成单元104适当地将“be”动词改变为复数形式。随后,关连信息语句生成单元104将实体#2的实体信息分配给经修改的语句模板中包含的变量[实体#2]并且从而生成关连信息语句(步骤3)。在图M的示例中,生成关连信息语句“歌手A出生于位置X,而歌手B在位置X演出”。通过该方式,由关连信息语句生成单元104生成关连信息语句。再次参照图16,在如上文所述生成关连信息语句之后,关连信息语句生成单元 104将所生成的关连信息语句输入到输出单元105。在输入关连信息语句之后,输出单元 105将输入的关连信息语句输出。此时,输出单元105可以在诸如显示器的显示部件(未示出)上显示关连信息语句或者通过使用诸如扬声器的音频输出部件(未示出)作为声音输出关连信息语句。例如,如图四和30中所示,输出单元105在显示部件上与种子实体信息“Jack”和关连实体信息“Rose” 一起显示关连信息语句“Rose和Jack两者都出生于印第安纳(Both Rose and Jack were born in Indiana) ”(参见图 29)/‘Rose 出生于印第安纳,而 Jack 在 £口第安纳演出(Rose was born in Indiana, while Jack played in Indiana),,(参见图 30)。上文描述了信息处理装置100的功能配置。注意,前面描述的信息处理装置10的功能配置可以并入到信息处理装置100的功能配置中。在该情况中,根据由信息处理装置 10的总结单元19生成的总结信息(参见图14)构建关连信息DB 1061(参见图17)的内容。 如参照图14和17易于理解的,可以通过改变总结DB 20的结构来构建关连信息DB 1061。 然而,注意,图14中示出的“标志”对应于图17中示出的“关连标志”。此外,信息处理装置 100的存储单元106可以被设置在信息处理装置100外部。[2-2 信息处理装置100的操作]根据本发明的另一实施例,提供了一种关连语句提供方法,其包括提供与主要信息关连的关连信息,生成指示主要信息和关连信息之间的关连性的语句,以及提供语句。下面参照图25至观描述信息处理装置100的操作,作为上述根据本发明的实施例的关连语句提供方法的具体示例。图25至观是图示构成信息处理装置100的元件的操作的说明图。 注意,在该示例中,输入种子艺术家名称作为种子实体信息,并且输入关连艺术家名称作为关连实体信息。(关连信息检索单元102的操作)首先参照图25描述关连信息检索单元102的操作。图25是图示关连信息检索单元102执行的处理的流程的说明图。参照图25,关连信息检索单元102在关连信息DB 1061中检索包含从输入单元 101输入的种子艺术家名称或关连艺术家名称的信息(S201)。接着,关连信息检索单元102 将包含种子艺术家名称和关连艺术家名称的检索结果作为上述(检索条件#1)的检索结果输出到实体检索单元103 620 。随后,关连信息检索单元102在包含种子艺术家名称的记录和包含关连艺术家名称的记录之间提取包含公共实体的记录,并且将所提取的记录作为上述(检索条件#2)的检索结果输出到实体检索单元103(S203)。(实体检索单元103的操作)下面参照图沈描述实体检索单元103的操作。图沈是图示实体检索单元103执行的处理的流程的说明图。参照图沈,实体检索单元103将实体标志“人物”分配给上述(检索条件#1)的检索结果(同现记录)并且将其输出到关连信息语句生成单元104(S211)。接着,实体检索单元103在实体DB 1062中检索与上述(检索条件#2)的检索结果(公共记录)中包含的公共实体相对应的实体标志(S212)。随后,实体计算单元103将从实体DB 1062中提取的实体标志分配给公共实体并且将其输出到关连信息语句生成单元104(S213)。(关连信息语句生成单元104的操作)下面参照图27和观描述关连信息语句生成单元104的操作。图27和观是图示关连信息语句生成单元104执行的处理的流程的说明图。特别地,图27示出了关于上述 (检索条件#1)的检索结果的关连信息语句生成单元104的操作。另一方面,图观示出了关于上述(检索条件#2)的检索结果的关连信息语句生成单元104的操作。首先参照图27,关连信息语句生成单元104在语句模板DB 1063中检索与从实体检索单元103输入的关连标志和实体标志的集合对应的语句模板(S221)。接着,关连信息语句生成单元104将对应于实体#1的艺术家名称代入从语句模板DB 1063中提取的语句模板中包含的变量[实体#1] (S222)。随后,关连信息语句生成单元104将对应于实体#2 的艺术家名称代入从语句模板DB 1063中提取的语句模板中包含的变量[实体#2] (S223)。 此后,关连信息语句生成单元104通过输出单元105输出关连信息语句(S224)。接下来参照图28,关连信息语句生成单元104针对种子实体信息和关连实体信息中的每个在语句模板DB 1063中检索与关连标志和实体标志的集合对应的语句模板 (S231)。接着,关连信息语句生成单元104确定对应于种子实体信息的语句模板(种子实体语句模板)和对应于关连实体信息的语句模板(关连实体语句模板)是否相同(S232)。 当种子实体语句模板和关连实体语句模板相同时,关连信息语句生成单元104前往步骤 S233。另一方面,当种子实体语句模板和关连实体语句模板不相同时,关连信息语句生成单元104前往步骤S2;34。当处理前往步骤S233时,关连信息语句生成单元104将语句模板修改为形式 “...和...两者”并且使后面的“be”动词变为复数形式(S233)。另一方面,当处理前往步骤S234时,关连信息语句生成单元104将语句模板修改为形式“...,而...”(S234)。当步骤S233或S234的处理结束时,关连信息语句生成单元104前往步骤S235。在步骤S235中,关连信息语句生成单元104将种子艺术家名称和关连艺术家名称代入两个变量[实体#1] (S235)。随后,关连信息语句生成单元104将公共实体信息代入变量[实体#2]并且从而完成关连信息语句(S236)。随后,关连信息语句生成单元104通过输出单元105输出完成的关连信息语句(S224)。上文描述了信息处理装置100的操作。注意,关连信息语句以如图四和30中示出的形式输出。<3 硬件配置>上文描述的信息处理装置10和100的每个结构元件的功能可以通过使用例如图 31中示出的信息处理设备的硬件配置来实现。就是说,每个结构元件的功能可以通过使用计算机程序控制图31中所示的硬件来实现。此外,该硬件的模式是任意的,并且可以是个人计算机,诸如移动电话、PHS或PDA的移动信息终端,游戏机,或者各种类型的信息工具。 此外,PHS是个人手持电话系统的缩写。再者,PDA是个人数字助理的缩写。如图31中所示,该硬件主要包括CPU 902、ROM 904、RAM 906、主机总线908、和桥 910。此外,该硬件包括外部总线912、接口 914、输入单元916、输出单元918、存储单元920、 驱动器922、连接端口拟4和通信单元926。此外,CPU是中央处理单元的缩写。再者,ROM 是只读存储器的缩写。此外,RAM是随机存取存储器的缩写。CPU 902用作例如算术处理单元或控制单元,并且基于ROM 904、RAM 906、存储单元920或可拆卸记录介质拟8上记录的各种程序控制每个结构元件的整体操作或部分操作。ROM 904是用于存储例如将加载在CPU 902上的程序或者算术运算中使用的数据等的部件。RAM 906临时地或永久地存储例如,将加载在CPU 902上的程序或者在程序的执行中任意改变的各种参数等。这些结构元件通过例如能够执行高速数据传送的主机总线908彼此连接。就其而言,主机总线908通过桥910连接到例如外部总线912,该外部总线912的数据传送速度是相对低的。此外,输入单元916是例如,鼠标、键盘、触摸面板、按钮、开关或操纵杆。再者, 输入单元916可以是遥控器,其能够使用红外线或其他无线电波传送控制信号。输出单元918例如是诸如CRT、IXD、PDP或ELD的显示设备,诸如扬声器或耳机的音频输出设备,打印机、移动电话或传真机,它们能够视觉地或听觉地向用户通知所获取的信息。此外,CRT是阴极射线管的缩写。LCD是液晶显示器的缩写。PDP是等离子体显示面板的缩写。再者,ELD是电致发光显示器的缩写。存储单元920是用于存储各种数据的装置。存储单元920例如是,诸如硬盘驱动器(HDD)的磁存储装置、半导体存储装置、光学存储装置或者磁-光存储装置。HDD是硬盘驱动器的缩写。驱动器922是读取记录在诸如磁盘、光盘、磁-光盘或半导体存储器的可拆卸记录介质拟8上记录的信息,或者将信息写入可拆卸记录介质928中的装置。可拆卸记录介质 928例如是,DVD介质、Blu-ray (蓝光)介质、HD-DVD介质、各种类型的半导体存储介质等。 当然,可拆卸记录介质拟8可以例如是,电子装置或者搭载非接触IC芯片的IC卡。IC是集成电路的缩写。连接端口拟4是诸如USB端口、IEEE 1394端口、SCSI、RS-232端口的端口,或者用于连接诸如光学音频终端的外部连接装置930的端口。外部连接装置930例如是,打印机、移动音乐播放器、数字相机、数字视频相机或者IC记录器。此外,USB是通用串行总线的缩写。再者,SCSI是小型计算机系统接口的缩写。
通信单元拟6是将连接到网络932的通信装置,并且例如是,用于有线或无线LAN、 Bluetooth(注册商标)或WUSB的通信卡,光学通信路由器,ADSL路由器或者用于各种类型的通信的调制解调器。连接到通信单元拟6的网络932由有线连接或无线连接的网络构成, 并且例如是,互联网、家用LAN、红外通信、可见光通信、广播或者卫星通信。此外,LAN是局域网的缩写。再者,WUSB是无线USB的缩写。此外,ADSL是非对称数字订户线路的缩写。<4:总结〉最后,下文提供了根据本公开的实施例的技术主题的简要总结。这里描述的技术主题可以应用于各种类型的信息处理装置,诸如PC、移动电话、便携式游戏机、便携式信息终端、家庭信息工具和汽车导航系统。上文描述的信息处理装置的功能配置可以表述如下。该信息处理装置包括信息提供单元、关连语句生成单元和关连语句提供单元。信息提供单元提供与主要信息关连的关连信息。关连语句生成单元生成指示主要信息和关连信息之间的关连性的语句。关连语句提供单元提供由关连语句生成单元生成的语句。通过该方式,在提供主要信息和关连信息时,额外提供指示它们之间的关连性的语句,从而吸引用户有兴趣接收关连信息中的信息。这对与关连信息对应的产品促销以及提高观看内容的频率有贡献。(注释)上文描述的输出单元105是信息提供单元和关连语句提供单元的示例。上文描述的种子实体信息是主要信息的示例。上文描述的关连实体信息是关连信息的示例。上文描述的关连信息语句生成单元104是关连语句生成单元的示例。上文描述的关连信息DB 1061是第一数据库的示例。上文描述的实体#1的信息是第一信息的示例。上文描述的实体#2的信息是第二信息的示例。此外,上文描述的关连标志是关连性信息的示例。上文描述的语句模板DB 1063 是第二数据库的示例。上文描述的同现记录是第一记录的示例。上文描述的公共记录是第二和第三记录的示例。上文描述的数据获取单元12是短语获取单元的示例。上文描述的总结单元19是关连性信息生成单元的示例。上文描述的压缩单元16是压缩短语特征值生成单元的示例。上文参照附图描述了本公开的优选实施例,显然本公开不限于以上示例。本领域的技术人员应当理解,在所附权利要求及其等同物的范围内,可以根据设计要求和其他因素进行各种修改、组合、子组合和变更。本公开包含涉及在2010年7月27日提交日本专利局的日本在先专利申请第JP 2010-168336号的主题内容相关的主题内容,其整体内容通过引用合并于此。
权利要求
1.一种信息处理装置,包括信息提供单元,提供与主要信息关连的关连信息;关连语句生成单元,生成指示所述主要信息和所述关连信息之间的关连性的语句;以及关连语句提供单元,提供由所述关连语句生成单元生成的语句。
2.根据权利要求1所述的信息处理装置,进一步包括存储单元,存储第一数据库,其使指示第一信息和第二信息之间的关连性的关连性信息、所述第一信息和所述第二信息相关联;以及第二数据库,其使所述关连性信息和语句模板相关联,其中所述关连语句生成单元从所述第一数据库提取第一记录,其中所述第一或第二信息与所述主要信息匹配并且所述第二或第一信息与所述关连信息匹配,从所述第二数据库提取语句模板,所述语句模板对应于所述第一记录中包含的所述关连性信息,以及通过使用所述第一记录中包含的所述第一和第二信息以及从所述第二数据库提取的所述语句模板,生成指示所述主要信息和所述关连信息之间的关连性的语句。
3.根据权利要求2所述的信息处理装置,其中所述关连语句生成单元从所述第一数据库提取第二记录,其中所述第一或第二信息与所述主要信息匹配,并且所述第二记录不同于所述第一记录;以及第三记录,其中所述第一或第二信息与所述关连信息匹配,并且所述第三记录不同于所述第一记录,当提取所述第二和第三记录时,提取所述第二和第三记录的集合,其中所述第二记录中包含的所述第二或第一信息与所述主要信息不同,并且所述第三记录中包含的所述第二或第一信息与所述关连信息不同,从所述第二数据库提取与形成所述第二和第三记录的集合的所述第二或第三记录中包含的所述关连性信息相对应的语句模板,以及通过使用形成所述第二和第三记录的集合的所述第二或第三记录中包含的所述第一和第二信息以及从所述第二数据库中提取的所述语句模板来生成指示所述主要信息和所述关连信息之间的关连性的语句。
4.根据权利要求3所述的信息处理装置,其中所述主要信息、所述关连信息以及所述第一和第二信息是单词, 所述关连性信息是指示单词之间的关连性的信息,以及所述关连语句生成单元通过将所述主要信息的单词和所述关连信息的单词应用到对应于所述关连性信息的语句模板来生成语句。
5.根据权利要求4所述的信息处理装置,进一步包括短语获取单元,从包括多个语句的语句集合获取每个语句中包含的短语; 短语特征值确定单元,确定用于指示由所述短语获取单元获取的每个短语的特征值的短语特征值;聚类单元,根据特征值之间的相似度对由所述短语特征值确定单元确定的短语特征值进行聚类;以及关连性信息生成单元,使用所述聚类单元的聚类结果来提取所述语句集合中包含的单词之间的关连性,并且生成指示所述第一信息的单词和所述第二信息的单词之间的关连性的关连性信息,其中所述关连性信息生成单元将所述第一信息的单词、所述第二信息的单词、以及所述第一信息的单词和所述第二信息的单词之间的关连性信息存储到所述第一数据库中。
6.根据权利要求4所述的信息处理装置,进一步包括短语获取单元,从包括多个语句的语句集合获取每个语句中包含的短语; 短语特征值确定单元,确定用于指示由所述短语获取单元获取的每个短语的特征值的短语特征值;集合特征值确定单元,确定用于指示所述语句集合的特征的集合特征值; 压缩短语特征值生成单元,基于所述短语特征值确定单元确定的短语特征值和由所述集合特征值确定单元确定的集合特征值,生成具有比所述短语特征值的维度低的压缩短语特征值;聚类单元,根据特征值之间的相似度对由所述压缩短语特征值生成单元生成的压缩短语特征值进行聚类;以及关连性信息生成单元,使用所述聚类单元的聚类结果来提取所述语句集合中包含的单词之间的关连性,并且生成指示所述第一信息的单词和所述第二信息的单词之间的关连性的关连性信息,其中所述关连性信息生成单元将所述第一信息的单词、所述第二信息的单词、以及所述第一信息的单词和所述第二信息的单词之间的关连性信息存储到所述第一数据库中。
7.一种关连语句提供方法,包括 提供与主要信息关连的关连信息;生成指示所述主要信息和所述关连信息之间的关连性的语句;以及提供所述语句。
8.一种程序,使计算机实现信息提供功能,提供与主要信息关连的关连信息;关连语句生成功能,生成指示所述主要信息和所述关连信息之间的关连性的语句;以及关连语句提供功能,提供由所述关连语句生成功能生成的语句。
全文摘要
本发明涉及信息处理装置、关连语句提供方法和程序。该信息处理装置包括信息提供单元,其提供与主要信息关连的关连信息;关连语句生成单元,其生成指示主要信息和关连信息之间的关连性的语句;以及关连语句提供单元,其提供由关连语句生成单元生成的语句。
文档编号G06F17/30GK102346761SQ20111021100
公开日2012年2月8日 申请日期2011年7月20日 优先权日2010年7月27日
发明者高松慎吾 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1