信息处理设备、信息处理方法及程序的制作方法

文档序号:6358187阅读:124来源:国知局
专利名称:信息处理设备、信息处理方法及程序的制作方法
技术领域
本发明涉及一种信息处理设备、信息处理方法及程序。
背景技术
近年来,在计算机的信息处理能力增强的背景下,在自然语言处理领域中统计地处理文本的语义方面的技术正引起关注。此技术的一个示例是分析文档的内容并将各个文档分类到各种类别的文档分类技术。另一个示例是从所累积的文本的集合中提取有益信息的文本挖掘技术,其中,上述所累积的文本的集合例如是互联网上的网页或从公司的客户发送的问题或意见的历史。通常,即使在表达一个相同的或类似的意思的情况下,在文本中经常使用不同的词或短语。因此,在文本的统计分析中试图通过定义用于表示文本的统计特性的向量空间并在向量空间中对各个文本的特征进行聚类来区分具有相似意思的文本(例如, 参考 Alexander Yates 禾口 Oren Etzioni, "Unsupervised Methods for Determining Object and RelationSynonyms on the Web,,,Journal of Artigicial Intelligence Research(JAIR)34,2009年3月,第255-296页(在下文中,非专利文献1))。作为用于表示文本的统计特性的向量空间,例如经常使用的是通过将在文本中可能出现的词汇表中所包括的单个词布置为向量的单个分量(向量空间的轴)而构成的向量空间。

发明内容
但是,尽管对特征进行聚类的技术至少在例如具有多个句子的文档的分类中是有效的,但是该技术在试图识别短语的等同或同义关系的情况下难以产生显著成果。其主要原因是短语中所包括的词的数量小。例如,对人、内容或产品进行介绍的诸如新闻文章或网页的文档通常包括几十到几百个词。相反地,短语是比一个句子更小的单位,短语通常仅包括几个词。因此,由于甚至文档的特征都趋向于被获取为稀疏向量(其中的大部分分量为零的向量),所以短语的特征将被获取为更稀疏的向量即超稀疏向量。这样的超稀疏向量具有在意思的识别中可作为线索使用的信息很少的方面。这导致例如下面的问题。具体地, 在基于超稀疏向量之间的相似性(余弦距离)的聚类中,根据意思应该属于一个簇的两个或更多个向量未被聚类到一个簇中。例如,存在通过使用诸如奇异值分解(SVD)、关于潜在意义分析的概率潜在语义分析(PLSA)、或潜在狄利克雷分配(LDA)的概率技术将高维的向量压缩成低维的向量的技术。这些概率技术有效地用在对文档的特征的维数的压缩中。但是,如果只是将这些概率技术应用到作为超稀疏向量的短语的特征,数据的有效性丢失,并且在许多情况下获取的仅仅是不适合于诸如聚类的后续阶段处理的输出。针对这种情形,上述的非专利文献1为了获取关于短字符串的特征的有效性,试图通过从网上的文本中集合数量大约为几百万的字符串来保证大规模的数据集合。但是,处理这样的大规模数据集合导致对资源的限制的问题。另外,也存在实质上无法保证大规模的数据集合的许多情形,例如对属于所谓的长尾(long tail)的主题进行处理的情况。例如,为了促进在短语级别识别等同或同义关系,本发明需要提供新颖的、改进的信息处理设备、信息处理方法和程序,其能够在保持或提高特征的有效性的同时压缩短语的特征的维数。根据本发明的一个方式,提供了一种信息处理设备,该信息处理设备包括数据获取器,被配置成获取具有多个句子的句子集合和包括在所述句子集合中的多个短语;短语特征判定器,被配置成判定短语特征,其中每个所述短语特征表示所述数据获取器获取的所述短语中的各个短语的特性。另外,该信息处理设备还包括集合特征判定器,被配置成判定表示所述句子集合的特性的集合特征;以及压缩器,被配置成通过使用所述短语特征和所述集合特征来生成压缩短语特征。压缩短语特征具有低于短语特征的维度的维度以及每个压缩短语特征表示数据获取器获取的短语中的各个短语的特性。根据此配置,信息处理设备通过除使用表示各个短语的特性的短语特征之外,还使用表示作为短语获取来源的句子集合的特性的集合特征,来在补偿特征的少量信息的同时压缩短语特征。短语特征可以是具有分量的向量,其中,该向量的每个分量对应于出现在多个短语中的词中的各个词。集合特征可以是具有分量的矩阵,其中,该矩阵的每个分量对应于出现在句子集合中的词的组合中的各个词的组合;以及短语特征的向量空间的至少一部分与构成集合特征的行向量或列向量的向量空间的一部分相重叠。 压缩器可以通过概率模型中的最大似然估计来计算潜在变量,在该概率模型中, 关于多个短语的短语特征和集合特征被视为观测数据以及潜在变量有助于观测数据的出现;以及压缩短语特征包括在潜在变量中。有助于集合特征的出现的潜在变量和有助于短语特征的出现的潜在变量是至少部分地在概率模型中彼此通用的潜在变量。压缩器可以通过集合特征的矩阵分解来计算具有低于集合特征的阶的阶的第一低阶矩阵,以及通过短语特征矩阵的矩阵分解来计算具有低于短语特征矩阵的阶的阶的第二低阶矩阵,其中,短语特征矩阵包括关于多个短语的短语特征。另外,第二低阶矩阵是通过与具有和第一低阶矩阵的通用部分的矩阵的乘积来近似地导出短语特征矩阵的矩阵,以及压缩短语特征包括在第二低阶矩阵中。第一低阶矩阵和第二低阶矩阵可以分别等同于例如稍后描述的低阶矩阵Mt4和低阶矩阵Mtl。集合特征判定器根据关于词的组合中的每个词的组合在句子集合中共同出现的次数来判定集合特征。集合特征判定器根据词之间的同义关系来判定集合特征。信息处理设备还可包括聚类部件,其被配置成根据特征之间的相似度来执行由压缩器生成的多个压缩短语特征的聚类。聚类部分可将与作为簇的代表的短语对应的标签给予作为聚类结果而生成的至少一个簇中的每个簇。数据获取器可提取均包括在句子集合中的一个句子中的词的对,以及获取多个短语,其中,多个短语中的每个短语表示关于所提取的对中的各个对的词之间的关系。
信息处理设备还可包括聚类部件,其被配置成根据特征之间的相似度来执行由压缩器生成的多个压缩短语特征的聚类;以及摘要器,其被配置成关注包括在句子集合中的特定词,以及通过使用聚类部件关于与关注词有关的短语的聚类结果来创建关于关注词的摘要信息。根据本发明的另一方式,提供了一种通过使用信息处理设备中的处理装置来实现的信息处理方法。该信息处理方法包括以下步骤获取具有多个句子的句子集合和包括在句子集合中的多个短语;以及判定短语特征,其中每个短语特征表示所获取的短语中的各个短语的特性。另外,该信息处理方法还包括以下步骤判定表示所获取的句子集合的特性的集合特征;以及通过使用短语特征和集合特征来生成压缩短语特征。压缩短语特征具有低于短语特征的维度的维度以及每个压缩短语特征表示多个短语当中的各个短语的特性。根据本发明的另一方式,提供了一种用于将控制信息处理设备的计算机用作处理装置的程序,该处理装置包括数据获取器,被配置成获取具有多个句子的句子集合和包括在所述句子集合中的多个短语;短语特征判定器,被配置成判定短语特征,其中每个所述短语特征表示所述数据获取器获取的所述短语中的各个短语的特性。另外,该装置还包括集合特征判定器,被配置成判定表示所述句子集合的特性的集合特征;以及压缩器,被配置成通过使用所述短语特征和所述集合特征来生成压缩短语特征。压缩短语特征具有低于短语特征的维度的维度以及每个压缩短语特征表示数据获取器获取的短语中的各个短语的特性。如上所述,根据本发明的方式的信息处理设备、信息处理方法及程序能够在保持或提高特征的有效性的同时对短语的特征的维度进行压缩。


图1是示出根据本发明的一个实施例的信息处理设备的配置的一个示例的方框图;图2是用于说明根据本实施例的由数据获取器执行的短语获取的第一说明图;图3是用于说明根据本实施例的由数据获取器执行的短语获取的第二说明图;图4是示出根据本实施例的数据获取处理的流程的一个示例的流程图;图5是用于说明根据本实施例的由短语特征判定器执行的短语特征判定的说明图;图6是示出根据本实施例的短语特征判定处理的流程的一个示例的流程图;图7是用于说明根据本实施例的由集合特征判定器执行的集合特征判定的说明图;图8A是示出根据本实施例的集合特征判定处理的流程的第一示例的流程图;图8B是示出根据本实施例的集合特征判定处理的流程的第二示例的流程图;图9A是用于概念地说明根据本实施例的短语特征压缩的第一说明图;图9B是用于概念地说明根据本实施例的短语特征压缩的第二说明图;图10是用于说明根据本实施例的由聚类部件执行的短语聚类的结果的一个示例的说明图;图11是示出根据本实施例的聚类处理的流程的一个示例的流程图12是用于说明根据本实施例的由摘要器创建的摘要信息的一个示例的说明图;图13是示出根据本实施例的摘要信息创建处理的流程的一个示例的流程图;图14是示出根据本实施例的信息处理的整体流程的一个示例的流程图。
具体实施例方式下面将参考附图详细描述本发明的优选实施例。在本说明书和附图中,用相同的附图标记表示具有基本相同功能配置的组成元件,从而省略重复的说明。将以下面的顺序来描述此“具体实施方式
”1.根据一个实施例的信息处理设备的整体配置示例2.各个部件的说明2--1.文档DB
2--2.数据获取器
2--3.短语特征判定器
2--4.集合特征判定器
2--5.特征DB
2--6.压缩器
2--7.压缩特征DB
2--8.聚类部件
2--9.摘要器
2--10.摘要DB3.信息处理的流程4.应用示例5.总结<1.根据一个实施例的信息处理设备的整体配置示例〉图1是示出根据本发明的一个实施例的信息处理设备100的配置的示例的方框图。参考图1,信息处理设备100包括文档数据库(DB) 102、数据获取器110、短语特征判定器120、集合特征判定器130、特征DB140、压缩器150、压缩特征DB160、聚类部件170、摘要器180以及摘要DB190。信息处理设备100可以是任意种类的设备,诸如高性能计算机、个人电脑(PC)、智能电话、数字家庭器具、游戏机或者AV播放器。信息处理设备100的组成元件中,特征DB140、压缩特征DB160以及摘要DB190通常通过使用诸如硬盘或半导体存储器之类的存储介质配置。存储介质可存在于信息处理设备100内或者信息处理设备100夕卜。<2.各个部件的说明>下面将使用图2至图13来描述图1所示的信息处理设备100的各个组成元件。[2-1.文档 DB]文档DB 102是事先存储具有多个句子的句子集合的数据库。文档DB102所存储的句子集合可以是诸如新闻文章、电子词典、或者对人、内容或产品进行介绍的网页之类的文档的集合。或者,文档DB 102所存储的句子集合可以是例如电子邮件、电子公告板上所写的句子、或在网上的表格中输入的某种文本的历史。另外或者,文档DB 102所存储的句子集合可以是例如通过将人的语音变成文本而制作的语料库。文本DB 102响应于来自数据获取器110的请求将存储的句子集合输出到数据获取器110。[2-2.数据获取器]数据获取器110从数据DB 102获取具有多个句子的句子集合。另外,数据获取器 110获取包括在句子集合中的多个短语。具体地,数据获取器110提取两个词均包括在句子集合中的一个句子中的词对(pair ofwords),并获取多个短语,其中每个短语表示在所提取的对中的各个对的词之间的关系。数据获取器110从句子集合中提取的词对可以是任意的词对。作为一个示例,在本实施例的方案中,数据获取器110特别地提取一对专有名词, 并且获取表示专有名词之间的关系的短语。图2和图3是用于说明数据获取器110从句子集合中获取短语的说明图。参考图2,示出了从文档DB 102获取的作为一个示例的句子集合104。句子集合 104具有例如第一个句子SOl和第二个句子S02。数据获取器首先识别包括在句子集合104 中的这种单个的句子,并且指定这样的句子在每个这样的句子中,两个或更多个专有名词出现在所识别的句子当中。通过使用例如公知的命名实体提取技术能够执行专有名词的辨别。例如,图2中的第一个句子SOl包括两个专有名词“杰克逊5”和“CBS唱片”。第二个句子S02包括两个专有名词“杰克逊”和“离开墙”。接下来,数据获取器110对每一个指定句子执行语法分析并且导出语法树。随后,数据获取器110获取这样的短语每个这样的短语在所导出的语法树中链接一对两个专有名词。在图2的示例中,链接第一个句子SOl中的“杰克逊5”和“CBS唱片”的短语是“与签署一个新合约”。链接第二个句子S02中的“杰克逊”和“离开墙”的短语是“创作”。在本说明书中,这样的一对词和对应于该一对词的短语的组称为关系。图3示出了数据获取器110导出的语法树的一个示例。在图3的示例中,数据获取器110分析第三个句子S03的语法从而导出语法树T03。语法树T03具有在两个专有名词“爱丽丝库珀”和“MCA唱片”之间的最短路径“签约”。副词“随后”在两个专有名词之间的最短路径之外。数据获取器110可以基于这样的语法分析的结果来提取满足预定提取条件的词对,并且可以获取仅关于该所提取的对的短语。预定提取条件可以是例如下面的条件El至条件E3。条件El 等同于句子分隔符的节点不存在于专有名词之间的最短路径上。条件E2 专有名词之间的最短路径的长度等于或少于三个节点。条件E3 在句子集合中的专有名词之间的词的数量等于或小于10。条件El中的句子分隔符例如是关系代词和逗号。这些提取条件防止数据获取器 110错误地获取不适合作为表示两个专有名词之间的关系的字符串。可在信息处理设备100之外的外部设备中事先执行从句子集合中提取短语。在这种情况下,数据获取器110在信息处理设备100的信息处理开始时从外部设备中获取事先提取的短语和作为提取源的句子集合。数据获取器110将包括以这种方式获取的多个短语的关系数据112输出到短语特征判定器120。另外,数据获取器110将用作短语获取的基础的句子集合输出到集合特征判定器130。图4是示出根据本实施例的数据获取器110执行的数据获取处理的流程的一个示例的流程图。参考图4,首先,数据获取器110从文档DB 102中获取句子集合(步骤S102)。接下来,数据获取器110指定这样的句子在这样的句子中,两个或更多个词(例如,专有名词)出现在获取的句子集合中所包括的句子当中(步骤S104)。接下来,数据获取器110通过分析所指定的句子的语法来导出各个句子的语法树(步骤S106)。接下来,数据获取器 110从步骤S104中所指定的句子中提取满足预定提取条件(例如,上述条件El至条件E3) 的词对(步骤S108)。接下来,数据获取器110从上述句子中的每个相应句子中获取链接所提取的词对的短语(步骤S110)。随后,数据获取器110将包括多个关系的关系数据112 输出到短语特征判定器120,其中,每个关系等同于词对和相应短语的组。另外,数据获取器 110将用作短语获取的基础的句子集合输出到集合特征判定器130(步骤S112)。[2-3.短语特征判定器]短语特征判定器120判定表示由数据获取器110获取的各个短语的特性的短语特征。在本实施例中,短语特征是向量空间中具有分量的向量,每个分量对应于在多个短语中出现一次或更多次的词中的各个词。具体地,例如,如果300种词出现在100个短语中,则短语特征的维数能够是300维。短语特征判定器120基于多个短语中出现的词的词汇表来确定短语特征的向量空间,然后根据每个词在短语中是否出现判定每个短语的短语特征。例如,在每个短语的短语特征中,短语特征判定器120可以将“1”设置为与在短语中出现的词对应的分量,而将“0”设置为与没有出现的词对应的分量。在短语特征的向量空间的判定中,优选的是,将在表示短语的特性中意义不大的词(例如,冠词、指示词以及关系代词)视为禁用词,并且从分量中排除与禁用词等同的词。 另外,例如,短语特征判定器120可以估计短语中出现的词的TF/IDF(词频/逆向文档频率)分数,并且可以从向量空间的分量中排除具有低分(即具有低重要性)的词。短语特征的向量空间可以不仅具有与多个短语中出现的词对应的分量,而且具有与在多个短语中出现的二元语法词或三元语法词对应的分量。另外,短语特征中可以包括其它参数,例如词性的种类或词的属性。图5是用于说明短语特征判定器120执行的短语特征的判定的说明图。在图5的上部,示出了从数据获取器110输入的关系数据112的一个示例。关系数据112包括三个关系R01、R02和R03。例如,短语特征判定器120从这种关系数据112所包括的短语中提取六个词“签约”、“一个”、“新”、“合约”、“创作”和“签约”。接下来,数据获取器110执行关于这六个词的词干处理(用于读取词干的处理),然后排除禁用词等,从而指定独特的四个词(词干)“签约”、“新”、“合约”和“创作”。另外,短语特征判定器120形成将这些“签约”、“新”、“合约”和“创作”作为分量的短语特征的向量空间。在图5的下部,示出了在将“签约”、“新”、“合约”和“创作”作为分量的向量空间中的短语特征的三个示例。短语FOl对应于关系R01,并且短语FOl的短语特征是(..., “签约”,“新”,“合约”,...,“创作”,...)=(...,1,1,1,. . .,0,...)。短语 F02 对应于关系R02,并且短语F02的短语特征是(…,“签约”,“新”,“合约”,...,“创作”,…)=(···, 0,0,0,· · ·,1,· · ·)。短语F03对应于关系R03,并且短语F03的短语特征是(…,“签约”, “新”,“合约”,...,“创作”,...)=(...,1,0,0,...,0,...)。实践中,将短语特征获取为超稀疏向量,在该超稀疏向量中存在非常大量的分量并且仅为分量中非常小的部分设置除零以外的值。通过将这些短语特征布置在各列(或各行)中而得到的矩阵形成了短语特征矩阵122。图6是示出根据本实施例的短语特征判定器120执行的短语特征判定处理的流程的一个示例的流程图。参考图6,首先,短语特征判定器120提取在从数据获取器110输入的关系数据 112中的短语所包括的词(步骤S202)。接下来,短语特征判定器120对所提取的词执行词干处理以去除由于词的变形导致的词的差异(步骤S204)。接下来,短语特征判定器120 从由词干处理产生的词中排除不必要的词,例如禁用词以及具有低TF/IDF分数的词(步骤 S206)。随后,短语特征判定器120形成与包括剩余词的词汇表相对应的短语特征的向量空间(步骤S208)。接下来,在形成的向量空间中,例如,短语特征判定器120根据词在短语中是否出现判定每个短语的短语特征(步骤S210)。随后,短语特征判定器120将所判定的每个短语的短语特征输出到特征DB 140(步骤S212)。[2-4.集合特征判定器]集合特征判定器130判定表示从数据获取器110输入的句子集合104的特性的集合特征。在本实施例中,集合特征是具有分量的矩阵,每个分量对应于在句子集合104中出现的词的组合中的各个组合。上述的短语特征的向量空间的至少一部分与构成集合特征的行向量或列向量的向量空间的一部分相重叠。例如,集合特征判定器130可以根据关于词的每个组合在句子集合104中共同出现(co-occurrence)的次数来判定集合特征。在这种情况下,集合特征是表示词组合中的每个组合的共同出现的次数的共同出现矩阵。或者,例如,集合特征判定器130可以根据词之间的同义关系来判定集合特征。又或者,集合特征判定器130可以来判定反映词组合中的每个组合的共同出现的次数以及根据同义关系的数值这两者的集合特征。图7是用于说明集合特征判定器130执行的集合特征的判定的说明图。在图7的上部,示出了从数据获取器110输入的句子集合104的一个示例。句子集合104包括两个句子SOl和S02以及多个其它句子。例如,集合特征判定器130提取这种句子集合104中的多个句子中所包括的词。接下来,集合特征判定器130对所提取的词执行词干处理,然后排除禁用词等,从而判定用以形成集合特征的特征空间的词汇表。在该示例中所判定的词汇表中,除出现在短语中的词(例如用作短语特征的向量空间的分量的 “签约”、“新”、“合约”和“创作”)之外,还包括出现在除短语之外的部分中的词,例如“专辑” 和“一起”。在图7的下部,将集合特征132示出为共同出现矩阵,对于该共同出现矩阵,将出现在句子集合104中的词的词汇表分配为行和列两者的分量。例如,在集合特征132中,与 “签约”和“合约”的组合相对应的分量的值是“30”。该值示出了在句子集合104中“签约” 和“合约”的组合在一个句子中的出现次数(包含该组合的句子的数量)为30。相似的,与 “签约”和“同意”的组合相对应的分量的值为“ 10”。与“签约”和“出生”的组合相对应的分量的值为“0”。这些值示出了在句子集合104中这些词组合共同出现的次数分别为10和 O0例如,在根据词之间的同义关系来判定集合特征的情况下,集合特征判定器130可以以这样的方式来判定集合特征将“1”设置为与在事先准备的同义词词典中的同义关系(包括等同关系)中的词的组合对应的分量,而将“0”设置为其它分量。或者,集合特征判定器130可通过使用预定因子来执行关于各个词组合的共同出现的次数与根据同义词词典所给定的上述值的加权加法。图8A是示出根据本实施例的集合特征判定器130执行的集合特征判定处理的流程的第一示例的流程图。参考图8A,首先,集合特征判定器130提取从数据获取器110输入的句子集合104 中所包括的词(步骤S302)。接下来,集合特征判定器130对所提取的词执行词干处理以去除由于词的变形导致的词的差异(步骤S304)。接下来,集合特征判定器130从由词干处理产生的词中排除不必要的词,例如禁用词和具有低TF/IDF分数的词(步骤S306)。随后,集合特征判定器130形成与包括剩余词的词汇表相对应的集合特征的特征空间(矩阵空间)(步骤S308)。接下来,集合特征判定器130对关于与所形成的特征空间的各个分量对应的每个组合在句子集合104中共同出现的次数进行计数(步骤S310)。随后,集合特征判定器130 将作为计数结果的共同出现矩阵作为集合特征输出到特征DB 140(步骤S312)。图8B是示出根据本实施例的集合特征判定器130执行的集合特征判定处理的流程的第二示例的流程图。参考图8B,首先,集合特征判定器130提取从数据获取器110输入的句子集合104 中所包括的词(步骤S352)。接下来,集合特征判定器130对所提取的词执行词干处理以去除由于词的变形导致的词的差异(步骤S3M)。接下来,集合特征判定器130从由词干处理产生的词中排除不必要的词,例如禁用词和具有低TF/IDF分数的词(步骤S356)。随后,随后,集合特征判定器130形成与包括剩余词的词汇表相对应的集合特征的特征空间(矩阵空间)(步骤S358)。迄今所执行的处理与图8A中步骤S302至步骤S308的处理相同。接下来,集合特征判定器130获取同义词词典(步骤S360)。接下来,集合特征判定器130将数值给予与所获取的同义词词典中的同义关系中的词的组合相对应的矩阵分量(步骤S362)。随后,集合特征判定器130将通过把数值给予各分量所得到的特征矩阵作为集合特征输出到特征DB140(步骤S364)。[2-5.特征 DB]特征DB 140通过使用存储介质存储由短语特征判定器120判定的短语特征以及由集合特征判定器130判定的集合特征。另外,特征DB 140响应于来自压缩器150的请求将存储的短语特征和集合特征输出到压缩器150。[2-6.压缩器]压缩器150通过使用从特征DB 140输入的短语特征和集合特征来生成压缩短语特征,该压缩短语特征具有比上述短语特征的维数低的维数并且表示由数据获取器110获取的各个短语的特性。如使用图5所描述的那样,由短语特征判定器120判定的短语特征是超稀疏向量。 所以,即使当仅仅将基于公知的概率技术的向量压缩技术应用到短语特征时,数据的有效性由于压缩而趋向于丢失。因此,根据本实施例的压缩器150除了将上述集合特征视为短语特征之外还将其视为观测数据,从而通过使用具有对特征的很少的信息进行补偿的概率技术来压缩短语特征。这允许不仅通过短语的独立统计特性来有效训练压缩数据,而且通过短语所属于的句子集合的统计特性来有效训练压缩数据。在压缩器150采用的概率模型中,将关于多个短语的短语特征和集合特征视为观测数据和有助于该观测数据的出现的潜在变量。另外,在压缩器150采用的概率模型中,有助于集合特征的出现的潜在变量和有助于关于多个短语的短语特征的出现的潜在变量是至少部分地彼此通用的变量。用例如下面的等式(1)来表示这样的概率模型。[表达式1]
权利要求
1.一种信息处理设备,包括数据获取器,被配置成获取具有多个句子的句子集合以及包括在所述句子集合中的多个短语;短语特征判定器,被配置成判定短语特征,其中每个所述短语特征表示所述数据获取器获取的所述短语中的各个短语的特性;集合特征判定器,被配置成判定表示所述句子集合的特性的集合特征;以及压缩器,被配置成通过使用所述短语特征和所述集合特征来生成压缩短语特征,所述压缩短语特征具有低于所述短语特征的维度的维度以及每个所述压缩短语特征表示所述数据获取器获取的所述短语中的各个短语的特性。
2.根据权利要求1所述的信息处理设备,其中,所述短语特征是具有分量的向量,其中,所述向量的每个分量对应于出现在所述多个短语中的词中的各个词。
3.根据权利要求2所述的信息处理设备,其中,所述集合特征是具有分量的矩阵,其中,所述矩阵的每个分量对应于出现在所述句子集合中的词的组合中的各个词的组合;以及所述短语特征的向量空间的至少一部分与构成所述集合特征的行向量或列向量的向量空间的一部分相重叠。
4.根据权利要求3所述的信息处理设备,其中,所述压缩器通过概率模型中的最大似然估计来计算潜在变量,在所述概率模型中,关于所述多个短语的所述短语特征和所述集合特征被视为观测数据,以及所述潜在变量有助于所述观测数据的出现;以及所述压缩短语特征包括在所述潜在变量中。
5.根据权利要求4所述的信息处理设备,其中,有助于所述集合特征的出现的潜在变量以及有助于所述短语特征的出现的潜在变量是至少部分地在所述概率模型中彼此通用的变量。
6.根据权利要求3所述的信息处理设备,其中,所述压缩器通过所述集合特征的矩阵分解来计算具有低于所述集合特征的阶的阶的第一低阶矩阵,以及通过短语特征矩阵的矩阵分解来计算具有低于所述短语特征矩阵的阶的阶的第二低阶矩阵,其中,所述短语特征矩阵包括关于所述多个短语的所述短语特征;所述第二低阶矩阵是通过与具有和所述第一低阶矩阵的通用部分的矩阵的乘积来近似地导出所述短语特征矩阵的矩阵;以及所述压缩短语特征包括在所述第二低阶矩阵中。
7.根据权利要求3所述的信息处理设备,其中,所述集合特征判定器根据关于所述词的所述组合中的每个组合在所述句子集合中共同出现的次数来判定所述集合特征。
8.根据权利要求3所述的信息处理设备,其中,所述集合特征判定器根据词之间的同义关系来判定所述集合特征。
9.根据权利要求1所述的信息处理设备,还包括聚类部件,被配置成根据特征之间的相似度来执行由所述压缩器生成的多个压缩短语特征的聚类。
10.根据权利要求9所述的信息处理设备,其中,所述聚类部件将与作为所述簇的代表的短语对应的标签给予作为聚类结果而生成的至少一个簇中的每个簇。
11.根据权利要求1所述的信息处理设备,其中,所述数据获取器提取均包括在所述句子集合中的一个句子中的词的对,以及获取所述多个短语,其中,所述多个短语中的每个短语表示关于所提取的对中的各个对的所述词之间的关系。
12.根据权利要求11所述的信息处理设备,还包括聚类部件,被配置成根据特征之间的相似度来执行由所述压缩器生成的多个压缩短语特征的聚类;以及摘要器,被配置成关注包括在所述句子集合中的特定词,以及通过使用所述聚类部件关于与关注词有关的短语的聚类结果来创建关于所述关注词的摘要信息。
13.—种通过使用信息处理设备中的处理装置实现的信息处理方法,所述信息处理方法包括以下步骤获取具有多个句子的句子集合和包括在所述句子集合中的多个短语;判定短语特征,其中每个所述短语特征表示所获取的短语中的各个短语的特性;判定表示所获取的句子集合的特性的集合特征;以及通过使用所述短语特征和所述集合特征来生成压缩短语特征,所述压缩短语特征具有低于所述短语特征的维度的维度以及每个所述压缩短语特征表示所述多个短语当中的短语中的各个短语的特性。
14.一种用于将控制信息处理设备的计算机用作处理装置的程序,所述处理装置包括数据获取器,被配置成获取具有多个句子的句子集合以及包括在所述句子集合中的多个短语;短语特征判定器,被配置成判定短语特征,其中每个所述短语特征表示所述数据获取器获取的所述短语中的各个短语的特性;集合特征判定器,被配置成判定表示所述句子集合的特性的集合特征;以及压缩器,被配置成通过使用所述短语特征和所述集合特征来生成压缩短语特征,所述压缩短语特征具有低于所述短语特征的维度的维度以及每个所述压缩短语特征表示所述数据获取器获取的所述短语中的各个短语的特性。
15.一种信息处理设备,包括数据获取装置,用于获取具有多个句子的句子集合以及包括在所述句子集合中的多个短语;短语特征判定装置,用于判定短语特征,其中每个所述短语特征表示所述数据获取装置获取的所述短语中的各个短语的特性;集合特征判定装置,用于判定表示所述句子集合的特性的集合特征;以及压缩装置,用于通过使用所述短语特征和所述集合特征来生成压缩短语特征,所述压缩短语特征具有低于所述短语特征的维度的维度以及每个所述压缩短语特征表示所述数据获取装置获取的所述短语中的各个短语的特性。
全文摘要
本发明公开了一种信息处理设备、信息处理方法及程序。该信息处理设备包括数据获取器,被配置成获取具有多个句子的句子集合和包括在句子集合中的多个短语;短语特征判定器,被配置成判定短语特征,其中每个短语特征表示数据获取器获取的短语中的各个短语的特性;集合特征判定器,被配置成判定表示句子集合的特性的集合特征;以及压缩器,被配置成通过使用短语特征和集合特征来生成压缩短语特征,压缩短语特征具有低于短语特征的维度的维度以及每个压缩短语特征表示数据获取器获取的短语中的各个短语的特性。
文档编号G06F17/30GK102236692SQ20111009634
公开日2011年11月9日 申请日期2011年4月14日 优先权日2010年4月21日
发明者高松慎吾 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1