信息处理设备、信息处理方法以及程序的制作方法

文档序号:6334969阅读:104来源:国知局
专利名称:信息处理设备、信息处理方法以及程序的制作方法
技术领域
本发明涉及一种信息处理设备、信息处理方法以及程序。特别地,本发明涉及使得 能够提取对用户来说具有高兴趣度的语句的信息处理设备、信息处理方法以及程序。
背景技术
因特网的普及使得用户能够容易地获得庞大量的文档。然而,用户不容易从这样 庞大量的文档当中找到单个文档。这里,术语“文档”意味着一个或多个语句的集合。因此,使用了用于搜索文档的各种方法。例如,作为用于搜索文档的典型方法,以 下方法是普遍的。即,因特网上的网站的搜索引擎搜索包含输入的查询词的网页,并且显示 该网页。然而,如果输入普通的词或短语作为查询词,那么作为搜索结果被显示的文档的数 量远远超过用户可以找到期望文档的范围。因此,日本未审查的专利申请公布第2008-077252号公开了以下方法作为用于通 过进一步细化(refine)文档来搜索文档的方法。即,使用与文档的主题的量或密度相关的 基准对文档进行排序,并且将按照预定排序的文档显示为搜索结果。该方法被称为文档排 序方法。使用该文档排序方法,将作为搜索结果被显示的文档的数量减少到用户在其内可 以找到期望文档的范围的某种程度。

发明内容
然而,用户最终预期的搜索结果经常是语句级的结果,而不是文档级的结果。此 外,近年来,用户期望更引起兴趣的语句,因此要求呈现令人感兴趣的语句作为搜索结果。在文档排序方法中,不满足这样的要求。即,在文档排序方法中,使用文档的主题 的量或密度作为评价标准来对文档进行排序,因此,不确定构成文档的语句的普通度或兴 趣度。因此,如果使用文档排序方法,那么搜索令人感兴趣的语句是非常困难的。同时,在信息搜索领域中,词频-逆文档频率(TF-IDF)被广泛地用作用于从文档 群提取特征词的方法。可通过将TF-IDF应用到文档排序方法来搜索语句。然而,即使在该 情况下,也难以充分地满足将令人感兴趣的语句呈现为搜索结果的要求。即,IDF值可以是 词的普通性/稀有性(rarity)的指标,但是针对整个文档群而被算出。因此,即使词是稀 有词,使用TF-IDF提取出的词也未必是令人感兴趣的词。因此,即使仅仅将包含稀有词的 语句作为搜索结果呈现给用户,该语句也未必是用户感兴趣的。因此,期望使得能够提取对用户来说具有高兴趣度的语句。根据本发明的实施例的信息处理设备包括以下元件类别分类装置,其用于将文 档分类成多个类别当中的一个或多个类别;词提取装置,其用于从文档提取一个或多个词; 词得分计算装置,其用于基于词在类别分类装置将文档分类成的一个或多个类别的每个中 的出现频率,计算词提取装置从文档提取出的一个或多个词的每个的词得分,其中词得分 用作词的兴趣性的指标;运算用语句提取装置,其用于从文档提取一个或多个语句;以及 语句得分计算装置,其用于基于词得分计算装置计算出的词得分,计算运算用语句提取装置提取出的一个或多个语句的每个的语句得分,其中语句得分用作语句的兴趣性的指标。[oo10] 类别分类装置可包括获得装置,其用于获得包含能够指定多个类别的任意的多个关键词的列表,以及分类装置,其用于在文档包含与包含在列表中的多个关键词的任意匹配的词的情况下,将文档分类成由与该词匹配的关键词指定的类别。[oo11] 信息处理设备还可包括语句得分列表生成装置,其用于针对文档生成语句得分计算装置计算出的一个或多个语句得分的列表。[oo12] 信息处理设备还可包括要呈现语句提取装置,其用于在文档的普通度高的情况下,从文档提取具有包含在语句得分列表生成装置生成的列表中的一个或多个语句得分中的N个最高得分的一个或多个语句,其中N是一或更大的整数值,并且如果文档的普通度低,那么从文档提取具有包含在列表中的一个或多个语句得分中的M个最低得分的一个或多个语句,其中M是一或更大的整数值,以及呈现装置,其用于呈现要呈现语句提取装置提取出的一个或多个语句。[oo13] 要呈现语句提取装置可基于要由呈现装置执行的呈现的条件,确定N或M的值。[oo14] 根据本发明的实施例的信息处理方法和程序是与前述信息处理设备对应的方法和程序。[oo15] 在根据本发明的实施例的信息处理设备1信息处理方法以及程序中,文档被分类成多个类别当中的一个或多个类别,并且从文档提取一个或多个词。基于词在文档被分类成的一个或多个类别的每个中的出现频率,针对从文档提取的一个或多个词的每个计算用作词的兴趣性指标的词得分。从文档提取一个或多个语句,并且基于词得分,针对提取出的一个或多个语句的每个计算用作语句的兴趣性指标的语句得分。[oo16] 根据本发明的实施例,可以提取对用户来说具有高兴趣度的语句。


[oo17] 图l是示出根据本发明的实施例的语句提取系统的配置的框图;[oo18] 图2是示出移动终端的功能配置的示例的框图;[oo19] 图3是示出服务器的硬件配置的示例的框图;[-0020] 图4是示出CPU(中央处理单元)的功能配置的示例的框图;[-0021] 图5是示出类别分类单元的功能配置的示例的框图;[-0022] 图6是示出要呈现语句提取单元的功能配置的示例的框图;[-0023] 图7是示出语句得分计算处理的示例的流程图;[-0024] 图8A到8C是示出文档的具体示例的图;[-0025] 图9是示出类别分类处理的示例的流程图;[-0026] 图loA到loD是示出类别分类处理的结果的图;[-0027] 图11A到11C是示出类别分类处理的另一结果的图;[-0028] 图12是示出隐马尔可夫模型的概率模型的示例的图;[-0029] 图13A到13C是示出词提取处理的结果的图;[-0030] 图14是示出被分类成类别的文档的数量的示例的图;[-0031] 图15是示出词得分计算处理的结果的图;[-0032] 图16是示出语句得分的列表的图17是示出语句提取处理的示例的流程图;图18是示出可显示语句提取处理的示例的流程图;以及图19是示出移动终端的显示示例的图。
具体实施例方式在下文中,将参照附图描述本发明的实施例。根据实施例的语句提取系统的配置的示例图1是示出根据本发明的实施例的语句提取系统的配置的示例的框图。在图1中示出的语句提取系统1包括移动终端12和服务器13,其经由网络11相 互连接。用作信息处理设备的服务器13向连接到网络11的其它设备提供各种服务。移动终端12是用户便携的移动电话等,并且通过经由网络11与服务器13通信来 从服务器13接收服务。在该实施例中,因特网用作网络11。然而,网络11不限于因特网,并且可具有诸如 局域网(LAN)的其它各种形式,并可包括这些形式作为部分。移动终端12的配置的示例图2是示出在图1示出的语句提取系统1中的移动终端12的功能配置的示例的 框图。在图2中示出的移动终端12包括输入单元31、通信单元32以及显示单元33。输入单元31包括按钮和滚轮,并且由用户操作以输入字符串,诸如预定关键词或 统一资源定位符(URL)。通信单元32控制经由网络11与服务器13进行的通信。例如,通信单元32将输 入到输入单元31的字符串经由网络11传送到服务器13。另外,当从服务器13提供服务 时,通信单元32经由网络11接收从服务器13传送的诸如语句和图像的信息。显示单元33显示通信单元32接收到的信息,诸如语句和图像。服务器13的配置 的示例图3是示出在图1示出的语句提取系统1中的服务器13的硬件配置的示例的框 图。在图3示出的服务器13中,中央处理单元(CPU)51根据存储在只读存储器 (ROM) 52中的程序或从存储单元58加载到随机存取存储器(RAM) 53的程序,执行各种处理。 另外,CPU 51执行各种处理必要的数据等必要时存储在RAM 53中。在该实施例中,例如,用于执行在图4(下面描述)中示出的文档获得单元81到要 呈现语句提取单元88的各个功能的程序存储在ROM 52或存储单元58中。因此,当CPU 51 根据程序执行处理时,可实现文档获得单元81到要呈现语句提取单元88的各个功能。CPU 51、ROM 52以及RAM 53经由总线M相互连接。输入/输出接口 55也连接 到总线54。输入/输出接口 55还连接到包括键盘和鼠标的输入单元56和包括显示器等的输 出单元57。输入/输出接口 55还连接到包括硬盘的存储单元58和包括调制解调器及终端 适配器的通信单元59。
存储单元58存储多类文档群。一个文档群由从网络11上的各种设备(未示出) 获得的各种文档当中的包含预定类型内容的一个或多个文档构成。例如,由包含关于名人 的信息的一个或多个文档构成的文档群存储在存储单元58中。一个文档是一个或多个语 句的集合。另外,关键词的列表存储在存储单元58中。在下面将参照图9描述的文档的类别 分类处理中使用关键词的列表。此外,语句得分的列表(下面描述)存储在存储单元58中。用作呈现装置的通信单元59控制经由网络11与移动终端12进行的通信。另外,输入/输出接口 55必要时连接到驱动器60,并且诸如磁盘、光盘、磁光盘或 半导体存储器的可拆卸介质61被装载到驱动器60中。然后,从其读出的计算机程序必要 时被安装到存储单元58中。CPU 51的配置的示例图4是示出在图3中示出的服务器13的CPU 51的功能配置的示例的框图。在图4中示出的CPU 51包括文档获得单元81、类别分类单元82、词提取单元83、 词得分计算单元84、运算得分用语句提取单元85、语句得分计算单元86、语句得分列表生 成单元87以及要呈现语句提取单元88。文档获得单元81控制通信单元59,以从连接到网络11的各种设备(未示出)接 收诸如网页的多个文档,由此共同获得作为文档群的多个文档。获得的文档群存储在存储 单元58中。类别分类单元82将包含在文档获得单元81获得的文档群中的多个文档的每个分 类成多个类别当中的一个或多个类别。文档获得单元81从文档群选择类别分类单元82已分类的文档之一作为处理对象。词提取单元83提取包含在作为文档获得单元81选择的处理对象的文档中的多个 词。词得分计算单元84计算词提取单元83提取出的各个词的词得分。词得分是用作 词的普通性或稀有性的指标的值。下面将关于图7中的步骤S5描述词得分的细节。用作运算用语句提取装置的运算得分用语句提取单元85提取包含在作为文档获 得单元81选择的处理对象的文档中的一个或多个语句。语句得分计算单元86计算运算得分用语句提取单元85提取出的一个或多个语句 的各个的语句得分。语句得分是用作语句的普通性或稀有性的指标的值。下面将关于图7 中的步骤S7描述语句得分的细节。语句得分列表生成单元87生成语句得分计算单元86针对包含在作为处理对象的 文档中一个或多个语句的各个而计算出的语句得分的列表。要呈现语句提取单元88从文档群提取如下文档其中,语句得分的列表已经由语 句得分列表生成单元87生成。此外,要呈现语句提取单元88从提取出的文档提取要呈现 给用户的语句。例如,要呈现语句提取单元88通过使用语句得分的列表来提取具有高稀有 度或普通度的语句。下面将参照图17描述用于通过要呈现语句提取单元88提取语句的方 法的具体示例。类别分类单元82的配置的示例
图5是示出在图4中示出的类别分类单元82的具体功能配置的示例的框图。在图5中示出的类别分类单元82包括获得单元101、选择单元102、分类单元103 以及确定单元104。获得单元101获得存储在存储单元58中的关键词的列表。关键词的列表是包含 预先被分类成预定类别的一个或多个关键词的列表。在下面将参照图9描述的文档的类别 分类处理中使用关键词的列表。选择单元102选择包含在文档获得单元81获得的文档群中的一个文档作为处理 对象。分类单元103通过使用获得单元101获得的关键词的列表,将选择单元102选择 的作为处理对象的文档分类成多个类别当中的一个或多个类别。这里,注意,一个文档可被 分类成多个类别以及分类成一个类别。确定单元104确定包含在文档群中的全部文档是否已被分类。如果确定单元104 确定存在没有被分类的文档,那么选择单元102选择该文档作为处理对象,并且分类单元 103对该文档执行类别分类处理。要呈现语句提取单元88的配置的示例图6是示出在图4中示出的要呈现语句提取单元88的功能配置的示例的框图。在图6中示出的要呈现语句提取单元88包括搜索单元121、提取单元122、评价单 元123、存储控制单元124以及选择单元125。在该实施例中,在文档群和语句得分列表生成单元87针对各个文档生成的语句 得分的列表存储在存储单元58中的状态下,用户操作移动终端12以提供从文档群搜索文 档的指示。在该情况下,搜索单元121响应于从移动终端12提供的指示,从文档群搜索预定 文档。用作要呈现语句提取装置的提取单元122从存储单元58提取搜索单元121搜索 到的文档和相应的语句得分列表。评价单元123评价提取单元122提取出的文档的普通度。评价普通度等效于评价 稀有度。替选地,评价单元123可评价与提取单元122提取出的文档相关的演出者的受欢 迎度。评价受欢迎度等效于评价知名度。此外,评价单元123基于提取单元122提取出的 语句得分的列表,评价包含在提取单元122提取出的文档中的语句。下面将参照图17和18 描述评价单元123执行的评价方法的具体示例。提取单元122基于评价单元123做出的评价,从先前提取出的文档提取要呈现给 用户的一个或多个语句。存储控制单元IM将提取单元122提取出的语句存储在存储单元58中,其中该语 句是要在移动终端12上显示的候选。注意,候选可以是一个语句或多个语句。选择单元125从存储控制单元IM存储的候选语句选择满足移动终端12的显示 区的条件的一个或多个语句,并且经由通信单元59将所选择的语句呈现在移动终端12上。语句得分计算处理在根据本发明的实施例的语句提取系统1中,执行语句得分计算处理。在该处理 中,服务器13计算包含在文档中的各个语句的语句得分,并且生成语句得分的列表。对构成存储在存储单元58中的文档群的各个文档重复执行语句得分计算处理。然后,如下面参 照图17等描述的那样,通过使用存储在存储单元58中的语句得分的列表,执行向用户呈现 具有高兴趣度的语句的处理。即,执行语句得分计算处理作为用于呈现给用户具有高兴趣 度的语句的预处理。图7是示出服务器13执行的语句得分计算处理的示例的流程图。在步骤Sl中,文档获得单元81获得文档群。即,文档获得单元81控制通信单元 59,以从连接到网络11的各种设备(未示出)接收诸如网页的多个文档,由此共同获得作 为文档群的多个文档。获得的文档群存储在存储单元58中。现在,将参照图8A到8C描述包含在文档群中的文档的具体示例。图8A到8C是示出文档的具体示例的图。图8A、8B以及8C分别示出了包含在与名人有关的文档群中的文档X、Y以及Z。在作为英语文档的文档X、Y以及Z中,使用句号来分隔语句。在图8A中示出的文档X具有以下内容“歌手χ在2000年毕业于AA高中。她通 过B演出的“CC”而作为歌手初次登场。在2002年,她在RW音乐节首次出场,并且演唱了 “DD”。在2003年,她举行EE聚会以纪念她的写真集的发行。在2005年,她担当FF集团的 形象大使。”在图8B中示出的文档Y具有以下内容“演员y是来自东京的日本女演员。她的 父亲是GG,他是日本国家足球队的成员。在2001年,她毕业于HH音乐大学,并且作为演员 初次登场。在2004年,她获得日本电影金像奖(Japan Academy Awards)新人女演员奖。在 2005年,她扮演电影II中的女主人公JJ,并且引起轰动。她还作为钢琴家而著名,并且在 2006年音乐会中演奏了 KK协奏曲。”在图8C中示出的文档Z具有以下内容“运动员ζ来自北海道并且属于LL队。在 2001年,他被首次选为日本国家队的成员,并且此后延续他的连续出场记录。在2003年,他 作为歌手初次登场。在2004年,他出现在三个TV(电视)商业节目中。”在步骤S2中,类别分类单元82执行类别分类处理。现在,将描述类别分类处理的具体示例。图9是示出类别分类单元82执行的类别分类处理的示例的流程图。在步骤S31中,获得单元101获得关键词的列表。这里,关键词的列表是包含被预 先分类成预定类别的一个或多个关键词的列表。例如,属于类别“歌手”的关键词的列表是 包含被预先分类成类别“歌手”的、诸如“唱片集”和“RW音乐节”的关键词的列表。对于每 个类别获得这样的关键词的列表。例如,在该实施例中,获得属于如下四个类别的关键词的 列表(未示出)“歌手”;“钢琴家”;“男演员/女演员”;以及“运动员”。在步骤S32中,选择单元102选择作为处理对象的文档。即,选择单元102从在图 7的步骤Sl中获得的文档群选择一个文档作为处理对象。在步骤S33中,分类单元103将作为处理对象的文档分类成与关键词对应的类别。 即,分类单元103从关键词的列表搜索与包含在作为处理对象的文档中的词匹配的关键 词。如果找到与词匹配的关键词,那么将作为处理对象的文档分类成包含该关键词的列表 所属的类别。在步骤S34中,确定单元104确定全部文档是否被选择作为处理对象。
如果在步骤S34中确定没有将全部文档选择作为处理对象,那么从步骤S32重复 处理。即,将包含在步骤Sl获得的文档群中的文档相继选择作为处理对象,并且在重复的 从步骤S32到步骤S34的循环处理中对其进行分类。当对最后的文档执行的步骤S33结束 时,包含在步骤Sl获得的文档群中的全部文档的类别分类结束。然后,在步骤S34中确定 全部文档被选择作为处理对象,并且类别分类处理结束。在类别分类处理的前述示例中,采用了基于集合智慧、通过使用人为关键词来将 文档分类成类别的方法。然而,类别分类方法不特别限于前述示例,并且也可采用基于机器 学习的类别分类方法。例如,可使用应用贝叶斯定理的朴素贝叶斯分类器作为基于机器学习的类别分类 方法。朴素贝叶斯分类器计算包含在文档D中的“每个词”属于类别C的概率。另外,朴素 贝叶斯分类器合计每个词属于类别C的概率并且计算“文档D”属于类别C的概率。S卩,使 用以下表达式(1)计算文档D属于类别c的概率Ρ(c|D)。P(C|D) = (P(C)/P(D))*P(D|C)...(1)在该实施例中,作为前述类别分类处理的结果,以在图IOA到IlC中示出的方式将 文档X、Y以及Z分类成类别。图IOA到IOD是示出类别分类处理的结果和从类别的观点查看的结果的图。在图IOA到IOD中,包含在与名人相关的文档群中的文档X、Y以及Z被分类成如 下四个类别当中的一个或多个类别“歌手”;“钢琴家”;“男演员/女演员”;以及“运动员”。如图IOA所示,文档X和Z属于类别“歌手”。如图IOB所示,文档Y属于类别“钢琴家”。如图IOC所示,文档Y属于类别“男演员/女演员”。如图IOD所示,文档Z属于类别“运动员”。图IlA到IlC是示出类别分类处理的结果和从文档的观点查看的结果的图。如图IlA所示,表示文档所属的类别的标签(即,表示类别“歌手”的标签)被附 于文档X。如图IlB所示,表示文档所属的类别的标签(即,表示类别“男演员/女演员”和 “钢琴家”的标签)被附于文档Y。如图IlC所示,表示文档所属的类别的标签(即,表示类别“运动员”和“歌手”的 标签)被附于文档Z。如图IOA到IlC所示,文档Y被分类成两个类别“男演员/女演员,,和“钢琴家”。 文档Z被分类成两个类别“运动员”和“歌手”。以该方式,一个文档可被分类成多个类别。回头参照图7中的流程图,在结束了步骤S2中的前述类别分类处理之后,文档获 得单元81在步骤S3中选择作为处理对象的文档。即,文档获得单元81选择已被分类成类 别的文档之一作为处理对象。在步骤S4中,词提取单元83从作为处理对象的文档提取词。现在,将描述从作为处理对象的文档提取词的处理(在下文中,被称为词提取处 理)的具体示例。作为用于词提取处理的方法,可采用用于对整个文档执行词法分析并且以词性 (part of speech)水平提取词的方法。隐马尔可夫模型是在日语、英语等的词法分析中广泛使用的统计方法的示例。隐马尔可夫模型是如下方法其用于列举可以从输入语句生成 的全部词序列,为词连结时出现的概率打分,并且提取语句中具有最高得分的词性序列。由 于为各个语言提供了各种词法分析系统,因此该方法不取决于使用的语言。图12是示出隐马尔可夫模型的概率模型的示例的图。参照图12,当输入语句时,状态Ml的符号被给予初始状态“开始”。以圆节点示出 可以从输入语句生成的各个词序列,并且状态M2到状态M6的符号被给予各个节点。在状 态Ml到状态M6当中,由从第一状态延展到第二状态的箭头表示从第一状态到第二状态的 转移,并且箭头中的值表示从第一状态到第二状态的转移发生的概率。即,箭头中的值表示 第一状态中示出的词序列与第二状态中示出的词序列在连结时出现的概率。具体地,从状态Ml中的“开始”到状态M2中的“因为是晴朗的”的转移发生的概 率是0. 6,并且从状态Ml到状态M3中的“因为是下雨的”的转移发生的概率是0. 4。S卩,关 于状态M2中的词序列“因为是晴朗的”和状态M3中的词序列“因为是下雨的”与初始状态 连结出现的概率,状态M2中的词序列“因为是晴朗的”具有高于状态M3中的词序列“因为 是下雨的”的概率。从状态M2中的“因为是晴朗的”到状态M4中的“所以我去散步”的转移发生的概 率、从状态M2到状态M5中的“所以我去购物”的转移发生的概率、以及从状态M2到状态M6 中的“所以我睡觉”的转移发生的概率分别是0. 5、0. 4以及0. 1。即,如果输入状态M2中 的词序列“因为是晴朗的”,那么状态M4中的词序列“所以我去散步”或状态M5中的词序 列“所以我去购物”连结出现的概率很高。相反,如果输入状态M2中的词序列“因为是晴朗 的”,那么状态M6中的词序列“所以我睡觉”连结出现的概率很低。因此,在图12示出的示 例中,状态M4中的词序列“所以我去散步”与状态M2中的词序列“因为是晴朗的”连结出 现的概率和状态M5中的词序列“所以我去购物”与状态M2中的词序列“因为是晴朗的”连 结出现的概率很高,分别是0. 5和0. 4。相反,状态M6中的词序列“所以我睡觉”与状态M2 中的词序列“因为是晴朗的”连结出现的概率很低,是0. 1。同样地,从状态M3中的“因为是下雨的”到状态M4中的“所以我去散步”的转移 发生的概率、从状态M3到状态M5中的“所以我去购物”的转移发生的概率、以及从状态M3 到状态M6中的“所以我睡觉”的转移发生的概率分别是0. 1、0.6以及0.3。即,如果输入状 态M3中的词序列“因为是下雨的”,那么状态M5中的词序列“所以我去购物”或状态M6中 的词序列“所以我睡觉”连结出现的概率很高。相反,如果输入状态M3中的词序列“因为是 下雨的”,那么状态M4中的词序列“所以我去散步”连结出现的概率很低。因此,在图12示 出的示例中,状态M5中的词序列“所以我去购物”与状态M3中的词序列“因为是下雨的”连 结出现的概率和状态M6中的词序列“所以我睡觉”与状态M3中词序列“因为是下雨的”连 结出现的概率很高,分别是0. 6和0. 3。相反,状态M4中的词序列“所以我去散步”与状态 M3中的词序列“因为是下雨的”连结出现的概率很低,是0. 1。作为使用在图12中示出的隐马尔可夫概率模型的结果,通过状态M2中的“因为是 晴朗的”与状态M4中的“所以我去散步”的连结生成的整个语句“因为是晴朗的,所以我去 散步。”的得分是0.6X0. 5 = 0.3。通过状态M2中的“因为是晴朗的”与状态M5中的“所 以我去购物”的连结生成的整个语句“因为是晴朗的,所以我去购物。”的得分是0. 6X0. 4 =0. 24。通过状态M2中的“因为是晴朗的”与状态M6中的“所以我睡觉”的连结生成的整个语句“因为是晴朗的,所以我睡觉。”的得分是0.6X0. 1 =0.06。因此,从这三个语句当 中选择具有最高得分的语句“因为是晴朗的,所以我去散步。”,并且提取包含在该语句中的 词性序列“因为是晴朗的”和“所以我去散步”。同样地,通过状态M3中的“因为是下雨的”与状态M4中的“所以我去散步”的连结 生成的整个语句“因为是下雨的,所以我去散步。”的得分是0.4X0. 1=0. 04。通过状态M3 中的“因为是下雨的”与状态M5中的“所以我去购物”的连结生成的整个语句“因为是下雨 的,所以我去购物。”的得分是0. 4X0.6 = 0. M。通过状态M3中的“因为是下雨的”与状 态M6中的“所以我睡觉”的连结生成的整个语句“因为是下雨的,所以我睡觉。”的得分是 0. 4X0. 3 = 0. 12。因此,从这三个语句当中选择具有最高得分的语句“因为是下雨的,所以 我去购物。”,并且提取包含在该语句中的词性序列“因为是下雨的”和“所以我去购物”。在该实施例中,如在上述隐马尔可夫模型中那样,采用用于对整个文档执行词法 分析并以词性为单位提取词的方法,作为用于在前述词提取处理中提取词的方法。然而,用 于提取词的方法不特别限于根据该实施例的示例。例如,利用对超级链接的限制,可采用用 于仅提取链接被设置的词的方法。如果采用该方法,那么可使用链接被设置到特征词的、诸 如“维基百科(Wikipedia),,的自由百科全书的方法。在任何词提取方法中,要通过词提取处理而提取的词可覆盖文档中的全部词或满 足预定标准的多个词。作为前述词提取处理的结果,在本实施例中,如图13A到13C所示,从文档X、Y以 及Z提取词。图13A到13C是示出词提取处理的结果的图。如图13A所示,从文档X提取词“毕业”、“演出”、“RW音乐节”、“写真集”以及“形象大使”。如图1 所示,从文档Y提取词“东京”、“日本国家足球队”、“电影金像奖”、“女主 人公”以及“钢琴家”。如图13C所示,从文档Z提取词“北海道”、“日本国家队”、“连续出场”、“歌手”以 及“TV商业节目”。回头参照到图7中的流程图,在步骤S4中的词提取处理之后,在步骤S5中,词得 分计算单元84计算各个提取出的词的词得分。现在,将描述计算各个提取出的词的词得分的处理(在下文中,被称为词得分计 算处理)的具体示例。根据现有技术,对整个文档群执行IDF值的计算。然而,在根据该实施例的服务器 13中,词得分计算单元84对类别执行IDF值的计算。因此,词得分计算单元84针对类别计 算出的IDF值被称为F值。由以下表达式(2)表示F值。
权利要求
1.一种信息处理设备,包括类别分类装置,其用于将文档分类成多个类别当中的一个或多个类别;词提取装置,其用于从所述文档提取一个或多个词;词得分计算装置,其用于基于词在所述类别分类装置将所述文档分类成的所述一个或 多个类别的每个中的出现频率,计算所述词提取装置从所述文档提取出的所述一个或多个 词的每个的词得分,其中所述词得分用作所述词的兴趣性的指标;运算用语句提取装置,其用于从所述文档提取一个或多个语句;以及语句得分计算装置,其用于基于所述词得分计算装置计算出的所述词得分,计算所述 运算用语句提取装置提取出的所述一个或多个语句的每个的语句得分,其中所述语句得分 用作语句的兴趣性的指标。
2.根据权利要求1所述的信息处理设备,其中,所述类别分类装置包括获得装置,其用于获得列表,所述列表包含能够指定所述多个类别的任意的多个关键 词,以及分类装置,其用于在所述文档包含与包含在所述列表中的所述多个关键词的任意匹配 的词的情况下,将所述文档分类成由与所述词匹配的关键词指定的类别。
3.根据权利要求2所述的信息处理设备,还包括语句得分列表生成装置,其用于针对所述文档生成所述语句得分计算装置计算出的一 个或多个语句得分的列表。
4.根据权利要求3所述的信息处理设备,还包括要呈现语句提取装置,其用于在所述文档的普通度高的情况下,从所述文档提取具有 包含在所述语句得分列表生成装置生成的所述列表中的所述一个或多个语句得分中的N 个最高得分的一个或多个语句,其中N是一或更大的整数值,并且如果所述文档的普通度 低,那么从所述文档提取具有包含在所述列表中的所述一个或多个语句得分中的M个最低 得分的一个或多个语句,其中M是一或更大的整数值;以及呈现装置,其用于呈现所述要呈现语句提取装置提取出的所述一个或多个语句。
5.根据权利要求4所述的信息处理设备,其中,所述要呈现语句提取装置基于要由所述呈现装置执行的呈现的条件,确定N或M 的值。
6.一种信息处理方法,包括以下步骤将文档分类成多个类别当中的一个或多个类别;从所述文档提取一个或多个词;基于词在所述类别分类步骤将所述文档分类成的所述一个或多个类别的每个中的出 现频率,计算在所述词提取步骤中从所述文档提取出的所述一个或多个词的每个的词得 分,其中所述词得分用作所述词的兴趣性的指标;从所述文档提取一个或多个语句;以及基于在所述词得分计算步骤中计算出的所述词得分,计算在所述语句提取步骤中提 取出的所述一个或多个语句的每个的语句得分,其中所述语句得分用作语句的兴趣性的指 标。
7.一种使得计算机执行控制处理的程序,所述控制处理包括将文档分类成多个类别当中的一个或多个类别; 从所述文档提取一个或多个词;基于词在所述文档被分类成的所述一个或多个类别的每个中的出现频率,计算从所述 文档提取出的所述一个或多个词的每个的词得分,其中所述词得分用作所述词的兴趣性的 指标;从所述文档提取一个或多个语句;以及基于所述词得分,计算提取出的一个或多个语句的每个的语句得分,其中所述语句得 分用作语句的兴趣性的指标。
8. 一种信息处理设备,包括类别分类单元,其被配置成将文档分类成多个类别当中的一个或多个类别; 词提取单元,其被配置成从所述文档提取一个或多个词;词得分计算单元,其被配置成基于词在所述类别分类单元将所述文档分类成的所述一 个或多个类别的每个中的出现频率,计算所述词提取单元从所述文档提取出的所述一个或 多个词的每个的词得分,其中所述词得分用作所述词的兴趣性的指标;运算用语句提取单元,其被配置成从所述文档提取一个或多个语句;以及 语句得分计算单元,其被配置成基于所述词得分计算单元计算出的所述词得分,计算 所述运算用语句提取单元提取出的所述一个或多个语句的每个的语句得分,其中所述语句 得分用作语句的兴趣性的指标。
全文摘要
本发明提供了一种信息处理设备、信息处理方法以及程序,其中所述信息处理设备包括类别分类单元,其被配置成将文档分类成一个或多个类别;词提取单元,其被配置成从文档提取一个或多个词;词得分计算单元,其被配置成基于词在一个或多个类别的每个中的出现频率,计算从文档提取出的一个或多个词的每个的词得分,其中词得分用作词的兴趣性的指标;运算用语句提取单元,其被配置成从文档提取一个或多个语句;以及语句得分计算单元,其被配置成基于词得分计算单元计算出的词得分,计算提取出的一个或多个语句的每个的语句得分,其中语句得分用作语句的兴趣性的指标。
文档编号G06F17/30GK102054018SQ20101053020
公开日2011年5月11日 申请日期2010年10月21日 优先权日2009年10月28日
发明者榎并嗣智, 礒津政明 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1