摘要生成装置和摘要生成方法

文档序号:6336825阅读:338来源:国知局
专利名称:摘要生成装置和摘要生成方法
技术领域
本发明涉及摘要生成装置和摘要生成方法。
背景技术
为了电子书籍的检索等目的而应用从表示文章的文章数据生成表示摘要的摘要数据的技术。作为摘要生成的步骤,例如有对于构成文章的各句根据各种各样的基准计算分值而抽出分值较高的句子的步骤。例如JP特开2003-281164号公报记载有利用单词词频作为分值计算的基准的方式。这是因为词频较高的单词被推测为文章中重要的单词。文章由多个句子构成,句子由多个单词构成。并且,在各个单词中存在不只有一个词义而具有多个词义的单词。但是,在JP特开2003-281164号公报记载的方法中,在利用单词词频时未考虑单词的词义。关于具有多个词义的单词,即使词频高也存在与各词义对应的词频低的情况。因此,具有多个词义的单词即使词频高也可能并非重要单词。因此,按照JP特开2003-281164 号公报记载的方法,对于具有多个词义的单词不加考虑地仅基于各单词的词频计算分值, 即使抽出了句子也无法生成适当的摘要。

发明内容
本发明为了解决上述课题而做出,其目的在于提供摘要生成装置和摘要生成方法,通过对具有多个词义的单词进行考虑而能够生成适当的摘要。本发明是摘要生成装置,其特征在于,具有存储文章数据的文章数据存储部;词频统计部,对由上述文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当上述文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频;句子选择部,基于上述文章数据和表示上述文章中的单词和副单词中通过上述词频统计部统计的词频最高者的数据,选择上述文章中的多个句子,从而生成摘要数据。根据本发明,词频统计部,当文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频。并且,句子选择部,基于表示文章中的单词和副单词中通过词频统计部统计的词频最高者的数据,选择句子来生成摘要数据。因此,本发明的摘要生成装置,能够生成考虑了具有多个词义的单词的适当的摘要。并且本发明的摘要生成装置,其特征在于,上述词频统计部具有存储将单词、与该单词对应的多个词义、与该多个词义各自对应的搭配语关联起来的词典数据的词典数据存储部;基于上述文章数据和上述词典数据判断上述文章中的各单词是否具有多个词义的单词判断部;基于上述文章数据和上述词典数据从包含通过上述单词判断部判断为具有多个
4词义的单词的句子中检出与该单词关联的搭配语的搭配语检出部;出现数取得部,基于上述文章数据和上述词典数据,对通过上述单词判断部判断为不具有多个词义的单词,取得在上述文章中出现的该单词的数量作为词频,对通过上述单词判断部判断为具有多个词义的单词,按照与通过上述搭配语检出部检出的搭配语对应的每个词义作为不同的副单词处理,取得在上述文章中出现的该副单词的数量作为词频。并且根据本发明,能够基于在词典数据存储部中存储的词典数据,通过搭配语检出部检出与具有多个词义的单词关联的搭配语。并且,能够通过出现数取得部对具有多个词义的单词,按照与搭配语检出部检出的搭配语对应的每个词义作为不同的副单词处理, 取得在文章中出现的该副单词的数量作为词频。并且本发明的摘要生成装置,其特征在于,上述搭配语检出部构成为,当未检出上述搭配语时,从包含上述判断为具有多个词义的单词的句子的前一句和后一句的至少一方中,检测与该单词关联的搭配语。并且根据本发明,搭配语检出部从包含具有多个词义的单词的句子的前一句和后一句的至少一方中检出搭配语。因此,即使包含具有多个词义的单词的句子中不存在搭配语,对于该单词,也能够按照与搭配语对应的每个词义作为不同的副单词处理,从而能够生成适当的摘要。并且本发明的摘要生成装置,其特征在于,上述词典数据将单词与跟该单词对应的同义词建立关联,上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的同义词关联的搭配语,上述出现数取得部构成为,对通过上述搭配语检出部检出与上述同义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第二副单词处理,取得在上述文章中出现的该第二副单词的数量作为词频。并且根据本发明,搭配语检出部从包含具有多个词义的单词的句子中检出与该单词的同义词关联的搭配语。因此,即使包含具有多个词义的单词的句子中不存在该单词的搭配语,对于该单词,也能够按照与同义词的搭配语对应的每个词义作为不同的第二副单词处理,从而能够生成适当的摘要。并且,即使在包含具有多个词义的单词的句子的前一句和后一句中不存在该单词的搭配语,对于该单词,也能够按照与同义词的搭配语对应的词义作为不同的第二副单词处理,从而能够生成适当的摘要。并且本发明的摘要生成装置,其特征在于,上述词典数据将单词与跟该单词对应的近义词建立关联,上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的近义词关联的搭配语,上述出现数取得部构成为,对通过上述搭配语检出部检出与上述近义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第三副单词处理,取得在上述文章中出现的该第三副单词的数量作为词频。并且根据本发明,搭配语检出部从包含具有多个词义的单词的句子中检出与该单词的近义词关联的搭配语。因此,即使包含具有多个词义的单词的句子中不存在该单词的搭配语,对于该单词,也能够按照与近义词的搭配语对应的每个词义作为不同的第三副单词处理,从而能够生成适当的摘要。并且,即使在包含具有多个词义的单词的句子的前一句和后一句中不存在该单词的搭配语,或者不存在与该单词的同义词关联的搭配语,对于该单词,也能够按照与近义词的搭配语对应的每个词义作为不同的第三副单词处理,从而能够生成适当的摘要。并且本发明的摘要生成装置,其特征在于,上述词典数据将单词与跟该单词对应的反义词建立关联,上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的反义词关联的搭配语,上述出现数取得部构成为,对通过上述搭配语检出部检出与上述反义词关联的搭配语的单词,按照与该搭配语对应的词义作为不同的第四副单词处理,取得在上述文章中出现的该第四副单词的数量作为词频。并且根据本发明,搭配语检出部从包含具有多个词义的单词的句子中检测与该单词的反义词关联的搭配语。因此,即使包含具有多个词义的单词的句子中不存在该单词的搭配语,对于该单词,也能够按照与反义词的搭配语对应的每个词义作为不同的第四副单词处理,从而能够生成适当的摘要。并且,即使在包含具有多个词义的单词的句子的前一句和后一句中不存在该单词的搭配语,或者不存在与该单词的同义词和近义词关联的搭配语,对于该单词,也能够按照与反义词的搭配语对应的每个词义作为不同的第四副单词处理,从而能够生成适当的摘要。并且本发明的摘要生成方法,是从文章数据生成摘要数据的摘要生成装置生成摘要数据时的摘要生成方法,其特征在于,包含以下步骤词频统计步骤,对由上述文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当上述文章中的单词有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频;句子选择步骤,基于上述文章数据和表示上述文章中的单词和副单词中在上述词频统计步骤中统计的词频最高者的数据选择上述文章中的多个句子,从而生成摘要数据。并且根据本发明,在词频统计步骤中,当文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频。并且,在句子选择步骤中,基于表示文章中的单词和副单词中通过词频统计部统计的词频最高者的数据选择句子来生成摘要数据。因此,采用本发明的摘要生成方法,能够生成考虑了具有多个词义的单词的适当的摘要。并且本发明的摘要生成方法,其特征在于,上述词频统计步骤,包含基于上述文章数据以及、将单词、与该单词对应的多个词义、与该多个词义各自对应的搭配语关联起来的词典数据,判断上述文章中的各单词是否具有多个词义的单词判断步骤;基于上述文章数据和上述词典数据,从包含在上述单词判断步骤中判断为具有多个词义的单词的句子中检出与该单词关联的搭配语的搭配语检出步骤;出现数取得步骤,基于上述文章数据和上述词典数据,对在上述单词判断步骤中判断为不具有多个词义的单词,取得在上述文章中出现的该单词的数量作为词频,对在上述单词判断步骤中判断为具有多个词义的单词,按照与在上述搭配语检出步骤中检出的搭配语对应的每个词义作为不同的副单词处理,取得在上述文章中出现的该副单词的数量作为词频。并且根据本发明,能够基于词典数据,在搭配语检出步骤中,检测与具有多个词义的单词关联的搭配语。并且,能够在出现数取得步骤中,对具有多个词义的单词,按照与在搭配语检出步骤中检出的搭配语对应的每个词义作为不同的副单词处理,取得在文章中出现的该副单词的数量作为词频。


本发明的目的、特色和优点通过下述详细说明和附图能够更加明确。图1为基于功能表示摘要生成装置的构成的框图。图2为表示相对于文章数据的摘要数据生成处理的流程图。
具体实施例方式以下参照附图对本发明的优选实施方式进行详细说明。以下对本发明实施方式的摘要生成装置100进行说明。摘要生成装置100是从文章数据生成摘要数据的装置。图1为功能性表示摘要生成装置100的构成的框图。摘要生成装置100通过 PC (Personal Computer)等具备的现有公知的控制运算装置和存储装置实现,在功能上包含文章数据存储部10、词频统计部20、句子选择部30。词频统计部20包含前处理部21、词典数据存储部22、单词判断部23、搭配语检出部24、出现数取得部25。文章数据存储部10具有存储作为生成摘要数据的对象的文章数据的功能。通过文章数据表示的文章(以下有时简称为“文章”)例如是论文或小说等。词典数据存储部22具有存储词典数据的功能。词典数据为关于各种单词的总括性数据。具体而言设定为,在词典数据中对各单词关联该单词是否具有多个词义的信息。并且设定为,在词典数据中,对具有多个词义的单词关联多个词义和与该多个词义各自对应的搭配语。这里,搭配语是关于具有多个词义的单词的各词义,作为表示该词义的单词在句中使用该单词时,与其它词义比较,通常与该单词一起在相同句中使用的可能性高的单词。例如,“打”这个中文单词具有“买”、“玩”、“搅拌”、“装订”、“浸泡”等词义。在与该单词“打”一起使用中文单词“酒”时,与其它词义比较,表示“买”的词义的可能性通常较高。因此,单词“酒”在词典数据中设定为与词义“买”对应的搭配语。并且,对于一个单词,一个搭配语仅对应一个词义。因此,在单词“酒”设定为对应词义“买”的搭配语的情况下,不会作为与“搅拌”、“浸泡”等其它词义对应的搭配语来设定。搭配语可以利用Wordnet或hownet等数据库,根据人的判断在词典数据中设定, 并且也可以使输入了电子报纸或网站等的文章数据的信息处理装置判断来设定搭配语。例如,使信息处理装置判断与单词“打”的词义“搅拌”对应的搭配语时,从通过文章数据表示的文章中检测包含单词“搅拌”的句子,按照在包含“搅拌”的单词的句子中出现的次数的降序将规定个数(例如100个)的单词判断为与单词“打”的词义“搅拌”对应的搭配语。
7并且,虽然对于与一个词义对应地设定的搭配语的数量没有特别限制,但是优选为50个以上。并且,对于具有多个词义的单词,在词典数据中,对该单词关联设定表示与其它词义相比一般情况下最常用的词义的信息。与其它词义相比可能最常用的词义,根据以报纸等为基础的统计进行选择。并且,在词典数据中,对各单词关联设定同义词、近义词和反义词。并且,在词典数据中,也对各单词关联设定表示该单词的词类的信息。对于词频统计部20、前处理部21、单词判断部23、搭配语检出部对、出现数取得部 25和句子选择部30的功能,按照针对文章数据的摘要数据生成处理进行说明。图2为表示针对文章数据的摘要数据生成处理的流程图。摘要数据生成处理按照词频统计步骤Si、句子选择步骤S2的顺序进行。在词频统计步骤Sl中,词频统计部20对通过文章数据表示的文章中的多个单词, 基于该文章数据统计各单词的词频。在词频统计步骤Sl中,当文章中的单词具有多个词义时,词频统计部20按照每个词义作为不同的副单词处理,统计与各副单词对应的词频。在句子选择步骤S2中,通过句子选择部30,基于文章数据和表示文章中的单词和副单词中在词频统计步骤Sl中统计的词频最高者的数据,选择文章中的多个句子而生成摘要数据。词频统计步骤Si,具体而言,按照前处理步骤S1-1、单词判断步骤S1-2、搭配语检出步骤S1-3、出现数取得步骤S1-4的顺序进行。在前处理步骤Sl-I中,通过前处理部21 对文章数据进行前处理。具体而言,作为前处理,首先根据文章中的句号、终止符,将文章分割为构成该文章的各个句子。接着,依照词典数据将各个句子分割为构成各句的各单词。在单词判断步骤S1-2中,通过单词判断部23,基于文章数据和词典数据,判断文章中的各单词是否具有多个词义。当作为判断对象的单词,在词典数据中没有设定,或者与不具有多个词义的信息关联时,判断为不具有多个词义,当与具有多个词义的信息关联时, 判断为具有多个词义。在搭配语检出步骤S1-3中,通过搭配语检出部对,基于文章数据和词典数据,从包含在单词判断步骤S1-2中判断为具有多个词义的单词(以下有时称为“对象单词”)的句子(以下称为“本句”)中检出与该对象单词关联的搭配语。在本实施方式中,当未从本句中检出搭配语时,通过搭配语检出部M,从本句的前一句(以下称为“前句”)中检测搭配语。并且,在本实施方式中,当未从前句中检出搭配语时,通过搭配语检出部M,从本句的后一句(以下称为“后句”)中检测搭配语。并且,作为本发明的其他实施方式,可以构成为, 当未从本句中检出搭配语时,从后句中检测搭配语,此时如果没有从后句中检出搭配语,则从前句中检测搭配语。并且在本实施方式中,当在本句中、前句中和后句中均未检出与对象单词关联的搭配语时,通过搭配语检出部M,基于词典数据,从本句中检测与该对象单词的同义词关联的搭配语。如果在词典数据中相对于对象单词没有设定同义词,或者在词典数据中没有设定与该同义词对应的搭配语,或者未从本句中检出与该同义词关联的搭配语,则通过搭配语检出部M,基于词典数据,从本句中检测与该对象单词的近义词关联的搭配语。如果在词典数据中相对于对象单词没有设定近义词,或者在词典数据中没有设定与该近义词对应的搭配语,或者未从本句中检出与该近义词关联的搭配语,则通过搭配语检出部M,基于词典数据,从本文中检测与该对象单词的反义词关联的搭配语。并且在本实施方式中,如果在词典数据中相对于对象单词没有设定反义词,或者在词典数据中没有设定与该反义词对应的搭配语,或者没有从本句中检出与该反义词关联的搭配语,则判断为通过搭配语检出部M,基于词典数据,检出了与其它词义相比可能最常用的词义对应的搭配语,进行此后的处理。在词典数据中,相对于对象单词,没有设定表示与其它词义相比可能最常用的词义的信息时,则通过搭配语检出部M判断为本句中不存在对象单词,进行此后的处理。在出现数取得步骤S1-4中,出现数取得部25,基于文章数据和词典数据,对在单词判断步骤S1-2中判断为不具有多个词义的单词,取得在文章中出现的该单词的数量作为词频。因此,对在单词判断步骤S1-2中判断为不具有多个词义的单词,在单词判断步骤 S1-2的处理之后,立即进行出现数取得步骤S1-4的处理。另外,在出现数取得步骤S1-4中,出现数取得部25,基于文章数据和词典数据,对在单词判断步骤S1-2中判断为具有多个词义的单词,按照与在搭配语检出步骤S1-3中检出的该单词的搭配语对应的每个词义作为不同的第一副单词处理,取得在文章中出现的该第一副单词的数量作为词频。另外,在出现数取得步骤S1-4中,出现数取得部25,基于文章数据和词典数据,对在搭配语检出步骤S1-3中检出了与对象单词的同义词关联的搭配语的该对象单词,按照与该搭配语对应的每个词义作为不同的第二副单词处理,取得在文章中出现的该第二副单词的数量作为词频。另外,在出现数取得步骤S1-4中,出现数取得部25,基于文章数据和词典数据,对在搭配语检出步骤S1-3中检出了与对象单词的近义词关联的搭配语的该对象单词,按照与该搭配语对应的每个词义作为不同的第三副单词处理,取得在文章中出现的该第三副单词的数量作为词频。另外,在出现数取得步骤S1-4中,出现数取得部25,基于文章数据和词典数据,对在搭配语检出步骤S1-3中检出了与对象单词的反义词关联的搭配语的该对象单词,按照与该搭配语对应的每个词义作为不同的第四副单词处理,取得在文章中出现的该第四副单词的数量作为词频。例如,假设在汉语文章中含有“我打酒”的汉语句子。该句子由单词“我”、“打”和 “酒”构成。并且,“打”这个中文单词,如上所述具有“买”、“玩”、“搅拌”、“装订”、“浸泡”的意思。在词典数据中,关于单词“打”,与词义“买,,对应地关联搭配语“酒”时,在出现数取得步骤S1-4中,单词“打”作为“意思是‘买’的‘打’”的第一副单词处理,判定为出现一个“意思是‘买’的‘打’”的副单词。对于文章中的其它单词“打”,也作为“意思是‘买’的 ‘打’”的副单词处理时,判定为出现一个“意思是‘买’的‘打’ ”的副单词。并且,判定的数的合计值,作为“意思是‘买’的‘打’ ”的副单词的出现数量取得,并将取得的出现数作为词频。另外,例如在词典数据中,关于“A”这个单词,设定“A1”、“A2”和“A3”等词义,设定“B”是同义词、“C”是近义词、“D”是反义词,对同义词“B”设定“Β1”、“Β2”等词义,对近义词“C”设定“C1”、“C2”的词义,对反义词“D”设定“D1”、“D2”、“D3”的词义,和词义“Al”、 词义"A2 ”、词义"A3 ”、词义“Bi,,、词义"B2 ”、词义"Cl ”、词义"C2 ”、词义"Dl,,、词义"D2 ”、词义“D3’,分别对应地,设定“a”、“b,,、“c”、“d”、“e”、“f ”、“ g”、“h”、“ i ”、“ j ’,的搭配语时的处
理如下所示。并且,此时假设对单词“A”设定一般情况下最常用的词义为“Al”。此时,首先对于单词“A”,从本句、前句和后句中的任一个检测搭配语“a”、“b”、 “C”的任一个。例如,在本句中检出了搭配语“b”时,单词“A”作为“意思是‘A2’的‘A’” 的第一副单词处理,判定为出现一个“意思是‘A2’的‘A’”的第一副单词。并且,在本实施方式中,从本句中(或者前句中或后句中),检出关于对象单词与两个以上的词义分别对应的搭配语时,基于词典数据,该对象单词作为表示该对象单词的词义中一般情况下最常用的词义的第一副单词处理,判定为出现一个表示对象单词的词义中一般情况下最常用的词义的第一副单词。例如,在本句中检出了搭配语“a”、“c”时,对象单词“A”作为“意思是‘Al’的‘A’”的第一副单词处理,判定为出现一个“意思是‘Al’的 ‘A’”的第一副单词。对于对象单词,没有设定表示与其它词义相比一般情况下最常用的词义的信息时,作为该对象单词在本句中不存在的情况处理,未取得出现数。在本句中、前句和后句中均未检出与对象单词“A”对应的搭配语“a”、“b”、“c”的任一个时,从本句中检出了与同义词“B”对应的搭配语“d”、“e”的任一个。例如,在本句中检出搭配语“e”时,单词“A”作为“具有与‘B2’基本相同意思的‘A’”这样的第二副单词处理,判定为出现一个“具有与‘B2’基本相同意思的‘A’”这样的第二副单词。并且,在本实施方式中,从本句中对于同义词检出了与两个以上的词义分别对应的搭配语时,基于词典数据,对象单词作为表示与同义词的词义中一般情况下最常用的词义基本相同的意思的第二副单词处理,判定为出现一个表示与同义词的词义中一般情况下最常用的词义基本相同的意思的第二副单词。关于同义词,没有设定表示与其它词义相比一般情况下最常用的词义的信息时,作为对象单词在本句中不存在的情况处理,未取得出现数。在本句中,与同义词“B”对应的搭配语“d”、“e”均未检出时,从本句中检测与近义词“C”对应的搭配语“f”、“g”的任一个。例如,在本句中检出搭配语“f”时,单词“A”作为 “具有与‘Cl’类似意思的‘A’”这样的第三副单词处理,判定为出现一个“具有与‘Cl’基本相同意思的‘A’”这样的第三副单词。并且,在本实施方式中,从本句中,对于近义词检出了与两个以上的词义分别对应的搭配语时,基于词典数据,对象单词作为表示与近义词的词义中一般情况下最常用的词义类似的意思的第三副单词处理,判定为出现一个表示与近义词的词义中一般情况下最常用的词义类似的意思的第三副单词。对于近义词,没有设定与其它词义相比一般情况下最常用的词义的信息时,作为对象单词在本句中不存在的情况处理,未取得出现数。在本句中,与近义词“C”对应的搭配语“f”、“g”均未检出时,从本句中检测与反义词“0”对应的搭配语“1!”、“1”、“」”的任一个。例如,在本句中检出搭配语“j”时,单词“A” 作为“具有与‘D3’相反意思的‘A’”这样的第四副单词处理,判定为出现一个“具有与‘D3’ 相反意思的‘A’”这样的第四副单词。并且,在本实施方式中,从本句中,对于反义词检出了与两个以上的词义分别对应的搭配语时,基于词典数据,对象单词作为表示与反义词的词义中一般情况下最常用的词义相反意思的第四副单词处理,判定为出现一个表示与反义词的词义中一般情况下最常用的词义相反意思的第四副单词。对于反义词,没有设定与其它词义相比一般情况下最常用的词义的信息时,作为对象单词在本句中不存在的情况处理,未取得出现数。在本句中,与反义词“0”对应的搭配语“1!”、“1”、“」”均未检出时,基于词典数据, 对象单词作为表示该对象单词的词义中一般情况下最常用的词义的第一副单词处理,判定为出现一个表示该对象单词的词义中一般情况下最常用的词义的第一副单词。对于对象单词,没有设定与其它词义相比可能最常用的词义的信息时,作为该对象单词在本句中不存在的情况处理,未取得出现数。这样,在本实施方式中,按照(1)从本句中检出对象单词的搭配语,(2)未从本句中检出对象单词的搭配语时,从前句中和后句中检出对象单词的搭配语,(3)从前句中和后句中未检出对象单词的搭配语时,从本句中检出同义词的搭配语,(4)未检出同义词的搭配语时,从本句中检出近义词的搭配语,(5)未检出近义词的搭配语时,从本句中检出反义词的搭配语,(6)未检出反义词的搭配语时,作为表示对象单词的词义中一般情况下最常用的词义的第一副单词处理这样的顺序,进行词频统计的处理。但是,作为本发明,不限于此,可以适宜地设定是否分别进行从前句中和后句中检出对象单词的搭配语的处理、检出同义词的搭配语的处理、检出近义词的搭配语的处理、检出反义词的搭配语的处理、作为表示对象单词的词义中一般情况下最常用的词义的第一副单词的处理,或者也能够适宜地设定各自执行的顺序。并且,在本实施方式中,可以设置停止词。停止词是在出现数取得部25进行的出现数取得处理中作为句中不存在的情况处理的单词,例如是前置词或后置词等。对于停止词不统计词频。并且,虽然在本实施方式中,出现数取得部25将出现数直接作为词频,但是作为本发明的其它实施方式,出现数取得部25也可以构成为将出现数乘以与单词的词类对应的所定系数所得值作为词频。例如,在单词或者第一 第四副单词为名词时将出现数乘以 1. 5的值作为词频,为动词时将出现数乘以0. 8的值作为词频等。当上述这样的词频统计步骤Sl的处理结束后,在句子选择步骤S2中,通过句子选择部30,基于文章数据和表示文章中的单词和第一 第四副单词中在出现数取得步骤 S1-4中统计的词频最高者的数据,选择文章中的多个句子。然后,句子选择部30生成表示将选择的句子进行概括的摘要的摘要数据。例如,‘ ”这个单词的词频为10,“F”这个单词的词频为20,“意思是A2的A”这样的第一副单词的词频为30时,词频最高者是“意思是‘A2’的‘A’”这样的第一副单词。使用表示该第一副单词的数据,例如句子选择部30选择包含“意思是‘A2’的‘A’”的所有句子,将仅由包含“意思是‘A2’的‘A’”的句子构成的文章作为摘要,生成摘要数据。并且,句子选择部30也可以构成为一并使用词频以外的信息进行句子的选择。作为词频以外的信息,有各句在文章整体中的位置信息、用户设定关键字信息、文章题目所含单词信息、提示词(Cue word)信息等。提示词是“也就是说”、“即”、“总之”等表示要旨的句子中所含的单词。例如构成为,在一并使用词频以外的信息进行句子的选择时,句子选择部30计算各句的分值进行句子的选择。分值计算的基准,例如在使用各句在文章整体中的位置信息时,是将文章整体分割为文章前半部和文章后半部,对文章前半部中的句子赋予1分,对文章后半部中的句子赋予2分等。并且,在使用用户设定的关键字信息时,是对包含该关键字
11信息表示的单词的句子赋予10分等,在使用文章题目中所含单词信息时,是对包含该单词信息表示的单词的句子赋予10分等,在使用提示词信息时,是对包含该提示词信息表示的单词的句子赋予10分等。以这种基准计算各句的分值的同时,也计算以词频为基准的分值。例如,对包含词频第一高的单词(或者第一 第四副单词)的句子,对每一个该单词(或者第一 第四副单词)赋予10分,对包含词频第二高的单词(或者第一 第四副单词)的句子,对每一个该单词(或者第一 第四副单词)赋予5分,对包含词频第三高的单词(或者第一 第四副单词)的句子,对每一个该单词(或者第一 第四副单词)赋予1分等。然后,句子选择部30能够按照以全部的基准算出的分值的合计值的降序,选择上位5个句子,生成摘要数据。根据本发明的摘要生成装置100,词频统计部20,当文章中的单词具有多个词义时,按照每个词义作为不同的副单词(第一 第四副单词)处理,统计与各副单词对应的词频,句子选择部30,基于表示文章中的单词和副单词中通过词频统计部统计的词频最高者的数据,生成摘要数据,因此能够生成考虑了具有多个词义的单词的适当的摘要。并且在本实施方式中,基于在词典数据存储部22中存储的词典数据,通过搭配语检出部M,能够检出与具有多个词义的单词关联的搭配语。并且,能够通过出现数取得部 25,对于具有多个词义的单词,按照与搭配语检出部M检出的搭配语对应的每个词义作为不同的副单词(第一 第四副单词)处理,取得在文章中出现的该副单词的数量作为词频。并且在本实施方式中,搭配语检出部M,在从本句中未检出与对象单词对应的搭配语时,从前句中和后句中检出该搭配语。因此,即使在本句中不存在与对象单词对应的搭配语,也能够对该对象单词按照与搭配语对应的每个词义作为不同的第一副单词处理,从而生成适当的摘要。并且在本实施方式中,搭配语检出部M,在从本句、前句和后句中均未检出与对象单词对应的搭配语时,从本句中检测与该单词的同义词关联的搭配语。因此,即使在本句、 前句和后句中不存在与对象单词对应的搭配语,对于该对象单词,也能够按照与同义词的搭配语对应的每个词义作为不同的第二副单词处理,从而生成适当的摘要。并且在本实施方式中,搭配语检出部M,在从本句中未检出与对象单词的同义词对应的搭配语时,从本句中检测与该单词的近义词关联的搭配语。因此,即使在本句中不存在与对象单词和该对象单词的同义词对应的搭配语,对于该对象单词,也能够按照与近义词的搭配语对应的每个词义作为不同的第三副单词处理,从而生成适当的摘要。并且在本实施方式中,搭配语检出部M,在从本句中未检出与对象单词的近义词对应的搭配语时,从本句中检测与该单词的反义词关联的搭配语。因此,即使在本句中不存在与对象单词、该对象单词的同义词以及近义词对应的搭配语,对于该对象单词,也能够按照与反义词的搭配语对应的每个词义作为不同的第四副单词处理,从而生成适当的摘要。并且在本实施方式中,搭配语检出部M,在从本句中未检出与对象单词的反义词对应的搭配语时,关于对象单词,判断为在本句中检出了与其它词义相比一般情况下最常用的词义对应的搭配语。因此,在本句中,即使不存在与对象单词以及该对象单词的同义词、近义词和反义词对应的搭配语,对于该对象单词,也能够作为表示与该对象单词的词义中其它词义相比一般情况下最常用的词义的第一副单词处理,从而能够生成适当的摘要。
摘要生成装置100,可以通过在现有公知的信息处理装置中存储使该信息处理装置作为摘要生成装置100发挥功能的程序即摘要生成程序而实现。该摘要生成程序可以记录在现有公知的计算机可读取的记录介质中。通过上述摘要生成程序记录在记录介质中,可以便携地提供记录用于执行摘要生成装置100进行的各种处理的程序代码(执行程序、中间代码程序、源程序等)的记录介质。并且,记录介质也可以是微型计算机进行处理的存储器,例如R0M(Read Only Memory)等程序介质,或者通过插入计算机作为外部存储装置具有的程序读取装置进行读取的程序介质。在记录介质中存储的程序,可以是微处理器访问记录介质执行的方式,或者也可以是微处理器从记录介质读出程序代码并且将读出的程序代码下载到微型计算机的程序存储区域来执行该程序的方式。该下载用程序预先存储于主体装置。这里,上述程序介质是构成为能够与本体分离的记录介质,可以是包含磁带、盒带等磁带系、软盘、硬盘等磁盘、CD-ROM (Compact Disc-Read Only Memory)、 MO(Magneto Optical disc)、MD(Mini Disc)、DVD(Digital Versatile Disc)等光盘的盘系、ICantegrated Circuit)卡(包含存储卡)、光卡等卡系,或者基于掩模ROM、 EPROM(Erasable Programmable Read Only Memory) > EEPROM(ElectricalIy Erasable Programmable Read Only Memory)、闪存ROM等的半导体存储器的固定地保持程序代码的介质。另外,只要是计算机能够连接包含互联网的通信网络的系统构成,则记录介质也可以是以从通信网络下载程序代码的方式流动地保持程序代码的介质。并且,当这样从通信网络下载程序时,可以将该下载用程序预先存储于本体装置,或者从其它记录介质安装。 另外,上述摘要生成程序能够以上述程序代码通过电子传输而具体化的嵌入载波的计算机数据信号的方式实现。本发明可以在不脱离其精神或者主要特征的范围内以其它方式实施。因此,上述实施方式仅为各方面的例示,本发明范围由权利要求范围决定而不限于说明书正文。并且从属于权利要求范围的变形或变更均落入本发明范围。
权利要求
1.一种摘要生成装置,其特征在于,具有 存储文章数据的文章数据存储部;词频统计部,对由上述文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当上述文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频;句子选择部,基于上述文章数据和表示上述文章中的单词和副单词中通过上述词频统计部统计的词频最高者的数据,选择上述文章中的多个句子,从而生成摘要数据。
2.根据权利要求1所述的摘要生成装置,其特征在于, 上述词频统计部具有存储将单词、与该单词对应的多个词义、与该多个词义各自对应的搭配语关联起来的词典数据的词典数据存储部;基于上述文章数据和上述词典数据判断上述文章中的各单词是否具有多个词义的单词判断部;基于上述文章数据和上述词典数据从包含通过上述单词判断部判断为具有多个词义的单词的句子中检测与该单词关联的搭配语的搭配语检出部;出现数取得部,基于上述文章数据和上述词典数据,对通过上述单词判断部判断为不具有多个词义的单词,取得在上述文章中出现的该单词的数量作为词频,对通过上述单词判断部判断为具有多个词义的单词,按照与通过上述搭配语检出部检出的搭配语对应的每个词义作为不同的副单词处理,取得在上述文章中出现的该副单词的数量作为词频。
3.根据权利要求2所述的摘要生成装置,其特征在于,上述搭配语检出部构成为,当未检出上述搭配语时,从包含上述判断为具有多个词义的单词的句子的上下文中,检出与该单词关联的搭配语。
4.根据权利要求2或3所述的摘要生成装置,其特征在于, 上述词典数据将单词与跟该单词对应的同义词建立关联,上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的同义词关联的搭配语,上述出现数取得部构成为,对通过上述搭配语检出部检出与上述同义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第二副单词处理,取得在上述文章中出现的该第二副单词的数量作为词频。
5.根据权利要求2 4中任一项所述的摘要生成装置,其特征在于, 上述词典数据将单词与跟该单词对应的近义词建立关联,上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的近义词关联的搭配语,上述出现数取得部构成为,对通过上述搭配语检出部检出与上述近义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第三副单词处理,取得在上述文章中出现的该第三副单词的数量作为词频。
6.根据权利要求2 5中任一项所述的摘要生成装置,其特征在于, 上述词典数据将单词与跟该单词对应的反义词建立关联,上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的反义词关联的搭配语,上述出现数取得部构成为,对通过上述搭配语检出部检出与上述反义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第四副单词处理,取得在上述文章中出现的该第四副单词的数量作为词频。
7.一种摘要生成方法,是从文章数据生成摘要数据的摘要生成装置生成摘要数据时的摘要生成方法,其特征在于,包含以下步骤词频统计步骤,对由上述文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当上述文章中的单词有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频;句子选择步骤,基于上述文章数据和表示上述文章中的单词和副单词中在上述词频统计步骤中统计的词频最高者的数据,选择上述文章中的多个句子,从而生成摘要数据。
8.根据权利要求7所述的摘要生成方法,其特征在于,上述词频统计步骤包含基于上述文章数据以及、将单词、与该单词对应的多个词义、与该多个词义各自对应的搭配语关联起来的词典数据,判断上述文章中的各单词是否具有多个词义的单词判断步骤;基于上述文章数据和上述词典数据,从包含在上述单词判断步骤中判断为具有多个词义的单词的句子中检出与该单词关联的搭配语的搭配语检出步骤;出现数取得步骤,基于上述文章数据和上述词典数据,对在上述单词判断步骤中判断为不具有多个词义的单词,取得在上述文章中出现的该单词的数量作为词频,对在上述单词判断步骤中判断为具有多个词义的单词,按照与在上述搭配语检出步骤中检出的搭配语对应的每个词义作为不同的副单词处理,取得在上述文章中出现的该副单词的数量作为词频。
全文摘要
本发明目的是提供摘要生成装置和摘要生成方法,通过考虑具有多个词义的单词而能够生成适当的摘要。在摘要生成装置(100)中设有存储文章数据的文章数据存储部(10);对由文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频的词频统计部(20);基于文章数据和表示文章中的单词和副单词中词频最高者的数据来选择文章中的多个句子,从而生成摘要数据的句子选择部(30)。
文档编号G06F17/30GK102479196SQ201010560580
公开日2012年5月30日 申请日期2010年11月23日 优先权日2010年11月23日
发明者乐宁, 吴亚栋, 吴波 申请人:夏普株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1