文档处理装置的制作方法

文档序号:6458057阅读:116来源:国知局
专利名称:文档处理装置的制作方法
技术领域
本发明涉及基于由多个句子构成的文档,来制作该文档的摘要并显示 的文档处理装置。
背景技术
由于网络通信技术、办公室自动化(OA)技术的发达,能够移动、 保存、阅览的信息量正在急速增加。
用户在这样的环境下,必须在短时间内从大量的信息中适当地取舍 选择必要的信息,并将其保存或加工。
为了选择必要的信息,利用信息的摘要是有效的。通过阅读摘要, 能够在短时间内看出信息整体的必要性。其中,为了适当地选择信息, 摘要的内容是否准确地反映了信息整体是重要的。
由人来制作更为准确的、反映信息整体的摘要时,在暂且阅读了信 息的基础上,除了信息本身外,还可加上信息的要点是什么、是面向谁 的信息、是什么时候制作的信息等该信息以外的信息来制作准确的信 息。与此相对,由文档处理装置制作的摘要,即所谓自动摘要,必须仅 考虑信息本身中所包含的个别的信息来制作摘要。
从而,以往以来对用于进行自动摘要的各种技术进行了各种研究。
自动摘要技术基本上对文章中所含的各个句子算出重要度,并相应 于其重要度,取出规定数量的重要度高的句子、重要度高的段落等,将 取出的句子、段落的集合作为摘要。重要度的算出也有各种方法,或者 根据句子中包含的各个单词的重要度来算出句子的重要度,或者根据句 子处于文档整体的哪个位置来算出重要度等。
各个单词的重要度,进一步细分为单词的出现频度、是否标题中所 含的单词、连接词的种类、是否线索词等,对这些进行判断后最终算出 1个句子的重要度(参照中国发明专利公开CN1614587A等)。
以往的自动摘要技术中,如上所述地从包含于文章的各个句子中, 通过预先决定的算出方法来算出重要度,并基于算出的重要度来制作摘要,因此不增加包含于文章本身以外的信息。
从而,利用现有技术制作的摘要的稳定性,在始终能制作一定水准的摘要的这一意义上是稳定的,但不能制作着眼于特定单词的摘要等反映了用户的喜好的摘要。

发明内容
本发明的目的在于,提供一种能够制作反映了用户的喜好的摘要的文档处理装置。
本发明是一种文档处理装置,其特征在于,
具有输入部,其输入文档;
预处理部,其将由上述输入部输入的文档分离成多个单词;
重要度算出部,其算出由上述预处理部分离的单词的至少基于频度的特征值,并基于上述算出的特征值来算出每一个由多个单词构成的句子的重要度;
摘要生成部,其基于由上述重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要;
显示部,其显示由上述摘要生成部生成的摘要;
关^^词输入部,其用于输入关鍵词,用户可以直接输入关键词,也可以通过预处理部分离的单词中选择关键词;
而且,在由上述显示部显示由上述摘要生成部生成的输入文档的摘要
后,
若由上述关键词输入部输入关键词,则上述重要度算出部重新算出基于单词的频度以及所输入的单词的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度,上述摘要生成部基于由上述重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要,上述显示部重新显示由上述摘要生成部生成的摘要。
根据本发明,若通过输入部输入文档,则预处理部将所输入的文档分离成多个单词。重要度算出部算出至少基于被分离的单词的频度的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度。
摘要生成部基于所算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要,显示部显示所生成的摘要。
在由上述显示部显示由摘要生成部生成的输入文档的摘要后,如果通过关键词输入部,基于所显示的摘要来输入了关键词,则重新算出基于关键词的频度以及所输入的关键词的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度。
摘要生成部基于由重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要,显示部重新显示由摘要生成部生成的摘要。
若用户基于所显示的摘要输入关键词,则算出除了关键词的频度以外,基于所输入的关键词的特征值,并算出句子的重要度,故能够通过所输入的关键词来制作反映了用户喜好的摘要,显示所制作的摘要。
此外,本发明的特征在于,上述文档由文档主体和标题构成,该文档主体由多个句子构成,
上述重要度算出部还算出基于上述标题中包含的单词的特征值,并基于算出的特征值来算出句子的重要度。
根据本发明,由于追加基于上述标题中包含的单词的特征值来制作摘要,故能够更准确地制作摘要。
此外本发明的特征在于,上述重要度算出部还算出基于预先决定的线索词的特征值,并基于算出的特征值来算出句子的重要度。
此外根据本发明,由于追加基于预先决定的线索词的特征值来制作摘要,故能够更准确地制作摘要。
此外本发明的特征在于,上述关键词输入部,通it^由上述预处理部分离的单词中进行选择来输入特定的关键词。
根据本发明,由于从由上述预处理部分离的单词中进行选择来输入特定的关键词,故能够可靠地输入文档中包含的单词。此外本发明的特征在于,若由上述关键词输入部再次输入关键词,则上述重要度算出部再次算出基于单词的频度以及所输入的关键词的特征值,并基于算出的特征值来再次算出每一个由多个单词构成的句子的重要度,上述摘要生成部基于由上述重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序再次选择规定数量的句子,而再次
生成所^r入的文档的摘要,上述显示部再次显示由上述摘要生成部生成的摘要。
根据本发明,若通过关键词输入部再次输入关键词,则再次算出句子的重要度,基于所算出的重要度,进行摘要的生成、和生成的摘要的重新显示。
由此,由于每次用户输入关键词时,进行基于所输入的关键词的重新计算,重新生成摘要并显示,因此能够制作进一步反映了用户喜好的摘要。
本发明的目的、特色和优点由下述详细说明和附图将变得更加明确。


图i是示出文档处理装置io的机械性构成的方框图。
图2是示出文档处理装置10的功能性构成的方框图。
图3是示出显示部16的显示画面例的图。
图4是示出显示部16的显示画面例的图。
图5是示出显示部16的显示画面例的图。
图6是示出显示部16的显示画面例的图。
图7是示出显示部16的显示画面例的图。
图8是示出显示部16的显示画面例的图。
图9是示出显示部16的显示画面例的图。
图IO是示出成为摘要生成处理的对象的文档的一例的图。
图ll是示出由预处理部12、分类部13进行的处理结果的图。
图12是示出不输入关键词时的由重要度算出部14、摘要生成部14进行的处理结果的图。
图13是示出输入了关键词时的由重要度算出部14、摘要生成部14进行的处理结果的图。
具体实施例方式
以下,参照附图对本发明的优选实施方式进行详细说明。
图1是示出文档处理装置10的机械构成的方框图。文档处理装置10包含处理器4、和存放处理器4执行实际的处理用的软件等的外部存储装置5。
处理器4实际进行根据所输入的文档数据生成摘要的摘要生成处理等。处理器4上的实际的处理,由存放在外部存储装置5中的软件执行。处理器4例如由通常的计算机主体等构成。
外部存储装置5例如可由能高速存取的硬盘等构成。外部存储装置5,为了大量地保持文档数据,也可以是利用光盘等大容量器件那样的构成。后述的语法词典、同义词词典、分类辞典等由外部存储装置5构成。另外,在摘要生成处理中各处理步骤的阶段制作的临时数据等,既可存储在外部存储装置5中,也可存储在内置于处理器4中的半导体存储器中。
文档处理装置10上连接键盘1,而且连接显示装置3。键盘l用于文章数据的输入、关键词的输入、用于执行各种软件的指示的输入。进而,鍵盘l还用于在后述的摘要生成处理中的设定值的变更输入。
显示装置3输出成为摘要来源的来源文档、生成的摘要文、用于进行摘要生成处理的用户接口等并进行显示。
文档处理装置10上还连接图像扫描仪2。图像扫描仪2用于读取记载有文章的原稿,并利用OCR (Optical Character Recognition)来输入文档数据。
文档数据的取得,除了从键盘l的输入、从图像扫描仪2的输入以外,也可以通过通信I/F (接口 ) 6,从网络上的其他装置利用数据通信来取得。通信I/F6由用于连接LAN ( Local Area Network)的LAN卡、连接于公众交换电话网而进行数据通信用的调制解调器卡等来实现。
图2是示出文档处理装置10的功能性构成的方框图。文档处理装置10包括输入部11、预处理部12、分类部13、重要度算出部14、摘要生成部15、显示部16及语法词典/同义词词典17、分类辞典18而构成。
输入部11输入成为制作摘要的对象的文档数据。图1中所示的硬件构成中,键盘l、图像扫描仪2、通信I/F6等在功能上相当于输入部11。
被输入且成为摘要制作处理的对象的文档数据,是由多个具有意义的单词构成的文本数据,其数据结构包括例如多个句子、由多个句子构成的段落、由多个段落构成的文章主体、以及文档的标题。
当这样的文档数据通过输入部11输入时,暂时存储于预先决定的存储区域中。预先决定的存储区域,既可以是外部存储装置5内,也可以是内置于处理器4中的半导体存储器内。
所存储的文档数据,接着由预处理部12实施摘要生成处理用的预处理。在预处理部12中,首先,将文档数据的文本分离至最小单位的单词。本实施方式中,进行分离,直至名词、动词、形容词、助词、助动词等词类级别的单词为止。分离至单词的动作,可通过进行利用语法
词典、同义词词典、概念词典等的词素解析(POS Tagging)来实现。词素解析中,作为信息源利用对象语言的语法知识、词典,将以自然语言书写的句子分割为词素(语言中具有意义的最小单位)的列,判别各自的词类。
分类部13中,对由预处理部12分离的单词,利用分类词典18进行分类。由分类部13进行的分类是各单词的识别,与其同时也可以进行噪音的除去。作为噪音的除去,例如从被分离的单词中删除没有意义的单词即停词(stop word )。通过在分类部13中删除停词,能够减少后阶段中的处理对象的单词数,能够对处理进行高速化。
由于由分类部13进行的具体的分类依赖于使用的分类词典的分类类别,因此例如,也可以进行摘要生成处理的文档数据的领域、相应于领域来改变分类词典,也可以将1个分类词典适用于所有的文档数据。
如上所述那样分离、分类至各单词的文档数据,在预处理部12、分离部13中的各个结果,按各单词赋予关联,并存储在规定的存储区域中。此时按各单词进行了分离,但前述数据结构保持原样的状态下按各个单词进行存储。也就是说,经分离、分类的各单词是以可知道所属的
9句子的形态被存储的,各句子是以可知道所属的段落的形态,且各段落是以知道在文章主体中自己的顺序的形态保持数据结构的。
重要度算出部14算出经分离、分类的各单词的重要度,基于算出的各单词的重要度算出各句子的重要度。
以下,关于重要度的算出进行说明。
重要度由主题重要度(TH)和位置重要度(LI)构成,主题重要度由出现频度(TF)、标题词(TI)、线索词(CW)、停词(SW)、关键词(KW)等的特征构成,位置重要度(LI)由位置(LC)和子位置(SL)的特征构成。
首先,关于主题重要度的各特征进行说明。
出现频度(TF)
关于构成主题重要度的特征之一的出现频度进行说明。
特征即出现频度(TF )是用统计手法对所有单词的经标准化处理的出现频度的合计的平均值,且利用下述式(1)算出。
TFS= ( ZFRi x W / maxFR) / LGS …(1)
这里,FRi是各单词的频度,W是权重,maxFR是l个句子中的最大频度,LGs是表示1个句子的长度的单词数。通过利用LGS,可防止长而单调的句子的得分不适当地变高。
各单词的频度FRi可利用既存的统计手法算出。
最好在对各单词进行统计之前进行单词意义的聚类处理、和语义消歧。
单词中,包含表记不同但意义相同的单词,即所谓同义语。如果对这样的单词分别作为不同的单词进行统计处理,则不能得到正确的统计结果,因此对同义语的单词,最好应集结为一后进行统计处理。同义语可利用概念词典进行语义聚类处理。
另外相反地,单词中包含虽然表记相同但因与前后的单词的连接关系等而意义不同的单词。如果对表记相同的单词作为相同的单词进行统计处理,则不能得到正确的统计结果,因此最好对表记相同的单词的意义进行确定,意义不同时,作为不同的单词进行统计处理。这类单词的意义可利用概念词典进行确定。
标题词(TI)
关于构成主题重要度的特征之一的标题词进行说明。
如前所述,文档数据中含有文档的标题,且文档标题中所含的单词 在文档中属于重要单词的可能性较高。从而,句子中是否包含标题中所 含的单词,对句子的重要度产生影响,故将标题中所含的单词(标题词) 作为特征算出。
特征即TIS作为句子中包含的标题词的合计数算出。
关键词(KW)
关于构成主题重要度的特征之一 的标题词进行说明。
关键词由用户指定、输入的单词构成,例如作为将指定、输入的多 个单词进行列表化后的关键词列表预先存储在规定的存储区域中。
特征即KWS作为句子中包含的在关键词列表中列出的单词的合计 数算出。
关键词最好是如下构成,即例如,在经预处理部12处理后的各单 词中,抽出名词及动词,将抽出的名词及动词作为候选关键词一览显示, 并由用户从中指定。用户可容易地从候选关键词中选择感兴趣的单词。
关键词列表的变更只要是在摘要生成处理开始后,则可不用特别限 定。 一旦,在摘要生成后,可以重新进行关键词的指定、输入、删除等, 相应于由此被变更的关键词列表来重新计算特征即KW,随此也重新计 算主题重要度(TH)、得分S。这些重新计算的结果,由后述的摘要生 成部15生成的摘要也被变更。
另外,也可以是用户操作键盘l等来输入任意的单词,并将所输入 的单词作为关键词。
这样在本发明中,由于可以将用户任意指定、输入的关键词作为特 征利用,对主题重要度的算出直接产生影响,因此能够制作反映了用户 喜好的摘要。
线索词(CW)
关于构成主题重要度的特征之一 的线索词进行说明。线索词(Cue Words )是如下单词,即当在句子中使用"也就是说"、 "即"、"从而,,等单词时,则该句子是表示结论、总结的重要性高的句子。 这样的线索词,作为将多个线索词即单词进行列表化后的线索词列表预 先存储在规定的存储区域中。
特征即CWs作为句子中包含的在线索词列表中列出的单词的合计 数算出。
停词(SW)
关于构成主题重要度的特征之一 的停词进行说明。
停词是频度非常过高因而在算出得分时应将其除外的单词,其中包 含助词、助动词等。这样的停词,作为将多个停词即单词进行列表化后 的停词列表预先存储在规定的存储区域中。
句子中包含停词时,将该单词的得分设为规定的值或零。
利用如上所述那样算出的特征TF、 TI、 KW、 CW,用下述式(2) 算出主题重要度(TH)。
THi = Wi TFj + W2 TIi + W3 KWi + W4 CW; …(2 )
这里,Wp W2、 W3、 \¥4分别表示对特征TF、 TI、 KW、 CW的 权重。
其次,关于位置重要度进行说明。
位置(LC )
关于构成位置重要度的特征之一的位置进行说明。
如果句子包含于文档主体最初的段落或最后的段落中,进一步在该 段落中是第1句或第2句,则该句子多为重要,因此判断句子是否处于 这样的位置,例如在处于这样的位置时则将LC设为1,不是这样的位 置时则将LC"&为0。
子位置(SL )
关于构成位置重要度的特征之一的子位置进行说明。
如果句子包含于文档主体最初的段落或最后的段落中,则将SL设 为1,不是这样的位置时则将SL设为0。利用如上所述那样算出的特征LC、 SL,用下述式(3)算出位置重 要度(LI )。
LIk= W5LCk +W6 SLk …(3)
这里,W5、 W6分别表示对特征LC、 SL的权重。
通过将在式(2)及式(3)中算出的T玩和LIk适用于下述式U), 来算出表示1个句子的重要度的得分S。
表示1个句子的重要度的得分S由式(4)算出。
S = ZT玩x Cj x R / TN + ZLIk x Ck x (1-R) / LN …(4 )
这里,Ci、 Ck表示系数,R(0舀R^l)是T玩和LIk对得分S贡献 的比率,TN表示算出THi时使用的特征数,LN表示算出LI时使用的 特征数。得分变大是因为主题重要度(TH)和位置重要度(LI)变大, TH和LI变大是因为每一个单词的每一个上述特征的得分变大。
重要度算出部14重复上述那样的算出处理,算出1个文档数据中 包含的所有句子的重要度。
由此,将所有句子、和对各句子算出的得分赋予相关关系地存储在 外部存储装置5、内置于处理器4中的半导体存储器等中。
摘要生成部15从存储区域读出所有句子、和对各句子算出的得分, 按照得分顺序将句子重新排列。
重新排列后,从得分高的句子起选择规定数量的句子,将选择的多 个句子决定为构成摘要的句子。由于被选择的句子保持前述的数据结 构,因此也可以基于该数据结构,将选择的句子以遵从来源文档数据的 排列顺序的形态进一步重新排列而生成摘要。
这里,规定数量构成为可由用户任意地设定。作为用户可设定的参 数,可以是构成摘要的句子的数量,但更优选地应根据构成来源文档数 据的句子的总数来决定构成摘要的句子的数量。从而,将构成摘要的句 子的数量相对于构成来源文档数据的句子的总数的比率(以下称为"压 缩率")作为可由用户设定的参数来使用。
压缩率例如可由百分率(%)进行设定,当用户设定为30%时,如 果构成来源文档数据的句子的总数为50,则构成摘要的句子的数量为
1350的30%即15。此时摘要生成部15从得分高的句子起选择15个句子, 将选择的15个句子决定为构成摘要的句子。
压缩率与前述的权重、系数等一起作为设定值存储在外部存储装置 5、内置于处理器4中的半导体存储器等中。也可以存储预先决定的值 作为压缩率的初始值,若用户不进行变更则基于初始值从得分高的句子 起选择规定数量的句子,在用户进行了变更时,则基于用户作了变更的 值从得分高的句子起选择规定数量的句子。
显示部16显示摘要生成部15生成的摘要。此时,优选地应构成为 也可显示摘要的来源的文章。来源文章的显示,可以是与摘要并列地显 示,也可以是在摘要与来源文档之间切换而显示。
将多个文档数据作为摘要生成处理的对象来选择也是可能的,此 时,将根据多个文档数据生成的多个摘要并列地显示,对用户选择的l 个摘要显示来源文档。
通过这样做,可以在短时间内从大量的文档数据中,基于被显示的 摘要适当地选择必要的文档数据。
进而,本发明中,通过用户任意地设定关键词,能够制作反映了用 户喜好的摘要。
利用图3~9,对摘要生成处理的操作步骤进行说明。图3~9是示 出显示部16的显示画面例的图。
摘要生成处理是通过利用图中所示的接口 20并用户进行各种操作 而进行的。
在接口 20上配置有显示摘要的来源文档的内容的来源文档显示 区域21、显示摘要的内容的摘要显示区域22、读取来源文档用的打开 文件按钮23、设定参数用的设定按钮24、显示基于来源文档的候选关 键词的候选关键词一览显示区域25、显示用户指定的关键词的关键词显 示区域26、设定压缩率的压缩率设定滑动控件27、指示开始摘要生成 处理的处理开始按钮28等。
若按下设定按钮24,则显示图4中所示的设定表格30,可设定各 种参数。
本实施方式中,作为主题重要度(TH),可使用出现频度(TF)、标题词(TI)、线索词(CW)、停词(SW)、关键词(KW) 5个特征。 这些中,由于出现频度(TF)是必须的特征,因此可利用各选择框从 TI、 CW、 SW、 KW中选择TH的算出中所采用的特征。选择框31是 用于选择SW的,选择框32是用于选择CW的,选择框33是用于选 择KW的,选择框34是用于选择TI的。
进而,作为位置重要度(LI),可使用位置(LC)、子位置(SL) 2 个特征。能够利用各选择框从LC、 SL中选择LI的算出中所釆用的特 征。选择框35是用于选择LC的,选择框36是用于选择SL的。
来源文档的输入有3种方法,即选择既存的文本文件并进行输入 的方法;将来源文档显示区域21作为文本输入框,从键盘等直接输入 的方法;读取既存文本文件进而进行变更、追加等的方法。
图5是示出直接输入的方法的示意图。用户操作键盘l,而在来源 文档显示区域21中输入文档。图6是示出既存文本文件的输入方法的 示意图。若用户点击打开文件按钮23则既存的文本文件被显示,从中 选择来源文档的文件。被选择的文档的内容,显示在来源文档显示区域 21上。
若文档显示在来源文档显示区域21上,则处理开始按钮28变为有 效,因此通过将其按下,基于预先设定的参数来生成摘要。如图7中所 示,所生成的摘要显示在摘要显示区域中。由于当执行一次摘要处理时, 来源文档即被分离、分类,所以从其中将出现频度高的单词作为关键词, 一览显示在候选关鍵词一览显示区域25上。
如图8的示意图中所示,若双击候选关键词,或在选择了候选单词 的状态下按下追加按钮,则该单词被追加到右侧的关键词显示区域26 中。由此,关键词列表得到变更,进行重新计算,摘要被变更。
若单击关键词显示区域26的单词,或选择了候选单词的状态下按 下删除按钮,则该单词从选择了右侧的后选关键词的状态中被删除,关 键词列表得到变更,进行重新计算,摘要被变更。
进而,如图9的示意图中所示,用户可以在关键词输入区域29中 输入任意字符串,若在关键词输入区域29中输入字符串,则将其作为 关键词更新关键词列表,进行重新计算,摘要被变更。
关于本发明的实施例进行说明。图IO是示出摘要生成处理的对象的文档的一例的图。
本实施例中使用的文档,文章主体由l个段落构成,该段落由5个 句子构成。
另外,压缩率设定为40%,因此构成摘要的句子将选择2个句子。
图ll是示出由预处理部12、分类部13进行的处理结果的图。由预 处理部12将全部分离为单词,且各单词的词类得到分类。
图12是示出不输入关键词时的由重要度算出部14、摘要生成部14 进行的处理结果的图。
由重要度算出部14对实施了预处理的文档算出重要度,算出各句 子的得分,并按照得分从高到低的顺序排列的结果,如图12 (a)中所 示,成为如下顺序,即第3句(得分0.175873 )、第2句(得分0.110417 )、 第1句(得分0.105556 )、第5句(得分0.006513 )、第4句(得分0.002778 )。
摘要生成部14中,从得分高的句子起选择2个句子,即选择第3 句和第2句,按照来源文档的排列顺序重新排列,而成为第2句、第3 句的顺序,并将其作为摘要。结果示于图12(b)中。
接着,输入关键词并进行了重要度的重新计算。图13是示出输入 了关键词时的由重要度算出部14、摘要生成部14进行的处理结果的图。
本实施例中,输入了"生产力"作为关键词。由此,句子中包含生产 力的第3句、第1句的得分变化,其结果,如图13 (a)中所示,成为 如下顺序,即第3句(得分0.180635 )、第l句(得分0.147222)、第2 句(得分0.110417 )、第5句(得分0.006513 )、第4句(得分0.002778 )。
摘要生成部14中,从得分高的句子起选择2个句子,即选择第3 句和第1句,按照来源文档的排列顺序重新排列,而成为第1句、第3 句的顺序,并将其作为摘要。结果示于图13 (b)中。
这样,根据用户输入的关键词,所生成的摘要发生变化,能够制作 反映了用户喜好的摘要。
本发明能够在不脱离其精神或主要特征的条件以其它各种方式进 行实施。从而,前述的实施方式只不过是在所有方面上的例示而已,本 发明的范围是权利要求书中所示的范围,而不受说明书本文的任何限 制。进而,属于权利要求书范围的变形和变更等全部属于本发明范围内。
权利要求
1.一种文档处理装置,其特征在于,具有输入部,其输入文档;预处理部,其将由上述输入部输入的文档分离成多个单词;重要度算出部,其算出由上述预处理部分离的单词的至少基于频度的特征值,并基于上述算出的特征值来算出每一个由多个单词构成的句子的重要度;摘要生成部,其基于由上述重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要;显示部,其显示由上述摘要生成部生成的摘要;关键词输入部,其用于输入关键词,用户可以直接输入关键词,也可以通过预处理部分离的单词中选择关键词;而且,在由上述显示部显示由上述摘要生成部生成的输入文档的摘要后,若由上述关键词输入部输入关键词或通过预处理部分离的单词中选择关键词,则上述重要度算出部重新算出基于单词的频度以及所输入的单词的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度,上述摘要生成部基于由上述重要度算出部算出的每一个句子的重要度,依照句子重要度从高到低的顺序选择规定数量的句子,生成所输入的文档的摘要,上述显示部重新显示由上述摘要生成部生成的摘要。
2. 根据权利要求l所述的文档处理装置,其特征在于, 上述文档由文档主体和标题构成,该文档主体由多个句子构成, 上述重要度算出部还算出基于上述标题中包含的单词的特征值,并基于算出的特征值来算出句子的重要度。
3. 根据权利要求l所述的文档处理装置,其特征在于,上述重要度算 出部还算出基于预先决定的线索词的特征值,并基于算出的特征值来算出 句子的重要度。
4. 根据权利要求l所述的文档处理装置,其特征在于,上述关键词输 入部,通过从由上述预处理部分离的单词中进行选择来输入特定的关键 词。
5. 根据权利要求l所述的文档处理装置,其特征在于,若由上述关键 词输入部再次输入关键词,则上述重要度算出部再次算出基于单词的频度以及输入的关键词的特征值,并基于算出的特征值来再次算出每一个由多 个单词构成的句子的重要度,上述摘要生成部基于由上述重要度算出部算 出的每一个句子的重要度,并依照句子重要度从高到低的顺序再次选择规 定数量的句子,而再次生成所输入的文档的摘要,上述显示部再次显示由 上述摘要生成部生成的摘要。
全文摘要
本发明提供一种文档处理装置。根据该文档处理装置,若通过输入部(11)输入文档,则预处理部(12)将所输入的文档分离成多个单词。重要度算出部(14)算出基于单词的频度的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度。用户可以直接输入关键词,也可以通过预处理部分离的单词中选择关键词,由用户确定了关键词后,可以算出基于单词的频度以及关键词的特征值,并基于算出的特征值来算出句子的重要度。摘要生成部(15)基于所算出的重要度,并依照句子重要度从高到低的顺序选择规定数量的句子,生成所输入的文档的摘要,显示部(16)显示所生成的摘要。
文档编号G06F17/30GK101526938SQ20081000655
公开日2009年9月9日 申请日期2008年3月6日 优先权日2008年3月6日
发明者宁 乐, 波 吴, 奇 朱, 王婍犇, 晨 许 申请人:夏普株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1