信息处理设备、信息处理系统及信息处理方法

文档序号:6480281阅读:125来源:国知局
专利名称:信息处理设备、信息处理系统及信息处理方法
技术领域
本发明涉及用于从多个内容产生文档的技术。
背景技术
在传统技术中,当用户生成用于打印作为杂志或报纸的文档或文档文件 时,用户搜集例如文章和图像等内容,判断每一个内容的重要程度或视觉质量, 并确定文档内容的布局。然后将该文档打印为杂志或"t艮纸。
例如,美国专利No. 7243303揭示了一种技术,在该技术中,基于根据由 用户预先确定的每一个内容的重要程度预先确定的关系表达式,确定在文档中 包括的内容的位置和大小,然后基于确定的位置和大小在文档上自动布置内 容,并且将文档作为数据输出或打印出文档。
然而,根据上述技术,由于用户确定要编辑的每一个目标内容的重要程度 以及这些内容之间的关系,因此,当存在大量内容时,用户需要确定所有内容 的重要程度,这给用户带来了不便。
此外,由于内容的重要程度是由用户确定的,因此,当由对确定内容的重 要程度和关系具有不同标准的不同用户在文档上布置相同的内容时,布局不利 地发生改变。

发明内容
本发明的目的是至少部分地解决传统技术中的上述问题。 根据本发明的一个方面,提供一种信息处理设备,该设备包括存储部, 用于存储包括多个内容的文档;输入接收部,用于接收内容信息;内容提取部, 用于从在存储部中存储的文档所包括的内容中提取多个内容,该多个内容中的 每一个内容包括内容信息;关系计算部,用于计算由内容提取部提取的提取内
5容之间的语义相关程度;及布局产生部,用于基于语义相关程度来在新的文档 上确定该提取内容的位置并在所确定的位置上布置该提取内容,从而产生新的 文档。
根据本发明的另一方面,提供一种信息处理系统,该信息处理系统经由网 络可连接到文档服务器上,并且该信息处理系统存储包括多个内容的文档,该 信息处理系统包括通信部,用于从文档服务器中获取文档;存储部,用于存 储由通信部获取的文档;输入接收部,用于接收内容信息;内容提取部,用于 从在存储部中存储的文档所包括的内容中提取多个内容,该多个内容的每一个 包括内容信息;关系计算部,用于计算由内容提取部提取的提取内容之间的语 义相关程度;及布局产生部,用于基于语义相关程度来在新的文档上确定该提 取内容的位置并在所确定的位置上布置该提取内容,从而产生新的文档。
根据本发明的又一方面,提供一种产生文档的方法,包括存储步骤,在 存储部中存储包括多个内容的文档;接收步骤,接收内容信息;提取步骤,从
在存储部中存储的文档所包括的内容中提取多个内容,该多个内容中的每一个 内容包括内容信息;计算步骤,计算在提取步骤中提取的提取内容之间的语义 相关程度;确定步骤,基于语义相关程度来在新的文档上确定该提取内容的位 置;及布置步骤,在确定步骤中确定的位置上布置该提取内容,从而产生新的 文档。
当联系附图考虑时,通过阅读本发明的当前优选实施例的下面的具体描 述,将更好的理解本发明的上述及其它目的、特征、优点及4支术和工业意义。


图1是根据本发明第一实施例的信息处理设备的框图2是在图1中示出的存储部中存储的文档的示例的示意图3是在图1中示出的存储部中存储的文档中包括的文本的示意图4是在图1中示出的存储部中存储的文档中包括的表格的示意图5是在图1中示出的存储部中存储的文档中包括的图像的示意图6是用于说明在图5中示出的图像周围描述文本的示例的示意图7是用于说明由图1中示出的显示部显示的输出设置屏幕的示例的示意
图;图8是由图1中示出的关系计算部产生的数值矩阵的示例,其中每一个数 值都表示内容之间的相似性;
图9是表示由关系计算部产生的关系图的示例,该关系图表示内容之间的
关系;
图IO是用于说明由图1中示出的布局产生部产生的内容的布局的示意图ll是在显示部上显示多个内容的情况的示意图12是用于说明仅选择图11中示出的内容来由显示部显示的情况的示意
图13是由图1中所示的信息处理设备执行的文档产生操作的流程图; 图14是根据本发明第二实施例的信息处理系统的框图; 图15是由图14中所示的信息处理系统执行的文档产生操作的流程图; 图16是根据本发明第三实施例的多功能产品(MFP)的框图;及 图17是MFP的示例性硬件配置的框图。
具体实施例方式
下面,参考附图详细说明本发明的示例性实施例。
图1是根据本发明第一实施例的信息处理设备100的框图。信息处理设备 100包括输入接收部110、存储部120、显示部130、内容提取部140、关系计 算部150及布局产生部160。
输入接收部110包括例如键盘、鼠标或触摸面板等输入设备(未示出)。 输入接收部110接收来自用户的指令和/或数据。特定地,输入接收部110接 收在存储部120中存储的包括文本文档数据或图像数据以及用于从包括各种 文本、图像、表格等文档中提取内容的关键字的文件的说明(specification)等 (下文称为"文档")。
输入接收部110接收在布局产生部160在文档上布置由内容提取部140提 取的各种内容时由布局产生部160使用的输出设置。例如,该种输出设置包括 输出文件的格式、每页的字符数量、列设置的存在或不存在以及页边距。
此外,输入接收部110接收用于从文档识别内容的区域说明。例如,区域 说明可以以行数和页数的形式,例如"从第2页第1行到第4页第50行"。
存储部120是例如硬盘驱动器(HDD)或存储器等存储介质。存储部120
7预先存储上述文档及由布局产生部160产生的文档。图2是在存储部120中存 储的文档的示例的示意图。存储部120存储例如abc.doc、 def.pdf、 ghi.html、 jkl.jpg及mno.txt文档等各种类型的文档。存储部120以相关联的方式来存储 表示在每一个文档中包括的页数的页信息以及表示在每一页中包括的内容的 内容信息。
例如,abc.doc文档包括4页,并且abc.doc文档的第 一 页包括由图2中所 示的斜线表示的内容301。内容301包括由输入接收部110接收到的关键字(例 如,"公司A")。
abc.doc文档的第二页以与第一页相同的方式包括内容302,内容302包括 由输入接收部110接收到的不同的关键字(例如,"管理负责人(principal),,)。
类似地,def.pdf文档包括在第二页上具有关键字(例如,"公司A")的内 容304。 ghi.Mml文档也包括具有关键字(例如,"公司A")的内容303。
存储部120中存储的文档不限于图2中所示的文档的类型。例如,文档可 以是可扩展标识语言(XML)数据、以开放文档格式产生成的数据或邮件、 多媒体目标、动画目标等。
图3是内容301的示意图。内容301包括在abc.doc文档的第一页上以明 细方式写出的文本。当输入接收部110接收到来自用户的关键字"公司A"时, 内容提取部140如后面描述的那样识别包括关键字"公司A"的文本。存储部 120存储包括例如内容301等具有关键字的内容的文档。
图4是内容302的示意图。内容302包括表示公司A的每一个部门的收 入及支出的表格。除了文本,可以以表格形式表现在文档中包括的内容。
图5是内容303的示意图。内容303包括具有公司A的标识的主页。该 标识为图像的形式。
图6是用于说明在标识的周围(图6中为在标识的下面)描述了用于说明 公司A的标识的文本的示例的示意图。在文档中包括的其它内容可以包括图 像或表格,以及在图像或表格周围布置的用于说明图像或表格的文本数据。
另外,连同例如文本、表格及图像等各种数据,文档可以包括例如生成数 据的日期和时间、数据的生成者、数据格式、标题及注释等描述信息(下文称 为"属性信息")的元数据。如果文档包括元数据,则内容提取部140确定由输入接收部110接收到的关键字与属性信息(例如,生成者)是否相匹配,从
而从文档识别内容。
图7是用于说明用于产生由显示部130显示的文档的输出设置屏幕的示例 的示意图。显示部130包括例如液晶显示器(LCD)等显示设备(未示出)。 显示部130显示登录屏幕130a以接收输入,输入例如是用于从文档提取内容 的关键字、要产生的文档的标题、文档的生成者、文档的摘要信息、页眉和页 脚的存在或不存在、例如两列格式的存在或不存在的页格式以及如果要打印出 文档时纸张的大小。
显示部130显示由布局产生部160如后面描述的那样产生的文档的内容。 此外,如果根据由输入接收部IIO接收到的各种条件产生了多个文档,则显示 部130对用户显示选择屏幕(未示出)以选择所产生的文档中的一个。
内容提取部140从在存储部120中存储的各种文档中识别出包括由输入接 收部IIO接收到的关键字的文档。然后,内容提取部140从所识别出的文档中 识别包括关键字的文本等作为内容,从该文档中提取所识别出的内容,并在存 储部120中存储所提取的内容。
特定地,当输入接收部IIO接收到关键字时,内容提取部140从多个文档 中识别出包括与关键字相同的文本的文档,从所识别出的文档中识别出包括与 关键字相同的文本的文本等,并提取出所识别出的文本等作为内容。
识别出要作为内容提取的文本的区域从而例如确定在包括与关键字相同 的文本的文本之前和之后是否存在空白行或段分隔符,如果在与关键字相同的 文本之前存在空白行或段分隔符,则确定空白行或段分隔符的位置是要提取的 内容的开始位置。
以相同的方式,如果在与关键字相同的文本之后存在空白行或段分隔符, 则确定空白行或段分隔符的位置是要提取的内容的结束位置。这样,确定开始 位置和结束位置,并提取出由开始位置和结束位置包围的区域中的文本等作为 内容。
例如,当使用"公司A"作为关键字从文档中提取图3中所示的内容301 时,内容提取部140识别出"公司A"出现的位置(描述"公司A的管理负 责人"的行)。然后,内容提取部140确定在所识别出的位置上的行的前一行是否是空白行,如果是空白行,则在随机访问存储器(RAM)(未示出)中存 储该行作为用于识别内容的开始位置(开始行)。特定地,在RAM中存储位 于出现"公司A的管理负责人"的行之前的第一空白行的位置。
以相同的方式,在RAM中存储位于出现"公司A的管理负责人"的行之 后的第一空白行的位置。识别出由这些空白行包围的区域内的文本(在图3 中以明细方式所写的"7>司A的管理负责人"中的第一和随后的项)作为内 容,并从文档abc.doc中提取出所识别出的内容。
如果在由内容的开始位置和结束位置包围的区域中包括图像,则内容提取 部140认出图像和图像周围描述的文本二者作为内容,并从文档中提取图像和 文本。
例如,在识别包括关键字的内容时,内容提取部140通过读取用于在文档 等中嵌入图像的标签确定在内容的区域中是否存在图像。然后,内容提取部 140认出由该标签包围的区域作为图像,并从文档中提取用于说明该图像的、 与图6中所示的文本相同的文本以及该图像。
在读取图5所示的内容303中的标识中包括的文本"公司A"之后,内容 提取部140可以识别出由标签等包围的区域作为图像,如果在图像周围(图6 中在图像下面)设置了包括与关键字"公司A"相同的文本的说明文本,则内 容提取部140提取所识别出的图像以及说明文本。
上面说明了内$^取部140通过识别空白行、段分隔符或标签来识别在文 档中包括的内容,并从文档中提取所识别的内容。可选择地,例如,可以配置 内容提取部140以通过识别行分隔符的位置等来识别内容。
此外,上面说明了内容提取部140通过在文档中包括的文本或图像的位置 (行或标签)等识别内容,并从文档中提取所识别的内容。可选择地,如果文 档的内容像报纸文章那样被预先包括在某布局框(layout frame )(尤其是具有 预定长度和宽度的布局框)中,则可以配置内容提取部140以识别布局框作为 内容,并从文档中提取所识别的内容。特定地,可以配置内容提取部140以不 识别内容的开始位置和结束位置、标签的位置等而识别在布局框中包括的整个 文本或图像作为内容,并从文档中提取所识别的内容。
如果输入接收部110接收到关键字的说明及在文档中包括的内容的区域,则可以配制内容提取部140以在指定区域(例如,从第2页上第1行到第4 页上第50行的区域)内提取包括输入接收部IIO接收到的关键字的内容。
关系计算部150分析由内容提取部140从文档中提取并存储在存储部120 中的每个内容的语义内容,确定有多少内容互相相似,并以数值表示相似性。
特定地,关系计算部150读取在由内容提取部140从文档中提取并存储在 存储部120中的内容中描述的文本,并通过使用例如全文搜索等方法比较文本 来确定有多少文本与从文档中提取的不同内容中描述的文本相匹配。
如果文本完全匹配,则内容提取部140在存储部120中存储"1.0"作为 表示内容之间的相似程度的数值。如果文本根本不匹配,则内容提取部140 在存储部120中存储"0.0"作为表示内容之间的相似程度的数值。
此外,如果仅仅文本的部分匹配,则关系计算部150的一种方法是基于在 多个内容的每一个内容中包括的关键字的命中(hit)数量来确定内容之间的相 似程度,并在存储部120中存储例如"0.3"或"0.6"等数值作为确定结果。 如果接收到多个关键字,则关系计算部150可以对第一关键字和第二关键字中 的每一个分配权重值,并通过比较内容中的第一关键字和第二关键字的命中数 量来计算表示内容之间的相似程度的数值。在该情况下,关系计算部150关于 每一个关键字计算表示内容之间的相似程度的数值,并在存储部120中存储计 算出的数值。
图8是由关系计算部150产生的数值矩阵的示例,其中每一个数值都表示 内容之间的相似性。在计算内容之间的相似程度作为数值时,关系计算部150 产生通过以表格形式呈现每一个数值都表示内容之间的相似程度的数值获得 的矩阵。关系计算部150可以对每一个关#:字产生该种矩阵。
图9是表示由关系计算部150产生的关系图的示例,该关系图表示内容之 间的关系。关系计算部150通过参考所产生的矩阵来产生关系图。例如,关系 计算部150基于在内容al和内容a2的每一个中包括的关键字的命中数量,计 算出表示图8中所示的内容al和内容a2之间的相似程度的数值为"0.3",然 后产生通过由如图9中所示的线连接内容al和内容a2获得的关系图。以相同 的方式,关系计算部150通过连接内容al和内容bl、内容al和内容cl以及 内容a2和内容bl产生关系图。布局产生部160基于图9中所示的关系图和图8中所示的矩阵,在新的文 档的页上布置每一个内容。
图10是用于说明基于表示内容al、 a2、 bl及cl之间的相似程度的数值 由布局产生部160产生的内容al、 a2、 bl及cl的布局。特定地,布局产生部 160确定内容的位置作为在新的文档的页上的参考(例如,内容al的中心点 a10),新的文档的页具有预设的长度Y和宽度X,其中页的左上端被定义为 零,图10中的向右方向和向下方向分别被定义为x轴和y轴。
布局产生部160在位于离中心点a10相应于表示内容al和cl之间的相似 性的数值"0.5"的距离的位置上布置具有与内容al高度相似的内容。如果表 示内容之间的相似性的数值是"1.0",则布局产生部160确定内容完全匹配, 并邻近在新的文档上作为参考的内容布置该内容。
如果内斜艮本不匹配,则表示内容之间的相似性的数值是"0.0",因此, 布局产生部160以长度y和宽度x为最大值在互相最远离的位置上布置内容。 例如, 一个内容被布置在文档的页的最上端,而另一个内容被布置在该页的最 下端。
特定地,当表示内容之间的相似程度的数值是不同于"1.0"和"0.0"的 数值(例如,"0.5"),则布局产生部160按比例地划分对应于数值"1.0"和"0.0" 的距离来计算离作为参考的内容(例如,内容al)的距离,并基于计算出的 距离在新的文档中布置内容。
如果输入接收部IIO接收到关于文档的输出设置信息(例如,输出文件的 格式、每页的字符数量、列设置的存在或不存在、页边距),则布局产生部160 基于输出设置信息和由关系计算部150计算出的表示内容之间相似程度的数 值来在新的文档上布置每一个内容。
例如,如果文件格式是文档文件格式(例如,AA.doc)并且例如无页边 距和两列格式等输出设置被指定,则在图10中所示的布局上布置内容。
当布局产生部160在文档上布置每一个内容时,显示部130显示该内容。 图11是用于说明当输出设置被指定从而在具有两列格式和不具有两列格式的 布局上显示文档时,在显示部130的窗口 130b上显示的所产生的文档的显示 示例的示意图。
12出的显示部130显示的文档要通过不具有两列格式输出设置输出的情况的示意图。以该方式,从在存储部120中存储的文档中提取内容,并通过组合所提取的内容来产生新的文档。
图13是由信息处理设备100执行的文档产生操作的流程图。在下面的描述中,假设存储部120存储图2所示的文档,输入接收部110不接收用于从文档识别内容的区域说明。
输入接收部IIO接收到用于从文档中提取内容的关键字(步骤S1301),并接收到要产生的新文档的输出设置信息(步骤S1302 )。
然后,内容提取部140从在存储部120中存储的文档中提取包括在步骤S1301中接收到的关键字的文档(步骤S1303 )。
然后,内容提取部140读取在步骤S1303中提取的文档中描述的内容,从文档中提取每个都包括在步骤S1301接收到的关键字的多个内容,并在存储部120中存储所提取的内容(步骤S1304)。
然后,关系计算部150读取在步骤S1304中在存储部120中存储的每一个内容中包括的文本,确定在文本中命中由输入接收部IIO接收到的关键字的数量,并计算表示内容之间的相似(语义相关)程度的数值(步骤S1305 )。
此外,关系计算部150产生在步骤S1305中计算出的数值的矩阵,并通过使用矩阵中的数值产生关系图(步骤S1306)。
然后,基于在步骤S1302由输入接收部IIO接收到的输出设置信息及在步骤S1305由关系计算部计算出的数值,布局产生部160在新的文档上布置在步骤S1304中由内容提取部140提取的内容(步骤S1307),然后,在存储部120中存储包括上述布置的内容的新的文档(步骤S1308)。当步骤S1308中的操作结束时,用于产生新的文档的所有操作结束。
如上所述,根据第一实施例,存储部120存储文档,输入接收部IIO接收用于从文档中提取内容的关键字,内容提取部140从文档中提取每个都包括由输入接收部IIO接收的关键字的多个内容。此外,关系计算部150计算由内容提取部140提取的内容之间的语义相关程度,布局产生部160基于内容之间的语义相关程度来在新的文档上确定这些内容的位置并在这些位置上布置内容,从而产生新的文档。从而,可以通过不给用户造成麻烦而以简单及客观的方式提取内容来产生文档。
此外,文档的内容包括图像数据或文本数据,图像数据包括表示图像数据
是否包括文本的属性信息。基于由输入接收部110接收的关键字及在图像数据中包括的属性信息或在文本数据中所包括的文本,内容提取部140从文档中提取多个内容。从而,可以通过更简单及更客观的方式提取内容来产生文档。
另外,属性信息是在图像数据周围布置的文本,并且,基于由输入接收部110接收的关键字及在图像数据周围布置的属性信息或在文本数据中包括的文本,内容提取部140从文档中提取多个内容。从而,可以通过以更简单及更客观的方式提取内容来产生文档。
此外,关系计算部150通过比较内容产生表示内容之间的相似性的关系图,并基于所产生的关系图来计算内容之间的语义相关程度,从而用户在产生文档的过程中可以真实地确定内容之间的相关性。
另外,关系计算部150通过比较内容产生表示内容之间的相似性的表格,并基于所产生的表格来计算内容之间的语义相关程度,从而用户在产生文档的过程中可以快速地确定内容之间的相关性。
此外,输入接收部IIO接收表示文档中的预定区域的区域信息,内容提取
容,关系计算部150计算由内容提取部140提取的内容之间的语义相关程度。
另外,以多个内容中的一个内容作为参考,关系计算部150将计算出的内容之间的语义相关程度转换为在新的文档上的坐标系统中的位置关系,并且,基于由关系计算部150所转换的位置关系,布局产生部160在新的文档上确定内容的位置。从而,用户可以更真实并更直观地确定内容之间的相关性。
如上所述,根据第一实施例,从在存储部120中存储的文档中提取多个内容,计算表示内容之间的相关性的数值,并基于该数值在新的文档上布置内容。然而,可以在因特网环境或局域网(LAN)环境中获取包括目标内容(通过该目标内容新的文档将要产生)的文档。在下面的描述中,说明信息处理设备经由网络检索在服务器设备中存储的文档,在信息处理设备的存储部中存储文档,从在存储部中存储的文档中提取多个内容,并计算内容之间的相似性,从而产生新的文档。
图14是才艮据本发明第二实施例的信息处理系统1000的框图。信息处理系统1000包括信息处理设备500、服务器设备700及通信网络600。信息处理设备500与信息处理设备100的不同之处在于信息处理设备500还包括通信部1401、存储部1402及检索部1403。在下面的描述中,相同的附图标记用于与在第一实施例中的部件相同的部件,'并省略这些相同部件的说明。
通信部1401是传播信息处理设备500及通信网络600之间的通信的通信接口 ( I/F )。通信部1401是使检索部1403从服务器设备700获取文档并在存储部1402中存储所获取的文档的中间部件。
存储部1402是例如HDD或存储器等记录介质。存储部1402既存储由检索部1403从服务器设备700中获取的文档,也存储在信息处理设备500中预先存储的本地文档。由于存储部1402的具体配置与第一实施例中的配置相同,因此省略该配置的说明。
检索部1403从服务器设备700中存储的文档中检索包括与由输入接收部110接收的关键字相同的文本的文档,并在存储部1402中存储所检索出的文档。
当检索部1403从服务器设备700中检索并获取文档时,通信网络600将来自服务器设备700的文档传送到检索部1403。通信网络600是因特网或例如LAN或无线LAN等网络。
服务器设备700包括通信部710及存储部720。
通信部710是传播服务器设备700及通信网络600之间的通信的通信接口(I/F )。通信部710是接收来自检索部1403的文档检索请求并将在存储部720中存储的文档传送到信息处理设备500的中间部件。
存储部720是例如HDD或存储器等记录介质。存储部720存储包括文本、图像、文章等的文档。由于存储部720的具体配置与第一实施例中的配置相同,因此省略该配置的说明。
信息处理系统1000与信息处理设备100的不同之处仅在于,检索部1403从服务器设备700中检索并获取文档,并在存储部1402中存储所获取的文档,因此,下面参考图15仅说明该操作。由于其它操作与在第一实施例中的那些操作相同,因此相同的附图标记用于与在第一实施例中的操作中的那些部件相同的部件,并省略那些部件的说明。
图15是由信息处理系统1000执行的文档产生操作的流程图。当输入接收部110接收到关键字(步骤S1301)并接收到要产生的新的文档的输出设置信息(步骤S1302 )时,检索部1403经由通信部1401及通信网络600访问服务器设备700,检索包括在步骤S1301中接收的关键字的文档,获取所检索的文档,并在存储部1402中存储所获取的文档(步骤S1501 )。内容提取部140从在存储部1402中存储的文档中提取每个都包括关键字的多个内容。然后,执行与在第一实施例中的操作相同的操作(步骤S1304到S1308)。
如上所述,在经由通信网络600连接到服务器设备700的信息处理设备500中,通信部1401从服务器设备700中获取文档,存储部1402存储由通信部1401获取的文档,输入接收部IIO接收用于从文档识别内容的信息(关键字),内容提取部140从文档中提取每个都包括由输入接收部110所接收的关键字的多个内容。此外,关系计算部150计算由内容提取部140所提取的内容之间的语义相关程度,布局产生部160基于这些内容之间的语义相关程度来在新的文档上确定这些内容的位置并在这些位置上布置内容,从而产生新的文
档并从文档中提取内容来产生新的文档。
在第一和第二实施例中说明了通过使用由输入接收部110接收的关键字来从在存储部中存储的文档中识别并提取内容,计算表示内容之间的相似性的数值,并基于计算出的数值在新的文档上布置内容。然而,当通过提取例如在报纸或杂志中包括的文章等不同于预先存储的内容的内容来产生文档时,需要读取在报纸或杂志的页中包括的文章以产生文档。因此,在下面的描述中,说明读取在报纸或杂志的页中包括的文本或图像,产生通过读取文本或图像获得的图像数据作为文档,从产生的文档中提取多个内容,并计算内容之间的相似性,从而产生新的文档。
图16是根据本发明第三实施例的多功能产品(MFP )800的框图。MFP 800与信息处理设备100的不同之处在于MFP 800包括操作显示部1601、扫描部1602、存储部1603及打印部1604。在下面的描述中,相同的附图标记用于与在第一实施例中的操作中的那些部件相同的部件,并省略那些部件的说明。虽然下面说明第三实施例被应用于包括复制功能、传真功能、打印功能、扫描功能等的MFP 800,但是该实施例可以被应用于具有打印功能的设备。
操作显示部1601包括例如液晶显示器(LCD)等显示器(未示出)。操作显示部1601是当扫描部1602根据来自用户的指令读取报纸、杂志等的原件并在存储部1603中存储通过读取原件获得的数据时或当打印部1604输出在存储部1603中存储的文档时指定设置信息(例如存在/不存在双面打印、扩大打印及缩小打印、放大或缩小的比例等打印设置信息)的I/F。
扫描部1602包括自动输稿器(ADF)(未示出)和读取部(未示出)。在从操作显示部1601接收到用户的指令时,扫描部1602根据用于文档的输出设置来读取在曝光玻璃上的预定位置上放置的原件,并在存储部1603中存储通过读取原件获得的数据作为图像数据(文档)。
存储部1603是例如HDD或存储器等记录介质。存储部1603既存储从由扫描部1602读取的原件产生的图像数据(文档),也存储在MFP 800中预先存储的本地文档。由于存储部1603的具体配置与在第一实施例中的配置相同,因此省略该配置的说明。
打印部1604包括光学写入部(未示出)、光敏元件(未示出)、中间转印带(未示出)、充电部(未示出)、例如定影辊等各种辊(未示出)以及收集盘(未示出)。打印部1604根据经由操作显示部1601从用户接收的打印指令打印出在存储部1603中存储的文档,并将具有已打印的文档的纸排出到收集盘。
虽然没有参考

由MFP800执行的操作,然而,扫描部1602根据用户的指令读取包括文本、图像、文章等的原件,并在存储部1603中存储通过读取原件获得的图像数据(文档)。然后,在执行图13中所示的步骤S1301到S1308的操作之后,打印部1604执行打印出在步骤S1301到S1308产生的文档的操作。当上述操作结束时,根据第三实施例的全部操作结束。
如上所述,扫描部1602读取包括文档中包括的文本或图像的数据,存储部1603存储由扫描部1602读取的数据,输入接收部IIO接收用于从文档中提取内容的关键字。此外,内容提取部140从文档中提取每个都包括由输入接收
17部110接收的关键字的多个内容,关系计算部150计算由内容提取部140提取 的内容之间的语义相关程度,布局产生部160基于内容之间的语义相关程度来 在新的文档上确定内容的位置并在这些位置上布置内容,从而产生新的文档。 另外,打印部1604打印出由布局产生部160产生的新的文档。这样,可以通 过不给用户造成麻烦而以简单及客观的方式从没有预先存储的文档中提取内 容来产生并打印出新的文档。
图17是用于说明MFP800的硬件配置的框图。MFP800包括经由外围设 备互联(PCI)总线互相连接的控制器10和引擎60。控制器10控制整个MFP 800、绘图操作、通信及从操作部接收的输入(未示出)。引擎60是可以被连 接到PCI总线的打印机引擎等。例如,引擎60是单色绘图仪、单鼓绘图仪、 四鼓绘图仪、扫描仪或传真部。除了例如绘图仪等引擎部,引擎60还包括执 行例如错误扩散和伽马转换等处理的图像处理部。
控制器10包括中央处理单元(CPU) 11、北桥(NB) 13、系统存储器 (MEM-P ) 12、南桥(SB ) 14、本地存储器(MEM-C ) 17、专用集成电路(ASIC ) 16及HDD 18。经由图形加速端口 ( AGP)总线15将NB 13和ASIC 16连接。 MEM-P 12包括只读存4诸器(ROM) 12a及RAM 12b。
CPU 11控制MFP 800。 CPU 11包括具有MEM-P 12、 NB 13及SB 14的 芯片组,并经由该芯片组连接到其它设备。
NB 13将CPU 11连接到MEM-P 12、 SB 14及AGP总线15。 NB 13包 括控制对MEM-P 12、 PCI主(未示出)及AGP目标(未示出)写入和从MEM-P 12、主PCI (未示出)及目标AGP (未示出)读取的存储器控制器(未示出)。
MEM-P 12是用作例如用于存储计算机程序和数据的存储器、用于扩展计 算机程序和数据的存储器或用于在计算机中绘图的存储器等的系统存储器。 ROM 12a用作存储计算机程序和数据的存储器。RAM 12b是用作扩展计算机 程序和数据的存储器及在打印机中绘图的存储器的可写和可读存储器。
SB 14将NB 13连接到PCI设备(未示出)和外围设备(未示出)。经由 PCI总线将SB 14连接到NB 13。网络I/F部(未示出)等也被连接到PCI总 线。
ASIC 16是用于图像处理的集成电路(IC),并且ASIC 16包括用于图像处理的硬件元件。ASIC 16用作将AGP总线15、 PCI总线、HDD 18及MEM-C 17相互连接的桥。ASIC 16包括目标PCI (未示出)、主AGP (未示出)、仲裁 器(ARB)(未示出)、存储器控制器(未示出)、多个直接存储器访问控制器 (DMAC)(未示出)及PCI部(未示出)。ARB是ASIC 16的中心部件。存 储器控制器控制MEM-C 17。 DMAC通过硬件逻辑等旋转图像数据。PCI部经 由PCI总线将数据传送到引擎60。经由PCI总线将ASIC 16连接到传真控制 单元(FCU) 30、通用串行总线(USB) 40及电气与电子工程师协会(IEEE) 1394 I/F 50。操作显示部20被直接连接到ASIC 16。
MEM-C 17用作复制图像緩冲器及代码緩沖器。HDD 18是存储图像数据、 计算机程序、字体数据及格式的存储器。
AGP总线15是用于图形加速卡的总线I/F,图形加速卡用于获得高速的 图形处理。AGP总线15以高的吞吐量访问MEM-P 12,从而获得图形加速卡 的高速处理。
预先在ROM等中存储由信息处理设备100和500以及MFP 800中的每个 执行的计算机程序。可以在例如致密光盘只读存储器(CD-ROM )、软盘(FD)、 可记录致密光盘(CD-R)或多功能数码光盘(DVD)等计算机可读记录介质 中将由MFP 800执行的计算机程序存储为可安装或可执行文件。
以上说明在信息处理设备100和500及MFP 800中,当经由输入接收部 110接收到来自用户的用于产生文档的指令时,开始通过从在存储部中存储的 文档中提取多个内容来产生新的文档的操作。然而,例如,可以在信息处理设 备或图像形成设备中计划用于提取内容并产生新的文档的各种操作,并且用户 在信息处理设备或图像形成设备的存储部中存储文档和用于提取内容的关键 字等,从而在预定的定时(例如,在周一早上IO点)从在存储部中存储的文 档中自动地提取内容。这样,由于计划了用于提取内容并产生新的文档的操作,文档。
另外,上面说明在信息处理设备100和500及MFP 800中,由输入接收 部110接收的信息包括要产生的新的文档的输出设置信息及用于从文档中识 别内容的文档的指定区域。然而,例如,当产生新的文档时,输入接收部IIO可以接收输入,该输入用于指定新的文档上的某个区域(例如,第2页上的第 l行到第5行的区域)是不能写入的或保留的,从而防止内容被布置在该区域 上。这样,由于输入接收部UO可以接收该输入,对于用户可以以更具体的方 式产生新的文档。
由信息处理设备100和500及MFP 800中的每个执行的计算机程序具有 包括上述部件(内容提取部、关系计算部、布局产生部等)的模块配置。对于 实际硬件,CPU从ROM中读取计算机程序并执行所读取的计算机程序,从而 在主存储设备上装载并生成内容提取部、关系计算部及布局产生部。
根据本发明的一个方面,可以通过不给用户造成麻烦而以简单及客观的方 式提取内容来产生文档。
此外,可以通过以更客观及更有效的方式提取内容来产生文档。
另外,用户可以更真实并更直观地确定内容之间的相关性。 另外,可以通过不给用户造成任何麻烦而以简单及客观的方式经由网络访 问文档并从文档中損_耳又内容来产生新的文档。
的文档中提取内容来产生并打印出新的文档。
另外,可以提供由计算机执行的计算机程序。
注释10. —种信息处理系统,所述信息处理系统经由网络连接到文档服 务器上,并且所述信息处理系统存储包括多个内容的文档,所述信息处理系统 包括
通信部,用于从文档服务器中获取文档; 存储部,用于存储由通信部获取的文档; 输入接收部,用于接收内容信息;
内容提取部,用于从在存储部中存储的文档所包括的内容中提取多个内 容,所述多个内容的每一个都包括内容信息;
另外 另外 另外
另夕卜,可以通3关系计算部,用于计算由内容提取部提取的提取内容之间的语义相关程
度;及
布局产生部,用于基于所述语义相关程度来在新的文档上确定所述提取内 容的位置并在所述位置上布置所述提取内容,从而产生新的文档。
注释io-i.根据注释io的信息处理系统,其中,
所述多个内容中的每一个内容都包括图像数据和文本凄史据中的任意一种, 所述图像数据包括表示所述图像数据是否包括文本的属性信息,及
基于由所述输入接收部接收到的内容信息及在所述图像数据中包括的所 述属性信息和在所述文本数据中包括的所述文本中的任意一个,所述内容提取 部提取所述内容。
注释10-2.根据注释io-i的信息处理系统,其中,
所述属性信息是在图像数据周围布置的文本,及
基于由所述输入接收部接收的内容信息及在所述图像数据周围布置的所 述属性信息和在所述文本数据中包括的所述文本中的任意一个,所述内容提取 部提取所述内容。
注释10-3.根据注释10到10-2中的任一信息处理系统,其中,所述关系 计算部通过比较所述提取内容来产生表示所述提取内容之间的相似性的关系
图,并且所述关系计算部基于所述关系图来计算所述提取内容之间的语义相关程度。
注释10-4.根据注释10到10-2中的任一信息处理系统,其中,所述关系
并且所述关系计算部基于所述表格来计算所述提取内容之间的语义相关程度。 注释10-5.根据注释10到10-4中的任一信息处理系统,其中, 所述输入接收部接收表示所述文档中的预定区域的区域信息,及 所述内M取部从所述预定区域中提取所述内容。 注释10-6.根据注释10到10-5中的任一信息处理系统,其中, 所述关系计算部以所述提取内容中的一个内容作为参考,将所述语义相关
程度转换为在新的文档上的坐标系统中的位置关系,及
所述布局产生部基于所述位置关系在新的文档上确定所述提取内容的位
21置。
注释10-7.根据注释10的信息处理系统,进一步包括 读取部,用于读取文档中包括的文本和图像中的任意一种的数据,并在所 述存储部中存储由所述读取部读取的所述数据,及 打印部,用于打印出新的文档。
注释10-8.根据注释10-7的信息处理系统,其中,所述信息处理设备是 图像形成设备。
注释ll. 一种产生文档的方法,包括 存储步骤,在存储部中存储包括多个内容的文档; 接收步骤,接收内容信息;
提取步骤,从在存储部中存储的文档所包括的内容中提取多个内容,所述
多个内容中的每一个内容都包括内容信息;
计算步骤,计算在提取步骤中提取的提取内容之间的语义相关程度;
确定步骤,基于所述语义相关程度来在新的文档上确定所述提取内容的位
置;及
布置步骤,在确定步骤中确定的所述位置上布置所述提取内容,从而产生 新的文档。
注释ll-l.根据注释ll的方法,其中,
所述多个内容中的每一个内容都包括图像数据和文本数据中的任意一种, 所述图像数据包括表示所述图像数据是否包括文本的属性信息,及
所述提取步骤包括基于在所述接收步骤中接收到的内容信息及在所述图 像数据中包括的所述属性信息和在所述文本数据中包括的所述文本中的任意
一个来提取所述内容。
注释11-2.根据注释11-1的方法,其中,
所述属性信息是在图像数据周围布置的文本,及
所述提取步骤包括基于在所述接收步骤中接收的内容信息及在所述图像 数据周围布置的所述属性信息和在所述文本数据中包括的所述文本中的任意 一个来提取所述内容。
注释11-3.根据注释11到11-2中任一的方法,其中,所述计算步骤包括系图,并且
基于所述关系图来计算所述提取内容之间的语义相关程度。
注释ii_4.根据注释11到11-2中任一的方法,其中,所述计算步骤通过
述表格来计算所述提取内容之间的语义相关程度。
注释11-5.根据注释11到11-4中任一的方法,其中,
所述接收步骤包括接收表示所述文档中的预定区域的区域信息,及
所述提取步骤从所述预定区域中提取所述内容。
注释11-6.根据注释11到11-5中任一的方法,其中,
所述计算步骤包括以所述提取内容中的一个内容作为参考,将所述语义相 关程度转换为在新的文档上的坐标系统中的位置关系,及
所述确定步骤包括基于所述位置关系在新的文档上确定所述提取内容的 位置。
注释11-7.根据注释11的方法,进一步包括
通过读取部来读取文档中包括的文本和图像中的任意一种的数据,并在所 述存储部中存储所述数据,及
通过打印部来打印出新的文档。
注释11-8.根据注释11-7的方法,其中,在图像形成设备上实现所述方法。
虽然结合特定实施例已经对本发明进行了完整和清楚的揭示,但是并不因 此限制后附权利要求,权利要求应当被解释为包括完全落入本文阐述的基本宗 义内的、对本领域技术人员可能出现的所有的修改和可选构造。
权利要求
1. 一种信息处理设备,包括存储部,用于存储包括多个内容的文档;输入接收部,用于接收内容信息;内容提取部,用于从在存储部中存储的文档所包括的内容中提取多个内容,所述多个内容中的每一个内容都包括内容信息;关系计算部,用于计算由内容提取部提取的提取内容之间的语义相关程度;及布局产生部,用于基于所述语义相关程度来在新的文档上确定所述提取内容的位置并在所述位置上布置所述提取内容,从而产生新的文档。
2. 根据权利要求1所述的信息处理设备,其中,所述多个内容中的每一个内容都包括图像数据和文本数据中的任意一种, 所述图像数据包括表示所述图像数据是否包括文本的属性信息,及基于由所述输入接收部接收到的内容信息及在所述图像数据中包括的所 述属性信息和在所述文本数据中包括的所述文本中的任意一个,所述内容提取 部提取所述内容。
3. 根据权利要求2所述的信息处理设备,其中, 所述属性信息是在图像数据周围布置的文本,及基于由所述输入接收部接收的内容信息及在所述图像数据周围布置的所 述属性信息和在所述文本数据中包括的所述文本中的任意一个,所述内容提取 部提取所述内容。
4. 根据权利要求1到3中任一所述的信息处理设备,其中,所述关系计并且所述关系计算部基于所述关系图来计算所述提取内容之间的语义相关程 度。
5. 根据权利要求1到3中任一所述的信息处理设备,其中,所述关系计 且所述关系计算部基于所述表格来计算所述提取内容之间的语义相关程度。
6. 根据权利要求1到5中任一所述的信息处理设备,其中, 所述输入接收部接收表示所述文档中的预定区域的区域信息,及 所述内容提取部从所述预定区域中提取所述内容。
7. 根据权利要求1到6中任一所述的信息处理设备,其中,所述关系计算部以所述提取内容中的一个内容作为参考,将所述语义相关 程度转换为在新的文档上的坐标系统中的位置关系,及所述布局产生部基于所述位置关系在新的文档上确定所述提取内容的位置。
8. 根据权利要求1所述的信息处理设备,进一步包括读取部,用于读取文档中包括的文本和图像中的任意一种的数据,并在所 述存储部中存储由所述读取部读取的所述数据,及 打印部,用于打印出新的文档。
9. 根据权利要求8所述的信息处理设备,其中,所述信息处理设备是图 像形成设备。
10. —种信息处理系统,所述信息处理系统经由网络连接到文档服务器 上,并且所述信息处理系统存储包括多个内容的文档,所述信息处理系统包括通信部,用于从文档服务器中获取文档; 存储部,用于存储由通信部获取的文档; 输入接收部,用于接收内容信息;内容提取部,用于从在存储部中存储的文档所包括的内容中提取多个内 容,所述多个内容的每一个都包括内容信息;关系计算部,用于计算由内容提取部提取的提取内容之间的语义相关程度;及布局产生部,用于基于所述语义相关程度来在新的文档上确定所述提取内 容的位置并在所述位置上布置所述提取内容,从而产生新的文档。
11. 一种产生文档的方法,包括存储步骤,在存储部中存储包括多个内容的文档; 接收步骤,接收内容信息;提取步骤,从在存储部中存储的文档所包括的内容中提取多个内容,所述多个内容中的每一个内容都包括内容信息;计算步骤,计算在提取步骤中提取的提取内容之间的语义相关程度; 确定步骤,基于所述语义相关程度来在新的文档上确定所述提取内容的位置;及布置步骤,在确定步骤中确定的所述位置上布置所述提取内容,从而产生 新的文档。
全文摘要
本发明提供一种信息处理设备、信息处理系统及信息处理方法。在信息处理设备中,当接收到内容信息的输入时,内容提取部从在存储部中存储的文档中包括的内容中提取每个都包括内容信息的多个内容。然后,关系计算部计算所提取内容之间的语义相关程度,并且布局产生部基于语义相关程度在新的文档上确定所提取内容的位置并在这些位置上布置所提取的内容,从而产生新的文档。
文档编号G06F17/21GK101488124SQ20091000234
公开日2009年7月22日 申请日期2009年1月7日 优先权日2008年1月11日
发明者法布里斯·马图里克 申请人:株式会社理光
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1