文档组分析设备、文档组分析方法及文档组分析系统的制作方法

文档序号:6551617阅读:203来源:国知局
专利名称:文档组分析设备、文档组分析方法及文档组分析系统的制作方法
技术领域
本发明一般涉及文档组分析设备、文档组分析方法、文档组分析系统、程序,及记录介质,并且特别涉及搜索有因果关系的文档组的技术,以及基于搜索结果进行文本挖掘(text-mining)。
背景技术
为了成功完成业务,分析过去往往是重要的。典型地,要计划商务会议时,参考过去的相似案例是有用的。
有一种通过输入搜索条件搜索想要的内容的技术,其中检索和呈现满足搜索条件的文档(也就是显示和打印)。
有时发生这种情况,虽然事件显得彼此相似,但是将上述事件分为成功的和失败的,以及另一种情况,即成功的途径是不同的。过去的历史不可能被充分采用,除非知道“为何一些成为好的”和“为何一些成为坏的”。
为了充分采用过去的经验,不得不将文档组分类为“成功”的和“失败”。根据传统技术,在短时间内很难做到正确地辨别两者。
即使文档组被分为“成功”和“失败”,分析为何某个业务成为好的或者错误的是必需的。目前,没有专门的技术来这样进行分析,而且这样的分析是手动执行的。

发明内容
由于如上所述的现有状况而提出本发明,且旨在提供一种文档组分析设备、文档组分析方法、文档组分析系统、程序,及记录介质,用于充分地排除由现有技术的局限和缺点所导致的一个或多个问题。
本发明特别旨在提供将有因果关系的文档组分类为成功事件和失败事件的文档组分析设备、文档组分析方法、文档组分析系统、程序,及记录介质,并且提供用于分析成功和失败因素的信息。
将在后面的说明中阐明本发明的特征和优点,且部分地将由说明和附图变得明显,或者可能根据说明书中提供的教导实施本发明来进行认识。借助在说明书中用完整、清楚、简明和确切的术语特别指出的文档组分析设备、文档组分析方法、文档组分析系统、程序,及记录介质,使得本领域的普通技术人员实施本发明,将实现和达到本发明的目的以及其它特征和优点。
为了获得这些和其它优点和依照本发明的目的,如这里具体和概括地说明,本发明提供如下。
用于解决问题的手段本发明提供文档组分析设备,其包括搜索单元,其根据搜索条件在文档数据库中搜索文档,和相关文档组提取单元,其提取满足搜索条件的文档,以及所有与从文档数据库中搜索到的文档有因果关系的文档。
文档组分析设备进一步包括文档组分类单元,其将有因果关系的文档捆绑成一组,并根据属于该组的文档种类对文档进行分类。
文档组分析设备进一步包括状态转换图产生单元,其生成状态转换图,其中将文档的种类作为节点,并将以种类的形式生成的文档作为状态转换键。其中,节点以因果关系的顺序进行连接。
文档组分析设备进一步包括提取关键事件的关键事件提取单元。
本发明进一步提供分析导致成功和失败的因素的方法,其中根据搜索条件从文档数据库中搜索和检索(第一)文档,检索与该(第一)文档有因果关系的(第二)文档,将第一和第二文档分成组,每组包括有因果关系的文档,也就是,根据代表相同业务的不同阶段,将组中的文档按文档种类进行分类,且显示分类的结果和相关文档的内容,以便分析成功和失败的因素。
本发明进一步提供文档组分析系统,其包括文档数据服务器、客户机、以及文档组分析服务器。
本发明进一步提供计算机可执行程序,用于计算机执行文档组分析设备的功能,或者可选择地执行文档组分析系统的功能。
本发明进一步提供存储该程序的计算机可读记录介质。
发明效果根据本发明,将获得下面的效果。
(1)不仅检索满足搜索条件的文档,还检索其它有因果关系的文档,且重建业务流的历史,便于以传统的形式分析信息。
(2)一般来说,在草拟表格文档(表格)的业务中,如果商务谈判成功地进行到订立合同,通常生成整组表格文档(表格)。相反地,如果业务不成功,则不生成所有的表格。
在货物出售业务的情况中,例如,业务流如下。
“顾客信息注册文档->标书->估价->合同->发货单”。如果业务失败,则不生成所有的文档,且文档历史看起来是“顾客信息注册文档->标书”,以及“顾客信息注册文档->标书->估价”。
因此,借助对根据表格的种类搜索的文档组进行分组,可以正确地分类目的业务。
(3)根据本发明,生成状态转换图,其中以图形显示成功或失败,提供易于对于在成功和失败之间的分支点进行分析的信息。
作为分析的辅助信息,提供关键事件以便于分析。
例如,如果当业务失败时数据项“竞争者”常常示出“公司A”,可以确定如果在预期的业务中公司A参与竞争,失败的概率是很高的。
进一步,如果将不具有普遍性的项目指定为划分成功和失败的因素,可以减少分析的时间和努力,并且可以删去无用信息的表示。
(4)当将有因果关系的表格文档组置于与业务相关的文档组时,在许多情况下,已经以清楚的形式管理表格文档,可以清楚地分开业务的成功和失败。因而,不需要工作流数据库的新引入,且不需要将“成功”和“失败”的附加信息附在业务表格上。为此,本发明的文档组分析设备,或者文档组分析系统可以以最小的成本引入。


图1是示出根据本发明的实施例(实施例1和实施例2)的文档组分析系统的结构的方框图;图2是示出在文档数据库中存储的文档的基本数据结构的示例的表;图3是示出作为顾客信息注册文档的表格A的数据项的示例的表;图4是示出标书的表格B的数据项的示例的表;图5是示出估价的表格C的数据项的示例的表;图6是示出合同的表格D的数据项的示例的表;
图7是示出发货单的表格E的数据项的示例的表;图8是示出填有数据的顾客信息注册文档的示例的表;图9是示出填有数据的标书的示例的表;图10是示出填有数据的估价的示例的表;图11是示出填有数据的合同的示例的表;图12是示出填有数据的发货单的示例的表;图13是示出填有数据的顾客信息注册文档的另一个示例的表;图14是示出填有数据的标书的另一个示例的表;图15是示出填有数据的估价的另一个示例的表;图16是示出填有数据的顾客信息注册文档的另一个示例的表;图17是示出填有数据的顾客信息注册文档的另一个示例的表;图18是示出填有数据的顾客信息注册文档的另一个示例的表;图19是示出根据本发明的实施例1的文档组分析系统的客户机和文档组分析服务器的功能性结构的方框图;图20是示出按表格组分类文档的结果的示例的表格{按因果关系对文档进行分组,以及按表格列表对文档组进行分类};图21是示出分类结果的客户机的显示屏的示例;图22是示出根据本发明的实施例2的文档组分析系统的客户机和文档组分析服务器的功能性结构的方框图;图23是示出在状态转换图中的节点和状态转换键之间的关系的图表;图24A是示出与表格组有关的节点图生成过程的起始节点和结束节点的图表;图24B是示出与表格组有关的节点图生成过程的图表,其中分别相应于表格A、B、C、D,E的节点NA、NB、NC、ND,及NE被连接起来;图24C是示出与表格组有关的节点图生成过程的图表,其中起始节点和结束节点被添加到图24B的节点图中;图24D是示出完成表格组的节点图生成过程的图表,在其中插入转换键;图24E是示出另一个表格组的节点图的图表;图25是示出状态转换图的示例的图表;图26是示出按表格组对状态转换进行分类的结果的表,在该状态转换图中状态转换键在分支节点之前;
图27是为了解释提取关键事件的提取方法的表;图28示出了在客户机上显示关键事件提取结果的显示屏示例;和图29是示出使用工作流服务器的文档组分析系统的结构的方框图。
具体实施例方式
在下文中,将参考

根据本发明的文档组分析系统的实施例。这里,“有因果关系的文档组”意思是“一个接一个生成(草拟、设计、发行、记录)作为某个商业谈判进程的一组文档,从而具有因果关系”。例如,如果仅在草拟文档A之后草拟文档B,则在文档A和文档B之间存在因果关系。
进一步说,例如,可用于出售商品的文档通常包括“顾客信息注册文档”、“标书”、“估价”、“合同”,和“发货单”,它们分别使用表格A、B、C、D,和E来草拟。这里,一般来说,除非准备了“估价”,否则不订立合同,而且不准备“合同”文档;因此,“估价”和“合同”是有因果关系的文档。
虽然实施例1描述了有关将商品出售给顾客的业务,如果起草了因果关系文档,则本发明也可用于其它草拟因果关系的文档的业务。
<实施例1>
图1是示出根据本发明的实施例1的文档组分析系统的结构的方框图。文档组分析系统包括客户机10、文档组分析服务器20、文档数据服务器30,以及网络40。虽然图1示出了一个客户机10,文档组分析系统可以包括两个或多个客户机10。
一般来说,客户机10由个人计算机充当,且能够通过网络40访问文档数据服务器30,能够存储和浏览文档,能够通过网络40访问文档组分析服务器20,且能够搜索文档和显示检索的文档。所希望的是客户机10还可以访问网页。
只要满足上述条件,客户机10不需要一定是个人计算机,PDA(个人数字助理)和移动电话也可以实现该目的。
文档组分析服务器20是从客户机10中接收文档搜索请求的计算机,请求存储和管理文档组的文档数据服务器30来搜索所请求的文档,分析搜索结果,并提供分析结果给客户机10。
进一步,文档组分析服务器20和文档数据服务器30可以由具有文件管理和文档组分析能力的相同计算机来充当。
文档数据服务器30是将文档组作为数据库来存储和管理的计算机,并响应于客户机10关于文档的注册、删除、更新的指示等更新数据库。进一步,文档数据服务器30从文档组分析服务器20中接收搜索条件,搜索请求的文档,并将搜索结果提供给文档组分析服务器20。进一步,文档数据服务器30可以从文档组分析服务器20中接收特定文档的发送请求,并提供请求的文档。
这里,存储在的由文档数据服务器30管理的数据库中文档与数据项捆绑在一起,该数据项包括表示如下举例的因果关系的数据项(参照图2)。
文档ID,其是用于识别当前文档的文档标识符。
表格类型,其是在其中草拟当前文档的表格类型的标识符。
因果关系文档ID,它是文档的标识符,也就是,与当前文档有因果关系,其引致生成当前文档;且给出一个以上的因果关系文档ID,这样的ID以准备的顺序列出,也就是,按日期。因此,如果首先草拟当前文档(例如,顾客信息注册),则不提供因果关系文档ID的数据项。
表格元素包括目录学内容,诸如作者姓名、起草日期、顾客名称、文档内容等。这里,取代文档内容的是,可以提供保持内容的文件的文件标识符或URI(统一资源标识符)。
每个数据项由3个条目组成,也就是,数据项、键,以及值。值示出了相应于数据项的数据值。键示出了如果数据项是分析对象,则为“ON”,且如果不是分析对象,则为“OFF”。
例如,有如上数据结构的表格定义如下。
(1)表格A“顾客信息注册文档”其由14行组成,每个有数据项、键和值3个条目,如图3所示。即,这些行包括(文档ID,OFF,未定义),(表格类型,OFF,为表格A的值的“A”),(顾客名称,OFF,未定义),(调查员,OFF,未定义),(调查日期,OFF,未定义),(规模,ON,未定义),(行业类型,ON,未定义),(地区,ON,未定义),(复印机,ON,未定义),(传真机,ON,未定义),(打印机,ON,未定义),(PC,ON,未定义),(LAN,ON,未定义),以及(其它,OFF,未定义)。由于表格A是将注册顾客信息,其是在业务流中被首先草拟的文档,所以不存在因果关系文档ID的数据项。
(2)表格B“标书”
其由12行组成,如图4所示。换句话说,这些行包括(文档ID,OFF,未定义),(表格类型,OFF,“B”),(因果关系文档ID,OFF,未定义(当设定值时,插入表格A的文档ID)),(标书,OFF,未定义),(投标日期,OFF,未定义),(投标规模,ON,未定义),(复印机,ON,未定义),(传真机,ON,未定义),(打印机,ON,未定义),(PC,ON,未定义),(竞争者,ON,未定义),以及(投标,OFF,未定义(当设定值时,插入投标的URI))。
(3)表格C“估价”其由如图5所示的8行组成。即,这些行包括(文档ID,OFF,未定义),(表格类型,OFF,“C”),(因果关系文档ID,OFF,未定义(当设定值时,插入表格A的“文档ID”)),(因果关系文档ID,OFF,未定义(当设定值时,插入表格B的文档ID)),(估价日期,OFF,未定义),(估价规模,ON,未定义),(估价人,OFF,未定义),以及(估价,OFF,未定义(当设定值时,插入估价的URI))。
(4)表格D“合同”其由如图6所示的8行组成。即,这些行包括(文档ID,OFF,未定义),(表格类型,OFF,“D”),(因果关系文档ID,OFF,未定义(当设定值时,插入表格A的文档ID)),(因果关系文档ID,OFF,未定义(当设定值时,插入表格B的文档ID)),(因果关系文档ID,OFF,未定义(当设定值时,插入表格C的文档ID)),(合同日期,OFF,未定义),(出售人,OFF,未定义),以及(合同,OFF,未定义(当设定值时,插入合同文档的URI))。
(5)表格E“发货单”其由如图7所示的9行组成。即,这些行包括(文档ID,OFF,未定义),(表格类型,OFF,“E”),(因果关系文档ID,OFF,未定义(当设定值时,插入表格A的文档ID)),(因果关系文档ID,OFF,未定义(当设定值时,插入表格B的文档ID)),(因果关系文档ID,OFF,未定义(当设定值时,插入表格C的文档ID)),(因果关系文档ID,OFF,未定义(当设定值时,插入表格D的文档ID)),(交货日期,OFF,未定义),(负责人,OFF,未定义),以及(发货单,OFF,未定义(当设定值时,插入发货单的URI))。
在后续说明中,可以预料,文档组(图8至18中所示的有因果关系的使用表格A到E准备的文档)被存储在文档数据服务器30的数据库中。
例如,使用表格A记录在访问顾客时收集的顾客信息作为例如在图8和图13中所示的顾客信息注册文档。由于首先草拟这些文档,所以不提供因果关系文档ID的数据项。
进一步,使用如图9至图14所示的表格B记录顾客访问之后的投标。由于这些文档草拟了下列顾客信息注册文档,因果关系文档ID的数据项示出了顾客信息注册文档的文档ID。
网络40是连接客户机10、文档组分析服务器20,及文档数据服务器30的传输路径。网络40常常由电缆、充当通信协议的TCP/IP构成。然而,只要通信协议匹配的话,传输路径可以基于无线通信,例如,可以使用LAN(本地网)、WAN(广域网)、互联网等。
下面是如上所述构成的文档组分析系统的操作概述。销售人员,例如,使用客户机10根据业务阶段从表格A到E中选定适当的表格草拟业务报告,并将文档存储在文档数据服务器30的数据库中。如此,有因果关系的文档被累存在文档数据服务器30的数据库中。
进一步,为了定位可以有助于该销售人员推进业务的文档组,该销售人员将典型地包括顾客名称、商标名称、商品尺寸等的搜索条件从客户机10发送给文档组分析服务器20。
文档组分析服务器20接收搜索条件,并将搜索条件提供给文档数据服务器30,请求搜索。当由文档数据服务器30提供搜索结果时,文档组分析服务器20分析接收的搜索结果,并将分析结果返回给发出请求的客户机10。销售人员基于客户机10接收和显示的分析结果获得期望的文档组。
接着,参照图19说明文档组分析系统的结构,其是示出文档组分析系统的客户机10和文档组分析服务器20的功能的方框图。
客户机10包括搜索条件输入单元11和分析结果显示器12。
虽然客户机10需要配备文档准备单元,该单元被配置为执行存储、编辑,及浏览有因果关系的文档,本发明预先假定有因果关系的文档组在数据库中已经是可用的;且为此,省略关于文档准备单元的说明。
搜索条件输入单元11接收销售人员对搜索条件的输入,且将搜索条件发送给文档组分析服务器20。搜索条件指定条件,在此条件下搜索图2到图7所示的表格的数据项。例如,如果搜索数据项“行业类型”和“规模”,则输入如“行业类型=住宅和设备构造”,及“规模=1-5雇员”的搜索条件,并发送。
分析结果显示器12显示从文档组分析服务器20传输来的分析结果。下面说明分析结果和显示方法。
传输的分析结果可以被存储在存储单元中,如硬盘,并将其输出给打印机。
文档组分析服务器20包括搜索单元21、相关文档组提取单元22、文档组分类单元23,及分类结果输出单元24。
搜索单元21从客户机10接收搜索条件,将搜索条件传送给文档数据服务器30,并请求执行搜索。
文档数据服务器30在存储了文档组的数据库中搜索满足接收的搜索条件的文档,复制(取出)满足搜索条件的文档内容,并响应发出请求的文档组分析服务器20的搜索单元21。
搜索单元21将由搜索结果的文档的内容组成的文档组提供给相关文档组提取单元22。
例如,如果搜索条件为“行业类型=住宅和设备构造”,则下列五个文档被标识为满足搜索条件,换句话说,文档-ID=11059(图8的顾客信息注册文档),文档-ID=11253(图13的顾客信息注册文档),文档-ID=10113(图16的顾客信息注册文档),文档-ID=11051(图17的顾客信息注册文档),文档-ID=16838(图18的顾客信息注册文档)。
相关文档组提取单元22提取相关文档,该文档与从文档数据服务器30搜索的文档有因果关系,且编译由搜索到的文档和相关文档组成的文档组。如下执行该步骤。
(1)从搜索到的文档中取出文档ID的值和因果关系文档ID。在上述示例的情况中,搜索到的文档的文档ID是11059、11253、10113、11051,和16838。由于这些文档是在业务的第一阶段生成的顾客信息注册文档,所以没有因果关系文档。
(2)取出的文档ID是“使其唯一”,也就是,如果存在复本,则纠正该复本。
(3)请求文档数据服务器30提供具有如文档ID或因果关系文档ID的唯一文档ID的任何一个的一组文档(文档组)。
根据上述示例,获得包含文档(11059,21201,33201,43229,50348)、(11253,21277,33405)、(10113)、(11051),和(16838)的文档组。
(4)关于每个文档组,如果文档组包括已经获得的文档,则删除已经获得的文档;且如果在文档组中没有剩余文档,则结束有因果关系的文档组的获取。
在上述示例中,包括在上述(3)中获取的文档中的文档(11059,11253,10113,11051,16838)已经在上述(1)中被接收到,因此,从在上述(3)中获取的文档组中删除。
(5)在(4)中剩余的文档和搜索到的文档组合到文档组中,且重复从(1)开始的步骤。
在上述示例中,将剩余的文档组(21201,33201,43229,50348,21277,33405)添加到搜索的文档组(11059,11253,10113,11051,16838)中,并且将有因果关系的相关文档组编译为包括文档(11059,21201,33201,43229,50348,11253,21277,33405,10113,11051,16838)。重复从(1)开始的步骤直到找不到额外的与该文档组有因果关系的文档。
相关文档组提取单元22将具有如上所述因果关系的相关文档组提供给文档组分类单元23。
文档组分类单元23从相关文档组提取单元22中接收相关文档组,执行下列步骤,且按表格对包括在相关文档组中的文档进行分类。
首先将相关文档组分为共享相同的因果关系的文档组中。也就是,根据业务进程草拟的文档,从顾客信息注册文档开始,组成一个组。
(1)首先,初始化n,也就是n=0。
(2)如果没有从相关文档组中取出(复制)文档,处理进行到(8)。如果存在这样的文档,则取出该文档的文档ID,且称作文档d。
(3)公布文档组g(n),并将从相关文档组中取出的文档d的文档ID插入到文档组g(n)中。
(4)从相关文档组中取出匹配该文档ID的包含因果关系文档ID的文档c,且将文档c的文档ID添加到文档组g(n)中。
(5)重复上述(4)直到再没有文档被添加到文档组g(n)中。
(6)从相关文档组中删除存储在文档组g(n)中的文档。
(7)在n递增1之后返回到(2),也就是,n=n+1。
(8)对于每一个文档组以起草的时间顺序重新排列文档。
根据上述示例,获取文档组g(0)={11059,21201,33201,43229,50348}、文档组g(1)={11253,21277,33405}、文档组g(2)={10113}、文档组g(3)={11051},和文档组g(4)={16838}。
接着,在获取的文档组g以外,有相同的文档生成步骤(以起草日期的顺序排序草拟的文档的表格类型列表,在后面被称为表格列表)的文档组由下列步骤组成表格组。
(9)首先,初始化m,也就是m=0。
(10)如果没有从相关文档组g中取出文档,结束表格组的生成。如果有将被取出的文档组,则将文档组取出并将其定义为g(k)。
(11)公布文档组G(m),并将文档组g(k)插入到表格组G(m)中。
(12)在表格组G(m)中提取文档组g的表格列表F(G(m))。
(13)从文档组g中取出有与F(G(m))相同的表格列表的文档组g(j),并将其插入到表格组G(m)中。
(14)在m递增1之后返回到(10),也就是,m=m+1。
在上述示例的情况下,五个文档组中的三个文档组g(2)、g(3),和g(4)具有相同的表格列表。因而,生成三个表格组,换句话说,G(0)={{11059,21201,33201,43229,50348}}、G(1)={{11253,21277,33405}}、和G(2)={{10113},{11051},{16838}}。参照附图20。
进一步,每个表格组的表格列表为F(G(0))={A,B,C,D,E},F(G(1))={A,B,C},和F(G(2))={A}。
在上述示例的情况下,参照图20,文档组g(0)的表格列表,即,F(G(0))为“A,B,C,D,E”。文档组g(1)的表格列表,即,F(G(1))为“A,B,C”。三个文档组g(2)、g(3),和g(4)具有相同的表格列表“A”,其被命名为F(G(2))。从而,生成三个表格组,即,G(0)={{11059,21201,33201,43229,50348}}、G(1)={{11253,21277,33405}},和G(2)={{10113},{11051},{16838}}。
分类结果输出单元24接收销售人员从搜索单元21输入的搜索条件,以及来自文档组分类单元23的文档组g、表格组G,及表格列表F。
分类结果输出单元24为请求客户机10提供“搜索条件”、“对于每个文档组的属于文档组的文档ID的列表”、“对于每个表格组和表格列表的属于表格组的文档组的列表”,以及“与匹配搜索条件的文档有因果关系的文档的内容”。
如上面刚刚所述的那样,客户机10的分析结果显示器12接收数据,重构数据,并将数据显示在显示器上。在图21中示出了显示演示的示例,其中将屏幕分割为3个或4个部分。屏幕100显示输入的搜索条件。屏幕110显示从表格组分割的每个组。屏幕120和130分别相应于表格组G(0)和G(1),并显示相应于表格列表中的表格中的一个的所有文档的内容(相应于数据项的值)。
进一步,如果屏幕不显示所有将被显示的项目,则每个屏幕(100,110,120,及130)水平滚动或垂直滚动,如期望那样的以便呈现所有的项目。
当启动分析结果显示器12时,示出搜索条件的显示屏100,以及表格组的显示屏110。
接着,销售人员要在显示器上用鼠标点击分类号“1”。然后,在内容显示屏120上显示在分类的表格列表中的属于第一表格的所有文档内容。
接着,可以通过在内容显示屏120上用鼠标点击右箭头或左箭头121中的任何一个而以文档生成的顺序在表格列表中显示文档内容。例如,如果当文档ID=21201的文档被显示在文档显示屏120上时点击右箭头,则显示文档ID=33201的文档的内容,且如果点击左箭头,则显示文档ID=11059的文档。
当显示在内容显示屏120上的文档将要从表格组显示屏110上消失时,表格组显示屏110滚动以便可以确定在表格组列表上的相对位置。也就是,表格组显示屏110与内容显示屏120同步滚动(或者改变页面)。
进一步,如果用鼠标点击显示在表格组显示屏110上的文档ID,则在内容显示屏120上显示选定的文档的内容。
进一步,当同时在表格组显示屏110上选择两个分类号时,由内容显示屏120和130显示属于每个表格组的文档的内容。在这种情况下,显示屏120和130示出了相同表格的相应文档。在图21示出的示例中,如果同时选定分类号1和2,则将文档ID=11059的文档显示在显示屏120上,并将文档ID=11253的文档显示在显示屏130上,两者是相同的表格。
进一步,如果分别点击位于显示屏120和130的右上角的箭头121和131中的一个,显示可应用的相应于下一个或前一个表格的文档,两个屏幕是同步的。在没有相应于选定的表格的文档的情况中,则显示空白。
由于可以通过相互比较显示屏120和130能够检查以相同表格形式的文档的内容,所以便于找出成功或者失败的要素。
<实施例2>
为了实施属性分析以从实施例1的分析结果中确定区分成功和失败的东西,销售人员必须识别不同的表格用于表格列表中的分支点,以显示和比较在分支点处生成的文档的内容。
在该连接中,实施例2将显示分析结果以便进行比较。
实施例2的概要结构是与实施例1的(参照附图1)相同的,且不在重复对其的说明。
图22是示出根据实施例2的文档组分析系统的功能性结构的方框图,该文档分析系统包括客户机10和文档组分析服务器20。
虽然客户机10具有与实施例1中的相同的功能性结构,由于分析结果是不同的,所以由分析结果显示器12进行屏幕显示的方式是不同的。将在下面说明文档组分析服务器20的输出时说明不同之处。
文档组分析服务器20包括搜索单元21、相关文档组提取单元22、文档组分类单元23、状态转换图产生单元25、关键事件提取单元26,和分析结果输出单元27。相同的附图标记适用于提供与实施例1相同的功能的项目,且给出存在区别的地方的说明。
搜索单元21从文档数据服务器30处获取文档组,该文档组匹配由客户机10提供的搜索条件,并将搜索结果的文档组提供给相关文档组提取单元22。
如果搜索条件为“行业类型=住宅和设备构造;且规模=1-5雇员”,则拾取两个文档,即,文档ID=11059(图8)和文档ID=11253(图13)作为搜索结果。
相关文档组提取单元22从文档数据服务器30接收搜索结果的文档组和有因果关系的因果关系文档,并如实施例1那样将它们编译到一个文档组中。
文档组分类单元23如实施例1那样将有因果关系的文档组从文档组分类到具有相同表格列表的表格组中,并将分类结果提供给状态转换图产生单元25。
状态转换图产生单元25基于由文档组分类单元23提供的文档组生成表示因果关系的状态转换图。在状态转换图中,在报告某个业务的结果时使用的表格类型被当作节点(状态),且草拟的文档的文档ID充当状态转换键(参照图23)。
如下生成状态转换图。
(1)初始化表格组的计数值n,也就是,n=0。
(2)当计数值n超过表格组的数量时,步骤进行到(8)。
(3)准备开始节点Ns和结束节点Ne,两个都是空白的(图24A)。
(4)在相应于表格组G(n)的表格列表F(G(n))中按项目(element)的顺序生成节点NA、NB、NC、ND,和NE,且以该顺序连接节点NA、NB、NC、ND,和NE以生成节点图N(G(n)))(图24B)。
(5)开始节点Ns是节点图N(G(n))的前缀,且结束节点Ne是节点图N(G(n))的后缀(图24C)。
(6)对于每一属于表格组G(n)文档组g,提取属于文档组g的文档的表格,并将其设置为来自相应于该表格的节点图N(G(n))的节点的状态转换键。如此,完成节点图N(G(n)(图24D)。
(7)表格组的计数值n递增1,也就是,n=n+1,并将步骤返回到(2)。
(8)在由上述步骤获得的每个表格组的节点图N中,将部分共享相同的表格列表的节点图合并,并生成状态转换图(图25)。
在上述示例的情况下,相应于表格组G(0)的节点图N(G(0))如图24D所示,且相应于表格组G(1)的节点图N(G(1))如图24E所示。这两个节点图N从开始节点Ns到节点NC是相同的。
因而,合并节点图N(G(0))和节点图N(G(1)到节点NC,并将节点图N(G(0))的状态转换键和节点图N(G(1))的状态转换键相结合。
进一步,在节点C和节点图N(G(1))的结束节点Ne之间的部分与节点图N(G(0)不一致。因而,如图25所示,在节点图N(G(1))的节点NC之后的图从节点图N(G(0))的节点NC分支。
如此,合并节点图的共同部分,并生成状态转换图S。因而,如果存在没有共同部分的表格列表,则生成两个或者多个状态转换图S。
进一步,当合并有共同部分的节点图时,使得表格组G相应于状态转换图S。
状态转换图产生单元25将如上生成的状态转换图和由文档组分类单元23生成的分类结果提供给关键事件提取单元26。
关于每一个提供的状态转换图,关键事件提取单元26搜索从开始状态分支为两个或者多个转换目标的节点,并提取分支的状态转换键(文档ID)以及所有在前状态转换键。进一步,当存在两个或多个分支状态的节点,则提取所有分支节点的状态转换键。
在图25所示的情况中,例如,从节点NC(表格C)分支的状态。因而,提取状态转换键(33201,33405,21201,21277,11059,11253)。
将提取的状态转换键分类到每个表格组G中。
在上述示例中,状态转换键(11059,21201,33201)属于表格组G(0),且状态转换键(11253,21277,33405)属于表格组G(1),其被概括到图26中。
其次,关于由所有属于每个表格组的状态转换键(文档ID)指示的文档,如果“key=ON”,则将所有的数据项和值提取为关键事件候选。
图27是概括在上述示例的情况中关键事件候选的表。在图27中,为每个表格组分割相应于关键事件候选的值。当这里两个或者多个文档组是在表格组G中,表格组的数量等于文档组的序列(列)号。在图27中,以“固定表格数据项目名”表示由“关键事件候选”开头的列。例如“A比例”表示“表格A”,且它的元素名为“比例”。
接着,确定关键事件候选是否为关键事件。
(1)确定是否存在有共同值的属于相同表格组的文档的任何数据项。该确定针对所有表格组执行。
当仅存在一个属于表格组的文档时,将这样的文档的数据项的值变为共同值。
(2)如果不存在有共同值的表格组,则确定数据项不是关键事件(keyenent)。
(3)另一方面,在存在有共同值的表格组的情况中,如果在表格组中的共同值与属于另一个表格组的文档的数据项的值不一致,则确定相关的关键事件候选为关键事件,且仅存在于该表格组中的共同值被称为数据项的特有值。
(4)相反地,如果文档的数据项有与另一个表格组相同的值,则确定该相关数据项不是关键事件。
在上述示例中,由于属于每个表格组的文档的数量是一个,所以所有关键事件候选的数据项的值取各自的共同值。从而,参照图27,当数据项在FORM0的值和FORM 1的值处有相同的值,就在“这是关键事件吗?”的那列给出“NO”。,否则,如果存在在FORM 0的值和FORM 1的值处有不同值的数据项,则给出“YES”。换句话说,在关键事件候选中,在两组间“A地区”、“APC”、“ALAN”、“BPC”,和“B竞争者”有区别,且将其确定为关键事件。
然而,在两个或多个文档存在于表格组的情况中,如果对于至少两个表格组至少存在一个相同的值,则该数据项变得不是关键事件。
例如,假设为关键事件候选之一的数据项“复制”有如下的每个表格组的值。
表格组G(0){“存在”}。
表格组G(1){“存在”,“不存在”}。
在这种情况下,由于表格组G(0)和表格组G(1)有相同的值“存在”,则确定数据项“PC”不是关键事件。
相反的,当关键事件候选的数据项的共同值不与其它表格组共有时,确定该数据项为关键事件。
例如,假设为每个表格组的关键事件候选的数据项“地区”的值如下。
表格组G(0){“Chiba”}。
表格组G(1){“Kanagawa”,“Saitama”}。
在这种情况下,表格组G(0)的共同值不与表格组G(1)共有;因而,确定数据项“Area”是关键事件。
假设为每个表格组的关键事件候选的数据项“地区(Area)”的值如下。
表格组G(0){“C”}。
表格组G(1){“A,C”,“A”}。
这样,虽然表格组G(0)的共同值“C”与表格组G(1)共有,但是表格组G(1)的共同值“A”不与表格组G(0)共有。因而,确定数据项“竞争者”为关键事件。
分析结果输出单元27从搜索单元21接收销售人员输入的搜索条件,从文档组分类单元23接收文档组g,表格组G,及表格列表F,从状态转换图产生单元25接收状态转换图S和用于生成状态转换图S的表格组的列表,及从关键事件提取单元26接收关键事件。
分析结果输出单元27返回后续项目到请求客户机10,即“搜索条件”,“所有关键事件”,“对于每个文档组的属于一文档组的文档ID的列表”,“对于每个表格组的属于一表格组的文档组列表和表格列表”,“所有状态转换图和用于生成每个状态转换图的表格组的列表”和“满足搜索条件的文档和有因果关系的所有文档的内容”。
客户机10的分析结果显示器12接收和重构数据,以而准备如图28中所示的显示屏幕。
在图28中,将显示屏分割为4或5个部分。屏幕140显示输入的搜索条件。
屏幕150显示关键事件的数据项名称。该数据项名称前缀以各自的表格名称以便于将各个数据项关联到表格。
进一步,屏幕160显示流分析视图,其中的为每个表格组(G0和G1)给定名称,并且用各自的表格组名称替换在状态转换图产生单元25中生成的状态转换图的结束节点。
进一步,当显示屏不可以显示所有的将被显示的项目时,每个屏幕(140、150和160)可以水平或垂直的滚动。
屏幕170和180响应每个表格组,且显示相应于在表格列表中的表格的所有文档(相应于各自数据项的值)的内容。
进一步,虽然如果不可以显示所有的项目则每个屏幕(170和180)水平滚动,但是屏幕170和180相互不同步地滚动,进一步地,当一种表格存在两个或多个文档时,通过垂直滚动将属于相同表格的文档一个接一个显示。当显示下一个文档时,显示它以便显示相同的数据项直到现在出现。通过滚动到右侧,来显示后续文档,且通过滚动到左侧,来显示前续文档。
当分析结果显示器12启动时,显示搜索条件的显示屏幕140、关键事件的显示屏幕150,以及流分析视图显示屏幕160。
其次,如果销售人员用鼠标点击流分析视图的表格组名称,则将所有在表格组的表格列表中属于第一表格的文档的内容显示在内容显示屏幕170上。
接着,通过用鼠标在内容显示屏170上点击右箭头和左箭头171中的任何一个,而以表格列表的文档生成顺序显示文档内容。此时,在流分析视图显示屏幕160上识别在屏幕170上显示的文档,以浏览文档的相对位置,同时滚动流分析视图显示屏幕160。也就是说,同时地流分析视图显示屏幕160和内容显示屏170(或改变页面)。
进一步,如果用鼠标点击在流分析视图显示屏幕160上的文档ID,则在内容显示屏170上显示选定的文档的内容。
进一步,在流分析视图显示屏幕160上同时选定两个表格组名称的情况中,将属于各个表格组的文档的内容显示在内容显示屏幕170和180上。在这种情况下,显示在内容显示屏幕170和180上的文档是属于相同的表格。进一步,当点击箭头171和181之一时,显示屏幕170和180相互同步滚动示出相应于后续表格的文档。在该例中,当没有属于相应表格的文档,则显示空白。
这样,可以在内容显示屏幕170和180上比较相同表格的文档的内容,随之显示关键事件的数据项,并且便于找到成功和失败的要素。
上面是在这样的前提下描述实施例1和2,即有因果关系的文档累存于文档数据服务器中。可选择地,可以使用工作流服务器50实现有因果关系的文档的生成和管理(图29)。
工作流服务器50控制表格,其中业务的实施和表格相关联,根据业务的进程用需要的表格生成文档,并将文档记录在文档数据服务器30中。销售人员通过在需要的项目中填写完成该表格。
通过重复根据工作流草拟文档的步骤,在文档数据服务器30中累存有因果关系的文档组。
如果工作流服务器50已经在使用,则便于对文档组分析系统的引入。
<实施例3>
本发明不限于如上所述的实施例。可以通过执行安装在计算机的存储器或存储设备中的程序来获得本发明的目的,将程序存储在例如CD-ROM的记录介质上,由例如CD-ROM驱动器的介质驱动设备读取该程序,并安装在组成文档组分析系统的文档组分析服务器和/或客户机上。准备该程序,以便通过执行该程序实现组成文档组分析系统的文档组分析服务器和客户机的功能。
在这种情况下,从上述记录介质上读取的程序实现实施例的功能。因而,程序、和存储该程序的记录介质也组成本发明。
此外,存储该程序的记录介质包括半导体介质(例如,ROM、非易失性存储卡)、光学介质(例如,DVD、MO、MD、CD),和磁性介质(例如,磁带、软盘)。
进一步,本发明包括这样的情况,即不仅由程序实现上述实施例的功能,还基于程序的指示与操作系统或其它应用程序协作实现。
当在市场流通本发明的程序时,为了流通,该程序可以被存储在可移动记录介质中;且该程序可以被存储在连接到例如互联网的网络上的服务器计算机的存储器中,且通过网络分发到其它计算机上。在这样的情况下,服务器计算机的存储器也包含在本发明的记录介质中。
此外,计算机通过安装和执行存储在移动记录介质上或者通过网络进行传输的程序实现上述实施例的功能。
进一步,计算机可以为单机计算机,并且可以为网络计算机。在后面的情况下,将被计算机执行的程序可以被存储在另一台计算机上,并且可以安排分发步骤或遥控步骤。
在这样的情况下,因特网、LAN、WAN等可以被用于计算机之间的通信。
通过如所述的那样对实施例的功能进行编程,并照此使其适用于市场,减少成本,并提高可移植性和通用性。
进一步,本发明并不限于这些实施例,但是不脱离本发明的范围的变化和修改都是可以的。
本发明基于2004年2月27日向日本专利特许厅申请的申请号为2004-054838的日本优先申请,在此引用并合并其全部内容。
权利要求
1.一种文档组分析设备,包括搜索单元,其被配置为在保存有因果关系的文档组的文档数据库中搜索由搜索条件指定的文档;以及相关文档组提取单元,其被配置为提取由搜索条件指定的文档,以及提取所有与由搜索条件指定的和由搜索单元搜索到的文档有因果关系的文档。
2.如权利要求1所述的文档组分析设备,进一步包括文档组分类单元,被配置为从由相关文档组提取单元提取的文档中收集有因果关系的文档,将收集的文档分为一组;以及以按文档的种类对收集和分组的文档进行分类。
3.如权利要求2所述的文档组分析设备,进一步包括状态转换图产生单元,其被配置为生成状态转换图;其中按因果关系依次连接节点,每个节点与文档的种类之一相关联,且由属于与节点N1相关联的文档种类的文档表示从某个节点N1到另一个节点N2的状态转换键,将属于每个由文档组分类单元生成的类的文档组建成单个状态转换图,并合并在文档种类的单个状态转换图的转换模式中的共同部分。
4.如权利要求3所述的文档组分析设备,进一步包括关键事件提取单元,其被配置为提取数据项作为关键事件;其中如果从一个节点的转换被分支为两个或多个后继节点,将始于分支节点的状态转换键和分支节点之前的一个或多个状态转换键组成的文档组成一组,对于每一个后续节点建立这样的组,对包含在每组文档中的数据项的值进行比较,且如果数据项的值仅存在于一组中,则将该数据项提取作为关键事件。
5.如权利要求4所述的文档组分析设备,其中该文档具有信息,该信息是关于数据项是否为每种文档的关键事件提取的对象,且仅当数据项的信息表示该数据项是关键事件提取的对象时,关键事件提取单元执行提取。
6.如权利要求1所述的文档组分析设备,其中文档组包括关于与顾客进行销售操作的业务的文档。
7.一种文档组分析方法,包括按指定的搜索条件基于文档的种类在保存有因果关系的文档组数据文档数据库中搜索文档的步骤;从文档数据库中提取搜索到的文档,以及所有与该搜索到的文档有因果关系的文档的步骤;将提取的文档分组到有因果关系的文档组的步骤;按文档种类对属于每一组的文档进行分类的步骤;以及显示分类的结果和相应文档的内容,以及执行成功和失败的属性分析的步骤。
8.一种文档组分析系统,包括文档数据服务器,其被配置为保存和管理文档组;客户机,其被配置为提供搜索条件,并显示分析结果;文档组分析服务器,其被配置为根据由客户机提供的搜索条件在文档数据服务器中搜索文档、分析搜索结果、以及响应客户机;其中文档数据服务器包括数据库,该数据库基于文档种类保存因果关系的文档组数据,对来自于文档组分析服务器的请求搜索和检索文档,以及响应文档组分析服务器;该客户机包括搜索条件输入单元,其为搜索将被用作分析候选的文档而输入搜索条件,并将搜索条件传输给文档组分需服务器,以及分析结果显示单元,其显示从文档组分析服务器接收的分析结果;以及文档组分析服务器包括搜索单元,其在文档数据服务器中搜索与客户机提供的搜索条件一致的文档,相关文档组提取单元,其检索由搜索单元搜索的文档,以及所有与由搜索单元从文档数据服务器中搜索到的文档有因果关系的文档,文档组分类单元,其将在由相关文档组提取单元提取的文档之中有因果关系的文档捆绑成一组,并将分组的文档按文档的种类进行分类,以及将由文档组分类单元获取的分类结果提供给客户机的分析结果输出单元。
9.一种计算机可执行程序,用于计算机执行如权利要求1的文档组分析设备和如权利要求8的文档组分析系统中任意一个的功能。
10.一种存储如权利要求9的程序的计算机可读记录介质。
全文摘要
本发明涉及一种文档组分析设备、文档组分析方法、文档组分析系统、程序,及记录介质,其通过在成功案例和失败案例之间分离有因果关系的文档并将用于分析成功和失败的要素的信息进行显示,来识别业务成功和失败出现分歧之处。其中,在文档数据库中按搜索条件搜索文档,多个文档,该文档数据库基于文档的种类保存有因果关系的文档组。从文档数据库中提取搜索到的文档和与搜索到的文档有因果关系的文档。将该提取的有因果关系的文档分割成组。将属于每一组的文档按文档的种类进行分类。
文档编号G06F17/30GK1680942SQ200510071728
公开日2005年10月12日 申请日期2005年2月28日 优先权日2004年2月27日
发明者小岛裕一 申请人:株式会社理光
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1