信息处理装置、信息处理方法和计算机可读介质与流程

文档序号:29031807发布日期:2022-02-24 13:37阅读:52来源:国知局
信息处理装置、信息处理方法和计算机可读介质与流程

1.本发明涉及信息处理装置、信息处理方法和计算机可读介质。


背景技术:

2.在日本特开2018-194881号公报中公开了对文档赋予分类的文档分类系统。该文档分类系统具有读入已赋予分类的文档作为教师数据从而生成的模型信息,具有读入作为分类赋予对象的文档,使用所述模型信息对作为分类对象的文档赋予多个分类的分类部,输出作为赋予该分类的依据的所述分类赋予对象的单词或语句。


技术实现要素:

3.本发明的目的在于,提供能够在按照分类基准对作为分类对象的文档进行分类的情况下从分类基准中提取出重要用语的信息处理装置、信息处理方法、和计算机可读介质。
4.根据本发明的第1方案,提供一种信息处理装置,其中,所述信息处理装置具有处理器,所述处理器在按照分类基准对目标文档进行分类时,根据所述分类基准中包含的用语相对于所述目标文档中包含的用语的重要程度,从所述分类基准的用语中提取重要用语。
5.根据本发明的第2方案,所述处理器提取所述分类基准中的所述重要程度为预定的阈值以上的用语作为所述重要用语。
6.根据本发明的第3方案,所述处理器从所述重要程度高的用语起依次提取所述分类基准的用语作为所述重要用语。
7.根据本发明的第4方案,所述处理器通过与所述目标文档和所述分类基准对应的源目标关注机构导出所述重要程度。
8.根据本发明的第5方案,所述处理器将多个所述分类基准分别作为对象来导出所述重要程度,所述处理器将所述多个分类基准分别作为对象来提取所述重要用语。
9.根据本发明的第6方案,所述处理器使用提取出的重要用语,按照每个该分类基准估计所述目标文档与所述多个分类基准所表示的各文档相符的概率,越是与过去估计出的概率高的文档对应的所述分类基准,所述处理器越优先将该分类基准选择性地应用于估计系统,该估计系统包含所述重要程度的导出、所述重要用语的提取和所述概率的估计。
10.根据本发明的第7方案,所述处理器使用提取出的重要用语,按照每个该分类基准估计所述目标文档与所述多个分类基准所表示的各文档相符的概率,越是与过去估计出的概率高的文档对应的所述分类基准,所述处理器越优先提示该分类基准,所述处理器受理与所述提示对应的、应用于估计系统的所述分类基准的选择指定,该估计系统包含所述重要程度的导出、所述重要用语的提取和所述概率的估计。
11.根据本发明的第8方案,所述处理器使用提取出的重要用语,按照每个该分类基准估计所述目标文档与所述多个分类基准所表示的各文档相符的概率,在所述估计之前,所述处理器使用实际的所述目标文档进行估计系统的学习,该估计系统包含所述重要程度的
导出、所述重要用语的提取和所述概率的估计,越是与在所述学习中使用的所述目标文档的数量多的文档对应的所述分类基准,所述处理器越优先将该分类基准选择性地用作所述估计系统的估计对象。
12.根据本发明的第9方案,所述处理器使用提取出的重要用语,按照每个该分类基准估计所述目标文档与所述多个分类基准所表示的各文档相符的概率,从所述概率高的分类基准起依次对用户进行提示。
13.根据本发明的第10方案,所述处理器使用提取出的重要用语生成所述分类基准的摘要语句。
14.根据本发明的第11方案,所述处理器使用所述重要用语,生成表示与关键字对应的值的语句作为所述摘要语句。
15.根据本发明的第12方案,所述处理器提示提取出的重要用语。
16.根据本发明的第13方案,除了所述重要用语,所述处理器还提示与该重要用语对应的所述重要程度。
17.根据本发明的第14方案,所述处理器将所述重要用语与对应的所述分类基准一起提示。
18.根据本发明的第15方案,提供一种计算机可读介质,其存储有使计算机执行处理的程序,其中,在所述处理中,在按照分类基准对目标文档进行分类时,根据所述分类基准中包含的用语相对于所述目标文档中包含的用语的重要程度,从所述分类基准的用语中提取重要用语。
19.根据本发明的第16方案,提供一种信息处理方法,其中,在按照分类基准对目标文档进行分类时,根据所述分类基准中包含的用语相对于所述目标文档中包含的用语的重要程度,从所述分类基准的用语中提取重要用语。
20.(效果)
21.根据所述第1、15或16方案,在按照分类基准对作为分类对象的文档进行分类的情况下,能够从分类基准中提取重要用语。
22.根据所述第2方案,与不使用阈值提取重要用语的情况相比,能够以更加明确的基准提取重要用语。
23.根据所述第3方案,与不从重要程度高的用语起依次提取分类基准的用语作为重要用语的情况相比,能够更加高效地提取重要用语。
24.根据所述第4方案,与在重要程度的导出中不应用源目标关注机构的情况相比,能够降低用于导出重要程度的处理的负荷。
25.根据所述第5方案,能够将多个分类基准应用于目标文档的分类。
26.根据所述第6方案,与没有将与多个分类基准所表示的各文档相符的概率较高的文档所对应的分类基准优先地应用于估计系统的情况相比,能够更高效地进行估计系统的估计。
27.根据所述第7方案,与没有将与多个分类基准所表示的各文档相符的概率较高的文档所对应的分类基准优先地作为应用于估计系统的分类基准的选择指定的受理对象来提示的情况相比,能够更高效地受理该选择指定。
28.根据所述第8方案,与没有将在估计系统的学习中使用的目标文档的数量较多的
文档所对应的分类基准优先地用作该估计系统的估计对象的情况相比,能够更高效地进行估计系统的估计。
29.根据所述第9方案,与没有从目标文档与多个分类基准所表示的各文档相符的概率较高的分类基准起依次对用户进行提示的情况相比,能够更高效地受理要应用的分类基准的选择指定。
30.根据所述第10方案,与不生成分类基准的摘要语句的情况相比,能够容易地掌握分类基准的内容。
31.根据所述第11方案,与不是使用重要用语生成表示与关键字对应的值的语句作为摘要语句的情况相比,能够生成有用性更高的摘要语句。
32.根据所述第12方案,与不提示重要用语的情况相比,能够容易地掌握重要用语。
33.根据所述第13方案,与不提示与重要用语对应的重要程度的情况相比,还能够容易地掌握重要用语的重要程度。
34.根据所述第14方案,跟不是与对应的分类基准一起提示重要用语的情况相比,能够容易地掌握分类基准和重要用语的关系。
附图说明
35.图1是示出实施方式的信息处理系统的结构的一例的框图。
36.图2是示出实施方式的信息处理装置的硬件结构的一例的框图。
37.图3是示出第1实施方式的信息处理装置的功能结构的一例的框图。
38.图4是示出实施方式的文档分类模型的结构的一例的示意图。
39.图5是示出实施方式的目标文档的一例的主视图。
40.图6是示出实施方式的手册文档的一例的主视图。
41.图7是示出实施方式的目标文档数据库的结构的一例的示意图。
42.图8是示出第1、第2实施方式的手册文档数据库的结构的一例的示意图。
43.图9是示出第1、第2实施方式的模型生成处理的一例的流程图。
44.图10是示出第1实施方式的文档分类处理的一例的流程图。
45.图11是用于说明实施方式的文档分类处理的图,是示出目标文档与多个手册文档的每个手册文档之间的、目标文档与各手册文档相符的概率的估计状况的一例的示意图。
46.图12是示出实施方式的分类结果画面的结构的一例的主视图。
47.图13是示出实施方式的摘要语句画面的结构的一例的主视图。
48.图14是示出第2实施方式的信息处理装置的功能结构的一例的框图。
49.图15是示出第2实施方式的文档分类处理的一例的流程图。
50.图16是示出第2实施方式的手册文档提示画面的结构的一例的主视图。
51.图17是示出第3实施方式的信息处理装置的功能结构的一例的框图。
52.图18是示出第3实施方式的手册文档数据库的结构的一例的示意图。
53.图19是示出第3实施方式的模型生成处理的一例的流程图。
54.图20是示出第3实施方式的文档分类处理的一例的流程图。
具体实施方式
55.下面,参照附图对用于实施本发明的实施例进行详细说明。另外,在本实施方式中,对如下情况进行说明:作为本发明的分类基准应用手册文档,作为本发明的估计系统,应用包含如下文档分类模型的估计系统,该文档分类模型以判断目标文档符合多个手册文档所表示的多个文档中的哪个文档的方式进行分类。
56.[第1实施方式]
[0057]
首先,参照图1对本实施方式的信息处理系统1的结构进行说明。图1是示出实施方式的信息处理系统1的结构的一例的框图。
[0058]
如图1所示,本实施方式的信息处理系统1包含发挥本系统的核心作用的信息处理装置10、以及多个图像读取装置90a、90b、

。另外,下面,在不区分图像读取装置90a、90b、

来进行说明的情况下,简单地统称为“图像读取装置90”。
[0059]
本实施方式的信息处理装置10使用后述的文档分类模型13c,导出经由图像读取装置90输入的目标文档与预先登记的手册文档所表示的文档相符的概率。然后,本实施方式的信息处理装置10使用导出的概率、和在导出该概率的过程中得到的信息执行各种处理。
[0060]
信息处理装置10和多个图像读取装置90经由网络n连接,信息处理装置10能够经由网络n而与各图像读取装置90相互通信。另外,在本实施方式中,作为网络n,应用lan(local area network:局域网)、wan(wide area network:广域网)等企业内的通信线路,但是,不限于该方式。作为网络n,例如,也可以应用互联网、电话线路等公共通信线路,还可以组合应用这些企业内的通信线路和公共通信线路。此外,在本实施方式中,作为网络n而应用了有线的通信线路,但是,不限于该方式,也可以应用无线的通信线路,还可以组合应用有线和无线的各通信线路。
[0061]
另外,在本实施方式中,作为图像读取装置90应用了仅具有图像读取功能的所谓的扫描仪,但是,不限于该方式。例如,作为图像读取装置90,也可以采用如下方式:应用具有图像打印功能、图像读取功能和图像发送功能等的数字复合机。此外,在本实施方式中,对信息处理装置10和图像读取装置90被分开构成的情况进行了说明,但是不限于此,也可以设为一体地构成信息处理装置10和图像读取装置90的方式。
[0062]
接着,参照图2和图3对本实施方式的信息处理装置10的结构进行说明。图2是示出实施方式的信息处理装置10的硬件结构的一例的框图,图3是示出实施方式的信息处理装置10的功能结构的一例的框图。另外,作为信息处理装置10的例子,列举有个人计算机和服务器计算机等计算机。
[0063]
如图2所示,本实施方式的信息处理装置10具有作为处理器的cpu(central processing unit:中央处理单元)11、作为暂时存储区域的存储器12、非易失性存储部13、键盘和鼠标等输入部14、液晶显示器等显示部15、介质读写装置(r/w)16和通信接口(i/f)部18。cpu11、存储器12、存储部13、输入部14、显示部15、介质读写装置16和通信i/f部18经由总线b彼此连接。介质读写装置16读出记录介质17中写入的信息,并且在记录介质17中写入信息。
[0064]
存储部13通过hdd(hard disk drive:硬盘驱动器)、ssd(solid state drive:固态硬盘)、闪存等来实现。在作为存储介质的存储部13中存储有模型生成程序13a和文档分
类程序13b。将写入了模型生成程序13a的记录介质17放置在介质读写装置16中,介质读写装置16从记录介质17读出模型生成程序13a,由此将模型生成程序13a存储在存储部13中。此外,将写入了文档分类程序13b的记录介质17放置在介质读写装置16中,介质读写装置16从记录介质17读出文档分类程序13b,由此将文档分类程序13b存储在存储部13中。cpu11从存储部13读出模型生成程序13a并加载于存储器12中,依次执行模型生成程序13a具有的处理。此外,cpu11从存储部13读出文档分类程序13b并加载于存储器12中,依次执行文档分类程序13b具有的处理。
[0065]
此外,在存储部13中存储有文档分类模型13c,并且存储有目标文档数据库13d和手册文档数据库13e等各种数据库。文档分类模型13c、目标文档数据库13d和手册文档数据库13e的详细情况在后面叙述。
[0066]
接着,参照图3对本实施方式的信息处理装置10的功能结构进行说明。如图3所示,信息处理装置10包含导出部11a、提取部11b、估计部11c、应用部11d、提示部11e、学习部11g和生成部11h。信息处理装置10的cpu11执行模型生成程序13a和文档分类程序13b,由此作为导出部11a、提取部11b、估计部11c、应用部11d、提示部11e、学习部11g和生成部11h发挥功能。
[0067]
本实施方式的导出部11a在按照分类基准对目标文档进行分类时,导出上述分类基准中包含的用语相对于该目标文档中包含的用语的重要程度。另外,在本实施方式中,作为上述目标文档,应用设备投资批准书、契约批准书、聘用批准书、备品购入批准书等多种批准书,作为上述分类基准而应用按照该多种批准书分别预先准备的、表示与对应的批准书有关的规则的文档即手册文档。但是,不限于该方式,作为目标文档和与该目标文档有关的手册文档的对象文档,也可以采用应用报价单、经费明细书等批准书以外的文档的方式。
[0068]
此外,本实施方式的提取部11b根据由导出部11a导出的重要程度,从分类基准的用语中提取重要用语。特别地,本实施方式的提取部11b提取上述重要程度为预定的阈值以上的分类基准的用语作为重要用语。另外,在本实施方式中,作为上述用语,应用手册文档中包含的句子和该句子中包含的单词这双方,但是,不限于该方式。例如,也可以采用仅应用手册文档中包含的单词作为上述用语的方式,还可以采用应用多个单词的组合作为上述用语的方式。
[0069]
此外,本实施方式的导出部11a通过针对目标文档和分类基准的源目标注意(source-target-attention:以下称为“源目标关注”。)机构导出上述重要程度。
[0070]
这里,本实施方式的导出部11a将多个分类基准分别作为对象来导出上述重要程度,本实施方式的提取部11b将多个分类基准分别作为对象来提取上述重要用语。
[0071]
此外,本实施方式的估计部11c使用由提取部11b提取出的重要用语,按照每个该分类基准估计目标文档与上述多个分类基准所表示的各文档相符的概率。然后,越是与估计部11c在过去估计出的概率较高的文档对应的分类基准,本实施方式的应用部11d越优先将相应的分类基准选择性地应用于估计系统30,该估计系统30包含导出部11a进行的上述重要程度的导出、提取部11b进行的上述重要用语的提取和估计部11c进行的上述概率的估计。
[0072]
此外,本实施方式的学习部11g在估计部11c进行估计之前,使用实际的目标文档进行估计系统30的学习。此外,本实施方式的提示部11e从由估计部11c估计出的概率较高
的分类基准起依次将分类基准提示给用户。
[0073]
此外,本实施方式的生成部11h使用由提取部11b提取出的重要用语,生成上述分类基准的摘要语句。这里,本实施方式的生成部11h使用上述重要用语,生成表示与关键字对应的值的语句作为摘要语句。
[0074]
并且,本实施方式的提示部11e提示由提取部11b提取出的重要用语。这里,本实施方式的提示部11e除了上述重要用语以外还提示与该重要用语对应的重要程度。并且,本实施方式的提示部11e将重要用语与对应的分类基准一起提示出来。
[0075]
另外,在本实施方式的信息处理系统1中,作为提示部11e进行的提示,应用通过使用显示部15的显示实现的提示,但是不限于此。例如,在读取目标文档的图像读取装置90具有显示部的情况下,也可以采用将该显示部进行的显示用于提示部11e进行的提示的方式。此外,提示部11e进行的提示不限于通过显示实现的提示,也可以采用如下方式:应用由图像形成装置进行打印实现的提示、通过语音生成装置的语音实现的提示等。
[0076]
接着,参照图4对本实施方式的文档分类模型13c进行说明。图4是示出实施方式的文档分类模型13c的结构的一例的示意图。
[0077]
如图4所示,本实施方式的文档分类模型13c按照每个单词w1、w2、

、wt对目标文档80中包含的信息进行分割。此外,本实施方式的文档分类模型13c具有将单词w1、w2、

、wt转换为向量h1、h2、

、ht的递归型神经网络(recurrent neural network:以下称为“rnn”。)层52。本实施方式的文档分类模型13c汇总由rnn层52得到的向量h1、h2、

、ht,将其转换为与目标文档80对应的1个向量dv。
[0078]
另一方面,本实施方式的文档分类模型13c将手册文档82中包含的信息分割成语句(以下称为“句子”。)s1、s2、

、sn。此外,本实施方式的文档分类模型13c将句子s1、s2、

、sn分别分割成单词w11、w12、

、w1m、单词w21、w22、

、w2m、

、单词wn1、wn2、

、wnm。而且,本实施方式的文档分类模型13c具有按照每个句子s1、s2、

、sn导出各单词的重要程度的自我注意(self-attention:以下称为“自我关注”。)机构621、622、

、62n。本实施方式的文档分类模型13c将通过自我关注机构621、622、

、62n得到的句子s1、s2、

、sn的各句子中的各单词的重要程度按照每个句子汇总,转换为每个句子的向量sv1、sv2、

、svn。
[0079]
此外,本实施方式的文档分类模型13c具有上述源目标关注机构66。本实施方式的文档分类模型13c通过源目标关注机构66,将目标文档80的向量dv作为目标,将手册文档82的每个句子的向量sv1、sv2、

、svn作为源,导出句子s1、s2、

、sn的每个句子的重要程度的分数(以下称为“句子分数”。)68。
[0080]
此外,本实施方式的文档分类模型13c使用由源目标关注机构66导出的句子分数68,对手册文档82的句子s1、s2、

、sn的每个句子的向量sv1、sv2、

、svn进行调整。本实施方式的文档分类模型13c合并该调整后的向量sv1、sv2、

、svn和目标文档80的向量dv,得到一个最终向量70。
[0081]
并且,本实施方式的文档分类模型13c具有s型函数(sigmoid function)72。而且,本实施方式的文档分类模型13c通过s型函数72将最终向量70作为0(零)~1的值输出,由此,导出目标文档80是与手册文档82相符的文档的概率。
[0082]
接着,参照图5对本实施方式的目标文档80进行说明。图5是示出实施方式的目标
文档80的一例的主视图。
[0083]
如图5所示,本实施方式的目标文档80包含表示申请内容的信息,并且包含表示与申请内容有关的各项目的费用的信息和表示该费用的总额的信息。另外,在图5所示的例子中,作为上述申请内容而应用了设备施工费用这样的内容,作为上述各项目的费用,应用了x1、x2、x3这3种施工的费用,作为上述总额,应用了这3种施工的费用的总额,但是当然不限于此。
[0084]
接着,参照图6对本实施方式的手册文档82进行说明。图6是示出实施方式的手册文档82的一例的主视图。
[0085]
如图6所示,本实施方式的手册文档82包含表示将该手册文档82作为对象的批准书的申请内容的信息,并且包含与该申请内容所对应的决策者有关的信息。另外,在图6所示的例子中,作为上述申请内容,应用了设备投资这样的内容,作为与上述决策者有关的信息,应用了表示被划分为多个等级的金额的每个区间的决策者的信息,但是,当然不限于此。
[0086]
在图6所示的手册文档82的情况下,在开头附加了字母(a、b、

)的语句分别相当于上述句子s1、s2、

、sn。
[0087]
接着,参照图7对本实施方式的目标文档数据库13d进行说明。图7是示出实施方式的目标文档数据库13d的结构的一例的示意图。
[0088]
本实施方式的目标文档数据库13d是在进行文档分类模型13c的学习的情况下使用的信息,如图7所示,目标文档id(identification:识别)、文档信息和相符手册文档这些信息被相关联地存储。
[0089]
上述目标文档id是为了识别各目标文档而按照每个目标文档预先分配的识别信息,上述文档信息是表示对应的目标文档本身的信息。此外,上述相符手册文档是表示与对应的目标文档相符的手册文档的信息。
[0090]
另外,在本实施方式中,虽然作为上述文档信息而应用了直接表示目标文档本身的信息,但是不限于此。例如,也可以采用应用表示对应的目标文档的存储地址的链接信息作为上述文档信息的方式。此外,在本实施方式中,作为上述相符手册文档,应用了预先分配给对应的手册文档的后述手册文档id,但是不限于此。该情况下,例如,也可以采用代替表示对应的手册文档的存储地址的链接信息,应用上述手册文档id来作为相符手册文档的方式。
[0091]
在图7所示的例子中,被分配了作为目标文档id的“t001”的目标文档的文档信息是“文档信息t1”,示出了该目标文档与被分配了作为手册文档id的“m001”的手册文档相符的情况。
[0092]
接着,参照图8对本实施方式的手册文档数据库13e进行说明。图8是示出实施方式的手册文档数据库13e的结构的一例的示意图。
[0093]
本实施方式的手册文档数据库13e是在进行文档分类模型13c的学习的情况下和运用文档分类模型13c的情况下这两种情况下使用的信息,如图8所示,手册文档id、文档信息和概率这些信息被相关联地存储。
[0094]
上述手册文档id是为了识别各手册文档而按照每个手册文档预先分配的识别信息,上述文档信息是表示对应的手册文档本身的信息。此外,上述概率是表示目标文档与对
应的手册文档相符的概率的信息。
[0095]
另外,在本实施方式中,作为上述文档信息,应用了直接表示手册文档本身的信息,但是不限于此。该情况下,例如,也可以采用应用表示对应的手册文档的存储地址的链接信息作为上述文档信息的方式。此外,在本实施方式中,作为上述概率,应用了使用文档分类模型13c进行后述文档分类处理而得到的、任意一个目标文档与对应的手册文档相符的概率的最近一次的值,但是不限于此。例如,也可以采用应用该概率的最近多次(作为一例为10次)的值的平均值来作为上述概率的方式。此外,在本实施方式中,作为上述概率,应用了用0(零)~1的范围内的值来表示的概率,但是不限于此,也可以采用应用百分率作为概率的方式。
[0096]
在图8所示的例子中,被分配了作为手册文档id的“m001”的手册文档的文档信息是“文档信息m1”,示出了目标文档与该手册文档相符的概率是0.6(即60%)的情况。
[0097]
接着,参照图9~图13对本实施方式的信息处理装置10的作用进行说明。首先,参照图9,对进行文档分类模型13c的学习的情况下的信息处理装置10的作用进行说明。图9是示出实施方式的模型生成处理的一例的流程图。在信息处理装置10的用户经由输入部14进行输入以指示开始执行模型生成程序13a的情况下,信息处理装置10的cpu11通过执行该模型生成程序13a而执行图9所示的模型生成处理。另外,这里,为了避免复杂,对已经构建了目标文档数据库13d和手册文档数据库13e的情况进行说明。此外,这里,为了避免复杂,对预先指定了在文档分类模型13c的学习中使用的目标文档组(以下称为“对象目标文档组”。)和手册文档组(以下称为“对象手册文档组”。)的情况进行说明。
[0098]
在图9的步骤200中,cpu11从目标文档数据库13d读出对象目标文档组中的任意一个目标文档(以下称为“对象目标文档”。)的文档信息和与该目标文档对应的相符手册文档。在步骤202中,cpu11从手册文档数据库13e读出对象手册文档组中的任意一个手册文档(以下称为“对象手册文档”。)的手册文档id和文档信息。
[0099]
在步骤204中,cpu11使用文档分类模型13c的rnn层52,如上述那样从对象目标文档的文档信息导出该对象目标文档的向量dv。在步骤206中,cpu11使用文档分类模型13c的自我关注机构621、622、

、62n,如上述那样从对象手册文档的文档信息导出该对象手册文档的每个句子的向量sv1、sv2、

、svn。在步骤208中,cpu11使用文档分类模型13c的源目标关注机构66,如上述那样导出对象手册文档的每个句子的句子分数68。
[0100]
在步骤210中,cpu11使用导出的句子分数68,如上述那样对对象手册文档的每个句子的向量sv1、sv2、

、svn进行调整。在步骤212中,cpu11使用通过以上处理得到的对象手册文档的向量sv1、sv2、

、svn和对象目标文档的向量dv,如上述那样导出最终向量70。
[0101]
在步骤214中,cpu11利用使用导出的最终向量70根据文档分类模型13c的s型函数72而输出的值,如下述那样进行文档分类模型13c的学习。即,在本实施方式中,对文档分类模型13c的各种参数进行调整,使得在对象手册文档与通过步骤200的处理而读出的相符手册文档所表示的手册文档一致的情况下,根据s型函数72输出的值成为1。此外,对文档分类模型13c的各种参数进行调整,使得在对象手册文档与上述相符手册文档所表示的手册文档不一致的情况下,从s型函数72输出的值成为0(零)。通过进行一次该文档分类模型13c的各种参数的调整,而进行1次的学习。
[0102]
在步骤216中,cpu11针对手册文档数据库13e中登记的对象手册文档组的全部手
册文档判定以上的处理是否结束,在成为否定判定的情况下,返回步骤202。此外,在步骤216中成为肯定判定的情况下,转移到步骤218。在步骤218中,cpu11针对目标文档数据库13d中登记的对象目标文档组的全部目标文档判定以上的处理是否结束,在成为否定判定的情况下,返步骤200。此外,在步骤218中成为肯定判定的情况下,结束本模型生成处理。
[0103]
另外,在反复执行步骤200~步骤218的处理时,在步骤200中,cpu11读出对象目标文档组的目标文档中的、此前没有被作为对象的目标文档作为对象目标文档。此外,在反复执行步骤200~步骤218的处理时,在步骤202中,cpu11按照对象目标文档为同一目标文档的范围,读出对象手册文档组的手册文档中的、此前没有被作为对象的手册文档作为对象手册文档。
[0104]
通过以上的模型生成处理,能够使用在目标文档数据库13d中登记的对象目标文档组的全部目标文档和在手册文档数据库13e中登记的对象手册文档组的全部手册文档,进行文档分类模型13c的学习。
[0105]
接着,参照图10~图13对运用文档分类模型13c的情况下的信息处理装置10的作用进行说明。图10是示出实施方式的文档分类处理的一例的流程图。此外,图11是用于说明实施方式的文档分类处理的图,是示出目标文档与多个手册文档的每个手册文档之间的、目标文档与各手册文档相符的概率的估计状况的一例的示意图。。此外,图12是示出实施方式的分类结果画面的结构的一例的主视图,图13是示出实施方式的摘要语句画面的结构的一例的主视图。
[0106]
在信息处理装置10的用户经由输入部14进行了输入以指示开始执行文档分类程序13b的情况下,信息处理装置10的cpu11通过执行该文档分类程序13b而执行图10所示的文档分类处理。另外,这里,为了避免复杂,对已经构建了手册文档数据库13e的情况进行说明。此外,这里,为了避免复杂,对预先指定了在目标文档的分类中使用的手册文档组(以下称为“分类对象手册文档组”。)的情况进行说明。
[0107]
在图10的步骤300中,cpu11从手册文档数据库13e读出分类对象手册文档组的全部手册文档的概率。在步骤302中,cpu11进行待机直到从任意一个图像读取装置90接收到表示目标文档(以下称为“接收目标文档”。)的信息。
[0108]
在步骤304中,cpu11从手册文档数据库13e读出分类对象手册文档组中的任意一个手册文档(以下称为“分类对象手册文档”。)的文档信息。此时,cpu11从手册文档数据库13e读出分类对象手册文档组的手册文档中的、通过步骤300的处理而读出的概率最高的手册文档来作为分类对象手册文档。
[0109]
在步骤306中,cpu11使用文档分类模型13c的rnn层52,如上述那样从接收目标文档的文档信息导出该接收目标文档的向量dv。在步骤308中,cpu11使用文档分类模型13c的自我关注机构621、622、

、62n,如上述那样从分类对象手册文档的文档信息导出该分类对象手册文档的每个句子的向量sv1、sv2、

、svn。在步骤310中,cpu11使用文档分类模型13c的源目标关注机构66,如上述那样导出分类对象手册文档的每个句子的句子分数68。
[0110]
在步骤312中,cpu11使用导出的句子分数68,如上述那样对分类对象手册文档的每个句子的向量sv1、sv2、

、svn进行调整。在步骤314中,cpu11使用通过以上处理得到的分类对象手册文档的向量sv1、sv2、

、svn和接收目标文档的向量dv,如上述那样导出最终向量70。
[0111]
在步骤316中,cpu11取得使用导出的最终向量70根据文档分类模型13c的s型函数72输出的值,作为接收目标文档是与分类对象手册文档所表示的文档的文档的概率。然后,在步骤316中,cpu11将取得的概率作为与分类对象手册文档对应的概率存储(更新)在手册文档数据库13e中。
[0112]
在步骤318中,cpu11将通过步骤310的处理而得到的分类对象手册文档的每个句子的句子分数68作为表示该每个句子的重要程度的值而存储在存储部13中。此外,在步骤318中,cpu11在导出句子分数68的过程中,将通过自我关注机构621~62n得到的表示各句子内的各单词的重要程度的信息按照每个单词存储在存储部13中。
[0113]
在步骤320中,cpu11判定通过步骤316的处理而存储(更新)的概率是否小于预定的阈值t,在成为否定判定的情况下,转移到步骤326,另一方面,在成为肯定判定的情况下,转移到步骤322。
[0114]
另外,在本实施方式中,作为上述阈值t,应用的是预先固定设定的值,如果上述概率为该阈值t以上、则能够视为接收目标文档与分类对象手册文档所表示的文档相符,但是不限于此。例如,也可以根据文档分类模型13c所要求的文档的分类的精度和用途等,采用由信息处理装置10的用户随时输入阈值t的方式、和自动地设定的方式等。
[0115]
在步骤322中,cpu11针对分类对象手册文档组的全部手册文档判定以上的处理是否结束,在成为否定判定的情况下,返回步骤304,在成为肯定判定的情况下,转移到步骤324。另外,在反复执行步骤304~步骤322的处理时,在步骤304中,cpu11读出上述概率的值的大小仅次于前一个作为分类对象手册文档而读出的手册文档的手册文档的文档信息,来作为分类对象手册文档的文档信息。
[0116]
通过以上的步骤304~步骤322的反复处理,作为一例,如图11所示,使用文档分类模型13c,能够得到一个接收目标文档在与多个分类对象手册文档的每个分类对象手册文档的组合中的概率。
[0117]
在步骤324中,cpu11执行预定的无相符手册处理,然后,转移到步骤336。另外,在本实施方式中,作为上述无相符手册处理,应用了通过显示部15显示未发现相符的手册文档的情况的处理,但是不限于此。例如,也可以设为如下方式:应用通过显示、语音和打印中的至少一个手段来提示表示未发现相符的批准书的情况的信息的处理,作为上述无相符手册处理。
[0118]
另一方面,在步骤326中,cpu11如下述那样执行提取通过步骤318的处理而存储的重要程度为预定的阈值以上的单词和句子作为重要用语的处理。
[0119]
首先,cpu11读出从本次的文档分类处理开始起到该时间点为止通过步骤318的处理而存储在存储部13中的、每个分类对象手册文档且每个句子的重要程度(即句子分数68)和每个单词的重要程度。
[0120]
接着,cpu11提取读出的重要程度为预定的阈值st以上的句子作为重要用语,并且,提取读出的重要程度为预定的阈值wt以上的单词作为重要用语。
[0121]
另外,在本实施方式中,作为上述阈值st,应用的是预先固定设定的值,如果重要程度为该阈值st以上、则能够视为对应的句子对于接收目标文档的分类是有意义的。此外,在本实施方式中,作为上述阈值wt,也应用预先固定地设定的值,如果重要程度为该阈值wt以上、则能够视为对应的单词对于接收目标文档的分类是有意义的。但是,不限于该方式,
关于这些阈值,例如也可以根据文档分类模型13c所要求的文档的分类的精度和用途等,采用使信息处理装置10的用户随时输入各阈值的方式和自动地设定的方式等。
[0122]
在步骤328中,cpu11使用与通过步骤326的处理而提取出的重要用语有关的信息,对显示部15进行控制,以显示预定的结构的分类结果画面。在步骤330中,cpu11进行待机直至输入预定的信息。
[0123]
图12中示出本实施方式的分类结果画面的一例。如图12所示,在本实施方式的分类结果画面中,显示了最近一次应用的分类对象手册文档所表示的文档被视为与接收目标文档相符的文档的情况及其概率。此外,在本实施方式的分类结果画面中,按照此前成为处理对象的每个分类对象手册文档,在强调通过步骤326的处理而提取出的内容的状态下,显示各句子的重要程度和各单词的重要程度。特别地,在本实施方式的分类结果画面中,如图12所示,从概率高的分类对象手册文档起依次进行显示。因此,信息处理装置10的用户通过参照该分类结果画面,能够掌握接收目标文档的分类结果,并且,能够将作为依据的手册文档的句子和单词与它们的重要程度一起掌握。
[0124]
另外,在本实施方式中,作为上述强调状态的显示,应用网格状态的显示,但是不限于此。例如,除了网格状态的显示以外,也可以设为如下方式:应用与其他部分相比改变了颜色的状态的显示、闪烁显示、反转显示等其他显示状态的一种或组合。此外,也可以设为如下方式:不使用这些显示状态,仅显示通过步骤326的处理而提取出的句子和单词。
[0125]
作为一例,当通过显示部15显示图12所示的分类结果画面时,信息处理装置10的用户在参照分类结果画面后,经由输入部14指定分类结果画面中显示的结束按钮15a。根据该指定,步骤330的处理成为肯定判定,转移到步骤332。
[0126]
在步骤332中,cpu11生成概率为阈值t以上的分类对象手册文档(以下称为“摘要对象文档”。)的摘要语句,对显示部15进行控制,以显示表示该摘要语句的预定的结构的摘要语句画面。在步骤334中,cpu11进行待机直到输入预定的信息为止。
[0127]
图13中示出摘要对象文档如上图所示的情况下的、本实施方式的摘要语句画面的一例。如图13所示,在本实施方式的摘要语句画面中,显示表示摘要对象文档的信息(在图13所示的例子中为“相符手册文档m002(设备投资)”),并且显示该摘要对象文档的摘要语句。特别地,在本实施方式的摘要语句画面中,作为摘要语句,使用摘要对象文档的重要用语,显示表示与关键字(在图13所示的例子中为“投资金额”)对应的值(在图13所示的例子中为“500万日元”)的语句。因此,信息处理装置10的用户通过参照该摘要语句画面,能够更加有效地掌握摘要对象文档的内容。
[0128]
作为一例,在通过显示部15显示图13所示的摘要语句画面时,信息处理装置10的用户在参照摘要语句画面后,经由输入部14指定摘要语句画面中显示的结束按钮15a。根据该指定,步骤334的处理成为肯定判定,转移到步骤336。
[0129]
在步骤336中,cpu11判定预定的结束时刻是否到达,在成为否定判定的情况下,返回步骤302,另一方面,在成为肯定判定的情况下,结束本文档分类处理。另外,在本实施方式中,作为上述结束时刻,应用了由信息处理装置10的用户进行输入而指示结束文档分类处理的时刻,但是不限于此。例如,也可以采用如下方式,应用到达作为结束文档分类处理的时刻而预先确定的时刻的时刻、和作为对象的全部图像读取装置90的电源断开的时刻等作为上述结束时刻。
[0130]
[第2实施方式]
[0131]
本实施方式的信息处理系统1的结构和信息处理装置10的硬件结构的各结构与上述第1实施方式相同(参照图1、图2。)。因此,首先,参照图14对本实施方式的信息处理装置10的功能结构进行说明。图14是示出第2实施方式的信息处理装置10的功能结构的一例的框图。另外,对图14中的与图3相同的结构要素标注与图3相同的标号并省略其说明。
[0132]
如图14所示,本实施方式的信息处理装置10与第1实施方式的信息处理装置10的不同之处在于,新包含受理部11f,以及代替提取部11b和提示部11e而分别应用了提取部11b和提示部11e。
[0133]
本实施方式的提取部11b从由导出部11a导出的重要程度高的用语起依次提取作为分类基准的用语作为重要用语。
[0134]
此外,越是与估计部11c在过去估计出的概率高的文档对应的分类基准,本实施方式的提示部11e越优先地提示该分类基准,本实施方式的受理部11f受理与提示部11e进行的提示对应的、应用于估计系统30的分类基准的选择指定。
[0135]
接着,对本实施方式的信息处理装置10的作用进行说明。本实施方式的模型生成处理与第1实施方式相同,因此,这里省略说明。下面,参照图15对运用文档分类模型13c的情况下的本实施方式的信息处理装置10的作用进行说明。图15是示出实施方式的文档分类处理的一例的流程图。另外,对图15中的进行与图10相同的处理的步骤标注与图10相同的步骤编号并尽量省略其说明。
[0136]
如图15所示,本实施方式的文档分类处理与第1实施方式的不同之处在于,代替步骤304的处理而应用了步骤304a和步骤304b的处理,以及代替步骤326的处理而应用了步骤327的处理。
[0137]
即,在步骤304a中,cpu11从手册文档数据库13e读出分类对象手册文档组的全部文档信息。而且,在步骤304a中,cpu11使用读出的文档信息和概率对显示部15进行控制,以显示预定的结构的手册文档提示画面,在步骤304b中,cpu11进行待机直到输入预定的信息为止。
[0138]
图16中示出本实施方式的手册文档提示画面的一例。如图16所示,在本实施方式的手册文档提示画面中,显示催促选择指定要应用的手册文档的消息。此外,在该手册文档提示画面中,按照分类对象手册文档组的各手册文档,分别显示表示手册文档的信息(在图16所示的例子中为“手册文档m002(设备投资)”等)。此外,在本实施方式的手册文档提示画面中,按照分类对象手册文档组的各手册文档,分别显示该手册文档的内容。
[0139]
特别是,在本实施方式的手册文档提示画面中,越是与概率高的文档对应的手册文档,越优先地进行显示。在图16所示的例子中,被分配了作为手册文档id的m002的手册文档的概率最高,与该手册文档有关的信息显示在最上层。此外,在图16所示的例子中,按照被分配了作为手册文档id的m001的手册文档、被分配了作为手册文档id的m004的手册文档的顺序,各手册文档的概率从高到低地依次趋向于下层侧,在背面侧重叠显示。因此,信息处理装置10的用户通过参照该手册文档提示画面,能够更高效地指定分类对象手册文档。
[0140]
作为一例,在通过显示部15显示图16所示的手册文档提示画面时,信息处理装置10的用户在经由输入部14指定了欲设定成分类对象手册文档的手册文档后,经由输入部14指定结束按钮15a。根据该指定,步骤304b的处理成为肯定判定,转移到步骤306。此后,应用
由用户指定的手册文档的文档信息作为分类对象手册文档的文档信息。
[0141]
另一方面,在步骤327中,cpu11从通过步骤318的处理而存储的重要程度较高的用语起依次提取句子和单词作为重要用语。另外,在本实施方式中,对于上述重要用语的提取,通过从重要程度最高的用语起依次提取预定的数量的句子和单词来进行。其结果,在通过步骤328的处理而由显示部15显示的分类结果画面中,以与第1实施方式同样的方式强调显示通过步骤327的处理而提取出的句子和单词。
[0142]
[第3实施方式]
[0143]
本实施方式的信息处理系统1的结构和信息处理装置10的硬件结构的各结构与上述第1实施方式相同(参照图1、图2。)。因此,首先,参照图17对本实施方式的信息处理装置10的功能结构进行说明。图17是示出第3实施方式的信息处理装置10的功能结构的一例的框图。另外,对图17中的与图3相同的结构要素标注与图3相同的标号并省略其说明。
[0144]
如图17所示,本实施方式的信息处理装置10与第1实施方式的信息处理装置10的不同之处在于,代替应用部11d而应用了应用部11d。
[0145]
关于本实施方式的应用部11d,越是与在学习部11g进行的文档分类模型13c的学习中使用的目标文档的数量较多的文档对应的分类基准,越优先将相应的分类基准选择性地用作估计系统30的估计对象。
[0146]
接着,参照图18对本实施方式的手册文档数据库13e进行说明。图18是示出第3实施方式的手册文档数据库13e的结构的一例的示意图。
[0147]
如图18所示,本实施方式的手册文档数据库13e与第1实施方式的手册文档数据库13e的不同之处在于,还按照每个手册文档存储了学习文档数。
[0148]
上述学习文档数是表示将在文档分类模型13c的学习中使用的目标文档的数量与对应的手册文档一起示出的信息。
[0149]
接着,参照图19~图20对本实施方式的信息处理装置10的作用进行说明。首先,参照图19对进行文档分类模型13c的学习的情况下的信息处理装置10的作用进行说明。图19是示出实施方式的模型生成处理的一例的流程图。另外,对图19中的进行与图9相同的处理的步骤标注与图9相同的步骤编号并省略其说明。
[0150]
如图19所示,本实施方式的模型生成处理与第1实施方式的不同之处在于,新追加了步骤215。
[0151]
即,在步骤215中,cpu11使手册文档数据库13e中的、与对象手册文档对应的学习文档数增加1。通过该步骤215的处理,每当使用对象手册文档进行文档分类模型13c的学习时,手册文档数据库13e的学习文档数增加1。
[0152]
接着,参照图20对运用文档分类模型13c的情况下的本实施方式的信息处理装置10的作用进行说明。图20是示出实施方式的文档分类处理的一例的流程图。另外,对图20中的进行与图10相同的处理的步骤标注与图10相同的步骤编号并省略其说明。
[0153]
如图20所示,本实施方式的文档分类处理与第1实施方式的不同之处在于,新追加了步骤301,并且代替步骤304的处理而应用了步骤305的处理。
[0154]
即,在步骤301中,cpu11从手册文档数据库13e读出全部分类对象手册文档组的学习文档数。然后,在步骤305中,越是与读出的学习文档数较多的文档对应的手册文档,cpu11越优先将相应的手册文档的文档信息作为分类对象手册文档的文档信息从手册文档
数据库13e读出。
[0155]
另外,在反复执行步骤305~步骤322的处理时,在步骤305中,cpu11读出学习文档数的数量仅次于上一次作为分类对象手册文档读出的手册文档的手册文档的文档信息,来作为分类对象手册文档的文档信息。
[0156]
以上说明了各实施方式,但是,本发明的技术范围不限于上述实施方式记载的范围。能够在不脱离公开主旨的范围内对上述各实施方式施加多种变更或改良,施加该变更或改良后的方式也包含在本发明的技术范围内。
[0157]
此外,上述各实施方式并不限定权利要求书涉及的公开,此外,在各实施方式中说明的特征的组合不一定全部是公开的解决手段所必须的。在所述各实施方式中包含各种阶段的公开,通过公开的多个结构要件的组合提取各种公开。即使从各实施方式所示的全部结构要件中删除若干个结构要件,只要得到效果,则删除了该若干个结构要件后的结构也能够作为公开来提取。
[0158]
此外,在上述各实施方式中,处理器是指广义的处理器,包含通用的处理器(例如cpu等)、专用的处理器(例如gpu:graphics processing unit:图形处理单元、asic:application specific integrated circuit:专用集成电路、fpga:field programmable gate array:现场可编程门阵列、可编程逻辑器件等)。
[0159]
此外,在上述各实施方式中,说明了信息处理系统1对应于多个图像读取装置90的情况,但是不限于此。例如,也可以采用信息处理系统1仅对应于一个图像读取装置90的方式。
[0160]
此外,在上述各实施方式中,说明了在运用文档分类模型13c的情况下在文档分类模型13c的学习中不使用作为对象的目标文档80的情况,但是,本发明不限于此。例如,也可以采用在运用文档分类模型13c的情况下在文档分类模型13c的学习中使用作为对象的目标文档80的方式。
[0161]
进而,在上述各实施方式中,说明了通过执行程序、利用计算机通过软件结构实现模型生成处理和文档分类处理的情况,但是,本发明不限于此。例如,也可以设为通过硬件结构、或硬件结构和软件结构的组合来实现模型生成处理和文档分类处理的方式。
[0162]
除此以外,上述各实施方式中说明的信息处理装置10的结构是一例,当然可以在不脱离本发明的主旨的范围内删除不必要的部分,或者追加新的部分。
[0163]
此外,上述各实施方式中说明的模型生成处理和文档分类处理的流程也是一例,当然可以在不脱离本发明的主旨的范围内删除不必要的步骤,或者追加新的步骤,或者调换处理顺序。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1