文档分析装置以及程序的制作方法

文档序号:8399325阅读:253来源:国知局
文档分析装置以及程序的制作方法
【技术领域】
[0001] 本发明的实施方式设及对被电子化的文档组进行分析的文档分析装置W及程序。
【背景技术】
[0002] 近年来,随着信息系统的高度化,能够记录并保存大量的例如专利文献、新闻记 事、网页或书籍等被电子化的文档(W下,简单记为文档)。因此,要求将该些储存的文档组 有效活用于每天的业务。
[0003] 作为文档组的有效活用的具体例,例如可W考虑通过将庞大的量的新闻记事进行 分类而整理成众人容易利用,或通过将与当前研究开发的技术有关的专利文献进行分类而 对本公司和其他公司的专利组的趋向进行分析并发现新的研究开发领域等。
[0004] 也就是说,从信息的有效活用该一点来看,优选的是将大量的文档根据内容等进 行分类(整理)。
[0005] 在此,如上所述的文档例如有多个属性,该各个属性具有该属性的值(W下,记为 属性值)。在文档例如是专利文献的情况下,该文档具有正文(例如,摘要)、申请人W及申 请日等属性。此外,文档所具有的正文、申请人W及申请日该样的各个属性具有与该属性对 应的属性值。另外,文档所具有的属性中,将如正文那样包含由单词构成的文本(文章整体 中的字符串的集合体)的属性称为文本属性,将如申请人那样具有不连续的(非连续的) 值(离散值)作为属性值的属性称为离散值属性,将如申请日那样具有不间断的连续的值 作为属性值的属性称为连续值属性。像该样文档具有属性的情况下,该文档能够根据该属 性的属性值(正文中出现的单词、作为申请人的企业W及申请日等)被分类为各类别。
[0006] 现有技术文献
[0007] 专利文献
[000引专利文献1 ;特开2011 - 198111号公报
[0009] 专利文献2 ;特开2010 - 061176号公报
[0010] 发明概要
[0011] 发明要解决的问题
[0012] 然而,例如在分析将大量的文档的文本和与该文档相关联的多个属性进行组合 的趋向的情况下,有时希望得到某文本的内容根据多个属性而有偏差地出现的见解。具 体而言,在设文本为摘要文、离散值属性为申请人、连续值属性为申请日的专利的基准 炬enchmark)分析中,有时希望知道与其他公司相比,本公司申请得显著多的期间或技术。
[0013] 但是,特开2011 - 198111号中,不是进行考虑了上述那样的连续值及离散值等两 个属性的特征语提取,而是进行根据一个属性的特征语提取。在属性为两个W上的情况下, 由于将文本和两个属性组合起来分析,因此与属性为一个的情况相比,有更需要尝试的问 题。
[0014] 特开2010 - 61176号限定于单词与用户关注的日期等全部的属性有偏差的规则, 有时不能获得符合用户的目的的见解。例如,假设用户希望知道在某特定的时期对产品共 同地咨询多的内容(目p,单词与日期的出现上存在偏差、但单词与咨询产品没有偏差的组 合的模式)。但是,特开2010 - 61176号中,由于限定于与全部的属性有偏差的规则,因此 无法对像该样没有单词的出现的偏差的情况下的属性的组合进行分析,无法获得符合用户 的目的的见解。

【发明内容】

[0015] 因此,本发明要解决的问题是提供能够高效地获得用户期望的见解的文档分析装 置W及程序。
[0016] 用于解决问题的手段
[0017] 实施方式的文档分析装置具备文档存放单元、模式存放单元、取得单元、第1判定 单元、第2判定单元W及提示单元。
[0018] 所述文档存放单元存放有多个文档,该多个文档包含由多个单词构成的文本,并 且该多个文档具有多个属性且包含该属性的属性值。
[0019] 所述模式存放单元存放有多个模式,该多个模式表示单词与所述多个属性中的至 少两个属性分别有无相关。
[0020] 所述取得单元通过对所述文档存放单元中存放的多个文档所包含的文本进行解 析,取得多个单词。
[0021] 所述第1判定单元按所取得的每个所述单词,判定该单词与所述文档存放单元中 存放的多个文档所具有的多个属性中的由用户指定的至少两个属性分别有无相关。
[0022] 所述第2判定单元判定所述第1判定单元的判定结果与所述模式存放单元中存放 的多个模式中的由所述用户指定的模式是否一致。
[0023] 所述提示单元提示被判定为所述第1判定单元的判定结果与由所述用户指定的 模式一致的单词。
【附图说明】
[0024] 图1是示出实施方式的文档分析装置的硬件结构的框图。
[0025] 图2是示出本实施方式的文档分析装置10的主要功能结构的框图。
[0026] 图3是示出图2所示的文档存放部100中存放的文档的数据构造的一例的图。
[0027] 图4是示出表示类别的层级构造中的根类别的类别信息的数据构造的一例的图。 [002引图5是示出表示在类别的层级构造中位于根类别的下级的类别的类别信息的数 据构造的一例的图。
[0029] 图6是示出表示在类别的层级构造中位于图5所示的类别信息122所表示的类别 的下级的类别的类别信息的数据构造的一例的图。
[0030] 图7是示出表示在类别的层级构造中位于根类别的下级的类别的类别信息的数 据构造的一例的图。
[0031] 图8是示出表示在类别的层级构造中位于图7所示的类别信息124所表示的类别 的下级的类别的类别信息的数据构造的一例的图。
[0032] 图9是示出表示在类别的层级构造中位于图7所示的类别信息124所表示的类别 的下级的类别的类别信息的数据构造的一例的图。
[0033] 图10是示出本实施方式的文档分析装置10的处理步骤的流程图。
[0034] 图11是示出类别显示画面的一例的图。
[0035] 图12是用于说明用户指定各种信息时的画面的图。
[0036] 图13是用于说明在模式指定栏15化中能够指定的模式的图。
[0037] 图14是用于具体说明第1模式的图。
[003引图15是用于具体说明第2模式的图。
[0039] 图16是用于具体说明第3模式的图。
[0040] 图17是用于具体说明第4模式的图。
[0041] 图18是示出由单词模式判定处理部141执行的单词模式判定处理的处理步骤的 流程图。
[0042] 图19是用于说明对象单词与离散值属性的相关判定处理的图。
[0043] 图20是示出由分析用单词提取部142执行的分析用单词提取处理的处理步骤的 流程图。
[0044] 图21是用于说明由分析用单词提取部142提取的单词的图。
[0045] 图22是示出由交叉总计可视化部132执行的交叉总计结果显示处理的处理步骤 的流程图。
[0046] 图23是示出显示了由交叉总计可视化部132输出的视图列表的情况下的显示画 面的一例的图。
[0047] 图24是示出选择了单词"折射"的情况下的显示画面的一例的图。
[0048] 图25是示出用曲线图表显示的交叉总计结果的一例的图。
[0049] 图26是示出用数值显示的交叉总计结果的一例的图。
【具体实施方式】
[0化0] W下,参照附图对实施方式进行说明。
[0化1] 图1是示出本实施方式的文档分析装置的硬件结构的框图。另外,文档分析装置 作为用于实现该装置的各功能的硬件结构,或硬件与软件的组合结构而被实现。对软件而 言,预先从存储介质或网络安装,由用于使文档分析装置实现其功能的程序构成。
[0化2] 如图1所示,文档分析装置10具备存储装置11、键盘12、鼠标12、中央运算装置 14W及显示器15。
[0053] 存储装置11是能够从中央运算装置14读出或写入的存储装置,例如是 RAM(RandomAccessMemory)。存储装置11中预先存储有由中央运算装置14执行的程序 (文档分析程序)。
[0054] 键盘12W及鼠标13是输入装置,例如通过文档分析装置10的操作者(用户)的 操作,将由数据或指令构成的各种信息输入至中央运算装置14。
[0化5] 中央运算装置14例如是CPU(处理器),具有执行存储在存储装置11中的程序的 功能、基于从键盘12或鼠标13输入的信息对各处理的执行进行控制的功能、W及将执行结 果向显不器15输出的功能。
[0化6]显示器15是显示装置,具有例如将编辑中的各架构模型、特征模型等进行显示而 可视化的功能。
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1