文本挖掘设备、文本挖掘方法和计算机可读记录介质的制作方法_3

文档序号:8287876阅读:来源:国知局
根据本第二实施例的文本挖掘设备的操作的说明的同时描述与第一实施例的差异。
[0079]图4是示出根据本发明的第二实施例的文本挖掘设备的操作的流程图。应当注意,在下面的说明中,将适当参考在第一实施例中使用的图1和图2,并且将使用图1中使用的附图标记。而且,在本第二实施例中,通过使得文本挖掘设备进行操作来实现文本挖掘方法。
[0080]如图4中所示,分析视角候选生成单元20首先从分析对象数据存储单元10读取分析对象数据,并且通过从所读取的分析对象数据获得用作分析视角候选的属性值来生成分析视角候选(步骤Sll)。应当注意,在步骤Sll中,没有如在图3中所示的根据第一实施例的步骤SI中那样综合地列出分析视角候选。在步骤Sll中,随机生成多个分析视角候选。
[0081]接下来,对于在步骤Sll中获得的分析视角候选中的每一个,分析视角候选产生单元20将包括分析视角候选的记录识别为元素,并且进一步生成识别的记录集合(记录子集)(步骤S12)。步骤S12类似于在图3中所示的步骤S2。分析视角候选生成单元20还向特征度计算单元输出记录子集。
[0082]接下来,对于分析视角候选中的每一个,特征度计算单元21将在步骤S12中生成的记录子集中的文本数据与至少包括除了包括属性值的在步骤S12中识别的记录之外的记录的记录集合作比较,并且基于比较的结果来计算指示在分析视角候选和分析对象数据之间的关系的特征度(步骤S13)。步骤S13类似于在图3中所示的步骤S3。而且在本第二实施例中,假定“至少包括除了包括属性值的在步骤S12中识别的记录之外的记录的记录集合”是“在分析对象数据中的所有记录”,并且下面描述使用“在分析对象数据中的所有记录”的示例。
[0083]接下来,特征度计算单元21计数对在步骤S13中计算的其特征度高于或等于预设阈值的分析视角候选的数目进行计数,并且确定所计数的数目是否已经达到对象数目(步骤 S14)ο
[0084]如果在步骤S14中的确定的结果指示计数的数目还没有达到对象数目,则特征度计算单元21使得分析视角候选生成单元20再次执行步骤SI I。即,重复分析视角候选的生成和特征度的计算,直到通过在步骤S14中的确定来找到被认为至少具有特定的特征水平的特定数目或更多的分析视角候选。
[0085]另一方面,如果在步骤S14中的确定的结果指示计数数目已经达到对象数目,则特征度计算单元21向分析视角数据存储单元11输出已经在步骤S13中与分析视角候选一对一地对应地计算的特征度作为分析视角数据(步骤S15)。在执行步骤S15之后,结束文本挖掘设备的处理。步骤S15类似于在图3中所示的步骤S4。
[0086]程序
[0087]根据本发明的第二实施例的程序足以使得计算机执行在图4中所示的步骤Sll至S15。可以通过在计算机中安装该程序并且执行所安装的程序来实现根据本第二实施例的文本挖掘设备和文本挖掘方法。在该情况下,计算机的CPU(中央处理单元)用作分析视角候选生成单元20和特征度计算单元21,并且相应地执行处理。
[0088]而且在本第二实施例中,数据存储设备I可以由在安装有根据本第二实施例的程序的计算机中提供的诸如硬盘的存储设备来实现。而且,数据存储设备I可以通过另一计算机的存储设备来实现,该另一计算机经由网络等连接到安装有根据本第二实施例的程序的计算机。
[0089]第二实施例的效果
[0090]如上所述,在本第二实施例中,限制分析视角候选的数目。这在下述情况下是实用的:存在多个类型属性及其属性值,并且难以在计算的时间段和存储容量上提前列出分析视角候选。本第二实施例使得能够减少计算的时间段和所需要的存储容量。利用本第二实施例,可以实现与由第一实施例实现的效果类似的效果。
[0091](第三实施例)
[0092]下面参考图5和图6来描述根据本发明的第三实施例的文本挖掘设备、文本挖掘方法和程序。
[0093]设备配置
[0094]首先,参考图5来给出根据本第三实施例的文本挖掘设备的配置的说明。图5是示出根据本发明的第三实施例的文本挖掘设备的配置的框图。
[0095]如图5中所示,根据本第三实施例的文本挖掘设备23与在图1中所示的根据第一实施例的文本挖掘2的不同之处在于:除了分析视角候选20和特征度计算单元21之外还包括验证信息提取单元22。
[0096]在其他方面中,以与在图1中所示的根据第一实施例的文本挖掘设备2类似的方式来配置文本挖掘设备23。在图5中所示的分析视角候选20和特征度计算单元21是与在图1中所示的分析视角候选20和特征度计算单元21相同的功能块。下面的描述集中在与第一实施例的差异。
[0097]首先,验证信息提取单元22从包括作为分析视角候选提取的属性值的记录(记录子集)中的文本数据提取特征字和代表性文本中的一个或二者作为用于分析视角候选的验证信息。应当注意,在本第一实施例中,任何公开的技术被用作用于从文本数据提取特征字或代表性文本的技术。
[0098]随后,验证信息提取单元22向分析视角候选附加所提取的验证信息。验证信息提取单元22还使得分析视角数据存储单元11存储附加有验证信息的分析视角候选。
[0099]设备操作
[0100]现在参考图6来给出根据本发明的第三实施例的文本挖掘设备23的操作的说明。图6是示出根据本发明的第一实施例的文本挖掘设备的操作的流程图。在下面的说明中,将适当参考图5。而且在本第三实施例中,通过使得文本挖掘设备23进行操作来实现文本挖掘方法。因此,文本挖掘设备23的操作的下面的说明适用于根据本第三实施例的文本挖掘方法。
[0101]如图6中所示,分析视角候选生成单元20首先从分析对象数据存储单元10读取分析对象数据,并且通过从所读取的分析对象数据获得用作分析视角候选的属性值来生成分析视角候选(步骤S21)。
[0102]接下来,对于在步骤S21中获得的分析视角候选中的每一个,分析视角候选生成单元20识别包括作为元素的分析视角候选的记录,并且进一步生成识别的记录集合(记录子集)(步骤S22)。
[0103]接下来,对于分析视角候选的每一个,特征度计算单元21将在步骤S22中生成的记录子集中的文本数据与至少包括除了包括属性值的在步骤S22中识别的记录之外的记录的记录集合作比较,并且基于比较的结果来计算指示在分析视角候选和分析对象数据之间的关系的特征度(步骤S23)。而且在本第三实施例中,假定“至少包括除了包括属性值的在步骤S22中识别的记录之外的记录的记录集合”是“在分析对象数据中的所有记录”,并且下面描述了使用“在分析对象数据中的所有记录”的示例。
[0104]上述步骤S21至S23类似于在图3中所示的步骤SI至S3。一旦已经执行了步骤S21至S23,则验证信息提取单元22从在记录子集中的文本数据提取特征字和代表性文本中的一个或二者作为用于分析视角候选的验证信息(步骤S24).
[0105]接下来,验证信息提取单元22向分析视角候选附加在步骤S24中提取的验证信息(步骤S25)。然后,验证信息提取单元22向分析视角数据存储单元11输出附加有验证信息的分析视角候选以及在步骤S23中计算的特征度作为分析视角数据(步骤S26)。
[0106]一旦已经执行了步骤S26,则分析视角数据存储单元11存储分析视角数据。在执行步骤S26之后,结束文本挖掘设备23的处理。步骤S24和S25的执行定时足以在分析视角候选的生成之后发生,并且在这方面不期望有任何特定限制。
[0107]程序
[0108]根据本发明的第三实施例的程序足以使得计算机执行在图6中所示的步骤S21至S26。可以通过在计算机中安装该程序并且执行所安装的程序来实现根据本第二实施例的文本挖掘设备和文本挖掘方法。在该情况下,计算机的CPU(中央处理单元)用作分析视角候选生成单元20、特征度计算单元21和验证信息提取单元22,并且相应地执行处理。
[0109]而且在本第三实施例中,数据存储设备I可以由在安装有根据本第三实施例的程序的计算机中提供的诸如硬盘的存储设备来实现。而且,数据存储设备I可以由另一计算机的存储设备来实现,该另一计算机经由网络等连接到安装有根据本第三实施例的程序的计算机。
[0110]第三实施例的效果
[0111]如上所述,在本第三实施例中,提供了用于验证分析视角候选是否有希望的信息(验证信息),并且分析者可以容易地综合所呈现的分析视角候选的特征。换言之,所提供的信息使得分析者能够预测是否可以在使用分析视角候选进行分析的情况下获得有意义的结果。因此,本第三实施例使得能够更有效地设置具有获得特征结果的高概率的分析视角,包括对于分析者出人意料的分析视角。
[0112]特定配置
[0113]现在参考图7给出根据第一至第三实施例的通过执行程序来实现文本挖掘设备的计算机的说明。图7是示出根据本发明的第一至第三实施例的实现文本挖掘设备的计算机的一个示例的框图。
[0114]如图7中所示,计算机110包括CPU 111、主存储器112、存储设备113、输入接口114、显示控制器115、数据读取器/写入器116和通信接口 117。这些组件以使得其可以经由总线121彼此执行数据通信的方式来连接。
[0115]CPU 111通过向主存储器112布置在存储设备113中存储的根据本实施例的程序(代码)并且以预定顺序来执行所布置的程序来执行各种类型的操作。主存储器112通常是诸如DRAM(动态随机存取存储器)的易失性存储设备。该程序在被存储在计算机可读记录介质120中的同时被提供。该程序可以在经由通信接口 117连接的因特网上分布。
[0116]存储设备113的特定示例包括硬盘驱动器和诸如闪速存储器的半导体存储设备。输入接口 114在CPU 111和诸如键盘和鼠标的输入设备118之
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1