文本挖掘设备、文本挖掘方法和计算机可读记录介质的制作方法

文档序号:8287876阅读:382来源:国知局
文本挖掘设备、文本挖掘方法和计算机可读记录介质的制作方法
【技术领域】
[0001]本发明涉及能够通过文本数据的分析来向分析者提供有用知识的文本挖掘系统。具体地,本发明涉及向分析者提出分析的视角作为有用知识的文本挖掘设备和文本挖掘方法以及记录有用于实现该方法和设备的程序的计算机可读记录介质。
【背景技术】
[0002]通常,为了通过文本挖掘获取有用知识,从多个视角进行分析是必要的。例如,在文本挖掘中,基于特定的视角来针对对象文本数据执行集群,并且确定在通过集群划分的部分中的文本的内容是否有特征。如果确定的结果指示存在有特征部分,则这导致有用知识的发现。
[0003]专利文件I公开了用于执行这样的文本挖掘的传统文本挖掘系统。在专利文件I中公开的文本挖掘系统使用由多个记录构成的数据作为分析对象数据。在分析对象数据中的记录的每一个包括属性值和文本数据。
[0004]一旦分析者指定了特定属性(例如,工作类别),则在专利文件I中公开的文本挖掘系统首先使用指定的属性(例如,学生、雇员等)的属性值来针对属性值中的每一个从分析对象数据中提取适用记录。在此,所提取的记录被称为“子集”。
[0005]接下来,在专利文件I中公开的文本挖掘系统通过向在分析对象数据中的文本数据应用文本分类来生成多个文本组。此后,对于属性值中的每一个,在专利文件I中公开的文本挖掘系统对在子集和文本组之间的关联编索引,并且显示指示在子集和文本组之间的关联的?目息。
[0006]S卩,根据在专利文件I中公开的文本挖掘系统,通过将属性指定为分析的视角,分析者可以针对其属性值的每一个查看与文本组的关联。换言之,通过使用这样的文本挖掘系统,分析者可以设置公知的视角以及从分析者的经验或感觉推测的视角,并且基于所设置的视角来进行分析。
[0007]引用列表
[0008]专利文件
[0009]专利文件1:JP 2004-164137A

【发明内容】

[0010]本发明要解决的问题
[0011]然而,在专利文件I中公开的文本挖掘系统中,分析者需要基于例如他本身/她本身的经验或感觉来设置视角,并且因此,往往在分析者的视角的范围内进行分析。为此,除非分析者在反复试验后设置分析的视角,否则将难以有效地设置导致发现对于分析者出人意料但是有益的知识的分析的视角。
[0012]本发明的目的
[0013]本发明的目的是提供一种文本挖掘设备、文本挖掘方法和计算机可读记录介质,该文本挖掘设备、文本挖掘方法和计算机可读记录介质解决上述问题,并且使得能够有效设置导致在文本挖掘中发现对于分析者出人意料但是有用的知识的分析的视角。
[0014]解决问题的手段
[0015]为了实现上面的目的,根据本发明的一个方面的文本挖掘设备使用由包括属性值和文本数据的记录集合构成的数据作为分析对象数据,并且包括:分析视角候选生成单元,所述分析视角候选生成单元从所述分析对象数据中提取属性值,并且使用所提取的属性值来生成分析视角候选;以及特征度计算单元,所述特征度计算单元将在包括作为分析视角候选提取的属性值的记录中的文本数据与至少包括除了包括在分析对象数据中的属性值的记录之外的记录的记录集合中的文本数据作比较,并且基于比较的结果来计算特征度,所述特征度指示在分析视角候选和分析对象数据之间的关系。
[0016]而且,为了实现上面的目的,根据本发明的一个方面的一种文本挖掘方法使用由包括属性值和文本数据的记录集合构成的数据作为分析对象数据,并且包括:步骤(a)从所述分析对象数据中提取属性值,并且使用所提取的属性值来生成分析视角候选;以及步骤(b)将在包括作为分析视角候选提取的属性值的记录中的文本数据与至少包括除了包括在分析对象数据中的属性值的记录之外的记录的记录集合中的文本数据作比较,并且基于比较的结果来计算特征度,所述特征度指示在分析视角候选和分析对象数据之间的关系O
[0017]而且,为了实现上面的目的,根据本发明的一个方面的计算机可读记录介质在记录有程序,该程序用于通过计算机执行文本挖掘,其中,包括属性值和文本数据的记录集合构成的数据被用作分析对象数据,该程序包括用于使得计算机执行下述步骤的指令:(a)从所述分析对象数据中提取属性值,并且使用所提取的属性值来生成分析视角候选;以及步骤(b)将在包括作为分析视角候选提取的属性值的记录中的文本数据与至少包括除了包括在分析对象数据中的属性值的记录之外的记录的记录集合中的文本数据作比较,并且基于比较的结果来计。
[0018]本发明的效果
[0019]如上所述,本发明使得能够有效设置导致在文本挖掘中发现对于分析者出人意料但是有用的知识的分析的视角。
【附图说明】
[0020]图1是示出根据本发明的第一实施例的文本挖掘设备的配置的框图。
[0021]图2示出了在本发明的第一实施例中使用的分析对象数据的一个示例。
[0022]图3是示出根据本发明的第一实施例的文本挖掘设备的操作的流程图。
[0023]图4是示出根据本发明的第二实施例的文本挖掘设备的操作的流程图。
[0024]图5是示出根据本发明的第三实施例的文本挖掘设备的配置的框图。
[0025]图6是示出根据本发明的第三实施例的文本挖掘设备的操作的流程图。
[0026]图7是示出实现根据本发明的第一至第三实施例的文本挖掘设备的计算机的一个示例的框图。
【具体实施方式】
[0027](第一实施例)
[0028]下面参考图1至3描述根据本发明的第一实施例的文本挖掘设备、文本挖掘方法和程序。
[0029]设备配置
[0030]首先,参考图1给出根据本第一实施例的文本挖掘设备的配置的说明。图1是示出根据本发明的第一实施例的文本挖掘设备的配置的框图。
[0031]如图1中所示,根据本第一实施例的文本挖掘设备2使用由包括属性值和文本数据的记录集合构成的数据作为分析对象数据来执行文本挖掘。
[0032]而且,如图1中所示,文本挖掘设备2包括分析视角候选生成单元20和特征度计算单元21。其中,分析视角候选生成单元20从分析对象数据中提取属性值,并且使用所提取属性值来生成分析视角候选。
[0033]特征度计算单元21首先将在包括作为分析视角候选提取的属性值的记录中的文本数据与至少包括除了包括在分析对象数据中的属性值的记录之外的记录的记录集合中的文本数据作比较。然后,特征度计算单元21基于比较结果来计算指示在分析视角候选和分析对象数据之间的关系的特征度。
[0034]以该方式,根据本第一实施例的文本挖掘设备2独立于分析者的意图来机械地提取用作分析视角候选的属性值,并且计算该属性值的特征度。因此,分析者可以识别出人意料但是具有高特征度的分析视角候选,即,具有使得能够发现有用知识的高可能性的分析视角候选。因此,文本挖掘设备2使得能够有效设置导致在文本挖掘中发现对于分析者出人意料但是有用的知识的分析的视角。
[0035]现在参考图2来更详细地描述根据本第一实施例的文本挖掘设备2的配置。图2示出了在本发明的第一实施例中使用的分析对象数据的一个示例。
[0036]如图1中所示,在本第一实施例中,文本挖掘设备2连接到数据存储设备I,并且与数据存储设备I 一起构成文本挖掘系统3。数据存储设备I包括分析对象数据存储单元10和分析视角数据存储单元11。
[0037]分析对象数据存储单元10存储分析对象数据。在图2的示例中,分析对象数据是关于个人计算机的问卷的结果。而且,在图2的示例中,构成分析对象数据的记录中的每一个包括七种类型的属性的属性值(性别、年龄组、结婚、使用的主要目的、制造商、产品和满意度)和与不同的文本属性相关的两种类型的文本数据(自由描述(I)、自由描述(2))。应当注意,在本实施例中,不对在分析对象数据中的属性的类型的数目和文本数据的类型的数目施加具体限制。
[0038]而且,分析视角数据存储单元11存储由文本挖掘设备2输出的分析视角数据。在本实施例中,分析视角数据由与分析视角候选一对一地对应地计算的特征度构成。
[0039]而且,在本第一实施例中,分析视角候选生成单元20可以从分析对象数据中提取一个属性值,并且仅使用所提取的属性值来生成分析视角候选,并且可以提取多个属性值,并且使用该多个属性值来生成分析视角候选。具体地,在图3的示例中,分析视角候选生成单元20可以生成仅包括“男”的分析视角候选,并且可以生成包括组合“男、20多岁”的分析视角候选。
[0040]而且,在本第一实施例中,在分析视角候选生成单元20生成分析视角候选之后,识别包括提取为分析视角候选的属性值的记录,并且生成识别的记录集合(以下称为“记录子集”)。应当注意,包括提取为分析视角候选的属性值的记录的数目可以是I。在该情况下,记录子集仅由一个记录构成。
[0041 ] 而且,在本第一实施例中,使“至少包括除了包括在分析对象数据中的属性值的记录之外的记录的记录集合”包括除了包括属性值的记录之外的至少一个记录。该记录集合可以是在分析对象数据中的所有记录,并且可以是从在分析对象数据中的所有记录当中随机选择的记录集合。而且,“至少包括除了包括在分析对象数据中的属性值的记录之外的记录的记录集合”可以是已经基于预设的分析视角选择的记录集合。
[0042]设备操作
[0043]现在参考图3来给出根据本发明的第一实施例的文本挖掘设备2的操作的说明。图3是示出根据本发明的第一实施例的文本挖掘设备的操作的流程图。在下面的说明中,将适当参考图1和图2。而且,在本第一实施例中,通过使得文本挖掘设备2进行操作来实现文本挖掘方法。因此,文本挖掘设备2的操作的以下说明适用于根据本第一实施例的文本挖掘方法。
[0044]如图3中所示
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1