文本挖掘设备、文本挖掘方法和计算机可读记录介质的制作方法_2

文档序号:8287876阅读:来源:国知局
,分析视角候选生成单元20首先从分析对象数据存储单元10读取分析对象数据,并且通过从读取的分析对象数据获得用作分析视角候选的属性值来生成分析视角候选(步骤Si)。此时,单个属性值或两个或更多属性值的组合可以被获得为一个分组视角候选。
[0045]而且,在本第一实施例中,在步骤SI中,分析视角候选生成单元20从构成分析对象数据的记录的每一个检索属性值的所有可能的组合,并且使用所有的检索到的组合作为分析视角候选。在该情况下,列出了使得能够生成包括至少一个记录的记录子集的分析视角候选。
[0046]例如,在图2的示例中,基于属性“性别、年龄组”的组合,分析视角候选生成单元20从具有ID I的记录生成分析视角候选“男,20多岁”,并且从具有ID 2的记录生成分析视角候选“女,30多岁”。如此生成的分析视角候选用作在下述步骤S2中生成的记录子集的元素。
[0047]而且,在步骤SI中,为了减少要列出的分析视角候选的量,分析视角候选生成单元20可以限制要组合的属性值的数目,并且可以消除可应用的记录的数目不大于也不等于特定数目的分析视角候选。
[0048]接下来,对于在步骤SI中获得的分析视角候选中的每一个,分析视角候选生成单元20将包括分析视角候选的记录识别为元素,并且进一步生成识别的记录集合(记录子集)(步骤S2)。分析视角候选生成单元20还向特征度计算单元11输出记录子集。
[0049]在步骤S2中,分析视角候选生成单元20可以进一步确定在针对一个分析视角候选识别的记录(记录子集)和针对另一分析视角候选识别的记录(记录子集)之间是否存在特定相似度关系。如果确定的结果指示存在特定相似度关系,则分析视角候选生成单元20可以合并一个分析视角候选和另一分析视角候选。
[0050]这里,用于合并多个分析视角候选的方法的一个示例是下述方法:其中,找出在要合并的分析视角候选中所包括的属性值的并集或交集,并且将其用作新的分析视角候选。用于合并多个分析视角候选的方法的另一示例是下述方法:其中,仅留下要合并的分析视角候选中的一个,并且删除剩余部分。应当注意,在采用涉及删除的方法的情况下,分析视角候选生成单元20可以仅留下具有最高特征度的分析视角候选,并且在执行下述步骤S3之后删除剩余部分。
[0051]经常有下述情况:在类似的记录子集中的文本数据的内容的趋势之间不存在大的差异。因此,以上分析视角候选的合并在减少对分析者呈现分析视角候选时的冗余中是有效的。而且,如果具有类似记录子集的分析视角候选被集体地呈现为显示相同趋势的分析视角,则改善由分析者进行的分析的效率。
[0052]接下来,对于分析视角候选中的每一个,特征度计算单元21将在步骤S2中生成的记录子集中的文本数据与至少包括除了包括属性值的在步骤S2中识别的记录之外的记录的记录集合作比较,并且基于比较的结果来计算指示在分析视角候选和分析对象数据之间的关系的特征度(步骤S3)。应当注意,在图3的说明中,假定“至少包括除了包括属性值的在步骤S2中识别的记录之外的记录的记录集合”是“在分析对象数据中的所有记录”,并且以下描述了使用“在分析对象数据中的所有记录”的示例。
[0053]在步骤S3中,例如,特征度计算单元21计算特征度,使得在记录子集中的文本数据的内容的趋势与在所有记录中的文本数据的内容的趋势越不同,则特征度的值越大。
[0054]在本第一实施例中,关于在分析对象数据中的记录的每一个,特征度计算单元21首先通过对整个文本数据应用作为现有技术的文本集群来将记录中的整个文本数据划分成标题。然后,特征度计算单元21找出在每个分析视角候选的记录子集中的文本数据中的话题分布以及在分析对象数据中的所有记录中的文本数据中的话题分布。特征度计算单元21可以基于在找出的话题分布之间的非相似度来计算特征度。在以上述方式来计算特征度的情况下,将整体的话题分布与和特定分析视角候选相关的话题分布作比较,并且因此,趋势之间的总体差异被计算为特征度。
[0055]具体地,例如,假定通过文本集群来将整个文本数据划分为三个话题T1、T2、T3,在用于分析视角候选A的记录子集中的话题的频率分布X是“Tl:10%, Τ2:30%, T3:60%”,并且在整个记录中的话题的频率分布y是“Tl:20%,T2:20%,T3:60%”。
[0056]在将余弦相似度的导数用作特征度的情况下,根据下面的表达式I来计算特征度1.02。应当注意,导数用作特征度,因为较大值的余弦相似度指示更相同的趋势,即,更大的相似度。
[0057](表达式I)
[0058]特征度=l/(x*y/|xy|)
[0059]另一方面,在用于分析视角候选B的记录子集中的话题的频率分布是“Tl:60%,T2:20%,T3:30%"的情况下,根据上面的表达式I来计算特征度1.57。在该情况下,当用于分析视角候选B的特征度大于用于分析视角候选A的特征度时,认为分析视角候选B比分析视角候选A更容易点导致有用知识的发现。
[0060]而且,代替余弦相似度,可以从频率分布向量计算的任何相似度的导数或可以从频率分布向量类似地计算的距离可以被用作特征度。
[0061]而且,特征度计算单元21可以通过执行统计测试来计算特征度,在统计测试中,当分析视角候选A的话题出现比率和所有记录的话题出现比率相同时,虚假设成立,使得其P值越小,特征度的值越大。可以将卡方检验和作为一种类型的似然比测试的的G测试等等用作统计测试。
[0062]在另一示例中,在步骤S3中,特征度计算单元21针对话题中的每一个从在文本集群之后的整个记录中识别包括话题的记录集合。然后,特征度计算单元21计算在识别的每话题集合和每个分析视角候选的记录子集之间的相似度。特征度计算单元21可以使用该相似度来计算特征度。在该示例中,特征度指示在整个记录和与特定话题相关的分析视角候选的记录子集之间的比较的结果。
[0063]具体地,例如,假定在整个记录中,包括话题Tl的记录的数目是1000,并且在用于两个分析视角候选C和D的记录子集中的记录的数目分别是500和700。还假定在用于分析视角候选C和D的记录子集当中,包括话题Tl的记录的数目和相互记录的数目分别是400 和 200。
[0064]在该情况下,使用Dice系数,与话题Tl相关的分析视角候选C的特征度是0.53( = 2X400/(1000+500)) ο另一方面,与话题Tl相关的分析视角候选D的特征度是0.24 ( = 2X 200/(1000+700))。应当注意,在该情况下,可以使用用于计算在记录集合之间的相似度而不是Dice的任何方法来计算特征度。
[0065]特征度计算单元21还可以从用于分析视角候选的记录子集中提取特征字,并且使用例如提取的特征字的分数(例如,出现频率)的特征字的提取的结果来计算特征度。具体地,特征度计算单元21可以以分数值的降序来从提取的特征字中识别N个特征字,并且使用所识别的特征字的分数的和作为特征度。
[0066]此外,特征度计算单元21可以从分析视角候选的记录子集和在分析对象数据中的所有记录二者中提取特征字,计算在所提取的特征字之间的相似度,并且使用该相似度来计算特征度。
[0067]具体地,特征度计算单元21首先从分析视角候选的记录子集和在分析对象数据中的所有记录二者中以分数值的降序来提取N个特征字。随后,特征度计算单元21计算在N个提取的特征字的集合之间的相似度。特征度计算单元21可以使用该相似度来计算特征度,使得相似度越低,特征度的值越大。
[0068]以上已经描述了在特征度的计算中利用特征字的提取的两个示例。虽然这些示例的优点在于没有必要设置文本集群所需要的参数,但是使其难以理解逐个话题的基础上的综合趋势。
[0069]而且,与基于话题出现比率的上述方法类似地,特征度计算单元21可以通过执行统计测试来计算特征度,在统计测试中,当分析视角候选A的特征字出现比率和所有记录的特征字出现比率相同时,虚假设成立,使得其P值越小,特征度的值越大。
[0070]接下来,特征度计算单元21向分析视角数据存储单元11输出已经在步骤S3中与分析视角候选一对一地对应地计算的特征度作为分析视角数据的(步骤S4)。一旦执行了步骤S4,分析视角数据存储单元11就存储分析视角数据。在执行步骤S4之后,结束文本挖掘设备2的处理。应当注意,在本第一实施例中,分析视角数据是分析视角候选及其特征度的组合。
[0071]程序
[0072]根据本发明的第一实施例的程序足以使得计算机执行在图3中所示的步骤SI至S4。可以通过将该程序安装在计算机中并且执行所安装的程序来实现根据本第一实施例的文本挖掘设备2和文本挖掘方法。在该情况下,计算机的CPU(中央处理单元)用作分析视角候选生成单元20和特征度计算单元21,并且相应地执行处理。
[0073]而且,在本第一实施例中,数据存储设备I可以由在计算机中提供的诸如硬盘的存储设备来实现,其中安装有根据本第一实施例的程序。而且,数据存储设备I可以由另一计算机的存储设备来实现,该另一计算机经由网络等连接到安装有根据本第一实施例的程序的计算机。
[0074]第一实施例的效果
[0075]如上所述,在本第一实施例中,在不根据分析者的经验和感觉的情况下,从分析对象数据自动地设置分析视角候选。因此,本第一实施例使得能够有效设置分析视角,该分析视角包括对于分析者出人意料的分析的视角,并且具有获得特征结果的高概率。
[0076](第二实施例)
[0077]下面参考图4来描述根据本发明的第二实施例的文本挖掘设备、文本挖掘方法和程序。
[0078]根据本第二实施例的文本挖掘设备具有与在图1中所示的根据第一实施例的文本挖掘设备I的配置类似的配置,但是在分析视角候选和特征度计算单元的操作上与其不同。参考图4,下面在提供
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1