文件分类系统及方法

文档序号:6502573阅读:272来源:国知局
文件分类系统及方法
【专利摘要】一种文件分类系统及方法,该系统用于:获取指定的文件集及多维多阶分类描述;根据多维多阶分类描述中每个分类与文件集中每篇文件的相似度,对每篇文件进行多维多阶分类;当所有文件分类完毕时,在电子装置的显示设备上输出每篇文件在各维度各阶层的分类。利用本发明可以对文件进行多维多阶分类。
【专利说明】文件分类系统及方法

【技术领域】
[0001] 本发明涉及一种分类系统及方法,尤其涉及一种文件分类系统及方法。

【背景技术】
[0002] 现有的文件分类大多采用一维分类方法,例如,针对【技术领域】进行分类,或针对产 品结构进行分类。随着信息的蓬勃发展,信息与信息间的关系越益错综复杂,例如一批专利 数据,可以用产品结构分类也可以用【技术领域】分类,但更多的时候人们需要同时知道这批 专利同时用产品结构和【技术领域】两个维度对应的分类,进而做更深入的分析。因此,目前单 纯的一维分类无法满足文件数据更高的分析需求。


【发明内容】

[0003] 鉴于以上内容,有必要提供一种文件分类系统及方法,其可利用潜在语义分析技 术对文件进行多维多阶分类,让使用者在文件分类时弹性地扩大或缩小分类的维度和阶 层。
[0004] 一种文件分类系统,应用于电子装置,该系统包括:资料获取模块,用于获取指定 的文件集及多维多阶分类描述;文件分类模块,用于根据多维多阶分类描述中每个分类与 文件集中每篇文件的相似度,对每篇文件进行多维多阶分类;结果输出模块,用于当所有文 件分类完毕时,在电子装置的显示设备上输出每篇文件在各维度各阶层的分类。
[0005] -种文件分类方法,应用于电子装置,该方法包括:资料获取步骤,获取指定的文 件集及多维多阶分类描述;文件分类步骤,根据多维多阶分类描述中每个分类与文件集中 每篇文件的相似度,对每篇文件进行多维多阶分类;结果输出步骤,当所有文件分类完毕 时,在电子装置的显示设备上输出每篇文件在各维度各阶层的分类。
[0006] 相较于现有技术,所述的文件分类系统及方法,其可利用潜在语义分析技术对文 件进行多维多阶分类,让使用者在文件分类时弹性地扩大或缩小分类的维度和阶层。

【专利附图】

【附图说明】
[0007] 图1是本发明文件分类系统的运行环境示意图。
[0008] 图2是本发明文件分类系统的功能模块图。
[0009] 图3是本发明文件分类方法的流程图。
[0010] 图4是图3中步骤S4的具体流程图。
[0011] 图5是二维二阶分类描述的一个实例图。
[0012] 图6是根据图5的二维二阶分类描述得到的文件分类示意图。
[0013] 主要元件符号说明
[0014]

【权利要求】
1. 一种文件分类系统,应用于电子装置,其特征在于,该系统包括: 资料获取模块,用于获取指定的文件集及多维多阶分类描述; 文件分类模块,用于根据多维多阶分类描述中每个分类与文件集中每篇文件的相似 度,对每篇文件进行多维多阶分类;及 结果输出模块,用于当所有文件分类完毕时,在电子装置的显示设备上输出每篇文件 在各维度各阶层的分类。
2. 如权利要求1所述的文件分类系统,其特征在于,所述文件分类模块对每篇文件进 行多维多阶分类包括: 提取该文件集的核心词汇与多维多阶分类描述的核心词汇; 根据提取的核心词汇组成词文矩阵,对该词文矩阵做降阶处理得到一个概念矩阵; 将多维多阶分类描述的核心词汇转换成概念矩阵中的分类描述向量,同时获取每篇文 件在概念矩阵中的文件向量; 根据分类描述向量与文件向量的相似度,对每篇文件进行多维多阶分类。
3. 如权利要求2所述的文件分类系统,其特征在于,所述文件分类模块根据分类描述 向量与文件向量的相似度,对每篇文件进行多维多阶分类包括: 将多维多阶分类描述拆成多个单维多阶分类; 将单维多阶分类描述拆成单维单阶分类描述; 依次获取文件集中每个文件的文件向量,计算每个单维单阶的分类描述在概念矩阵中 的向量与该文件向量的相似度; 若当前分类描述在概念矩阵中的向量与当前文件向量的相似度大于预设值,则将当前 文件加入当前分类。
4. 如权利要求3所述的文件分类系统,其特征在于,所述当前分类描述在概念矩阵中 的向量与当前文件向量的相似度为当前分类描述在概念矩阵中的向量与当前文件向量的 夹角的余弦值。
5. 如权利要求3所述的文件分类系统,其特征在于,所述文件分类模块还用于: 如果当前分类包含子分类,则继续计算每个子分类描述在概念矩阵中的向量与当前文 件向量的相似度; 若当前子分类描述在概念矩阵中的向量与当前文件向量的相似度大于预设值,则更新 当前文件的分类,将当前文件加入当前子分类。
6. 如权利要求1所述的文件分类系统,其特征在于,所述每篇文件在各维度各阶层的 分类通过一个文件分类表输出。
7. -种文件分类方法,应用于电子装置,其特征在于,该方法包括: 资料获取步骤,获取指定的文件集及多维多阶分类描述; 文件分类步骤,根据多维多阶分类描述中每个分类与文件集中每篇文件的相似度,对 每篇文件进行多维多阶分类;及 结果输出步骤,当所有文件分类完毕时,在电子装置的显示设备上输出每篇文件在各 维度各阶层的分类。
8. 如权利要求7所述的文件分类方法,其特征在于,所述文件分类步骤包括: 提取该文件集的核心词汇与多维多阶分类描述的核心词汇; 根据提取的核心词汇组成词文矩阵,对该词文矩阵做降阶处理得到一个概念矩阵; 将多维多阶分类描述的核心词汇转换成概念矩阵中的分类描述向量,同时获取每篇文 件在概念矩阵中的文件向量; 根据分类描述向量与文件向量的相似度,对每篇文件进行多维多阶分类。
9. 如权利要求8所述的文件分类方法,其特征在于,所述根据分类描述向量与文件向 量的相似度,对每篇文件进行多维多阶分类的步骤包括: 将多维多阶分类描述拆成多个单维多阶分类; 将单维多阶分类描述拆成单维单阶分类描述; 依次获取文件集中每个文件的文件向量,计算每个单维单阶的分类描述在概念矩阵中 的向量与该文件向量的相似度; 若当前分类描述在概念矩阵中的向量与当前文件向量的相似度大于预设值,则将当前 文件加入当前分类。
10. 如权利要求9所述的文件分类方法,其特征在于,所述当前分类描述在概念矩阵中 的向量与当前文件向量的相似度为当前分类描述在概念矩阵中的向量与当前文件向量的 夹角的余弦值。
11. 如权利要求9所述的文件分类方法,其特征在于,所述文件分类步骤还包括: 如果当前分类包含子分类,则继续计算每个子分类描述在概念矩阵中的向量与当前文 件向量的相似度; 若当前子分类描述在概念矩阵中的向量与当前文件向量的相似度大于预设值,则更新 当前文件的分类,将当前文件加入当前子分类。
12. 如权利要求7所述的文件分类方法,其特征在于,所述每篇文件在各维度各阶层的 分类通过一个文件分类表输出。
【文档编号】G06F17/30GK104142947SQ201310169201
【公开日】2014年11月12日 申请日期:2013年5月9日 优先权日:2013年5月9日
【发明者】李忠一, 柳岳岑, 卢俊锜 申请人:鸿富锦精密工业(深圳)有限公司, 鸿海精密工业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1