一种基于信息密度的数据分类方法

文档序号:8445524阅读:215来源:国知局
一种基于信息密度的数据分类方法
【技术领域】
[0001] 本发明涉及一种基于信息密度的数据分类方法,属于数据分类与检索领域。
【背景技术】
[0002] 我们生活在一个信息时代,随着网络技术的飞速发展,各种数据信息不断涌现,数 字图书馆、远程教育、视频点播、数字视频广播、交互式电视等都产生和使用了大量的数据 文件。即使我们足不出户,我们接触到的数据信息也在海量增长,因此,我们感兴趣的数据 信息也随之增加了。
[0003] 新闻媒体,互联网每天在新增大量的信息,而信息的分类方式日渐多样化,但如今 多种类型的媒体数据文件混合并存,媒体数据文件组织结构复杂,不同类型的媒体数据文 件从不同侧面可以表达同一语义,分类时需要根据数据文件之间存在的各种联系,对数据 文件进行相关内容甚至根据目标内容的统一分类变得日渐需要。因此,为了帮助使用者高 效率地从感兴趣的已有的数据文件中筛选出目标数据文件,如何跨越数据文件之间的界 限,如何根据用户需求(关键词)提取目标数据进行分类,成为目前数据分类所面临的挑战。
[0004] 为了更贴近生活中的不同需求,使得使用者能够比较方便地检索到符合其需求的 数据文件,需要一种新的数据文件分类方式,但同时,又不能牺牲分类的精度,即需要找到 一种合理的数据文件分类方式,在满足了不同使用者的不同需求的同时,仍然要保证较为 精准的分类结果。

【发明内容】

[0005] 针对上述问题,本发明提出一种基于信息密度的数据分类方法,即通过计算数据 文件与关键词的信息密度即可将数据文件进行目标分类。
[0006] 本发明提出了一种基于信息密度的数据分类方法。首先根据相关内容将初级 目标数据文件中的数据文件进行分类,然后计算各类型数据文件与关键词的信息密度
【主权项】
1. 一种基于信息密度的数据分类方法,其特征在于,首先根据相关内容将初级目 标数据文件中的数据文件进行分类,然后计算各类型数据文件与关键词1的信息密度 m Jtdass 其次检索每一类型数据中每个文件的关键词,获得被检索的元文件Jfi 及其从属类'idsss Λ计算并判断相对信息密度是否大于或等于阈值 ,是则将该元文件Jri放入次级目标数据文件中,否则计算和类信息 密度J^idass 并判断f^idass IIjJ是否大于或等于阈值是则将该元文件Jfi 放入次级目标数据文件中,否则放入非目标数据文件中,所述方法至少还包括以下步骤: 步骤一:在初级目标数据文件中输入数据文件,输入关键词> ?λ阈值 步骤二:根据输入的数据文件的相关内容对初级目标数据文件进行分类,可将数据文 件分为i类型数据、Λ类型数据、……、#类型数据; 步骤三:计算各类型数据i与关键词々的信息密度JtcJass 2',七)--关键词Jfe 在』类型数据中的信息密度为Mdass i, IJ,关键词Iffl在类型数据中的信息密度为 Eiclass Bt km),......,关键词1在#类型数据中的信息密度为Jtdsss 步骤四:检索每一类型数据中每个文件的关键词i^,获得被检索的元文件 f1# U,....,I1 ,并获得其从属类A.fcisss1 ih 步骤五:计算并判断相对信息密度fjdass i, I8)是否大于或等于阈值《(〇 < A < i); 是则将元文件Jri放入次级目标数据文件中;否则转步骤六; 步骤六:计算元文件Jr/斤属的类数&繼? fciass ; 然后计算并判断类信息密度1#1/355 ij、)是否大于或等于阈值&^ < 1); 是则将该元文件Jri放入次级目标数据文件中;否则放入非目标数据文件中。
2. 根据权利要求1所述的一种基于信息密度的数据分类方法,其特征在于,步骤一中 对输入关键词的处理,至少还包括: M 预先设置关键词I的"条件":当输入关键词1"时,在数据资源匹配系统中对各种 靥 M 语言表示的数据文件进行语言检测感知匹配,并标记和关键词^意思相同或相似的"特 征" 一一即预先设定关键词!"检索步骤,将一个或多个与关键词^相应的"特征"信息作 M M 标记条件,利用"特征"之间的相互关联进行标记、显示,当输入关键词时,标记和关键词 爾 !"意思相同或相似的"特征"。
3. 根据权利要求1所述的一种基于信息密度的数据分类方法,其特征在于,步骤二中 根据输入的数据文件的相关内容对输入的数据文件进行分类,可将数据文件分为i类型数 据、Λ类型数据、……、#类型数据,至少还包括以下内容: 1)根据输入的数据文件的属性(文字、图像、视频、音频……)感知将其分为JT类; 2) 对各数据文件进行数据资源匹配检索,根据各数据文件的属性感知匹配"特征"; 3) 根据"特征"的相关内容进行分类,共形成#类型数据。
4. 根据权利要求1所述的一种基于信息密度的数据分类方法,其特征在于,步骤三中 计算第i类型数据与关键词1的信息密度Jtdass i, Ie),至少还包括以下内容: 1) 计算第i类型数据的大小6)及所有输入数据文件的大小#; 2) 计算关键词Je、和关键词意思相同或相似的"特征"在第i类型数据出现的次数 m m mM. 及其在所有输入数据文件中出现的次数P ; 3) 计算第i类型数据与关键词Is的信息密度 Eiclass If Jra) = / νθ, Jrja为提取次级目标数据文件的一个或一类信息。
5. 根据权利要求1至4所述的一种基于信息密度的数据分类方法,其特征在于,还包括 数据资源匹配系统,不仅是对相关内容、关键词、与关键词相应的字段信息的匹配显示,还 有对各种语言表示的数据文件进行语言检测感知匹配。
6. 根据权利要求1所述的一种基于信息密度的数据分类方法,其特征在于,步骤五中 相对信息密度的计算,至少还包括: Ejffhss I, kj = Eidass i, kj / ^ i Eiclms i, kj ; 其中』S 为元文件f/斤属的每一个从属类与^的信息密度。
7. 根据权利要求1所述的一种基于信息密度的数据分类方法,其特征在于,步骤六中 类信息密度f/ciass Jf5Ie)的计算,至少还包括: Ep(class it lw) = Count Ci j max Count C-; 心1111^表示每个元文件1/斤属的类数,且是&而|{^|*55别的元素。
8. 根据权利要求1所述的一种基于信息密度的数据分类方法,其特征在于,次级目标 数据文件和非目标数据文件中的数据文件分别按相对信息密度或类信息密度大小进行排 序,如果信息密度或类信息密度大小相等,则按相对信息密度优于类信息密度的规则排序。
9. 根据权利要求1、2、4、6或7所述的一种基于信息密度的数据分类方法,其特征在 于,Ijw中忍的取值,至少还包括: 当= 1时,即只有1个关键词I时,则从步骤一至步骤六执行1次即结束目标数据文 件分类; 当苽襄1时,即有想个关键词是第游个关键词)时,则从步骤一至步骤六在次级目 标数据文件中对每个关键词循环次即结束目标数据文件分类。
10. 根据权利要求9所述的一种基于信息密度的数据分类方法,其特征在于,当Jff ? 1 时,即有Ii个关键词时,Ji个关键词是一次性输入的,即输入关键词集合ITWpjsI然后系统根 据关键词的数目逐次分配关键词。
【专利摘要】针对现有技术中缺乏对已有的数据文件进行分类提取目标文件的现象,本发明提出了一种基于信息密度的数据分类方法。首先根据相关内容将初级目标数据文件中的数据文件进行分类,然后计算各类型数据文件与关键词的信息密度,其次检索每一类型数据中每个文件的关键词,获得被检索的元文件及其从属类,计算并判断相对信息密度是否大于或等于阈值,是则将该元文件放入次级目标数据文件中,否则计算和类信息密度,并判断是否大于或等于阈值,是则将该元文件放入次级目标数据文件中,否则放入非目标数据文件中。本发明通过数据文件与关键词的信息密度计算即可将数据文件进行目标分类,提高了分类精度。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104765726
【申请号】CN201510203823
【发明人】李哲涛, 杨柳, 关屋大雄, 崔荣埈, 裴廷睿, 吴相润
【申请人】湘潭大学
【公开日】2015年7月8日
【申请日】2015年4月27日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1