一种标签云生成方法及装置制造方法

文档序号:6629875阅读:256来源:国知局
一种标签云生成方法及装置制造方法
【专利摘要】本申请提供一种标签云生成方法及装置,通过接收携带文本集信息的标签云生成请求,针对与文本集信息对应的文本集中的每篇文章中的各个标签,计算该标签在其所属文章中的权重值生成文章-标签矩阵,并通过对文章-标签矩阵进行奇异值分解,生成指示特征向量在文本集中的权重的第一矩阵及指示标签在特征向量中的权重的第二矩阵,进而利用第一矩阵、第二矩阵及预先设置的生成规则实现标签云的生成,本申请通过对文章-标签矩阵进行奇异值分解,进而利用分解后的矩阵生成标签云,避免了现有技术生成的标签云作为文章集合重点内容的索引时,每个标签元素所指示的语义范围过于宽泛、体现文章集合的重点内容不够精准的问题。
【专利说明】-种标签云生成方法及装置

【技术领域】
[0001] 本申请涉及标签云【技术领域】,特别是涉及一种标签云生成方法及装置。

【背景技术】
[0002] 标签云通常通过索引一些文章集合,进而利用该文章集合中出现频率较高的标签 生成。通过将该标签云用可视化方式展现出来,可让用户直观了解该文章集合中重要的信 息,且该标签云还可作为文章集合重点内容的索引,当用户点击该标签云中任意一个标签 元素时,可立即从文章集合中查找出与该标签元素相关的信息,方便用户查阅信息。
[0003] 但是,因传统的标签云是在直接对文章集合中的各个标签进行频次统计的基础 上,利用频次满足预设要求的每个标签作为标签云中的一个标签元素生成的,因此,通常会 因组成标签云的标签元素形式单一(即:每个标签元素仅由一个标签组成)、而导致标签云 作为文章集合重点内容的索引时,每个标签元素所指示的语义范围过于宽泛、体现文章集 合的重点内容不够精准的问题。


【发明内容】

[0004] 有鉴于此,本申请提供一种标签云生成方法及装置,以避免现有技术生成的标签 云作为文章集合重点内容的索引时,每个标签元素所指示的语义范围过于宽泛、体现文章 集合的重点内容不够精准的问题。
[0005] 为了实现上述目的,本发明实施例提供的技术方案如下:
[0006] 一种标签云生成方法,包括:
[0007] 接收标签云生成请求,其中携带文本集信息;
[0008] 针对与所述文本集信息对应的文本集中的每篇文章中的各个标签,计算该标签在 其所属文章中的权重值;
[0009] 利用与所述文本集信息对应的各篇文章、每篇文章中的标签及所述标签的权重 值,生成文章-标签矩阵;
[0010] 对所述文章-标签矩阵进行奇异值分解,生成指示特征向量在所述文本集中的权 重的第一矩阵及指示标签在所述特征向量中的权重的第二矩阵;
[0011] 利用所述第一矩阵、第二矩阵及预先设置的生成规则,生成标签云。
[0012] 优选的,当针对与所述文本集信息对应的每篇文章中的各个标签,计算该标签在 其所属文章中的权重值时,利用如下公式进行计算:
[0013] S⑴(Wk)=【S蕭ce (Wk) -P〇S (Wk) * λ (ss()urc;e (Wk))】*idf (Wk) *Sattributes (Wk),其中,所述 S(i) (Wk)为第i篇历史文章中第k个标签Wk在该历史文章中的第一权重值,所述S__(W k) 为标签Wk的来源参数,所述Pos(Wk)为标签Wk的位置参数,所述λ (SS()Ulxe;(Wk))为因标签 Wk的位置所引入的惩罚参数,所述idf(Wk)为所述标签Wk在互联网中的重要程度,所述 ^attributes (wk)为所述标签wk的词性参数。
[0014] 优选的,所述利用与所述文本集信息对应的各篇文章、每篇文章中的标签及所述 标签的权重值,生成文章-标签矩阵,包括:
[0015] 针对每篇文章,获取该文章中权重值满足预先设置的第一阈值范围的标签;
[0016] 获取各个所述标签的并集;
[0017] 利用所述并集中的各个标签生成文章-标签矩阵,其中,所述文章-标签矩阵中每 行表示一篇文章在所述并集中的各个标签,每列表示所述并集中的一个标签对应的所有文 章,且该文章-标签矩阵中的元素为标签的权重值。
[0018] 优选的,所述利用所述第一矩阵、第二矩阵及预先设置的生成规则,生成标签云, 包括:
[0019] 获取所述第一矩阵中满足预先设置第二阈值范围的各个第一元素;
[0020] 针对所述第二矩阵中分别与每个所述第一元素对应的行,获取该行中满足预先设 置的第三阈值范围的各个第二元素对应的标签作为标签云中的一个标签元素。
[0021] 优选的,还包括:显示由各个所述标签元素组成的标签云。
[0022] 优选的,还包括:当所述标签元素中标签的数量大于预设值时,按照预先设置的删 除规则删除所述标签元素中的部分标签。
[0023] -种标签云生成装置,包括:
[0024] 接收单元,用于接收标签云生成请求,其中携带文本集信息;
[0025] 计算单元,用于针对与所述文本集信息对应的文本集中的每篇文章中的各个标 签,计算该标签在其所属文章中的权重值;
[0026] 第一生成单元,用于利用与所述文本集信息对应的各篇文章、每篇文章中的标签 及所述标签的权重值,生成文章-标签矩阵;
[0027] 第二生成单元,用于对所述文章-标签矩阵进行奇异值分解,生成指示特征向量 在所述文本集中的权重的第一矩阵及指示标签在所述特征向量中的权重的第二矩阵;
[0028] 第三生成单元,用于利用所述第一矩阵、第二矩阵及预先设置的生成规则,生成标 签云。
[0029] 优选的,所述第三生成单元包括:
[0030] 获取单元,用于获取所述第一矩阵中满足预先设置第二阈值范围的各个第一元 素;
[0031] 第三生成子单元,用于针对所述第二矩阵中分别与每个所述第一元素对应的行, 获取该行中满足预先设置的第三阈值范围的各个第二元素对应的标签作为标签云中的一 个标签元素。
[0032] 优选的,还包括:
[0033] 显示单元,用于显示由各个所述标签元素组成的标签云。
[0034] 优选的,还包括:
[0035] 删除单元,用于当所述标签元素中标签的数量大于预设值时,按照预先设置的删 除规则删除所述标签元素中的部分标签。
[0036] 本申请提供一种标签云生成方法及装置,通过接收携带文本集信息的标签云生成 请求,针对与文本集信息对应的文本集中的每篇文章中的各个标签,计算该标签在其所属 文章中的权重值生成文章-标签矩阵,并通过对文章-标签矩阵进行奇异值分解,生成指 示特征向量在文本集中的权重的第一矩阵及指示标签在特征向量中的权重的第二矩阵, 进而利用第一矩阵、第二矩阵及预先设置的生成规则实现标签云的生成,本申请通过对文 章-标签矩阵进行奇异值分解,进而利用分解后的矩阵生成标签云,避免了现有技术生成 的标签云作为文章集合重点内容的索引时,每个标签元素所指示的语义范围过于宽泛、体 现文章集合的重点内容不够精准的问题。

【专利附图】

【附图说明】
[0037] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。
[0038] 图1为本申请实施例一提供的一种标签云生成方法流程图;
[0039] 图2为本申请实施例二提供的一种标签云生成装置的结构示意图。

【具体实施方式】
[0040] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0041] 实施例一:
[0042] 图1为本申请实施例一提供的一种标签云生成方法流程图。
[0043] 如图1所示,该方法包括:
[0044] S101、接收标签云生成请求,其中携带文本集信息。
[0045] S102、针对与文本集信息对应的文本集中的每篇文章中的各个标签,计算该标签 在其所属文章中的权重值。
[0046] 在本申请实施例中,优选的,文本集信息对应包含至少一篇文章的文本集,且每篇 文章中均携带有至少一个标签,该标签的来源可以是文章生成时用户自定义的(如:当保 存某篇文章时,为其设置一个标签为"香蕉苹果"),也可以是经过分词处理得到的(如:将 用户自定义的标签"香蕉苹果"经过分词处理,生成的两个标签"香蕉"及"苹果" /在保存 文章时,将文章中出现次数较多的词作为分词标签)。
[0047] 优选的,当接收到携带文本集信息的标签云后,首先需针对与文本集信息对应的 文本集中的每篇文章中的各个标签,计算该标签在其所属文章中的权重值,其中,具体的计 算公式如下:
[0048] S⑴(Wk) =【Ssource(Wk)-P〇S(Wk)*X (Ssomce(Wk))】*idf(Wk)*Sattributes(WL (Wk)为第i篇文章中第k个标签Wk在该文章中的权重值,S__(Wk)为标签W k的来源参 数,p〇s(wk)为标签wk的位置参数,λ (s__(wk))为因标签wk的位置所引入的惩罚参数, idf(wk)为标签Wk在互联网中的重要程度,Sattaibutes(W k)为标签wk的词性参数。
[0049] 在本申请实施例中,优选的,Ss()_(wk)为标签W k的来源参数,其中,标签的来源指 示该标签为自定义标签/分词标签,且优选的,预先设置当标签为自定义标签时s__(w k) 的取值为分词标签时的8?20倍。
[0050] 在本申请实施例中,优选的,Pos (Wk)为标签Wk的位置参数,其中,标签的位置指示 该标签在其所属的文章中的来源相同的各个标签中的位置,且优选的,标签在其所属的文 章中的来源相同的各个标签中排第几位,该标签的Pos (Wk)值为几,如:当某个文章中携带 5个标签,其中3个为分词标签,这3个分词标签依次为"香蕉"、"苹果"、"鸭梨",那么,标签 "鸭梨"的Pos (Wk)值为3。
[0051] 在本申请实施例中,优选的,λ (ss()urc;e (Wk))为因标签Wk的位置所引入的惩罚参 数,其中,惩罚参数因标签的来源不同而不同,优选的,预先设置的λ (sS(Mrc;e(wk))的值在 〇· 〇8 ?0· 11 之间,且 sSQUrce(wk)-p〇s(wk)*x (sSQUrce(wk))的值大于等于 0· 5。
[0052] 在本申请实施例中,优选的,idf (Wk)为标签Wk在互联网中的重要程度,其中,计算 某个标签的重要程度的过程为现有技术,详细请参见现有技术,在此不做详细介绍。
[0053] 在本申请实施例中,优选的,Sattaibutes(Wk)为标签W k的词性参数,其中,优选的,标 签的词性为专有名词、名词、动词、形容词、副词,且当词性为专有名词、名词、动词、形容词、 副词时,依次为 ^attributes (wk)赋值为 10、9、5、4、4。
[0054] S103、利用与文本集信息对应的各篇文章、每篇文章中的标签及标签的权重值,生 成文章-标签矩阵。
[0055] 在本申请实施例中,优选的,当针对与文本集信息对应的文本集中的每篇文章中 的各个标签,计算得到该标签在其所属文章中的权重值后,需利用与文本集信息对应的各 篇文章、每篇文章中的标签及标签的权重值,生成文章-标签矩阵,具体的生成文章-标签 矩阵的过程如下:
[0056] 1、针对每篇文章,获取该文章中权重值满足预先设置的第一阈值范围的标签。
[0057] 在本申请实施例中,优选的,预先设置有第一阈值范围,针对每篇文章,获取该文 章中权重值满足预先设置的第一阈值范围的标签。
[0058] 2、获取各个标签的并集。
[0059] 在本申请实施例中,优选的,文章之间可能存在重复的标签,如文章 A携带标签1、 文章 B中也携带标签1。
[0060] 具体的,当针对每篇文章获取到权重值满足预先设置的第一阈值范围的标签后, 需针对获取到的每篇文章中的各个标签,获取各个标签的并集。
[0061] 3、利用并集中的各个标签生成文章-标签矩阵,其中,文章-标签矩阵中每行表 示一篇文章在并集中的各个标签,每列表示并集中的一个标签对应的所有文章,且该文 章-标签矩阵中的元素为标签的权重值。
[0062] 在本申请实施例中,优选的,当获取到各个标签的并集后,需利用该并集中的各个 标签生成文章-标签矩阵,其中,文章-标签矩阵中每行表示一篇文章在并集中的各个标 签,每列表示并集中的一个标签对应的所有文章,且该文章-标签矩阵中的元素为标签的 权重值。
[0063] 具体的,与文本集信息对应的文本集中包括的文章列表为{Dp D2, ...,Dn},每 篇文章 Dt的各个标签Tm及该标签Tm在该篇文章中的权重值Wm组成的标签列表为{(1\, Wl),. . .,(Tm,wm)},通过预先设置第一阈值范围"大于等于Θ ",针对每个标签Tm,如果其权 重值t > Θ,则确定该标签L为获取结果,由此从每篇文章 Dt中的各个标签L中筛选出 满足预先设置的第一阈值范围的所有标签为{1\,Wl),. . .,(Tp,wp)},利用该筛选出的各个 标签计算得到的文章-标签矩阵如下:
[0064]

【权利要求】
1. 一种标签云生成方法,其特征在于,包括: 接收标签云生成请求,其中携带文本集信息; 针对与所述文本集信息对应的文本集中的每篇文章中的各个标签,计算该标签在其所 属文章中的权重值; 利用与所述文本集信息对应的各篇文章、每篇文章中的标签及所述标签的权重值,生 成文章-标签矩阵; 对所述文章-标签矩阵进行奇异值分解,生成指示特征向量在所述文本集中的权重的 第一矩阵及指示标签在所述特征向量中的权重的第二矩阵; 利用所述第一矩阵、第二矩阵及预先设置的生成规则,生成标签云。
2. 根据权利要求1所述的方法,其特征在于,当针对与所述文本集信息对应的每篇文 章中的各个标签,计算该标签在其所属文章中的权重值时,利用如下公式进行计算: S(i) (Wk)=【S罐ce (Wk) -Pos (Wk) * λ (SSQUrce (Wk))】*idf (Wk) *Sattributes (Wk),其中,所述 S⑴ (wk)为第i篇历史文章中第k个标签wk在该历史文章中的第一权重值,所述s__ (wk) 为标签Wk的来源参数,所述Pos(Wk)为标签W k的位置参数,所述λ (SS()Ulxe;(Wk))为因标签 wk的位置所引入的惩罚参数,所述idf(Wk)为所述标签wk在互联网中的重要程度,所述 ^attributes (wk)为所述标签wk的词性参数。
3. 根据权利要求1所述的方法,其特征在于,所述利用与所述文本集信息对应的各篇 文章、每篇文章中的标签及所述标签的权重值,生成文章-标签矩阵,包括: 针对每篇文章,获取该文章中权重值满足预先设置的第一阈值范围的标签; 获取各个所述标签的并集; 利用所述并集中的各个标签生成文章-标签矩阵,其中,所述文章-标签矩阵中每行表 示一篇文章在所述并集中的各个标签,每列表示所述并集中的一个标签对应的所有文章, 且该文章-标签矩阵中的元素为标签的权重值。
4. 根据权利要求1所述的方法,其特征在于,所述利用所述第一矩阵、第二矩阵及预先 设置的生成规则,生成标签云,包括: 获取所述第一矩阵中满足预先设置第二阈值范围的各个第一元素; 针对所述第二矩阵中分别与每个所述第一元素对应的行,获取该行中满足预先设置的 第三阈值范围的各个第二元素对应的标签作为标签云中的一个标签元素。
5. 根据权利要求4所述的方法,其特征在于,还包括:显示由各个所述标签元素组成的 标签云。
6. 根据权利要求4所述的方法,其特征在于,还包括:当所述标签元素中标签的数量大 于预设值时,按照预先设置的删除规则删除所述标签元素中的部分标签。
7. -种标签云生成装置,其特征在于,包括: 接收单元,用于接收标签云生成请求,其中携带文本集信息; 计算单元,用于针对与所述文本集信息对应的文本集中的每篇文章中的各个标签,计 算该标签在其所属文章中的权重值; 第一生成单元,用于利用与所述文本集信息对应的各篇文章、每篇文章中的标签及所 述标签的权重值,生成文章-标签矩阵; 第二生成单元,用于对所述文章-标签矩阵进行奇异值分解,生成指示特征向量在所 述文本集中的权重的第一矩阵及指示标签在所述特征向量中的权重的第二矩阵; 第三生成单元,用于利用所述第一矩阵、第二矩阵及预先设置的生成规则,生成标签 云。
8. 根据权利要求7所述的装置,其特征在于,所述第三生成单元包括: 获取单元,用于获取所述第一矩阵中满足预先设置第二阈值范围的各个第一元素; 第三生成子单元,用于针对所述第二矩阵中分别与每个所述第一元素对应的行,获取 该行中满足预先设置的第三阈值范围的各个第二元素对应的标签作为标签云中的一个标 签元素。
9. 根据权利要求8所述的装置,其特征在于,还包括: 显示单元,用于显示由各个所述标签元素组成的标签云。
10. 根据权利要求8所述的装置,其特征在于,还包括: 删除单元,用于当所述标签元素中标签的数量大于预设值时,按照预先设置的删除规 则删除所述标签元素中的部分标签。
【文档编号】G06F17/30GK104281690SQ201410534723
【公开日】2015年1月14日 申请日期:2014年10月11日 优先权日:2014年10月11日
【发明者】强思维, 李庭赟, 王望 申请人:时之我代信息科技(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1