一种标签挖掘方法及装置的制造方法

文档序号:10471122阅读:147来源:国知局
一种标签挖掘方法及装置的制造方法
【专利摘要】一种标签挖掘方法及装置,该方法包括:从结构化数据中挖掘第n种子集合,该第n种子集合中的种子为APP名称与标签构成的二元组,并利用该第n种子集合中的种子在非结构化数据中进行搜索,获取第n句子集合,该第n句子集合中的句子包含该第n种子集合中的任意一个种子的APP名称与标签,且利用该第n句子集合中的任意两个句子进行匹配,得到第n泛化模板集合,根据该第n泛化模板集合中的泛化模板在该非结构化数据中进行标签挖掘,将挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。通过生成能够在非结构化数据中进行标签挖掘的泛化模板集合,能够有效的实现在非结构化数据中的标签挖掘,标签挖掘更加全面。
【专利说明】
-种标签挖掘方法及装置
技术领域
[0001] 本发明设及互联网应用领域,尤其设及一种标签挖掘方法及装置。
【背景技术】
[0002] 目前,有关应用程序(Application, AP巧的标签挖掘主要有两种方式,一种是通 过人工标记的方式为APP打标签,但是随着技术的发展,APP的数目越来越多,通过人工打 标签的方式将消耗大量的人力物力且不方便,效率不高,且随着APP版本的升级,其对应的 标签也会随之变化。因此,可W使用第二种方式进行标签挖掘,目前,在垂直网站或者百科 页面中,数据信息往往会W表格的形式展现出来,其显示的数据即为结构化数据,因此,可 通过对结构化数据进行标签挖掘,W得到具有APP名称与标签的二元组,为更好的理解,请 参阅图1,为游戏天天酷跑的百科页面的示意图,且虚线框内的数据为结构化数据,其中小 方框内的文字即为天天酷跑的标签,包括"单人"及"动作射击",其中,"玩家人数"为标签 "单人"的类型,"游戏模式"为标签"动作射击"的类型。利用从结构化数据中挖掘标签的 方式可从图1所示的天天酷跑的百科页面中挖掘出标签(天天酷跑,单人)及(天天酷跑, 射击游戏)。
[0003] 然而,通过从结构化数据中挖掘APP的标签的方式并不适用于非结构化数据,因 此,如何从非结构化数据中进行标签挖掘成为亟待解决的问题。

【发明内容】

[0004] 有鉴于此,本发明提供一种标签挖掘方法及装置,用于解决现有技术中无法从非 结构化数据中进行标签挖掘的问题。 阳〇化]本发明实施例提供的标签挖掘方法,包括:
[0006] 从结构化数据中挖掘第η种子集合,所述第η种子集合中的种子为应用程序APP 名称与标签构成的二元组,所述η的初始值为1,且η为正整数;
[0007] 利用所述第η种子集合中的种子在非结构化数据中进行检索,获取第η句子集合, 所述第η句子集合中的句子包含所述第η种子集合中的任意一个种子的ΑΡΡ名称与标签;·
[0008] 利用所述第η句子集合中的任意两个句子进行匹配,得到第η泛化模板集合;
[0009] 根据所述第η泛化模板集合中的泛化模板在所述非结构数据中进行标签挖掘,将 挖掘得到的符合预先设置条件的ΑΡΡ名称与标签的二元组保存到语义标签库中。
[0010] 本发明实施例提供的标签挖掘装置,包括:
[0011] 第一挖掘模块,用于从结构化数据中挖掘第η种子集合,所述第η种子集合中的种 子为应用程序ΑΡΡ名称与标签构成的二元组,所述η的初始值为1,且η为正整数;
[0012] 检索模块,用于在所述第一挖掘模块得到所述第η种子集合之后,利用所述第η种 子集合中的种子在非结构化数据中进行检索,获取第η句子集合,所述第η句子集合中的句 子包含所述第η种子集合中的任意一个种子的ΑΡΡ名称与标签;
[0013] 匹配模块,用于在所述检索模块得到所述第η句子集合之后,利用所述第η句子集 合中的任意两个句子进行匹配,得到第η泛化模板集合;
[0014] 第二挖掘模块,用于在所述匹配模块得到所述第η泛化模板集合之后,根据所述 第η泛化模板集合中的泛化模板在所述非结构数据中进行标签挖掘,将挖掘得到的符合预 先设置条件的ΑΡΡ名称与标签的二元组保存到语义标签库中。
[0015] 从W上技术方案可W看出,本发明实施例具有W下优点:
[0016] 装置从结构化数据中挖掘第η种子集合,该第η种子集合中的种子为ΑΡΡ名称与 标签构成的二元组,并利用该第η种子集合中的种子在非结构化数据中进行捜索,获取第η 句子集合,该第η句子集合中的句子包含该第η种子集合中的任意一个种子的ΑΡΡ名称与 标签,且利用该第η句子集合中的任意两个句子进行匹配,得到第η泛化模板集合,根据该 第η泛化模板集合中的泛化模板在该非结构化数据中进行标签挖掘,将挖掘得到的符合预 先设置条件的ΑΡΡ名称与标签的二元组保存到语义标签库中。通过利用结构化数据中挖掘 出来的第η种子集合在非结构化数据中进行检索,得到第η句子集合,使得能够利用该第η 句子集合得到能够在非结构化数据中进行标签挖掘的泛化模板集合,能够有效的实现在非 结构化数据中的标签挖掘,标签挖掘的更加全面。
[0017] 为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例, 并配合所附图式,作详细说明如下。
【附图说明】
[0018] 图1为现有技术中游戏天天酷跑的百科页面的示意图;
[0019] 图2为本发明实施例中服务器的结构的一个示意图;
[0020] 图3为本发明实施例中标签挖掘方法的一个示意图;
[0021] 图4为本发明实施例中标签挖掘方法的另一示意图;
[0022] 图5为本发明实施例中标签挖掘装置的结构的一个示意图;
[0023] 图6为本发明实施例中标签挖掘装置的结构的另一示意图。
【具体实施方式】
[0024] 为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,W下结合 附图及较佳实施例,对依据本发明的【具体实施方式】、结构、特征及其功效,详细说明如后。
[00巧]在本发明实施例中,标签挖掘方法可W由标签挖掘装置执行,该标签挖掘装置 可W是服务器,请参阅图2,为本发明实施例中该服务器的结构的示意图,服务器100可 因配置或性能不同而产生比较大的差异,可W包括一个或一个W上中央处理器(central processing units, CPU) 122(例如,一个或一个W上处理器)和存储器132, 一个或一个W 上存储应用程序142或数据144的存储介质130 (例如一个或一个W上海量存储设备)。其 中,存储器132和存储介质130可W是短暂存储或持久存储。存储在存储介质130的程序 可W包括一个或一个W上模块(图示未示出),每个模块可W包括对服务器中的一系列指 令操作。更进一步地,中央处理器122可W设置为与存储介质130通信,在服务器100上执 行存储介质130中的一系列指令操作。服务器100还可W包括一个或一个W上电源126, 一 个或一个W上有线或无线网络接口 150, 一个或一个W上输入输出接口 158,和/或,一个或 一个 W上操作系统 141,例如 Windows ServerTM,Mac 0S XTM,UnixTM,LinuxTM,化eeBSDTM 等等。
[00%] 请参阅图3,为本发明实施例中一种标签挖掘方法的实施例,包括:
[0027] 301、从结构化数据中挖掘第η种子集合,第η种子集合中的种子为APP名称与标 签构成的二元组,η的初始值为1,且η为正整数;
[0028] 在本发明实施例中,标签挖掘装置(W下简称装置)将从结构化数据中挖掘第η 种子集合,该第η种子集合中包含至少一个种子,且每一个种子均为APP名称与标签构成的 二元组,例如:(天天酷跑,单人)为一个种子。
[0029] 其中,η的初始值为1,且η为正整数。
[0030] 在本发明实施例中,结构化数据是指能够用数据或者统一的结构加 W表示的数 据,例如垂直网站或者百科页面中W表格形式展现的数据,其中,结构化数据可通过一些规 则模板提取数据,且从结构化数据中挖掘数据为现有技术,此处不做寶述。
[0031] 302、利用第η种子集合中的种子在非结构化数据中进行检索,获取第η句子集合, 第η句子集合中的句子包含第η种子集合中的任意一个种子的ΑΡΡ名称与标签;
[0032] 在本发明实施例中,装置将利用第η种子集合中的种子在非结构化数据中进行检 索,获取第η句子集合,其中,第η句子集合中包含至少一个句子,该句子可W是一个完整的 句子也可W是一个句子片段。
[0033] 其中,第η句子集合中的每一个句子都包含第η种子集合中的任意一个种子的ΑΡΡ 名称与标签。例如:第η句子集合中包含的一个句子为:植物大战僵尸是非常热口的塔防游 戏,在该句子中包含的种子为(植物大战僵尸,塔防游戏),且该种子为该第η种子集合中的 一个种子。
[0034] 在本发明实施例中,除结构化数据W外的数据均可称为非结构化数据,且非结构 化数据包括例如:垂直网站页面中除结构化数据W外的其他文本描述的数据,百科页面中 除结构化数据W外的其他文本描述的数据,ΑΡΡ的描述内容,ΑΡΡ的新闻正文等等。
[0035] 303、利用第η句子集合中的任意两个句子进行匹配,得到第η泛化模板集合;
[0036] 在本发明实施例中,装置在得到第η句子集合后,将利用第η句子集合中的任意两 个句子进行匹配,得到第η泛化模板集合,即第η句子集合中的每一个句子都要与该集合中 的其他句子进行匹配,得到第η泛化模板集合,其中,该第η泛化模板集合中包含至少一个 泛化模板,且泛化模板可W用于在非结构化数据中进行标签挖掘。
[0037] 304、根据第η泛化模板集合中的泛化模板在非结构数据中进行标签挖掘,将挖掘 得到的符合预先设置条件的ΑΡΡ名称与标签的二元组保存到语义标签库中。
[0038] 在本发明实施例中,装置在得到第η泛化模板集合之后,将根据该第η泛化模板集 合中的泛化模板在非结构化数据中进行标签挖掘,将挖掘得到的符合预先设置条件的ΑΡΡ 名称与标签的二元组保存到语义标签库中。其中,语音标签库是装置挖掘出来的二元组的 集合。
[0039] 在本发明实施例中,装置从结构化数据中挖掘第η种子集合,该第η种子集合中的 种子为ΑΡΡ名称与标签构成的二元组,并利用该第η种子集合中的种子在非结构化数据中 进行捜索,获取第η句子集合,该第η句子集合中的句子包含该第η种子集合中的任意一个 种子的ΑΡΡ名称与标签,且利用该第η句子集合中的任意两个句子进行匹配,得到第η泛化 模板集合,根据该第η泛化模板集合中的泛化模板在该非结构化数据中进行标签挖掘,将 挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。通过利用 结构化数据中挖掘出来的第η种子集合在非结构化数据中进行检索,得到第η句子集合,使 得能够利用该第η句子集合得到能够在非结构化数据中进行标签挖掘的泛化模板集合,能 够有效的实现在非结构化数据中的标签挖掘,标签挖掘的更加全面。 W40] 为了更好的理解本发明实施例中的技术方案,请参阅图4,为本发明实施例中标签 挖掘方法的实施例,包括: 阳0川 401、从结构化数据中挖掘第η种子集合,第η种子集合中的种子为ΑΡΡ名称与标 签构成的二元组;
[0042] 在本发明实施例中,标签挖掘装置(W下简称装置)将先执行种子获取的过程,即 将从结构化数据中挖掘第η种子集合,该第η种子集合中包含至少一个种子,且每一个种子 均为ΑΡΡ名称与标签构成的二元组,例如:(天天酷跑,单人)为一个种子。
[0043] 在本发明实施例中,装置在完成种子获取之后,将执行用于标签挖掘的模板即泛 化模板的生成的过程,具体请参阅步骤402至步骤404。
[0044] 402、利用第η种子集合中的种子在非结构化数据中进行检索,根据字符串匹配技 术抽取句子,抽取的句子构成第η句子集合; W45] 在本发明实施例中,装置在得到第η种子集合之后,将利用该第η种子集合中的种 子在非结构化数据中进行检索,根据字符串匹配技术抽取句子,抽取的句子构成第η句子 集合,且该第η句子集合中的每一个句子都包含该第η种子集合中的任意一个种子的ΑΡΡ 名称与标签,且每一个句子均满足预先设置的启发式约束规则。
[0046] 在本发明实施例中,启发式约束规则可W是句子中包含的种子的ΑΡΡ名称和标签 在该句子中的距离小于或等于预先设置的字符串数目;或者,在句子中,种子的名称与标签 之间的标签符号的个数小于预先设置的第一数值;或者,句子中包含的种子的ΑΡΡ名称和 标签在句子中的距离小于或等于预先设置的字符串数目,且在句子中,种子的ΑΡΡ名称与 标签之间的标点符号的个数小于预先设置的第一数值。
[0047] 为了更好的理解利用种子检索得到的句子,请参阅表1,在表1的左侧为第η种子 集合中的两个种子,表1的右侧为对应的在第η句子集合中的句子。
[0048]
[0049] 表 1
[0050] 403、将第η句子集合中的句子划分为多个词单元,按照多个词单元生成句子的上 下文模板;
[0051] 在本发明实施例中,装置将该第η句子集合中的每一个句子都划分为多个词单 元,且对于每一个句子,都将按照该句子划分得到的多个词单元生成该句子的上下文模板。
[0052] 其中,装置将第η句子集合中的句子划分为多个词单元,按照该多个词单元生成 句子的上下文模板,具体可W为:装置将该第η句子集合中的句子裁剪划分为多个词单元, 为词单元中的APP名称与标签分别设置对应的标识;例如,在将APP名称统一设置成标识 化0T1,将标签统一设置成标识化0T2。且装置还将确定词单元中除APP名称与标签之外其 他的词单元的词性或者语义代码,并将标识、与前述的词性或语义代码按多个词单元的顺 序进行组合得到句子的上下文模板。
[0053] 为了更好的进行上下文模板的生成,下面将举例介绍一个生成上下文模板的规 则:
[0054] 1)句子中的词单元为APP名称时,该词单元在上下文模板中对应着化0T1,句子中 的词单元标签时,该词单元在上下文模板中对应着化0T2 ; 阳化5] 2)句子中的词单元为实词时,该词单元在上下文模板中对应着该词的语义代码及 词性,其中,实词主要包括名词、动词、形容词和名词修饰语,其中,语义代码是指该实词在 《同义词词林(扩展版)》中的语义代码;
[0056] 3)句子中的词单元为数词、代词和标点符号时,则该词单元在上行文模板中对应 其词性;
[0057] 4)若句子中的词单元不满足上述的1)至3)中的任意一条,则在上下文模板中对 应着该词单元及其词性。
[0058] 为了更好的理解上述的上下文生成规则,请参阅表2,为句子与其上下文模板的示 意图:
[0059]
[0060] 表 2
[0061] 404、对第η句子集合中的任意两个句子的上下文模板进行匹配,得到第η泛化模 板集合;
[0062] 在本发明实施例中,装置将对第η句子集合中的任意两个句子的上行文模板进行 匹配,得到第η泛化模板集合,该第η泛化模板集合中的泛化模板可用于对非结构化数据进 行APP的标签挖掘。其中,若第η句子集合中包含m个句子的上下文模板,则该第η句子集 合中的每一个句子的上下文模板,都要分别与该第η句子集合中的其他m-1个句子的m-1 个上下文模板进行匹配。
[0063] 具体的:装置将第η句子集合中的任意两个上下文模板进行匹配,得到匹配后的 泛化模板,且按照预先设置的匹配代价的计算方式确定泛化模板的匹配代价,得到初始泛 化模板集合;且在得到初始泛化模板集合之后,为了过滤掉不合适的模板,装置还将过滤掉 初始泛化模板集合中匹配代价大于预先设置的第二数值的泛化模板,得到过滤后的初始泛 化模板集合;且在得到过滤后的初始泛化模板集合之后,装置为了得到优化后的泛化模板 集合,装置还可W按照预先设置的模板优化规则对过滤后的初始化模板集合中的发泛化模 板进行优化,得到第η泛化模板集合,该第η泛化模板集合中的泛化模板可W作为在非结构 化数据中进行标签挖掘的模板。
[0064] 其中,上述的基于两个上下文模板进行匹配得到一个泛化模板主要是对两个上下 文模板的相似度进一步泛化得到泛化模板。
[0065] 在本发明实施例中,基于上下文模板求解泛化模板的问题可W转化为最长公共子 序列化ongest Common Subsequence, LC巧问题,运样一来,可W使用动态规划算法实现。 传统的LCS是基于完全匹配求最长匹配公共子序列,而在本发明实施例中上下文模板之间 可W进行模糊匹配,从而增加了匹配代价的概念,目的是获取最佳匹配公共子序列,即得 到了改进的BestMatch算法,因此,上述的预先设置的匹配代价的计算方法可W是改进的 BestMatch 算法。
[0066] 其中,该预先设置的匹配代价的计算方法的计算规则包括:
[0067] 1)若两个待匹配单元完全相同,则该两个匹配单元的匹配代价为0,则在泛化模 板中,对应的位置为该两个匹配单元的任意一个,即保持匹配单元原始状态;
[0068] 2)若两个待匹配单元均含有语义代码,且两个语义代码有交集,则确认为时模糊 匹配,两个匹配单元的匹配代价为5,且在泛化模板中,对应的位置为第一个匹配单元的词、 词性及语义代码有交集的部分;
[0069] 3)若两个待匹配单元的词性相同,则两个匹配单元的匹配代价为8,在泛化模板 中,对应的位置仅保留词性;
[0070] 4)若两个待匹配单元完全不匹配,则该两个匹配单元的匹配代价为10,在泛化模 板中,对应的位置为省略单元,该省略单元可W用表示。
[0071] 在本发明实施例中,两个上下文模板匹配是将该两个上下文模板中具有相同编号 的匹配单元进行匹配,例如将两个上下文模板的匹配单元1进行匹配,匹配单元2进行匹 配,匹配单元3进行匹配并W此类推,W确定匹配代价及得到泛化模板,该泛化模板的匹配 代价则为该两个上下文模板完成匹配后的所有的匹配代价的和。
[0072] 需要说明的是,在本发明实施例中,在对两个上下文模板进行匹配时,一定是 SL0T1与化0T1进行匹配且一定是化0T2与化0T2进行匹配,若开始时两个上下文模板中的 SL0T1及化0T2的匹配单元的编号均不相同,则为了能够进行匹配,可W通过插入空白匹配 单元的方式使得两个上下文模板中的匹配单元化0T1的编号及匹配单元化0T2的编号均相 同。
[0073] 需要说明的是,上述设置的匹配代价0, 5,8,10仅为一个可实施的应用数字,并不 对本方案造成限定,在实际应用中,可根据具体的情况设置每一个匹配状态下的匹配代价, 此处不做限定。
[0074] 在本发明实施例中,泛化模板的匹配代价越小,则说明用于生成该泛化模板的两 个上下文模板的匹配度越大,反之,则匹配度越小。
[00巧]为了更好的理解本发明实施例中泛化模板的生成,请参阅表3,上下文模板CP1为 句子"保护萝l·是一款好玩的塔防游戏。"的上下文模板,上下文模板CP2为句子"植物大战 僵尸是非常热口的塔防游戏。"的上下文模板,上下文模板CP1和上下文模板CP2进行匹配 得到的泛化模板,具体如下:
[0076]
[0078] 表 3
[0079] 从上述表3可得出,上下文模板CP1及上下文模板CP2进行匹配得到泛化模板的 匹配代价为28,其中,上下文模板CP2的匹配单元4即为空白单元。
[0080] 在本发明实施例中,装置可按照上述描述的泛化模板的生成方法及匹配代价的计 算方法得到初始泛化模板集合。且在得到该初始泛化模板之后,装置还将过滤掉初始泛化 模板集合中匹配代价大于预先设置的第二数值的泛化模板,得到过滤后的初始泛化模板集 合。
[0081] 且在得到过滤后的初始泛化模板集合之后,还将对该过滤后的初始泛化模板集合 按照预先设置的模板优化规则进行优化,其中,模板优化规则包括一下的任意一项或者多 项:过滤掉jaccard系数小于预先设置的第Ξ数值的泛化模板;在泛化模板的开头和结尾 均增加省略单元;若停用词的相邻两边均为省略单元,则删除停用词;将连续的省略单元 合并为一个省略单元;过滤掉APP名称的标识或标签的标识的两边均为省略单元的泛化模 板。
[0082] 其中,泛化模板的jaccard系数的计算公式为:
[0083] J 仰1,CP2) = BM 仰1,CP2) / (L (CP1) +L (CP2) -BM 仰1,CP2))
[0084] 其中,J(CP1,CP2)表示上下文模板CP1与上下文模板CP2生成的泛化模板的 jaccard系数,BM(CP1,CP2)表示在匹配过程中,得到的匹配单元的匹配代价中小于10的匹 配单元的数目,L(CPl)表示上下文模板CP1中除空白单元W外的匹配单元的数目,L(CP2) 表示上下文模板CP2中除空白单元W外的匹配单元的数目。
[00化]按照上述的计算公式,则表3中的泛化模板的jaccard系数=7/巧+8-7) = 0. 7。
[0086] 在本发明实施例中,装置在得到泛化模板集合之后,将利用该泛化模板集合中的 泛化模板抽取种子,具体请参阅步骤405至步骤409。
[0087] 405、利用第η泛化模板集合中的泛化模板从非结构化数据中抽取第n+1句子集 合;
[0088] 在本发明实施例中,装置在得到第η泛化模板集合之后,将利用该第η泛化模板集 合中的泛化模板从非机构化数据中抽取第n+1句子集合,即对包含非结构化数据的网页进 行正文提取、断句、分词、词性标注等操作,提取同时包含APP名称与标签的句子。
[0089] 406、将第n+1句子集合中的句子的上下文模板依次与第η泛化模板集合中的每一 个泛化模板进行代价匹配,确定第n+1句子集合中的每一个句子的上下文模板的匹配代价 集合;
[0090] 在本发明实施例中,装置将第n+1句子集合中的句子的上下文模板依次与第η泛 化模板集合中的每一个泛化模板进行代价匹配,确定第n+1句子集合中的每一个句子的上 下文模板的匹配代价集合。
[0091] 具体可W为:装置将该第n+1句子集合中的句子裁剪划分为多个词单元,为词单 元中的APP名称与标签分别设置对应的标识;例如,在将APP名称统一设置成标识化0T1, 将标签统一设置成标识化0T2。且装置还将确定词单元中除APP名称与标签之外其他的词 单元的词性或者语义代码,并将标识、与前述的词性或语义代码按多个词单元的顺序进行 组合得到句子的上下文模板。在完成上行文模板的生成之后,装置将第n+1句子集合中的 每一个上下文模板均依次与第η泛化模板集合中的每一个泛化模板进行匹配,若第η泛化 模板集合中包含100个泛化模板,则每一个上下文模板都需要匹配100次,且得到100个匹 配代价,即得到每一个上下文模板的匹配代价集合,该集合中包含了二元组,且每一个二元 组为第η泛化模板中每一个泛化模板与匹配代价之间构成的二元组。
[0092] 为了更好的进行上下文模板的生成,下面将举例介绍一个生成上下文模板的规 则:
[0093] 5)句子中的词单元为ΑΡΡ名称时,该词单元在上下文模板中对应着化0Τ1,句子中 的词单元标签时,该词单元在上下文模板中对应着化0Τ2 ;
[0094] 6)句子中的词单元为实词时,该词单元在上下文模板中对应着该词的语义代码及 词性,其中,实词主要包括名词、动词、形容词和名词修饰语,其中,语义代码是指该实词在 《同义词词林(扩展版)》中的语义代码;
[0095] 7)句子中的词单元为数词、代词和标点符号时,则该词单元在上行文模板中对应 其词性;
[0096] 8)若句子中的词单元不满足上述的1)至3)中的任意一条,则在上下文模板中对 应着该词单元及其词性。
[0097] 具体的例子请参阅表3,此处不再寶述。
[0098] 为了更好的理解上下文模板与泛化模板的匹配,请参阅表4,为句子"蜘蛛纸牌是 一款可玩性高的益智游戏。"的上下文模板与一个泛化模板的匹配,如下:
[0099]
[0100] 表 4 阳101] 在上述表4中,匹配的泛化木块中的匹配单元4至7均为空白单元。且最后的匹 配代价为58。
[0102] 407、确定第n+1种子集合,将第n+1种子集合保存到语义标签库中,第n+1种子集 合中的种子为第n+1句子集合中的句子的上下文模板中的APP名称与标签,且句子的匹配 代价集合中存在小于预先设置的第四数值的匹配代价;
[0103] 在本发明实施例中,装置在确定第n+1句子集合中的每一个句子的匹配代价集合 之后,将确定第n+1种子集合,在该第n+1种子集合中的种子为第n+1句子集合中的句子的 上下文模板中的APP名称与标签,且句子的匹配代价集合中存在小于预先设置的第四数值 的匹配代价。 阳104] 具体可W是,装置处理第n+1句子集合中的每一个句子的匹配代价集合,W句子K 的匹配代价集合为例,装置将判断该句子K的匹配代价集合中是否存在小于预先设置的第 四数值的匹配代价,若存在,则将该句子K中包含的APP名称与标签作为第n+1种子集合中 的种子。
[01化]408、若第n+1种子集合中包含非空集的第η巧种子集合,在第η巧种子集合中,种 子所在的句子的匹配代价集合中最小的匹配代价小于预先设置的第五数值,且第五数值小 于第四数值,则令η = n+2,返回执行步骤402 ;
[0106] 409、若第n+1种子集合中的所有种子所在的句子的匹配代价集合中的最小匹配 代价均大于或等于预先设置的第五数值,第五数值小于第四数值,则结束标签挖掘。
[0107] 在本发明实施例中,装置在得到第n+1种子集合之后,若该第n+1集中包含非空集 的第n+2种子集合,则令η = n+2,返回执行上述步骤402中的利用第η种子集合中的种子 在非结构化数据中进行检索,根据字符串匹配抽取技术抽取句子,抽取的句子构成第η句 子集合的步骤。
[0108] 其中,在第η巧种子集合中,种子所在的句子的匹配代价集合中最小的匹配代价 小于预先设置的第五数值,且第五数值小于第四数值。通过使用匹配代价更小的句子中的 ΑΡΡ名称和标签作为种子使用,使得标签挖掘的准确率更高。
[0109] 在本发明实施例中,若第n+1种子集合中的所有种子所在的句子的匹配代价集合 中的最小匹配代价均大于或等于预先设置的第五数值,其中该第五数值小于第四数值,即 第n+1种子集合中的第η巧种子集合为空集,则结束标签挖掘。
[0110] 需要说明的是,在本发明实施例中,步骤406中是先确定第n+1句子集合中的每一 个句子的上下文模板的匹配代价集合之后再确定第n+1种子集合,在实际应用中,装置在 依次计算一个句子的上下文模板与第η泛化模板集合中的泛化模板的匹配代价时,可W每 计算得到一个匹配代价,就将该匹配代价与预先设置的第四数值进行比较,若小于该预先 设置的第四数值,则确定该句子中包含的ΑΡΡ名称与标签的二元组为第n+1种子集合中的 种子,同时确定该匹配代价是否小于预先设置的第五数值,若该匹配代价还小于该预先设 置的第五数值,则确定该句子中包含的APP名称与标签的二元组为第η巧种子集合中的种 子。且停止该句子的上下文模板与其泛化模板之间的匹配及匹配代价的计算,使得能够有 效的节约计算资源。 阳111] 在本发明实施例中,装置从结构化数据中挖掘第η种子集合,该第η种子集合中 的种子为ΑΡΡ名称与标签构成的二元组,且利用该第η种子集合中的种子在非结构化数据 中进行检索,根据字符串匹配抽取技术抽取句子,抽取的句子构成第η句子集合,并将第η 句子集合中的句子划分为多个词单元,按照该多个词单元生成句子的上下文模板,对该第η 句子集合中的任意两个句子的上下文模板进行匹配,得到第η泛化模板集合,并利用该第 η泛化模板集合中的泛化模板从非结构化数据中抽取第n+1句子集合,将该第n+1句子集 合中的句子的上下文模板依次与第η泛化模板集合中的每一个泛化模板进行代价匹配,确 定第n+1句子集合中的每一个句子的上下文模板的匹配代价集合,利用第n+1句子集合中 的每一个句子的上下文模板的匹配代价集合确定第n+1种子集合及第n+2种子集合,并将 第n+1种子集合保存到语义标签库中,其中第n+1种子集合中的种子为第n+1句子集合中 的句子的上下文模板中的APP名称与标签,且句子的匹配代价集合中存在小于预先设置的 第四数值的匹配代价,其中,第n+2种子集合中,种子所在的句子的匹配代价集合中最小的 匹配代价小于预先设置的第五数值,且第五数值小于第四数值,若第n+2种子集合为非空 集,则令η = n+2,进行迭代计算,若η巧种子集合为空集,则结束标签挖掘。上述的通过生 成泛化模板,使得能够对非结构化数据进行标签挖掘,且准确性高,提高了标签挖掘的全面 性,且使用泛化模板抽取第n+1句子集合,增加了模板的泛化能够,抽取性能更好,最后,通 过迭代算法,能够有效的增加种子检索的召回率,能够对标签进行更加深入的挖掘。
[0112] 请参阅图5,为本发明实施例中标签挖掘装置的结构的实施例,包括:
[0113] 第一挖掘模块501,用于从结构化数据中挖掘第η种子集合,第η种子集合中的种 子为应用程序ΑΡΡ名称与标签构成的二元组,η的初始值为1,且η为正整数;
[0114] 检索模块502,用于在第一挖掘模块501得到第η种子集合之后,利用第η种子集 合中的种子在非结构化数据中进行检索,获取第η句子集合,第η句子集合中的句子包含第 η种子集合中的任意一个种子的ΑΡΡ名称与标签;
[0115] 匹配模块503,用于在检索模块502得到第η句子集合之后,利用第η句子集合中 的任意两个句子进行匹配,得到第η泛化模板集合;
[0116] 第二挖掘模块504,用于在匹配模块503得到第η泛化模板集合之后,根据第η泛 化模板集合中的泛化模板在非结构数据中进行标签挖掘,将挖掘得到的符合预先设置条件 的ΑΡΡ名称与标签的二元组保存到语义标签库中。
[0117] 在本发明实施例中,在本发明实施例中,结构化数据是指能够用数据或者统一的 结构加 W表示的数据,例如垂直网站或者百科页面中W表格形式展现的数据,其中,结构化 数据可通过一些规则模板提取数据,且从结构化数据中挖掘数据为现有技术,此处不做寶 述。
[0118] 其中,第η句子集合中包含至少一个句子,该句子可W是一个完整的句子也可W 是一个句子片段。
[0119] 其中,第η句子集合中的每一个句子都包含第η种子集合中的任意一个种子的ΑΡΡ 名称与标签。例如:第η句子集合中包含的一个句子为:植物大战僵尸是非常热口的塔防游 戏,在该句子中包含的种子为(植物大战僵尸,塔防游戏),且该种子为该第η种子集合中的 一个种子。
[0120] 在本发明实施例中,除结构化数据W外的数据均可称为非结构化数据,且非结构 化数据包括例如:垂直网站页面中除结构化数据W外的其他文本描述的数据,百科页面中 除结构化数据W外的其他文本描述的数据,ΑΡΡ的描述内容,ΑΡΡ的新闻正文等等。 阳121] 在本发明实施例中,标签挖掘装置中的第一挖掘模块501从结构化数据中挖掘第 η种子集合,第η种子集合中的种子为应用程序ΑΡΡ名称与标签构成的二元组,η的初始值 为1,且η为正整数;接着,检索模块502利用第η种子集合中的种子在非结构化数据中进 行检索,获取第η句子集合,第η句子集合中的句子包含第η种子集合中的任意一个种子的 ΑΡΡ名称与标签;并由匹配模块503利用第η句子集合中的任意两个句子进行匹配,得到第 η泛化模板集合;最后第二挖掘模块504根据第η泛化模板集合中的泛化模板在非结构数 据中进行标签挖掘,将挖掘得到的符合预先设置条件的ΑΡΡ名称与标签的二元组保存到语 义柄签库中。 阳122] 在本发明实施例中,装置从结构化数据中挖掘第η种子集合,该第η种子集合中的 种子为ΑΡΡ名称与标签构成的二元组,并利用该第η种子集合中的种子在非结构化数据中 进行捜索,获取第η句子集合,该第η句子集合中的句子包含该第η种子集合中的任意一个 种子的ΑΡΡ名称与标签,且利用该第η句子集合中的任意两个句子进行匹配,得到第η泛化 模板集合,根据该第η泛化模板集合中的泛化模板在该非结构化数据中进行标签挖掘,将 挖掘得到的符合预先设置条件的ΑΡΡ名称与标签的二元组保存到语义标签库中。通过利用 结构化数据中挖掘出来的第η种子集合在非结构化数据中进行检索,得到第η句子集合,使 得能够利用该第η句子集合得到能够在非结构化数据中进行标签挖掘的泛化模板集合,能 够有效的实现在非结构化数据中的标签挖掘,标签挖掘的更加全面。
[0123] 为了更好的理解本发明实施例中的标签挖掘装置,请参阅图6,为本发明实施例 中标签挖掘装置的实施例,包括:如图5所示的第一挖掘模块501、检索模块502、匹配模块 503及第二挖掘模块504,且与图5所示实施例中描述的内容相似,此处不做寶述。
[0124] 在本发明实施例中,检索模块502具体用于:利用第η种子集合中的种子在非结构 化数据中进行检索,根据字符串匹配技术抽取句子,抽取的句子构成第η句子集合,句子中 包含第η种子集合中的任意一个种子的ΑΡΡ名称与标签,且满足预先设置的启发式约束规 则。 阳125] 其中,启发式约束规则包括:句子中包含的种子的ΑΡΡ名称和标签在句子中的距 离小于或等于预先设置的字符串数目;和/或,在句子中,种子的ΑΡΡ名称与标签之间的标 点符号的个数小于预先设置的第一数值。
[0126] 在本发明实施例中,匹配模块503包括: 阳127] 生成模块601,用于在检索模块502得到第η句子集合之后,将第η句子集合中的 句子划分为多个词单元,按照多个词单元生成句子的上下文模板;
[0128] 模板匹配模板602,用于在生成模块601生成上下文模板之后,对第η句子集合中 的任意两个句子的上下文模板进行匹配,得到第η泛化模板集合,第η泛化模板集合中的泛 化模板用于对非结构化数据进行ΑΡΡ的标签挖掘。
[0129] 其中,生成模块601包括:
[0130] 划分模块603,用于在检索模块502得到第η句子集合之后,将第η句子集合中的 句子裁剪划分为多个词单元,为词单元中的ΑΡΡ名称与标签分别设置对应的标识; 阳13U 组合生成模块604,用于在划分模块603之后,确定词单元中除ΑΡΡ名称与标签之 外其他的词单元的词性或语义代码,将标识与词性或语义代码按多个词单元的顺序进行组 合得到句子的上下文模板。
[0132] 在本发明实施例中,模板匹配模块602包括: 阳133] 匹配计算模块605,用于在生成模块601生成上下文模板之后,将第η句子集合中 的任意两个上下文模板进行匹配,得到匹配后的泛化模板,且按照预先设置的匹配代价的 计算方式确定泛化模板的匹配代价,得到初始泛化模板集合;
[0134] 过滤模块606,用于在匹配计算模块605得到初始泛化模板集合之后,过滤掉初始 泛化模板集合中匹配代价大于预先设置的第二数值的泛化模板,得到过滤后的初始泛化模 板集合;
[0135] 优化模块607,用于在过滤模块606得到过滤后的初始泛化模板集合之后,按照预 先设置的模板优化规则对过滤后的初始泛化模板集合中的泛化模板进行优化,得到第η泛 化模板集合。 阳136] 其中,模板优化规则包括W下的任意一项或者多项:
[0137] 过滤掉jaccard系数小于预先设置的第Ξ数值的泛化模板;在泛化模板的开头和 结尾均增加省略单元;若停用词的相邻两边均为省略单元,则删除停用词;将连续的省略 单元合并为一个省略单元;过滤掉APP名称的标识或标签的标识的两边均为省略单元的泛 化模板。
[0138] 在本发明实施例中,第二挖掘模块505包括:
[0139] 抽取模块608,用于在匹配模块504得到第η泛化模板集合之后,利用第η泛化模 板集合中的泛化模板从非结构化数据中抽取第η+1句子集合;
[0140] 代价匹配模块609,用于在抽取模块608抽取第η+1句子集合集合之后,将第η+1 句子集合中的句子的上下文模板依次与第η泛化模板集合中的每一个泛化模板进行代价 匹配,确定第η+1句子集合中的每一个句子的上下文模板的匹配代价集合; 阳确定保存模块610,用于在代价匹配模块609之后,确定第η+1种子集合,将第η+1 种子集合保存至语义标签库中,第η+1种子集合中的种子为第η+1句子集合中的句子的上 下文模板中的ΑΡΡ名称与标签,且句子的匹配代价集合中存在小于预先设置的第四数值的 匹配代价;
[0142] 迭代模块611,用于若第η+1种子集合中包含非空集的第η巧种子集合,在第η+2 种子集合中,种子所在的句子的匹配代价集合中最小的匹配代价小于预先设置的第五数 值,且第五数值小于第四数值,则令η = η+2,返回执行检索模块502 ;
[0143] 结束模块612,用于若第η+1种子集合中的所有种子所在的句子的匹配代价集合 中的最小匹配代价均大于或等于预先设置的第五数值,第五数值小于第四数值,则结束标 签挖掘。
[0144] 为了更好的进行上下文模板的生成,下面将举例介绍一个生成上下文模板的规 则:
[0145] 9)句子中的词单元为ΑΡΡ名称时,该词单元在上下文模板中对应着化0Τ1,句子中 的词单元标签时,该词单元在上下文模板中对应着化0Τ2 ; 阳146] 10)句子中的词单元为实词时,该词单元在上下文模板中对应着该词的语义代码 及词性,其中,实词主要包括名词、动词、形容词和名词修饰语,其中,语义代码是指该实词 在《同义词词林(扩展版)》中的语义代码; 阳147] 11)句子中的词单元为数词、代词和标点符号时,则该词单元在上行文模板中对应 其词性;
[0148] 12)若句子中的词单元不满足上述的1)至3)中的任意一条,则在上下文模板中对 应着该词单元及其词性。
[0149] 在本发明实施例中,基于上下文模板求解泛化模板的问题可W转化为最长公共子 序列化ongest Common Subsequence, LC巧问题,运样一来,可W使用动态规划算法实现。 传统的LCS是基于完全匹配求最长匹配公共子序列,而在本发明实施例中上下文模板之间 可W进行模糊匹配,从而增加了匹配代价的概念,目的是获取最佳匹配公共子序列,即得 到了改进的BestMatch算法,因此,上述的预先设置的匹配代价的计算方法可W是改进的 BestMatch 算法。 阳150] 其中,该预先设置的匹配代价的计算方法的计算规则包括: 阳15U 5)若两个待匹配单元完全相同,则该两个匹配单元的匹配代价为0,则在泛化模 板中,对应的位置为该两个匹配单元的任意一个,即保持匹配单元原始状态;
[0152] 6)若两个待匹配单元均含有语义代码,且两个语义代码有交集,则确认为时模糊 匹配,两个匹配单元的匹配代价为5,且在泛化模板中,对应的位置为第一个匹配单元的词、 词性及语义代码有交集的部分;
[0153] 7)若两个待匹配单元的词性相同,则两个匹配单元的匹配代价为8,在泛化模板 中,对应的位置仅保留词性;
[0154] 8)若两个待匹配单元完全不匹配,则该两个匹配单元的匹配代价为10,在泛化模 板中,对应的位置为省略单元,该省略单元可W用表示。
[0155] 在本发明实施例中,两个上下文模板匹配是将该两个上下文模板中具有相同编号 的匹配单元进行匹配,例如将两个上下文模板的匹配单元1进行匹配,匹配单元2进行匹 配,匹配单元3进行匹配并W此类推,W确定匹配代价及得到泛化模板,该泛化模板的匹配 代价则为该两个上下文模板完成匹配后的所有的匹配代价的和。
[0156] 需要说明的是,在本发明实施例中,在对两个上下文模板进行匹配时,一定是 SL0T1与化0T1进行匹配且一定是化0T2与化0T2进行匹配,若开始时两个上下文模板中的 SL0T1及化0T2的匹配单元的编号均不相同,则为了能够进行匹配,可W通过插入空白匹配 单元的方式使得两个上下文模板中的匹配单元化0T1的编号及匹配单元化0T2的编号均相 同。 阳157] 需要说明的是,上述设置的匹配代价0, 5,8,10仅为一个可实施的应用数字,并不 对本方案造成限定,在实际应用中,可根据具体的情况设置每一个匹配状态下的匹配代价, 此处不做限定。
[0158] 在本发明实施例中,泛化模板的匹配代价越小,则说明用于生成该泛化模板的两 个上下文模板的匹配度越大,反之,则匹配度越小。 阳159] 在本发明实施例中,泛化模板的jaccard系数的计算公式为:
[0160] J 仰1,CP2) = BM 仰1,CP2) / (L (CP1) +L (CP2) -BM 仰1,CP2)) 阳161] 其中,J(CP1,CP2)表示上下文模板CP1与上下文模板CP2生成的泛化模板的 jaccard系数,BM(CP1,CP2)表示在匹配过程中,得到的匹配单元的匹配代价中小于10的匹 配单元的数目,L(CPl)表示上下文模板CP1中除空白单元W外的匹配单元的数目,L(CP2) 表示上下文模板CP2中除空白单元W外的匹配单元的数目。
[0162] 在本发明实施例中,标签挖掘装置中的第一挖掘模块501从结构化数据中挖掘第 η种子集合,第η种子集合中的种子为应用程序APP名称与标签构成的二元组,η的初始值 为1,且η为正整数;接着,检索模块502利用第η种子集合中的种子在非结构化数据中进 行检索,根据字符串匹配技术抽取句子,抽取的句子构成第η句子集合,句子中包含第η种 子集合中的任意一个种子的ΑΡΡ名称与标签,且满足预先设置的启发式约束规则;并由匹 配模块503中的生成模块601将第η句子集合中的句子划分为多个词单元,按照多个词单 元生成句子的上下文模板;及由模板匹配模板602对第η句子集合中的任意两个句子的上 下文模板进行匹配,得到第η泛化模板集合,第η泛化模板集合中的泛化模板用于对非结构 化数据进行ΑΡΡ的标签挖掘,关于生成模块601具体的,生成模块601中的划分模块603将 第η句子集合中的句子裁剪划分为多个词单元,为词单元中的ΑΡΡ名称与标签分别设置对 应的标识;及生成模块601中的组合生成模块604确定词单元中除ΑΡΡ名称与标签之外其 他的词单元的词性或语义代码,将标识与词性或语义代码按多个词单元的顺序进行组合得 到句子的上下文模板。关于模板匹配模块602,具体的,模板匹配单元602中的匹配计算模 块605将第η句子集合中的任意两个上下文模板进行匹配,得到匹配后的泛化模板,且按照 预先设置的匹配代价的计算方式确定泛化模板的匹配代价,得到初始泛化模板集合;并由 过滤模块606过滤掉初始泛化模板集合中匹配代价大于预先设置的第二数值的泛化模板, 得到过滤后的初始泛化模板集合;并由优化模块607按照预先设置的模板优化规则对过滤 后的初始泛化模板集合中的泛化模板进行优化,得到第η泛化模板集合。 阳163] 最后第二挖掘模块504中的抽取模块608利用第η泛化模板集合中的泛化模板从 非结构化数据中抽取第η+1句子集合;且代价匹配模块609将第η+1句子集合中的句子的 上下文模板依次与第η泛化模板集合中的每一个泛化模板进行代价匹配,确定第η+1句子 集合中的每一个句子的上下文模板的匹配代价集合;并由确定保存模块610确定第η+1种 子集合,将第η+1种子集合保存至语义标签库中,第η+1种子集合中的种子为第η+1句子集 合中的句子的上下文模板中的ΑΡΡ名称与标签,且句子的匹配代价集合中存在小于预先设 置的第四数值的匹配代价;若第η+1种子集合中包含非空集的第η+2种子集合,在第η+2种 子集合中,种子所在的句子的匹配代价集合中最小的匹配代价小于预先设置的第五数值, 且第五数值小于第四数值,则迭代模块611令η = η+2,返回执行检索模块502 ;若第η+1种 子集合中的所有种子所在的句子的匹配代价集合中的最小匹配代价均大于或等于预先设 置的第五数值,第五数值小于第四数值,则结束模块612结束标签挖掘。
[0164] 在本发明实施例中,装置从结构化数据中挖掘第η种子集合,该第η种子集合中 的种子为ΑΡΡ名称与标签构成的二元组,且利用该第η种子集合中的种子在非结构化数据 中进行检索,根据字符串匹配抽取技术抽取句子,抽取的句子构成第η句子集合,并将第η 句子集合中的句子划分为多个词单元,按照该多个词单元生成句子的上下文模板,对该第η 句子集合中的任意两个句子的上下文模板进行匹配,得到第η泛化模板集合,并利用该第 η泛化模板集合中的泛化模板从非结构化数据中抽取第η+1句子集合,将该第η+1句子集 合中的句子的上下文模板依次与第η泛化模板集合中的每一个泛化模板进行代价匹配,确 定第η+1句子集合中的每一个句子的上下文模板的匹配代价集合,利用第η+1句子集合中 的每一个句子的上下文模板的匹配代价集合确定第η+1种子集合及第η+2种子集合,并将 第η+1种子集合保存到语义标签库中,其中第η+1种子集合中的种子为第η+1句子集合中 的句子的上下文模板中的ΑΡΡ名称与标签,且句子的匹配代价集合中存在小于预先设置的 第四数值的匹配代价,其中,第η+2种子集合中,种子所在的句子的匹配代价集合中最小的 匹配代价小于预先设置的第五数值,且第五数值小于第四数值,若第η+2种子集合为非空 集,则令η = η+2,进行迭代计算,若η巧种子集合为空集,则结束标签挖掘。上述的通过生 成泛化模板,使得能够对非结构化数据进行标签挖掘,且准确性高,提高了标签挖掘的全面 性,且使用泛化模板抽取第η+1句子集合,增加了模板的泛化能够,抽取性能更好,最后,通 过迭代算法,能够有效的增加种子检索的召回率,能够对标签进行更加深入的挖掘。
[01化]W上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽 然本发明已W较佳实施例掲露如上,然而并非用W限定本发明,任何熟悉本专业的技术人 员,在不脱离本发明技术方案范围内,当可利用上述掲示的技术内容做出些许更动或修饰 为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对 W上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
【主权项】
1. 一种标签挖掘方法,其特征在于,包括: 从结构化数据中挖掘第η种子集合,所述第η种子集合中的种子为应用程序APP名称 与标签构成的二元组,所述η的初始值为1,且η为正整数; 利用所述第η种子集合中的种子在非结构化数据中进行检索,获取第η句子集合,所述 第η句子集合中的句子包含所述第η种子集合中的任意一个种子的ΑΡΡ名称与标签;· 利用所述第η句子集合中的任意两个句子进行匹配,得到第η泛化模板集合; 根据所述第η泛化模板集合中的泛化模板在所述非结构数据中进行标签挖掘,将挖掘 得到的符合预先设置条件的ΑΡΡ名称与标签的二元组保存到语义标签库中。2. 根据权利要求1所述的方法,其特征在于,所述利用所述第η种子集合在非结构化数 据中进行检索,获取第η句子集合,所述第η句子集合中的句子包含所述第η种子集合中的 任意一个种子的ΑΡΡ名称与标签,包括: 利用所述第η种子集合中的种子在所述非结构化数据中进行检索,根据字符串匹配技 术抽取句子,抽取的句子构成所述第η句子集合,所述句子中包含所述第η种子集合中的任 意一个种子的ΑΡΡ名称与标签,且满足预先设置的启发式约束规则。3. 根据权利要求2所述的方法,其特征在于,所述启发式约束规则包括:所述句子中包 含的种子的ΑΡΡ名称和标签在所述句子中的距离小于或等于预先设置的字符串数目;和/ 或,在所述句子中,种子的ΑΡΡ名称与标签之间的标点符号的个数小于预先设置的第一数 值。4. 根据权利要求1所述的方法,其特征在于,所述利用所述第η句子集合中的任意两个 句子进行匹配,得到第η泛化模板集合,包括: 将所述第η句子集合中的句子划分为多个词单元,按照所述多个词单元生成所述句子 的上下文模板; 对所述第η句子集合中的任意两个句子的上下文模板进行匹配,得到第η泛化模板集 合,所述第η泛化模板集合中的泛化模板用于对所述非结构化数据进行ΑΡΡ的标签挖掘。5. 根据权利要求4所述的方法,其特征在于,所述将所述第η句子集合中的句子划分为 多个词单元,按照所述多个词单元生成所述句子的上下文模板,包括: 将所述第η句子集合中的句子裁剪划分为多个词单元,为所述词单元中的ΑΡΡ名称与 标签分别设置对应的标识; 确定所述词单元中除所述ΑΡΡ名称与标签之外其他的词单元的词性或语义代码,将所 述标识与所述词性或语义代码按所述多个词单元的顺序进行组合得到所述句子的上下文 模板。6. 根据权利要求4所述的方法,其特征在于,所述对所述第η句子集合中的任意两个句 子的上下文模板进行匹配,得到第η泛化模板集合,包括: 将所述第η句子集合中的任意两个上下文模板进行匹配,得到匹配后的泛化模板,且 按照预先设置的匹配代价的计算方式确定所述泛化模板的匹配代价,得到初始泛化模板集 合; 过滤掉所述初始泛化模板集合中匹配代价大于预先设置的第二数值的泛化模板,得到 过滤后的初始泛化模板集合; 按照预先设置的模板优化规则对所述过滤后的初始泛化模板集合中的泛化模板进行 优化,得到所述第η泛化模板集合。7. 根据权利要求6所述的方法,其特征在于,所述模板优化规则包括以下的任意一项 或者多项: 过滤掉jaccard系数小于预先设置的第三数值的泛化模板;在泛化模板的开头和结尾 均增加省略单元;若停用词的相邻两边均为省略单元,则删除所述停用词;将连续的省略 单元合并为一个省略单元;过滤掉APP名称的标识或标签的标识的两边均为省略单元的泛 化模板。8. 根据权利要求1至7任意一项所述的方法,其特征在于,所述根据所述第η泛化模板 集合中的泛化模板在所述非结构数据中进行标签挖掘,将挖掘得到的符合预先设置条件的 ΑΡΡ名称与标签的二元组保存到语义标签库中,包括: 利用所述第η泛化模板集合中的泛化模板从非结构化数据中抽取第η+1句子集合; 将所述第η+1句子集合中的句子的上下文模板依次与所述第η泛化模板集合中的每一 个泛化模板进行代价匹配,确定所述第η+1句子集合中的每一个句子的上下文模板的匹配 代价集合; 确定第η+1种子集合,将所述第η+1种子集合保存至语义标签库中,所述第η+1种子集 合中的种子为所述第η+1句子集合中的句子的上下文模板中的ΑΡΡ名称与标签,且所述句 子的匹配代价集合中存在小于预先设置的第四数值的匹配代价; 若所述第η+1种子集合中包含非空集的第η+2种子集合,在所述第η+2种子集合中,种 子所在的句子的匹配代价集合中最小的匹配代价小于预先设置的第五数值,且所述第五数 值小于所述第四数值,则令η = η+2,返回执行所述利用所述第η种子集合中的种子在非结 构化数据中进行检索,获取第η句子集合的步骤; 若所述第η+1种子集合中的所有种子所在的句子的匹配代价集合中的最小匹配代价 均大于或等于预先设置的第五数值,所述第五数值小于所述第四数值,则结束标签挖掘。9. 一种标签挖掘装置,其特征在于,包括: 第一挖掘模块,用于从结构化数据中挖掘第η种子集合,所述第η种子集合中的种子为 应用程序ΑΡΡ名称与标签构成的二元组,所述η的初始值为1,且η为正整数; 检索模块,用于在所述第一挖掘模块得到所述第η种子集合之后,利用所述第η种子集 合中的种子在非结构化数据中进行检索,获取第η句子集合,所述第η句子集合中的句子包 含所述第η种子集合中的任意一个种子的ΑΡΡ名称与标签; 匹配模块,用于在所述检索模块得到所述第η句子集合之后,利用所述第η句子集合中 的任意两个句子进行匹配,得到第η泛化模板集合; 第二挖掘模块,用于在所述匹配模块得到所述第η泛化模板集合之后,根据所述第η泛 化模板集合中的泛化模板在所述非结构数据中进行标签挖掘,将挖掘得到的符合预先设置 条件的ΑΡΡ名称与标签的二元组保存到语义标签库中。10. 根据权利要求9所述的装置,其特征在于,所述检索模块具体用于: 利用所述第η种子集合中的种子在所述非结构化数据中进行检索,根据字符串匹配技 术抽取句子,抽取的句子构成所述第η句子集合,所述句子中包含所述第η种子集合中的任 意一个种子的ΑΡΡ名称与标签,且满足预先设置的启发式约束规则。11. 根据权利要求10所述的装置,其特征在于,所述启发式约束规则包括:所述句子中 包含的种子的APP名称和标签在所述句子中的距离小于或等于预先设置的字符串数目;和 /或,在所述句子中,种子的APP名称与标签之间的标点符号的个数小于预先设置的第一数 值。12. 根据权利要求9所述的装置,其特征在于,所述匹配模块包括: 生成模块,用于在所述检索模块得到所述第η句子集合之后,将所述第η句子集合中的 句子划分为多个词单元,按照所述多个词单元生成所述句子的上下文模板; 模板匹配模板,用于在所述生成模块生成所述上下文模板之后,对所述第η句子集合 中的任意两个句子的上下文模板进行匹配,得到第η泛化模板集合,所述第η泛化模板集合 中的泛化模板用于对所述非结构化数据进行ΑΡΡ的标签挖掘。13. 根据权利要求12所述的装置,其特征在于,所述生成模块包括: 划分模块,用于在所述检索模块得到所述第η句子集合之后,将所述第η句子集合中的 句子裁剪划分为多个词单元,为所述词单元中的ΑΡΡ名称与标签分别设置对应的标识; 组合生成模块,用于在所述划分模块之后,确定所述词单元中除所述ΑΡΡ名称与标签 之外其他的词单元的词性或语义代码,将所述标识与所述词性或语义代码按所述多个词单 元的顺序进行组合得到所述句子的上下文模板。14. 根据权利要求12所述的装置,其特征在于,所述模板匹配模块包括: 匹配计算模块,用于在所述生成模块生成所述上下文模板之后,将所述第η句子集合 中的任意两个上下文模板进行匹配,得到匹配后的泛化模板,且按照预先设置的匹配代价 的计算方式确定所述泛化模板的匹配代价,得到初始泛化模板集合; 过滤模块,用于在所述匹配计算模块得到所述初始泛化模板集合之后,过滤掉所述初 始泛化模板集合中匹配代价大于预先设置的第二数值的泛化模板,得到过滤后的初始泛化 模板集合; 优化模块,用于在所述过滤模块得到所述过滤后的初始泛化模板集合之后,按照预先 设置的模板优化规则对所述过滤后的初始泛化模板集合中的泛化模板进行优化,得到所述 第η泛化模板集合。15. 根据权利要求14所述的装置,其特征在于,所述模板优化规则包括以下的任意一 项或者多项: 过滤掉jaccard系数小于预先设置的第三数值的泛化模板;在泛化模板的开头和结尾 均增加省略单元;若停用词的相邻两边均为省略单元,则删除所述停用词;将连续的省略 单元合并为一个省略单元;过滤掉APP名称的标识或标签的标识的两边均为省略单元的泛 化模板。16. 根据权利要求9至15任意一项所述的装置,其特征在于,所述第二挖掘模块包括: 抽取模块,用于在所述匹配模块得到所述第η泛化模板集合之后,利用所述第η泛化模 板集合中的泛化模板从非结构化数据中抽取第η+1句子集合; 代价匹配模块,用于在所述抽取模块抽取所述第η+1句子集合集合之后,将所述第η+1 句子集合中的句子的上下文模板依次与所述第η泛化模板集合中的每一个泛化模板进行 代价匹配,确定所述第η+1句子集合中的每一个句子的上下文模板的匹配代价集合; 确定保存模块,用于在所述代价匹配模块之后,确定第η+1种子集合,将所述第η+1种 子集合保存至语义标签库中,所述第η+1种子集合中的种子为所述第η+1句子集合中的句 子的上下文模板中的APP名称与标签,且所述句子的匹配代价集合中存在小于预先设置的 第四数值的匹配代价; 迭代模块,用于若所述第n+1种子集合中包含非空集的第n+2种子集合,在所述第n+2 种子集合中,种子所在的句子的匹配代价集合中最小的匹配代价小于预先设置的第五数 值,且所述第五数值小于所述第四数值,则令η = n+2,返回执行所述检索模块; 结束模块,用于若所述第n+1种子集合中的所有种子所在的句子的匹配代价集合中的 最小匹配代价均大于或等于预先设置的第五数值,所述第五数值小于所述第四数值,则结 束标签挖掘。
【文档编号】G06F17/30GK105824828SQ201510004659
【公开日】2016年8月3日
【申请日】2015年1月6日
【发明人】刘安安, 王迪
【申请人】深圳市腾讯计算机系统有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1