一种基于词向量分析的网络文章所属事件的检测方法和装置的制造方法

文档序号:10612805阅读:229来源:国知局
一种基于词向量分析的网络文章所属事件的检测方法和装置的制造方法
【专利摘要】本发明实施例提供了一种基于词向量分析的网络文章所属事件的检测方法和装置。该方法主要包括:建立典型训练集;对典型训练集中的每一条网络文章样本进行分词,去无用词预处理,得到规范化的网络文章样本文本;将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征,得到每一条网络文章样本文对应的多维词向量;将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型,利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事件。本发明实施例充分利用了网络文本样本的信息,提高了网络文本样本所属事件分类的准确度。
【专利说明】
一种基于词向量分析的网络文章所属事件的检测方法和装置
技术领域
[0001] 本发明涉及网络文章事件检测技术领域,尤其涉及一种基于词向量分析的网络文 章所属事件的检测方法和装置。
【背景技术】
[0002] 随着互联网的迅猛发展,尤其是微博的流行与普及,使得我们可以非常方便地,跨 地域地分享所知,所听,所见的各种事件。然而,随着生活节奏加快,人们没有太多时间去了 解当前的热门事件;以及由于微博信息传播迅速的特点,负面新闻散布过快,当前没有一种 有效机制来检测网络负面新闻的出现。因此,一个有效的互联网中事件检测系统对方便人 们快速了解网络事件以及及早遏制负面新闻的传播都具有重要的意义。
[0003] 近年来,微博越来越流行,大量现实中的事件通过微博进行传播。以及为了信息检 索,遏制负面新闻的传播等目的使得研发一种互联网中事件检测系统具有重要的必要性。

【发明内容】

[0004] 本发明的实施例提供了一种基于词向量分析的网络文章所属事件的检测方法和 装置,以实现有效地对网络文章所属事件进行提取。
[0005] 为了实现上述目的,本发明采取了如下技术方案。
[0006] -种基于词向量分析的网络文章所属事件的检测方法,包括:
[0007] 利用具有事件标签的网络文章样本建立典型训练集;
[0008] 对所述典型训练集中的每一条网络文章样本进行分词,去无用词预处理,得到规 范化的网络文章样本文本;
[0009] 将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征, 将提取出的网络文章样本文本的word2vec特征和LDA特征进行融合,得到每一条网络文章 样本文对应的多维词向量;
[0010] 将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机森林算法, 该随机森林算法输出事件的分类模型,利用所述事件的分类模型对待识别的网络文章文本 进行识别,判断出所述待识别的网络文章文本所属的事件。
[0011] 进一步地,所述的利用具有事件标签的网络文章样本建立典型训练集,包括:
[0012] 通过网络爬虫技术从网络中收集建立具有事件标签的网络文章样本,将所有的网 络文章样本组成训练集,使用设定数量的用户对每一条网络文章样本进行所属事件标注, 如果有超过设定比例的用户对一条网络文章样本所属事件的标注结果不一致,则将该网络 文章样本剔出训练集,最终得到优化后的典型训练集。
[0013] 进一步地,所述的将每一条规范化的网络文章样本文本分别用word2vec算法和 LDA算法提取特征,包括:
[0014] word2vec算法的skip-gram模型的计算公式如下:
[0015]
[0016] 其中,W1,W2,W3, . . .,WN是一条规范化的网络文章样本文本中的词组序列,N是词组 序列中词组的总数,C是决定上下文窗口大小的常数;
[0017] 基本的Skip-garm模型用如下公式定义p(wt+j | wt):
[0018]
[0019] 其中,Vw和V、是wn的"输入"和"输出"向量表示,W是word2vec字典中的词语向量的 维数;
[0020] word2vec算法把每个词组映射为K维向量,将一条网络文章样本文本映射为N*K维 矩阵,其中N为词组序列中词组的总数,K为每个词组经 W〇rd2vec映射后的向量维数,然后, 对N*K维度矩阵的所有行求和取平均值得到一个K维向量,该K维向量为网络文章样本文本 的word2vec特征;
[0021] LDA算法的计算公式如下:
[0022] V
-11 /
[0023] 其中,D表示规范化的网络文章样本文本集合,Μ为网络文章样本文本的数量,D = {ffi,W2,.....,%},W= {wi,W2,.....,wn},N为一条网络文章样本文本的词组数量,β为TX v 矩阵,Τ为Dirichlet分布的维数,Τ为常数。Pi,j = p(wj = l | ζ1=1),θ~Dirichlet(a),α为Τ维 向量,Ζ为话题集合,Ζη~Multinomial (9);Wi为某一条网络文章样本文本,wi为一条网络文 章样本文本中某一个词组,将ρ(?|α,β)作为网络文章样本文本的LDA特征。
[0024] 进一步地,所述的将提取出的网络文章样本文本的word2vec特征和LDA特征进行 融合,得到每一条网络文章样本文对应的多维词向量,包括:
[0025]对一条网络文章样本文本分别进行word2VeC特征提取和LDA特征提取之后,将 word2vec特征和LDA特征进行融合,得到一条网络文章样本文本对应的多维词向量;
[0026 ] 所述wo r d 2 v e c特征和LDA特征的融合方法是对LDA特征进行归一化处理,使LDA特 征的尺度和word2vec特征一致,归一化方法如下:
[0027]
[0028]
[0029] 其中,罗为融合后的特征,为X维词向量,:Fw2v为w〇rd2VeC算法得到的特征,为X w2v 维,乃da为LDA算法得到的特征,父1如维,:F E 服x,:F G EXw2v,:F E 3txwa,X = Xw2v+Xida, maxw2v为向量!Fw2v中元素绝对值最大的值,maxida为向量:F lda中元素绝对值最大的值。
[0030] 进一步地,所述的利用所述事件的分类模型对待识别的网络文章文本进行识别, 判断出所述待识别的网络文章文本所属的事件,包括:
[0031] 所述事件的分类模型中包括网络文章文本的属性和所属的事件,将待识别的网络 文章文本的属性输入到所述事件的分类模型,查询出待识别的网络文章文本所属的事件。
[0032] -种基于词向量分析的网络文章所属事件的检测装置,包括:
[0033] 典型训练集建立模块,用于利用具有事件标签的网络文章样本建立典型训练集;
[0034] 规范化的网络文章样本文本获取模块,用于对所述典型训练集中的每一条网络文 章样本进行分词,去无用词预处理,得到规范化的网络文章样本文本;
[0035] 网络文章样本文对应的多维词向量获取模块,用于将每一条规范化的网络文章样 本文本分别用word2vec算法和LDA算法提取特征,将提取出的网络文章样本文本的 word2vec特征和LDA特征进行融合,得到每一条网络文章样本文对应的多维词向量;
[0036] 网络文章文本所属事件获取模块,用于将每一条网络文章样本文本对应的多维词 向量和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型,利用所述事 件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属 的事件。
[0037] 进一步地,所述的典型训练集建立模块,具体用于通过网络爬虫技术从网络中收 集建立具有事件标签的网络文章样本,将所有的网络文章样本组成训练集,使用设定数量 的用户对每一条网络文章样本进行所属事件标注,如果有超过设定比例的用户对一条网络 文章样本所属事件的标注结果不一致,则将该网络文章样本剔出训练集,最终得到优化后 的典型训练集。
[0038] 进一步地,所述的网络文章样本文对应的多维词向量获取模块,具体用于设 word2vec算法的Skip-gram模型的计算公式如下:
[0039]
[0040] 其中,W1,W2,W3, . . .,WN是一条规范化的网络文章样本文本中的词组序列,N是词组 序列中词组的总数,C是决定上下文窗口大小的常数;
[0041 ] 基本的Skip-garm模型用如下公式定义p(wt+j | wt):
[0042]
[0043] 其中,Vw和是wn的"输入"和"输出"向量表示,W是word2vec字典中的词语向量的 维数;
[0044] word2vec算法把每个词组映射为K维向量,将一条网络文章样本文本映射为N*K维 矩阵,其中N为词组序列中词组的总数,K为每个词组经W〇rd2vec映射后的向量维数,然后, 对N*K维度矩阵的所有行求和取平均值得到一个K维向量,该K维向量为网络文章样本文本 的word2vec特征;
[0045] LDA算法的计算公式如下:
[0046]
[0047] 其中,D表示规范化的网络文章样本文本集合,Μ为网络文章样本文本的数量,D = {ffi,W2,.....,%},W= {wi,W2,.....,wn},N为一条网络文章样本文本的词组数量,β为TX v 矩阵,Τ为Dirichlet分布的维数,Τ为常数。Pi,j = p(wj = l | ζ1=1),θ~Dirichlet(a),α为Τ维 向量,Ζ为话题集合,Ζη~Multinomial (9);Wi为某一条网络文章样本文本,wi为一条网络文 章样本文本中某一个词组,将ρ(?|α,β)作为网络文章样本文本的LDA特征。
[0048] 进一步地,所述的网络文章样本文对应的多维词向量获取模块,具体用于对一条 网络文章样本文本分别进行word2vec特征提取和LDA特征提取之后,将word2vec特征和LDA 特征进行融合,得到一条网络文章样本文本对应的多维词向量;
[0049 ] 所述wo r d 2 v e c特征和LDA特征的融合方法是对LDA特征进行归一化处理,使LDA特 征的尺度和word2vec特征一致,归一化方法如下:
[0050]
[0051]
[0052] 其中,为融合后的特征,为X维词向量,:FW2V为w〇rd2ve C算法得到的特征,为Xw2v 维,乃心为LDA算法得到的特征,Xida维,F £ JRX,罗 e IRXw2v,T 6 IRXl伽,X=Xw2v+Xida, maxw2v为向量:Tw2v中元素绝对值最大的值,maxida为向量:Fi da中元素绝对值最大的值。
[0053] 进一步地,网络文章文本所属事件获取模块,具体用于设所述事件的分类模型中 包括网络文章文本的属性和所属的事件,将待识别的网络文章文本的属性输入到所述事件 的分类模型,查询出待识别的网络文章文本所属的事件。
[0054]由上述本发明的实施例提供的技术方案可以看出,本发明实施例提供的基于词向 量分析的网络文章所属事件的检测方法综合了word2vec的深度特征和LDA经典主题模型特 征的优点,充分利用了文本样本的信息,提高了分类的准确度。本发明装置的所有模块都是 完全自动的,不需要人工干预,因此能够非常容易独立运行或作为一个子模块嵌入到各类 Web信息过滤系统中去。具有广泛的应用前景。
[0055] 本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变 得明显,或通过本发明的实践了解到。
【附图说明】
[0056] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本 领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他 的附图。
[0057] 图1为本发明实施例提供了一种基于词向量分析的网络文章所属事件的检测方法 的流程图;
[0058]图2为本发明实施例提供的一种基于词向量分析的互联网中事件分类模型的训练 流程图;
[0059] 图3为本发明实施例提供的一种基于词向量分析的互联网中事件分类模型进行所 属类别测试的方法流程图;
[0060] 图4为本发明实施例提供的一种基于词向量分析的网络文章所属事件的检测装置 的具体结构图,包括:典型训练集建立模块41,规范化的网络文章样本文本获取模块42,网 络文章样本文对应的多维词向量获取模块43和网络文章文本所属事件获取模块44。
【具体实施方式】
[0061] 下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始 至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参 考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0062] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式"一"、"一 个"、"所述"和"该"也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措 辞"包括"是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加 一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元 件被"连接"或"耦接"到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在 中间元件。此外,这里使用的"连接"或"耦接"可以包括无线连接或耦接。这里使用的措辞 "和/或"包括一个或更多个相关联的列出项的任一单元和全部组合。
[0063]本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术 语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该 理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意 义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0064] 为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步 的解释说明,且各个实施例并不构成对本发明实施例的限定。
[0065] 实施例一
[0066] 本发明实施例提供了一种基于词向量分析的网络文章所属事件的检测方法的流 程图如图1所示,该方法包括以下步骤:
[0067] 步骤S110:建立具有事件标签的训练集;
[0068] 通过网络爬虫技术从网络中收集建立具有事件标签的网络文章样本,将所有的网 络文章样本组成训练集,使用设定数量的用户对每一条网络文章样本进行所属事件标注, 如果有超过设定比例的用户对一条网络文章样本所属事件的标注结果不一致,则将该网络 文章样本剔出训练集,最终得到优化后的典型训练集。训练集中包含的每一个网络文章样 本都标注了对应的事件标签。
[0069] 比如,并使7位用户对每一条网络文章样本进行所属事件进行标注,如果有超过3 位用户对所属事件标注结果不一致,则将该网络文章样本剔出训练集,以获得最终的典型 训练集。
[0070] 因为微博等网络文章的字数少,语义中心较为集中,为了便于后期处理,这里每一 条网络文章定义为只属于一个事件。事件名称举例如下:"了不起的挑战","芈月传","亚洲 新歌榜","2亿人得了腰椎病"等。
[0071] 步骤S120:利用开源IKAnalyzer分词工具对所述典型训练集中的每一条网络文章 样本进行分词,去无用词等预处理,得到规范化的网络文章样本文本;
[0072]步骤S130:将每一条规范化的网络文章样本文本分别用word2vec算法和LDA (Linear Discriminant Analysis,线性判别式分析)算法提取特征,并把word2vec特征和 LDA特征进行融合,以得到每一条网络文章样本文本的X维词向量表示,其中X为自然数; [0073] word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工 具,其利用深度学习的思想,可以通过训练,把对网络文章文本内容的处理简化为K维向量 空间中的向量运算。为K维向量空间中的向量运算。在实际应用中,通常取K = 200。该工具共 有两个模型--CB0W和Sk i p -gr am模型。
[0074] 其中,word2vec算法的Skip-gram模型核心公式如下:
[0075]
[0076] 其中,W1,W2,W3, . . .,wn是一条规范化的网络文章样本文本的词组序列,N是词组的 总数,C是决定上下文窗口大小的常数,C越大一般会得到更精确的结果,基本的Skip-garm 模型用如下公式定义P(wt+_i |wt):
[0077]
[0078] 其中,Vw和ν' w是WN的"输入"和"输出"向量表示,W是word2vec字典的大小,Bp w 〇 r d 2 v e c字典中的词语向量的维数。
[0079] word2vec把每个词组映射为K维向量,那么一条网络文章样本文本则为N*K维矩 阵,其中N为词组序列中词组的总数,K为每个词组经W〇rd2vec映射后的向量维数。然后对N* K维度矩阵的所有行求和取平均值得到一个K维向量,该K维向量为网络文章样本文本的 word2vec 特征。
[0080] LDA算法的核心公式如下:
[0081]
[0082]其中,D表示规范化的网络文章样本集合,Μ为网络文章样本集合的数量,D={Wi, ff2,.....,Wm},W={wi,w2,.....,wN},N为一条网络文章样本的词组数量,β为TXv矩阵,T为 Dirichlet分布的维数,Τ为常数。Pi,j = p(wj = l | ζ1 = 1),θ~Dirichlet(a),α为k维向量。Ζ为 话题集合,Zn~Multinomial(Θ)。
[0083] W1为某一条网络文章样本文本,wl为一条网络文章样本文本中某一个词组,将p(D α,β)作为网络文章样本文本的LDA特征。
[0084] 对一条网络文章样本文本提取word2vec特征时,采用Skip-gram模型,词向量维数 K = 100,上下文窗口大小window = 5,其它参数为默认值;提取LDA特征时,事件个数num_ topics = 250〇
[0085] 对一条网络文章样本文本分别进行word2VeC特征提取和LDA特征提取之后,将 word2vec特征和LDA特征进行融合,得到一条网络文章样本文本对应的多维词向量。
[0086] word2vec特征和LDA特征的融合方法是对LDA特征进行归一化处理,使其尺度和 word2vec-致,归一化方法如下:
[0087] T = Tv,2v + λΤ1?]3
[0088]
[0089] 其中,3^为融合后的特征,为X维词向量,fW2v为w〇rd2vec算法得到的特征,为X W2v 维,罗Wa为LDA算法得到的特征,Xlda维,:F 6脈X,沪€ ΕΧ^,罗6 JRXlda,X = Xw2v+Xida, maxw2v为向量:Fvv2 v中元素绝对值最大的值,maxida为向量巧da中元素绝对值最大的值。
[0090] 步骤S140:将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机 森林算法,该随机森林算法输出事件的分类模型。其中随机森林中树的个数tree = 200。事 件的分类模型中包括网络文章文本的属性和所属的事件吗?
[0091] 利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别 的网络文章文本所属的事件。是将待识别的网络文章文本的一些属性输入到上述事件的分 类模型,查询出待识别的网络文章文本所属的事件吗?
[0092] 下面结合图2和图3详细给出本发明提供的互联网中事件检测系统的主要运行流 程。整个系统可分为训练流程和测试流程。
[0093] 图2示出了本发明中基于词向量分析的互联网中事件分类模型的训练流程图。如 图2所示,对于大量的训练样本文本,首先利用本发明使用的IKAnalyzer分词工具进行分 词,去无用词等预处理,得到规范化的样本文本。然后,用word2 vec算法和LDA算法提取出特 征并进行融合,得到融合后的X维特征。最后将得到的X维特征及其对应的所属类别标签输 入到随机森林中,训练得到最优的互联网中事件分类模型。图3示出了本发明中基于词向量 分析的互联网中事件分类模型进行所属类别测试的方法流程图。如图4所示,对于输入的测 试文本,首先利用本发明使用的IKAnalyzer分词工具进行分词,去无用词等预处理,得到规 范化的测试文本。然后,用 W〇rd2vec算法和LDA算法提取出特征并进行融合,得到测试样本 的融合后的X维特征。最后,利用训练好的互联网中事件的随机森林分类模型对待分类的网 络文章文本进行分类,以判断待分类的网络文章文本属于哪一个事件。
[0094] 实施例二
[0095]该实施例提供了一种基于词向量分析的网络文章所属事件的检测装置,该装置的 具体结构如图4所示,包括:
[0096] 典型训练集建立模块41,用于利用具有事件标签的网络文章样本建立典型训练 集;
[0097] 规范化的网络文章样本文本获取模块42,用于对所述典型训练集中的每一条网络 文章样本进行分词,去无用词预处理,得到规范化的网络文章样本文本;
[0098] 网络文章样本文对应的多维词向量获取模块43,用于将每一条规范化的网络文章 样本文本分别用word2vec算法和LDA算法提取特征,将提取出的网络文章样本文本的 word2vec特征和LDA特征进行融合,得到每一条网络文章样本文对应的多维词向量;
[0099] 网络文章文本所属事件获取模块44,用于将每一条网络文章样本文本对应的多维 词向量和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型,利用所述 事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所 属的事件。
[0100] 进一步地,所述的典型训练集建立模块41,具体用于通过网络爬虫技术从网络中 收集建立具有事件标签的网络文章样本,将所有的网络文章样本组成训练集,使用设定数 量的用户对每一条网络文章样本进行所属事件标注,如果有超过设定比例的用户对一条网 络文章样本所属事件的标注结果不一致,则将该网络文章样本剔出训练集,最终得到优化 后的典型训练集。
[0101 ]进一步地,所述的网络文章样本文对应的多维词向量获取模块43,具体用于设 word2vec算法的Skip-gram模型的计算公式如下:
[0102]
[0103] 其中,W1,W2,W3, . . .,wn是一条规范化的网络文章样本文本中的词组序列,N是词 组序列中词组的总数,C是决定上下文窗口大小的常数;
[0104] 基本的Skip-garm模型用如下公式定义p(wt+j | wt):
[0105]
[0106] 其中,Vw和是wn的"输入"和"输出"向量表示,W是word2vec字典中的词语向量的 维数;
[0107] word2vec算法把每个词组映射为K维向量,将一条网络文章样本文本映射为N*K维 矩阵,其中N为词组序列中词组的总数,K为每个词组经 W〇rd2vec映射后的向量维数,然后, 对N*K维度矩阵的所有行求和取平均值得到一个K维向量,该K维向量为网络文章样本文本 的word2vec特征;
[0108] LDA算法的计算公式如下:
[0109]
[0110] 其中,D表示规范化的网络文章样本文本集合,Μ为网络文章样本文本的数量,D = {ffi,W2,.....,%},W= {wi,W2,.....,wn},N为一条网络文章样本文本的词组数量,β为TX v 矩阵,Τ为Dirichlet分布的维数,Τ为常数。Pi,j = p(wj = l | ζ1=1),θ~Dirichlet(a),α为Τ维 向量,Ζ为话题集合,Ζη~Multinomial (9);Wi为某一条网络文章样本文本,wi为一条网络文 章样本文本中某一个词组,将ρ(?|α,β)作为网络文章样本文本的LDA特征。
[0111] 对一条网络文章样本文本分别进行word2vec特征提取和LDA特征提取之后,将 word2vec特征和LDA特征进行融合,得到一条网络文章样本文本对应的多维词向量;
[0112] 所述word2vec特征和LDA特征的融合方法是对LDA特征进行归一化处理,使LDA特 征的尺度和word2vec特征一致,归一化方法如下:
[0113]
[0114]
[0115] 其中,尸为融合后的特征,为X维词向量,:Fw2v为word2VeC算法得到的特征,为X w2v 维,巧da为lda算法得到的特征,父1如维,:f e: ]RX,e RX'wv,,e ,Χ - Xw2v+Xlda, maxw2v为向量:Fw2v中元素绝对值最大的值,maxida为向量:F lda中元素绝对值最大的值。
[0116]进一步地,网络文章文本所属事件获取模块44,具体用于设所述事件的分类模型 中包括网络文章文本的属性和所属的事件,将待识别的网络文章文本的属性输入到所述事 件的分类模型,查询出待识别的网络文章文本所属的事件。
[0117]用本发明实施例的装置进行基于词向量分析的网络文章所属事件的检测的具体 过程与前述方法实施例类似,此处不再赘述。
[0118]综上所述,本发明实施例提供的基于词向量分析的网络文章所属事件的检测方法 具有如下的优点:
[0?19] 1、本发明提供的word2vec特征和LDA特征融合方法综合了 word2vec的深度特征和 LDA经典主题模型特征的优点,充分利用了网络文本样本的信息,提高了网络文本样本所属 事件分类的准确度。
[0120] 2、本发明所用的随机森林算法,有实现简单,训练速度快的特点,便于在实际环境 下应用。
[0121] 3、本系统的所有模块都是完全自动的,不需要人工干预,因此能够非常容易独立 运行或作为一个子模块嵌入到各类Web信息过滤系统中去。具有广泛的应用前景。
[0122] 本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或 流程并不一定是实施本发明所必须的。
[0123] 通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可 借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质 上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品 可以存储在存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备 (可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些 部分所述的方法。
[0124] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或 系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法 实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为 分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或 者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根 据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术 人员在不付出创造性劳动的情况下,即可以理解并实施。
[0125] 以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围 为准。
【主权项】
1. 一种基于词向量分析的网络文章所属事件的检测方法,其特征在于,包括: 利用具有事件标签的网络文章样本建立典型训练集; 对所述典型训练集中的每一条网络文章样本进行分词,去无用词预处理,得到规范化 的网络文章样本文本; 将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征,将提 取出的网络文章样本文本的word2vec特征和LDA特征进行融合,得到每一条网络文章样本 文对应的多维词向量; 将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机森林算法,该随 机森林算法输出事件的分类模型,利用所述事件的分类模型对待识别的网络文章文本进行 识别,判断出所述待识别的网络文章文本所属的事件。2. 根据权利要求1所述的基于词向量分析的网络文章所属事件的检测方法,其特征在 于,所述的利用具有事件标签的网络文章样本建立典型训练集,包括: 通过网络爬虫技术从网络中收集建立具有事件标签的网络文章样本,将所有的网络文 章样本组成训练集,使用设定数量的用户对每一条网络文章样本进行所属事件标注,如果 有超过设定比例的用户对一条网络文章样本所属事件的标注结果不一致,则将该网络文章 样本剔出训练集,最终得到优化后的典型训练集。3. 根据权利要求1所述的基于词向量分析的网络文章所属事件的检测方法,其特征在 于,所述的将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征, 包括: word2vec算法的化ip-gram模型的计算公式如下:其中,W1,W2,W3, . . .,WN是一条规范化的网络文章样本文本中的词组序列,N是词组序列 中词组的总数,C是决定上下文窗口大小的常数; 基本的化ip-garm模型用如下公式定义p(wt+j |wt):其中,vw和v\是wn的"输入"和"输出"向量表示,W是word2vec字典中的词语向量的维 数; word2vec算法把每个词组映射为K维向量,将一条网络文章样本文本映射为N*K维矩 阵,其中N为词组序列中词组的总数,K为每个词组经word2vec映射后的向量维数,然后,对 N*K维度矩阵的所有行求和取平均值得到一个K维向量,该K维向量为网络文章样本文本的 word2vec 特征; LDA算法的计算公式如下:其中,D表示规范化的网络文章样本文本集合,Μ为网络文章样本文本的数量,D={Wi, W2,……,Wm},W= {wi,W2,……,wn},N为一条网络文章样本文本的词组数量,峽jTXv矩阵, T为Dirichlet分布的维数,T为常数。Pi, j = p(wfj = 1 I χ? = 1),目~Di;richlet(a),α为T维向量, Ζ为话题集合,Ζη~Multinomial(Θ) ;Wi为某一条网络文章样本文本,W1为一条网络文章样本 文本中某一个词组,将Ρ(〇|α,β)作为网络文章样本文本的LDA特征。4. 根据权利要求3所述的基于词向量分析的网络文章所属事件的检测方法,其特征在 于,所述的将提取出的网络文章样本文本的word2vec特征和LDA特征进行融合,得到每一条 网络文章样本文对应的多维词向量,包括: 对一条网络文章样本文本分别进行word2vec特征提取和LDA特征提取之后,将 word2vec特征和LDA特征进行融合,得到一条网络文章样本文本对应的多维词向量; 所述word2vec特征和LDA特征的融合方法是对LDA特征进行归一化处理,使LDA特征的 尺度和word2vec特征一致,归一化方法如下:其中,繁为融合后的特征,为X维词向量,为word2vec算法得到的特征,为Xw2v维, 巧破为LDA算法得到的特征,Xlda维,:F E ?气芽.、€ 穿' €毅餐乐SX = Xw2v巧Ida, max、曲为向量:中元素绝对值最大的值,maxida为向量中元素绝对值最大的值。5. 根据权利要求4所述的基于词向量分析的网络文章所属事件的检测方法,其特征在 于,所述的利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识 别的网络文章文本所属的事件,包括: 所述事件的分类模型中包括网络文章文本的属性和所属的事件,将待识别的网络文章 文本的属性输入到所述事件的分类模型,查询出待识别的网络文章文本所属的事件。6. -种基于词向量分析的网络文章所属事件的检测装置,其特征在于,包括: 典型训练集建立模块,用于利用具有事件标签的网络文章样本建立典型训练集; 规范化的网络文章样本文本获取模块,用于对所述典型训练集中的每一条网络文章样 本进行分词,去无用词预处理,得到规范化的网络文章样本文本; 网络文章样本文对应的多维词向量获取模块,用于将每一条规范化的网络文章样本文 本分别用word2vec算法和LDA算法提取特征,将提取出的网络文章样本文本的word2vec特 征和LDA特征进行融合,得到每一条网络文章样本文对应的多维词向量; 网络文章文本所属事件获取模块,用于将每一条网络文章样本文本对应的多维词向量 和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型,利用所述事件的 分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事 件。7. 根据权利要求6所述的基于词向量分析的网络文章所属事件的检测装置,其特征在 于: 所述的典型训练集建立模块,具体用于通过网络爬虫技术从网络中收集建立具有事件 标签的网络文章样本,将所有的网络文章样本组成训练集,使用设定数量的用户对每一条 网络文章样本进行所属事件标注,如果有超过设定比例的用户对一条网络文章样本所属事 件的标注结果不一致,则将该网络文章样本剔出训练集,最终得到优化后的典型训练集。8. 根据权利要求7所述的基于词向量分析的网络文章所属事件的检测装置,其特征在 于: 所述的网络文章样本文对应的多维词向量获取模块,具体用于设word2vec算法的 Skip-gram模型的计算公式如下:其中,W1,W2,W3, . . .,WN是一条规范化的网络文章样本文本中的词组序列,N是词组序列 中词组的总数,C是决定上下文窗口大小的常数; 基本的化ip-garm模型用如下公式定义p(wt+j |wt):其中,Vw和ν\是Wn的"输入"和"输出"向量表示,W是word2vec字典中的词语向量的维 数; word2vec算法把每个词组映射为K维向量,将一条网络文章样本文本映射为N*K维矩 阵,其中N为词组序列中词组的总数,K为每个词组经word2vec映射后的向量维数,然后,对 N*K维度矩阵的所有行求和取平均值得到一个K维向量,该K维向量为网络文章样本文本的 word2vec 特征; LDA算法的计算公式如下:其中,D表示规范化的网络文章样本文本集合,Μ为网络文章样本文本的数量,D={Wi, 胖2,.....,Wm},W= {wi,W2,.....,wn},N为一条网络文章样本文本的词组数量,β为TXv矩阵, 1'为〇;[1'1油161:分布的维数,1'为常数。0^ j = p(W'^ = l I zi = l),0~Di;richlet(a),。为巧隹向量, Z为话题集合,Zn~Multinomial (0);Wi为某一条网络文章样本文本,wi为一条网络文章样本 文本中某一个词组,将Ρ(〇|α,β)作为网络文章样本文本的LDA特征。9. 根据权利要求8所述的基于词向量分析的网络文章所属事件的检测装置,其特征在 于: 所述的网络文章样本文对应的多维词向量获取模块,具体用于对一条网络文章样本文 本分别进行word2vec特征提取和LDA特征提取之后,将word2vec特征和LDA特征进行融合, 得到一条网络文章样本文本对应的多维词向量; 所述word2vec特征和LDA特征的融合方法是对LDA特征进行归一化处理,使LDA特征的 尺度和word2vec特征一致,归一化方法如下:其中,F为融合后的特征,为X维词向量,穿;为word2vec算法得到的特征,为Xw2v维, 巧如为LDA算法得到的特征,Xlda维,;F e齡,:F € ESs、巧y,:F狂駿'《;獻,X = Xw2v + Xlda, maxw2v为向量巧城。.中元素绝对值最大的值,maxida为向量:巧激$中元素绝对值最大的值。10.根据权利要求9所述的基于词向量分析的网络文章所属事件的检测装置,其特征在 于: 网络文章文本所属事件获取模块,具体用于设所述事件的分类模型中包括网络文章文 本的属性和所属的事件,将待识别的网络文章文本的属性输入到所述事件的分类模型,查 询出待识别的网络文章文本所属的事件。
【文档编号】G06F17/27GK105975478SQ201610218382
【公开日】2016年9月28日
【申请日】2016年4月9日
【发明人】郎丛妍, 于兆鹏, 何伟明, 王涛, 冯松鹤, 杜雪涛, 杜刚, 张晨
【申请人】北京交通大学, 中国移动通信集团设计院有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1