一种句向量的融合方法和装置的制造方法

文档序号:9667303阅读:820来源:国知局
一种句向量的融合方法和装置的制造方法
【技术领域】
[0001] 本发明涉及网络安全技术领域,尤其涉及一种句向量的融合方法和装置。
【背景技术】
[0002] 随着互联网及移动网络的迅速发展,借由网络传播消息的快捷性,越来越多的用 户选择通过互联网平台与他人交流,共享信息,如可以通过网站或终端应用软件等方式。伴 随而来也会产生许多不符合互联网安全使用环境,甚至是违反国家法律法规的内容,如政 治敏感、淫秽色情的内容等等,导致相关的网站存在安全运营风险;某些商贩为了提升自身 店铺/商品的曝光度,会在各互联网环境下,疯狂宣传自家产品,使得网站或应用软件的用 户体验极差,甚至出现利用广告信息进行诈骗等不良现象,给互联网安全管理工作带来了 非常大的压力。因此,为了保证网络环境的安全以及用户的良好体验,有必要采用技术手段 对目标信息(典型的,广告类信息)进行识别。
[0003] 文本作为信息传播的主要数据类型之一,对文本数据中的目标信息进行识别显得 尤为重要,文本中目标信息的识别通常采用由词向量融合生成的句向量,作为文本特征,进 行识别。
[0004] 现有的句向量融合方法通常采用对文本词向量直接进行加权累加来实现,会破坏 多个词向量的语义,其仅适用于较短的文本处理,当待处理的文本较长时,该方法会随着词 向量数据的增加,生成的词向量分类辨析能力下降,对句向量对文本特征的表述能力产生 较大影响。

【发明内容】

[0005] 有鉴于此,本发明实施例提供一种句向量的融合方法和装置,以解决现有的句向 量融合技术会破坏多个词向量的语义,影响对文本特征的表述能力的问题。
[0006] 第一方面,本发明实施例提供了一种句向量的融合方法,包括:
[0007] 提取待处理文本中包括的文本词向量;
[0008] 在设定语料库中对所述文本词向量进行查找,生成第二词向量;
[0009] 根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向 量对应的文本句向量。
[0010] 第二方面,本发明实施例提供了一种句向量的融合装置,包括:
[0011] 文本词向量提取模块,用于提取待处理文本中包括的文本词向量;
[0012] 第二词向量生成模块,用于在设定语料库中对所述文本词向量进行查找,生成第 二词向量;
[0013] 文本句向量生成模块,用于根据所述文本词向量与所述第二词向量之间的空间相 似度,确定与所述文本词向量对应的文本句向量。
[0014] 本发明实施例所提供的技术方案,通过根据文本词向量与第二词向量之间的空间 相似度,将文本中多组词向量融合为句向量,可以有效避免破坏单独词向量的内在语义信 息,实现了根据文本具体的应用场景,结合上下句的语义进行句向量融合的技术效果,提升 了句向量对待处理文本的表述能力。
【附图说明】
[0015] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它 特征、目的和优点将会变得更明显:
[0016]图1是本发明实施例一提供的一种句向量的融合方法的流程图;
[0017] 图2是本发明实施例二提供的一种句向量的融合装置的结构示意图。
【具体实施方式】
[0018] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本发明相关的部分而非全部内容。
[0019] 实施例一
[0020] 图1为本发明实施例一提供的一种句向量的融合方法的流程图。本实施例的方法 具体可用于终端或服务器内对待处理文本进行句向量的融合,提取文本句向量的情况,还 适用于对文本中目标信息的识别。本实施例的方法可以由句向量的融合装置来执行,该装 置可独立的配置在终端或者服务器中,也可分布式配置在终端和服务器中,两者配合实现 本实施例的方法。
[0021] 本实施例的方法包括:
[0022] S110、提取待处理文本中包括的文本词向量;
[0023] -般来说,对文本特征最简单直接的表示就是单个的词,但由于文本数据中包含 很多的词,而且有些词的出现频率很高,却与文本所传达信息并不相关,或者说是噪音数 据,因此,提取文本词向量的目的是找出有用的词特征集,剔除无用的特征集,从而提高分 类效率和分类精度。
[0024] 其中,由于获取的文本数据量较大,而用于表示文本的特征理论上应该数量上尽 量少,出现频率适中,冗余少,噪音少,且与其所属类别语义相关,含义尽量明确,因此,为了 降低计算量,在提取文本中包括的文本词向量之前,优选是对待处理文本进行预处理,为文 本词向量的提取做好准备。其中,预处理的方法可以包括文本排重,中文分词,去停用词等。
[0025] 在本实施例中,可以采取各种方式提取待处理文本中包括的文本词向量,优选的, 可以基于将单词转换成向量形式的word2VeC工具,提取所述文本的词向量,通过上述工具 进行词向量提取后,每条文本,分词后会有多个关键词,每个关键词会有一个词向量。
[0026]S120、在设定语料库中对所述文本词向量进行查找,生成第二词向量;
[0027] 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书 面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有 适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言 事实,分析和研究语言系统的规律。
[0028] 语料库根据采集的原则和方式的不同,可以分为:异质的(Heterogeneous):没有 特定的语料收集原则,广泛收集并原样存储各种语料;同质的(Homogeneous):只收集同一 类内容的语料;系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有 平衡性和系统性,能够代表某一范围内的语言事实;专用的(Specialized):只收集用于某 一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、 双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为 语篇的、语句的、短语的等。
[0029] 在本实施例中,可以根据提取的文本词向量的类型选择相应的语料库作为设定语 料库,在设定语料库的总的词向量中对所述文本词向量进行查找,生成第二词向量。
[0030]S130、根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文 本词向量对应的文本句向量。
[0031] 向量空间上的相似度可以用来表示文本语义上的相似度。在本实施例的一个优选 实施方式中,根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本 词向量对应的文本句向量优选是包括:
[0032] 通过计算所述文本词向量中各个向量元素与所述第二词向量中各个向量元素之 间的余弦距离,确定与所述文本词向量对应的文本句向量。
[0033] 余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量 两个个体间差异的大小的度量;向量,是多维空间中有方向的线段,如果两个向量的方向一 致,即夹角接近零,那么这两个向量就相近。当两个词向量的夹角余弦等于1时,表示这两 个词向量完全重复;当两个词向量的夹角的余弦值接近于1时,表示这两个词向量相似;两 个词向量的夹角的余弦越小,表示两个词向量的相似度越低。
[0034] 采用计算余弦距离确定文本词向量与第二词向量之间的空间相似度,进而生成文 本句向量,可以有效避免破坏单独词向量的内在语义信息,根据文本具体的应用场景,结合 上下句的语义进行句向量融合,提升句向量对待处理文本的表述能力;上述技术方案,除了 适用于短文本处理,尤其适用于对长文本进行处理,相对于现有技术,本实施例所提供的技 术方案,具有更好的文本分类辨析力,可以更好的表述文本特征。
[0035] 例如,假设某一语料库提取所述第一文本信息中包括的词向量后,产生N个词向 量D=他,D2,. . .,DJ,且每一个词向量为Μ维,即Di={VVi2,. . .,ViM},1 彡i彡N; - 条文本经过分词并搜寻词向量D后,有η个词在语料库中被找到,其词向量分别为d= {山,d2, · · ·,dj,且每个词向量为Μ维,SPdj={d.n,dj2, · · ·,djM},1彡j彡n,同时每个词出 现频率与逆向文件频率,分别为tf= {tA,tf2,. . .,tfn},idf= {idf^,idf2,. ..,idfj;其 中,逆向文件频率idf主要用于分析词的类别区分能力,如果包含设定词的文本越少,idf 越大,则说明该设定词具有很好的类别区分能力,反之,就说明该设定词的类别区分能力相 对较差。
[0036] 通过对词向量每个维度进行加权求和生成Μ维的句向量为S= {SdS2, . . .,SM},取 句向量中某一维Sk,1 <k<M,其表述公式为:
[0037]
[0038]由于每个词向量是单独的个体,具体数值具有语义信息,上述公式的缺陷在于,其 会直接破坏多个词向量的语义,不能根据待识别文本数据的具体应用场景,结合上下句语 义进行句向量融合,使得最终对文本特征的表述能力产生较大影响,为了解决该问题,在本 优选实施方式中,通过所述文本词向量中各个向量元素与所述第二词向量中各个向量元素 之间的余弦距离,确定与所述文本词向量对应的文本句向量具体包括:
[0039] 根据公式:
[0040]
[0041] 计算第一句向量;其中:
[0
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1