利用图像处理技术及语义向量空间的文本语义处理方法和系统的制作方法

文档序号:6549045阅读:257来源:国知局
利用图像处理技术及语义向量空间的文本语义处理方法和系统的制作方法
【专利摘要】本发明属于文本语义信息处理【技术领域】,具体涉及一种利用图像处理技术及语义向量空间的文本语义处理方法和系统。本发明包括文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示模块;语义信息处理具体包括:语义转折句提取、语义噪声句检测、语义范围跟踪和语义场景分割。本发明将文本单元映射为图像中的像素,并将描述文本单元的语义向量视为图像中的像素点灰度,从而能引入图像处理领域中的各种技术和方法来灵活、直观地处理文本,而且不易受到词语本身形式多样化的影响;同时,通过引入Word2Vec方法构建语义向量,保证了算法的轻量级,以应对实时应用的需求。
【专利说明】利用图像处理技术及语义向量空间的文本语义处理方法和系统
【技术领域】
[0001]本发明属于文本语义信息处理【技术领域】,具体涉及一种轻量级的利用图像处理技术及语义向量空间的文本语义处理方法和系统。
【背景技术】
[0002]随着计算机技术及网络的发展,如今已进入信息爆炸时代一各种海量的数据以电子文本的形式呈现出来,在这种情况下,能够快速、准确地从中抽取出用户所关心的信息这一需求日益迫切,文本信息处理技术正是在这种背景下应运而生的,而文本的语义处理则是重中之重,它使得我们从语言处理迈向了语言理解。文本语义处理技术在很多领域都很有应用价值,如文本语义分段、自动文本摘要抽取、电子阅读语义导航等。
[0003]然而,目前的文本语义处理技术仍有一些局限性,以文本语义分割技术为例,基本上上是从基于词频统计的角度出发,通过计算相邻文本块内重复出现词语的词频统计向量的相似度来实现语义分割,如经典的TextTiling算法、Dotplotting算法,但它们都没有考虑到词语蕴含的语义空间,不能应对词语变体或者是同义词、近义词的影响,因而鲁棒性不强;在此之后的一些算法如ESA (Explicit semantic analysis)算法虽然通过引入语义向量空间增强了鲁棒性,但由于其语义空间维度过高、计算代价巨大,无法满足实时应用的需求;还有如TopicTilling算法,虽然通过加入词与主题间的联系改进了分割性能,但其需要复杂的主题模型介入,等等。

【发明内容】

[0004]本发明针对文本语义信息处理技术背景的弱点提出了一种轻量级的利用图像处理技术及语义向量空间的文本语义处理方法和系统。
[0005]本发明将文本单元映射为图像中的像素,并将描述文本单元的语义向量视为图像中的像素点灰度,从而不仅得以引入图像处理领域中的各种技术和方法来对文本进行灵活、直观地处理,而且也不易受到词语本身形式多样化的影响;同时,通过引入Word2Vec方法构建语义向量,保证了算法的轻量级,能够满足实时应用需求。
[0006]本发明面向文本语义处理中的几个应用场景分别提出了针对性的技术。具体地:面向文本分割需求,使用图像边缘检测技术实现对语义转折句的提取;面向电子文本中的语义不相关语句(如广告植入语句),采用图像处理中的噪声检测方法进行提取;面向电子阅读中的语义导航需求,采用图像处理中的区域生长技术实现对用户感兴趣内容的语义范围跟踪;面向信息快速推送场合的语义切分需求,采用图像分割方法实现对不同语义场景的分割。
[0007]本发明提供的轻量级的利用图像处理技术及语义向量空间的文本语义处理方法,具体步骤分为:文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示;其中: 1.文本输入及预处理:是对于输入的文本,首先进行语句分割处理,从而得到有序的语句序列,然后对每一句都进行停用词去除操作,目的是去除助词等干扰、保留下真正有语义的词语;
2.语义向量构建:基于大数据资源进行训练,构建词与语义空间的映射,从而为语义的比较提供可靠依据;
3.语义信息处理:包括语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割四个分步骤,核心是利用图像处理技术并结合语义向量空间来对不同的场景需求进行处理以实现相应的功能;
4.语义处理结果展示:将处理结果进行输出展示,并提交给用户。
[0008]各步骤的具体内容如下:
(O文本输入及预处理,具体步骤如下:
文本输入及预处理包含两个分步骤:文本输入、文本预处理:
(1.1)文本输入,是将用户提交的待处理文本输入系统;
(1.2)文本预处理,具体步骤为:
(1.2.1)对于输入的文本,首先按照语句分割标志符号(如句号、感叹号等)进行语句分割处理,从而得到有序的语句序列;
(1.2.2)对序列中的每一句,进行停用词去除操作,目的是将真正有语义的词语保留下来,在减少无语义词语干扰、提高语义处理结果可靠性的同时,也减少了后续处理的计算量。
[0009](2)语义向量构建,具体步骤如下:
将文本单元视作图像像素,语义特征视作像素灰度,语义特征可采用多种方法进行计算,如 Word2Vec 方法、ESA (Explicit semantic analysis)特征、LSA (Latent semanticanalysis)特征、共现词频率特征等等,由于本发明的目的是面向能满足实时应用需求的轻量级的方法,因此,优选地,采用 Word2Vec 方法(https://code, google.com/p/word2vec/,同时参见文献[1,2,3])。
[0010]构建语义向量的训练数据可来源于各大知识库,优选地,采用维基百科知识库(http://www.wikipedia.0rg/)。
[0011](3)语义信息处理,分为如下4个分步骤:
语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割:
(3.1)语义转折句提取,具体步骤如下:
对预处理后得到的有序的语句序列,依次对每个语句进行如下操作:
以该句为中心进行加窗,窗口宽度W可根据实际情况而定,
W=ZXRfl
其中,R为窗口半径。优选地,取窗口半径为1,即窗口宽度为3,此时参考图像处理中SOBEL模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积:
[-1 O I]
具体地,语义梯度计算如下:
E(i) = mst(S{1-l),S(itl))其中,S(i)表示序列号为i的语句对应的语义向量,Dist (a, b)表示向量a和向量b之间的距离。
[0012]为方便起见,可以直接考察相似度:
【权利要求】
1.一种利用图像处理技术及语义向量空间的文本语义处理方法,其特征在于具体步骤分为:文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示4个步骤; 各步骤的具体内容如下: (O文本输入及预处理,具体步骤如下: 文本输入及预处理包含两个分步骤:文本输入、文本预处理: (1.1)文本输入,是将用户提交的待处理文本输入系统; (1.2)文本预处理,具体步骤为: (1.2.1)对于输入的文本,首先按照语句分割标志符号进行语句分割处理,得到有序的语句序列; (1.2.2)对序列中的每一句,进行停用词去除操作,将真正有语义的词语保留下来,在减少无语义词语干扰、提高语义处理结果可靠性的同时,也减少了后续处理的计算量; (2)语义向量构建,具体步骤如下: 将文本单元视作图像像素,语义特征视作像素灰度,语义特征采用多种方法进行计算,构建语义向量的训练数据来源于各大知识库; (3)语义信息处理,分为如下4个分步骤: 语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割: (3.1)语义转折句提取,具体步骤如下: 对预处理后得到的有序的语句序列,依次对每个语句进行如下操作: 以该句为中心进行加窗,窗口宽度W根据实际情况而定:W=2XR++i 其中,R为窗口半径,此时参考图像处理中SOBEL模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积:卜I O I] 语义梯度计算如下:E(i) = Disl(S(1-l),S(itl)) 其中,S⑴表示序列号为i的语句对应的语义向量,Dist (a, b)表示向量a和向量b之间的距离; 直接考察相似度:S1 = 1- E(I) = Sim(S{1- l)?S(i + I)) 这里,Sim (a, b)表示向量a和向量b的相似度; 同时,为去除结果的冗余性,当相邻两句都符合语义转折句条件时,说明它们是前一语义段的末尾和后一语义段的开头,此时只保留相似度较低的那一句;另外,为保证结果的稳定性,当邻域语句中至少有一句在去除停用词后剩余词语数目小于一定数值时的结果不予考虑; (3.2)语义噪声句检测 采用图像处理中的噪声检测方法,实现对语义无关句的自动检测; 参考图像处理中LAPLACIAN模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积:![—I 2 -1] 语义梯度计算如下:
2.基于权利要求1所述方法的利用图像处理技术及语义向量空间的文本语义处理系统,其特征在于由四大模块组成:文本输入及预处理模块、语义向量构建模块、语义信息处理模块、语义处理结果展示模块,分别对应于权利要求1中文本语义处理方法的4个步骤,其中: (I)文本输入及预处理模块,包含两个子模块:文本输入子模块、文本预处理子模块,对应于权利要求1中文本输入及预处理步骤中的2个分步骤; (1.1)文本输入子模块,该子模块将用户提交的待处理文本输入系统; (1.2)文本预处理子模块,该子模块依次进行如下工作: (1.2.1)对于输入的文本,首先按照语句分割标志符号进行语句分割处理,得到有序的语句序列; (1.2.2)对序列中的每一句,进行停用词去除操作,将真正有语义的词语保留下来; (2)语义向量构建模块,具体内容如下: 将文本单元视作图像像素,语义特征视作像素灰度,语义特征可采用多种方法进行计算得到; 构建语义向量的训练数据来源于各大知识库; (3)语义信息处理模块,具体内容如下: 该模块包括语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割四个子模块,分别对应于权利要求1中语义信息处理步骤中的4个分步骤: (3.1)语义转折句提取子模块,具体内容如下: 对预处理后得到的有序的语句序列,依次对每个语句进行如下操作: 以该句为中心进行加窗,窗口宽度W可根据实际情况而定,
【文档编号】G06F17/30GK104035992SQ201410253847
【公开日】2014年9月10日 申请日期:2014年6月10日 优先权日:2014年6月10日
【发明者】王晓平, 肖仰华, 汪卫 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1