基于多领的中文域短文本理解方法及系统与流程

文档序号:12464873阅读:184来源:国知局

本发明涉及大数据文本处理技术领域,特别涉及一种基于多领的中文域短文本理解方法及系统。



背景技术:

短文本分类如此重要,那么究竟什么是短文本呢?目前,对于短文本还没有统一规范的定义,本文参考已有的研究文献将短文本定义为长度不超过200字的文本形式的信息。短文本的几种常见形式有手机短信息、社交网络短信息、信息检索简介信息、BBS/论坛短信息等。一般来说,短文本包括的特点有:

①稀疏性。每条短文本形式信息的长度都比较短,都在200字以内,通常只有几句话,有的甚至只有几个词语如微博信息、手机短信息等,因此所包含的有效信息也就非常少,造成样本的特征非常稀疏,并且特征集的维数非常高,很难从中抽取到准确而关键的样本特征用于分类学习。

②实时性。在互联网上出现的短文本形式的信息,大部分都是实时更新的,刷新速度非常快,像聊天信息、微博信息、评论信息等,都在以秒计时的速度不断更新,难以采集,并且这部分动态文本数量非常庞大,这就要求对短文本信息分类必须具有更高的效率。

③不规则性。短文本形式的信息用语不规范,包含流行词汇较多,造成了噪声特征非常多,如“94”代表“就是”,“88”代表“再见”,“童鞋”代表“同学”,“河蟹”代表“和谐”等。流行语在短文本中更是频繁出现,而且更新很快,如2011年的流行词“伤不起”、“有没有”、“坑爹”,2012年的流行词“屌丝”、“江南Style”、“元芳,你怎么看”等等。

短文本理解与长文本不同,短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断。此外,由于短文本通常不遵循语法,自然语言处理技术难以直接用于短文本分析。



技术实现要素:

有鉴于此,本发明提出一种能够有效解决由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断问题的基于多领的中文域短文本理解方法及系统。

一种基于多领的中文域短文本理解方法,其包括如下步骤:

S1、建立中文域短文本理解的模型;

S2、获取短文本输入集;

S3、通过中文域短文本理解的模型对短文本集进行分析,从而获得短文本理解结果。

在本发明所述的基于多领的中文域短文本理解方法中,所述步骤S1包括:

建立短文本训练集;对训练集中的每篇短文本分词,然后进行词性过滤、停用词过滤预处理,从而构建出短文本词典,词典包含有训练集中出现的词的信息,所述信息包括词语出现的总次数,所有包含该词的文档名及出现的次数,并对其中某一个类中的词计算其卡方值,按卡方值降序排列,取前预设个数个词作为短文本训练集的特征词;

选出特征之后,对短文本训练集中的每一篇文档进行向量化,文档转换的格式为:类别ID特征序号:特征值;

从一组连续多变量概率分布中取样生成短文本的主题分布;从主题的多项式分布中取样生成短文本中各个特征词的主题;从连续多变量概率分布中取样生成主题的词语分布;从词语的连续多变量概率分布中采样最终生成词语;选择概率最大的词作为扩展特征词,其概率值即为扩展特征值。

在本发明所述的基于多领的中文域短文本理解方法中,所述步骤S1中还包括区分短文本词汇之间的相似度时,通过增强那些最凸显的向量特征,以改善特征向量的权重,具体跳跃模型函数如下:

其中V代表词汇;语境窗口中目标词w与语境c共现;目标词w出现的次数与出现的语境被定义为#(w,c),其中k表示否定样本词汇的数量,#(w)表示目标词w出现的次数;sim()为两个不同词汇的两个嵌入向量之间的相似度余弦值;A()表示反义词汇;S()表示同义词汇。

在本发明所述的基于多领的中文域短文本理解方法中,所述步骤S1还包括:处理否定词与情感词间的修饰关系,具体包括:

利用依存句法分析处理否定词修饰情感词,修饰关系用于反映在依存句法中表现为依存关系类型是不定修饰以及被支配词为否定词;筛选出依存关系类型为不定修饰且满足支配词与被支配词分别为情感词和否定词的依存关系对,然后直接反转情感极性。

本发明还提供一种基于多领的中文域短文本理解系统,其包括如下单元:

模型建立单元,用于建立中文域短文本理解的模型;

短文本输入单元,用于获取短文本输入集;

分析理解单元,用于通过中文域短文本理解的模型对短文本集进行分析,从而获得短文本理解结果。

在本发明所述的基于多领的中文域短文本理解系统中,所述模型建立单元包括:

建立短文本训练集;对训练集中的每篇短文本分词,然后进行词性过滤、停用词过滤预处理,从而构建出短文本词典,词典包含有训练集中出现的词的信息,所述信息包括词语出现的总次数,所有包含该词的文档名及出现的次数,并对其中某一个类中的词计算其卡方值,按卡方值降序排列,取前预设个数个词作为短文本训练集的特征词;

选出特征之后,对短文本训练集中的每一篇文档进行向量化,文档转换的格式为:类别ID特征序号:特征值;

从一组连续多变量概率分布中取样生成短文本的主题分布;从主题的多项式分布中取样生成短文本中各个特征词的主题;从连续多变量概率分布中取样生成主题的词语分布;从词语的连续多变量概率分布中采样最终生成词语;选择概率最大的词作为扩展特征词,其概率值即为扩展特征值。

在本发明所述的基于多领的中文域短文本理解系统中,所述模型建立单元中还包括区分短文本词汇之间的相似度时,通过增强那些最凸显的向量特征,以改善特征向量的权重,具体跳跃模型函数如下:

其中V代表词汇;语境窗口中目标词w与语境c共现;目标词w出现的次数与出现的语境被定义为#(w,c),其中k表示否定样本词汇的数量,#(w)表示目标词w出现的次数;sim()为两个不同词汇的两个嵌入向量之间的相似度余弦值;A()表示反义词汇;S()表示同义词汇。

在本发明所述的基于多领的中文域短文本理解系统中,所述模型建立单元还包括:处理否定词与情感词间的修饰关系,具体包括:

利用依存句法分析处理否定词修饰情感词,修饰关系用于反映在依存句法中表现为依存关系类型是不定修饰以及被支配词为否定词;筛选出依存关系类型为不定修饰且满足支配词与被支配词分别为情感词和否定词的依存关系对,然后直接反转情感极性。

实施本发明提供的基于多领的中文域短文本理解方法及系统与现有技术相比具有以下有益效果:能够有效解决短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断的问题,是的短文本理解更为准确。

附图说明

图1是本发明实施例的基于多领的中文域短文本理解方法流程图。

具体实施方式

如图1所示,一种基于多领的中文域短文本理解方法,其包括如下步骤:

S1、建立中文域短文本理解的模型;

S2、获取短文本输入集;

S3、通过中文域短文本理解的模型对短文本集进行分析,从而获得短文本理解结果。

在本发明所述的基于多领的中文域短文本理解方法中,所述步骤S1包括:

建立短文本训练集;对训练集中的每篇短文本分词,然后进行词性过滤、停用词过滤预处理,从而构建出短文本词典,词典包含有训练集中出现的词的信息,所述信息包括词语出现的总次数,所有包含该词的文档名及出现的次数,并对其中某一个类中的词计算其卡方值,按卡方值降序排列,取前预设个数个词作为短文本训练集的特征词;

选出特征之后,对短文本训练集中的每一篇文档进行向量化,文档转换的格式为:类别ID特征序号:特征值;

从一组连续多变量概率分布中取样生成短文本的主题分布;从主题的多项式分布中取样生成短文本中各个特征词的主题;从连续多变量概率分布中取样生成主题的词语分布;从词语的连续多变量概率分布中采样最终生成词语;选择概率最大的词作为扩展特征词,其概率值即为扩展特征值。

在本发明所述的基于多领的中文域短文本理解方法中,所述步骤S1中还包括区分短文本词汇之间的相似度时,通过增强那些最凸显的向量特征,以改善特征向量的权重,具体跳跃模型函数如下:

其中V代表词汇;语境窗口中目标词w与语境c共现;目标词w出现的次数与出现的语境被定义为#(w,c),其中k表示否定样本词汇的数量,#(w)表示目标词w出现的次数;sim()为两个不同词汇的两个嵌入向量之间的相似度余弦值;A()表示反义词汇;S()表示同义词汇。

在本发明所述的基于多领的中文域短文本理解方法中,所述步骤S1还包括:处理否定词与情感词间的修饰关系,具体包括:

利用依存句法分析处理否定词修饰情感词,修饰关系用于反映在依存句法中表现为依存关系类型是不定修饰以及被支配词为否定词;筛选出依存关系类型为不定修饰且满足支配词与被支配词分别为情感词和否定词的依存关系对,然后直接反转情感极性。

实施本发明实施例,尤其是运用大量训练数据的时候,在运行时间内这种整合方法能够更为高效地训练词汇向量。

本发明还提供一种基于多领的中文域短文本理解系统,其包括如下单元:

模型建立单元,用于建立中文域短文本理解的模型;

短文本输入单元,用于获取短文本输入集;

分析理解单元,用于通过中文域短文本理解的模型对短文本集进行分析,从而获得短文本理解结果。

在本发明所述的基于多领的中文域短文本理解系统中,所述模型建立单元包括:

建立短文本训练集;对训练集中的每篇短文本分词,然后进行词性过滤、停用词过滤预处理,从而构建出短文本词典,词典包含有训练集中出现的词的信息,所述信息包括词语出现的总次数,所有包含该词的文档名及出现的次数,并对其中某一个类中的词计算其卡方值,按卡方值降序排列,取前预设个数个词作为短文本训练集的特征词;

选出特征之后,对短文本训练集中的每一篇文档进行向量化,文档转换的格式为:类别ID特征序号:特征值;

从一组连续多变量概率分布中取样生成短文本的主题分布;从主题的多项式分布中取样生成短文本中各个特征词的主题;从连续多变量概率分布中取样生成主题的词语分布;从词语的连续多变量概率分布中采样最终生成词语;选择概率最大的词作为扩展特征词,其概率值即为扩展特征值。

在本发明所述的基于多领的中文域短文本理解系统中,所述模型建立单元中还包括区分短文本词汇之间的相似度时,通过增强那些最凸显的向量特征,以改善特征向量的权重,具体跳跃模型函数如下:

其中V代表词汇;语境窗口中目标词w与语境c共现;目标词w出现的次数与出现的语境被定义为#(w,c),其中k表示否定样本词汇的数量,#(w)表示目标词w出现的次数;sim()为两个不同词汇的两个嵌入向量之间的相似度余弦值;A()表示反义词汇;S()表示同义词汇。

在本发明所述的基于多领的中文域短文本理解系统中,所述模型建立单元还包括:处理否定词与情感词间的修饰关系,具体包括:

利用依存句法分析处理否定词修饰情感词,修饰关系用于反映在依存句法中表现为依存关系类型是不定修饰以及被支配词为否定词;筛选出依存关系类型为不定修饰且满足支配词与被支配词分别为情感词和否定词的依存关系对,然后直接反转情感极性。

实施本发明提供的基于多领的中文域短文本理解方法及系统与现有技术相比具有以下有益效果:能够有效解决短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断的问题,是的短文本理解更为准确。

可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1