中文网络话题评论文本语义倾向分析的方法及装置的制造方法

文档序号:8905212阅读:471来源:国知局
中文网络话题评论文本语义倾向分析的方法及装置的制造方法
【技术领域】
[0001] 本发明实施例设及自然语言处理技术,尤其设及一种中文网络话题评论文本语义 倾向分析的方法及装置。
【背景技术】
[0002] 随着网络的飞速发展,网上的各种各样的文章和言论信息量越来越大,使文本倾 向性分析逐渐成为了近几年热口的研究课题。目前,在该个领域中主要有几个主要的研究 方向,其中观点提取和词汇倾向性分类为倾向分析核屯、技术,文本倾向性分类和主客观分 类也是倾向分析研究方向重要分支。而关于情感倾向分析中的研究思路主要为采用机器学 习的方法、基于语义的方法和结合语义和机器学习的方法。
[0003] 文本的情感倾向分析方法中,基于机器学习的方法需要大量的人工标注语料、建 立训练样本集和训练分类模型的工作,工作繁重而复杂,而取得的分类效果在部分领域与 语义分析的效果差距不大,对于网络文本的准确率和召回率各为86%和85. 2%。基于语义 的分析方法比较单一,大都基于比较固定的语法模式。其中语义的分析方法中处理最基本 的单位是情感词,随着网络文本的多样化,情感词提取并不能达到很高的准确率,对于网络 文本的准确率和召回率各为84. 2%和84. 1%。
[0004] 因此,现有技术中,文本语义倾向分析的方法或多或少都存在准确率和召回率低 的问题。

【发明内容】

[0005] 有鉴于此,本发明实施例提供一种中文网络话题评论文本语义倾向分析的方法及 装置,W提高网络话题评论文本的语义倾向分析的准确率和召回率。
[0006] 第一方面,本发明实施例提供了一种中文网络话题评论文本语义倾向分析的方 法,所述方法包括:
[0007] 对中文网络话题评论文本进行分词和分句,获得结果序列;
[0008] 对所述结果序列进行句法分析和语法分析,获得评价对象;
[0009] 对所述结果序列进行句式分析,确定所述评论文本中的单句和复句,并判断组成 复句的各个单句之间的关系,根据所述评论文本中的单句和组成复句的各个单句之间的关 系确定句式分析的第一情感倾向值;
[0010] 针对所述结果序列中的每个句子,根据所述评价对象和预设的短语搭配模式提取 每个句子中的情感短语,并根据所述短语搭配模式的权重计算所述情感短语的第二情感倾 向值;
[0011] 根据所述第一情感倾向值及第二情感倾向值,计算所述评论文本中的每个句子相 对于评价对象的第=情感倾向值;
[0012] 根据第=情感倾向值确定所述评论文本的文本情感倾向值。
[0013] 进一步地,还包括:
[0014] 基于预设篇数的网络话题,进行短语搭配模式的出现次数统计,W获取所述短语 搭配模式及其权重。
[0015] 进一步地,对所述结果序列进行句法分析和语法分析,获得评价对象,包括:
[0016] 利用LTP对所述评论文本中的句子进行句法分析,得到依存句法分析树,其中,所 述依存句法分析树包括SBV、V0B和/或ATT;
[0017] 查找句子中的SBV关系对,在所述SBV关系对中,当谓语为形容词时,主语为评价 对象;当谓语为动词时,查找句子中含有所述动词的V0B关系对,在所述V0B关系对中,当宾 语为名词或者名词短语时,宾语为评价对象;
[0018] 当句子中没有SBV关系对时,查找V0B关系对,在所述V0B关系对中,当谓语情感 倾向值不为0且宾语为名词时,宾语为评价对象;
[0019] 当句子中没有SBV关系对和V0B关系对时,查找ATT关系对,当所述ATT关系对修 饰的词语为名词,且定语的情感倾向值不为0时,所述定语修饰的词语为评价对象;
[0020] 当句子中没有SBV关系对、V0B关系对和ATT关系对时,利用语法分析提取出名词 或者名词短语,在该名词或者名词短语所在的句子中如果存在具有情感倾向的词语,则该 名词或者名词短语为评价对象。
[0021] 进一步地,根据所述第一情感倾向值及第二情感倾向值,计算所述评论文本中的 每个句子相对于评价对象的第=情感倾向值,具体包括:
[0022] 在一个句子中,该句子中所有情感短语的第二情感倾向值相加后的结果与第一情 感倾向值相乘,所得结果为该句子相对于评价对象的第=情感倾向值。
[0023] 进一步地,根据第立情感倾向值确定所述评论文本的文本情感倾向值,具体包 括:
[0024] 所述评论文本中的所有句子相对于评价对象的第=情感倾向值累加得到所述评 论文本的文本情感倾向值。
[0025] 第二方面,本发明实施例还提供了一种中文网络话题评论文本语义倾向分析的装 置,所述装置包括:
[0026] 分词分句模块,用于对中文网络话题评论文本进行分词和分句,获得结果序列;
[0027] 评价对象提取模块,用于对所述结果序列进行句法分析和语法分析,获得评价对 象;
[0028] 句式分析模块,用于对所述结果序列进行句式分析,确定所述评论文本中的单句 和复句,并判断组成复句的各个单句之间的关系,根据所述评论文本中的单句和组成复句 的各个单句之间的关系确定句式分析的第一情感倾向值;
[0029] 情感短语提取模块,用于针对所述结果序列中的每个句子,根据所述评价对象和 预设的短语搭配模式提取每个句子中的情感短语,并根据所述短语搭配模式的权重计算所 述情感短语的第二情感倾向值;
[0030]句子情感倾向计算模块,用于根据所述第一情感倾向值及第二情感倾向值,计算 所述评论文本中的每个句子相对于评价对象的第=情感倾向值;
[0031] 文本情感倾向计算模块,用于根据第=情感倾向值确定所述评论文本的文本情感 倾向值。
[0032] 进一步地,还包括:
[0033] 短语搭配模式获取模块,用于基于预设篇数的网络话题,进行短语搭配模式的出 现次数统计,W获取所述短语搭配模式及其权重。
[0034] 进一步地,所述评价对象提取模块包括:
[00巧]句法分析单元,用于利用LTP对所述评论文本中的句子进行句法分析,得到依存 句法分析树,其中,所述依存句法分析树包括SBV、V0B和/或ATT;
[0036] 第一查找单元,用于查找句子中的SBV关系对,在所述SBV关系对中,当谓语为形 容词时,主语为评价对象;当谓语为动词时,查找句子中含有所述动词的V0B关系对,在所 述V0B关系对中,当宾语为名词或者名词短语时,宾语为评价对象;
[0037] 第二查找单元,用于当句子中没有SBV关系对时,查找V0B关系对,在所述V0B关 系对中,当谓语情感倾向值不为0且宾语为名词时,宾语为评价对象;
[003引第S查找单元,用于当句子中没有SBV关系对和V0B关系对时,查找ATT关系对, 当所述ATT关系对修饰的词语为名词,且定语的情感倾向值不为0时,所述定语修饰的词语 为评价对象;
[0039] 语法分析单元,用于当句子中没有SBV关系对、V0B关系对和ATT关系对时,利用 语法分析提取出名词或者名词短语,在该名词或者名词短语所在的句子中如果存在具有情 感倾向的词语,则该名词或者名词短语为评价对象。
[0040] 进一步地,所述句子情感倾向计算模块具体用于:
[0041] 在一个句子中,该句子中所有情感短语的第二情感倾向值相加后的结果与第一情 感倾向值相乘,所得结果为该句子相对于评价对象的第=情感倾向值。
[0042] 进一步地,所述文本情感倾向计算模块具体用于:
[0043] 所述评论文本中的所有句子相对于评价对象的第=情感倾向值累加得到所述评 论文本的文本情感倾向值。
[0044] 本发明实施例提供的中文网络话题评论文本语义倾向分析的方法及装置,通过对 中文网络话题评论文本分词和分句后得到结果序列,对所述结果序列进行句法分析和语法 分析得到评价对象,对所述结果序列进行句式分析确定句式分析的第一情感倾向值,提取 每个句子中的情感短语,并确定所述情
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1