网络文本的情感信息检测方法和装置的制造方法

文档序号:9818303阅读:636来源:国知局
网络文本的情感信息检测方法和装置的制造方法
【技术领域】
[0001 ]本发明属于互联网数据分析技术领域,具体地说,涉及一种网络文本的情感信息 检测方法和装置。
【背景技术】
[0002] 随着网络与Web2.0的不断发展,社交媒体已经成为了人们日常生活中不可或缺的 获得信息和发布信息的重要渠道。移动设备的不断推新,人们可以通过移动设备关注周围 发生的事情,并且可以迅速上传到社交媒体中;在社交媒体上,用户可以记录自己的生活, 也可以对当下热点发表自己的看法,表达自己的意见,而这一类社交媒体往往含有发布者 的情感。如果没有合理进行监测,可能会出现非法信息,错误引导公众的判断,导致舆论走 向错误的方向。
[0003] 例如,网民对产品、服务、重大事件的评价和对热点事件的评论,这些评论表达了 用户在某领域的主观倾向性观点,这些带有情感倾向性的文本在新闻、电子商务、政务等方 面具有巨大的挖掘潜力。因此,通过对用户在网络上发布的文本信息进行情感分析,从而推 断出用户的情感,以实现从社交媒体上挖掘社会群体对于某些热点事件的情感状况。
[0004] 现有技术对网络上的情感分析主要依赖于关键词,如"愤怒"、"高兴"等词,也包括 了一些重大事件的感情词、关键词等,但这些词在一定程度上并没有反映到整个文章、网 站、通信信息的感情,因此,现有技术对网络文本信息的情感分析的准确性较差。

【发明内容】

[0005] 有鉴于此,本申请提供了一种网络文本的情感信息检测方法和装置,以解决现有 技术对网络文本信息的情感分析的准确性较差的技术问题。
[0006] 为了解决上述技术问题,本申请公开了一种网络文本的情感信息检测方法,包括:
[0007] 对获取的网络文本进行分词处理得到多个词;
[0008] 获取所述多个词的特征向量,得到所述网络文本的特征向量;
[0009] 利用调优参数对所述网络文本的特征向量进行情感分类处理,得到所述网络文本 的情感信息。
[0010] 可选地,所述对获取的网络文本进行分词处理得到多个词之前,包括:
[0011] 对所述获取的网络文本进行情感极性的确定;
[0012] 若确定所述获取的网络文本的情感极性为正面极性或负面极性,则对所述网络文 本进行无用信息去除处理。
[0013] 可选地,所述对获取的网络文本进行分词处理得到多个词之后,包括:
[0014] 获取所述多个词中每个词的特征值。
[0015] 可选地,获取所述多个词的特征向量,得到所述网络文本的特征向量,包括:
[0016] 根据所述多个词中每个词的特征值,构建所述多个词的特征向量,得到所述网络 文本的特征向量。
[0017] 可选地,获取所述多个词的特征向量,得到所述网络文本的特征向量,包括:
[0018] 所述网络文本的特征向量表达式为:
[0020]其中,i表示网络文本中第i个词,表示网络文本中第i个词条,CU表示第i个词条 在特征向量中第一维度的值,ti · cb表示第i个词条^第一维度的值。
[0021 ] 可选地,获取所述多个词的特征向量,得到所述网络文本的特征向量,包括:
[0022]所述网络文本的特征向量表达式为:
[0024]其中,i表示网络文本中第i个词,^表示网络文本中第i个词条,cU表示第i个词条 在特征向量中第一维度的值,ti · cU表示第i个词条ti第一维度的值,ti · IDF表示第i个词 条ti的特征值,作为特征向量的权重。
[0025] 可选地,所述调优参数是根据召回率、准确率和/或分类整体性能值,在对大量的 网络文本进行情感分类处理基础上得到的调优参数,用于表示根据所述调优参数生成的情 感分类器的准确率为最优。
[0026] 可选地,所述情感分类器包括情感句识别分类器和情感极性分类器;
[0027]当所述调优参数中的C参数为8、gamma参数为0.03125时,根据所述调优参数生成 的情感句识别分类器的准确率为88.6163% ;
[0028] 当所述调优参数中的c参数为2、gamma参数为0.125时,根据所述调优参数生成的 情感极性分类器的准确率为92.2894%。
[0029] 本发明还提供一种网络文本的情感信息检测装置,包括:
[0030] 分词模块,用于对获取的网络文本进行分词处理得到多个词;
[0031] 获取特征向量模块,用于获取所述多个词的特征向量,得到所述网络文本的特征 向量;
[0032] 情感分类模块,用于利用调优参数对所述网络文本的特征向量进行情感分类处 理,得到所述网络文本的情感信息。
[0033] 可选地,所述的装置还包括:
[0034]情感极性确定模块,用于对所述获取的网络文本进行情感极性的确定;
[0035]去噪模块,用于若确定所述获取的网络文本的情感极性为正面极性或负面极性, 则对所述网络文本进行无用信息去除处理。
[0036] 可选地,所述的装置还包括:
[0037] 获取特征值模块,用于获取所述多个词中每个词的特征值。
[0038] 可选地,所述获取特征向量模块:用于根据所述获取特征值模块获取的多个词中 每个词的特征值,构建所述多个词的特征向量,得到所述网络文本的特征向量。
[0039] 可选地,所述获取特征向量模块具体用于:根据所述网络文本的特征向量表达式 计算所述网络文本的特征向量;
[0040]所述网络文本的特征向量表达式为:
[0042] 其中,i表示网络文本中第i个词,表示网络文本中第i个词条,cU表示第i个词条 在特征向量中第一维度的值,^ · cb表示第i个词条^第一维度的值。
[0043] 可选地,所述获取特征向量模块具体用于:根据所述网络文本的特征向量表达式 计算所述网络文本的特征向量;
[0044] 所述网络文本的特征向量表达式为:
[0046] 其中,i表示网络文本中第i个词,表示网络文本中第i个词条,cU表示第i个词条 在特征向量中第一维度的值,ti · cU表示第i个词条ti第一维度的值,ti · IDF表示第i个词 条ti的特征值,作为特征向量的权重。
[0047] 可选地,所述调优参数是根据召回率、准确率和/或分类整体性能值,在对大量的 网络文本进行情感分类处理基础上得到的调优参数,用于表示根据所述调优参数生成的情 感分类器的准确率为最优。
[0048] 可选地,所述情感分类器包括情感句识别分类器和情感极性分类器;
[0049] 当所述调优参数中的c参数为8、gamma参数为0.03125时,根据所述调优参数生成 的情感句识别分类器的准确率为88.6163% ;
[0050] 当所述调优参数中的c参数为2、gamma参数为0.125时,根据所述调优参数生成的 情感极性分类器的准确率为92.2894%。
[0051] 本发明实施例对获取的网络文本进行分词处理得到多个词;获取所述多个词的特 征向量,得到所述网络文本的特征向量;利用调优参数对所述网络文本的特征向量进行情 感分类处理,得到所述网络文本的情感信息。由于本发明实施例采用的调优参数是根据召 回率、准确率和/或分类整体性能值,在对大量的网络文本进行情感分类处理基础上得到 的,用于表示根据所述调优参数生成的情感分类器的准确率为最优,因此,利用调优参数对 所述网络文本的特征向量进行情感分类处理,得到所述网络文本的情感信息的准确率也是 最高的,可以解决现有技术对网络文本信息的情感分析的准确性较差的技术问题。
【附图说明】
[0052]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申 请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0053] 图1是本申请实施例的提供的一种网络文本的情感信息检测方法的流程示意图;
[0054] 图2为本发明实施例应用的特征值搜索引擎示意图;
[0055] 图3为本发明实施例应用的情感分类器的测试结果示意图;
[0056]图4为本发明实施例应用的情感识别分类器的情感识别交叉验证结果示意图;
[00
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1