网络文本的情感信息检测方法和装置的制造方法_2

文档序号：9818303阅读：来源：国知局

57]图5为本发明实施例应用的情感极性分类器的情感极性交叉验证结果示意图；
[0058] 图6是本申请实施例的一种网络文本的情感信息检测装置的结构示意图。
【具体实施方式】
[0059] 以下将配合附图及实施例来详细说明本发明的实施方式，藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
[0060] 在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0061] 内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
[0062] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPR0M)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0063] 如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的"包含"为一开放式用语，故应解释成"包含但不限定于"。"大致"是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，"耦接"一词在此包含任何直接及间接的电性耦接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表所述第一装置可直接电性耦接于所述第二装置，或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明本发明的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
[0064] 还需要说明的是，术语"包括"、"包含"或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句"包括一个……"限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素
[0065] 现有技术中，对网络文本的情感分析技术大多基于情感词词典，例如该词典包含航空、旅行社、酒店、电子产品等领域，每个领域都有其对应的情感词及情感分类，如二分类情感(正倾向情感、负倾向情感）、四分类情感(喜欢、羡慕、讨厌、憎恶)等，每一类情感都对应其特定的情感词库，根据网络文本中包含的情感词判断该网络文本的情感倾向，但这些情感词在一定程度上并没有反映到整个文章、网站、通信信息的感情，进一步地，由于网络文本所涉及领域、所处地域、表达习惯、结构风格等的差异，纯粹的基于情感词典技术判断网络文本的情感倾向会存在准确率较低的问题。
[0066]因为感情是推动一个事情、事件发展的重大因素，从感情的强弱，能够分析出事件和事情发展的状况等，这些事件和事情的发展，一定程度上影响着网络舆情和网络信息的安全。情感分析对舆情的发展和控制舆情起到重要的作用，因此，需要一种准确率较高的网络文本的情感信息检测方法用于判断网络文本的情感倾向。
[0067]为此，本发明提供一种网络文本的情感信息检测方法，由于本发明实施例采用的调优参数是根据召回率、准确率和/或分类整体性能值，在对大量的网络文本进行情感分类处理基础上得到的，用于表示根据所述调优参数生成的情感分类器的准确率为最优，因此，利用调优参数对所述网络文本的特征向量进行情感分类处理，得到所述网络文本的情感信息的准确率也是最高的。具体实现时包括，对获取的网络文本进行分词处理得到多个词;获取所述多个词的特征向量，得到所述网络文本的特征向量;利用调优参数对所述网络文本的特征向量进行情感分类处理，得到所述网络文本的情感信息。
[0068]图1是本申请实施例的提供的一种网络文本的情感信息检测方法的流程示意图；如图1所示，包括：
[0069] 101、对获取的网络文本进行分词处理得到多个词；
[0070] 在本发明的一个可选的实施方式中，本发明实施例可以从互联网上获取不同种类的互联网文本（又称语料），以微博文本（语料的一种）为例，主要基于微博的API (Application Programming Interface，应用程序编程接口）通过网络爬虫从微博上爬取，并保存到相应数据库。
[0071] 众所周知，每天在互联网社交媒体上产生上亿的网络文本信息，假设对每个网络文本都进行检测的话，需要花很多的时间，为此，在本发明的一个可选的实施方式中，为了提高对网络文本的情感信息的检测效率，需要对获取的网络文本进行用户等级的过滤，例如，用户之间存在的社会关系和用户的影响力大小等，网络中用户影响力的大小对网络文本采集有着关键的影响。本发明实施例中，结合用户等级，对获取的网络文本进行过滤。其中，用户等级的计算可以是基于用户影响力评价模型，与用户的活跃度、用户的关注者数、用户发布的频率、发表的数量等有关，在此不再赘述。例如，计算用户等级值，对计算结果排序，过滤掉等级低于预设值的用户发布的网络文本。
[0072] 在本发明的一个可选的实施方式中，在步骤101对获取的网络文本进行分词处理得到多个词之前，包括：
[0073] 对所述获取的网络文本进行情感极性的确定;若确定所述获取的网络文本的情感极性为正面极性或负面极性，则对所述网络文本进行无用信息去除处理。
[0074] 本发明的一个可选的实施方式中，可以采用情感词词典技术，通常，情感词词典中包含各种不同领域(如航空、旅行社、酒店、电子产品等）的情感词以及情感极性，每一类情感极性都对应其特定的情感词库，根据网络文本中包含的情感词判断该网络文本的情感极性。具体实现时，可以对每个获取的网络文本（以句子为例)标注唯一的标识(SentencelD); Text为文本信息;Polarity表示文本的情感极性，其中，Polarity = 0表示文本不是情感句， ?〇]^1'；^7 = 1表示文本是情感句并且是正面信息，？〇]^1'；^7 = -1表示文本是情感句并且是负面信息。如表1所示的一种情感极性表：
[0076]进一步的，对网络文本进行无用信息的去除处理，例如，去除用户名"格式的信息，过滤掉开头含有标志位格式的信息。无用信息的去除后，对网络文本做进行分词处理，分成多个词。在本发明实施例的一个可选实施方式中，例如可以使用中科院ICTCLAS分词系统对网络文本进行分词并去除停用词（即没有意义的词）。表2为对网络文本的分词处理前后的对照表：
[0078] 102、获取所述多个词的特征向量，得到所述网络文本的特征向量；
[0079] 当网络文本为句子时，句子的特征向量是由句子中每个词的特征值或者特征向量组成。
[0080] 在本发明实施例一种可选的实施方式中，使用词的特征值(TFIDF)构成句子的特征向量，其中，TFIDF是一种用于资讯检索与资讯探勘的常用加权技术，不再赘述，步骤102 具体实现时包括：
[0081 ]获取所述多个词中每个词的特征值，根据所述多个词中每个词的特征值，构建所述多个词的特征向量，得到所述网络文本的特征向量。
[0082]本发明实施例中预先设置每个词对应的特征值，保存到特征值库中，因此，可以在特征值库中查询到每个词对应的特征值，图2为本发明实施例应用的特征值搜索引擎示意图，如2所示，在输入框中输入喜欢，即

完整全部详细技术资料下载

当前第2页1 2 3 4