一种情感新词的识别方法及装置与流程

文档序号:11154998阅读:688来源:国知局
一种情感新词的识别方法及装置与制造工艺

本发明涉及计算机技术领域,尤其涉及一种情感新词的识别方法及装置。



背景技术:

大数据是目前一个非常热门的讨论话题,从互联网的机器实时采集的监测数据,到互联网上用户产生的海量的内容数据,都是大数据覆盖的内容。大数据最核心的价值是:利用数学统计、机器学习、自然语言处理等技术,从大数据中挖掘出有价值的信息知识,从而能够对事物进行预测。由于web2.0的迅猛发展,用户在互联网上产生大量的内容文本信息,例如互联网上的社会化媒体(社交网站、社区等)数据(评论、社交关系、地理位置等信息)。对文本信息进行分析挖掘都离不开自然语言处理技术,而中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。而随着微博等新型社交媒体的快速发展,互联网出现大量富有个人情感表达的新词。情感新词是指尚未收录到词典中的带有情感倾向性的新词。而这些新词的出现使得现有的分词方法不能有效的将这些新词从文本中提取出来,从到导致整篇文本分词的准确性降低。而现有的对于新词的判断与提取,则常用到独立词概率(IWP,independent word probability),隐马尔可夫模型,分类模型,最大熵或条件随机场等方法提取新词候选集,然后对候选集进行过滤得到新词。而这些方法虽然能够获取到新词,但方法的统计特征一般相对独立,缺少相互关联和全局信息,不能充分发挥大规模训练语料的作用而判断出新词的情感倾向性。



技术实现要素:

有鉴于此,本发明提供一种情感新词的识别方法及装置,主要目的在于实现自动识别新词的同时判断新词的情感倾向性。

为达到上述目的,本发明主要提供如下技术方案:

一方面,本发明提供了一种情感新词的识别方法,该方法包括:

确定测试文本中的新词,所述新词为现有词典中未收录的词;

利用含有所述新词的词典,构建词向量模型,所述词向量模型用于计算所述词典中词的相似度;

利用所述词向量模型,计算出至少一个与所述新词相似的情感词;

根据所述情感词的情感倾向性,判断所述新词的情感倾向性。

另一方面,本发明还提供了一种情感新词的识别装置,该装置包括:

确定单元,用于确定测试文本中的新词,所述新词为现有词典中未收录的词;

构建单元,用于利用含有所述确定单元确定的新词的词典,构建词向量模型,所述词向量模型用于计算所述词典中词的相似度;

计算单元,用于利用所述构建单元构建的词向量模型,计算出至少一个与所述新词相似的情感词;

判断单元,用于根据所述计算单元计算出的情感词的情感倾向性,判断所述新词的情感倾向性。

依据上述本发明所提出的情感新词的识别方法及装置,是通过对测试文本进行分词并根据分词之间的相关度,确定该测试文本中是否存在有新词,同时将新词提取出来添加到原词典中,再利用含有新词的词典对测试文本进行分词,根据得到的分词构建词向量模型。将新词带入到该词向量模型中,计算出与新词相关度较高的一批相关词,再将这些相关词带入到预置的情感词典中,判断相关词的情感倾向性,由于相关词具有较高的相关性,因此,这些相关词的情感倾向性也具有相似性,通过对相关词的情感倾向性的综合判断就能够确定出新词的情感倾向性。和现有技术相比,本发明将新词的识别与对该词的情感识别通过构建词向量模型进行关联,能够有效的在识别新词的同时对新词的情感倾向性进行判断,从而提高对 测试文本的分析效率。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提出的一种情感新词的识别方法的流程图;

图2示出了本发明实施例提出的另一种情感新词的识别方法的流程图;

图3示出了本发明实施例提出的一种情感新词的识别装置的组成框图;

图4示出了本发明实施例提出的另一种情感新词的识别装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种情感新词的识别方法,如图1所示,具体步骤包括:

101、确定测试文本中的新词。

伴随着时代发展与技术的进步,大量新词的出现已经成为不可避免的语言现象。这些新词是现有的词典中未收录的词汇,即新词是指随时代发展而新出现或旧词新用的词,如“非典”、“山寨”等。对于旧词新用这类的新词需要在字典中改变或增加其原有的意思,并且需要对其情感倾向性做重新的定义。而对于新出现的词汇,由于现有的词典中并未收录,因此,在做文本分词时是无法将其从测试文本中提取出来的,更无法进一步判断其情感倾向性。

对于新词的提取,现有的方法总体上分为两种:基于规则的方法和基于统计的方法。前者利用构词学原理、配合语义信息或词性信息来构造模板,然后通过匹配来发现新词;而后者是通过对语料中的词条组成或特征信息进行统计来识别新词。基于规则方法的优点是准确率高,针对性强,但手工编写和维护规则困难,且规则一般是领域相关的,所以适应性和移植性比较差;基于统计方法的优点是灵活、适应能力强,可移植性好,但需要大规模语料进行模型训练。较为常用的新词提取方法包括独立词概率,隐马尔可夫模型,分类模型,最大熵或条件随机场等方法。本发明实施例对于新词的提取不限定具体的实现方式,在本步骤中,只要能够将测试文本中的新词选取出来即可。

102、利用含有新词的词典,构建词向量模型。

将101中提出的新词加入到现有的词典中,利用含有新词的词典对测试文本进行分词就可以将新词进行有效的划分。并且利用分词所得到的结果可以构建对应的词向量模型。在该模型中,文本中的每一个词都有相对应的向量值。通过向量值的比较就可得出不同词之间的相关程度,即相似性。

所谓词向量,就是由计算机对自然语言中的词汇加以识别及运算的一种数学化的符号。最常用的方法是将每个词表示为一个很长的向量,这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词。通过将词进行向量化的表示后,构建低纬度的词向量模型,而该模型的主要目的在于通过计算词与词之间的距离来表示两者之间的相关性或近似性,而两个词的距离在该模型中可以表示为两个向量之间的距离,可以使用最传统的欧式距离衡量,也可以用余弦夹角来计算。

103、利用词向量模型,计算出至少一个与新词相似的情感词。

通过将新词带入到102中所构建的词向量模型中进行计算,可以计算出与新词相近似的若干相关词,而这些相关词在不同的领域中都会具有一定的情感倾向性,而不论其情感倾向性的方向与程度如何,均可以称这些具有情感倾向性的相关词为情感词。

104、根据情感词的情感倾向性,判断新词的情感倾向性。

由于103中得到的情感词是通过词向量模型计算出的相关词,因此,该新词与所述情感词在一定程度上是具有相同的情感倾向性的,所以通过判断情感词的情感倾向性,就可以确定新词的情感倾向性。而对于情感词的情感倾向判断,则可以利用现有的情感词典判断。由于情感词在不同领域中所表现得情感倾向性会有所差异,因此,不同领域中会有不同情感词典,本发明实施例可以根据测试文本所属的领域选择适合的情感词典。

结合上述的实现方式可以看出,本发明实施例所采用的情感新词的识别方法,是通过对测试文本进行分词并根据分词之间的相关度,确定该测试文本中是否存在有新词,同时将新词提取出来添加到原词典中,再利用含有新词的词典对测试文本进行分词,根据得到的分词构建词向量模型。将新词带入到该词向量模型中,计算出与新词相关度较高的一批相关词,再将这些相关词带入到预置的情感词典中,判断相关词的情感倾向性,由于相关词具有较高的相关性,因此,这些相关词的情感倾向性也具有相似性,通过对相关词的情感倾向性的综合判断就能够确定出新词的情感倾向性。和现有技术相比,本发明将新词的识别与对该词的情感识别通过构建词向量模型进行关联,能够有效的在识别新词的同时对新词的情感倾向性进行判断,从而提高对测试文本的分析效率。

为了更加详细地说明本发明提出的一种情感新词的识别方法,本发明实施例通过具体的实现方式进行具体说明,如图2所示,该方法所包括的步骤为:

201、利用互信息确定测试文本中准新词的候选词集。

在本实施例中,确定新词的方式是先对测试文本使用现有的词典进行分词,分词后再通过计算相邻分词之间的互信息来确定相邻的两个分词组合成新词的概率,将互信息的概率达到预置的概率阈值的分词组合添加到准新词候选词集中。

其中,互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉嫡近似。互信息本来是信息论中的一个概念,用于表示信息之间 的关系,是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之间的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。需要说明的是,在本发明实施例中的互信息概率阈值是预先进行设定的,该值为经验值,是能够根据需要得出新词的概率进行动态调整的。此外,在候选词集中,准新词的组成可以是两个分词,还可以是多个分词,并且同一个分词还可以作为不同准新词的组成部分。

202、通过计算候选词集中准新词的邻接熵来确定新词。

在确定了候选词集后,再判断每个准新词的邻接熵,邻接熵在信息论中的定义是用来衡量变量的不确定性,即统计该准新词在测试文本中与其他词进行搭配的种类。如果熵值越大,说明该准新词在文本中与其他词的组合种类就越丰富,那么该准新词成为新词的概率就越大。相反的,如果熵值小,说明该准新词所搭配的其他词的种类就少,那么该准新词是其他词组的一部分的可能性就高,而成为独立的新词的可能性就小。而将准新词确定为新词的熵值与互信息的概率阈值一样,都是可以预先设置的一个经验值,并且该熵值阈值可以进行动态的调整。

进一步的,在判断准新词的邻接熵时,可以将邻接熵的计算分为左邻接熵与右邻接熵,分别加以计算,并且对于熵值阈值也可以进行分别的设置加以判断,从而提高新词判断的准确性。

203、利用含有新词的词典,构建词向量模型。

将新词从测试文本中提取出来后,将新词添加到词典中。使用更新有新词的词典对测试文本进行重新分词,就能够将测试文本中的新词有效的提取出来。利用此次的分词结果来构建词向量模型。

204、利用词向量模型,计算出至少一个与新词相似的情感词。

在构建好词向量模型后,还需要对该模型中的一些具体参数进行设置,从而来调节模型的计算结果。如设置结果相关词的个数、模型学习的速率、 设置窗口大小,即设置输入的新词在进行计算时所考虑的前后词的个数。

通过对模型具体参数的设置,模型会根据输入的新词在测试文本中位置,来抽取该词前后的若干词,并根据若干词的相关性以及排列的顺序,查找出具有相同顺序以及位置的相关词。即通过该模型的计算可以得到与输入新词的向量值相似度的已有相关词。在得到的相关词中,按照相似度由高至低的顺序将相关词依次带入到预置的情感词典中进行匹配,判断这些相关词是否具有情感倾向性。并且将具有情感倾向性的相关词提取出来。

205、根据情感词的情感倾向性,判断新词的情感倾向性。

根据204中相关词所具有的情感倾向性,通过综合计算,就可以得到新词的情感倾向性。具体的可以通过将相关词的情感倾向性以及与新词的相似度向结合,通过加权计算的方式得出新词的情感倾向性。本实施例对于具体的计算方式不作具体限定。因为相关词本身是通过词向量模型计算的得出的具有相似度的词,所以只要确定了相关词的情感倾向性,根据相似原则就可以判断出新词的情感倾向性。

通过本实施例所述的方法,通过互信息与邻接熵来判断测试文本中的新词,不仅大大提高了新词的识别准确率,并且能够在识别新词的同时通过词向量模型与情感词典的配合将该词的情感倾向一同判断出来,从而为提高测试文本的情感分析效率提供了保障。

进一步的,作为对上述方法的实现,本发明实施例提供了一种情感新词的识别装置,该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示,该装置包括:

确定单元31,用于确定测试文本中的新词,所述新词为现有词典中未收录的词;

构建单元32,用于利用含有所述确定单元31确定的新词的词典,构建词向量模型,所述词向量模型用于计算所述词典中词的相似度;

计算单元33,用于利用所述构建单元32构建的词向量模型,计算出至少一个与所述新词相似的情感词;

判断单元34,用于根据所述计算单元33计算出的情感词的情感倾向性,判断所述新词的情感倾向性。

进一步的,如图4所示,所述装置的确定单元31包括:

分词模块311,用于将所述测试文本进行分词处理;

计算模块312,用于利用由所述分词模块311得到的相邻分词之间的互信息计算所述相邻分词组成新词的概率值;

组合模块313,用于根据预置的概率阈值,将由所述计算模块312计算的概率值大于所述概率阈值的相邻分词组成准新词;

确定模块314,用于通过计算所述组合模块313组成的准新词的邻接熵,将所述邻接熵符合预置条件的准新词确定为新词。

进一步的,如图4所示,该装置的确定模块314包括:

计算子模块3141,用于分别计算所述准新词的左邻接熵与右邻接熵;

判断子模块3142,用于判断由所述计算子模块3141计算左邻接熵与右邻接熵的熵值是否大于预置的熵值阈值;

确定子模块3143,用于当所述判断子模块3142的判断结果为大于所述熵值阈值时,确定所述准新词为新词。

进一步的,如图4所示,所述装置的构建单元32包括:

分词模块321,用于利用含有所述新词的词典,对所述测试文本进行分词;

构建模块322,用于根据由所述分词模块321获得的分词结果构建所述词向量模型。

进一步的,如图4所示,所述装置的计算单元33包括:

设置模块331,用于设置所述词向量模型的计算参数;

计算模块332,用于由所述词向量模型根据所述设置模块331设置的计算参数计算出至少一个与所述新词相似的情感词。

进一步的,如图4所示,所述装置的判断单元34包括:

确定模块341,用于根据预置的情感词典,确定所述情感词的情感倾向性;

判断模块342,用于根据所述确定模块341确定的情感词的情感倾向性 以及所述情感词与新词的相关度,判断所述新词的情感倾向性。

综上所述,本发明实施例所采用的情感新词的识别方法及装置,是通过对测试文本进行分词并根据分词之间的相关度,确定该测试文本中是否存在有新词,同时将新词提取出来添加到原词典中,再利用含有新词的词典对测试文本进行分词,根据得到的分词构建词向量模型。将新词带入到该词向量模型中,计算出与新词相关度较高的一批相关词,再将这些相关词带入到预置的情感词典中,判断相关词的情感倾向性,由于相关词具有较高的相关性,因此,这些相关词的情感倾向性也具有相似性,通过对相关词的情感倾向性的综合判断就能够确定出新词的情感倾向性。和现有技术相比,本发明将新词的识别与对该词的情感识别通过构建词向量模型进行关联,能够有效的在识别新词的同时对新词的情感倾向性进行判断,从而提高对测试文本的分析效率。

所述情感新词的识别装置包括处理器和存储器,上述确定单元、构建单元、计算单元和判断单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现自动识别新词的同时判断新词的情感倾向性。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:确定测试文本中的新词,所述新词为现有词典中未收录的词;利用含有所述新词的词典,构建词向量模型,所述词向量模型用于计算所述词典中词的相似度;利用所述词向量模型,计算出至少一个与所述新词相似的情感词;根据所述情感词的情感倾向性,判断所述新词的情感倾向性。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施 例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相 变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1