获得情感词知识库的方法、装置及终端的制作方法_4

文档序号:9839646阅读:来源:国知局
]该装置在应用时,在少量已知情感属性的种子词的基础上,对评论语料中的词语和这些种子词之间的关联关系进行分析,进而找到这些评论语料中可以挖掘出情感属性的情感词,然后将查找到的情感词加入到种子词结合中,继续对评论语料中的情感词进行挖掘,最终得到一个数量较大的情感词知识库。随着评论语料的增加,该装置可以自动查找到准确的情感词,并扩大情感词知识库,因此,该装置无需人工参与,即可自动完善情感词知识库,可以有效提高情感词知识库的容量。
[0178]在本公开另一实施例中,如图6所示,图5所示实施例中的评论词提取模块13,包括:
[0179]提取子模块131,用于在所述语料集合中提取出现次数大于预设次数阈值的候选评论词;
[0180]在语料集合中,出现词语较多的词语,通常具有一定代表作用,而出现次数较少的词语,很可能是一个特别用户的评论,不具有普遍性。另外,出现词语较多的词语,可能是大多数用户想要表达情感的词语。
[0181]因此,在本公开实施例中,可以设定一个预设次数阈值来过滤得到候选词,在设置预设次数阈值时,可以根据语料集合中的语料数量和词语数量中的一个或两个一起确定,例如:语料集合内包含有100个语料,那么预设次数阈值可以设置为60-70次,另外,如果语料集合内的词语数量有1000个,那么预设次数阈值可以为总词语数量的15%,S卩150次。在其它实施例中,在设置预设次数阈值时,还可以选用除语料数量和词语数量之前的其它参数,本发明对此不做限定。
[0182]评论词判断子模块132,用于判断所述候选词是否在所述种子词集合中。
[0183]评论词确定子模块133,用于当所述提取子模块提取到的候选词不在所述种子词集合中时,确定所述候选评论词为所述评论词;
[0184]在本公开实施例中,可以将所有评论词构成的集合称为集合M,每个评论词为所述集合M中的一个元素,S|3Mi。
[0185]所述词频统计模块14,包括:
[0186]第一统计子模块,用于分别统计所述种子词集合中各种子词与所述评论词确定子模块确定出的评论词出现在所述语料集合的同一条语料中的频率,作为所述评论词的词频。
[ΟΙ87] 在本公开实施例中,Mi的与每个Si的词频可以分别表示为:{〈Sa,Count(Mi,Sa)>,〈Sb,Count(Mi,Sb)>...〈Sd,Count(Mi,Sd)>}
[0188]其中:Count(Mi,St)表示St与Mi出现在同一个评论中的次数,t = a、b、c或d。
[0189]如果用户在夸奖某个商品时,如果某个词和“好”这个词一直一起出现,那么就可以认为该词的情感属性和“好”这个词的情感属性是相同的,因此可以将这个词确定你为与“好”同类的情感词,即情感词的情感属性是确定的。
[0190]因此,可以统计与每个Si出现在同一条语料中的Mi的词和频率。
[0191]本公开实施例提供的该装置,首先选择出现次数大于预设次数阈值的候选词,然后,在候选词中剔除种子词,得到评论词,这些评论词有大可能为情感词,最后,每个种子词与评论词出现在语料集合中同一条语料中的频率,作为该评论词的词频。以便后续可以利用该词频准确确定该评论词是否为情感词,以及为情感词时的情感属性。
[0192]在本发明另一实施例中,如图7所示,图5所示实施例中的情感词确定模块15,可以包括:
[0193]第二统计子模块151,用于根据与所述评论词相关联的种子词的情感属性,统计所述评论词的词频中不同情感属性的种子词对应的词频;
[0194]在本公开实施例中,某一评论词有可能和多个种子词同时出现在同一评论语料中,所以在该步骤中,需要分别统计所述评论词的词频中不同情感属性的种子词对应的词频。
[0195]情感词确定子模块152,用于当所述第二统计子模块统计得到的不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词。
[0196]虽然,某一评论词有可能和多个种子词同时出现在同一评论语料中,但这同时出现的多个种子词的情感属性可能完全不同,因此,在该步骤中,还需要设置一些预设条件,来进一步准确确定评论词是否为情感词,这些预设条件可以为多个种子词之间的权重。
[0197]例如:某一个评论词和每个种子词同时出现的词频均为50次,那么很显然,这个评论词不能和任何种子词之间产生关联,但如果该评论词和某一种子词A同时出现的词频为50,而和其它种子词同时出现的词频为5,那么很显然,该评论词的情感属性应该和种子词A是相同的。
[0198]当确定出某一个评论词Mi为情感词时,将该Mi加入到种子词集合S中,形成更新后的种子词集合S’,然后利用更新的种子词集合S’赋值给S,然后继续进行迭代,直至不再产生新的情感词后,结束流程。
[0199]本公开实施例提供的该装置,可以通过统计评论词和不同种子词同时出现的词频,并且将所述不同情感属性的种子词对应的词频与预设条件进行比较,当预设条件满足时,就可以确定该评论词为敏感词。
[0200]在本发明另一实施例中,如图8所示,图7所示实施例中的情感词确定子模块152,包括:
[0201]比例计算子模块1521,用于当所述不同情感属性的种子词对应的词频中,计算最大词频与第二大词频之间的比例。
[0202]比例判断子模块1522,用于判断将所述此批计算子模块计算得到的比例是否大于比例阈值。
[0203]第一确定子模块1523,用于当所述比例判断模块的判断结果为最大词频与第二大词频之间的比例大于比例阈值时,确定所述评论词为情感词。
[0204]在本公开另一实施例中,在图8所示实施例的基础上,该装置还包括:
[0205]情感属性确定模块,用于将所述最大词频对应的情感属性作为所述评论词的情感属性。
[0206]在前述实施例中,已经描述道,当将所述不同情感属性的种子词对应的词频与预设条件进行比较,且预设条件满足时,就可以确定该评论词为敏感词,所以,在本公开实施例中,可以将最大词频对应的种子词的情感属性作为该评论词的情感属性。
[0207]图9是根据一示例性实施例示出的一种终端900的框图。例如,终端900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0208]参照图9,终端900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口 912,传感器组件914,以及通信组件916。
[0209]处理组件902通常控制终端900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
[0210]存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
[0211]电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为终端900生成、管理和分配电力相关联的组件。
[0212]多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0213]音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当终端900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
[0214]I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0215]传感器组件914包括一个或多个传感器,用于为终端900提供各个方面的状态评估。例如,传感器组件914可以检测到终端900的打开/关闭状态,组件的相对定位,例如所述组件为终端900的显示器和小键盘,传感器组件914还可以检测终端900或终端900—个组件的位置改变,用户与终端900接触的存在或不存在,终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或C⑶图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0216]通信组件916被配置为便于终端900和其
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1