获得情感词知识库的方法、装置及终端的制作方法_5

文档序号:9839646阅读:来源:国知局
他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
[0217]在示例性实施例中,终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0218]在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由终端900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是R0M、随机存取存储器(RAM)、CD-R0M、磁带、软盘和光数据存储设备等。
[0219]—种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行一种提醒方法,所述方法包括:
[0220]确定种子词集合及所述种子词集合中种子词的情感属性;
[0221 ]根据所述种子词集合进行评论语料筛选,获得语料集合;
[0222]在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频;
[0223]根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词;
[0224]若所述评论词中存在情感词,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合,利用更新后的种子词集合迭代执行所述进行评论语料筛选的步骤,直至确定所述评论词中不存在情感词,迭代结束;
[0225]将迭代结束后获得的更新的种子词集合确定为情感词知识库。
[0226]本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
[0227]应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
【主权项】
1.一种获得情感词知识库的方法,其特征在于,包括: 确定种子词集合及所述种子词集合中种子词的情感属性; 根据所述种子词集合进行评论语料筛选,获得语料集合; 在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频; 根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词; 若所述评论词中存在情感词,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合,利用更新后的种子词集合迭代执行所述进行评论语料筛选的步骤,直至确定所述评论词中不存在情感词,迭代结束; 将迭代结束后获得的更新的种子词集合确定为情感词知识库。2.根据权利要求1所述的方法,其特征在于,所述在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频,包括: 在所述语料集合中提取出现次数大于预设次数阈值的候选词; 当所述候选词不在所述种子词集合中时,,确定所述候选词为所述评论词; 分别统计所述种子词集合中各种子词与所述评论词出现在所述语料集合的同一条语料中的频率,作为所述评论词的词频。3.根据权利要求1所述的方法,其特征在于,所述根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词,包括: 根据与所述评论词相关联的种子词的情感属性,统计所述评论词的词频中不同情感属性的种子词对应的词频; 当所述不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感Τ.κ| ο4.根据权利要求3所述的方法,其特征在于,所述当所述不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词,包括: 当所述不同情感属性的种子词对应的词频中,最大词频与第二大词频之间的比例大于比例阈值时,确定所述评论词为情感词。5.根据权利要求4所述的方法,其特征在于,所述方法还包括: 将所述最大词频对应的情感属性作为所述评论词的情感属性。6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述确定种子词集合及所述种子词集合中种子词的情感属性,包括: 确定指定领域的种子词集合及所述种子词集合中种子词的情感属性。7.根据权利要求6所述的方法,其特征在于,所述根据所述种子词集合进行评论语料筛选,获得语料集合,包括: 根据所述种子词集合对所述指定领域的评论语料进行筛选,获得所述指定领域的语料口 O8.根据权利要求1至5中任意一项所述的方法,其特征在于,所述情感属性包括: 正面、负面、中性。9.一种获得情感词知识库的装置,其特征在于,包括: 种子词确定模块,用于确定种子词集合及所述种子词集合中种子词的情感属性; 语料筛选模块,用于根据所述种子词确定模块确定的种子词集合进行评论语料筛选,获得所述语料集合; 评论词提取模块,用于在所述筛选模块筛选出的语料集合中提取与所述种子词关联的评论词; 词频统计模块,用于统计所述提取模块提取得到的评论词的词频; 情感词确定模块,用于根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词; 种子词更新模块,用于当所述情感词确定模块确定评论词中存在情感词时,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合; 所述语料筛选模块,还用于利用所述种子词更新模块更新后的种子词集合迭代进行评论语料筛选,且直至确定所述评论词中不存在情感词,迭代结束; 情感词知识库确定模块,用于将迭代结束后所述种子词更新模块获得的更新的种子词集合确定为情感词知识库。10.根据权利要求9所述的装置,其特征在于,所述评论词提取模块,包括: 提取子模块,用于在所述语料集合中提取出现次数大于预设次数阈值的候选评论词; 评论词判断子模块,用于判断所述候选词是否在所述种子词集合中; 评论词确定子模块,用于当所述评论词判断模块的判断结果为候选词不在所述种子词集合中时,确定所述候选评论词为所述评论词; 所述词频统计模块,包括: 第一统计子模块,用于分别统计所述种子词集合中各种子词与所述评论词确定子模块确定出的评论词出现在所述语料集合的同一条语料中的频率,作为所述评论词的词频。11.根据权利要求9所述的装置,其特征在于,所述情感词确定模块,包括: 第二统计子模块,用于根据与所述评论词相关联的种子词的情感属性,统计所述评论词的词频中不同情感属性的种子词对应的词频; 情感词确定子模块,用于当所述第二统计子模块统计得到的不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词。12.根据权利要求11所述的装置,其特征在于,所述情感词确定子模块,包括: 比例计算子模块,用于当所述不同情感属性的种子词对应的词频中,计算最大词频与第二大词频之间的比例; 比例判断子模块,用于判断将所述此批计算子模块计算得到的比例是否大于比例阈值; 第一确定子模块,用于当所述比例判断模块的判断结果为最大词频与第二大词频之间的比例大于比例阈值时,确定所述评论词为情感词。13.根据权利要求12所述的装置,其特征在于,所述装置还包括: 情感属性确定模块,用于将所述最大词频对应的情感属性作为所述评论词的情感属性。14.根据权利要求9至13中任意一项所述的装置,其特征在于,所述种子词确定模块,包括: 种子词确定子模块,用于确定指定领域的种子词集合及所述种子词集合中种子词的情感属性。15.根据权利要求14所述的装置,其特征在于,所述语料筛选模块,包括: 语料筛选子模块,用于根据所述种子词集合对所述指定领域的评论语料进行筛选,获得所述指定领域的语料集合。16.根据权利要求9至13中任意一项所述的装置,其特征在于,所述情感属性包括: 正面、负面、中性。17.一种终端,其特征在于,包括: 处理器; 用于存储处理器可执行指令的存储器; 其中,所述处理器被配置为: 确定种子词集合及所述种子词集合中种子词的情感属性; 根据所述种子词集合进行评论语料筛选,获得语料集合; 在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频; 根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词; 若所述评论词中存在情感词,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合,利用更新后的种子词集合迭代执行所述进行评论语料筛选的步骤,直至确定所述评论词中不存在情感词,迭代结束; 将迭代结束后获得的更新的种子词集合确定为情感词知识库。
【专利摘要】本公开是关于一种获得情感词知识库的方法、装置及终端,该方法包括:确定种子词集合及种子词集合中种子词的情感属性;根据种子词集合进行评论语料筛选,获得语料集合;在语料集合中提取与种子词关联的评论词并统计评论词的词频;根据评论词的词频及与评论词关联的种子词的情感属性,确定评论词中是否存在情感词;若评论词中存在情感词,则将评论词按照其情感属性对应加入种子词集合更新种子词集合,利用更新后的种子词集合迭代执行进行评论语料筛选的步骤,直至确定评论词中不存在情感词,迭代结束;将迭代结束后获得的更新的种子词集合确定为情感词知识库。该方法无需人工参与,即可自动完善情感词知识库,可以有效提高情感词知识库的容量。
【IPC分类】G06F17/30, G06F17/27
【公开号】CN105608130
【申请号】CN201510946064
【发明人】汪平仄, 张涛, 龙飞
【申请人】小米科技有限责任公司
【公开日】2016年5月25日
【申请日】2015年12月16日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1