情感关键词提取方法及系统的制作方法

文档序号:6605281阅读:313来源:国知局
专利名称:情感关键词提取方法及系统的制作方法
情感关键词提取方法及系统
技术领域
本发明涉 及信息处理技术领域,尤其涉及一种情感关键词提取方法及系统。背景技术
音乐作为多媒体信息资源,在人们的生活中非常重要。充分利用已有的音乐资源, 实现基于内容的音乐检索与分类技术已经成为近年的研究热点。情感内涵是音乐的本质属 性,利用计算机辅助人利用情感感知音乐是唯一可以精确表示自身需要的方式,可以有效 的实现自然的人机交互,其在3G娱乐类业务中有广阔的应用前景。除了音乐本身之外,文字诗词等文本中也含有强烈的情感,我们可以通过文字来 表达情感,例如日记、日志等。而一首歌曲除了音乐内容可以表达作者的情绪外,更需要透 过歌词来表达歌曲所要带给听众的感受。因此在音乐情感识别中,除了可通过音乐内容来 对情感进行识别外,还能结合歌词提高识别效果,因此要提高音乐识别效果,从歌词中提取 情感关键词是必不可少的。

发明内容基于此,有必要提供一种情感关键词提取方法,能应用于音乐情感识别中并提高 识别效果。一种情感关键词提取方法,包括以下步骤从歌词库中获取歌词;对所述歌词进 行预处理,得到处理后的歌词文本;获取基于情感分类模型对所述歌词文本的情感程度标 注;根据所述情感程度标注统计歌词文本中的词的词频度;根据所述词频度提取情感关键 词。优选的,所述对歌词数据进行预处理的步骤具体是将歌词分为两组以上,对每组 歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡 的包含两类情感;提取每组中歌词的歌名,对所述歌名进行随机排序;按照歌名的排序结 果将每组中歌名对应的歌词拼接成歌词文本。优选的,获取基于情感分类模型对歌词文本的情感程度标注的步骤包括获取两 个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打分,所述打分对 应于歌词的类别强度。优选的,所述情感分类模型的压力维度的两类情感包括快乐类和悲伤类;所述根 据情感程度标注统计歌词文本中的词的词频度的步骤具体是根据所述类别强度确定歌词 所属类别;对同一歌词计算其类别强度的平均值;将歌词所属类别为快乐类的歌词的类别 强度平均值与预设快乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的 歌词,生成快乐类歌词库;将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤 强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌词,生成悲伤类歌词 库;分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计工具,统计 所有词的词频度。
优选的,在根据词频度提取情感关键词的步骤之前还包括去除快乐类歌词库和 悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定的非情感类词语,分别 生成快乐类词频度表和悲伤类词频度表。优选的,所述根据词频度提取情感关键词的步骤具体是分别获取每个词在快乐 类词频表中的词频度和在悲伤类词频表中的词频度;定义快乐和悲伤两个模糊集;分别计 算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊集 的隶属度;根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵;根 据所述模糊熵提取情感关键词。优选的,所述根据模糊熵提取情感关键词的步骤具体是从所述快乐类词频表中 提取模糊熵小于等于预设第一阈值的词为快乐类情感关键词,从所述悲伤类词频表中提取 模糊熵小于等于预设第二阈值的词为悲伤类情感关键词。
此外,还有必要提供一种情感关键词提取系统,能应用于音乐情感识别中并提高 识别效果。一种情感关键词提取系统,包括歌词获取模块,用于从歌词库中获取歌词;预处 理模块,对所述歌词进行预处理,得到处理后的歌词文本;标注模块,获取基于情感分类模 型对所述歌词文本的情感程度标注;词频统计模块,根据所述情感程度标注统计歌词文本 中的词的词频度;提取模块,根据所述词频度提取情感关键词。优选的,所述预处理模块包括分类模块,将歌词分为两组以上,对每组歌词基于 情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两 类情感;排序模块,提取每组中歌词的所属歌曲名,对所述歌曲名进行随机排序;歌词文本 生成模块,按照歌曲名的排序结果将每组相应的歌词拼接成歌词文本。优选的,所述标注模块进一步用于根据情感分类模型的压力维度设置歌词的类别 强度,获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打 分,所述打分对应于歌词的类别强度。优选的,所述情感分类模型的压力维度的两类情感包括快乐类和悲伤类;所述词 频统计模块包括均值计算模块,根据所述类别强度确定歌词所属类别,并对同一歌词计算 其类别强度的平均值;快乐类歌词库生成模块,将歌词所属类别为快乐类的歌词的类别强 度平均值与预设快乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的歌 词,生成快乐类歌词库;悲伤类歌词库生成模块,将歌词所属类别为悲伤类的歌词的类别强 度平均值与预设悲伤强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌 词;词频度统计模块,分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词 频统计工具,统计所有词的词频度。优选的,还包括词频度表生成模块,用于去除所述快乐类歌词库和悲伤类歌词库 中词频度小于等于预设词频度阈值的词以及预先设定的非情感类词语,分别生成快乐类词 频度表和悲伤类词频度表。优选的,所述提取模块包括词频度获取模块,用于分别获取每个词在快乐类词频 表的词频度和在悲伤类词频表中的词频度;模糊集定义模块,定义快乐和悲伤两个模糊集; 隶属度计算模块,分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶 属度及属于悲伤模糊集的隶属度;模糊熵计算模块,根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵;关键词提取模块,根据所述模糊熵提取情感关键词。优选的,所述关键词提取模块进一步用于从所述快乐类词频表中提取模糊熵小于 等于预设第一阈值的词为快乐类情感关键词,从所述悲伤类词频表中提取模糊熵小于等于 预设第二阈值的词为悲伤类情感关键词。上述情感关键词提取方法及系统,通过对歌词进行预处理以及基于情感分类模型 对歌词文本进行情感程度标注,根据歌词的情感程度标注统计其中的词的词频度,从而能 够提取歌词中的情感关键词;该方法及系统简单明确,能应用于音乐情感识别中,从而提高 音乐情感的识别效果。


图1为一个实施例中情感关键词提取方法的流程图;图2为一个实施例中对歌词数据进行预处理的方法流程图;图3为一个实施例中情感分类模型的示意图;图4为一个实施例中提取情感关键词的方法流程图;图5为一个实施例中隶属度与模糊熵的关系图;图6为一个实施例中情感关键词提取系统的结构示意图;图7为一个实施例中预处理模块的结构示意图;图8为一个实施例中词频统计模块的结构示意图;图9为一个实施例中提取模块的结构示意图。
具体实施方式如图1所示,一种情感关键词提取方法,具体过程如下步骤S10,从歌词库中获取歌词。可以应不同的需求构建不同规模的歌词库,歌词 库中的数据为IRC格式的歌词文本。在一个实施例中,构建的歌词库中包含568个歌词文 本。步骤S20,对歌词进行预处理,得到处理后的歌词文本。在一个实施例中,如图2所 示,步骤S20的具体过程为步骤S201,将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两 类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类情感。图3为Thayer情感分 类模型的示意图,其中,其横轴压力维度从快乐到悲伤,纵轴压力维度从平静到活力。在一 个实施例中,根据歌词的总数将歌词分为两组以上,每组歌词的数量尽量均衡,例如对于歌 词库中的568个歌词,可分为3组,分别为190个、190个和188个。对每组歌词基于Thayer 情感分类模型的压力维度的两类情感进行情感平衡化选曲,优选的是基于横轴压力维度的 两类情感即快乐类情感和悲伤类情感进行情感平衡化选曲,使得每组歌词中均衡的包含快 乐和悲伤这两类情感。步骤S202,提取每组中歌词的歌名,对歌名进行随机排序。步骤S203,按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。对歌 词库中的568个歌词文本,分组时均衡的分为3组,则拼接成歌词文本后得到3个歌词文 本,每个歌词文本中相邻的两首歌词之间加入一行星号进行相隔。
步骤S30,获取基于情感分类模型对歌词文本的情感程度标注。该实施例中,根 据Thayer情感分类模型的横轴压力维度设置歌词的类别强度,获取两个以上的用户按照 Thayer情感分类模型的横轴压力维度对每个歌词文本中的歌词进行的类别打分,类别打分 即对应于歌词的类别强度。优选的,获取8位用户的类别打分,即每个歌词文本中的歌词都 由8位用户进行类别打分。如图3所示,根据Thayer情感分类模型的横轴压力维度,设置 供用户进行类别打分的评测表如表1所示表 1
编号__^_、焦虑.................................................愉悦、快乐
____-2_____-1_ ^___1 _.____2_ Li___i_L____I其中,“-2”、“-1”、“0”、“1”、“2”都为设置的类别强度,若用户对类别强度为“_2” 打勾,则该歌词为悲伤类歌词,且其类别强度为“2” ;若用户对类别强度为“0”打勾,则表明 该歌词很难区分两类,即很难区分快乐类和悲伤类。步骤S40,根据情感程度标注统计歌词文本中的词的词频度。在一个实施例中,步 骤S40的具体过程包括(1)根据类别强度确定歌词所属类别。如上所述,类别强度为“_2”或“_1”,则为 悲伤类;类别强度为“1”或“2”,则为快乐类;类别强度为“0”,则该歌曲既不属于快乐类也 不属于悲伤类。(2)对同一歌词计算其类别强度的平均值。对于第i个歌词文本,设获取到8位用 户对它的情感程度标注,标注的类别强度分别为Xl、X2... X8,则该歌词的类别强度的平均 值的计算公式为Xi = (Xl+X2+......+χ8) /8其中,Xi为歌词在某类情感中的情感程度。若Xi > 0,表示该歌词属于快乐类,其 数值大小即反映其快乐程度。反之,若Xi < 0,则表示该歌词属于悲伤类,其数值的绝对值 大小反映其悲伤程度。(3)将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比 较,提取类别强度平均值大于预设快乐强度阈值的歌词,生成快乐类歌词库。当获取到8位 用户对歌词的类别打分后,对于快乐类歌词,以平均值的最小值为准,当8位用户中6个人 的打分结果均为“1”,另两个人的打分结果均为“_2”,则计算得到Xi为0. 25,因此预设的快 乐强度阈值为0. 25。提取所有歌词中所属类别为快乐类且类别强度平均值大于0. 25的歌 词,生成快乐类歌词库。(4)将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比 较,提取类别强度平均值小于预设悲伤强度阈值的歌词,生成悲伤类歌词库。对于悲伤类歌 词,以平均值的最大值为准,当8位用户中6个人的打分结果均为“-1”,另两个人的打分结 果均为“2”,则计算得到Xi为-0. 25,因此预设悲伤强度阈值为-0. 25。提取所有歌词中所 属类别为悲伤类且类别强度平均值小于-0. 25的歌词,生成悲伤类歌词库。
(5)分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计 工具,统计其中所有词的词频度,词频度即为词在歌词中出现的次数。在一个实施例中,统 计词频度之后,去除快乐类歌词库和悲伤类歌词库中词频度小于预设词频度阈值的词以及 预先设定的非情感类词语。优选的,词频度阈值设定为2,非情感类词语为与情感无关的助 词和副词等,例如“的”、“之”、“着”、“吗”、“什么”等等。去除这些词后,分别生成快乐类词 频度表和悲伤类词频度表,其中,快乐类词频度表中记录了快乐类词库中的词与其词频度 的对应关系,悲伤类词频度表记录了悲伤类词库中的词与其词频度的对应关系步骤S50,根据词频度提取情感关键词。在一个实施例中,如图4所示,步骤S50的 具体过程为步骤S501,分别获取每个词在快乐类词频表中的词频度和在悲伤类词频表中的词 频度。设上述得到的快乐类词频表为表X,悲伤类词频表为表Y。对于快乐类词频表X中的 每个词,Xil为第i个词在快乐类词频表X中的词频度,Xi2为该词在悲伤类词频表Y中的词 频度。同理,对于悲伤类词频表Y中的每个词,Yjl为第j个词在悲伤类词频表X中的词频 度,Yj2为该词在快乐类词频表中的词频度。步骤S502,定义快乐和悲伤两个模糊集。定义的两个模糊集分别为{快乐}和{悲伤}。步骤S503,分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊 集的隶属度及属于悲伤模糊集的隶属度。对于快乐类词频表X中的每个词,第i个词属
于模糊集{快乐}的隶属度为 =zJJ^1+J^2)其属于模糊集{悲伤}的隶属 度为、=Χ /(ΧΛ+Χ.2)同理,对于悲伤类词频表Y中的每个词,第·]·个词属于模糊
O
Γ;2/
集{快乐}的隶属度为:uXj = /{Υ.λ + Y 2)其术语模糊集{悲伤丨的隶属度为 Uy = Υη/ν丄V N并满足条件l,u为隶属度,规定当U = O时,ulo&u = 0。
j /(W
ο步骤S504中,根据隶属度分别计算快乐类词频表和悲伤类词频表 中每个词的模糊熵。在快乐类词频表X中,第i个词的模糊熵的计算公式
为nXi = —uIi Iog2 uA -l^1Og2uY1 ,由于,因此有
Hxt = -uXi loB2 uXi — 1 — uXl ) loS2 C1 — uXi)同理,在悲伤类词频表 Y 中,第
O
j 个词的模糊熵为Ητ〗二 -uYj. lo§2 uYj 一(1 — uYj ) 1θ§2 (! — uYj )
O步骤S505中,根据模糊熵提取情感关键词。图5示出了 一个实施例中计算得到的 隶属度和模糊熵的关系,由图5可知,当隶属度Wz;或者W。取值越靠近曲线两端时,模糊熵η 越小,即不确定性越小,模糊熵H越小,则表明该词在快乐类情感和悲伤类情感中的词频度相差越大,所以该词可以对这两类情感起到区分作用。反之,隶属度wI或者取值在中间 0. 5左右时,模糊熵H越小,不确定性越大,表明该词在两类情感中的词频度相近,所以该词 对两类情感的区分起不到什么作用。在一个实施例中,从快乐类词频表中提取模糊熵小于等于预设第一 阈值的词为快 乐类情感关键词,从悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感 关键词。该实施例中,预先设定某个词在快乐类词频表和悲伤类词频表的两个词频度值之 比大于等于2时,则认为该词可以对区分两类情感起到作用。因此,对于快乐类词频表,
当Xil = 2Xi2时,=2/3,HXi =0.9183。同理,对于悲伤类词频表,当Yjl = 2YJ2时,可得
=0.9183,因此第一阈值和第二阈值可设定为0.9183。从快乐类词频表X中提取模糊 熵小于等于0. 9183的词以及从悲伤类词频表Y中提取模糊熵小于等于0. 9183的词,从而 得到快乐类和悲伤类这两类情感的关键词表。所得到的情感关键词表能够应用在音乐情感 识别中,从而提高音乐情感的识别效果。如图6所示,一种情感关键词提取系统,包括歌词获取模块10、预处理模块20、标 注模块30、词频统计模块40和提取模块50,其中歌词获取模块10用于从歌词库中获取歌 词;预处理模块20用于对歌词进行预处理,得到处理后的歌词文本;标注模块30用于获取 基于情感分类模型对歌词文本的情感程度标注;词频统计模块40用于根据情感程度标注 统计歌词文本中的词的词频度;提取模块50用于根据词频度提取情感关键词。如图7所示,在一个实施例中,预处理模块20包括分类模块201、排序模块202和 歌词文本生成模块203,其中分类模块201用于将歌词分为两组以上,对每组歌词基于情 感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类 情感;排序模块202用于提取每组中歌词的歌名,对所述歌名进行随机排序;歌词文本生成 模块203用于按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。在一个实施例中,标注模块30进一步用于根据情感分类模型的压力维度设置歌 词的类别强度,获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的 类别打分,该打分对应于歌词的类别强度。如图8所示,在一个实施例中,词频统计模块40包括均值计算模块401、快乐类歌 词库生成模块402、悲伤类歌词库生成模块403和词频度统计模块404,其中均值计算模 块401用于根据类别强度确定歌词所属类别,并对同一歌词计算其类别强度的平均值;快 乐类歌词库生成模块402用于将歌词所属类别为快乐类的歌词的类别强度平均值与预设 快乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的歌词,生成快乐类 歌词库;悲伤类歌词库生成模块403用于将歌词所属类别为悲伤类的歌词的类别强度平均 值与预设悲伤强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌词;词 频度统计模块404用于分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用 词频统计工具,统计所有词的词频度。在一个实施例中,该系统还包括词频度表生成模块(图中未示出),用于去除所述 快乐类歌词库和悲伤类歌词库中词频度小于等于预设词频度阈值的词以及预先设定的非 情感类词语,分别生成快乐类词频度表和悲伤类词频度表。如图9所示,在一个实施例中,提取模块50包括词频度获取模块501、模糊集定义模块502、隶属度计算模块503、模糊熵计算模块504和关键词提取模块505,其中词频度 获取模块501用于分别获取每个词在快乐类词频表的词频度和在悲伤类词频表中的词频 度;模糊集定义模块502用于定义快乐和悲伤两个模糊集;隶属度计算模块503用于分别 计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于悲伤模糊 集的隶属度;模糊熵计算模块504用于根据所述隶属度分别计算快乐类词频表和悲伤类词 频表中每个词的模糊熵;关键词提取模块505用于根据所述模糊熵提取情感关键词。在一 个优选的实施例中,关键词提取模块505进一步用于从快乐类词频表中提取模糊熵小于等 于预设第一阈值的词为快乐类情感关键词,从悲伤类词频表中提取模糊熵小于等于预设第 二阈值的词为悲伤类情感关键词,从而得到快乐类和悲伤类这两类情感的关键词表。所得 到的情感关键词表能够应用在音乐情感识别中,从而提高音乐情感的识别效果。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并 不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员 来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明 的保 护范围。因此,本发明专利的保护范围应以所附权利要求为准。
权利要求
一种情感关键词提取方法,包括以下步骤从歌词库中获取歌词;对所述歌词进行预处理,得到处理后的歌词文本;获取基于情感分类模型对所述歌词文本的情感程度标注;根据所述情感程度标注统计歌词文本中的词的词频度;根据所述词频度提取情感关键词。
2.根据权利要求1所述的情感关键词提取方法,其特征在于,所述对歌词数据进行预 处理的步骤具体是将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感 平衡化选曲,使得每组歌词中均衡的包含两类情感; 提取每组中歌词的歌名,对所述歌名进行随机排序; 按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。
3.根据权利要求2所述的情感关键词提取方法,其特征在于,获取基于情感分类模型 对歌词文本的情感程度标注的步骤包括获取两个以上的用户按照情感分类模型的压力维度对每个歌词文本进行的类别打分, 所述打分对应于歌词的类别强度。
4.根据权利要求3所述的情感关键词提取方法,其特征在于,所述情感分类模型的压 力维度的两类情感包括快乐类和悲伤类;所述根据情感程度标注统计歌词文本中的词的词频度的步骤具体是 根据所述类别强度确定歌词所属类别; 对同一歌词计算其类别强度的平均值;将歌词所属类别为快乐类的歌词的类别强度平均值与预设快乐强度阈值比较,提取类 别强度平均值大于所述预设快乐强度阈值的歌词,生成快乐类歌词库;将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲伤强度阈值比较,提取类 别强度平均值小于所述预设悲伤强度阈值的歌词,生成悲伤类歌词库;分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用词频统计工具,统 计所有词的词频度。
5.根据权利要求4所述的情感关键词提取方法,其特征在于,在根据词频度提取情感 关键词的步骤之前还包括去除快乐类歌词库和悲伤类歌词库中词频度小于等于预设词频 度阈值的词以及预先设定的非情感类词语,分别生成快乐类词频度表和悲伤类词频度表。
6.根据权利要求5所述的情感关键词提取方法,其特征在于,所述根据词频度提取情 感关键词的步骤具体是分别获取每个词在快乐类词频表中的词频度和在悲伤类词频表中的词频度; 定义快乐和悲伤两个模糊集;分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集的隶属度及属于 悲伤模糊集的隶属度;根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的模糊熵; 根据所述模糊熵提取情感关键词。
7.根据权利要求6所述的情感关键词提取方法,其特征在于,所述根据模糊熵提取情感关键词的步骤具体是从所述快乐类词频表中提取模糊熵小于等于预设第一阈值的词为 快乐类情感关键词,从所述悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤 类情感关键词。
8.一种情感关键词提取系统,其特征在于,包括 歌词获取模块,用于从歌词库中获取歌词;预处理模块,对所述歌词进行预处理,得到处理后的歌词文本; 标注模块,获取基于情感分类模型对所述歌词文本的情感程度标注; 词频统计模块,根据所述情感程度标注统计歌词文本中的词的词频度; 提取模块,根据所述词频度提取情感关键词。
9.根据权利要求8所述的情感关键词提取系统,其特征在于,所述预处理模块包括 分类模块,将歌词分为两组以上,对每组歌词基于情感分类模型的压力维度的两类情感进行情感平衡化选曲,使得每组歌词中均衡的包含两类情感; 排序模块,提取每组中歌词的歌名,对所述歌名进行随机排序; 歌词文本生成模块,按照歌名的排序结果将每组中歌名对应的歌词拼接成歌词文本。
10.根据权利要求9所述的情感关键词提取系统,其特征在于,所述标注模块进一步用 于根据情感分类模型的压力维度设置歌词的类别强度,获取两个以上的用户按照情感分类 模型的压力维度对每个歌词文本进行的类别打分,所述打分对应于歌词的类别强度。
11.根据权利要求10所述的情感关键词提取系统,其特征在于,所述情感分类模型的 压力维度的两类情感包括快乐类和悲伤类;所述词频统计模块包括均值计算模块,根据所述类别强度确定歌词所属类别,并对同一歌词计算其类别强度 的平均值;快乐类歌词库生成模块,将歌词所属类别为快乐类的歌词的类别强度平均值与预设快 乐强度阈值比较,提取类别强度平均值大于所述预设快乐强度阈值的歌词,生成快乐类歌 词库;悲伤类歌词库生成模块,将歌词所属类别为悲伤类的歌词的类别强度平均值与预设悲 伤强度阈值比较,提取类别强度平均值小于所述预设悲伤强度阈值的歌词;词频度统计模块,分别对快乐类歌词库和悲伤类歌词库中的歌词进行断词处理,利用 词频统计工具,统计所有词的词频度。
12.根据权利要求11所述的情感关键词提取系统,其特征在于,还包括词频度表生成模块,用于去除所述快乐类歌词库和悲伤类歌词库中词频度小于等于预 设词频度阈值的词以及预先设定的非情感类词语,分别生成快乐类词频度表和悲伤类词频 度表。
13.根据权利要求12所述的情感关键词提取系统,其特征在于,所述提取模块包括 词频度获取模块,用于分别获取每个词在快乐类词频表的词频度和在悲伤类词频表中的词频度;模糊集定义模块,定义快乐和悲伤两个模糊集;隶属度计算模块,分别计算快乐类词频表和悲伤类词频表中的每个词属于快乐模糊集 的隶属度及属于悲伤模糊集的隶属度;模糊熵计算模块,根据所述隶属度分别计算快乐类词频表和悲伤类词频表中每个词的3模糊熵;关键词提取模块,根据所述模糊熵提取情感关键词。
14.根据权利要求13所述的情感关键词提取系统,其特征在于,所述关键词提取模块 进一步用于从所述快乐类词频表中提取模糊熵小于等于预设第一阈值的词为快乐类情感 关键词,从所述悲伤类词频表中提取模糊熵小于等于预设第二阈值的词为悲伤类情感关键词。
全文摘要
本发明提供了一种情感关键词提取方法及系统,所述方法包括从歌词库中获取歌词;对所述歌词进行预处理,得到处理后的歌词文本;获取基于情感分类模型对所述歌词文本的情感程度标注;根据所述情感程度标注统计歌词文本中的词的词频度;根据所述词频度提取情感关键词。本发明提供的方法及系统能应用在音乐情感识别中,从而提高音乐情感识别的效果。
文档编号G06F17/30GK101963972SQ20101021681
公开日2011年2月2日 申请日期2010年7月1日 优先权日2010年7月1日
发明者刘轶, 王苗, 谢湘, 黄石磊 申请人:深港产学研基地产业发展中心;深圳北科瑞声科技有限公司;北京理工大学深圳研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1