1.一种基于微博文本的人物性格刻画方法,其特征在于,考虑微博文本的口语化和实时性,从微博用户的情绪特征和语言特征两个维度对人物性格进行刻画;
具体步骤如下:
步骤一、针对某个用户,利用情绪词典对该用户在某段时间内发的每一条微博文本标注情绪标签;
情绪词典包括高兴、生气、悲伤、厌恶和焦虑五种情绪;
步骤二、根据情绪标签,统计该用户每天冲动类和抑郁类情绪的数量;
冲动类包括生气和厌恶两种情绪,抑郁类包括悲伤和焦虑两种情绪;
步骤三、根据该用户冲动类和抑郁类情绪的数量,计算该用户冲动类情绪的主导天数以及抑郁类情绪的主导天数;
步骤四、根据该用户冲动类情绪的主导天数以及抑郁类情绪的主导天数,从情绪特征角度对用户进行标记;
步骤五、利用话题词典对该用户的所有微博文本进行关注话题分类,并选择该用户的关注话题;
话题词典有政治类、民生类、军事类、娱乐类和体育类;
步骤六、判断该用户选取的关注话题中,是否包括政治类和民生类,如果有,利用批判性词典对该用户进行语言特征刻画;否则,不做任何处理;
批判性词典包括的词语为表达讽刺、批评语气的词语;
步骤七、融合该用户的情绪特征和语言特征刻画该用户的性格,得到该用户的人物性格标签。
2.如权利要求1所述的一种基于微博文本的人物性格刻画方法,其特征在于,所述的步骤一中,利用微博情绪词典对微博文本进行情绪标注,具体为:
首先,计算每一条微博文本属于某种情绪的权重w_sentiment,公式如下:
w_s表示某条微博文本中的词语word在情绪词典中对应的权重;词语word是指情绪词典中某种情绪包括的具体体现词;count(word)表示该词语word在某条微博文本中出现的频数;
然后,比较每一条微博文本在五类情绪下的权重,取权重最高的情绪作为该微博文本的情绪标签。
3.如权利要求1所述的一种基于微博文本的人物性格刻画方法,其特征在于,所述的步骤三,具体为:
步骤301、计算该用户冲动类和抑郁类情绪的微博数量之和,占该用户当天发的所有微博总数的比例;
步骤302、判断步骤301的占比是否大于等于阈值R,如果是,进入步骤303,否则,不做任何处理;
阈值R根据专家经验设定,或者根据微博文本数据的统计数量得到的经验值;
步骤303、将该用户冲动类情绪占比与抑郁类情绪的占比作差;
步骤304、判断得到的差值绝对值是否大于等于阈值M,如果是,进入步骤305;否则,不做任何处理;
阈值M根据专家经验设定,或者根据微博文本数据的统计数量得到的经验值;
步骤305、判断冲动类情绪占比是否大于抑郁类情绪占比,如果是,将该用户冲动类情绪的天数累加1天;否则,将该用户抑郁类情绪的天数累加1天。
4.如权利要求1所述的一种基于微博文本的人物性格刻画方法,其特征在于,所述的步骤四,具体为:
对于冲动类情绪主导天数大于抑郁类情绪主导天数的情况,判断冲动类情绪主导天数是否大于或等于阈值D,如果是,则标记该用户为“易冲动”;否则,标记该用户为“情绪稳定”;
阈值D根据专家经验设定,或者根据微博文本数据的统计数量得到的经验值;
对于抑郁类情绪主导天数大于冲动类情绪主导天数的情况,判断抑郁类情绪主导天数是否大于或等于阈值D,如果是,则标记该用户为“易抑郁”,否则,则标记该用户为“情绪稳定”;
当冲动类情绪主导天数等于抑郁类情绪主导天数,标记该用户为“情绪稳定”。
5.如权利要求1所述的一种基于微博文本的人物性格刻画方法,其特征在于,所述的步骤四中,利用微博话题词典对用户进行关注话题的分类,具体为:
首先,计算用户的微博文本所涉及各种类型的话题的权重公式w_topic,如下:
w_t表示某个用户在某段时间内发布的所有微博文本中的词语word在话题词典中对应的权重;
然后,针对某个用户,分别计算该用户在某段时间内发布的所有微博涉及的五种话题的权重,对五种话题的权重进行排序,取权重较高的前N个话题作为该用户微博文本所关注的话题;N大于等于1,小于等于3。
6.如权利要求1所述的一种基于微博文本的人物性格刻画方法,其特征在于,所述的步骤六,具体为:
统计该用户在某段时间内发布的所有微博文本,计算微博文本中出现的批判性词典中包括的词语,判断出现不同词语的个数是否大于或等于阈值K,如果是,将该用户标记为“批判型”,否则,将用户标记为“其他”;
阈值K根据专家经验设定,或者根据微博文本数据的统计数量得到的经验值。
7.如权利要求1所述的一种基于微博文本的人物性格刻画方法,其特征在于,所述的步骤七,根据下表所示的组合方法,融合用户的情绪特征和语言特征刻画该用户的性格,具体为:
最终得到的人物性格标签有“急躁型”、“悲观型”、“批判型”、“冲动型”、“抑郁型”和“稳定型”。