标签情感倾向量化方法与系统的制作方法

文档序号:6489589阅读:199来源:国知局
标签情感倾向量化方法与系统的制作方法
【专利摘要】标签,可以用来描述用户的特征也可以描述用户关注的对象。本发明的目标是实现对标签的量化,该量化结果可以反映出用户对自身特征或者外在某事物的喜好程度,根据此结果可以对用户进行相关信息(如商品、好友、新闻等等)的推荐,从而提高了推荐的针对性和准确度。为了实现上述目标,本发明提出了一种方法,该方法在对标签对应文本内容进行情感分析的基础上,并考虑用户地域、性格以及时效三个特征对标签进行量化处理,将综合结果按数值大小进行排列,以此确立推荐信息的优先、轻重关系。同时,本发明也提出了一种系统用于实现上述方法的功能。
【专利说明】标签情感倾向量化方法与系统
【技术领域】
[0001]本专利涉及用户兴趣标签的量化处理。更具体的,本发明涉及一个对用户的标签进行情感倾向量化的方法与系统。
【背景技术】
[0002]随着Web2.0的发展和社交网络的风起云涌,越来越多的内容由用户自己产生,在这些个性化的信息中,蕴涵着大量用户的个人喜好和关注对象。比如在微博客(MicroBlog)上,人们讨论着他们感兴趣的事物、新闻以及人物,并通过一定的社交活动比如关注好友、消息转发等等来表达自己的观点。对这些信息进行分析可以得到一组可以描述用户的特征标签。标签可以被用在多个领域,最常见的是推荐系统。那么,怎样提高标签利用的效率便成为摆在我们面前的客观问题。
[0003]为了解答上面提到的问题。我们首先来看看现有技术获得的标签都有哪些方法,以及这些方法的不足。
[0004]现有技术1:标签传播算法。其通过对用户的过往言论的分析以及社交行为(比如关注、转发、O等)并参考其好友的标签,可以得出该用户的标签。该标签可以描述用户的特征以及关注的对象。
[0005]现有技术2:(—种基于用户动机倾向性的标签推荐方法及系统[CN102262653A])。其提供一种基于用户动机倾向性的标签推荐方法,该方法可以识别用户标注网络信息资源的动机,推荐给用户一个符合用户意图的多个标签组成的列表。

【发明内容】

[0006]然而,第一种方法获得的标签只能说明用户对某类事物或话题关注度较高;而第二种方法虽然考虑了用户动机但并不含情感取向。
[0007]在利用以上技术获得的标签进行推荐的过程中,会发生将用户关注度高但其实反感的东西推荐给用户,造成错误推荐。因此,直接用现有技术获得的标签在推荐系统中不能进行精准推荐。
[0008]因此,在利用标签进行推荐时,需要考虑标签的情感取向。另外,标签具有一定的时效性,随着时间的变化,有些标签“不复存在”,并且不同时期人们对待同一个标签的情感态度也是不一样的,甚至可以由喜欢转憎恶。同时,不同性格的人情感表达方式与强度也不同,不同地域的人表达善恶美丑的词汇也不同。
[0009]为了提闻兴趣标签的实用性,因此,在对标签对应文本内容进行情感分析的基础上,考虑用户地域、性格以及时效三个特征对标签进行量化处理,按数值大小进行排列,以此确立推荐信息的优先、轻重关系。
[0010]本发明的目的是克服现有技术的不足之处。为了提高兴趣标签的实用性,在对标签对应文本内容进行情感分析的基础上,考虑用户地域、性格以及时效三个特征对标签进行量化处理,按数值大小进行排列,以此确立标签的优先、轻重关系,从而最终得出用户的喜好。
[0011]本发明的一个方面的标签情感倾向量化方法的特征在于,包括:用户信息和标签收集步骤,收集用户的所属地域信息、性格类型以及标签集合;标签对应文本收集步骤,针对上述标签集合中的每一个标签进行反向文本收集,得到与上述标签对应的文本集合;专属情感词词典构建步骤,根据上述用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典;标签情感表获得步骤,结合上述专属情感词词典依次对与上述标签对应的文本集合中的文本进行分析,得到上述标签的标签情感表,其中上述标签情感表包含情感词、该情感词的正负极性和权值;性格因子校正步骤,根据上述用户的性格类型,对上述标签情感表中权值大于规定的阈值的情感词进行性格因子校正;量化结果计算步骤,对校正后的上述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得上述标签的量化结果;和排序输出步骤,对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
[0012]另外,在本发明的另一方面的标签情感倾向量化方法中,还具有时间因子校正步骤,根据上述文本发布的时间至现在的经过时间,对上述标签情感表中的权值进行时间因子校正。
[0013]另外,在本发明的标签情感倾向量化方法中,上述用户的所属地域信息是用户自己在个人资料中标注的地域,和/或根据用户经常上网的地址获得的地域。上述用户的性格类型通过事先进行的性格测试问卷获得,和/或通过分析用户一段时期的言论特征获得。上述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
[0014]本发明的一个方面的标签情感倾向量化系统的特征在于,包括:输入模块,其收集用户的所属地域信息、性格类型以及用户社交数据;标签获取模块,其获取标签集合;标签对应文本收集模块,其针对由上述标签获取模块获取的上述标签集合中的每一个标签进行反向文本收集,得到与上述标签对应的文本集合;专属情感词词典构建模块,其根据由上述输入模块获得的上述用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典;标签情感表获得模块,其结合上述专属情感词词典依次对与上述标签对应的文本集合中的文本进行分析,得到上述标签的标签情感表,其中上述标签情感表包含情感词、该情感词的正负极性和权值;性格因子校正模块,其根据上述用户的性格类型,对由标签情感表获得模块获得的上述标签情感表中权值大于规定的阈值的情感词进行性格因子校正;量化结果计算模块,其对上述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得上述标签的量化结果;和输出模块,其对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
[0015]另外,在本发明的另一方面的标签情感倾向量化系统中,还具有时间因子校正模块,其根据上述文本发布的时间至现在的经过时间,对上述标签情感表中的权值进行时间因子校正。
[0016]另外,在本发明的标签情感倾向量化系统中,上述用户的所属地域信息是用户自己在个人资料中标注的地域,和/或根据用户经常上网的地址获得的地域。上述用户的性格类型通过事先进行的性格测试问卷获得,和/或通过分析用户一段时期的言论特征获得。上述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
[0017]发明效果
[0018]根据本发明,能够对基于用户特征属性对用户的标签进行标签情感倾向量化处理,该量化结果可以反映出用户对自身特征或者外在某事物的喜好程度,根据此结果可以对用户进行相关信息(如商品、好友、新闻等等)的推荐,从而提高了推荐的针对性和准确度。
【专利附图】

【附图说明】
[0019]图1是实施方式I的标签情感倾向量化系统的结构框图。
[0020]图2是实施方式I的标签情感倾向量化方法的流程图。
[0021]图3是标签获取方法的流程图。
[0022]图4是反向标签文本集合获取的方法的流程图。
[0023]图5是标签情感表的构造方法的流程图。
[0024]图6是实施方式2的标签情感倾向量化系统的结构框图。
[0025]图7是实施方式2的标签情感倾向量化方法的流程图。
[0026]图8是实施方式3的标签情感倾向量化系统的结构框图。
[0027]图9是实施方式3的标签情感倾向量化方法的流程图。
[0028]图10是实施方式4的标签情感倾向量化系统的结构框图。
[0029]图11是实施方式4的标签情感倾向量化方法的流程图。
【具体实施方式】
[0030]以下揭示实施方式,参照附图对本发明进行更详细的说明,但本发明并不限于这些实施方式。
[0031]〈实施方式1>
[0032]在本实施方式中,仅考虑用户的地域因素对标签进行情感量化处理。图1是本实施方式的标签情感倾向量化系统的结构框图。
[0033]如图1所示,本实施方式的标签情感倾向量化系统包括:输入模块101、标签获取模块102、标签对应文本收集模块103、专属情感词词典构建模块104、标签情感表获得模块105、量化结果计算模块108和输出模块109。
[0034]输入模块101用于自动/手动收集用户的所属地域信息、性格类型以及用户社交数据。这里用户社交数据主要是用户的发言内容,包括自己发表的也包括转发别人的。
[0035]标签获取模块102用于获取标签集合。标签的来源可以是用户自己标注的标签,也可以是收集用户言论以及社交行为提取的,也可以并用这两种方式。
[0036]标签对应文本收集模块103,针对由标签获取模块获取的标签集合中的每一个标签进行反向文本收集,得到与标签对应的文本集合。
[0037]专属情感词词典构建模块104,根据由输入模块获得的用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典。
[0038]标签情感表获得模块105,结合预先存储的共通情感词词典依次对与标签对应的文本集合中的文本进行分析,得到标签的标签情感表,其中标签情感表包含情感词、该情感词的正负极性和权值。
[0039]量化结果计算模块108,对标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得标签的量化结果。
[0040]输出模块109对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
[0041]下面对本实施方式的标签情感倾向量化方法的流程进行说明。
[0042](I)首先,收集用户的所属地域信息以及标签集合(步骤S 100)。
[0043]所属地域可以是用户自己在个人资料中标注的地域,也可以根据用户经常上网地址(GPS、手机签到、IP等)获得。
[0044]标签的来源可以是用户自己标注的标签,也可以是收集用户言论以及社交行为提取的。当然,也可以并用这两种方式。对于第二种标签提取方式,可以通过现有的分词工具对用户言论文本集合提取名词术语,然后用词频分析方法,例如TF-1DF等,将获得较高词频的词作为标签。标签 集合Tag=ITag1, Tag2,…,TagN},其中N为自然数,代表标签个数。
[0045]下面参照图3以并用这两种方式为例阐述标签的具体提取过程。首先,收集用户自己标注的标签并加入到标签集合中(S1300)。接着,收集用户的言论集合(S1301),之后通过现有的分词工具对用户言论文本集合提取名词术语(S1302),然后用词频分析方法,例如TF-1DF等,将获得较高词频的词作为标签(S1303),这里需要定义一个阈值Tfr,将词频大于该阈值的词汇列入标签集(S1304)。
[0046](2)接着,针对标签集合中的每一个标签进行反向文本收集,得到与标签对应的句子(文本)集合(步骤S 101)。参照图4叙述具体过程。首先以用户发言的消息为单位根据标签(关键字)进行检索(S1400),将含有标签的句子放入该标签的文本集合中(S1401)。与具体的标签Tagi对应的文本集合为S” Si= (S1, S2,...,SM}。其中M为文本集合的总句子数,即集合大小。
[0047](3)接着,依次对每一标签对应的句子集合的内容进行初步情感倾向量化。其方法是:根据用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典(步骤S102);接着结合专属情感词词典依次对与标签对应的文本集合中的文本进行分析,得到标签的标签情感表(该标签情感表包含情感词、该情感词的正负极性和权值)(步骤S103)。
[0048]下述的表1是共通情感词词典的一个具体例子,表中第I列记录情感词,第2列记录情感的极性,第3列记录初始权重值。表2是地域情感词词典的一个具体例子,保存具体某地方的情感词汇列表,表中第I列记录地域名称(按省命名),第2列记录情感词,第3列记录情感的极性,第4列记录初始权重值。当然本发明并不限定于这些具体例子。
[0049][表 I]
[0050]共通情感词词典
[0051]
【权利要求】
1.一种标签情感倾向量化方法,其特征在于,包括: 用户信息和标签收集步骤,收集用户的所属地域信息以及标签集合; 标签对应文本收集步骤,针对所述标签集合中的每一个标签进行反向文本收集,得到与所述标签对应的文本集合; 专属情感词词典构建步骤,根据所述用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典; 标签情感表获得步骤,结合所述专属情感词词典依次对与所述标签对应的文本集合中的文本进行分析,得到所述标签的标签情感表,其中所述标签情感表包含情感词、该情感词的正负极性和权值; 量化结果计算步骤,对所述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得所述标签的量化结果;和排序输出步骤,对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
2.—种标签情感倾向量化方法,其特征在于,包括: 用户信息和标签收集步骤,收集用户的性格类型以及标签集合; 标签对应文本收集步骤,针对所述标签集合中的每一个标签进行反向文本收集,得到与所述标签对应的文本集合; 标签情感表获得步骤,结合预先存储的共通情感词词典依次对与所述标签对应的文本集合中的文本进行分析,得到所述标签的标签情感表,其中所述标签情感表包含情感词、该情感词的正负极性和权值; 性格因子校正步骤,根据所述用户的性格类型,对所述标签情感表中权值大于规定的阈值的情感词进行性格因子校正; 量化结果计算步骤,在该量化结果计算步骤中,对校正后的所述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得所述标签的量化结果;和 排序输出步骤,对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
3.—种标签情感倾向量化方法,其特征在于,包括: 用户信息和标签收集步骤,收集用户的所属地域信息、性格类型以及标签集合; 标签对应文本收集步骤,针对所述标签集合中的每一个标签进行反向文本收集,得到与所述标签对应的文本集合; 专属情感词词典构建步骤,根据所述用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典; 标签情感表获得步骤,结合所述专属情感词词典依次对与所述标签对应的文本集合中的文本进行分析,得到所述标签的标签情感表,其中所述标签情感表包含情感词、该情感词的正负极性和权值; 性格因子校正步骤,根据所述用户的性格类型,对所述标签情感表中权值大于规定的阈值的情感词进行性格因子校正; 量化结果计算步骤,对校正后的所述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得所述标签的量化结果;和排序输出步骤,对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
4.如权利要求广3中任一项所述的标签情感倾向量化方法,其特征在于: 还具有时间因子校正步骤,根据所述文本发布的时间至现在的经过时间,对所述标签情感表中的权值进行时间因子校正。
5.如权利要求1或3所述的标签情感倾向量化方法,其特征在于: 所述用户的所属地域信息是用户自己在个人资料中标注的地域,和/或根据用户经常上网的地址获得的地域。
6.如权利要求2或3所述的标签情感倾向量化方法,其特征在于: 所述用户的性格类型通过事先进行的性格测试问卷获得,和/或通过分析用户一段时期的言论特征获得。
7.如权利要求广3中任一项所述的标签情感倾向量化方法,其特征在于: 所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
8.如权利要求4所述的标签情感倾向量化方法,其特征在于: 所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
9.如权利要求5所述的标签情感`倾向量化方法,其特征在于: 所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
10.如权利要求6所述的标签情感倾向量化方法,其特征在于: 所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
11.一种标签情感倾向量化系统,其特征在于,包括: 输入模块,其收集用户的所属地域信息以及用户社交数据; 标签获取模块,其获取标签集合; 标签对应文本收集模块,其针对由所述标签获取模块获取的所述标签集合中的每一个标签进行反向文本收集,得到与所述标签对应的文本集合; 专属情感词词典构建模块,其根据由所述输入模块获得的所述用户的所属地域信息,在预先存储的共通情感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典; 标签情感表获得模块,其结合所述专属情感词词典依次对与所述标签对应的文本集合中的文本进行分析,得到所述标签的标签情感表,其中所述标签情感表包含情感词、该情感词的正负极性和权值; 量化结果计算模块,其对由标签情感表获得模块获得的所述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得所述标签的量化结果;和 输出模块,其对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
12.—种标签情感倾向量化系统,其特征在于,包括: 输入模块,其收集用户的性格类型以及用户社交数据;标签获取模块,其获取标签集合; 标签对应文本收集模块,其针对由所述标签获取模块获取的所述标签集合中的每一个标签进行反向文本收集,得到与所述标签对应的文本集合; 标签情感表获得模块,其结合预先存储的共通情感词词典依次对与所述标签对应的文本集合中的文本进行分析,得到所述标签的标签情感表,其中所述标签情感表包含情感词、该情感词的正负极性和权值; 性格因子校正模块,其根据所述用户的性格类型,对由标签情感表获得模块获得的所述标签情感表中权值大于规定的阈值的情感词进行性格因子校正; 量化结果计算模块,其对所述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得所述标签的量化结果;和输出模块,其对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
13.—种标签情感倾向量化系统,其特征在于,包括: 输入模块,其收集用户的所属地域信息、性格类型以及用户社交数据; 标签获取模块,其获取标签集合; 标签对应文本收集模块,其针对由所述标签获取模块获取的所述标签集合中的每一个标签进行反向文本收集,得到与所述标签对应的文本集合; 专属情感词词典构建模块,其根据由所述输入模块获得的所述用户的所属地域信息,在预先存储的共通情 感词词典的基础上,添加所属地域的地域情感词词典,构成专属情感词词典; 标签情感表获得模块,其结合所述专属情感词词典依次对与所述标签对应的文本集合中的文本进行分析,得到所述标签的标签情感表,其中所述标签情感表包含情感词、该情感词的正负极性和权值; 性格因子校正模块,其根据所述用户的性格类型,对由标签情感表获得模块获得的所述标签情感表中权值大于规定的阈值的情感词进行性格因子校正; 量化结果计算模块,其对所述标签情感表中的所有情感词,基于每个情感词的正负极性按照正极性为加负极性为减的方式将权值作代数和,由此求得所述标签的量化结果;和输出模块,其对所有标签按照每个标签的量化结果的值的大小进行排序并输出。
14.如权利要求1f13中任一项所述的标签情感倾向量化系统,其特征在于: 还具有时间因子校正模块,其根据所述文本发布的时间至现在的经过时间,对所述标签情感表中的权值进行时间因子校正。
15.如权利要求11或13所述的标签情感倾向量化系统,其特征在于: 所述用户的所属地域信息是用户自己在个人资料中标注的地域,和/或根据用户经常上网的地址获得的地域。
16.如权利要求12或13所述的标签情感倾向量化系统,其特征在于: 所述用户的性格类型通过事先进行的性格测试问卷获得,和/或通过分析用户一段时期的言论特征获得。
17.如权利要求1f13中任一项所述的标签情感倾向量化系统,其特征在于: 所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
18.如权利要求14所述的标签情感倾向量化系统,其特征在于: 所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
19.如权利要求15所述的标签情感倾向量化系统,其特征在于: 所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。
20.如权利要求16所述的标签情感倾向量化系统,其特征在于: 所述标签的来源是用户自己标注的标签,和/或收集用户言论以及社交行为提取的标签。·
【文档编号】G06F17/30GK103714071SQ201210375356
【公开日】2014年4月9日 申请日期:2012年9月29日 优先权日:2012年9月29日
【发明者】张磊, 张玄, 尚磊 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1