本发明涉及信息资源技术领域,尤其涉及一种基于情感倾向分析的文章评估方法和系统。
背景技术:
随着科学技术和互联网技术的不断发展,目前的互联网信息已经处于一种不规则增长态势之中,互联网已成为全球最大的信息资源库,它在给人类的生活和工作带来革命性变化的同时,也引发了“信息泛滥”“信息迷航”等问题,随着使用互联网的人员增加,大家在作为信息使用者的同时也成为了信息的生产者,那么,如何整理、挖掘、组织出高质量的且用户需要的信息是互联网发展当前需要解决的问题。
由于互联网具有高度互动性、匿名性、便利性、时效性和开放性特征,越来越多的信息使用者在使用信息之后会通过在线评价系统发表自己对文章、数据信息、网页的评价,表达自己阅读使用情况以及各方面情感体会,而这些阅读使用情况和情感体会往往会体现这些数据信息的质量,这些价和使用时的心得,很大程度上影响了其他使用者是否阅读和使用这些数据信息。
技术实现要素:
基于背景技术存在的技术问题,本发明提出了一种基于情感倾向分析的文章评估方法和系统;
本发明提出的一种基于情感倾向分析的文章评估方法,包括:
s1、利用爬虫抓取、弹幕识别和语音识别获取目标文章评价数据;
s2、提取目标文章评价数据中的情感倾向特征,得到目标文章的评价词条集;
s3、根据预设评价词条的权值计算目标文章的评价词条集加权总分,得到目标文章推荐分;
s4、可视化展示目标文章的评价词条集和目标文章推荐分。
优选地,在步骤s2中,所述情感倾向特征词,包括:情感词、评价词和程度词;
优选地,所述情感词包括正面情感词和负面情感词;所述评价词包括正面评价词和负面评价词。
优选地,在步骤s2中,提取目标文章评价数据中的情感倾向特征词之前,还包括:建立情感词词典、评价词词典、程度词词典。
优选地,步骤s2,具体包括:
通过特征提取或关键词抽取,提取目标文章评价数据中的情感倾向特征;
通过向量空间模型将情感倾向特征向量化;
计算情感倾向特征之间的相似度,并选择合适算法进行聚类,得到目标文章的评价词条集。
优选地,步骤s4,具体包括:通过柱状图、雷达图、曲线图中一种或多种形式展示目标文章的评价词条集和目标文章推荐分。
一种基于情感倾向分析的文章评估系统,包括:
数据获取模块,用于利用爬虫抓取、弹幕识别和语音识别获取目标文章评价数据;
特征提取模块,用于提取目标文章评价数据中的情感倾向特征,得到目标文章的评价词条集;
推荐分生成模块,用于根据预设评价词条的权值计算目标文章的评价词条集加权总分,得到目标文章推荐分;
展示模块,用于可视化展示目标文章的评价词条集和目标文章推荐分。
优选地,所述数据获取模块,具体用于:所述情感倾向特征词包括:情感词、评价词和程度词;
优选地,所述情感词包括正面情感词和负面情感词;所述评价词包括正面评价词和负面评价词。
优选地,还包括词典建立模块,与特征提取模块连接,用于在提取目标文章评价数据中的情感倾向特征之前,建立情感词词典、评价词词典、程度词词典。
优选地,所述特征提取模块,具体用于:
通过特征提取或关键词抽取,提取目标文章评价数据中的情感倾向特征;
通过向量空间模型将情感倾向特征向量化;
计算情感倾向特征之间的相似度,并选择合适算法进行聚类,得到目标文章的评价词条集。
优选地,所述展示模块,具体用于:通过柱状图、雷达图、曲线图中一种或多种形式展示目标文章的评价词条集和目标文章推荐分。
本发明通过获取目标文章评价数据,提取目标文章评价数据中的情感倾向特征,得到目标文章的评价词条集,根据预设评价词条的权值计算目标文章的评价词条集加权总分,得到目标文章推荐分,向用户可视化展示目标文章的评价词条集和目标文章推荐分,如此,通过提取基于自然语言的用户对文章评论中的情感倾向特征,得到对目标文章的评价词条集,客观的体现了目标文章的质量,给其他用户提供阅读及使用指导方面的参考价值,通过柱状图、雷达图、曲线图的形式展示目标文章的评价词条集和目标文章推荐分,方便用户从海量的文章及文章评价中更快地找到符合自己条件的文章及文章评价,节省用户的时间,提高检索效率,方便用户快速做出阅读使用决策,提升用户的用户体验。
附图说明
图1为本发明提出的一种基于情感倾向分析的文章评估方法的流程示意图;
图2为本发明提出的一种基于情感倾向分析的文章评估系统的模块示意图。
具体实施方式
参照图1,本发明提出的一种基于情感倾向分析的文章评估方法,包括:
s1、利用爬虫抓取、弹幕识别和语音识别获取目标文章评价数据;
在具体方案中,由于用户在阅读互联网中各类文章时,对文章进行评论的方式不尽相同,所以需要通过多种获取方式,全方面获取目标文章评价数据,提高评论数据获取效率。
s2、提取目标文章评价数据中的情感倾向特征,得到目标文章的评价词条集;其中,所述情感倾向特征词,包括:情感词、评价词和程度词;进一步的,所述情感词包括正面情感词和负面情感词;所述评价词包括正面评价词和负面评价词;具体的,提取目标文章评价数据中的情感倾向特征词之前,还包括:建立情感词词典、评价词词典、程度词词典。
本步骤,具体包括:通过特征提取或关键词抽取,提取目标文章评价数据中的情感倾向特征;通过向量空间模型将情感倾向特征向量化;计算情感倾向特征之间的相似度,并选择合适算法进行聚类,得到目标文章的评价词条集。
在具体方案中,通过特征提取或关键词抽取,提取目标文章评价数据中的情感倾向特征,得到目标文章的评价词条集,这些词条集可清晰的表现用户阅读文章后的情感和评价,在特征提取或关键词抽取,提取目标文章评价数据中的情感倾向特征之前,利用大量的测试文档作为训练集,通过机器学习算法不断反馈、学习提高情感倾向特征提取的性能,直至达到预定目标。
s3、根据预设评价词条的权值计算目标文章的评价词条集加权总分,得到目标文章推荐分;
在具体方案中,根据预设评价词条的权值,计算文章的评价词条集加权总分,以表示文章的评价词条集中各文章的评价词条的重要性。
s4、可视化展示目标文章的评价词条集和目标文章推荐分。
本步骤,具体包括:通过柱状图、雷达图、曲线图中一种或多种形式展示目标文章的评价词条集和目标文章推荐分。
在具体方案中,通过柱状图、雷达图、曲线图的形式展示目标文章的评价词条集和目标文章推荐分,方便用户从海量的文章及文章评价中更快地找到符合自己条件的文章及文章评价。
参照图2,本发明提出的一种基于情感倾向分析的文章评估系统,包括:
数据获取模块,用于利用爬虫抓取、弹幕识别和语音识别获取目标文章评价数据;
在具体方案中,由于用户在阅读互联网中各类文章时,对文章进行评论的方式不尽相同,所以需要通过多种获取方式,全方面获取目标文章评价数据,提高评论数据获取效率。
特征提取模块,与数据获取模块连接,用于提取目标文章评价数据中的情感倾向特征,得到目标文章的评价词条集;其中,所述情感倾向特征词包括:情感词、评价词和程度词,具体的,所述情感词包括正面情感词和负面情感词;所述评价词包括正面评价词和负面评价词,特征提取模块,具体用于:通过特征提取或关键词抽取,提取目标文章评价数据中的情感倾向特征;通过向量空间模型将情感倾向特征向量化;计算情感倾向特征之间的相似度,并选择合适算法进行聚类,得到目标文章的评价词条集。
词典建立模块,与特征提取模块连接,用于在提取目标文章评价数据中的情感倾向特征之前,建立情感词词典、评价词词典、程度词词典。
在具体方案中,通过特征提取或关键词抽取,提取目标文章评价数据中的情感倾向特征,得到目标文章的评价词条集,这些词条集可清晰的表现用户阅读文章后的情感和评价,在特征提取或关键词抽取,提取目标文章评价数据中的情感倾向特征之前,利用大量的测试文档作为训练集,通过机器学习算法不断反馈、学习提高情感倾向特征提取的性能,直至达到预定目标。
推荐分生成模块,与特征提取模块连接,用于根据预设评价词条的权值计算目标文章的评价词条集加权总分,得到目标文章推荐分;
在具体方案中,根据预设评价词条的权值,计算文章的评价词条集加权总分,以表示文章的评价词条集中各文章的评价词条的重要性。
展示模块,与推荐分生成模块连接,用于可视化展示目标文章的评价词条集和目标文章推荐分,具体用于:通过柱状图、雷达图、曲线图中一种或多种形式展示目标文章的评价词条集和目标文章推荐分。
在具体方案中,通过柱状图、雷达图、曲线图的形式展示目标文章的评价词条集和目标文章推荐分,方便用户从海量的文章及文章评价中更快地找到符合自己条件的文章及文章评价。
本实施方式通过获取目标文章评价数据,提取目标文章评价数据中的情感倾向特征,得到目标文章的评价词条集,根据预设评价词条的权值计算目标文章的评价词条集加权总分,得到目标文章推荐分,向用户可视化展示目标文章的评价词条集和目标文章推荐分,如此,通过提取基于自然语言的用户对文章评论中的情感倾向特征,得到对目标文章的评价词条集,客观的体现了目标文章的质量,给其他用户提供阅读及使用指导方面的参考价值,通过柱状图、雷达图、曲线图的形式展示目标文章的评价词条集和目标文章推荐分,方便用户从海量的文章及文章评价中更快地找到符合自己条件的文章及文章评价,节省用户的时间,提高检索效率,方便用户快速做出阅读使用决策,提升用户的用户体验。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。