本发明涉及电影评论信息推荐技术领域,具体涉及一种基于情感分析的电影评论信息检索系统及方法。
背景技术:
随着信息技术的发展,电影在互联网上慢慢传播,信息时代也随之爆发。电影作为人们闲暇时必不可少的娱乐活动,电影的传播路径表现出不同的特征。传统电影的推荐方法虽然操作简单,精度高,但是由于有些制片方为了盈利而刷分的现象,导致评分可信度下降,使用户不能准确的选择健康、有深意且质量高的电影。
技术实现要素:
为解决上述技术问题,本发明提出了一种基于情感分析的电影评论信息检索系统及方法,以达到使用户通过查看电影评论可以准确的选择优质的电影,提高用户观质量的目的。
为达到上述目的,本发明的技术方案如下:一种基于情感分析的电影评论信息检索系统,所述系统包括:评论信息搜索模块、评论信息爬取模块、评论信息清理模块、评论信息提取模块、评论信息分析模块、评论信息推荐模块和评论信息查看模块;
所述评论信息搜索模块,用于用户搜索电影名称或电影类别;
所述评论信息爬取模块,用于用户设置爬取的网站、评论页数和电影上映时间,并根据设置的网站、评论页数和电影上映时间对评论信息进行爬取;
所述评论信息清理模块,用于清理爬取到的数据中评论信息以外的数据;
所述评论信息提取模块,用于提取相关的评论信息并将评论信息写入到文本中;
所述评论信息分析模块,用于分析文本中评论信息的情感和质量;
所述评论信息推荐模块,用于在用户搜索的类别中为用户推荐评论信息较好的电影;
所述评论信息查看模块,用于用户查看电影的评论信息。
进一步地,所述评论信息搜索模块中的搜索方式包括精确搜索和模糊搜索。
进一步地,所述评论信息爬取模块通过网络爬虫技术爬取用户设置的网站上的电影评论信息。
一种基于情感分析的电影评论信息检索方法,所述方法步骤如下:用户设置需要爬取的网站、评论页数和电影上映时间;系统根据用户设置的条件爬取对应网站上的评论信息并将评论信息存储至本地;对存储至本地的评论信息进行清理;提取清理后的评论信息导入至文本中;分析出文本中评论信息的情感和质量供用户搜索和查看。
进一步地,所述系统根据用户设置的条件爬取对应网站上的评论信息的方法是:利用beautifulsoup4算法对设置网站上的评论信息进行爬取。
进一步地,所述提取清理后的评论信息导入至文本中的方法是:通过pymysql将评论信息导入到文本中。
进一步地,所述分析出文本中评论信息的情感和质量的方法是:通过snownlp算法判断文本中单词出现的概率,从而分析出评论信息的情感和质量。
本发明具有如下优点:
(1).本发明通过爬取网站上电影相关的评论信息,并对评论信息进行清理和提取,分析出评论的情感和质量,从而使用户准确的了解电影,提高用户选择电影的准确性和观影质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例公开的基于情感分析的电影评论信息检索系统功能模块图;
图2为本发明实施例公开的基于情感分析的电影评论信息检索方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供了一种基于情感分析的电影评论信息检索系统及方法,其工作原理是通过爬取网站上电影相关的评论信息,并对评论信息进行清理和提取,分析出评论的情感和质量,以达到使用户通过查看电影评论可以准确的选择优质的电影,提高用户观质量的目的。
下面结合实施例和具体实施方式对本发明作进一步详细的说明。
如图1和图2所示,一种基于情感分析的电影评论信息检索系统,所述系统包括:评论信息搜索模块、评论信息爬取模块、评论信息清理模块、评论信息提取模块、评论信息分析模块、评论信息推荐模块和评论信息查看模块;
所述评论信息搜索模块,用于用户搜索电影名称或电影类别;
所述评论信息爬取模块,用于用户设置爬取的网站、评论页数和电影上映时间,并根据设置的网站、评论页数和电影上映时间对评论信息进行爬取;
所述评论信息清理模块,用于清理爬取到的数据中评论信息以外的数据;
所述评论信息提取模块,用于提取相关的评论信息并将评论信息写入到文本中;
所述评论信息分析模块,用于分析文本中评论信息的情感和质量;
所述评论信息推荐模块,用于在用户搜索的类别中为用户推荐评论信息较好的电影;
所述评论信息查看模块,用于用户查看电影的评论信息。
其中,所述系统还包括:注册模块、登录模块、密码找回模块和个人信息管理模块;所述注册模块,用于用于填写相关信息注册成为本系统的用户;所述登录模块,用于客户登录系统进行搜索;所述密码找回模块,用于用户设置安全问题,从而找回密码;所述个人信息管理模块,用于管理用户信息。
其中,所述评论信息搜索模块中的搜索方式包括精确搜索和模糊搜索。
其中,所述评论信息爬取模块通过网络爬虫技术爬取用户设置的网站上的电影评论信息。
一种基于情感分析的电影评论信息检索方法,所述方法步骤如下:用户设置需要爬取的网站、评论页数和电影上映时间;系统根据用户设置的条件爬取对应网站上的评论信息并将评论信息存储至本地;对存储至本地的评论信息进行清理;提取清理后的评论信息导入至文本中;分析出文本中评论信息的情感和质量供用户搜索和查看。
其中,所述系统根据用户设置的条件爬取对应网站上的评论信息的方法是:利用beautifulsoup4算法对设置网站上的评论信息进行爬取。
其中,所述提取清理后的评论信息导入至文本中的方法是:通过pymysql将评论信息导入到.txt的文本中。
其中,所述分析出文本中评论信息的情感和质量的方法是:通过snownlp算法判断文本中单词出现的概率,从而分析出评论信息的情感和质量。
用户注册系统后,设置想要查看的网站、评论页数和电影上映时间等与电影评论信息相关的条件,系统爬取评论信息后对评论信息进行整理和提取,分析出评论信息的情感和质量,用户可在系统上查看有有价值的电影评论,客户模糊查询时,系统自动为用户推荐电影评论和相关图片的信息。
以上所述的仅是本发明所公开的一种基于情感分析的电影评论信息检索系统及方法的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。