一种对医院的在线评论进行归纳和分类的方法

文档序号:9766008阅读:443来源:国知局
一种对医院的在线评论进行归纳和分类的方法
【技术领域】
[0001]本发明涉及中文句法分析与词性标注、情感词分析、图数据库领域,具体涉及一种对医院的在线评论进行归纳和分类的方法。
【背景技术】
[0002]越来越多的用户会在网上对就诊的医院做出线上评价。用户的评价可以作为衡量医院服务的标杆,供其他用户参阅。但是众多的评论内容,不能够让用户直观快速地感受到用户对该医院的整体印象。鉴于上述情况,本专利专注于如何快速有效地对某个医院的众多的在线评论进行情感词分析,合并具有相同感情倾向的内容,归纳出评论用户对该医院的整体印象,实现对评论内容的分类,方便用户快速查阅和分类查阅。

【发明内容】

[0003]本发明的目的是基于情感词的同(近)义词词典,利用句法分析和词性标注工具,对用户对医院做出的评论内容进行归纳和分类,从而得到对医院的整体印象。
[0004]本发明的目的是通过以下技术方案来实现的:
[0005]—种对医院在线评论进行归纳和分类的方法,包括以下步骤:
[0006]I)从互联网上抓取对目标医院的评论内容,存储到关系型数据库中;
[0007]2)使用正则表达式对关系型数据库中的每一条评论内容进行分句,得到若干条短句,把短句存储到数据库中,并建立起短句和评论之间的映射关系;
[0008]3)使用句法分析工具,对数据库中的短句分别进行句法分析和词性标注,将相邻的名词进行合并;
[0009]4)利用预先定义的同义词词典,对形容词进行同义词或近义词替换,并且使用高频的情感词替换低频的情感词,以提高对评论内容的概括性;将替换后的名词和情感词存储到数据库中,并建立起和短句之间的映射。
[0010]5)根据目标医院的名称,从库中选取出现频率最高的若干个短语作为医院的整体印象。
[0011]作为优选,步骤5)中所述的若干个短语形式为名词+情感词。
[0012]作为优选,所述的互联网包括医院官网或点评类网站。
[0013]作为优选,所述的评论内容结构化存储到关系型数据库中,包括评论的ID、医院名称、评价内容和评论日期。
[0014]作为优选,所述的预先定义的同义词词典为哈工大同义词词林和/或百度百科。
[0015]作为优选,所述的步骤4)中,对形容词进行同义词或近义词替换前,首先基于哈工大同义词词林或其他词库,使用Neo4j图数据库,建立起同义词或近义词之间的关联;对图进行遍历后,得到从目标词开始所有能够关联的词,作为同义词或近义词。
[0016]作为优选,所述的步骤4)中,对形容词进行同义词或近义词替换后,如果否定副词之后紧跟形容词,则将二者合并作为一个形容词。
[0017]本发明与现有技术相比具有的有益效果:
[0018]1.对评论的概括过程简单高效,代价低,适合海量评论的处理;
[0019]2.所采用的方法具有一般性,可广泛适用于其它对象的短文本评论的归纳和分类,比如电商中的商品评论。
[0020]3.基于图数据库,实现准确而且快速的同义词推理和判断。
【附图说明】
[0021]图1为一种对医院的在线评论进行归纳和分类的方法的整体流程图;
[0022]图2为实施例中词语“不错”的同义词示例
[0023]图3为实施例中整体印象的效果示例。
【具体实施方式】
[0024]以下结合附图和具体实施例对本发明作进一步详细说明。
[0025]一种对医院的在线评论进行归纳和分类的方法,包括以下步骤:
[0026](I)数据采集
[0027]使用爬虫,从医院官网、点评类网站上抓取用户对医院的评论文本,并进行结构化存储到关系型数据库中。
[0028](2)对评价进行分句
[0029]使用正则表达式,把库中的每一条评论内容分成多个短句,并进行持久化存储,建立起短句和原评论内容之间的映射关系。
[0030](3)词性标注
[0031]使用自然语言处理工具,对数据库中的各个短句进行分词并作自动化词性标注。由于用户的评论偏重于口语,而且多是“主语+补语”形式,如“环境不错”,所以,处理过程中,更关注名词词性、形容词词性以及否定副词。词性标注之后,把相邻的名词合并成一个名词。
[0032](4)同义词替换
[0033]为了能够对评价内容准确概括,需要对评论中的具有语义倾向的情感词(主要是形容词)做同义词替换,如“好”和“不错”,表达的是同样的感情色彩。
[0034]为了实现同义词替换,需要预定义同义词词典,词典中的同义词来源于哈工大同义词词林和/或百度百科。同义词词典在实现时存在如下冋题:A和B是同义词,13和0是同义词,但结构化存储还不能推出A和C是同义词,还需要使用图数据库来实现同义词词典,同一个图(Graph)中的词汇被认为是同义词。具体方法为:首先基于哈工大同义词词林或其他词库,使用Neo4j图数据库,建立起同义词或近义词之间的关联;对图进行遍历后,得到从词A开始所有能够关联的词,作为同义词或近义词。
[0035]在进行同义词替换时,使用高频的情感词替换低频的情感词,以提高对评论内容的概括性。
[0036]—些短句中会出现否定副词,而这些否定副词影响句子的语义倾向。进行同义词替换之后,如果否定副词之后紧跟形容词,那么需要把二者合并,作为一个形容词。
[0037]将替换后的词对(合并后的名词+高频情感词)保存到关系型数据库中,并建立起和短句之间的映射。
[0038](5)印象概况
[0039]输入医院的名称,从库中选取若干个高频短语(名词+形容词)作为患者对该医院的整体印象,该做法可以减轻句法分析等文本处理过程中的错误对最终结果的影响。
[0040]实施例
[0041]如图1所示,本发明一种对医院的在线评论进行归纳和分类的方法,包括以下步骤:
[0042](I)基于哈工大同义词词林等词库,使用Neo4j图数据库,建立起同义词或近义词之间的关联,比如:词A和词B是同(近)义词,则在图数据库中,词A和词B之间有关联;词B和词C是同(近)义词,词B和词C之间也有关联;那么,词A和词C也被认为是同(近)义词。输入词A,对图进行遍历,则可以得到从词A开始所有能够关联的词,如图2所示。
[0043](2)使用爬虫,从互联网上抓取患者对医院的评价内容,进行结构化存储到关系型数据库中,包括评论的ID、医院名称、评价内容、评论日期等。
[0044](3)使用正则表达式(〃[??.。!!;;,,::?\\n]〃),对步骤(2)中得到的评论文本进行分句,得到若干短句。使用Ans j自然语言处理工具对每个短句进行句法分析和词性标注,鉴于评论内容具有口语化且结构往往是“主语+补语”的特点,词性标注后,只关注名词和形容词词性。句法分析后,将相邻的名词进行合并得到一个名词,使用步骤(I)中建立的同(近)义词词典对出现的形容词进行替换,原则是:使用高频的形容词替换低频的形容词。这样做是为了减少最终归纳概括出的印象的结果,实现对患者评论的高度概括。对形容词替换之后,还需要对可能存在的否定副词进行替换。如果否定副词后面紧跟着形容词,那么要把二者合并,作为一个形容词。最后,将得到的短语(名词+替换后的形容词)存储到关系型数据库中。
[0045](4)输入医院名称,从库中选取若干个相关的高频的“名词+形容词”作为医院的整体印象。如图3所示,整体印象可描述为医院好、医生好、态度差等词对。该做法可以避免护法分析和词性标注过程中文本处理失误对最终结果的影响。
【主权项】
1.一种对医院在线评论进行归纳和分类的方法,其特征在于,包括以下步骤: 1)从互联网上抓取对目标医院的评论内容,存储到关系型数据库中; 2)使用正则表达式对关系型数据库中的每一条评论内容进行分句,得到若干条短句,把短句存储到数据库中,并建立起短句和评论之间的映射关系; 3)使用句法分析工具,对数据库中的短句分别进行句法分析和词性标注,将相邻的名词进行合并; 4)利用预先定义的同义词词典,对形容词进行同义词或近义词替换,并且使用高频的情感词替换低频的情感词,以提高对评论内容的概括性;将替换后的名词和情感词存储到数据库中,并建立起和短句之间的映射。 5)根据目标医院的名称,从库中选取出现频率最高的若干个短语作为医院的整体印象。2.如权利要求1所述的对医院在线评论进行归纳和分类的方法,其特征在于步骤5)中所述的若干个短语形式为名词+情感词。3.如权利要求1所述的对医院在线评论进行归纳和分类的方法,其特征在于所述的互联网包括医院官网或点评类网站。4.如权利要求1所述的对医院在线评论进行归纳和分类的方法,其特征在于所述的评论内容结构化存储到关系型数据库中,包括评论的ID、医院名称、评价内容和评论日期。5.如权利要求1所述的对医院在线评论进行归纳和分类的方法,其特征在于所述的预先定义的同义词词典为哈工大同义词词林和/或百度百科。6.如权利要求1所述的对医院在线评论进行归纳和分类的方法,其特征在于所述的步骤4)中,对形容词进行同义词或近义词替换前,首先基于哈工大同义词词林或其他词库,使用Neo4j图数据库,建立起同义词或近义词之间的关联;对图进行遍历后,得到从目标词开始所有能够关联的词,作为同义词或近义词。7.如权利要求1所述的对医院在线评论进行归纳和分类的方法,其特征在于所述的步骤4)中,对形容词进行同义词或近义词替换后,如果否定副词之后紧跟形容词,则将二者合并作为一个形容词。
【专利摘要】本发明公开了一种对医院的在线评论进行归纳和分类的方法,旨在对患者对医院做出的众多的线上评价进行归纳,概括出对医院的整体印象,实现对评论的分类。首先,使用正则表达式把抓取的中文评论内容分割成多个短句。然后对每个短句进行分词、词性标注,将相邻的名词合并成一个名词。再基于同义词词典,对形容词进行替换,原则是高频词替换低频词。接着把得到的“名词+形容词”短语存入到数据库中,同时建立起短语、短句、评论之间的映射关系。输入医院的名称,从库中选择出若干个高频短语作为对医院的整体评价。本发明的方法可以对医院的饿在线评论进行精简,省去阅读众多评论的麻烦,同时方便分类阅读评论,从而为就医选择和医院选择提供便利。
【IPC分类】G06F17/30, G06F17/27, G06F17/22
【公开号】CN105528410
【申请号】CN201510883561
【发明人】张引, 王一兵, 张锐
【申请人】浙江大学
【公开日】2016年4月27日
【申请日】2015年12月5日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1