一种基于网页文本的学者观点抽取方法与流程

文档序号:18740716发布日期:2019-09-21 01:44阅读:来源:国知局

技术特征:

1.一种基于网页文本的学者观点抽取方法,其特征在于,包括以下步骤:

步骤A.学者网页信息采集:用户提供学者列表及各个学者的单位名称,以每位学者的姓名、所在单位的基本信息为检索关键词,通过网络爬虫技术,自动地从大学和研究所的官方主页、学者个人主页、百度百科、学术文献网网络渠道获取与所述学者网页信息,并将所述学者网页信息存储于学者原始信息数据库中;

步骤B.文本数据预处理:对步骤A得到的所述学者网页信息中的文本数据进行清洗,删去与观点不相关的文本;同时对一些特殊字符进行特别地处理,特殊文符包括单引号、双引号和空白字符,以减少噪音数据的影响;然后对学者的每篇网页文本,根据标点符号来进行语句的分割;经过分割后,一个网页文本被分割成多个语句;对于每个语句,用开放的工具包进行分词、词性标注、句法分析和命名实体识别,把抽取到的各种信息存储到数据库中;

步骤C.观点抽取分析:对于步骤B中分割的每条语句,基于句法分析结果识别所述语句是否为观点句,观点句表示某人发表的对某件事或某个对象的看法和立场的语句;如果是观点语句,则提取观点持有者,观点持有者表示发表该观点句的人物名称;如果观点持有者不属于用户提供的学者列表中的人物,则删除;然后,基于情感词典来分析观点句的情感倾向及极性强度,再结合转折型关联词、否定短语信息计算观点句的情感值,该情感值是一个整数值,用来表示观点语句的情感强度大小;基于观点语句的情感值可对观点语句进行排序;

步骤D.观点摘要生成:基于步骤C抽取的网页文本中的观点语句、观点持有者及观点语句的情感值,对网页中同一个学者发表的所有观点语句进行聚类,对每个聚类中观点语句基于情感值进行排序,然后按照顺序进行合并,组成一个观点段落,然后对所有聚类生成的观点段落进行合并,形成该学者的观点摘要。

2.根据权利要求1所述的一种基于网页文本的学者观点抽取方法,其特征在于:步骤B中,对于学者的每篇网页文,根据“。”、“!”、“?”、“;”、“...”标点符号将文本分割为多个语句,对于每个语句,用开放的工具包来进行分词、词性标注任务,根据词性,进行人名识别、情感词抽取。

3.根据权利要求1所述的一种基于网页文本的学者观点抽取方法,其特征在于:步骤C中,基于句法分析结果识别当前语句是否为观点句,由句子的句法树可得到句子的主语部分、谓语部分和宾语部分,如果这条语句的谓语为下列词语中的一个:“认为”、“强调”、“指出”、“提出了”,则该条语句为观点句,识别出观点句后再抽取发表该观点的人物名称,即观点持有者:如果该语句为主动语态且主语为人名,则该人物为观点持有者;如果该语句为被动语句且宾语为人名,则该人名为观点持有者。

4.根据权利要求1所述的一种基于网页文本的学者观点抽取方法,其特征在于:步骤C中,对每个观点句的情感分析及情感极性强度值计算,考虑了转折型关联词、否定短语对观点句情感值的影响,利用转折句型抽取观点句中能有效表达情感信息的语句部分,然后利用否定词修正情感值的计算结果。

5.根据权利要求1所述的一种基于网页文本的学者观点抽取方法,其特征在于:步骤D中,对学者在同一个网页中的所有观点语句具体为:利用聚类算法对学者在同一个网页中的所有观点语句进行聚类,对每个聚类中的语句根据情感倾向和情感值进行排序,对排序好的语句进行连接得到一个段落;最后对所有聚类的段落进行合并形成观点摘要。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1