一种基于网页文本的学者观点抽取方法与流程

文档序号：18740716发布日期：2019-09-21 01:44阅读：来源：国知局

技术特征：

1.一种基于网页文本的学者观点抽取方法，其特征在于，包括以下步骤：

步骤A.学者网页信息采集：用户提供学者列表及各个学者的单位名称，以每位学者的姓名、所在单位的基本信息为检索关键词，通过网络爬虫技术，自动地从大学和研究所的官方主页、学者个人主页、百度百科、学术文献网网络渠道获取与所述学者网页信息，并将所述学者网页信息存储于学者原始信息数据库中；

步骤B.文本数据预处理：对步骤A得到的所述学者网页信息中的文本数据进行清洗，删去与观点不相关的文本；同时对一些特殊字符进行特别地处理，特殊文符包括单引号、双引号和空白字符，以减少噪音数据的影响；然后对学者的每篇网页文本，根据标点符号来进行语句的分割；经过分割后，一个网页文本被分割成多个语句；对于每个语句，用开放的工具包进行分词、词性标注、句法分析和命名实体识别，把抽取到的各种信息存储到数据库中；

步骤C.观点抽取分析：对于步骤B中分割的每条语句，基于句法分析结果识别所述语句是否为观点句，观点句表示某人发表的对某件事或某个对象的看法和立场的语句；如果是观点语句，则提取观点持有者，观点持有者表示发表该观点句的人物名称；如果观点持有者不属于用户提供的学者列表中的人物，则删除；然后，基于情感词典来分析观点句的情感倾向及极性强度，再结合转折型关联词、否定短语信息计算观点句的情感值，该情感值是一个整数值，用来表示观点语句的情感强度大小；基于观点语句的情感值可对观点语句进行排序；

步骤D.观点摘要生成：基于步骤C抽取的网页文本中的观点语句、观点持有者及观点语句的情感值，对网页中同一个学者发表的所有观点语句进行聚类，对每个聚类中观点语句基于情感值进行排序，然后按照顺序进行合并，组成一个观点段落，然后对所有聚类生成的观点段落进行合并，形成该学者的观点摘要。

2.根据权利要求1所述的一种基于网页文本的学者观点抽取方法，其特征在于：步骤B中，对于学者的每篇网页文，根据“。”、“！”、“？”、“；”、“...”标点符号将文本分割为多个语句，对于每个语句，用开放的工具包来进行分词、词性标注任务，根据词性，进行人名识别、情感词抽取。

3.根据权利要求1所述的一种基于网页文本的学者观点抽取方法，其特征在于：步骤C中，基于句法分析结果识别当前语句是否为观点句，由句子的句法树可得到句子的主语部分、谓语部分和宾语部分，如果这条语句的谓语为下列词语中的一个：“认为”、“强调”、“指出”、“提出了”，则该条语句为观点句，识别出观点句后再抽取发表该观点的人物名称，即观点持有者：如果该语句为主动语态且主语为人名，则该人物为观点持有者；如果该语句为被动语句且宾语为人名，则该人名为观点持有者。

4.根据权利要求1所述的一种基于网页文本的学者观点抽取方法，其特征在于：步骤C中，对每个观点句的情感分析及情感极性强度值计算，考虑了转折型关联词、否定短语对观点句情感值的影响，利用转折句型抽取观点句中能有效表达情感信息的语句部分，然后利用否定词修正情感值的计算结果。

5.根据权利要求1所述的一种基于网页文本的学者观点抽取方法，其特征在于：步骤D中，对学者在同一个网页中的所有观点语句具体为：利用聚类算法对学者在同一个网页中的所有观点语句进行聚类，对每个聚类中的语句根据情感倾向和情感值进行排序，对排序好的语句进行连接得到一个段落；最后对所有聚类的段落进行合并形成观点摘要。

完整全部详细技术资料下载

当前第2页1 2 3