一种基于短文本评论的知识库构建方法

文档序号:6540420阅读:229来源:国知局
一种基于短文本评论的知识库构建方法
【专利摘要】本发明的提出了一种基于短文本评论的知识库的构建方法。本发明属于自然语言处理领域。目的是为短文本分析提供相关世界知识,克服现有的短文本分析的不足。实现短文本分析统计分析和语法规则的高度结合。通过构建相关评论的知识库,获得相关评论领域的相关特征词,特征词搭配,评价词及评分,程度副词及评分。通过构建相关评论的知识库可以短文本分析中利用评论知识库进行舆情分析,情感分析,信息抽取,提高相关工作的准确率和效率。
【专利说明】一种基于短文本评论的知识库构建方法
【技术领域】
[0001]本发明属于自然语言处理领域,更为具体地讲,涉及一种面向短文本评论的相关知识库的构建方法。
【背景技术】
[0002]当前,在各种网络论坛,以及购物网站,点评网站充斥着大量的评论信息。这些评论包含着大量的口语以及语法错误。这些口语化和语法错误给文本分析带来了大量的困扰和错误。
[0003]对这些评论分析的处理方法无论是通过简单的统计分析后得出结果,或者是通过人工阅读的方法得出结论,都无法得到科学的结果。前者统计分析仅能得到仅仅是相关单词出现频率,这样单一的方式无法获得原评论的本意。后者将会耗费巨大的人力和物力,随着网络评论文本的增加这种方法可行性将会呈现指数下降。
[0004]本方法旨在利用知识库的方法补充在评论分析需要用到的世界知识,使短文本处理更加的科学合理高效。使分析者在遇到语法错误或者口语化的表达时能够摒弃相关错误,得到正确的评论者的本意。同时使短文本处理更加快速。

【发明内容】

[0005]本发明的最终目的是为短文本分析提供相关世界知识,克服现有的短文本分析的不足。实现短文本分析统计分析和语法规则的高度结合。通过构建相关评论的知识库,获得相关评论领域的相关特征词,特征词搭配,评价词及评分,程度副词及评分。
[0006]为了实现上述目的,本发明面对评论知识库构建,其方法构成主要由以下特征构成:
[0007]—爬虫模块。主要用于爬取相关的短文本评论数据。短文本评论数据主要由两部分构成,第一部分为评论的相关数据,第二部分为评论的相关特征词。
[0008]一数据预处理模块。主要用于构造短文本评论数据,以及分词字典。短文本评论数据处理主要包括分段模块,分为长句子模块,分为短句子模块,以及运用评论相关词构造分词字典模块。
[0009]一分词以及词性标注模块。主要用于下一步构造相关知识库提供词性标签序列。相应的标签序列使用中科院ICTCLAS的标注分词标注,来进行说明。
[0010]一评论相关特征词构造模块。用于构造特征词表。特征词主要由两部分构成第一部分由相关特征词构成比如具体的菜名(回锅肉),商品名(电脑桌)等等。第二部分是由评论涉及的方面构成,如环境,装修,售后等等以及上述词的近义词构成。
[0011]一搭配匹配模块。主要用于寻找相关特征词的搭配。主要是名词以及具有名词属性的词属性标签为“/η”或者“/vn”,对于特征词的搭配。如跟菜名的搭配可以是不错,不能是耐用。匹配主要包括特征名词与形容词,特征名词与动词,特征名词与状态词,特征名词与常用习语,特征名词与名词。在获得相应的匹配后存储进知识库中。[0012]一评价词以及程度副词构建模块。主要用于寻找评价词,以及评价词的评分等级,程度副词的评分等级。完成后将评价词,评价词评分以及程度副词评分加入知识库中。
[0013]一知识库模块。主要用来存储相关特征词,相关特征词搭配,评价词,评价词评分,程度副词,程度副词评分。
[0014]本发明的发明目的是这样实现的:本发明通过调用以上各个模块获得了特定领域的相关特征名词,将其加入知识库中。同时获得相关特征名词的搭配同时将特征名词与搭配以成对出现的方式加入知识库中。在获得评价词以及其评分等级后将其加入知识库,在获得程度副词评分等级后将其加入知识库中。知识库最终由四个部分构成,相关特征词,特征词搭配,评价词及评分,程度副词及评分。
【专利附图】

【附图说明】
[0015]图1是本发明基于短文本评论的知识库的构建方法的具体实施原理以及框图。
[0016]图2是本发明中图1所示6模块的具体构建以及实施图。
【具体实施方式】
[0017]下面结合附图对本发明的【具体实施方式】进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
[0018]图1是本发明基于短文本评论的知识库的构建方法的具体实施原理以及框图。
[0019]在本实施例中,如图1所示,本发明基于短文本评论的知识库的构建方法包括爬取数据的爬虫模块1,数据预处理模块2,分词及词性标注模块3,基于词性标注和人工参与模块4,分类词典模块5,相关特征词模块6,特征词搭配模块7,评价词及评分模块8,程度副词及评分模块9,基于评论知识库存储模块10。
[0020]在本实例中通过调用爬虫模块I获得相关的数据后,将其数据传递给数据预处理模块2,由数据预处理模块完成分开段落,分开评论中的长句子,分开评论中的短句子。经数据预处理模块2数据传递给分词及词性标注模块3,由分词及词性标注模块3分词以及词性标注后将数据传递给基于词性标注和人工参与模块4。同时分词及词性标注模块3将数据传递给相关特征词模块6,特征词搭配模块7。相关特征词模块6具体处理步骤将在图2中介绍。通过相关特征词模块6处理后得到相关特征词,将其传递给基于评论知识库存储模块10。通过特征词搭配模块7处理后得到相关特征词的搭配,将其传递给基于评论知识库存储模块10。通过基于词性标注和人工参与模块4处理后的数据分别传递给评价词及评分模块8,程度副词及评分模块9。由评价词及评分模块8,程度副词及评分模块9处理后的到评价词及评分,程度副词及评分,将其分别传递给基于评论知识库存储模块10。
[0021]图2是本发明中图1所示6模块的具体构建以及实施图。
[0022]在本实例中,如图2所示,模块6相关特征词模块的构建主要由爬虫获得数据模块601,相关特征词以及出现频率模块602,评论分为长句子模块603,构造相关特征词字典模块604,评论分为短句子模块605,分类词典模块606,分类词性标注模块607,相关特征词模块 608。
[0023]由爬虫获得数据模块601获取数据后分别传递给评论分为长句子模块603,以及相关特征词以及出现频率模块602。依次经过评论分为长句子模块603,评论分为短句子模块605,分类词性标注模块607得出频率较高的相关特征词,并将其存储在相关特征词模块608。构造相关特征词字典模块604处理数据后得到相关特征词字典并将其传递给分类词典模块606。再经分类词典模块606传递给相关特征词模块608。分类词典模块通过现代汉语分类词典获得,在获得相关领域的特征词后将其传递给相关特征词模块608。
[0024]尽管上面对本发明说明性的【具体实施方式】进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于【具体实施方式】的范围,对本【技术领域】的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
【权利要求】
1.一种基于短文本评论知识库的构建方法主要由以下特征构成: 一爬虫模块。主要用于爬取相关的短文本评论数据。短文本评论数据主要由两部分构成,第一部分为评论的相关数据,第二部分为评论的相关特征词。 一数据预处理模块。主要用于构造短文本评论数据,以及分词字典。短文本评论数据处理主要包括分段模块,分为长句子模块,分为短句子模块,以及运用评论相关词构造分词字典模块。 一分词以及词性标注模块。主要用于下一步构造相关知识库提供词性标签序列。相应的标签序列使用中科院ICTCLAS的标注分词标注,来进行说明。 一评论相关特征词构造模块。用于构造特征词表。特征词主要由两部分构成第一部分由相关特征词构成比如具体的菜名(回锅肉),商品名(电脑桌)等等。第二部分是由评论涉及的方面构成,如环境,装修,售后等等以及上述词的近义词构成。 一搭配匹配模块。主要用于寻找相关特征词的搭配。主要是名词以及具有名词属性的词属性标签为“/η”或者“/vn”,对于特征词的搭配。如跟菜名的搭配可以是不错,不能是耐用。匹配主要包括特征名词与形容词,特征名词与动词,特征名词与状态词,特征名词与常用习语,特征名词与名词。在获得相应的匹配后存储进知识库中。 一评价词以及程度副词构建模块。主要用于寻找评价词,以及评价词的评分等级,程度副词的评分等级。完成后将评价词,评价词评分以及程度副词评分加入知识库中。 一知识库模块。主要用来存储相关特征词,相关特征词搭配,评价词,评价词评分,程度副词,程度副词评分。
【文档编号】G06F17/27GK103886053SQ201410093764
【公开日】2014年6月25日 申请日期:2014年3月13日 优先权日:2014年3月13日
【发明者】秦志光, 周尔强, 罗熹 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1