基于模式匹配的产品特征提取方法与流程

文档序号:13207864阅读:270来源:国知局
基于模式匹配的产品特征提取方法与流程

技术领域:

本发明属于文本挖掘领域,涉及一种基于模式匹配的产品特征提取方法,是一种无监督的产品特征提取方法。



背景技术:

随着网络技术的发展和网络应用服务的多样化,人们可以随时随地通过电子产品获得或分享信息,以用户为中心的web2.0时代已悄然而至。现代生活节奏快,工作负荷较重,网络购物以其方便、快捷的特点吸引越来越多的人通过互联网购买产品,因此,电子商务在我国得到了蓬勃的发展。截止2016年12月,中国网民规模达7.31亿人,互联网普及率为53.2%,其中网络购物用户规模达到4.67亿,占网民比例为63.8%。制造企业与电商为了能更好地掌握产品的市场情况,电子商务网站一般都允许消费者发表产品相关的评论。这些产品评论文本中蕴含着丰富的、有价值的信息,有效利用这些评论文本可以帮助制造企业改进产品的设计、提升产品的质量,提高市场竞争力,也可以帮助电商采取合适的经营销售策略,扩大市场份额。

为了给制造企业和电商提供更为自动化、智能化的文本挖掘工具,国内外专家学者开展了大量的研究。针对英文网络评论文本的挖掘与利用,国外专家们提出了多种有效的挖掘方法,取得了巨大的研究成果。而中文网络评论文本挖掘起步较晚,目前,文本挖掘的研究工作主要集中在产品特征提取、评论的情感极性及强度判断、评论挖掘结果的分析上。其中,产品特征提取是产品评论文本挖掘的基础工作,提取的产品特征的质量好坏直接影响到后续研究工作的效果。

本发明提出了一种基于模式匹配的产品特征提取方法,是一种无监督型的提取方法,它能提高产品特征提取的准确率、召回率和f值。



技术实现要素:

为了能快速、有效地从海量、多源异构的产品评论文本中提取真正的产品特征,本发明提供了一种基于模式匹配的产品特征提取方法,是一种高效的、便捷的产品特征提取方法,也是对现有的产品特征提取方法的扩充。

本发明解决其技术问题所采用的技术方案如下述内容:

基于模式匹配的产品特征提取方法,其特征在于:该方法包括下述步骤:

步骤1,评论语料库获取:利用网络爬虫工具,从大型电商平台上采集某个指定产品的产品使用评论信息,并保存到本地数据库,然后对保存的评论信息进行预处理,降低数据中的噪音,得到真实、可靠、非结构化的评论语料库;

步骤2,中文自然语言处理:利用中文自然语言处理工具对评论语料分别进行初次分词及词性标注、新词识别、优化分词及词性标注、句法分析和情感分析等操作,获得结构化的情感分析结果并保存到数据库中;

步骤3,产品特征提取:定义产品特征的五个准则,按照这五个准则对情感分析结果进行产品特征标注,提取标注为产品特征的词语,生成产品特征集合。

在上述的基于模式匹配的产品特征提取方法中,在所述的步骤1中,由于网络的开放性和网络评论的多元化、离散性,使得从电商平台上抓取的网络评论文本中含有大量噪音,若直接对其进行产品特征提取,所得结果可能会与实际产生较大偏差。所以,为了获得符合实际的结果,需对原始评论集合进行过滤和清洗,降低噪音。其中,数据预处理包括删除空白、无用的评论,删除评论中多余的标点符号,删除评论中冗余的词语,删除字数少于4字的评论,修改错别字,简体字替换繁体字,删除冗余的评论等。

在上述的基于模式匹配的产品特征提取方法中,在所述的步骤3中,产品特征五个准则具体如下:

一、产品特征不能是停用词;

二、产品特征是在评论语料中频繁出现的名词或名词短语;

三、产品特征与支配词的依存关系为“sbv”,且支配词是情感词;

四、产品特征是满足七个抽取规则的词;

五、产品特征是非单个字的领域词。

在上述的基于模式匹配的产品特征提取方法中,产品特征满足的七个抽取规则可由中心词词性不同,分为两大类,具体描述为:

一、当中心词词性为形容词时,

①当词与中心词的关系为“sbv”,即词的支配词就是中心词时,则该词是产品特征;②当词的支配词不是中心词时,但支配词与中心词之间存在“coo”的直接依存关系,则该词是产品特征;③当词的支配词不是中心词时,但支配词与中心词之间存在“coo”的间接依存关系,则该词是产品特征;

二、当中心词词性为动词且词的支配词不是中心词时,

④当词的支配词与中心词之间存在“coo”的直接依存关系,则该词是产品特征;⑤当词的支配词与中心词之间存在“vob”的直接依存关系,则该词是产品特征;⑥当词的支配词与中心词之间存在“coo”的间接依存关系,则该词是产品特征;⑦当词的支配词与中心词之间存在“vob”的间接依存关系,则该词是产品特征。

本发明可以利用网络爬虫工具从电商平台网站上获取海量、多源异构的产品使用评论文本,经过浅层、深层的中文文本信息处理技术,使得非结构化的数据变成结构化的数据,并利用定义的五个准则进行产品特征标注和提取。利用本发明的方法,研究者们可以快速、有效的进行产品特征的提取,同时提高了产品特征提取的准确率、召回率和f值。

附图说明:

图1是本发明的整体流程图。

图2是本发明的产品特征提取技术路线图。

图3是本发明的产品特征提取过程中产生的结果字段变化图。

图4是本发明的评论语料库获取流程图。

图5是本发明的一条评论语句的句法分析结果案例图。

图6是本发明的词与词之间的依存关系类型表示图。

图7是本发明的产品特征的七个抽取规则图。

图8是本发明的部分产品特征标注结果图。

具体实施方式:

下面结合具体附图对本发明作进一步的说明。

本发明是通过网络爬虫工具对大型电商平台进行信息抓取,获得海量、多源异构的中文网络用户评论文本,并对其进行中文自然语言处理,根据定义的五个准则提取产品特征,提高了产品特征提取的准确率、召回率和f值。

基于模式匹配的产品特征提取方法,包括评论语料库获取、中文自然语言处理和产品特征提取这三个步骤,如图1所示。

基于模式匹配的产品特征提取方法所涉及的技术及其技术路线如图2所示,图2还标示了每种技术使用后产生的结果。其中,数据获取和数据预处理是本发明步骤1中所使用的技术;初次分词及其词性标注、优化分词及其词性标注、句法分析、情感分析则是自然语言处理基础技术,是步骤2中的技术,产品特征标注和提取是步骤3的技术。

基于模式匹配的产品特征提取方法整个提取过程中产生的结果及其字段变化,如图3所示。评论语料库中只有两个字段,分别为序号和评论文本;初次分词及词性标注结果、优化分词及词性标注结果都有3个字段,分别为序号、词形和词性;句法分析结果有6个字段,分别为序号、词形、词性、依存关系、支配词和支配词词性;情感分析结果有7个字段,分别为序号、词形、词性、依存关系、支配词、支配词词性和情感标记;产品特征标注结果有8个字段,分别为序号、词形、词性、依存关系、支配词、支配词词性、情感标记和产品特征标记;产品特征集合有两个字段,分别为序号和产品特征。

下面分别对这各个步骤进行详细的说明。

步骤1,评论语料库获取:利用网络爬虫工具,从大型电商平台上采集某个指定产品的产品使用评论信息,并保存到本地数据库,然后对保存的评论信息进行预处理,降低数据中的噪音,得到真实、可靠、非结构化的评论语料库。

评论语料库获取的过程如图4所示。制定网络爬虫工具的爬取规则,对待抓取的大型电商平台进行数据抓取,将抓取的结果存储到本地数据库中,成为原始评论文本;对原始评论文本进行数据预处理,生成评论语料库,也存储到数据库中。

其中,由于网络的开放性和网络评论的多元化、离散性,使得从电商平台上抓取的网络评论文本中含有大量噪音,若直接对其进行文本挖掘,所得结果可能会与实际产生较大偏差。所以,为了获得符合实际的结果,需对原始评论集合进行过滤和清洗,降低噪音。预处理包括删除空白、无用的评论,删除评论中多余的标点符号,删除评论中冗余的词语,删除字数少于4字的评论、修改错别字,简体字替换繁体字、删除冗余的评论等。

步骤2,中文自然语言处理:利用中文自然语言处理工具对评论语料分别进行初次分词及词性标注、新词识别、优化分词及词性标注、句法分析和情感分析等操作,获得结构化的情感分析结果并保存到数据库中。

2.1)分词及词性标注

客户反馈在电商平台上的评论是以交流和共享为目的的,是文本形式的非结构化自然语言,若要从中挖掘出有价值的信息,则需通过分词技术把它转化为结构化数据。对评论语料进行分词采用的工具是ictclas,对分词后的评论语料进行词性标注采用的工具也是ictclas,为了提高产品特征提取的查准率,选择的词性标注方法是能标注出更具体情况的二级标注。

随着社会的快速发展,出现了许多新的词语。这些新词语不能被未更新的汉语分词器正确识别,在分词过程中,它被错误地分开,比如,“性价比”会被ictclas分成“性”、“价”、“比”三个词。为了解决这个问题,提高分词的准确率,我们将对初次分词结果进行新词发现,将识别的领域新词添加到用户词典中,再利用ictclas对评论语料库进行优化分词及二级词性标注。

新词发现过程包括构造重复串、频率过滤、内聚性过滤和左右熵过滤四步操作。其中,构造重复串是利用n-gram算法,结合过滤词表、过滤词性词表、停用词等排除词表进行重复串的构造;频率过滤是将频率低于某一阈值的重复串过滤掉;内聚性过滤是将内聚性值低于某一阈值的重复串过滤掉,重复串的内聚性用重复串的互信息(mutualinformation,mi)表示,重复串的互信息计算公式为:

其中,x,y表示组成重复串r的2个子串,pxy表示重复串r在初次分词结果中出现的概率,px,py表示子串x,y单独在初次分词结果中出现的概率;左右熵过滤是将左熵或右熵低于阈值的重复串过滤掉,重复串的左熵、右熵计算公式分别为:

其中,p(a|r)表示词串a是重复串r的左邻接词的概率,p(b|r)表示词串b是重复串r的右邻接词的概率。

2.2)句法分析

依存句法分析是自然语言处理中的关键技术之一,是识别句子中的“主谓宾”、“定状补”等语法成分,并分析各成分之间关系的技术。本文采用哈工大研发的语言技术平台(languagetechnologyplatform,ltp)确定句子中各成分之间的依存关系。由于ictclas和ltp使用的词性标注集不同,在进行依存句法分析之前,先进行词性标注集转换。

图5是一条评论语句的依存句法分析结果,从图5中的依存句法分析结果中可以看出,句子中的词与词之间直接发生依存关系,且一个依存关系连接两个词,其中一个叫支配词,另一个叫从属词。依存关系用一个有向弧表示,叫依存弧,且依存弧的方向为由支配词指向从属词。每个依存弧上有个标记,叫关系类型,表示支配词与从属词之间存在什么样的依存关系。从属词、关系类型和支配词组成一个依存对,即从属词以依存关系依存于支配词。如图5所示,(手机,sbv,不错)是一个依存对,“手机”是从属词,“不错”是支配词,“sbv”是表示“手机”与“不错”之间存在“sbv”的依存关系,这个依存对表示“手机”以“sbv”依存于“不错”。

其中,句子的中心词不受其他任何成分的支配,即与“root”的依存关系为“hed”的词为中心词。如图5中,“不错”与“root”的依存关系为“hed”,则“不错”是该条评论的中心词。

2.3)情感分析

通过分析海量同源异构的中文网络评论文本可知,用户反馈的评论是用户对购买的商品的使用评价,通常用形容词、名词或动词来表达自己的观点。本文整理生成了一个情感词词典,用来判断句法分析结果中每个词的支配词是否是情感词,若某词的支配词是情感词,则将该词的情感标记isop记为“y”,反之,记为“n”。

步骤3,产品特征提取:定义产品特征的五个准则,按照这五个准则对情感分析结果进行产品特征标注,提取标注为产品特征的词语,生成产品特征集合。

在中文产品评论中,两个词之间的依存关系非常复杂,我们定义了两种依存关系类型来描述词与词之间的语法联系,分别为直接依存关系和间接依存关系。其中,直接依存关系:表示一个词直接依存于另一个词,如图6中的(a)所示,a以依存关系直接依存于b;间接依存关系:表示一个词通过一个或多个中间词依存于另一个词,如图6中的(b)和(c)所示,a以依存关系直接依存于中间词,中间词再以一个或多个“coo”直接依存于b,即a间接依存于b。

3.1)产品特征标注

通过对大量的中文评论文本进行分析,总结出产品特征需要满足以下五个准则:

一、产品特征不能是停用词

停用词一般是使用频率很高,但本身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语,比如“的”,“在”,“和”等。而产品特征是实词,具有词汇意义和语义意义,在句子中可以充当句法成分。所以,产品特征不可能是停用词。

二、产品特征是在评论语料中频繁出现的名词或名词短语

三、产品特征与支配词的依存关系为“sbv”,且支配词是情感词

四、产品特征是满足七个抽取规则的词

五、产品特征是非单个字的领域词

其中,准则四中的七个抽取规则,是我们结合依存关系类型的定义和情感分析结果,根据词的支配词与中心词之间存在直接依存关系或间接依存关系,总结出来的,如图7所示。

这七个规则可由中心词词性不同,分为两大类,具体描述为:

(1)当中心词词性为形容词时

①当某词与中心词的关系为“sbv”,即某词的支配词就是中心词时,则该词是产品特征,如图7中的(a)所示。

②当某词的支配词不是中心词时,但支配词与中心词之间存在“coo”的直接依存关系,则该词是产品特征,如图7中的(b)所示。

③当某词的支配词不是中心词时,但支配词与中心词之间存在“coo”的间接依存关系,则该词是产品特征,如图7中的(c)所示。

(2)当中心词词性为动词时

④当词的支配词与中心词之间存在“coo”的直接依存关系,则该词是产品特征,如图7中的(d)所示。

⑤当词的支配词与中心词之间存在“vob”的直接依存关系,则该词是产品特征,如图3中的(f)所示。

⑥当词的支配词与中心词之间存在“coo”的间接依存关系,则该词是产品特征,如图3中的(e)所示。

⑦当词的支配词与中心词之间存在“vob”的间接依存关系,则该词是产品特征,如图3中的(g)所示。

图8是部分产品特征标注结果,共有8个字段。其中,no表示序号,tk表示词形,pos表示词性,prel表示依存关系,pwd表示支配词,ppos表示支配词词性,isop表示情感标记,ispf表示产品特征标记。词形和词性是分词及词性标注生成的,依存关系、支配词和支配词词性是句法分析生成的,情感标记是情感分析生成的,产品特征标记是产品特征标注生成的。

3.2)产品特征提取

将产品特征标注集合中标注为产品特征的词语提取出来,生成产品特征集合。

本发明能够利用网络爬虫工具抓取大型电商平台上与指定产品相关的用户评论文本,并对其进行一系列处理,根据定义的五个准则进行产品特征标注和提取,生成产品特征集合。利用本发明的方法,我们可以高效、快捷的进行产品特征提取,且提高了产品特征提取的准确率、召回率和f值。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1