文章的意见单元识别方法及其相关装置与计算机程序产品的制作方法_2

文档序号:9375565阅读:来源:国知局
程图。
[0023]图4为显示依据本发明实施例的文章的意见单元识别方法的一流程图。
[0024]附图标记
[0025]100?文章的意见单元识别装置;
[0026]110?储存单元;
[0027]111?文章语句;
[0028]112?意见单元识别模型;
[0029]120?处理单元;
[0030]F1、F2、F3 ?特征值;
[0031]R?识别结果;
[0032]S310、S320、…、S370 ?步骤;
[0033]S410、S420、...、S460 ?步骤。
【具体实施方式】
[0034]图1显示依据本发明实施例的文章的意见单元识别装置。如图1所示,依据本发明实施例的文章的意见单元识别装置100可以适用于一电子装置,如计算机。文章的意见单元识别装置100可以至少包括一储存单元110与一处理单元120。
[0035]储存单元110可以包括至少一文章语句111、与一意见单元识别模型112。值得注意的是,在一些实施例中,文章的意见单元识别装置100可以进一步包括一网络连接单元(图1中未显示),用以连接至一网络,如有线网络、电信网络、与无线网络等。通过网络连接单元,文章的意见单元识别装置100可以具有网络接取能力,以连接至网络以取得一网络文章。在一些实施例中,文章语句111可以是网络文章中的一语句。相关于文章语句与/或文章语句中意见单元的特征进行正规化的特征值(F1、F2、F3)可以输入至意见单元识别模型112,从而产生相应意见单元的识别结果R,如图2所示。其中,意见单元识别模型112可以由相关训练数据所训练出,用以识别意见单元是否为正确组合的模型,相应意见单元识别模型112的训练将于后进行说明。处理单元120用以执行依据本案的文章的意见单元识别方法,其细节将于后进行说明。
[0036]图3显示依据本发明实施例的意见单元识别模型训练方法。
[0037]首先,如步骤S310,取得多个文章语句。值得注意的是,在一些实施例中,可以以网络爬虫方式自动取得符合相关领域及关键词的文章内容,并将其储存于数据库中。在一些实施例中,文章语句可以是文章内容中的一语句。以「智能型手机」类型产品为例,通过网络爬虫于无名小站、痞客邦、天空部落等部落格及MobileOl论坛,自动选取符合「智能型手机」类型产品相关关键词的评论文章250篇。其中,250篇相关「智能型手机」的文章中可以取得462条同时含有评价对象与意见词的评价文章语句。值得注意的是,在一些实施例中,单一语句的评价对象与意见词的数量不限。如步骤S320,依据字词的词性特性取得各文章语句中的至少一评价对象及至少一意见词。值得注意的是,在一些实施例中,文章语句中词性为名词的字可以被识别为评价对象,且词性为不及物动词的字可以被识别为意见词。接着,如步骤S330,将由文章语句中识别得到的至少一评价对象及至少一意见词组合为至少一意见单元。之后,如步骤S340,将各文章语句转换为一句法树,并依据句法树取得相应意见单元的句法路径。值得注意的是,在一些实施例中,文章语句与句法树间的转换可以使用中央研究院CKIP中文剖析系统进行。其中,CKIP中文剖析系统可以将文章语句转换成句法树的格式,并自动化解析此语句的句法树,以取得评价对象与意见词节点之间(意见单元)的有向路径作为此文章语句的一条句法路径。举例来说,当文章语句是「质感看起来真的超优」时,CKIP中文剖析系统产生的句法树是:S (theme:NP (Head:Nad:质感)time:Dbc:看起来evaluat1n:Dbb:真的Head: VJl:超complement: VHl1:优),且相应意见单元的句法路径是:质感丨Nad丨NP丨S丨VHll丨优。如步骤S350,依据每一文章语句的语句结构及句法路径产生相应多个特征的特征值。值得注意的是,在一些实施例中,前述相应语句结构的特征可以包括文章语句的长度,其中相应特征正规化后的特征值可以大于O。在一些实施例中,前述相应语句结构的特征可以包括评价对象与意见词于文章语句中的距离,其中相应特征正规化后的特征值可以大于O。在一些实施例中,前述相应语句结构的特征可以包括文章语句中评价对象之前一个词的词性,其中相应特征正规化后的特征值可以大于等于O。在一些实施例中,前述相应语句结构的特征可以包括文章语句中评价对象之后一个词的词性,其中相应特征正规化后的特征值可以大于等于O。在一些实施例中,前述相应句法路径的特征可以包括句法路径中意见词位于评价对象之前或之后,其中相应特征正规化后的特征值可以是I或O。在一些实施例中,前述相应句法路径的特征可以包括句法路径中子节点指向父节点的方向数目,其中相应特征正规化后的特征值可以大于O。在一些实施例中,前述相应句法路径的特征可以包括句法路径中父节点指向子节点的方向数目,其中相应特征正规化后的特征值可以大于O。在一些实施例中,前述相应句法路径的特征可以包括句法路径中所有节点的数目,其中相应特征正规化后的特征值可以大于O。必须说明的是,前述特征及其特征值皆为本案的例子,本案并不限定于此。任何足以依据语句结构及句法路径产生的特征皆可应用至本案中。如步骤S360,接收相应各意见单元的识别结果,其中识别结果表示意见单元是一正确组合或一错误组合。提醒的是,由于各文章语句均含有一至多条评价对象与意见词的组合,在前述例子中可以从462条评价文章语句中自动化抽取出1,128条意见单元的句法路径。其中,这当中包含了正确及错误的意见单元搭配,因此前述训练方法中可以接收相应的正确及错误的意见单元搭配。在此例子中,462条评价文章语句中可以随机抽取100条评价语句,其中共包含289条意见单元搭配,同时,通过自动化解析句法树,共取得289条句法路径。此例子中将其作为测试数据,并使用另外362条评价语句包含的839条意见单元(句法路径)作为训练数据。之后,如步骤S370,将特征值及识别结果输入一类神经网络,从而进行相应意见单元识别模型的训练作业。值得注意的是,在一些实施例中,前述类神经网络可以是一监督式学习网络的倒传递类神经网络算法。在一些实施例中,此倒传递类神经网络的输入可以是相应前述特征的特征值,且其数据类型为离散。而此倒传递类神经网络的输出可以是前述识别结果{0,1}。此外,此类神经网络所使用的其它参数可以包括隐藏层数目:1、隐藏层神经元数目:11、转换函数:Sigmoid函数、及效能函数(Performance funct1n):均方差(Means Squared Error, MSE)。
[0038]图4显示依据本发明实施例的文章的意见单元识别方法。依据本发明实施例的文章的意见单元识别方法适用于一电子装置,如计算机。
[0039]首先,如步骤S410,取得一文章语句。值得注意的是,在一些实施例中,可以以网络爬虫方式自动取得符合相关领域及关键词的一网络文章,接着,将文章进行语句层级的断句,以取得文章语句。如步骤S420,依据字词的词性特性取得文章语句中的至少一评价对象及至少一意见词。类似地,在一些实施例中,文章语句中词性为名词的字可以被识别为评价对象,且词性为不及物动词的字可以被识别为意见词。接着,如步骤S430,将由文章语句中识别得到的至少一评价对象及至少一意见词组合为至少一意见单元。之后,如步骤S440,将每一文章语句转换为一句法树,并依据句法树取得相应意见单元的句法路径。类似地,在一些实施例中,文章语句与句法树间的转换可以使用中央研究院CKIP中文剖析系统进行。其中,CKIP中文剖析系统可以将文章语句转换成句法树的格式,并自动化解析此语句的句法树,以取得评价对象与意见词节点之间(意见单元)的有向路径作为此文章语句的一条句法路径。如步骤S450,依据文章语句的语句结构及句法路径产生相应多个特征的特征值。类似地,在一些实施例中,前述相应语句结构的特征可以包括文章语句的长度,其中相应特征正规化后的特征值可以大于O。在一些实施例中,前述相应语句结构的特征可以包括评价对象与意见词于文章语句中的距离,其中相应特征正规化后的特征值可以大于O。在一些实施例中,前述相应语句结构的特征可以包括文章语句中评价对象之前一个词的词性,其中相应特征正规化后的特征值可以大于等于O。在一些实施例中,前述相应语句结构的特征可以包括文章语句中评价对象之后一个词的词性,其中相应特征正规化后的特征值可以大于等于O。在一些实施例中,前述相应句法路径的特征可以包括句法路径中意见词位于评价对象之前或之后,其中相应特征正规化后的特征值可以是I或O。在一些实施例中,前述相应句法路径的特征可以包括句法路径中子节点指向父节点的方向数目,其中相应特征正规化后的特征值可以大于O。在
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1