用于电子化文章的商品评价用词发掘方法及其系统的制作方法

文档序号:6524264阅读:228来源:国知局
用于电子化文章的商品评价用词发掘方法及其系统的制作方法
【专利摘要】用于电子化文章的商品评价用词发掘方法及其系统,其中由数笔通用测试资料挑选出数笔含有口碑的文章,并建立出一通用预测模型,之后,依据通用预测模型将数笔产业领域测试资料进行预测,并判断及发掘新的正负口碑用词,再将新旧正负口碑用词进行累计并取出数笔新的口碑叙述句后,依此建立出一新的预测模型,之后再对产业领域测试资料进行再次预测,以重复新的预测模型建立与新的正负口碑用词及新的口碑叙述句发掘,并于没有发掘到新的正负口碑用词后,则将全部累计的正负口碑用词导入一通用词汇资料库中,以做为共用的词汇使用。其能发掘出商品评价用词,建立通用词汇资料库,能依据商品评价用词更快且更精准的筛选出网络上舆论对特定商品的评价。
【专利说明】用于电子化文章的商品评价用词发掘方法及其系统
【技术领域】
[0001]本发明关于一种用于电子化文章的商品评价用词发掘方法及其系统,特别是指一种能够发掘出商品评价用词,并建立出一通用词汇资料库,以于网络上进行测电子化文章的商品评价时,能够依据商品评价用词更快且更精准的筛选出网络上舆论对特定商品的评价。
【背景技术】
[0002]网际网络已经为商品资讯传播的主要管道,消费者在售前会上网询价、比价,而除了价格之外,更大一部分是询问网络上舆论对所欲购买的商品的使用心得与评价,甚至有消费者更会于消费后上网寻求技术上的搜寻,或是负评的回应,因此若是业主能在上述的时间点提供使用者必要的协助或是提出解释,不但可以减少使用者的不满,更能够正面地提高消费者对该项产品的信心,以增加使用该项产品的消费群。
[0003]因此有些业者会对网络上的文章进行筛选网络上舆论对特定商品的评价,但由于不同领域、不同产业对于一些评价用语的定义与用法皆会有所差异,甚至有些产业(领域)有独有的评价用词,而这些用词需要领域专家花费大量的人力才能取得,而一般自行定义的通用用语,由于完整度不高,所以也不见得真的能适用于全部的产业使用。
[0004]因此,若能够经由商品评价用词的发掘,逐渐建立出一可持续更新的通用词汇资料库,以能够跨领域使用,而经过不同领域的文章重复测试后,更能够持续添加新的通用用语,如此将能够达到持续成长与学习,以使通用词汇资料库能够通用于各种不同的领域或产业使用,如此应为一最佳解决方案。

【发明内容】

[0005]本发明的目的即在于提供一种用于电子化文章的商品评价用词发掘方法及其系统,能够发掘出商品评价用词,并建立出一通用词汇资料库,以于网络上进行电子化文章的商品评价时,能够依据商品评价用词更快且更精准的筛选出网络上舆论对特定商品的评价。
[0006]可达成上述用于电子化文章的商品评价用词发掘方法及其系统,其中用于电子化文章的商品评价用词发掘方法,其步骤为:
[0007]1.先以数笔通用测试资料挑选出数笔含有口碑的文章,并取出数笔正负口碑用词及数笔口碑叙述句后,再依据正负口碑用词与口碑叙述句,进行设定并建立出一通用预测模型;
[0008]2.之后,再依据通用预测模型将数笔产业领域测试资料进行预测,并判断及发掘用于产业领域的新的正负口碑用词;
[0009]3.再将既有的正负口碑用词与新的正负口碑用词进行累计后,将累计的正负口碑用词于数笔含有口碑的文章中取出数笔新的口碑叙述句后,再依据累计的正负口碑用词与新的口碑叙述句进行设定对文字进行标注的规则,以建立出一新的预测模型;以及[0010]4.最后,再依据新的预测模型将数笔产业领域测试资料进行再次预测,并再次进行判断及发掘新的正负口碑用词与新的口碑叙述句,之后,重复进行新的预测模型建立与新的正负口碑用词及新的口碑叙述句发掘,并于没有发掘到新的正负口碑用词后,则结束发掘程序。
[0011]更具体的说,所述结束发掘程序后,则将全部累计的正负口碑用词导入一通用词汇资料库中,以做为共用的词汇使用。
[0012]更具体的说,所述文章为网络文章。
[0013]本发明的用于电子化文章的商品评价用词发掘系统,包含一测试资料输入模组、一通用预测模型建立模组、一专有词汇发掘模组、一词汇累计模组、一叙述句撷取模组、一预测模型训练模组,其中该测试资料输入模组用以输入测试资料,该测试资料至少包含数笔通用测试资料与数笔产业领域测试资料;而该通用预测模型建立模组包含一口碑文章挑选模组,与该测试资料输入模组相连接,该口碑文章挑选模组用以由数笔通用测试资料中挑选出数笔含有口碑的文章;一 口碑用词挑选模组,与该口碑文章挑选模组相连接,能够于数笔含有口碑的文章整理出数笔正负口碑用词;一叙述句撷取模组,与该口碑文章挑选模组及该口碑用词挑选模组相连接,使用正负口碑用词于数笔含有口碑的文章中取出数笔口碑叙述句;一通用预测模型训练模组,与该口碑用词挑选模组及该叙述句撷取模组相连接,用以依据正负口碑用词与口碑叙述句进行设定对文字进行标注的规则,以建立出一通用预测模型;
[0014]该专有词汇发掘模组与该测试资料输入模组及该通用预测模型训练模组相连接,能够依据通用预测模型将数笔产业领域测试资料进行预测,并判断及取出用于产业领域的新的正负口碑用词;而该词汇累计模组,与该专有词汇发掘模组及该口碑用词挑选模组相连接,用以将既有的正负口碑用词与新的正负口碑用词进行累计;该叙述句撷取模组,与该口碑文章挑选模组及该词汇累计模组相连接,使用累计的正负口碑用词于数笔含有口碑的文章中取出数笔新的口碑叙述句;该预测模型训练模组,与该词汇累计模组、叙述句撷取模组及该专有词汇发掘模组相连接,用以依据累计的正负口碑用词与新的口碑叙述句进行设定对文字进行标注的规则,以建立出一新的预测模型,而该专有词汇发掘模组能够再依据新的预测模型将数笔产业领域测试资料进行预测,并重复进行判断及取出用于产业领域的新的正负口碑用词。
[0015]更具体的说,所述用于电子化文章的商品评价用词发掘系统,更包含有一与该词汇累计模组相连接的通用词汇资料库,其中该通用词汇资料库中具有共用的正负口碑用词,而该专有词汇发掘模组判断已无新的正负口碑用词时,则透过该词汇累计模组将累计的正负口碑用词导入该通用词汇资料库中。
[0016]更具体的说,所述文章为网络文章。
[0017]本发明的有益效果在于,本发明所提供的用于电子化文章的商品评价用词发掘方法及其系统,与其他习用技术相互比较时,其优点如下:
[0018]1.本发明能够经由商品评价用词的发掘,逐渐建立出一可持续更新的通用词汇资料库,以能够跨领域使用,而经过不同领域的文章重复测试后,更能够持续添加新的通用用语,如此将能够达到持续成长与学习,以使通用词汇资料库能够通用于各种不同的领域或产业使用。[0019]2.藉由本发明的通用词汇资料库,当要对某一个领域进行筛选出网络上舆论对特定商品的评价时,不需要重新搜集口碑用词,而能够藉由通用词汇资料库进行直接使用或是先以这个产业的文章进行发掘后,即可于这一个新的领域中直接投入使用。
[0020]3.本发明于建立通用预测模型,仍需要人力配合进行操作电脑标注,但建立通用预测模型后的程序则由系统自己运作模拟,故能够让人力投入的成本降到最低。
[0021]4.本发明所投入的测试资料越庞大、资料量越大,则会对最后用于产业时所出来的结果会越精准。
【专利附图】

【附图说明】
[0022]图1:本发明用于电子化文章的商品评价用词发掘方法及其系统的流程示意图。
[0023]图2:本发明用于电子化文章的商品评价用词发掘方法及其系统的整体架构示意图。
【具体实施方式】
[0024]有关于本发明的前述及其他技术内容、特点与功效,在以下配合参考图式的较佳实施例的详细说明中,将可清楚的呈现。
[0025]请参阅图1,为本发明用于电子化文章的商品评价用词发掘方法及其系统的流程不意图,由图中可知,其步骤为:
[0026]1.先以数笔通用测试资料挑选出数笔含有口碑的文章,并取出数笔正负口碑用词及数笔口碑叙述句后,再依据正负口碑用词与口碑叙述句,进行设定并建立出一通用预测模型101 ;
[0027]2.之后,再依据通用预测模型将数笔产业领域测试资料进行预测,并判断及发掘用于产业领域的新的正负口碑用词102 ;
[0028]3.再将既有的正负口碑用词与新的正负口碑用词进行累计后,将累计的正负口碑用词于数笔含有口碑的文章中取出数笔新的口碑叙述句后,再依据累计的正负口碑用词与新的口碑叙述句进行设定对文字进行标注的规则,以建立出一新的预测模型103 ;以及
[0029]4.最后,再依据新的预测模型将数笔产业领域测试资料进行再次预测,并再次进行判断及发掘新的正负口碑用词与新的口碑叙述句,之后,重复进行新的预测模型建立与新的正负口碑用词及新的口碑叙述句发掘,并于没有发掘到新的正负口碑用词后,则结束发掘程序104。
[0030]请参阅图2可知,该用于电子化文章的商品评价用词发掘系统,包含一测试资料输入模组11、一通用预测模型建立模组12、一专有词汇发掘模组13、一词汇累计模组14、一叙述句撷取模组15、一预测模型训练模组16、一通用词汇资料库17及一领域词汇资料库18,其中该测试资料输入模组11用以输入测试资料,所能够输入的测试资料包含数笔通用测试资料或是数笔产业领域测试资料;
[0031]而该通用预测模型建立模组12包含一口碑文章挑选模组121、一 口碑用词挑选模组122、一叙述句撷取模组123及一通用预测模型训练模组124,该通用预测模型建立模组12最主要是用以建立出一通用预测模型出来,因此当该测试资料输入模组11将数笔通用测试资料输入该口碑文章挑选模组121后,由该口碑文章挑选模组121由数笔通用测试资料中挑选出数笔已含有口碑的文章,例如一篇文章中,有下列内容「我家纮宝一开始喝桂格新美力,但会一直便便,像拉肚子一样,后来就换雀巢S26,喝了 S26真的会比较虚胖(现在看那时的照片,都觉的他好壮),而且有一阵子他会溢奶,所以又改换新安琪儿安哺奶粉(我同学的孩子也喝这罐),换了新安琪儿后喝的还不错,现在一岁已改新安琪儿的羊奶了,提供给水水参考啰!」,由于这篇文章中有出现桂格、新美力、拉肚子、还不错等评价用语,故能够将此篇文章挑选出来;
[0032]之后,由与该口碑文章挑选模组121相连接的口碑用词挑选模组122,于该数笔含有口碑的文章中整理出数笔正负口碑用词,以有下列内容举例说明,「我们家本来喝S26,我也觉得会虚胖,现在改喝优生」,其中能够将虚胖标注为负向口碑用词,而改喝则标注为正向口碑用词;
[0033]而标注且整理出数笔正负口碑用词后,则由与该口碑文章挑选模组121及该口碑用词挑选模组122相连接的叙述句撷取模组123,使用标注的正负口碑用词于数笔含有口碑的文章中取出数笔口碑叙述句,而该叙述句撷取模组123则能够取得商品及口碑所在的位置,其中会含概完整的句子,例如下列的含有口碑的文章中:
[0034]<div class=〃body dfs〃Xp> 可以去参加妈妈教室呀 </p>
[0035]
孕妇也需要一些活动量?</p>
[0036]
参加妈妈教室一则学习当妈妈</p>
[0037]
一则认识其他的妈咪可以当同学?</p>
[0038]
有的课程可以拿到小赠品我觉得也是不错的附加价值?</p>
[0039]
妈咪教室的课程也满多的</p>
[0040]
像是再生缘、优生、mamaway参加过经验都还不错唷</p>
[0041]
学到的知识是真的很受用?</p>
[0042]其中「优生」与「不错」皆为正负口碑用词,因此藉由「优生」与「不错」于此篇文章中筛选出叙述句「像是再生缘、优生、mamaway参加过经验都还不错唷」,而叙述句撷取更具有长句断句规则与短句断句规则,其中会先检查句子长度,以判断要进行长句断句(本实施例中则是设定每一句长度大于超过25个字元,则进行长句断句)或短句断句(设定每一句长度小于超过25个字元,则进行短句断句),而长句断句规则则是以标点符号断句,截取正负口碑用词涵盖范围,反之,短句断句规则则是以短句的前后句子扩展,以截取正负口碑用词的涵盖范围。
[0043]之后,由与该口碑用词挑选模组122及该叙述句撷取模组123相连接的通用预测模型训练模组124,依据正负口碑用词与口碑叙述句进行设定对文字进行标注的规则,该通用预测模型训练模组124使用Conditional Random Fields (CRF)使系统进行学习,并进行对输入的文字进行标注的动作训练,以演算法学习先前标注时所运用的知识后,模仿先前对文字进行的标注,以建立出一通用预测模型。
[0044]而通用预测模型建立出来后,则由与该测试资料输入模组11及该通用预测模型训练模组124相连接的专有词汇发掘模组13,依据通用预测模型将该测试资料输入模组所输入的数笔产业领域测试资料进行预测,预测后若非属于先前所取得的正负口碑用词,则取出做为用于产业领域的新的正负口碑用词,之后,由与该专有词汇发掘模组13及该口碑用词挑选模组122相连接的词汇累计模组14,将既有的正负口碑用词与新的正负口碑用词进行累计,而所累计的新的正负口碑用词更能够直接储存于一领域词汇资料库18中,以使不同领域的领域词汇资料库将能够累计不同领域的专有用词;
[0045]之后,与该口碑文章挑选模组121及该词汇累计模组14相连接的叙述句撷取模组15,能够再使用累计的正负口碑用词于数笔含有口碑的文章中取出数笔新的口碑叙述句,并再由与该词汇累计模组14、叙述句撷取模组15及该专有词汇发掘模组13相连接的预测模型训练模组16,藉由累计的正负口碑用词与新的口碑叙述句进行设定对文字进行标注的规则,以建立出一新的预测模型;
[0046]之后,该专有词汇发掘模组13再依据新的预测模型对数笔产业领域测试资料再次进行预测,并重复进行判断及取出用于产业领域的新的正负口碑用词,而该专有词汇发掘模组13判断已无新的正负口碑用词时,则透过该词汇累计模组14将累计的正负口碑用词与叙述句导入一通用词汇资料库17中,以做为通用的词汇资料使用,而经由不同领域的测试资料发掘后,将能够使通用词汇资料库17更加完整,并于日后于网络上进行测电子化文章的商品评价时,依据通用商品评价用词将更快且更精准的筛选出网络上舆论对特定商品的评价。
[0047]接着,本发明实际以美强生这个品牌与奶粉产业的文章进行实施说明,其实施步骤为:
[0048]1.首先以美强生约9000篇文章,挑选出含有口碑的文章约500篇,并进行标注后整理出约300个正负口碑用词,之后取出约200笔叙述,经训练后,得到通用预测模型。
[0049]2.取得奶粉产业共30,000篇文章(测试资料),并发掘出奶粉产业领域专有词汇,因此使用通用预测模型进行第一次预测,得到约100个新词。
[0050]3.之后再次重新取得口碑述叙句,于原始500篇文章,再加入100个新词后,得到400个正负口碑用词(既有的300个正负口碑用词加上得到的100个新词),并使用该400个正负口碑用词,于原始500篇文章中得到约300笔叙述,经训练后,得到更新的预测模型。
[0051]4.使用新的预测模型,再对奶粉业30,000笔的资料进行第二次预测,得到约80个新词。
[0052]5.原始500篇文章,再加入80个新词后,得到480个正负口碑用词,使用480个正负口碑用词,于原始500篇文章中得到约350笔叙述,经训练后,得到更新的预测模型。
[0053]6.持续重复进行实施步骤2、3,于第四次测试后,共得200个新词(100+80+20)。之后再无新的词,发掘的程序就此结束。
[0054]由上述实施步骤可知,本发明使用通用模型对新领域的文章进行预测(发掘),预测的结果可以发掘到新的词汇,然而发掘的词汇并不能立即成为新领域的词汇,更需要额外经过Rule筛选之后,成为候选的词汇,可以加入人工的辅助判断;而新领域词汇的增加,将会使得口碑叙述句的数量可能性增加,因此套用口碑词句撷取的技术,将能够取得更多的叙述句做为训练资料;另外上述步骤3的正负口碑用词或是叙述句若有增加,就训练新的模型,再重复步骤1至3的程序,每重复一次,就能增加领域词典,直到没有新增为止,但若是没有新的叙述句,发掘的程序就终止,合格的词汇就可以加入共用的字典。而经由上面以美强生这个品牌与奶粉产业的文章进行实施后,所得到初期的准确度可达95%以上,比目前市面上所习用的方法优秀。
[0055]藉由以上较佳具体实施例的详述,希望能更加清楚描述本发明的特征与精神,而并非以上述所揭露的较佳具体实施例来对本发明的范畴加以限制。相反地,其目的是希望能涵盖各种改变及具相等性的安排于本发明所欲申请的专利范围的范畴内。
【权利要求】
1.一种用于电子化文章的商品评价用词发掘方法,其特征在于,其步骤为:先以数笔通用测试资料挑选出数笔含有口碑的文章,并取出数笔正负口碑用词及数笔口碑叙述句后,再依据正负口碑用词与口碑叙述句,进行设定并建立出一通用预测模型;之后,再依据通用预测模型将数笔产业领域测试资料进行预测,并判断及发掘用于产业领域的新的正负口碑用词;再将既有的正负口碑用词与新的正负口碑用词进行累计后,将累计的正负口碑用词于数笔含有口碑的文章中取出数笔新的口碑叙述句后,再依据累计的正负口碑用词与新的口碑叙述句进行设定对文字进行标注的规则,以建立出一新的预测模型;以及最后,再依据新的预测模型将数笔产业领域测试资料进行再次预测,并再次进行判断及发掘新的正负口碑用词与新的口碑叙述句,之后,重复进行新的预测模型建立与新的正负口碑用词及新的口碑叙述句发掘,并于没有发掘到新的正负口碑用词后,则结束发掘程序。
2.如权利要求1所述的用于电子化文章的商品评价用词发掘方法,其特征在于,结束发掘程序后,则将全部累计的正负口碑用词导入一通用词汇资料库中,以做为共用的词汇使用。
3.如权利要求1所述的用于电子化文章的商品评价用词发掘方法,其特征在于,文章为网络文章。
4.一种用于电子化文章的商品评价用词发掘系统,其特征在于,包含:一测试资料输入模组,用以输入测试资料,该测试资料至少包含数笔通用测试资料与数笔产业领域测试资料;一通用预测模型建立模组,包含:一口碑文章挑选模组,与该测试资料输入模组相连接,该口碑文章挑选模组用以由数笔通用测试资料中挑选出数笔含有口碑的文章;一口碑用词挑选模组,与该口碑文章挑选模组相连接,能够于数笔含有口碑的文章整理出数笔正负口碑用词;一叙述句撷取模组,与该口碑文章挑选模组及该口碑用词挑选模组相连接,使用正负口碑用词于数笔含有口碑的文章中取出数笔口碑叙述句;一通用预测模型训练模组,与该口碑用词挑选模组及该叙述句撷取模组相连接,用以依据正负口碑用词与口碑叙述句进行设定对文字进行标注的规则,以建立出一通用预测模型;一专有词汇发掘模组,与该测试资料输入模组及该通用预测模型训练模组相连接,能够依据通用预测模型将数笔产业领域测试资料进行预测,并判断及取出用于产业领域的新的正负口碑用词;一词汇累计模组,与该专有词汇发掘模组及该口碑用词挑选模组相连接,用以将既有的正负口碑用词与新的正负口碑用词进行累计;一叙述句撷取模组,与该口碑文章挑选模组及该词汇累计模组相连接,使用累计的正负口碑用词于数笔含有口碑的文章中取出数笔新的口碑叙述句;一预测模型训练模组,与该词汇累计模组、叙述句撷取模组及该专有词汇发掘模组相连接,用以依据累计的正负口碑用词与新的口碑叙述句进行设定对文字进行标注的规则,以建立出一新的预测模型,而该专有词汇发掘模组能够再依据新的预测模型将数笔产业领域测试资料进行预测,并重复进行判断及取出用于产业领域的新的正负口碑用词。
5.如权利要求4所述的用于电子化文章的商品评价用词发掘系统,其特征在于,更包含有一与该词汇累计模组相连接的通用词汇资料库,其中该通用词汇资料库中具有共用的正负口碑用词,而该专有词汇发掘模组判断已无新的正负口碑用词时,则透过该词汇累计模组将累计的正负口碑用词导入该通用词汇资料库中。
6.如权利要求4所述的用于电子化文章的商品评价用词发掘系统,其特征在于,文章为网络文章。
【文档编号】G06F17/30GK103744865SQ201310695873
【公开日】2014年4月23日 申请日期:2013年12月18日 优先权日:2013年12月18日
【发明者】李静怡, 吴威均, 卢佳杰 申请人:网讯电通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1