一种基于位置序统计的电商在线评论文本词语分析方法与流程

文档序号:15115619发布日期:2018-08-07 20:01阅读:395来源:国知局
本发明属于信息处理
技术领域
,具体涉及一种基于位置序统计的电商在线评论文本词语分析方法。
背景技术
:电商在线评论是一种文本数据,文本分词统计后能够获得一定的信息资源,为电商企业经营决策和顾客购买决策提供数据支持。现有电商在线评论文本分词统计后,仅根据词频数量考虑词语重要性,忽略词语在文本中出现顺序和其代表的意义。这一忽略造成电商在线评论文本分析中话题重要性信息的丢失,也易造成决策失误。因此,发明一种基于位置序统计的电商在线评论文本词语分析方法,是当前电商领域急需解决的问题。技术实现要素:根据以上现有技术的不足,本发明所要解决的技术问题是提出一种基于位置序统计的电商在线评论文本词语分析方法,通过分析词语在文本中出现顺序和其代表的意义,解决了电商在线评论文本分析中忽略词语位置序的问题,具有帮助电商企业和顾客重新审视话题词语的重要性的效果。为了解决上述技术问题,本发明采用的技术方案为:一种基于位置序统计的电商在线评论文本词语分析方法,包括如下步骤:步骤s1:电商在线评论文本分词,并对词语频数进行统计筛选,从中选择出目标词语集;步骤s2:计算机获取目标词语集中每个目标词语的位置记录数字,并统计文本总字数;其中多次出现该目标词语的按照第一个出现位置进行记录,没有出现该词语的计记录0;步骤s3:建立统计模型,计算目标词语位置序presult值,所述位置序是指目标词语在文本中出现的位置顺序;步骤s4:文本词语判断与决策,根据目标词语的位置序结果presult值,比较目标词语位置;步骤s5:文本词语分析与判断,结合研究需要或者经营管理方法进行判断与决策。优选的,所述位置序presult值采用公示计算,其中presult为特定表达,即position与result的结合;同时xi为目标词语在每一个文本中的位置记录首数字,如果目标词语在某个文本中多次出现仅以第一个出现的位置记录首数字为结果;在计算时,n为文本句总数,利用文本总数n作为分母。由于目标词语来自文本分词后词语筛选,故presult值为非0值。优选的,所述presult值采用百分数,按照四舍五入保留两位小数。本发明有益效果是:本发明解决了电商在线评论文本分析中忽略词语位置序的问题,能够发现词语排序和影响力因素,在大量电商在线评论文本数据分析中有很好的模式发现和信息挖掘特点,能够有效帮助电商企业和顾客重新审视话题词语的重要性,从而提升企业经营管理能力和顾客购买决策能力。附图说明下面对本说明书附图所表达的内容及图中的标记作简要说明:图1是本发明的具体实施方式的方法流程图。具体实施方式下面通过对实施例的描述,本发明的具体实施方式如所涉及的各构件的形状、构造、各部分之间的相互位置及连接关系、各部分的作用及工作原理、制造工艺及操作使用方法等,作进一步详细的说明,以帮助本领域技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。一种基于位置序统计的电商在线评论文本词语分析方法,如图1所示,包括:步骤s1:电商在线评论文本分词,并对词语频数进行统计筛选,从中选择出目标词语集。步骤s2:计算机获取目标词语集中每个目标词语的位置记录数字,并统计文本总字数。其中多次出现该目标词语的按照第一个出现位置进行记录,没有出现该词语的计记录0。步骤s3:建立统计模型,计算目标词语位置序presult值。位置序是指目标词语在文本中出现的位置顺序。位置序presult值采用公示计算,其中presult为特定表达,即position与result的结合;同时xi为目标词语在每一个文本中的位置记录首数字,如果目标词语在某个文本中多次出现仅以第一个出现的位置记录首数字为结果。在计算时,n为文本句总数,利用文本总数n作为分母,主要是考虑消除每个目标词语词频不同以及对总体的影响,因而不用目标词语词频作为分母;由于目标词语来自文本分词后词语筛选,故presult值为非0值;presult值采用百分数,按照四舍五入保留两位小数。步骤s4:文本词语判断与决策,根据目标词语的位置序结果presult值,比较目标词语位置。步骤s5:文本词语分析与判断,结合研究需要或者经营管理方法进行判断与决策。下述五条电商在线评论文本为本方法的实施事例,例句1:包装不错,但这芒果没什么芒果味,就包装好。例句2:宝贝包装很好,物流也很给力。好像比之前买的量少了,不过味道还是很赞!例句3:不错,快递也很给力,老板态度也很好有需要再来。例句4:吃了两袋,碧根果味道好极了,我表妹也说味道好极了!包装也很好。例句5:吃着不错哦!步骤s1:电商在线评论文本分词,并对词语频数进行统计筛选,从中选择出目标词语集。中文分词(仅保留词语,例如“吃”等单个字去除)结果如下:例句1:包装/不错/芒果/没什么/芒果/包装例句2:宝贝/包装/物流/好像/之前/不过/味道/还是/很赞/例句3:不错/快递/老板/态度/需要/例句4:两袋/碧根果/味道/好极了/表妹/味道/好极了/包装/例句5:不错/示例的词语词频统计结果如下:词语出现次数包装4不错3味道3芒果2好极了2不过1快递1还是1需要1只有1物流1态度1老板1没什么1碧根果1表妹1很赞1两袋1好像1之前1宝贝1甜味1选择出目标词语集{包装,味道}步骤s2:计算机获取目标词语集中每个目标词语的位置记录数字,并统计文本总字数。其中多次出现该目标词语的按照第一个出现位置进行记录,没有出现该词语的计记录0。示例的目标词语集在例句中的位置记录数字和文本总字数:例句1:包装:1(“包”字的位置),2(“装”字的位置);味道:0,0;总字数:18例句2:包装:3,4;味道:25,26;总字数:30例句3:包装:0,0;味道:0,0;总字数:30例句4:包装:23,24;味道:8,9;总字数:27例句5:包装:0,0;味道:0,0;总字数:5步骤s3:建立统计模型,计算目标词语位置序presult值。位置序是指目标词语在文本中出现的位置顺序。位置序presult值采用公示计算,其中presult为特定表达,即position与result的结合;同时xi为目标词语在每一个文本中的位置记录首数字,如果目标词语在某个文本中多次出现仅以第一个出现的位置记录首数字为结果,例如上述例句1中“包装”的x1=1。在计算时,n为文本句总数,利用文本总数n作为分母,主要是考虑消除每个目标词语词频不同以及对总体的影响,因而不用目标词语词频作为分母;由于目标词语来自文本分词后词语筛选,故presult值为非0值;presult值采用百分数,按照四舍五入保留两位小数。例如目标词语集的presult值计算如下“包装”的位置序同理计算目标词语“味道”的位置序presult=22.59%步骤s5:文本词语分析与判断,结合研究需要或者经营管理方法进行判断与决策。按照文本话题“先被提及优先重要”的原则,对目标词语集中“包装”和“味道”而言,presult值越小越“先被提及”,因此认为“包装”的位置序更靠前,在电商在线评论中更被关心。上面对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。本发明的保护范围应该以权利要求书所限定的保护范围为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1