一种基于语义分析的水果电商产地适宜度评级方法与流程

文档序号:15493483发布日期:2018-09-21 21:08阅读:157来源:国知局

本发明涉及水果电商产地适宜度评级技术领域,更具体地,涉及一种基于语义分析的水果电商产地适宜度评级方法。



背景技术:

目前水果电商市场上的水果品种繁多,其产地相差甚远。不同产地所种植的水果产品,从其产品的质地、口感、形状、大小等各个方面也大相径庭,消费者在电商平台上做出购买决策时,需要获得具有实际意义的参考评价,来帮助消费者进行购买。而目前在电商市面上充斥着大量的水果评级,这些都来源于商家的主观评价,对水果研究的评价内容都较为单一,对购买决策无法提供合理的参考依据。同时作为核心产地标志性的农产品饱受劣币驱逐良币,甚至出现信任危机。尽管造成这种现象的原因很多,但如何做到消费者真真切切能够了解到,同样水果品种因产于核心产地的适宜度高低,而区别于其他产地的品质,是目前所需要解决的评级问题。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种基于语义分析的水果电商产地适宜度评级方法,能针对具体水果品种的不同产地进行系统分析,得出适宜度评级结果,帮助消费者有效区别不同产地的品种,了解核心产地的价值,为消费者购买水果提供参考依据。

为解决上述技术问题,本发明采用的技术方案是:

提供一种基于语义分析的水果电商产地适宜度评级方法,其特征在于,包括如下步骤:

s1.根据水果品种在网络上进行搜索,获取与该水果品种有关的文本数据,以建立原始语料数据库;

s2.对原始语料数据库内的数据进行语义分析,以建立地理信息语料数据库;

s3.对地理信息语料数据库进行地理属性的文本挖掘,获取与该水果品种有关的产地名,应用主题模型对所有产地名进行分类,以将主题相关联的产地归为一类,得到地理属性数据库;从地理属性数据库中提取出各类产地的关键词,计算各类产地在文本数据中的出现频率,将出现频率最高的这类产地定义为核心产地,将其他类产地定义为其他产地;

s4.进行产地适宜度评级,包括如下步骤:

s41.在地理信息语料数据库中提取核心产地和其他产地中各类产地的地理经纬度信息及气候信息,根据经纬度信息计算其他产地中各类产地与核心产地两地之间的距离,若两地距离不大于阈值,将该类产地的适宜度评级为优,以完成地理位置评级,若两地距离大于阈值,则进入产地属性适宜度评级;

s42.将核心产地的气候信息作为适宜度标准样本,将其他产地中除评级为优外的各类产地的气候信息作为变量,对标准样本和变量进行相似度对比得出该类产地的气候适宜度结果,以确定剩余类产地的适宜度评级,完成产地属性适宜度评级。

上述方案中,通过在网络上获取具体水果品种的文本数据,进而利用语义分析、文本挖掘技术进行分析,获取该水果品种的各类产地,并划分核心产地和其他产地,继而通过对比其他产地中各类产地与核心产地的地理坐标距离,确定出评级为优的一类产地,再通过比对其他产地中除评级为优外的各类产地与核心产地的气候信息,确定剩余类产地的适宜度评级。本发明能针对具体水果品种的不同产地进行系统分析,得出适宜度评级结果,帮助消费者有效区别不同产地的品种,了解核心产地的价值,为消费者购买水果提供参考依据。

优选地,气候信息包括温度、降水量及日照信息;步骤s42中,对标准样本和变量进行相似度对比得出该类产地的温度适宜度、降水适宜度及日照时数适宜度结果,并将对比结果加权得出最终分数,获取气候适宜度结果。温度、降水量及日照信息会直接影响水果品种的生长发育和最终的品质,因此对比这三项信息,可以提高评级的准确性。

优选地,步骤s42中,其他产地中除评级为优外的各类产地的温度适宜度结果用公式(1)表示:

s(t)=[(t-t1)(t2-t)b]/[(t0-t1)(t2-t0)b](1)

b=(t2-t0)/(t0-t1)(2)

其中,s(t)表示温度为t时为该水果品种的温度适宜度;t0为该水果品种核心产地的温度;t1为该水果品种发育的最低温度,低于这一温度,发育速率为0;t2为该水果品种发育的最高温度,超过这一温度,该水果品种发育停止。

优选地,步骤s42中,其他产地中除评级为优外的各类产地的降水适宜度结果用公式(3)表示:

其中,s(w)为降水适宜度;r0为在核心产地的每日该水果品种生理需水量,单位为mm;r为日可利用降水量,根据前50d的日降水量乘以相应权重系数得到;

其中,wi为权重;i为日序;ri为日降水量;n为50。

优选地,步骤s42中,其他产地中除评级为优外的各类产地的日照时数适宜度结果用公式(5)表示:

其中,s(s)为日照时数适宜度;s为实际日照时数;s0为日照百分率为70%的日照时数,日照时数在临界点以上,水果品种对日照的反应达到适宜状态;b为常数,随着发育期的变化而变化。

优选地,步骤s42中,气候适宜度结果用公式(6)表示:

其中,s(t,w,s)为气候适宜度;s(t),s(w),s(s)分别为温度适宜度、降水适宜度、日照时数适宜度。

优选地,步骤s1中使用beautifulsoup网络数据挖掘工具在网络上进行搜索。beautifulsoup可以从html或xml文件中提取数据的python库,将html的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。beautifulsoup提供一些简单的python的函数用来处理导航、搜索、修改分析树等功能,通过解析文档来提供需要抓取的数据,该工具灵活快速度地提供不同的解析策略能够为后面的语义分析提供有效的数据分析基础。

优选地,步骤s2中对原始语料数据库内的数据进行词法分析、词向量表示、词义相似度、文本标签及主题模型的语义分析。

词法分析向用户提供分词、词性标注、命名实体识别三个功能,使其能够识别出文本串中的基本词汇,对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体,多轮交互式搜索,通过地理专有名词识别定位多轮对话中的核心实体,自动判断后续文本中对该实体的进一步信息需求,实体数据库构建,通过挖掘实体之间、实体与关键词之间的关联,构建实体信息数据库。

利用全网海量数据和深度神经网络技术,通过词语的向量化来实现文本的可计算,帮助快速完成语义挖掘、相似度计算等应用,词向量计算是一种通过训练的方法,将语言词表中的词映射成一个长度固定的向量,词表中所有的词向量构成一个向量空间,每一个词都是这个词向量空间中的一个点,利用这种方法,实现文本的可计算。

通过词语向量化来计算两个词之间的相似度,本技术用于计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高。

对所搜集的语料数据库进行核心关键词分析,为新相似文本聚合、文本内容分析等提供技术支持,文本标签服务对文本的标题和内容进行深度分析,输出能够反映文章关键信息的主题、话题、实体等多维度标签以及对应的置信度,对文本的文本聚合、内容检索等方面具有广泛的应用价值。

对原数据中的文档数据做语义分析,文档中是否关联度密切往往不只决定于字面上的词语重复,还取决于文字背后的语义关联,对语义关联的挖掘,可以让我们的搜索更加智能化,由此引入主题模型,主题模型是一种将文字中隐含主题的建模方法,能够在海量互联网数据中自动寻找出文字间的语义主题。主题就是一个概念、一个方面,表现为一系列相关的词语。比如一个文章如果涉及到“冰糖橙”这个主题,那么与该品种产地相关的“湖南”、“黔阳”等词语就会以较高的频率出现,从而根据进一步的分析就可以确定核心产地。如果用数学来描述一下的话,主题就是词汇表上词语的条件概率分布。与主题关系越密切的词语,它的条件概率越大,反之则越小。一篇文档的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。那么,如果我们要生成一篇文档,它里面的每个词语出现的概率为:

对大量与水果品种名相关的文档,先对所有文档进行分词,得到一个词汇列表。这样每篇文档就可以表示为一个词语的集合。对于每个词语,我们可以用它在文档中出现的次数除以文档中词语的数目作为它在文档中出现的概率:p(词语|文档)。这样,对任意一篇文档,左边的p(词语|文档)是已知的,等式右边的p(词语|主题)和p(主题|文档)两个矩阵则是未知。而主题模型就是用大量已知的p(词语|文档),通过一系列的训练,推理出右边的p(词语|主题)和p(主题|文档)。

优选地,步骤s3中使用实体识别中的地名识别对地理信息语料数据库进行处理,以获取与该水果品种有关的产地名。

与现有技术相比,本发明的有益效果是:

本发明一种基于语义分析的水果电商产地适宜度评级方法,通过在网络上获取具体水果品种的文本数据,进而利用语义分析、文本挖掘技术进行分析,获取该水果品种的各类产地,并划分核心产地和其他产地,继而通过对比其他产地中各类产地与核心产地的地理坐标距离,确定出评级为优的一类产地,再通过比对其他产地中除评级为优外的各类产地与核心产地的气候信息,确定剩余类产地的适宜度评级,本发明能针对具体水果品种的不同产地进行系统分析,得出适宜度评级结果,帮助消费者有效区别不同产地的品种,了解核心产地的价值,为消费者购买水果提供参考依据。

附图说明

图1为本实施例一种于语义分析的水果电商产地适宜度评级方法的框架流程图。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。

实施例

本实施例一种基于语义分析的水果电商产地适宜度评级方法,如图1所示,包括如下步骤:

s1.根据水果品种在网络上进行搜索,获取与该水果品种有关的文本数据,以建立原始语料数据库;

s2.对原始语料数据库内的数据进行语义分析,以建立地理信息语料数据库;

s3.对地理信息语料数据库进行地理属性的文本挖掘,获取与该水果品种有关的产地名,应用主题模型对所有产地名进行分类,以将主题相关联的产地归为一类,得到地理属性数据库;从地理属性数据库中提取出各类产地的关键词,计算各类产地在文本数据中的出现频率,将出现频率最高的这类产地定义为核心产地,将其他类产地定义为其他产地;

s4.进行产地适宜度评级,包括如下步骤:

s41.在地理信息语料数据库中提取核心产地和其他产地中各类产地的地理经纬度信息及气候信息,根据经纬度信息计算其他产地中各类产地与核心产地两地之间的距离,若两地距离不大于阈值,将该类产地的适宜度评级为优,以完成地理位置评级,若两地距离大于阈值,则进入产地属性适宜度评级;

s42.将核心产地的气候信息作为适宜度标准样本,将其他产地中除评级为优外的各类产地的气候信息作为变量,对标准样本和变量进行相似度对比得出该类产地的气候适宜度结果,以确定剩余类产地的适宜度评级,完成产地属性适宜度评级。

通过在网络上获取具体水果品种的文本数据,进而利用语义分析、文本挖掘技术进行分析,获取该水果品种的各类产地,并划分核心产地和其他产地,继而通过对比其他产地中各类产地与核心产地的地理坐标距离,确定出评级为优的一类产地,再通过比对其他产地中除评级为优外的各类产地与核心产地的气候信息,确定剩余类产地的适宜度评级。本发明能针对具体水果品种的不同产地进行系统分析,得出适宜度评级结果,帮助消费者有效区别不同产地的品种,了解核心产地的价值,为消费者购买水果提供参考依据。

其中,气候信息包括温度、降水量及日照信息;步骤s42中,对标准样本和变量进行相似度对比得出该类产地的温度适宜度、降水适宜度及日照时数适宜度结果,并将对比结果加权得出最终分数,获取气候适宜度结果。温度、降水量及日照信息会直接影响水果品种的生长发育和最终的品质,因此对比这三项信息,可以提高评级的准确性。

另外,步骤s42中,其他产地中除评级为优外的各类产地的温度适宜度结果用公式(1)表示:

s(t)=[(t-t1)(t2-t)b]/[(t0-t1)(t2-t0)b](1)

b=(t2-t0)/(t0-t1)(2)

s(t)表示温度为t时为该水果品种的温度适宜度;t0为该水果品种核心产地的温度;t1为该水果品种发育的最低温度,低于这一温度,发育速率为0;t2为该水果品种发育的最高温度,超过这一温度,该水果品种发育停止。

其中,步骤s42中,其他产地中除评级为优外的各类产地的降水适宜度结果用公式(3)表示:

s(w)为降水适宜度;r0为在核心产地的每日该水果品种生理需水量,单位为mm;

r为日可利用降水量,根据前50d的日降水量乘以相应权重系数得到;

wi为权重;i为日序;ri为日降水量;n为50。

另外,步骤s42中,其他产地中除评级为优外的各类产地的日照时数适宜度结果用公式(5)表示:

s(s)为日照时数适宜度;s为实际日照时数;s0为日照百分率为70%的日照时数,日照时数在临界点以上,水果品种对日照的反应达到适宜状态;b为常数,随着发育期的变化而变化。

其中,步骤s42中,气候适宜度结果用公式(6)表示:

s(t,w,s)为气候适宜度;s(t),s(w),s(s)分别为温度适宜度、降水适宜度、日照时数适宜度。

另外,步骤s1中使用beautifulsoup网络数据挖掘工具在网络上进行搜索。

其中,步骤s2中对原始语料数据库内的数据进行词法分析、词向量表示、词义相似度、文本标签及主题模型的语义分析。

另外,步骤s3中使用实体识别中的地名识别对地理信息语料数据库进行处理,以获取与该水果品种有关的产地名。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1