一种农产品价格分析方法

文档序号:9453099阅读:1065来源:国知局
一种农产品价格分析方法
【技术领域】
[0001] 本发明涉及农产品价格分析技术领域,尤其涉及一种农产品价格分析方法。
【背景技术】
[0002] 农产品市场行情是国家经济、政治和社会稳定的重要组成部分,加强农产品价格 的信息分析,获取农产品价格的变化情况以及地区与地区之间的差异情况,对于稳定农产 品市场行情,向政府部门、农产品批发商及农业生产者等提供科学准确的决策信息具有重 要意义。政府部门根据农产品价格的变化及区域差异情况来适当的宏观调控,以更好地规 划农业生产布局,调整农业结构,组织农产品销售,达到区域之间的供求平衡,避免农产品 价格的巨大波动,维持市场稳定,从而有效地解决三农问题;农产品批发商根据农产品价格 的波动来调整经营销售策略,获得更大利益;农业生产者根据供求情况,适当改变农产品种 植品种,避免滞销,影响收入。
[0003] 随着社会主义市场经济体制改革的日益加深以及互联网的飞速发展,农产品价格 越来越受到市场经营情况以及流通环境的影响,农产品网络交易变得越来越普遍,农产品 交易数据也急剧增长。对于农产品,其价格往往随着其品种、产地以及销售地点而大幅度变 化,如何充分挖掘这些数据并且获取三者之间的关系具有成为了研究热点。
[0004] 目前,中国已经存在很多网络报价平台,但是其存在以下几个问题:
[0005] 其一,没有品种上的差别。例如,报价平台往往只会给出西瓜的价格,不会具体到 各个西瓜品种的价格;
[0006] 其二,没有区域上的差别。例如,报价平台往往不会给出农产品的产地。
[0007]这些数据都无法为商业决策提供足够的信息。

【发明内容】

[0008]本发明所要解决的技术问题是解决现有报价平台无法结合农品具体品种及产地 进行报价,不能提供足够的商业决策信息的问题。
[0009] 为此目的,本发明提出了一种农产品价格分析方法,包括以下步骤:
[0010] 利用预设搜索引擎训练一个组合分类器,根据所述组合分类器获取农产品品种信 息;
[0011] 从预设农产品交易网站上爬取各农产品品种的供应商的地理位置信息以及农产 品的价格信息;
[0012] 根据所述农产品品种信息以及所述各农产品品种的供应商的地理位置信息进行 农产品的产区划分,得到每一品种的农产品的产区信息;
[0013]根据所述每一品种的农产品的产区信息以及农产品的价格信息,利用地理信息系 统GIS技术进行该品种的农产品价格的区域化显示。
[0014] 优选地,所述利用预设搜索引擎训练一个组合分类器,根据所述组合分类器获取 农产品品种信息,具体包括:
[0015] 爬取预设搜索引擎上与搜索词对应的文本,提取所述文本中的并列表达结构;其 中,所述并列表达结构为以顿号隔开的文本;
[0016] 从所述并列表达结构中选出预设种类的农产品品种的并列结构和非预设种类的 农产品品种的并列结构作为训练样本数据集;
[0017] 提取所述预设种类的农产品品种并列结构的前后文本作为特征信息;
[0018] 根据所述特征信息,利用支持向量机分类算法训练多个基分类器,将所述多个基 分类器进行组合,构成所述组合分类器;
[0019] 利用所述组合分类器获取所述农产品品种信息。
[0020] 优选地,所述爬取预设搜索引擎上对应的文本,提取所述文本中的并列表达结构, 具体包括:
[0021] 构建一个预设种类的农产品的基本品种叙词表,将所述叙词表中的词语作为种子 词;所述叙词表包含预设数量的所述预设种类的农产品的基本品种;
[0022] 通过所述预设搜索引擎下载所述叙词表中的农产品的基本品种词语对应的词条, 提取所述词条中的所有文本信息;
[0023] 利用正则表达式提取所述文本信息中所有并列表达结构。
[0024] 优选地,所述从所述并列表达结构中选出预设种类的农产品品种的并列结构和非 预设种类的农产品品种的并列结构作为训练样本数据集,具体包括:
[0025] 按照预设打分规则对并列结构中的每个并列项进行打分;
[0026] 计算每个并列结构中的各并列项所得分数的均值,将所述均值作为所述并列结构 的分数;
[0027] 将每一并列结构的分数与预设的第一阈值进行比较,当所述并列结构的分数达到 所述第一阈值时,则所述并列结构为预设种类的农产品品种的并列结构,否则,为非预设种 类的农产品品种的并列结构;
[0028] 其中,所述预设打分规则包括:
[0029] 以预设搜索格式在所述预设搜索引擎中进行搜索,若所述并列项在所述叙词表中 出现,则判定所述并列项得1分;
[0030] 以预设搜索格式在所述预设搜索引擎中进行搜索,若结果词条中包含所述并列 项,贝判定所述并列项得〇. 8分;
[0031] 以所述预设搜索格式在所述预设搜索引擎中进行搜索,若预设搜索格式与结果词 条的互信息的数值达到预设的第二阈值则判定所述并列项得0. 5分;
[0032] 所述预设搜索格式为:所述并列项+空格+预设种类的农产品品种类别。
[0033] 优选地,所述提取所述预设种类的农产品品种并列结构的前后文本作为特征信 息,具体包括:
[0034] 提取所述预设种类的农产品品种并列结构所在语句除去所述农产品品种并列结 构之外的剩余文本,以其中的词语作为第一子特征信息;
[0035] 提取所述预设种类的农产品品种并列结构所在语句的前一语句和后一语句对应 的文本,以其中的词语作为第二子特征信息;
[0036] 将所述第一子特征信息和所述第二子特征信息作为所述特征信息。
[0037] 优选地,所述根据所述特征信息,利用支持向量机分类算法训练多个基分类器,将 所述多个基分类器进行组合,构成所述组合分类器,具体包括:
[0038] 按预设准则将所述训练样本数据集中的所述预设种类的农产品品种的并列结构 和所述非预设种类的农产品品种的并列结构分别平均分成N份和L份;
[0039] 随机抽取其中的N-1份所述预设种类的农产品品种的并列结构和K份所述非预设 种类的农产品品种的并列结构作为训练样本,剩下的1份所述预设种类的农产品品种的并 列结构和L-K份所述非预设种类的农产品品种的并列结构作为测试样本,通过所述支持向 量机分类算法进行学习,得到一个基分类器;
[0040] 重复上一步骤M次,则得到M个基分类器;
[0041] 将所述M个基分类器进行组合,得到所述组合分类器。
[0042] 优选地,所述利用所述组合分类器获取所述农产品品种信息,具体包括:
[0043] 利用所述组合分类器判断待测并列表达结构中的并列结构是否是所述预设种类 的农产品品种的并列结构;若是,则将所述并列结构对应的农产品品种加入到相应的农产 品类别中,以得到所述农产品品种信息。
[0044] 优选地,所述从预设农产品交易网站上爬取各农产品品种的供应商的地理位置信 息以及农产品的价格信息,具体包括:
[0045] 利用静态URL爬取方法在所述预设农产品交易网站上对静态网页的所述农产品 供应商的地理位置信息进行爬取;
[0046]或,
[0047] 采用Selenium工具在所述预设农产品交易网站上对动态网页的所述农产品供应 商的地理位置信息进行爬取。
[0048] 优选地,在所述根据所述农产品品种信息以及所述各农产品品种的供应商的地理 位置信息进行农产品的产区划分,得到每一品种的农产品的产区信息之前,所述方法还包 括:
[0049] 获取中国行政区域的地理信息,其中,所述地理信息分为4级:第一级为省或直辖 市、第二级为地级市、第三级为区或县级市、第四级为街道或乡镇。
[0050] 优选地,根据所述农产品品种信息以及所述各农产品品种的供应商的地理位置信 息进行农产品的产区划分,得到每一品种的农产品的产区信息,具体包括:
[0051] 按照所述地理信息中的级别顺序,对所述农产品供应商的地理位置信息进行一致 性处理;
[0052] 针对所述农产品品种信息,根据每一农产品品种和对应的多个产地中每一产地在 网络广告中出现的次数,计算该农产品品种在各产地的产区权值;
[0053] 将所述产区权值最大的产地以及距离该产地预
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1