一种基于互联网和大数据的电子商务交易监测方法与流程

文档序号：12366659阅读：233来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明属于电子商务领域，尤其涉及一种基于互联网和大数据的电子商务交易监测方法。

背景技术：

随着电子商务的发展，电子交易的应用越来越普及。但是，电子商务交易行为不够安全、合法和真实，不能保证电子商务健康稳定的发展。

技术实现要素：

本发明的目的在于提供一种基于互联网和大数据的电子商务交易监测方法，旨在解决电子商务交易行为不够安全、合法和真实的问题。

本发明是这样实现的，一种基于互联网和大数据的电子商务交易监测方法包括：对互联网数据进行定制采集、整合处理、对比分析、数据挖掘、数据分析、系统管理。

本发明还采取如下技术措施：

统计互联网中现有的电子商务平台及各平台的交易规则，对各平台的用户及产品进行分类梳理，确定数据采集的具体内容，完成数据采集系统配置，将该采集数据置于分布式文件系统中。

对于采集得到的数据，通过过滤，或修改不完整的数据、错误的数据或重复的数据，将非结构化数据转化为结构一致的数据，使得数据标准化、结构化，为数据处理做准备。

整合处理内部已有信息与外部采集信息，采用关联分析的数据挖掘方法进行检测。

通过数据挖掘中搜索隐藏的信息，寻找数据之间的规律，对于利用数据挖掘方法得出的结果，分别置予不同的权重，进行综合计算分析，得出最终的预警分值，把预警分值超过阈值的客户，进行等级的划分；对于被划分为“非常严重”的访问客户，列入欺诈客户黑名单信息库，并更新欺诈访问黑名单信息库。

根据数据之间的内在关系分析原因，概况总结并形成结论，数据分析包括：抽取单元、关联分析单元、逻辑回归单元、综合计算单元、数据发送单元。

系统管理包括：用户注册管理、产品提供方注册管理、产品提供方监控功能管理、用户资料数据库管理、远程检测功能管理、产品搜索引擎管理、在线交易平台管理、支付平台管理，有效识别电子商务交易行为的合法性、安全性和真实性。

进一步，所述电子商务平台设置有推荐模块，所述推荐模块的推荐方法具体实施步骤如下：

步骤一，首先，对用户数据进行预处理，已知用户集合U＝{u₁，u₂，u₃}，项目集合I＝{i₁，i₂，i₃，i₄}，类别的集合C＝{C1，C2，C3，C4}；计算所有项目的平均分μ，并且计算每个项目的平均分a_i以及项目在评分范围[1，2，3，4，5]上的概率分布，对于没有评分记录的项目使用μ填充，得μ＝3.78，a_i＝{3.67，3.67，4，4}，概率分布为{P₁＝{0，0.33，0，0.33，0.33}，P₂＝{0，0.33，0，0.33，0.33}，P₃＝{0，0，0，1，0}，P₄＝{0，0，0.5，0，0.5}}；

步骤二，在给定维度f、学习速率和迭代次数后，利用用户历史评分数据和损失方程通过随机梯度下降方法计算b_u，b_i，p_u，q_i的值；步骤如下，在给定参数b_u，b_i，p_u，q_i的情况下首先对损失方程求各个参数的偏导，如b_u←b_u+α*(r-r_ui-λ*b_u)，其中r为用户u对i打分的真实分数，α为学习速率，λ为正则化参数；利用偏导数更新各个参数，并最终得到SVD模型R＝a_i+b_u+b_i+q_i^Tp_u；

步骤三，利用信息熵公式计算每个用户在各个项目类别{Cl，C2，C3，C4}上的熵集合；如用户u₁，目标变量的取值范围是{-1，0，1}，其中-1表示评分小于等于2且小于项目平均分，即不喜欢；0表示评分等于3的情况，即一般；1表示评分大于3的情况，即喜欢；由此，得到E(C_u)＝{0，1.43，0.60，0}，通过E(C_u)以及项目的不确定性计算公式得到项目的不确定性临界点e_u为用户u的项目评分子集合中所有项目不确定性的最小值，即0.68；因此，得到所有用户的临界值；

预测u₁对i₃的评分情况，首先通过训练好后的奇异值分解模型得到初步预测评分，然后得到项目i₃在用户u₁时的项目不确定性为0＜e_u，则需要经过分类器；如果初步预测评分为3.21，得到i₃评分的向上取整为4，向下取整为3，计算评分为3时的概率P(3)＝(4-3.21)*0＝0，计算评分为4时的概率P(4)＝(3.21-3)*1＝0.21；P(4)＞P(3)，所以，将预测评分归类为4，最后u₁对i₃的评分为4，并将推荐给用户(此例中，N＝1)。

进一步，所述电子商务平台设置有信贷信息管理单元，所述信贷信息管理单元包括：

申贷查询模块，用于实现会员输入他客户的基本信息，姓名、身份证、联系方式，查询此客户在全网中其他机构处的申请贷款记录，初步判断是否同意客户的贷款申请，同意则深入查询进入下一步放贷查询；不同意则放弃放款；

放贷查询模块，用于在初步同意放款的记录，查询客户在全网中其他机构处的已借款在还的贷款记录；

贷后监管模块，用于实现会员选择某位客户，查询客户在还款期间在其他机构的贷款情况；

追收监管模块，用于在还款中逾期的客户无法正常还款，实现还款或将已追收并无法追收回来需核销的合同转入核销记录进行管理；

核销记录模块，用于实现会员客户在还款中逾期并无法追收，客户的合同分期记录在还款录入中不显示；

还款录入模块，用于实现会员还款录入，输入还款时间、还款金额，确定还款。

进一步，所述数据采集系统设置有子匹配滤波器；

所述子匹配滤波器的传递函数为：C_i是由分层序列u，v调制而成的，u是分层Golay序列u＝{1，1，1，1，1，1，-1，-1，1，-，1 1，-1，1，-1，-1}，，v＝{1，1，1，-1，-1，1，-1，-1，1，1，1，-1，1，-1，1，1}，C_16m+n＝u_nv_m；

，根据分层的Golay序列对传递函数进行改进，则有：

H(z_u)＝[1+z^-8+z^-1(1-z^-8)][1+z^-4+z^-2(1-z^-4)]；

H(z_v)＝(1+z^-1)[1-z^-6+z^-8+z^-14]+(1-z^-1)[z^-2-z^-4+z^-10+z^-12]。

进一步，所述数据发送单元设置有数据压缩模块，所述数据压缩模块的数据压缩方法包括：

步骤一，需要合并最小的概率，指定内部节点的每一对树枝上的0和1，得到分配给每个信源的码字，这样就构造出一个码树；在构造一个D元码的Huffman过程中，每一步合并最小的D个概率，如果通过k+1步得到这个码树，其中k≥0，那么就有k+1个内部节点和D+k(D-1)个叶子，其中每一个叶子对应字母表中的一个信源符号，如果字母表的大小m具有形式D+k(D-1)，则可以直接应用Huffman过程，否则，需要给字母表中添加概率是0的虚拟字符，以使得字符总数具有D+k(D-1)的形式；

步骤二、在编码时，首先根据E1_n+1＝E1_n+d_n+1式计算出E1值，再根据和式计算出拟合残差，计算这两步时，均需要对结果进行越限判断，判断E1是否越限是为了避免超过传感器数据总线上限而造成溢出；判断残差是否越限是为实现分段拟合；

步骤三、当一段输入数据的拟合残差全部计算完后，就构造出{d_n，E1_n，DFR₃，DFR₄，…DFR_n}所示的数据包，通过S-Huffman编码方法对进行熵编码，然后发送出去，接收端解码时，先将接收到的一组数据解码，还原出{d_n，E1_n，DFR₃，DFR₄，…DFR_n}式所示的数据包，然后根据式计算并还原出所有原始数据。

进一步，所述基于互联网和大数据的电子商务交易监测方法包括多源异构数据语义集成模型，所述多源异构数据语义集成模型包括：局部本体构建模块、本体合并模块和语义查询动态扩展及规约模块；

局部本体构建模块，根据数据源特征，自适应地选择本体构建策略，从而构建出油气勘探局部本体；首先，应用文本过滤器将不同的文件格式转成为纯文本文件格式，获得语料数据，并进行一致性检查；然后，采用逆向最大分类中文分词方法对这些语料进行初步的切分处理，得到字串集合；然后，利用最大信息系数方法计算字串的内部结合强度，获取合成词集合，并判断合成词和非合成词的领域相关性，提取出概念集合；然后，应用图上随机游走算法推理合成词概念间的分类关系，采用基于隐Markov模型的聚类算法提取非合成词概念间的分类关系；接着，运用基于关联规则挖掘的方法获取概念间的非分类关系；最后，应用本体构建工具输出OWL格式的局部本体；利用R2O技术建立数据库模式和本体模型之间的语义映射关系，从而把关系数据库中的关系映射为本体中的概念，把属性对应地映射为OWL属性，并把数据库的关系表转化为本体类，把数据库中的数据转化为实例；然后，对从数据库中抽取出来的初始局部本体做一系列的规范化工作，通过与标准本体进行语义相似度计算，将符合阈值的本体信息建立语义联系，不符合阈值的本体信息进行规范化处理，从而构建出符合要求的规范化局部本体；由于半结构化数据是介于结构化和非结构化数据之间的、具有隐含结构但缺乏固定或严格结构的一类数据；所以，基于上述两种数据类型的本体构建技术也可以应用到半结构化数据源；抽取出半结构化数据模式，给定映射规则，利用XML2RD方法，将半结构化数据转化为结构化数据；然后，按照结构化数据构建局部本体的方法构造半结构化数据源对应的局部本体；

本体合并模块，与局部本体构建模块连接，采用将概念匹配和属性匹配相结合的本体合并方法，利用最大信息系数方法计算概念语义相似度和概念属性的语义相似度，实现多个局部本体到领域本体的灵活合并；采用将概念匹配和属性匹配相结合的本体合并方法，利用最大信息系数方法计算概念语义相似度和概念属性的语义相似度，然后，通过相似度评估函数对概念间的相似度进行评估，输出相似矩阵，并对相似矩阵运用领域公理约束知识进一步评估其相似性；接着，通过机器学习的方法训练学习分类器，利用学习分类器计算概念实例间的相似度；最后，通过结合ISO15926油气本体和模糊形式概念分析方法，综合考虑语义相似度的对称性和传递性关系，将模糊集理论引入语义相似度的设定中，实现多个局部本体到领域本体的灵活合并；

语义查询动态扩展及规约模块，与局部本体构建模块连接，用于查询请求动态扩展的有效性及结果的聚合优化；语义查询动态扩展及规约模块实现的具体方法为：首先，借助社会标注语义分析和本体包含的概念关系及推理能力，对查询请求进行语法及语义上的规约与扩展，生成规范的语义查询语句，解决查询请求与领域本体数据源之间由于表达形式的不同所造成的失配问题，并根据用户的查询请求自动推荐一簇语义相关标签，为实现数据源准确聚集提供导引；然后，通过计算扩展查询请求和领域本体概念间的语义相似度来量化请求与资源概念间的关联度；最后，利用社会标注和本体包含的丰富概念语义关系，对查询结果模式进行语义注释，根据社会标注的语义全局效应，引入以统计分析结果获得的最相关可信性标注所指向的数据源作为查询结果可信性评价标准之一，对结果集进行去重和聚合优化，实现可信的Top-K查询。

本发明具有的优点和积极效果是：该一种基于互联网数据的电子商务交易监测方法与现有技术相比，能有效识别电子商务交易行为的合法性、安全性和真实性，保证电子商务健康、稳定发展。本发明的信贷信息管理单元在分享数据时的合法性和保密性；在用户查询数据意愿大于录入数据的意愿情况下，让用户既查询数据也录入数据；保证了采信的数据的有效性、真实性、及时性。本发明成功有效的在分享数据的同时也采集了数据，并保证了数据的真实、有效、及时性。本发明实现了数据源的动态增长，对于新增的数据源，只需要提供相应的包装器，构建对应的局部本体即可，可提高集成系统的灵活性和实用性。用领域本体描述领域知识，局部本体描述某一领域中的异构信息知识，并分别建立领域本体与局部本体的映射、局部本体与数据源的映射，使得领域本体、局部本体和数据源既互相联系，又相对独立，能够降低语义集成系统的耦合性。为了实现语义查询及易用性，结合社会标注及本体在知识表达上的互补优势，对用户的语义查询请求进行查询规约及扩展，并对查询结果去重和聚合优化，最终将优化后的结果返回给用户。

附图说明

图1是本发明实施例提供的基于互联网和大数据的电子商务交易监测方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例的基于互联网和大数据的电子商务交易监测方法包括以下步骤：

S101：统计互联网中现有的电子商务平台及各平台的交易规则，对各平台的用户及产品进行分类梳理，确定数据采集的具体内容，完成数据采集系统配置，将该采集数据置于分布式文件系统中；

S102：对于采集得到的数据，通过过滤，或修改不完整的数据、错误的数据或重复的数据，将非结构化数据转化为结构一致的数据，使得数据标准化、结构化，为数据处理做准备；

S103：整合处理内部已有信息与外部采集信息，采用关联分析的数据挖掘方法进行检测；

S104：通过数据挖掘中搜索隐藏的信息，寻找数据之间的规律，对于利用数据挖掘方法得出的结果，分别置予不同的权重，进行综合计算分析，得出最终的预警分值，把预警分值超过阈值的客户，进行等级的划分；对于被划分为“非常严重”的访问客户，列入欺诈客户黑名单信息库，并更新欺诈访问黑名单信息库；

S105：根据数据之间的内在关系分析原因，概况总结并形成结论，数据分析包括：抽取单元、关联分析单元、逻辑回归单元、综合计算单元、数据发送单元；

S106：用户注册管理、产品提供方注册管理、产品提供方监控功能管理、用户资料数据库管理、远程检测功能管理、产品搜索引擎管理、在线交易平台管理、支付平台管理，有效识别电子商务交易行为的合法性、安全性和真实性。

首先对互联网数据进行定制采集，将采集数据置于分布式文件系统中；然后通过对于采集得到的数据进行整合处理；采用关联分析的数据挖掘方法进行检测；利用数据挖掘方法得出的结果，把预警分值超过阈值的客户，进行等级的划分；对于被划分为“非常严重”的访问客户，列入欺诈客户黑名单信息库，并更新欺诈访问黑名单信息库；根据数据之间的内在关系分析原因，将分析到的原因由系统统一进行管理，能有效识别电子商务交易行为的合法性、安全性和真实性，保证电子商务健康、稳定发展。

进一步，所述电子商务平台设置有推荐模块，所述推荐模块的推荐方法具体实施步骤如下：

步骤一，首先，对用户数据进行预处理，已知用户集合U＝{u₁，u₂，u₃}，项目集合I＝{i₁，i₂，i₃，i₄}，类别的集合C＝{Cl，C2，C3，C4}；计算所有项目的平均分μ，并且计算每个项目的平均分a_i以及项目在评分范围[1，2，3，4，5]上的概率分布，对于没有评分记录的项目使用μ填充，得μ＝3.78，a_i＝{3.67，3.67，4，4}，概率分布为{P₁＝{0，0.33，0，0.33，0.33}，P₂＝{0，0.33，0，0.33，0.33}，P₃＝{0，0，0，1，0}，P₄＝{0，0，0.5，0，0.5}}；

步骤三，利用信息熵公式计算每个用户在各个项目类别{C1，C2，C3，C4}上的熵集合；如用户u₁，目标变量的取值范围是{-1，0，1}，其中-1表示评分小于等于2且小于项目平均分，即不喜欢；0表示评分等于3的情况，即一般；1表示评分大于3的情况，即喜欢；由此，得到E(C_u)＝{0，1.43，0.60，0}，通过E(C_u)以及项目的不确定性计算公式得到项目的不确定性临界点e_u为用户u的项目评分子集合中所有项目不确定性的最小值，即0.68；因此，得到所有用户的临界值；