风险用户判断方法及其系统、电子设备与流程

文档序号：18902638发布日期：2019-10-18 22:09阅读：226来源：国知局

本发明涉及数据处理领域，其特别涉及一种风险用户判断方法及其系统、电子设备。

背景技术：

在电子商务的使用场景中，用户在购买商品后一般需要提交地址信息。现有的方法中，电商系统接收到用户提交的地址信息后，往往需要将获取的地址文字进行分词处理，从而可进一步基于地址信息对用户进行分类，并可匹配对应的发货仓库，提高整体销量。但是现有地址匹配中分词方法准确率较低，且无法进行风险用户检测。

因此，亟待提供一种可有效解决电子商务中判断风险用户的新型技术方案。

技术实现要素：

为解决现有电商中风险用户检测难的技术问题，本发明提供一种风险用户判断方法及其系统、电子设备。

本发明为解决上述技术问题，提供如下的技术方案：一种风险用户判断方法，其特征在于：其包括以下步骤：步骤s1，建立地址分词词典和至少一地点词典；步骤s2，获取用户提交的地址信息，利用匹配算法和地址分词词典对所述地址信息进行分词，以获得地址分词结果；步骤s3，提供一风险用户地址数据库，基于地址分词结果在风险用户地址数据库中筛选获得与地址信息相关的词；及步骤s4，将地址分词结果和筛选获得的词进行相似度计算，当相似度大于预设阈值时，则将对应用户判定为风险用户。

优选地，上述步骤s2中，所述地点词典包括地址分级词典、地点模糊词映射字典。

优选地，所述步骤s2进一步包括以下步骤：步骤s21，获取用户提交的地址信息；及步骤s22，利用双向最大匹配法结合地址分词词典对用户提交的地址信息进行分词，以获得地址分词结果。

优选地，在上述步骤s2与步骤s3之间，还包括以下步骤：步骤s20，利用地点模糊词映射词典判断是否有地点模糊词，并将对应的词映射成标准地点名词。

优选地，在步骤3中所述筛选获得与地址信息相关的词具体包括：对应在风险用户地址数据库中存储的地址信息至少一部分与地址分词结果中任一个或多个相匹配，则对应的风险用户地址将被筛选出来。

优选地，上述步骤s4中，将地址分词结果和筛选获得的词进行相似度计算具体包括：利用one-hot编码方法将地址分词结果和筛选获得的词进行转化为向量后进行空间距离运算；或利用分布相似度方法，计算地址分词结果和筛选获得的词的语义相似度。

优选地，上述步骤s4中，在获得地址分词结果和筛选获得的词之间的相似度之后，进一步包括：步骤s401，设定一预设阈值；及步骤s402，判断相似度是否大于预设阈值，若是，则判定对应用户为风险用户，若否，则判定对应用户为普通用户。

本发明为解决上述技术问题，提供又一技术方案如下：一种风险用户判断系统，其包括：词典建立模块，建立地址分词词典和至少一地点词典；地址分词模块，获取用户提交的地址信息，利用匹配算法和地址分词词典对所述地址信息进行分词，以获得地址分词结果；风险用户地址筛选模块，提供一风险用户地址数据库，基于地址分词结果在风险用户地址数据库中筛选获得与地址信息相关的词；及相似度比较模块，将地址分词结果和筛选获得的词进行相似度计算，当相似度大于预设阈值时，则将对应用户判定为风险用户。

优选地，在上述地址分词模块中，进一步可包括：用户地址获取单元，获取用户提交的地址信息；及分词单元，利用双向最大匹配法结合地址分词词典对用户提交的地址信息进行分词，以获得地址分词结果。

本发明为解决上述技术问题，提供又一技术方案如下：一种电子设备，其包括存储单元和处理单元，所述存储单元用于存储计算机程序，所述处理单元用于通过所述存储单元存储的计算机程序执行如上所述风险用户判断方法的步骤。

与现有技术相比，本发明所提供给的一种风险用户判断方法及其系统、电子设备具有如下的有益效果：

本发明所提供的一种风险用户判断方法，其包括建立地址分词词典和至少一地点词典；获取用户提交的地址信息，利用匹配算法和地址分词词典对所述地址信息进行分词；进一步基于地址分词结果在风险用户地址数据库中筛选获得与地址信息相关的词；及将地址分词结果和筛选获得的词进行相似度计算，当相似度大于预设阈值时，则将对应用户判定为风险用户。基于上述方法，可实现结合电商的场景辅助电商平台快速进行风险用户的识别检测，从而可提高地址信息的分析、分类和识别的能力及其效率。

在本发明中，所述地点词典包括地址分级词典、地点模糊词映射字典，其中，所述地址分级词典进一步可为利用国家省市区进行分级分类的词典，而其中地点模糊词映射字典的引入，可实现利用地点模糊词映射词典判断是否有地点模糊词并可对应将地点模糊词映射成标准地点名词。从而可实现基于地址模糊也可准确匹配判断风险用户。

在本发明中，利用双向最大匹配法结合地址分词词典对用户提交的地址信息进行分词，以获得地址分词结果。采用双向最大匹配法的准确率会明显优于正向最大匹配或逆向最大匹配的准确率和匹配的效率。

在本发明中，提供一风险用户地址数据库，并对应在风险用户地址数据库中存储的地址信息至少一部分与地址分词结果中任一个或多个相匹配，则对应的风险用户地址将被筛选出来。在经过地址分词后所获得的地址分词结果具有地址级别，应该通过与风险用户地址数据库进行比对，则可以将符合上面地址的所有记录都筛选出来，从而可避免由于地址分词或地址模糊词判断有误，而导致风险用户地址筛选过程中有遗漏或者匹配错误的问题。

在本发明中，将地址分词结果和筛选获得的词进行相似度计算具体包括：利用one-hot编码方法将地址分词结果和筛选获得的词进行转化为向量后进行空间距离运算；或利用分布相似度方法，计算地址分词结果和筛选获得的词的语义相似度。基于上述的方法，可提高相似度计算的准确度及效率。

本发明还提供一种风险用户判断系统及一种电子设备，具有与上述风险用户判断方法相同的有益效果，可实现结合电商的场景辅助电商平台快速进行风险用户的识别检测，从而可提高地址信息的分析、分类和识别的能力及其效率。

【附图说明】

图1是本发明第一实施例中所提供的风险用户判断方法的步骤流程示意图。

图2是图1中所示步骤s2中的细分步骤流程示意图。

图3是图1中所提供的风险用户判断方法另一实施方式的具体步骤流程示意图。

图4是图1中所述步骤s4的具体流程示意图。

图5是本发明第二实施例中所提供的风险用户判断系统的功能模块示意图。

图6是图5中所示地址分词模块的具体功能单元示意图。

图7是本发明第三实施例中所提供的电子设备的功能模块示意图。

附图标识说明：

20、风险用户判断系统；21、词典建立模块；22、地址分词模块；23、风险用户地址筛选模块；24、相似度比较模块；221、用户地址获取单元；222、分词单元；30、电子设备；31、存储单元；32、处理单元。

【具体实施方式】

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明的第一实施例提供一种风险用户判断方法s10，其包括以下步骤：

步骤s1，建立地址分词词典和至少一地点词典；

步骤s2，获取用户提交的地址信息，利用匹配算法和地址分词词典对所述地址信息进行分词，以获得地址分词结果；

步骤s3，提供一风险用户地址数据库，基于地址分词结果在风险用户地址数据库中筛选获得与地址信息相关的词；及

步骤s4，将地址分词结果和筛选获得的词进行相似度计算，当相似度大于预设阈值时，则将对应用户判定为风险用户。

在本实施例中，所述地址信息可理解为收货地址信息、注册地址信息或其他可与用户信息相关联的地址信息。在此处所指的风险用户是指有可能违约的客户，具体可理解为购买行为特殊(比如有退换货习惯、客户恶意评价较多)或者购买商品目的特别的用户。

进一步地，所述风险用户地址库是指历史风险用户登录的地址。

其中，在上述步骤s1中，所述地点词典可包括但不受限于：地址分级词典、地点模糊词映射字典等。其中，所述地址分级词典可基于地址信息由大到小分为多个级别，例如，所述地址分级词典可为国家省市区四级词典，其中，所述国家省市区四级词典可理解为对应词典中包括按照地址划分的四个级别，也可理解为其是基于四个级别划分的四类词，每一个级别的词语选择均有不同，例如，所述国家省市区四级词典可包括如“中国-四川省-成都市-高新区”。

进一步例如，第四级中“高新区”是一个比较宽泛的名词，其可在多个省、市级分类词中出现，因此，其具体地点的确定，还需要依赖于第一级、第二级及第三级的对应信息加以判断。为了提高地址信息分词的准确性，还可进一步判断用户输入的地址信息中各个层级的地址是否匹配，如果存在某一层级的地址与相邻层级的地址不匹配，则可以判断该地址不合法或者直接判定其为风险用户。

更进一步地，所述地点模糊词映射字典则可为基于现有常用地址及地点名词而建立起来的地点模糊词与标准地点名词之间的映射关系表，其中，一个地点模糊词可对应一个或多个标准地名，也可以是多个地点模糊词对应一个标准地名。基于所述地点模糊词映射字典，可在用户输入地址信息有错别字、遗漏或者填写顺序有误的情况下，都可以获得标准的地名，从而可以便于基于地址信息获知风险用户。

在本实施例中，所述地址分词词典中包含所有代表地址的词语，其具体可基于海量进行分词后的地址信息组成。

如图2中所示，在上述步骤s2中获取用户提交的地址信息，利用匹配算法和地址分词词典对所述地址信息进行分词，以获得地址分词结果，进一步包括如下步骤：

步骤s21，获取用户提交的地址信息；及

步骤s22，利用双向最大匹配法结合地址分词词典对用户提交的地址信息进行分词，以获得地址分词结果。

其中，双向最大匹配法(bi-directctionmatchingmethod，bm)是一种基于词典的分词方法。基于词典的分词方法是按照一定策略将待分词的词与一个“大机器词典”中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。其中，在本实施例中所述的“大机器词典”即为所述地址分词词典。

在本实施例中，所述双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较，从而决定正确的分词方法。具体地，在一些具体例子中，包括：

1.从左向右取待切分地址中m个字符作为匹配字段，

m为所述地址分词词典中最长词条个数。及

2.查找所述地址分词词典并进行匹配。若匹配成功，则将这个匹配字段作为一个词切分出来。

若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，重复以上过程，直到切分出所有词为止。

可见，利用双向最大匹配法进行分析的准确度要大于正向最大匹配分词或逆向最大匹配分词的准确度。

如图3中所示，当所述地点词典同时包括国家省市区四级词典及地点模糊词映射字典时，则在上述步骤s2与步骤s3之间，还可包括如下步骤：

步骤s20，利用地点模糊词映射词典判断是否有地点模糊词，并将对应的词映射成标准地点名词。

基于上述步骤s20，可进一步提高上述对应分词的准确度，从而可避免由于用户输入的地址信息不准确，而导致分词有误的问题。

在本实施例的上述步骤s3中所述提供的一风险用户地址数据库中，其中可预存有风险用户对应的地址。例如，基于所述国家省市区四级词典查找到的词的地址级别可包括四个级别，进一步可通过四个级别对应的四类词为筛选条件，把所述风险用户地址数据库中同样符合上面地址的所有记录筛选出来；

可以理解，在上述筛选过程中，主要对应在风险用户地址数据库中存储的地址信息至少一部分与地址分词结果中任一个或多个相匹配，则对应的风险用户地址将被筛选出来。具体地，所述地址分词结果可包括多级别对应的词，例如，所述地址分词结果可包括四个级别对应的四类词。

例如，四个级别对应的四类词分别为“中国”、“四川省”、“成都市”及“高新区”中，在风险用户地址数据库中，有其中“成都市”+“高新区”相匹配，则对应的将包含这两个特征的风险用户地址记录全部筛选出来，以筛选获得对应的词。

可以理解，在其他的一些实施例中，所述分类的级别和方式可以基于具体所要分析的地址信息类型做调整，例如，可基于地址的特点，分为三个级别、五个级别、六个级别或者更多的级别。

进一步地，在上述步骤s4中，将地址分词结果和筛选获得的词进行相似度计算，其中相似度计算的方法包括：

利用one–hot编码方法(one-hotrepresentation)，将词语数字符号化，具体地，可将一个词表示为一个长向量，每个向量只有一个维度1，其与的维度全是0，比如，可将“北京”表示为：[10000000]；而将“上海”表示为：[00100000]。

利用one-hot方法进行转换为向量后，进行空间距离运算。具体地，所述空间距离运算进一步可基于如欧几里得距离(euclediandistance)、曼哈顿距离(manhattandistance)、明可夫斯基距离(minkowskidistance)、余弦相似度(cosinesimilarity)、皮尔森相关系数(pearsoncorrelationcoefficient)等方法，计算地址分词结果和筛选获得的词之间的相似度。

在本发明另外的一些实施例中，也可使用分布相似度(distributionalsimilarity)，对词与词的语义相似度进行计算，其包括如下步骤：

第一步，定义上下文；例如，“北京市海淀区中关街”，其中，相对于“海淀区”而言，“北京市”相当于其上文，“中关街”相当于其下文。

第二步，把每个词表示成一个特征向量，特征向量的每一维代表一个不同的上下文，特征向量的值则表示本词相当于上下文的权重；及

第三步，计算两个特征向量之间的相似度，将其作为他们所代表的词之间的相似度。

请参阅图4，在上述步骤s4中，在获得地址分词结果和筛选获得的词之间的相似度之后，需要进一步对相似度与预设阈值之间的大小关系进行比较，其具体包括如下步骤：

步骤s401，设定一预设阈值；其具体设定的阈值数值范围可基于上述计算获得相似度的方法相关，也与数据内容相关，其还可基于风险用户的数据量进行相应调整。

步骤s402，判断相似度是否大于预设阈值，若是，则进入步骤s403，若否，则进入步骤s404。

步骤s403，对应用户为风险用户；及

步骤s404，对应用户为普通用户。

采用本实施例所提供的内容，通过双向最大匹配法进行分词，并在区级别下面地址相似度进行计算，从而可结合电商的场景辅助电商平台进行风险用户的识别，从而可满足基于地址判断风险用户的需求。

请参阅图5，本发明的第二实施例提供风险用户判断系统20，其具体包括：

词典建立模块21，建立地址分词词典和至少一地点词典；

地址分词模块22，获取用户提交的地址信息，利用匹配算法和地址分词词典对所述地址信息进行分词，以获得地址分词结果；

风险用户地址筛选模块23，提供一风险用户地址数据库，基于地址分词结果在风险用户地址数据库中筛选获得与地址信息相关的词；及

相似度比较模块24，将地址分词结果和筛选获得的词进行相似度计算，当相似度大于预设阈值时，则将对应用户判定为风险用户。

如图6中所示，在上述地址分词模块22中，进一步可包括：

用户地址获取单元221，获取用户提交的地址信息；及

分词单元222，利用双向最大匹配法结合地址分词词典对用户提交的地址信息进行分词，以获得地址分词结果。

在本实施例中，有关地点词典、地址分词词典的相关限定内容与上述第一实施例中的一致，在此不再赘述。

请参阅图7，本发明的第三实施例提供一电子设备30，所述电子设备30包括存储单元31和处理单元32，所述存储单元31用于存储计算机程序，所述处理单元32用于通过所述存储单元31存储的计算机程序执行上述第一实施例中所述检验异常值的数据核验方法的具体步骤。

在本发明一些具体的实施例中，所述电子设备30可以是硬件，也可以是软件。当电子设备30为硬件时，可以是具有显示屏并且支持视频播放的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(movingpictureexpertsgroupaudiolayeriii，动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当电子设备30为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

所述存储单元31包括只读存储器(rom)、随机访问存储器(ram)及硬盘等的存储部分等，所述处理单元32可以根据存储在所述只读存储器(rom)中的程序或者加载到随机访问存储器(ram)中的程序而执行各种适当的动作和处理。在随机访问存储器(ram)中，还存储有所述电子设备30操作所需的各种程序和数据。

所述电子设备30还可包括键盘、鼠标等的输入部分(图未示)；所述电子设备30还可进一步包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分(图未示)；以及所述电子设备30可进一步包括诸如lan卡、调制解调器等的网络接口卡的通信部分(图未示)。所述通信部分经由诸如因特网的网络执行通信处理。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明所公开的实施例可包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装。

在该计算机程序被所述处理单元32执行时，执行本申请的所述具备防伪功能的神经网络模型的训练方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本申请中，计算机可读存储介质还可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。

可采用一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言--诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明的附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方案中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，在此基于涉及的功能而确定。需要特别注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本发明的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中。

作为另一方面，本发明的第四实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，所述程序具体包括：建立地址分词词典和至少一地点词典；获取用户提交的地址信息，利用匹配算法和地址分词词典对所述地址信息进行分词，以获得地址分词结果；提供一风险用户地址数据库，基于地址分词结果在风险用户地址数据库中筛选获得与地址信息相关的词；及将地址分词结果和筛选获得的词进行相似度计算，当相似度大于预设阈值时，则将对应用户判定为风险用户。

与现有技术相比，本发明所提供给的一种风险用户判断方法及其系统、电子设备具有如下的有益效果：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内所作的任何修改，等同替换和改进等均应包含本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张发恩;陈斌斌;周鹏程
技术所有人：创新奇智（南京）科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。