一种基于名称信息的对象分类方法与设备与流程

文档序号：15020035发布日期：2018-07-25 00:29阅读：220来源：国知局

本申请涉及计算机领域，尤其涉及一种基于名称信息的对象分类技术。

背景技术：

目前在电商、线下商品的商品交易业务中，甚至是一些非直接商品交易的业务中，如税务系统的商品发票管理业务中，都有商品分类的需求，即需要将不同的商品归属到相应的行业类别中，以方便需求用户基于商品分类进行商品查找或进行进一步的商品信息管理或分析活动。例如，在电商环境下，需要建立一个类目体系来区分不同商品的类别，以便提高用户查询体验，并方便商品信息管理等；又如，在税务系统中，需要利用企业发票数据，特别是发票中的商品对应的分类信息来分析企业运营是否异常。

现有技术中，传统的商品分类方法是人工分类，即借助人工经验，基于商品的商品名称将待分类的商品分配到相应的商品类别中，此方法需要大量的工作量，同时，由于个人经验的主观性，使得分类标准不统一，分类结果存在极大的不准确性。进一步，当待分类的商品数量巨大时，传统人工分类方法的可操作性极低。

此外，现有技术中，还存在一种将待分类商品与商品分类库中已知商品逐一等值匹配、来确定未分类商品的分类信息的方法，但此方法完全依赖商品分类库中的商品信息，因为只有当商品分类库中存在与待分类商品名称完全一致的商品时，才能够匹配相应的商品分类，但是在实际应用中，商品分类库无法枚举全量商品，因此使用此方法进行商品分类的匹配度较低；此外，如果进行模糊匹配，那么需要将待分类商品与商品分类库中每一个商品逐一进行相似度计算，所以整体上计算相似度的时间复杂度过高；并且所述时间复杂度随着商品分类库的商品数量的增多将进一步大大增加，因此基于此方法进行商品分类也十分不理想。

技术实现要素：

本申请的目的是提供一种基于名称信息的对象分类方法与设备，以解决现有技术中基于名称信息对目标对象无法进行快速、准确地分类的问题。

根据本申请的一个方面，提供了一种基于名称信息的对象分类方法，包括：

确定目标对象的名称信息；

基于所述目标对象的名称信息，在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象，其中，所述节点对象对应有名称信息和类别信息；

基于一个或多个所述参照对象的类别信息，确定所述目标对象的类别信息。

根据本申请的一个方面，还提供了一种基于名称信息的对象分类方法，包括：

确定目标对象的名称信息；

基于所述目标对象的名称信息，在预置的模型树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象，其中，所述模型树中的节点对象对应有名称信息和类别信息，所述模型树中节点对象之间的节点距离是基于各个节点对象的名称信息的相似度确定的，所述节点距离满足距离的三角性；

基于一个或多个所述参照对象的类别信息，确定所述目标对象的类别信息。

根据本申请的另一方面，还提供了一种基于名称信息的对象分类设备，包括：

名称信息确定装置，用于确定目标对象的名称信息；

参照信息确定装置，用于基于所述目标对象的名称信息，在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象，其中，所述节点对象对应有名称信息和类别信息；

类别信息确定装置，用于基于一个或多个所述参照对象的类别信息，确定所述目标对象的类别信息。

根据本申请的另一方面，还提供了一种基于名称信息的对象分类设备，包括：

确定名称信息装置，用于确定目标对象的名称信息；

确定参照信息装置，用于基于所述目标对象的名称信息，在预置的模型树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象，其中，所述模型树中的节点对象对应有名称信息和类别信息，所述模型树中节点对象之间的节点距离是基于各个节点对象的名称信息的相似度确定的，所述节点距离满足距离的三角性；

确定类别信息装置，用于基于一个或多个所述参照对象的类别信息，确定所述目标对象的类别信息。

根据本申请的另一方面，还提供了一种基于名称信息的对象分类设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

确定目标对象的名称信息；

基于一个或多个所述参照对象的类别信息，确定所述目标对象的类别信息。

根据本申请的另一方面，还提供了一种基于名称信息的对象分类设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

确定目标对象的名称信息；

基于一个或多个所述参照对象的类别信息，确定所述目标对象的类别信息。

与现有技术相比，本申请基于目标对象的名称信息，通过查找对象编辑距离树中的节点对象，为目标对象确定一个或多个相匹配的参照对象，进而基于参照对象的类别信息，确定所述目标对象的类别信息。在本申请中，基于编辑距离树具有的三角形不等式性质，只需要在对象编辑距离树中一定范围内的节点对象中进行参照对象的查找，从而有效降低了查找的时间复杂度，提高了整体上对目标对象进行分类的效率。同时，与现有的基于等值匹配方法进行类别匹配的方法相比，本申请可以利用一个或多个相同、或相似的参照对象的类别信息确定目标对象，从技术上降低了对已有商品分类库的依赖，即并不需要依托大量的已分类商品信息，便可以实现目标对象的智能分类。此外，本申请降低了人工分类经验的干预，将分类标准客观统一化，有效提高了目标对象分类的准确性和稳定性。

因此，在任意需要基于对象的名称信息进行对象分类的场景中，基于本申请可以快速、准确地实现对象分类，从而方便需求用户基于对象分类的结果进行对象查找或进行进一步的对象信息管理或分析活动。进一步，当实际应用中待分类的目标对象数量越多，本申请所体现出的对象分类的高效性和准确性的效果将越显著。

进一步，在本申请的一种实现方式中，可以对获取的初始名称信息进行预处理，并基于预处理的结果确定目标对象的名称信息。在本申请的另一种实现方式中，还可以进一步，对预处理的结果进行核心词重组以确定目标对象的名称信息。基于上述两种实现方式，可以在不同程度上降低无效信息干扰，有效地减少在编辑距离树中查找所述目标对象的参照对象的工作量，同时还可以提高参照对象与目标对象的匹配的准确度。

进一步，在本申请的一种实现方式中，基于一个或多个所述参照对象的类别信息，结合不同的确定策略以确定所述目标对象的类别信息。例如，基于参照对象与目标对象是否名称信息相同；或进一步结合匹配程度信息，如每个类别信息对应的全部参照对象与目标对象的平均编辑距离、或每个类别信息对应的全部参照对象与目标对象的平均名称相似度等信息来确定所述目标对象的类别信息。使得本申请进行对象分类的方法更加灵活，从而可以有效地提高分类的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种基于名称信息的对象分类的方法流程图；

图2示出根据本申请一个方面的一种基于名称信息的对象分类设备的设备示意图；

图3示出根据本申请一个方面的一种基于名称信息的对象分类的示例流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1示出根据本申请一个方面的一种基于名称信息的对象分类的方法流程图。

本申请实施例提供了一种基于名称信息的对象分类的方法，所述方法可以在相应的对象分类设备端实现。其中，所述对象分类设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或云服务器，其中，所述云服务器可以是运行在分布式系统中的、由一群松散耦合的计算机集组成的一个虚拟超级计算机，其用以实现简单高效、安全可靠、处理能力可弹性伸缩的计算服务。在本申请中，所述对象分类设备可以指代为所述设备1(可以参考图2中所示设备1)。

具体地，所述基于名称信息的对象分类的方法包括步骤S11、步骤S12和步骤S13。

在步骤S11中，设备1可以用于确定目标对象的名称信息。在本申请中，待分类的目标对象可以是任意能够匹配类别属性、并有分类需要的对象，例如商品。以商品为例，本申请可以适用于不同的实际业务场景。其中，一种实现方式是：在电商平台中，需要建立一个类目体系来区分不同商品的类别，以便提高用户体验与营收等；另一种实现方式中，如税务系统的商品发票管理业务中，需要利用企业发票数据，特别是发票中的商品对应的分类信息来分析企业运营是否异常，一般而言，正常的企业，其购买的商品(进项)或者其销售的商品(销项)应该与该企业所属的行业相关，如果发现企业其购买的商品或者其销售的商品与该企业所属行业不相关的比例非常大，那么该企业存在异常的可能性便很大，因此，基于对企业发票中的商品进行分类的结果，可以预警哪些企业的业务活动可能存在异常，从而可以有效地辅助相关部门进行企业监管，进一步，在实际应用中，上述基于企业发票中商品的分类信息进行信息监管的业务可以通过云环境，例如私有云平台提供给需求用户。

本申请中目标对象的名称信息可以是以任何方式获取到的、用于标识目标对象的初始名称信息，例如在企业发票中商品名称一栏中记录的全部与商品相关的字段；还可以是对初始名称信息经过一定信息处理后重新确定的信息，例如经过对初始名称信息进行一系列预处理后确定的字段。在本申请中，所述名称信息的精确度，可以直接影响到后续匹配参照对象的计算量和确定目标对象类型信息的准确性，例如，所述目标对象的名称信息中无效信息越少，则查找相匹配参照信息的工作量相对越少，同时，确定出的目标对象的类型信息其准确性也越高。

接着，在步骤S12中，基于获取到的目标对象的名称信息，设备1可以在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象。所述对象编辑距离树可以是基于编辑距离树的建树原则预先创建的。其中，对象编辑距离树中每个节点对象对应一个名称信息，及已知的、该名称信息的对象所属的类别信息，例如，每个节点对应一个商品名称及其所属的的商品类别，如商品名称是打印机，商品类别是办公用品。在此，对象编辑距离树中任意两个节点对象之间均对应一个编辑距离，该编辑距离即通过对一个节点对象的名称信息中的字符进行插入、删除或替换操作，使之变成另一个节点对象的名称信息的替换次数，进一步，基于两个节点对象之间的编辑距离，还可以确定两个节点对象的名称相似度，一般情况下：替换次数越少、则编辑距离越小，相应地名称越相似，即名称相似度越高。在一种实现方式中，可以基于对象之间的编辑距离、或名称相似度，从相应的节点对象中确定出与所述目标对象相匹配的一个或多个参照对象，使得基于参照对象的类别信息可以较为准确地推定目标对象的类别信息。

在一种实现方式中，基于所述名称信息，在预置的对象编辑距离树中确定与所述目标对象的编辑距离小于或等于预设的距离阈值的一个或多个节点对象为参照对象。在一种实现方式中，距离阈值可以基于当前的应用场景需要预设为不同值，例如，若为了提高所确定的参照对象与目标对象的相似度，提高目标对象分类的准确度，预设的距离阈值可以相对较小；又如，名称信息的字符较多的目标对象相比于名称信息的字符较少的目标对象，其距离阈值可以相对较大。进而，可以基于所述距离阈值，结合基于编辑距离树中编辑距离具有的三角形不等式性质，确定出对象编辑距离树中编辑距离满足上述距离阈值的全部、或部分节点对象作为所述参照对象。

进一步，在一种实现方式中，可以基于所述名称信息，在预置的对象编辑距离树中查找并存储与所述目标对象的编辑距离小于或等于预设的距离阈值的一个或多个节点对象为候选参照对象，在此，所述候选参照对象的查找范围可以是基于所述距离阈值、并结合编辑距离具有的三角形不等式性质所确定的对象编辑距离树中的部分子树，而不需要对整个对象编辑距离树进行全量查找。其中，所述编辑距离的三角形不等式性质即为：对于编辑距离树中的任意三个节点对象，两两之间对应一个编辑距离，则存在三个编辑距离，其中，任意两个编辑距离之和大于第三个编辑距离，且任意两个编辑距离之差小于第三个编辑距离。

在一种实现方式中，可以设置目标对象A与其在树中的候选参照对象B的编辑距离小于或等于预设的距离阈值p，即查找到的候选参照对象需要满足编辑距离d(A,B)≤p，其中，若d(A,B)＝0，则说明目标对象A与该候选参照对象B的名称信息完全相同；进一步，以对象编辑距离树中的根节点为查询的初始节点，计算目标对象A与根节点对象C的编辑距离，d(A,C)＝q，在此，若q≤p，则根节点对象C也一个满足条件的候选参照对象；进而，基于编辑距离的三角形不等式性质，若希望找到满足d(A,B)≤p的候选参照对象B，则候选参照对象B与根节点对象C的编辑距离需要满足：

|d(A,B)-d(A,C)|<d(B,C)<|d(A,B)-d(A,C)|，即|p-q|<d(B,C)<|p+q|，

例如，存在根节点对象的子节点对象D满足与节点对象A的编辑距离在(|p-q|,|p+q|)范围内，则节点对象D也为满足条件的候选参照对象；

进一步，在与根节点对象C的编辑距离在(|p-q|,|p+q|)范围内的的子树中，如在节点对象D对应的子树中继续纵向查找满足条件的候选参照对象，此时，以节点对象D为查询的初始节点，计算目标对象A与节点对象D的编辑距离，d(A,D)＝u，则此时参照对象B与节点对象D的编辑距离需要满足：

|d(A,B)-d(A,D)|<d(B,D)<|d(A,B)-d(A,D)|，即|p-u|<d(B,C)<|p+u|，

进而，在节点对象D的各个子节点对象中查找是否有满足上述条件的候选参照对象。

依此类推，遍历与所述目标对象的编辑距离小于或等于预设的距离阈值的节点对象。

在查找过程中，依次存储满足条件的候选参考对象。在一种实现方式中，可以将查找到的所有与所述目标对象的编辑距离小于或等于预设的距离阈值的节点对象，均存储为所述候选参照对象。

在另一种实现方式中，还可以采用大顶堆存储查找到的候选参照对象，设置大顶堆的对象数量为N，其中大顶堆中候选参照对象基于每个候选参数对象与目标对象的编辑距离大小进行排列，堆顶的所述编辑距离最大。若当前查询到第N+1个候选参照对象，若第N+1个候选参照对象与目标对象的编辑距离比堆顶大，则不处理，若比堆顶小，则替换堆顶的候选参照对象，然后依次下沉到适当位置。

在又一种实现方式中，还可以采用小顶堆存储查找到的候选参照对象，设置小顶堆的对象数量为M，其中小顶堆中候选参照对象基于每个候选参数对象与目标对象的名称相似度大小进行排列，堆顶的所述名称相似度最小。在此，可以基于两个节点对象之间的编辑距离，确定两个节点对象的名称相似度。在一种实现方式中，可以通过如下相似度计算公式，确定名称相似度，

sim(A,E)＝1-dist(A,E)/max{|A|,|E|}

其中|·|表示字符串的长度，其中，|A|表示目标对象A的名称的字符串长度，|E|表示节点对象E的名称的字符串长度，dist(A,E)表示目标对象A与节点对象E的编辑距离，sim(A,E)则表示目标对象A与节点对象E的名称相似度。一般情况下：替换次数越少、则编辑距离越小，相应地名称越相似，即名称相似度越高。

当采用小顶堆存储查找到的候选参照对象时，若当前查询到第M+1个候选参照对象，若第M+1个候选参照对象与目标对象的名称相似度比堆顶小，则不处理，若比堆顶大，则替换堆顶的候选参照对象，然后依次下沉到适当位置。

依次类推，将遍历与所述目标对象的编辑距离小于或等于预设的距离阈值的节点对象后、得到的大顶堆或小顶堆中的一个或多个候选参照对象确定为参照对象。

将遍历与所述目标对象的编辑距离小于或等于预设的距离阈值的节点对象后、得到的大顶堆或小顶堆中的一个或多个候选参照对象确定为参照对象。

接着，在步骤S13中，设备1可以基于一个或多个所述参照对象的类别信息，确定所述目标对象的类别信息。在此，所述参照对象可以是与所述目标对象名称信息相同、或是相似的节点对象。基于所述对象编辑距离树查询到的参照信息与目标对象的名称相似度越高，或编辑距离越小，则推定得到的目标对象的类别信息的准确度越高。目标对象的类别信息可以与一个或多个所述参照对象中、部分、或全部参照对象的类别信息相同。

在一种实现方式中，确定所述目标对象的类别信息可以包括以下任一项：

一是，若只存在一个参照对象与目标对象的名称信息相同，则确定所述参照对象的类别信息为所述目标对象的类别信息。在一种实现方式中所述参照对象与目标对象的名称信息相同可以定义为该参照对象与目标对象的编辑距离为0；或该参照对象与目标对象的名称相似度为1。例如从树中查找到一个或多个参照对象，其中，只存在一个参照对象与目标对象的名称信息相同，则目标对象的类别信息与该参照对象的类别信息相同。

二是，若存在多个参照对象与目标对象的名称信息相同，则选择所述多个参照对象之一的类别信息为所述目标对象的类别信息，其中，被选中的类别信息对应的全部参照对象与目标对象的平均编辑距离最小；或被选中的类别信息对应的全部参照对象与目标对象的平均名称相似度最大。例如，在查找到的参照对象中，如大顶堆、或小顶堆中存储的参照对象中，有两个参照对象E和F与目标对象的名称信息均相同，且两者的类别信息不同，则此时，一种实现方式是：可以随机从两个参照对象中择其一的类别信息确定为目标对象的类别信息；另一种实现方式是：计算出所有确定的参照对象中、与参照对象E属于同一个类别信息的全部参照对象的平均编辑距离d1，同样，计算出所有确定的参照对象中、与参照对象F属于同一个类别信息的全部参照对象的平均编辑距离d2，接着，选择d1和d2中较小值对应的参照对象的类别信息，为目标对象的类别信息；又一种实现方式是：计算出所有确定的参照对象中、与参照对象E属于同一个类别信息的全部参照对象的平均名称相似度e1，同样，计算出所有确定的参照对象中、与参照对象F属于同一个类别信息的全部参照对象的平均名称相似度e2，接着，选择e1和e2中较大值对应的参照对象的类别信息，为目标对象的类别信息。在此，所述平均编辑距离、所述平均名称相似度可以是基于算术平均数、或加权平均数算法确定的。

三是，若不存在参照对象与目标对象的名称信息相同，例如，在查找到的参照对象中，如大顶堆、或小顶堆中存储的参照对象中，不存在与目标对象的名称信息相同的参照对象，则此时，选择一个或多个参照对象的类别信息之一为所述目标对象的类别信息，一种实现方式是：被选中的类别信息对应的参照对象数量最多；另一种实现方式是：被选中的类别信息对应的全部参照对象与目标对象的平均编辑距离最小；又一种实现方式是：被选中的类别信息对应的全部参照对象与目标对象的平均名称相似度最大。

在本实现方式中，基于一个或多个所述参照对象的类别信息，结合不同的确定策略以确定所述目标对象的类别信息。使得本申请进行对象分类的方法更加灵活，从而可以有效地提高分类的准确性。

本申请实现了基于目标对象的名称信息，通过查找对象编辑距离树中的节点对象，为目标对象确定一个或多个相匹配的参照对象，进而基于参照对象的类别信息，确定所述目标对象的类别信息。在本申请中，基于编辑距离树具有的三角形不等式性质，只需要在对象编辑距离树中一定范围内的节点对象中进行参照对象的查找，从而有效降低了查找的时间复杂度，提高了整体上对目标对象进行分类的效率。同时，与现有的基于等值匹配方法进行类别匹配的方法相比，本申请可以利用一个或多个相同、或相似的参照对象的类别信息确定目标对象，从技术上降低了对已有商品分类库的依赖，即并不需要依托大量的已分类商品信息，便可以实现目标对象的智能分类。此外，本申请降低了人工分类经验的干预，将分类标准客观统一化，有效提高了目标对象分类的准确性和稳定性。

在一种实现方式中，所述方法还包括步骤S14(未示出)和步骤S15(未示出)。

其中，在步骤S14中，设备1可以获取一个或多个已知类别信息的已知对象，例如，已知类别信息的商品。该已知对象的数量可以基于实际应用的需要确定。数量越多，建立起的对象编辑距离树的适用范围越广、基于该树进行后续类别匹配的精确度越高。该已知对象及其类别信息可以从其他第三方设备或是数据库中获取。

接着，在步骤S15中，设备1可以基于获取到的已知对象的名称信息及类别信息，基于各个已知对象与其它已知对象之间的编辑距离，建立对象编辑距离树，其中，所述对象编辑距离树中的每个节点对象对应于一个已知对象，即每个节点对象对应有名称信息和类别信息。此外，设备1还可以将利用本申请方法确定了类别信息的目标对象，可以作为新的已知对象更新到对象编辑距离树中。

在一种实现方式中，所述对象编辑距离树的建立步骤可以包括基于所述多个已知对象的名称信息，确定已知对象之间的编辑距离；接着，基于所述编辑距离，并结合所述多个已知对象的类别信息，建立对象编辑距离树。例如：

从已知对象库，例如商品库中随机选择一个已知对象，如商品作为根节点；

依次从库中选择一个已知对象，从根节点开始查找。首先，计算该已知对象与根节点对象的编辑距离d。然后，确定根节点是否存在编辑距离为d的子树，若不存在该子树，那么插入该已知对象作为该子树节点；若已存在编辑距离为d的子树，则沿着该子树节点，递归尝试插入该已知对象，直至插入成功使得该已知对象对应一个子树节点，每一个节点上的已知对象均对应一个名称信息，如一个名称字符串，并且每个名称信息对应一个类别信息。

在一种实现方式中，若建立了多个对象编辑距离树，则所述方法还包括步骤S16(未示出)，在步骤S16中，设备1可以从所述多个对象编辑距离树中筛选出目的对象编辑距离树，例如，筛选出出平衡性最佳的一个为目的对象编辑距离树。后续，将基于该目的对象编辑距离树实现目标对象的查找确定。在一种实现方式中，可以基于上述的建树方法，建立起多棵树，为了减少基于对象编辑距离树进行目标对象查找的时间消耗，可以选择平衡性最好的树作为目的对象编辑距离树，所述平衡性最好即对应为查找耗时最少，例如，可以通过对象查询测试，从多棵树中筛选出平衡性最好的树；又如，可以从树的结构上直接判断平衡性，如，横向枝干较多而纵向层次较少树平衡性相对较好。

在一种实现方式中，所述方法还包括步骤S17(未示出)和步骤S18(未示出)，其中，在步骤S17中，设备1可以获取初始名称信息，该初始名称信息可以是以任何方式获取到的、用于标识目标对象的信息，例如，一般商品都会包含商品名称字段，如在企业发票中商品名称一栏中记录的全部与商品相关的字段。

接着，在步骤S18中，设备1可以对所述初始名称信息进行预处理，所述预处理是为了对初始名称信息进行提炼以去除一些无效信息。例如，辨识初始名称信息中的分隔符号，如"、"、"，"等得到多个目标对象。又如，可以基于字段类型验证初始名称信息是否有效，如，对于全数字、全特殊字符、全数字加特殊字符或非法字符直接丢弃。又如，过滤掉无意义的初始名称信息，如在税务发票中可能包含这些无意义的名称："见销货清单"、"详见对应正数及清单"、"详见销货清单"、"折扣"等，均可以过滤掉。又如，若初始名称信息中的字符串包含中文，则可以去掉两端的数字符号，若不包含中文，则可以去掉两端的特殊字符。

接着，设备1即可以基于所述预处理的结果确定目标对象的名称信息。在一种实现方式中，若是基于一个初始名称信息可以确定出多个目标对象的名称信息，则可以对各个目标对象进行分别处理。在一种实现方式中，若是预处理的结果包含的字符个数小于预设的字符阈值，则可以直接将所述预处理的结果确定为目标对象的名称信息。

进一步，在一种实现方式中，若是预处理的结果包含的字符个数大于或等于预设的字符阈值，设备1还可以先基于所述预处理的结果确定目标对象的待重组名称信息，接着，从所述待重组名称信息中提取多个名称核心词；接着，将所述多个名称核心词进行重组以确定目标对象的名称信息。例如，待重组名称信息是“一瓶橘子味的果汁”，则可以先对该信息进行分词，提取核心词“橘子味”、“果汁”，接着，对该核心词进行重组的到目标对象的名称信息“橘子味果汁”。

基于上述两种实现方式，可以在不同程度上降低无效信息干扰，有效地减少在编辑距离树中查找所述目标对象的参照对象的工作量，同时还可以提高参照对象与目标对象的匹配的准确度。

本申请实施例还提供了一种基于名称信息的对象分类方法，所述方法可以在相应的对象分类设备端实现。

其中，所述方法包括步骤S21(未示出)、步骤S22(未示出)和步骤S23(未示出)。

具体地，在步骤S21中，对象分类设备可以确定目标对象的名称信息；

在步骤S22中，对象分类设备可以基于所述目标对象的名称信息，在预置的模型树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象，其中，所述模型树中的节点对象对应有名称信息和类别信息，所述模型树中节点对象之间的节点距离是基于各个节点对象的名称信息的相似度确定的，所述节点距离满足距离的三角性；

在步骤S23中，对象分类设备可以基于一个或多个所述参照对象的类别信息，确定所述目标对象的类别信息。

在本实施例中，所述模型树中包含若干个节点对象，其中，模型树中可以包含一个根节点对象，进一步，所述跟节点对象还可以对应一层若干个子节点，进一步，该若干个一层子节点还可以分别对应下一层若干个子节点，以此类推。所述模型树中节点对象之间，例如相邻两个节点对象之间存在节点距离，所述模型树中节点对象之间的节点距离是基于各个节点对象的名称信息的相似度确定的，在一种实现方式中，所述名称信息的相似度可以是从一个名称信息完全替换到另一个名称信息的字符串替换次数。在一种实现方式中，所述模型树中的各个节点距离满足距离的三角性，即三个节点对象之间两两节点距离，满足两边之和大于第三边，两边之差小于第三边。接着，对象分类设备可以基于所述节点对象的节点距离的三角性，通过查询所述模型树中节点对象，确定与所述目标对象相匹配的一个或多个节点对象为参照对象，在此，基于所述模型树中的各个节点距离满足距离的三角性进行查询筛选，可以降低需要实际遍历的节点对象的数量，即确定参照对象的查询效率将大大提高。接着，对象分类设备可以基于一个或多个所述参照对象的类别信息，确定所述目标对象的类别信息。

在一种实现方式中，所述模型树可以是上述对象编辑距离树，所述节点距离可以对应为编辑距离。本领域技术人员应该能够理解，所述对象编辑距离树只是距离，其他当前或今后可能出现的其他模型树，若是能够实现本申请，也应该包含在本申请的保护范围内，并以引用的形式包含于此。

本申请实现了基于目标对象的名称信息，通过查找模型树中的节点对象，为目标对象确定一个或多个相匹配的参照对象，进而基于参照对象的类别信息，确定所述目标对象的类别信息。在本申请中，基于模型树具有的距离三角性，只需要在模型树中一定范围内的节点对象中进行参照对象的查找，从而有效降低了查找的时间复杂度，提高了整体上对目标对象进行分类的效率。同时，与现有的基于等值匹配方法进行类别匹配的方法相比，本申请可以利用一个或多个相同、或相似的参照对象的类别信息确定目标对象，从技术上降低了对已有商品分类库的依赖，即并不需要依托大量的已分类商品信息，便可以实现目标对象的智能分类。此外，本申请降低了人工分类经验的干预，将分类标准客观统一化，有效提高了目标对象分类的准确性和稳定性。

图2示出根据本申请一个方面的一种基于名称信息的对象分类设备的设备示意图。

本申请实施例还提供了一种基于名称信息的对象分类设备，包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或云服务器，其中，所述云服务器是运行在分布式系统中的、由一群松散耦合的计算机集组成的一个虚拟超级计算机，其用以实现简单高效、安全可靠、处理能力可弹性伸缩的计算服务。本申请中，所述对象分类设备可以指代为图2中的设备1。

具体地，设备1包括名称信息确定装置21、参照信息确定装置22和类别信息确定装置23。

名称信息确定装置21可以用于确定目标对象的名称信息。在本申请中，待分类的目标对象可以是任意能够匹配类别属性、并有分类需要的对象，例如商品。以商品为例，本申请可以适用于不同的实际业务场景。其中，一种实现方式是：在电商平台中，需要建立一个类目体系来区分不同商品的类别，以便提高用户体验与营收等；另一种实现方式中，如税务系统的商品发票管理业务中，需要利用企业发票数据，特别是发票中的商品对应的分类信息来分析企业运营是否异常，一般而言，正常的企业，其购买的商品(进项)或者其销售的商品(销项)应该与该企业所属的行业相关，如果发现企业其购买的商品或者其销售的商品与该企业所属行业不相关的比例非常大，那么该企业存在异常的可能性便很大，因此，基于对企业发票中的商品进行分类的结果，可以预警哪些企业的业务活动可能存在异常，从而可以有效地辅助相关部门进行企业监管，进一步，在实际应用中，上述基于企业发票中商品的分类信息进行信息监管的业务可以通过云环境，例如私有云平台提供给需求用户。

接着，基于获取到的目标对象的名称信息，参照信息确定装置22可以在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象。所述对象编辑距离树可以是基于编辑距离树的建树原则预先创建的。其中，对象编辑距离树中每个节点对象对应一个名称信息，及已知的、该名称信息的对象所属的类别信息，例如，每个节点对应一个商品名称及其所属的的商品类别，如商品名称是打印机，商品类别是办公用品。在此，对象编辑距离树中任意两个节点对象之间均对应一个编辑距离，该编辑距离即通过对一个节点对象的名称信息中的字符进行插入、删除或替换操作，使之变成另一个节点对象的名称信息的替换次数，进一步，基于两个节点对象之间的编辑距离，还可以确定两个节点对象的名称相似度，一般情况下：替换次数越少、则编辑距离越小，相应地名称越相似，即名称相似度越高。在一种实现方式中，可以基于对象之间的编辑距离、或名称相似度，从相应的节点对象中确定出与所述目标对象相匹配的一个或多个参照对象，使得基于参照对象的类别信息可以较为准确地推定目标对象的类别信息。

在一种实现方式中，参照信息确定装置基于所述名称信息，在预置的对象编辑距离树中确定与所述目标对象的编辑距离小于或等于预设的距离阈值的一个或多个节点对象为参照对象。在一种实现方式中，距离阈值可以基于当前的应用场景需要预设为不同值，例如，若为了提高所确定的参照对象与目标对象的相似度，提高目标对象分类的准确度，预设的距离阈值可以相对较小；又如，名称信息的字符较多的目标对象相比于名称信息的字符较少的目标对象，其距离阈值可以相对较大。进而，可以基于所述距离阈值，结合基于编辑距离树中编辑距离具有的三角形不等式性质，确定出对象编辑距离树中编辑距离满足上述距离阈值的全部、或部分节点对象作为所述参照对象。

进一步，在一种实现方式中，参照信息确定装置可以基于所述名称信息，在预置的对象编辑距离树中查找并存储与所述目标对象的编辑距离小于或等于预设的距离阈值的一个或多个节点对象为候选参照对象，在此，所述候选参照对象的查找范围可以是基于所述距离阈值、并结合编辑距离具有的三角形不等式性质所确定的对象编辑距离树中的部分子树，而不需要对整个对象编辑距离树进行全量查找。其中，所述编辑距离的三角形不等式性质即为：对于编辑距离树中的任意三个节点对象，两两之间对应一个编辑距离，则存在三个编辑距离，其中，任意两个编辑距离之和大于第三个编辑距离，且任意两个编辑距离之差小于第三个编辑距离。

|d(A,B)-d(A,C)|<d(B,C)<|d(A,B)-d(A,C)|，即|p-q|<d(B,C)<|p+q|，

例如，存在根节点对象的子节点对象D满足与节点对象A的编辑距离在(|p-q|,|p+q|)范围内，则节点对象D也为满足条件的候选参照对象；

|d(A,B)-d(A,D)|<d(B,D)<|d(A,B)-d(A,D)|，即|p-u|<d(B,C)<|p+u|，

进而，在节点对象D的各个子节点对象中查找是否有满足上述条件的候选参照对象。

依此类推，遍历与所述目标对象的编辑距离小于或等于预设的距离阈值的节点对象。

sim(A,E)＝1-dist(A,E)/max{|A|,|E|}

将遍历与所述目标对象的编辑距离小于或等于预设的距离阈值的节点对象后、得到的大顶堆或小顶堆中的一个或多个候选参照对象确定为参照对象。

接着，类别信息确定装置23可以基于一个或多个所述参照对象的类别信息，确定所述目标对象的类别信息。在此，所述参照对象可以是与所述目标对象名称信息相同、或是相似的节点对象。基于所述对象编辑距离树查询到的参照信息与目标对象的名称相似度越高，或编辑距离越小，则推定得到的目标对象的类别信息的准确度越高。目标对象的类别信息可以与一个或多个所述参照对象中、部分、或全部参照对象的类别信息相同。

在一种实现方式中，确定所述目标对象的类别信息可以包括以下任一项：

在一种实现方式中，设备1还包括已知对象获取装置(未示出)和建立或更新装置(未示出)。

其中，已知对象获取装置可以获取一个或多个已知类别信息的已知对象，例如，已知类别信息的商品。该已知对象的数量可以基于实际应用的需要确定。数量越多，建立起的对象编辑距离树的适用范围越广、基于该树进行后续类别匹配的精确度越高。该已知对象及其类别信息可以从其他第三方设备或是数据库中获取。

接着，建立或更新装置可以基于获取到的已知对象的名称信息及类别信息，基于各个已知对象与其它已知对象之间的编辑距离，建立对象编辑距离树，其中，所述对象编辑距离树中的每个节点对象对应于一个已知对象，即每个节点对象对应有名称信息和类别信息。此外，建立或更新装置还可以将利用本申请方法确定了类别信息的目标对象，可以作为新的已知对象更新到对象编辑距离树中。

从已知对象库，例如商品库中随机选择一个已知对象，如商品作为根节点；

在一种实现方式中，设备1还包括目的对象编辑距离树确定装置(未示出)，若建立了多个对象编辑距离树，则目的对象编辑距离树确定装置可以从所述多个对象编辑距离树中筛选出目的对象编辑距离树，例如，筛选出出平衡性最佳的一个为目的对象编辑距离树。后续，将基于该目的对象编辑距离树实现目标对象的查找确定。在一种实现方式中，可以基于上述的建树方法，建立起多棵树，为了减少基于对象编辑距离树进行目标对象查找的时间消耗，可以选择平衡性最好的树作为目的对象编辑距离树，所述平衡性最好即对应为查找耗时最少，例如，可以通过对象查询测试，从多棵树中筛选出平衡性最好的树；又如，可以从树的结构上直接判断平衡性，如，横向枝干较多而纵向层次较少树平衡性相对较好。

在一种实现方式中，设备1还包括初始名称信息获取装置(未示出)和预处理装置(未示出)，其中，初始名称信息获取装置可以获取初始名称信息，该初始名称信息可以是以任何方式获取到的、用于标识目标对象的信息，例如，一般商品都会包含商品名称字段，如在企业发票中商品名称一栏中记录的全部与商品相关的字段。

接着，预处理装置可以对所述初始名称信息进行预处理，所述预处理是为了对初始名称信息进行提炼以去除一些无效信息。例如，辨识初始名称信息中的分隔符号，如"、"、"，"等得到多个目标对象。又如，可以基于字段类型验证初始名称信息是否有效，如，对于全数字、全特殊字符、全数字加特殊字符或非法字符直接丢弃。又如，过滤掉无意义的初始名称信息，如在税务发票中可能包含这些无意义的名称："见销货清单"、"详见对应正数及清单"、"详见销货清单"、"折扣"等，均可以过滤掉。又如，若初始名称信息中的字符串包含中文，则可以去掉两端的数字符号，若不包含中文，则可以去掉两端的特殊字符。

接着，名称信息确定装置21即可以基于所述预处理的结果确定目标对象的名称信息。在一种实现方式中，若是基于一个初始名称信息可以确定出多个目标对象的名称信息，则可以对各个目标对象进行分别处理。在一种实现方式中，若是预处理的结果包含的字符个数小于预设的字符阈值，则可以直接将所述预处理的结果确定为目标对象的名称信息。

进一步，在一种实现方式中，若是预处理的结果包含的字符个数大于或等于预设的字符阈值，名称信息确定装置21还可以先基于所述预处理的结果确定目标对象的待重组名称信息，接着，从所述待重组名称信息中提取多个名称核心词；接着，将所述多个名称核心词进行重组以确定目标对象的名称信息。例如，待重组名称信息是“一瓶橘子味的果汁”，则可以先对该信息进行分词，提取核心词“橘子味”、“果汁”，接着，对该核心词进行重组的到目标对象的名称信息“橘子味果汁”。

本申请实施例还提供了一种基于名称信息的对象分类设备，所述设备可以包括确定名称信息装置(未示出)、确定参照信息装置(未示出)和确定类别信息装置(未示出)。

具体地，确定名称信息装置可以确定目标对象的名称信息；

基于所述目标对象的名称信息，确定参照信息装置可以在预置的模型树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象，其中，所述模型树中的节点对象对应有名称信息和类别信息，所述模型树中节点对象之间的节点距离是基于各个节点对象的名称信息的相似度确定的，所述节点距离满足距离的三角性；

确定类别信息装置可以基于一个或多个所述参照对象的类别信息，确定所述目标对象的类别信息。

图3示出根据本申请一个方面的一种基于名称信息的对象分类的示例流程图。以所述对象是商品为例。一方面，商品分类的流程可以是先获取到未分类的商品；进而从中提取商品名称；接着对该商品名称进行预处理；进一步，对预处理后的商品名称进一步进行核心词重组；进一步，基于重组后的商品名称在商品编辑距离树中进行分类。另一方面，商品编辑距离树的确定流程包括树的建立和更新，其中，树的建立可以是先获取带类别的商品词库；接着，基于商品词库建立商品编辑距离树。所建立的商品编辑距离树用于商品分类操作，同时，通过商品分类操作确定了分类信息的商品又可以加入带类别的商品词库中，用以更新所述商品编辑距离树。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贺勇
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种固定磁隙的永磁调速器的制作方法
上一篇：一种固定磁隙的永磁调速器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。