数据处理的方法及装置制造方法

文档序号:6624484阅读:187来源:国知局
数据处理的方法及装置制造方法
【专利摘要】本发明是关于数据处理的方法及装置,用于将近似数据融合,以减少数据中的冗余信息,进而方便数据的利用与呈现。所述方法包括:根据数据的特征字段的内容计算数据间相似度,其中,所述特征字段为预设的字段;根据所述数据间相似度将所述数据中对应于同一对象的数据聚合到同一聚类中;按预设策略对聚类中各条数据的特征字段的内容进行选择,根据选择的特征字段的内容生成所述对象对应的聚合数据。本发明能够将聚类中的多条数据融合成一条聚合数据,而且该条聚合数据具有优选出的特征字段的内容,因而不但减少了数据中的冗余信息,降低了数据组中数据条数,而且对数据中信息进行了优化,提高了数据中信息的准确性。
【专利说明】数据处理的方法及装置

【技术领域】
[0001]本发明涉及计算机【技术领域】,尤其涉及数据处理的方法及装置。

【背景技术】
[0002]随着互联网技术的发展,网络中数据量不断增多。在大量的网络数据中,存在大量相近似或重复的数据。例如,同一公司可能在不同网站发布该公司的介绍信息,这些介绍信息间相近似,甚至相同。又例如,同一视频节目也可能在不同网站中发布该视频节目的简介信息,这些简介信息也会具有很高近似性。因此,如何将网络中近似数据融合,以减少重复数据,进而方便数据的利用与呈现,成为需要解决的问题。


【发明内容】

[0003]为克服相关技术中存在的问题,本发明实施例提供数据处理的方法及装置,用以将近似数据融合,以减少数据中的冗余信息,进而方便数据的利用与呈现。
[0004]根据本发明实施例的第一方面,提供一种数据处理的方法,包括:根据数据的特征字段的内容计算数据间相似度,其中,所述特征字段为预设的字段;
[0005]根据所述数据间相似度将所述数据中对应于同一对象的数据聚合到同一聚类中;
[0006]按预设策略对聚类中各条数据的特征字段的内容进行选择,根据选择的特征字段的内容生成所述对象对应的聚合数据。
[0007]在一实施例中,所述根据数据的特征字段的内容计算数据间相似度具体包括:
[0008]根据数据中特征字段的内容分别计算所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度;
[0009]所述根据所述数据间相似度将所述数据中对应于同一对象的数据聚合到同一聚类中具体包括:
[0010]根据所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度,判断所述未被聚合到聚类的数据是否属于所述聚类;
[0011]当所述未被聚合到聚类的数据属于所述聚类时,将所述未被聚合到聚类的数据聚合到所述聚类中。
[0012]在一实施例中,所述根据所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度,判断所述未被聚合到聚类的数据是否属于所述聚类具体包括:
[0013]对于每条已被聚合到聚类的数据,根据所述未被聚合到聚类的数据与所述已被聚合到聚类的数据间的相似度,确定所述未被聚合到聚类的数据与所述已被聚合到聚类的数据是否为同一数据;
[0014]根据所述未被聚合到聚类的数据在所述聚类中的同一数据的条数,判断所述未被聚合到聚类的数据是否属于所述聚类。
[0015]在一实施例中,所述根据数据的特征字段的内容计算数据间相似度具体包括:
[0016]当所述特征字段中包含至少两个字段时,对于每个字段,根据数据在所述字段中内容计算数据间对应于所述字段的相似度分量;
[0017]对于每个字段,根据所述字段的相似度分量的大小、所述字段的内容和/或所述字段的结构确定所述字段所对应的权重;
[0018]根据数据间对应于各个字段的相似度分量和各个字段所对应的权重,计算数据间的相似度。
[0019]在一实施例中,所述特征字段包括至少一如下字段:
[0020]名称字段、地址字段、电话号码字段、分类字段和经纬度字段。
[0021]在一实施例中,所述按预设策略对聚类中各条数据的特征字段的内容进行选择具体包括:
[0022]根据聚类中各条数据间相似度和/或数据的可信度对聚类的各条数据在所述字段的内容进行选择。
[0023]在一实施例中,所述根据聚类中各条数据间相似度和/或数据的可信度对聚类的各条数据在所述字段的内容进行选择具体包括:
[0024]当所述特征字段中包含第一预设字段和至少一除所述第一预设字段之外的字段时,对于所述第一预设字段,根据聚类中各条数据间对应于所述第一预设字段的相似度分量和/或数据的可信度,对聚类的各条数据在所述第一预设字段的内容进行选择;
[0025]对于除所述第一预设字段之外的字段,根据聚类中各条数据对应于所述字段的相似度分量、数据的可信度、和/或在对应于所述第一预设字段进行选择时数据的选择情况,对聚类的各条数据在所述字段的内容进行选择。
[0026]在一实施例中,所述对于每个字段,根据数据在所述字段中内容计算数据间对应于所述字段的相似度分量具体包括:
[0027]当所述特征字段包括名称字段时,利用存储的识别数据库解析数据中名称字段的内容,获得格式化的名称信息,根据名称信息中各项信息的内容得到所述名称信息中各项信息的相似度分数,根据所得各项信息的相似度分数计算出数据间对应于名称字段的相似度分量;或者
[0028]当所述特征字段包括地址字段时,利用地址词元库解析数据中地址字段的内容,得到行政区划信息和剩余地址信息,根据预设的地理区划隶属关系得到所述行政区划信息的相似度分数,根据剩余地址信息的内容得到所述剩余地址信息的相似度分数,根据所得行政区划信息的相似度分数和剩余地址信息的相似度分数,计算数据间对应于地址字段的相似度分量;或者
[0029]当所述特征字段包括电话号码字段时,根据所述数据的电话号码字段的内容确定数据中电话号码的属性,根据确定出的所述电话号码的属性,计算所述数据间对应于所述电话号码字段的相似度分量;或者
[0030]当所述特征字段包括分类字段时,根据预设的分类间关系和所述数据中分类字段的内容,计算所述数据间对应于所述分类字段的相似度分量;或者
[0031]当所述特征字段包括经纬度字段时,根据所述数据中经纬度字段的内容,计算所述数据所对应的位置间距离,根据所述距离计算所述数据间对应于所述经纬度字段的相似度分量。
[0032]根据本发明实施例的第二方面,提供一种数据处理的装置,包括:
[0033]计算模块,用于根据数据的特征字段的内容计算数据间相似度,其中,所述特征字段为预设的字段;
[0034]聚合模块,用于根据所述数据间相似度将所述数据中对应于同一对象的数据聚合到同一聚类中;
[0035]选择模块,用于按预设策略对聚类中各条数据的特征字段的内容进行选择,根据选择的特征字段的内容生成所述对象对应的聚合数据。
[0036]在一实施例中,所述计算模块具体用于根据数据中特征字段的内容分别计算所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度;
[0037]所述聚合模块具体包括:
[0038]判断单元,用于根据所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度,判断所述未被聚合到聚类的数据是否属于所述聚类;
[0039]聚合单元,用于当所述未被聚合到聚类的数据属于所述聚类时,将所述未被聚合到聚类的数据聚合到所述聚类中。
[0040]在一实施例中,所述判断单元具体包括:
[0041]第一判断子单元,用于对于每条已被聚合到聚类的数据,根据所述未被聚合到聚类的数据与所述已被聚合到聚类的数据间的相似度,确定所述未被聚合到聚类的数据与所述已被聚合到聚类的数据是否为同一数据;
[0042]第二判断子单元,用于根据所述未被聚合到聚类的数据在所述聚类中的同一数据的条数,判断所述未被聚合到聚类的数据是否属于所述聚类。
[0043]在一实施例中,所述计算模块具体包括:
[0044]相似度分量计算单元,用于当所述特征字段中包含至少两个字段时,对于每个字段,根据数据在所述字段中内容计算数据间对应于所述字段的相似度分量;
[0045]权重设置单元,用于对于每个字段,根据所述字段的相似度分量的大小、所述字段的内容和/或所述字段的结构确定所述字段所对应的权重;
[0046]相似度计算单元,用于根据数据间对应于各个字段的相似度分量和各个字段所对应的权重,计算数据间的相似度。
[0047]在一实施例中,所述特征字段包括至少一如下字段:
[0048]名称字段、地址字段、电话号码字段、分类字段和经纬度字段。
[0049]在一实施例中,所述选择模块具体包括:
[0050]选择子模块,用于根据聚类中各条数据间相似度和/或数据的可信度对聚类的各条数据在所述字段的内容进行选择。
[0051 ] 在一实施例中,所述选择子模块具体包括:
[0052]第一选择子单元,用于当所述特征字段中包含第一预设字段和至少一除所述第一预设字段之外的字段时,对于所述第一预设字段,根据聚类中各条数据间对应于所述第一预设字段的相似度分量和/或数据的可信度,对聚类的各条数据在所述第一预设字段的内容进行选择;
[0053]第二选择子单元,用于对于除所述第一预设字段之外的字段,根据聚类中各条数据对应于所述字段的相似度分量、数据的可信度、和/或在对应于所述第一预设字段进行选择时对数据的选择情况,对聚类的各条数据在所述字段的内容进行选择。
[0054]在一实施例中,所述相似度分量计算单元具体用于
[0055]当所述特征字段包括名称字段时,利用存储的识别数据库解析数据中名称字段的内容,获得格式化的名称信息,根据名称信息中各项信息的内容得到所述名称信息中各项信息的相似度分数,根据所得各项信息的相似度分数计算出数据间对应于名称字段的相似度分量;或者
[0056]当所述特征字段包括地址字段时,利用地址词元库解析数据中地址字段的内容,得到行政区划信息和剩余地址信息,根据预设的地理区划隶属关系得到所述行政区划信息的相似度分数,根据剩余地址信息的内容得到所述剩余地址信息的相似度分数,根据所得行政区划信息的相似度分数和剩余地址信息的相似度分数,计算数据间对应于地址字段的相似度分量;或者
[0057]当所述特征字段包括电话号码字段时,根据所述数据的电话号码字段的内容确定数据中电话号码的属性,根据确定出的所述电话号码的属性,计算所述数据间对应于所述电话号码字段的相似度分量;或者
[0058]当所述特征字段包括分类字段时,根据预设的分类间关系和所述数据中分类字段的内容,计算所述数据间对应于所述分类字段的相似度分量;或者
[0059]当所述特征字段包括经纬度字段时,根据所述数据中经纬度字段的内容,计算所述数据所对应的位置间距离,根据所述距离计算所述数据间对应于所述经纬度字段的相似度分量。
[0060]本发明的实施例提供的技术方案可以包括以下有益效果:依据数据的相似度将数据聚合到聚类中,能够将对应于同一对象的相近似的数据聚合到同一聚类中;按预设策略对聚类的多条数据的特征字段的内容进行选择,生成对象对应的聚合数据,从而能够将聚类中的多条数据融合成一条聚合数据,而且该条聚合数据具有优选出的特征字段的内容,这样,不但减少了数据中的冗余信息,而且对数据中信息进行了优化,提高了数据中信息的准确性。
[0061]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

【专利附图】

【附图说明】
[0062]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0063]图1是根据一示例性实施例示出的数据处理方法的流程图。
[0064]图2是根据一示例性实施例示出的数据处理方法中计算相似度的过程的流程图。
[0065]图3A是根据一示例性实施例示出的数据处理方法中计算名称字段的相似度分量的示意图。
[0066]图3B是根据一示例性实施例示出的数据处理方法中进行名称解析的示意图。
[0067]图4A是根据一示例性实施例示出的数据处理方法的聚类过程的示意图。
[0068]图4B是根据一示例性实施例示出的数据处理方法的原子聚类过程的示意图。
[0069]图5是根据一示例性实施例示出的一种数据处理装置的框图。
[0070]图6是根据一示例性实施例示出的另一种数据处理装置的框图。
[0071]图7是根据一示例性实施例示出的另一种数据处理装置的框图。
[0072]图8是根据一示例性实施例示出的另一种数据处理装置的框图。

【具体实施方式】
[0073]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0074]图1是根据一示例性实施例示出的一种数据处理方法的流程图。图1中所示的数据处理方法可以应用于网络设备中,例如云端服务器、智能路由器中,上述方法包括如下步骤 S101-S103。
[0075]在步骤SlOl中、根据数据的特征字段的内容计算数据间相似度,其中,特征字段为预设的字段。
[0076]在一实施例中,抓取网络中数据,对抓取的数据进行数据分层,生成数据组。可以通过多种方式实现对数据分层。例如,根据关键字、索引或者获取路径,将同一条件下抓取的数据归入同一数据组。对应数据组中数据,根据数据的特征字段的内容计算数据间相似度。由此,使得同一数据组中数据的相似性较高,便于进行后续处理。
[0077]当对抓取的数据进行数据分层生成多个数据组时,可以使用fork/join(Java7中执行任务的框架)或map-reduce (映射-归约模型)对多个数据组进行并行处理,由此降低了处理时间,增加了处理速度。
[0078]在一实施例中,如图2所示,上述步骤SlOl可实施为如下步骤A1-A3。
[0079]在步骤Al中、当所述特征字段中包含至少两个字段时,对于每个字段,根据数据在字段中内容计算数据间对应于字段的相似度分量。
[0080]在一【具体实施方式】中,特征字段包括至少一如下字段:
[0081]名称字段、地址字段、电话号码字段、分类字段和经纬度字段。
[0082]上述步骤Al可按如下方式实施。
[0083]当特征字段包括名称字段时,利用存储的识别数据库解析数据中名称字段的内容,获得格式化的名称信息,根据名称信息中各项信息的内容得到名称信息中各项信息的相似度分数,根据所得各项信息的相似度分数计算出数据间对应于名称字段的相似度分量。
[0084]举例而言,如图3A所示,将两条数据中的名称字段的内容分别进行名称解析,得到名称信息,使用动态时间规整算法DTW和编辑距离算法ED处理解析出的名称信息,得到名称信息中各项信息的相似度分数,对名称信息中各项信息的相似度分数加权求和,得到两条数据间对应于名称字段的相似度分量。
[0085]名称解析过程如图3B所示,数据中的名称字段,通过名称解析器进行解析,解析出的名称信息具有格式化的名称结构,例如,名称结构为:地点信息+关键字+模糊字+尾项+总部信息+分支结构信息+类别信息。识别数据库可包括:基础知识数据库,专业知识数据库,和单位信息数据库。其中,基础知识数据库包含基本信息,例如国家行政区划表;专业知识数据库包含特定信息。例如人工采集信息;单位信息数据库包含企业信息,例如电话号码信息。
[0086]例如,单位名称“北京理工大学良乡分校区”被解析为“北京【地点信息】+理工【关键字】+大学【类别信息】+良乡分校区【分支结构信息】”
[0087]将单位名称在识别数据库中进行匹配比较,得到解析后的名称信息,该名称信息的名称结构为地点信息+关键字+类别信息+分支结构信息。
[0088]DTff和ED为对字符串进行比较的现有技术。使用DTW和ED对名称信息中各项信息的内容分别进行运算,得到各项内容的DTW相似度分数和ED相似度分数。例如对单位名称中各项信息:地点信息、关键字、类别信息、分支结构信息,分别对应在数据I和数据2中内容,使用DTW和ED进行运算,得到各项信息的DTW相似度分数和ED相似度分数。对DTW和ED所得相似度分数进行归一化,得到归一化后的DTW相似度分数和ED相似度分数。将名称信息中各项的归一化后的DTW相似度分数和ED相似度分数加权求和,得到名称信息中各项信息的相似度分数。将名称信息中各项信息的相似度分数加权求和计算得名称信息的相似度分量。
[0089]对DTW相似度分数进行归一化的方法如下所述。
[0090]

【权利要求】
1.一种数据处理的方法,其特征在于,包括: 根据数据的特征字段的内容计算数据间相似度,其中,所述特征字段为预设的字段; 根据所述数据间相似度将所述数据中对应于同一对象的数据聚合到同一聚类中; 按预设策略对聚类中各条数据的特征字段的内容进行选择,根据选择的特征字段的内容生成所述对象对应的聚合数据。
2.根据权利要求1所述的方法,其特征在于,所述根据数据的特征字段的内容计算数据间相似度具体包括: 根据数据中特征字段的内容分别计算所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度; 所述根据所述数据间相似度将所述数据中对应于同一对象的数据聚合到同一聚类中具体包括: 根据所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度,判断所述未被聚合到聚类的数据是否属于所述聚类; 当所述未被聚合到聚类的数据属于所述聚类时,将所述未被聚合到聚类的数据聚合到所述聚类中。
3.根据权利要求2所述的方法,其特征在于, 所述根据所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度,判断所述未被聚合到聚类的数据是否属于所述聚类具体包括: 对于每条已被聚合到聚类的数据,根据所述未被聚合到聚类的数据与所述已被聚合到聚类的数据间的相似度,确定所述未被聚合到聚类的数据与所述已被聚合到聚类的数据是否为同一数据; 根据所述未被聚合到聚类的数据在所述聚类中的同一数据的条数,判断所述未被聚合到聚类的数据是否属于所述聚类。
4.根据权利要求1所述的方法,其特征在于,所述根据数据的特征字段的内容计算数据间相似度具体包括: 当所述特征字段中包含至少两个字段时,对于每个字段,根据数据在所述字段中内容计算数据间对应于所述字段的相似度分量; 对于每个字段,根据所述字段的相似度分量的大小、所述字段的内容和/或所述字段的结构确定所述字段所对应的权重; 根据数据间对应于各个字段的相似度分量和各个字段所对应的权重,计算数据间的相似度。
5.根据权利要求1所述的方法,其特征在于,所述特征字段包括至少一如下字段: 名称字段、地址字段、电话号码字段、分类字段和经纬度字段。
6.根据权利要求1所述的方法,其特征在于,所述按预设策略对聚类中各条数据的特征字段的内容进行选择具体包括: 根据聚类中各条数据间相似度和/或数据的可信度对聚类的各条数据在所述字段的内容进行选择。
7.根据权利要求6所述的方法,其特征在于,所述根据聚类中各条数据间相似度和/或数据的可信度对聚类的各条数据在所述字段的内容进行选择具体包括: 当所述特征字段中包含第一预设字段和至少一除所述第一预设字段之外的字段时,对于所述第一预设字段,根据聚类中各条数据间对应于所述第一预设字段的相似度分量和/或数据的可信度,对聚类的各条数据在所述第一预设字段的内容进行选择; 对于除所述第一预设字段之外的字段,根据聚类中各条数据对应于所述字段的相似度分量、数据的可信度、和/或在对应于所述第一预设字段进行选择时数据的选择情况,对聚类的各条数据在所述字段的内容进行选择。
8.根据权利要求4所述的方法,其特征在于,所述对于每个字段,根据数据在所述字段中内容计算数据间对应于所述字段的相似度分量具体包括: 当所述特征字段包括名称字段时,利用存储的识别数据库解析数据中名称字段的内容,获得格式化的名称信息,根据名称信息中各项信息的内容得到所述名称信息中各项信息的相似度分数,根据所得各项信息的相似度分数计算出数据间对应于名称字段的相似度分量;或者 当所述特征字段包括地址字段时,利用地址词元库解析数据中地址字段的内容,得到行政区划信息和剩余地址信息,根据预设的地理区划隶属关系得到所述行政区划信息的相似度分数,根据剩余地址信息的内容得到所述剩余地址信息的相似度分数,根据所得行政区划信息的相似度分数和剩余地址信息的相似度分数,计算数据间对应于地址字段的相似度分量;或者 当所述特征字段包括电话号码字段时,根据所述数据的电话号码字段的内容确定数据中电话号码的属性,根据确定出的所述电话号码的属性,计算所述数据间对应于所述电话号码字段的相似度分量;或者 当所述特征字段包括分类字段时,根据预设的分类间关系和所述数据中分类字段的内容,计算所述数据间对应于所述分类字段的相似度分量;或者 当所述特征字段包括经纬度字段时,根据所述数据中经纬度字段的内容,计算所述数据所对应的位置间距离,根据所述距离计算所述数据间对应于所述经纬度字段的相似度分量。
9.一种数据处理的装置,其特征在于,包括: 计算模块,用于根据数据的特征字段的内容计算数据间相似度,其中,所述特征字段为预设的字段; 聚合模块,用于根据所述数据间相似度将所述数据中对应于同一对象的数据聚合到同一聚类中; 选择模块,用于按预设策略对聚类中各条数据的特征字段的内容进行选择,根据选择的特征字段的内容生成所述对象对应的聚合数据。
10.根据权利要求9所述的装置,其特征在于, 所述计算模块具体用于根据数据中特征字段的内容分别计算所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度; 所述聚合模块具体包括: 判断单元,用于根据所述数据中未被聚合到聚类的数据与已被聚合到聚类的各条数据间的相似度,判断所述未被聚合到聚类的数据是否属于所述聚类; 聚合单元,用于当所述未被聚合到聚类的数据属于所述聚类时,将所述未被聚合到聚类的数据聚合到所述聚类中。
11.根据权利要求10所述的装置,其特征在于, 所述判断单元具体包括: 第一判断子单元,用于对于每条已被聚合到聚类的数据,根据所述未被聚合到聚类的数据与所述已被聚合到聚类的数据间的相似度,确定所述未被聚合到聚类的数据与所述已被聚合到聚类的数据是否为同一数据; 第二判断子单元,用于根据所述未被聚合到聚类的数据在所述聚类中的同一数据的条数,判断所述未被聚合到聚类的数据是否属于所述聚类。
12.根据权利要求9所述的装置,其特征在于,所述计算模块具体包括: 相似度分量计算单元,用于当所述特征字段中包含至少两个字段时,对于每个字段,根据数据在所述字段中内容计算数据间对应于所述字段的相似度分量; 权重设置单元,用于对于每个字段,根据所述字段的相似度分量的大小、所述字段的内容和/或所述字段的结构确定所述字段所对应的权重; 相似度计算单元,用于根据数据间对应于各个字段的相似度分量和各个字段所对应的权重,计算数据间的相似度。
13.根据权利要求9所述的装置,其特征在于,所述特征字段包括至少一如下字段: 名称字段、地址字段、电话号码字段、分类字段和经纬度字段。
14.根据权利要求9所述的装置,其特征在于,所述选择模块具体包括: 选择子模块,用于根据聚类中各条数据间相似度和/或数据的可信度对聚类的各条数据在所述字段的内容进行选择。
15.根据权利要求14所述的装置,其特征在于,所述选择子模块具体包括: 第一选择子单元,用于当所述特征字段中包含第一预设字段和至少一除所述第一预设字段之外的字段时,对于所述第一预设字段,根据聚类中各条数据间对应于所述第一预设字段的相似度分量和/或数据的可信度,对聚类的各条数据在所述第一预设字段的内容进行选择; 第二选择子单元,用于对于除所述第一预设字段之外的字段,根据聚类中各条数据对应于所述字段的相似度分量、数据的可信度、和/或在对应于所述第一预设字段进行选择时对数据的选择情况,对聚类的各条数据在所述字段的内容进行选择。
16.根据权利要求12所述的方法,其特征在于,所述相似度分量计算单元具体用于 当所述特征字段包括名称字段时,利用存储的识别数据库解析数据中名称字段的内容,获得格式化的名称信息,根据名称信息中各项信息的内容得到所述名称信息中各项信息的相似度分数,根据所得各项信息的相似度分数计算出数据间对应于名称字段的相似度分量;或者 当所述特征字段包括地址字段时,利用地址词元库解析数据中地址字段的内容,得到行政区划信息和剩余地址信息,根据预设的地理区划隶属关系得到所述行政区划信息的相似度分数,根据剩余地址信息的内容得到所述剩余地址信息的相似度分数,根据所得行政区划信息的相似度分数和剩余地址信息的相似度分数,计算数据间对应于地址字段的相似度分量;或者 当所述特征字段包括电话号码字段时,根据所述数据的电话号码字段的内容确定数据中电话号码的属性,根据确定出的所述电话号码的属性,计算所述数据间对应于所述电话号码字段的相似度分量;或者 当所述特征字段包括分类字段时,根据预设的分类间关系和所述数据中分类字段的内容,计算所述数据间对应于所述分类字段的相似度分量;或者 当所述特征字段包括经纬度字段时,根据所述数据中经纬度字段的内容,计算所述数据所对应的位置间距离,根据所述距离计算所述数据间对应于所述经纬度字段的相似度分量。
【文档编号】G06F17/30GK104182517SQ201410419633
【公开日】2014年12月3日 申请日期:2014年8月22日 优先权日:2014年8月22日
【发明者】王国杰, 史乐 申请人:北京羽乐创新科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1