用于对数据库中的信息进行修正及补充的方法及系统的制作方法_2

文档序号:8395870阅读:来源:国知局
至少一个模糊标识字段,其中精确标识字段一般可以广泛地具有统一的 构造并且通常由数字和字符构成。相对地,模糊标识字段的组成通常没有一定的规范并且 内容也较为随机。
[0027] 以银行卡联合组织的商户管理系统为例,在其数据库中为每个注册商户构建一个 商户信息条目,每个商户信息条目至少可以包括精确标识字段和模糊标识字段两类字段, 其中精确标识字段可以例如包括商户的通信号码字段,而模糊标识字段可以例如包括商户 名称、商户地址等字段。商户的通信号码字段可以例如是用于存储固定电话的字段、用于存 储手机号的字段、用于存储传真号的字段等等。这些信息通常由各个商户在向该系统进行 注册时提供,而后续很难再对其中的信息进行有效地更新和补充。在实践中,可能可以通过 人工查找及添加的方式来对数据库中的信息进行修正,然而这一般来说都费时费力。
[0028] 以一些产品管理数据库为例,在其数据库中为每个登记的产品构建一个产品信息 条目,每个产品信息条目也可以至少包括精确标识字段和模糊标识字段两类字段,其中精 确标识字段可以例如包括产品型号字段,而模糊标识字段可以例如包括产品名称、产品描 述等字段。
[0029] 如图1所示,为了对上述数据库中的信息进行修正及补充,首先在步骤S101中从 预先选定的目标网站将与所述数据库中的信息相关的网页页面爬取到本地。不同数据库中 的信息通常侧重点各不相同,并且互联网上的网站也各式各样。因此,可以预先从众多网站 中选定与需要修正及补充的数据库中所包含的信息最为相关的网站。对于记录商户信息或 产品信息的数据库,所述目标网站例如可以是活跃度较高的网络交易平台,例如天猫、大众 点评等。在这样的网络交易平台上,商户一般会较准确地登记其信息并且会较及时地进行 更新。
[0030] -般地,可以利用网页爬取器从选定的目标网站提取具有相关信息的网页页面。 目前的网页爬取器通常根据网站的统一资源定位符URL来进行爬取。本领域的技术人员应 理解的是,在本发明的实施例中可以应用已有的或待开发的任何种类的网页爬取器。在本 发明的优选实施例中,可以使用针对不同的目标网站定制的网页爬取器,例如根据各个目 标网站的导航页的特征进行爬取。网页爬取器爬取回的网页可以包括各种格式,例如,抓取 下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等,需要进 一步把这些文件中的文本信息提取出来。
[0031] 因此,接着在步骤S102中从所述网页页面中提取与所述对象相关的互联网信息。 这样的互联网信息所涵盖的信息范围可以大于数据库所覆盖的信息范围,也就是说可以包 括数据库中已有的对象的信息,同时也可以包括数据库中还没有的对象的信息。
[0032] 如前所述,数据库中的每个数据库信息条目可以包括至少一个精确标识字段和至 少一个模糊标识字段。相应地,从网页页面提取互联网信息可以包括:从各个网页页面提 取与数据库的对象相关的特征字段并且按对象将所述特征字段存储为互联网信息条目。例 如,对于html格式的网页页面,可以根据所关心的字段所处的HTML页面的标签结构提取相 对应的字段文本,从其中提取出与数据库信息条目中的对应的至少一个精确标识字段和至 少一个模糊标识字段,由此可以对数据库中已有的信息进行匹配及修正。另一方面,还可以 从网页页面中提取其他信息字段,这些其他信息字段是数据库信息条目所没有的,可以被 用来对数据库中的内容进行补充。在这个实施例中,这些互联网信息条目可以被统称为互 联网彳目息。
[0033] 举例来说,所爬取的网页页面是来自某个网络交易平台的商户页面,该商户页面 以html格式被爬取并且在该页面上包含商户名称、商户固定电话、商户地址以及其他一些 信息,诸如商户的服务态度、商品销量、发货速度。可以将这些字段组合在一起形成一个商 户的互联网信息条目。同样地,对于产品页面,可以从中爬取产品型号、产品名称、产品描述 等信息,并且将这些特征字段组合成一个产品的互联网信息条目。
[0034] 进而,在步骤S103处,将数据库中的信息与互联网信息进行匹配。在互联网信息 被存储为各个互联网信息条目并且在该互联网信息条目中包含与数据库信息条目相应的 字段,例如上面所描述的至少一个精确标识字段和至少一个模糊标识字段时,这种匹配可 以包括:将每个数据库信息条目中的至少一个精确标识字段与所有提取的互联网信息条目 中对应的至少一个精确标识字段进行比较。当对于该数据库信息条目存在精确标识字段相 同的互联网信息条目时,进一步计算该数据库信息条目中的至少一个模糊标识字段与所有 精确标识字段相同的互联网信息条目中对应的精确标识字段的相似度,并且将该相似度最 高并且超过相似度预定阈值的互联网信息条目确定为匹配的互联网信息条目。
[0035] 以商户信息数据库为例,在所述至少一个精确标识字段为商户固定电话时,将数 据库信息条目中存储的商户固定电话字段与所提取的所有互联网信息条目中存储商户固 定电话的字段 比对。对于同一数据库信息条目,可能存在若干个商户固定电话字段与 其相同的互联网信息条目。因此,还需要对进一步比对两者的模糊标识字段,例如商户名称 字段或商户地址字段。如上所述,可以计算数据库信息条目中的商户名称字段与固定电话 相同的每个互联网信息条目中的商户名称字段的相似度。最后,从其中排除相似度小于预 定阈值的互联网信息条目,并且将剩下的互联网信息条目中商户名称相似度最高的一个确 定为与该数据库信息条目匹配的互联网信息条目。
[0036] 就模糊标识字段的相似度计算而言,可以例如利用向量空间模型方法,将待匹配 字段中所包含的文本内容转化为数值向量,并且计算两个向量的夹角,该夹角即为相似度 的度量。本领域的技术人员应容易地理解,字段文本的相似度可以使用本领域已知及待开 发的任何模型来计算。
[0037] 进一步地,当对于一个数据库信息条目不存在精确标识字段相同的互联网信息条 目时,将该数据库信息条目中的两个或更多个模糊标识字段合并为第一匹配字段,并且计 算该第一匹配字段与由每个互联网信息条目中对应的模糊标识字段同样地构成的第二匹 配字段的相似度。从其中排除相似度小于预定阈值的互联网信息条目,并且将剩下的互联 网信息条目中与来自数据库信息条目的第一匹配字段的相似度最高的一个确定为与该数 据库信息条目匹配的互联网信息条目。应容易地理解,在这种情况下,数据库信息条目可以 至少包括两个或两个以上的模糊标识字段。
[0038] 以商户信息为例,数据库信息条目中的模糊标识字段可以包括商户名称字段和商 户地址字段两者。可以将商户名称字段与商户地址字段组合成一个匹配字段,在此可以为 称为第一匹配字段。相应地,可以将每个互联网信息条目中的商户名称与商户地址两个字 段组合成一个结构相同的字段,在此可以被称为第二匹配字段。由此,通过计算来自一个数 据库信息条目的该第一匹配字段与来自每个互联网信息条目的该第二匹配字段的相似度 来确定匹配的互联网信息条目。第一匹配字段与第二匹配字段之间的相似度也可以应用上 文所描述的向量空间模型方法或本领域已知及待开发的任何模型来计算。
[0039] 在从互联网信息中找到与数据库中的信息相匹配的内容之后,可以在步骤S104 处根据匹配结果对数据库中的信息进行修正及补充。
[0040] 在如上所述的那样将互联网信息条目与数据库信息条目进行匹配的情况下,可以 在数据库信息条目中的所述至少一个精确标识字段为空时将与其匹配的互联网信息条目 中的对应的精确标识字段信息填入该数据库信息条目中。例如,当数据库中的商户信息条 目中不包含商户的固定电话时可以将相匹配的互联网信息条目中包含的商户固定电话填 充到商户数据库中。对于诸如固定电话、传真号等通信号码信息,当数据库信息条目中的和 预期匹配的互联网信息条目中的不同时,还可以通过人工的方式进行核实。
[0041] 如在上文中所描述的那样,互联网信息中还可以包含一些数据库中所没有的内 容。在本发明的另一些实施例中,可以将这些数据库中所没有的内容从所匹配的互联网信 息补充到数据库中。例如,所述互联网信息条目还可以包括数据库信息条目所没有的其他 信息字段。因此,可以将这些其他信息字段添加到数据库信息条目中。例如对于商户而言, 可以将互联网信息条目中的与"商品销量"、"服务态度"等信息对应的字段添加到数
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1