地址数据标注方法及装置、电子设备、存储介质与流程

文档序号:20684630发布日期:2020-05-08 18:43阅读:286来源:国知局
地址数据标注方法及装置、电子设备、存储介质与流程

本公开涉及数据处理技术领域,尤其涉及一种地址数据标注方法、地址数据标注装置、电子设备及计算机可读存储介质。



背景技术:

随着信息时代的来临,出现了大量的数据,为了便于对数据进行分析处理,以进行良好决策,人们通常会对数据进行合理标注。特别的,在对人的行为活动或社会经济活动进行空间分析时,地址数据的标注尤为重要,对地址数据进行有效标注,能够为城市治理、商业运营提供量化的决策依据。

现有的地址数据标注方法,通常是基于预设规则,采用人为标注的方式进行的。然而,由于地址数据形式的不同,可能会出现不同数据包含相同含义的情况,例如内蒙、内蒙古、内蒙古自治区均可以标注为相同的含义,因此,考虑到地址数据的更新速度快、多样化程度高,需要定期对地址标注规则以及地址数据库进行维护和更新,耗费较多的人力成本;此外,上述方式极大依赖于人工操作,标注成本一般与地址数据集的规模成正比,当进行大规模数据的标注时,则需要花费较多人力、物力的投入和较长的标注周期,效率低且无法保证其准确性。

因此,如何对地址数据进行准确、高效的标注是现有技术亟待解决的问题。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

本公开提供了一种地址数据标注方法、地址数据标注装置、电子设备及计算机可读存储介质,进而至少在一定程度上克服现有的地址数据标注消耗较高的人力成本且准确率低的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开的一个方面,提供一种地址数据标注方法,包括:获取地址标注模型,所述地址标注模型基于无标签的第一样本数据,以及有标签的第二样本数据预先训练而得到;将待标注地址拆分为多个字符,以将所述待标注地址转换为由所述多个字符排列而成的待标注字符序列;采用所述地址标注模型对所述待标注字符序列进行处理,得到标注数据序列;根据所述标注数据序列确定所述待标注地址的标注结果。

在本公开的一种示例性实施例中,所述地址标注模型,通过以下方式训练得到:获取第一样本数据、第二样本数据,以及所述第二样本数据的地址类别标签;利用所述第一样本数据预训练机器学习模型,生成中间模型;基于所述中间模型的至少一部分,构建初始的地址标注模型;利用所述第二样本数据以及所述第二样本数据的地址类别标签,训练并得到所述地址标注模型。

在本公开的一种示例性实施例中,所述获取第一样本数据、第二样本数据,包括:获取初始样本数据,并对所述初始样本数据进行标准化处理;对标准化处理后的初始样本数据进行分层采样,并更新分层采样后初始样本数据的顺序;按照预设比例,将初始样本数据划分为所述第一样本数据与第二样本数据。

在本公开的一种示例性实施例中,在将初始样本数据划分为所述第一样本数据与第二样本数据之后,通过以下方式获取所述第二样本数据的地址类别标签:采用预设标注方法对所述第二样本数据中的每个字符进行标注,得到所述每个字符的地址类别标签;根据针对所述地址类别标签的核验结果,更新所述第二样本数据中每个字符的地址类别标签。

在本公开的一种示例性实施例中,所述利用所述第一样本数据预训练机器学习模型,生成中间模型,包括:从所述第一样本数据中确定多组样本地址对,并将每组样本地址对转换为样本地址序列;将所述样本地址序列输入机器学习模型中,以得到预先设置的子任务的结果值;根据第一损失函数更新所述机器学习模型的参数,以得到所述中间模型,所述第一损失函数包括所述子任务的结果值与所述子任务的标签值之间的误差;其中,所述子任务包括以下任意一种或多种的组合:判断所述样本地址对中两个地址的省字符是否相同;判断所述样本地址对中两个地址的市字符是否相同;判断所述样本地址对中两个地址的区字符是否相同。

在本公开的一种示例性实施例中,在将每组样本地址对转换为样本地址序列后,所述方法还包括:对所述样本地址序列中的一个或多个字符进行随机化替换处理;所述子任务还包括:预测所述样本地址序列中经过随机化替换处理的字符所对应的原始字符。

在本公开的一种示例性实施例中,所述利用所述第二样本数据以及所述第二样本数据的地址类别标签,训练并得到所述地址标注模型,包括:基于标注路径的归一化构建第二损失函数;将所述第二样本数据输入所述地址标注模型,根据输出的标注路径与所述第二样本数据的地址类别标签的误差、以及所述第二损失函数,更新所述地址标注模型的参数,以训练并得到所述地址标注模型。

在本公开的一种示例性实施例中,在获取所述第二样本数据的地址类别标签之后,所述方法包括:获取每个地址类别下所述第二样本数据的数量,计算所述每个地址类别的样本比例;如果存在至少一个所述地址类别的样本比例低于预设阈值,则对所述第二样本数据中至少一部分数据进行调整,使调整后的所述第二样本数据中每个地址类别的样本比例满足所述预设条件。

在本公开的一种示例性实施例中,所述对所述第二样本数据中至少一部分数据进行调整,包括:从所述样本比例高于所述预设阈值的地址类别的第二样本数据中删除一部分数据;和/或基于所述样本比例低于所述预设阈值的地址类别的第二样本数据,构造新的样本数据,添加至所述第二样本数据中。

在本公开的一种示例性实施例中,所述将待标注地址拆分为多个字符包括:获取待标注地址,并对所述待标注地址进行文本清洗处理;对进行文本清洗处理后的待标注地址进行单个字符的拆分处理,并将拆分后的每个字符转换为数字索引;所述采用所述地址标注模型对所述待标注字符序列进行处理,得到标注数据序列,包括:采用地址标注模型对所述数字索引进行处理,得到所述每个字符的标签索引组成的标注数据序列;所述根据所述标注数据序列确定所述待标注地址的标注结果,包括:根据所述标签索引,在预设的标签字典中进行查找,以确定所述待标注地址的标注结果。

根据本公开的一个方面,提供一种地址数据标注装置,包括:模型获取模块,用于获取地址标注模型,所述地址标注模型基于无标签的第一样本数据,以及有标签的第二样本数据预先训练而得到;字符拆分模块,用于将待标注地址拆分为多个字符,以将所述待标注地址转换为由所述多个字符排列而成的待标注字符序列;序列处理模块,用于采用所述地址标注模型对所述待标注字符序列进行处理,得到标注数据序列;结果确定模块,用于根据所述标注数据序列确定所述待标注地址的标注结果。

在本公开的一种示例性实施例中,所述地址标注模型,通过以下方式训练得到:数据获取单元,用于获取第一样本数据、第二样本数据,以及所述第二样本数据的地址类别标签;中间模型生成单元,用于利用所述第一样本数据预训练机器学习模型,生成中间模型;初始模型构建单元,用于基于所述中间模型的至少一部分,构建初始的地址标注模型;模型训练单元,用于利用所述第二样本数据以及所述第二样本数据的地址类别标签,训练并得到所述地址标注模型。

在本公开的一种示例性实施例中,数据获取单元包括:标准化处理子单元,用于获取初始样本数据,并对所述初始样本数据进行标准化处理;分层处理子单元,用于对标准化处理后的初始样本数据进行分层采样,并更新分层采样后初始样本数据的顺序;数据划分子单元,用于按照预设比例,将初始样本数据划分为所述第一样本数据与第二样本数据。

在本公开的一种示例性实施例中,在将初始样本数据划分为所述第一样本数据与第二样本数据之后,通过以下方式获取所述第二样本数据的地址类别标签:字符标注子单元,用于采用预设标注方法对所述第二样本数据中的每个字符进行标注,得到所述每个字符的地址类别标签;标签更新子单元,用于根据针对所述地址类别标签的核验结果,更新所述第二样本数据中每个字符的地址类别标签。

在本公开的一种示例性实施例中,中间模型生成单元包括:序列转换子单元,用于从所述第一样本数据中确定多组样本地址对,并将每组样本地址对转换为样本地址序列;序列输入子单元,用于将所述样本地址序列输入机器学习模型中,以得到预先设置的子任务的结果值;参数更新子单元,用于根据第一损失函数更新所述机器学习模型的参数,以得到所述中间模型,所述第一损失函数包括所述子任务的结果值与所述子任务的标签值之间的误差;其中,所述子任务包括以下任意一种或多种的组合:判断所述样本地址对中两个地址的省字符是否相同;判断所述样本地址对中两个地址的市字符是否相同;判断所述样本地址对中两个地址的区字符是否相同。

在本公开的一种示例性实施例中,在将每组样本地址对转换为样本地址序列后,地址数据标注装置还包括:替换处理模块,用于对所述样本地址序列中的一个或多个字符进行随机化替换处理;所述子任务还包括:预测所述样本地址序列中经过随机化替换处理的字符所对应的原始字符。

在本公开的一种示例性实施例中,模型训练单元包括:函数构建子单元,用于基于标注路径的归一化构建第二损失函数;模型训练子单元,用于将所述第二样本数据输入所述地址标注模型,根据输出的标注路径与所述第二样本数据的地址类别标签的误差、以及所述第二损失函数,更新所述地址标注模型的参数,以训练并得到所述地址标注模型。

在本公开的一种示例性实施例中,在获取所述第二样本数据的地址类别标签之后,地址数据标注装置包括:样本比例计算模块,用于获取每个地址类别下所述第二样本数据的数量,计算所述每个地址类别的样本比例;数据调整模块,用于如果存在至少一个所述地址类别的样本比例低于预设阈值,则对所述第二样本数据中至少一部分数据进行调整,使调整后的所述第二样本数据中每个地址类别的样本比例满足所述预设条件。

在本公开的一种示例性实施例中,数据调整模块包括:数据删除单元,用于从所述样本比例高于所述预设阈值的地址类别的第二样本数据中删除一部分数据;和/或样本构建单元,用于基于所述样本比例低于所述预设阈值的地址类别的第二样本数据,构造新的样本数据,添加至所述第二样本数据中。

在本公开的一种示例性实施例中,字符拆分模块包括:地址获取单元,用于获取待标注地址,并对所述待标注地址进行文本清洗处理;字符拆分单元,用于对进行文本清洗处理后的待标注地址进行单个字符的拆分处理,并将拆分后的每个字符转换为数字索引;序列处理模块包括:索引处理单元,用于采用地址标注模型对所述数字索引进行处理,得到所述每个字符的标签索引组成的标注数据序列;结果确定模块包括:索引查找单元,用于根据所述标签索引,在预设的标签字典中进行查找,以确定所述待标注地址的标注结果。

根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开的示例性实施例具有以下有益效果:

获取地址标注模型,地址标注模型基于无标签的第一样本数据,以及有标签的第二样本数据预先训练而得到;将待标注地址拆分为多个字符,以将待标注地址转换为由多个字符排列而成的待标注字符序列;采用地址标注模型对待标注字符序列进行处理,得到标注数据序列;根据标注数据序列确定待标注地址的标注结果。一方面,本示例性实施例通过建立地址标注模型对待标注地址的字符序列进行处理,得到标注结果,较少依赖于人工操作对地址数据的标注,标注过程智能化程度较高,操作简捷且具有较高的准确率;另一方面,本示例性实施例仅需在模型训练时,对部分样本数据进行标签标注,确定地址标注模型,以进行大规模地址数据的标注,减少了地址数据标注所需的标注周期,降低了人力资源成本,且具有较广的适用性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示意性示出本示例性实施例中一种地址数据标注方法的流程图;

图2示意性示出本示例性实施例中一种地址数据标注方法的子流程图;

图3示意性示出本示例性实施例中另一种地址数据标注方法的子流程图;

图4示意性示出本示例性实施例中再一种地址数据标注方法的子流程图;

图5示意性示出本示例性实施例中训练中间模型的流程图;

图6示意性示出本示例性实施例中地址标注模型架构的示意图;

图7示意性示出本示例性实施例中迁移训练中间模型的流程图;

图8示意性示出本示例性实施例中对数据进行处理的流程图;

图9示意性示出本示例性实施例中另一种地址数据标注方法的流程图;

图10示意性示出本示例性实施例中一种地址数据标注装置的结构框图;

图11示意性示出本示例性实施例中一种用于实现上述方法的电子设备;

图12示意性示出本示例性实施例中一种用于实现上述方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

本公开的示例性实施例首先提供了一种地址数据标注方法,本实施例方法的应用场景可以是:在电商平台中,获取大量的用户地址,通过本示例性实施例对收货地址进行标注,以根据标注结果分析地区与用户购物习惯的关系,从而实现对用户行为的分析;在获取用于进行机器学习训练的训练数据时,对训练数据进行标注,以根据标注结果确定训练标签,从而根据训练数据以及其对应的标签对机器学习模型进行训练等。

下面结合附图1对本示例性实施例做进一步说明,如图1所示,地址数据标注方法可以包括以下步骤s110~s140:

步骤s110,获取地址标注模型,地址标注模型基于无标签的第一样本数据,以及有标签的第二样本数据预先训练而得到。

地址标注模型是指用于对待标注地址进行处理,以得到待标注地址标注结果的模型,其可以是预先训练好的模型。样本数据是指用于进行模型训练的训练数据,本示例性实施例涉及两类样本数据,无标签的第一样本数据以及有标签的第二样本数据。在进行模型训练时,可以基于无标签的第一样本数据进行机器学习模型的预训练,以生成一中间模型,再通过有标签的第二样本数据,以及其对应的标签,训练中间模型,调整模型参数得到最终的地址标注模型。本示例性实施例可以通过大量无标签的第一样本数据,以及少量有标签的第二样本数据确定地址标注模型,相比于基于大量需要标签的训练数据训练机器学习模型,可以大大减少人工标注的资源成本,减少模型对人工标注数据的依赖。

步骤s120,将待标注地址拆分为多个字符,以将待标注地址转换为由多个字符排列而成的待标注字符序列。

其中,待标注地址是指需要进行地址标注的数据,例如居住地址、办公地址、学校地址、医院地址、机构地址以及物品流通供应链各个环节的地址等,地址数据记录了人的行为活动或社会经济活动对应的地理空间信息,是大数据时代一类十分有价值的数据资源。基于地址数据对人的行为活动或社会经济活动进行空间分析,能够为城市治理、商业运营提供量化的决策依据。考虑到地址数据的复杂性和特殊性,例如地址命名缺乏统一的规范;地址书写存在简称、描述信息、多别字、简体/繁体等情况;中文地址不像英文那样有标点符号来划分地理单元等问题。本示例性实施例在对待标注地址进行处理之前,可以先对待标注地址的字符进行拆分处理,例如地址数据“浙江省温州市乐清市虹桥镇”可以拆分为“浙/江/省//温/州/市//乐/清/市//虹/桥/镇/”,然后将这些字符转换为待标注的字符序列,以便于地址标注模型对其进行处理。

步骤s130,采用地址标注模型对待标注字符序列进行处理,得到标注数据序列。

步骤s140,根据标注数据序列确定待标注地址的标注结果。

将待标注地址转换的待标注字符序列作为地址标注模型的输入数据,使模型对待标注字符序列进行处理,即可以得到待标注地址的标注结果。其中,标注结果是指能够反映待标注数据中数据属性的数据,其可以直接是机器学习模型的处理结果,例如数值型结果或字母型结果等,通过对数值型结果或字母型结果的转换,可以确定待标注地址的最终标注结果;标注结果也可以是能够待标注数据的最终的标记结果,例如针对地址数据“广东省深圳市南山区”,标注结果可以是数值型结果“1”、“2”、“3”,通过将数值型结果进行转换,可以得到“省”、“市”、“区”的最终标注结果,标注结果也可以是“广东-省”,“深圳-市”,“南山-区”,或者“广-省”,“东-省”,“深-市”,“圳-市”,“南-区”,“山-区”等等,本公开对标注结果的形式不做具体限定。

在一示例性实施例中,上述步骤s120中,将待标注地址拆分为多个字符可以包括以下步骤:

步骤s210,获取待标注地址,并对待标注地址进行文本清洗处理;

步骤s220,对进行文本清洗处理后的待标注地址进行单个字符的拆分处理,并将拆分后的每个字符转换为数字索引;

则步骤s130可以包括:

步骤s230,采用地址标注模型对数字索引进行处理,得到每个字符的标签索引组成的标注数据序列;

步骤s140可以包括:

步骤s240,根据标签索引,在预设的标签字典中进行查找,以确定待标注地址的标注结果。

在本示例性实施例中,待标注地址可以从终端设备中已储存的数据库中获取,也可以从用户实时输入的地址数据中确定,以实现对待标注地址的实时标注等,本公开对此不做具体限定。考虑到获取的待标注地址的格式或形式具有较大差异,因此,在获取待标注地址后,可以对待标注地址进行文本清洗处理,包括但不限于:剔除过短或过长的地址条目;将字符全角转换为半角;剔除地址文本中空格、制表符、引号、各种括号等中文标点符号。进一步的,可以将进行文本清洗后的待标注地址按照单个字符进行分词处理,并将分词处理后的每个字符转换为数字索引,以便于地址标注模型对其进行处理,得到每个数字索引的处理结果,最后基于预设的标签字典,确定每个数字索引对应的标签,即能够确定待标注地址中每个字符的标注结果。

基于上述说明,在本示例性实施例中,获取地址标注模型,地址标注模型基于无标签的第一样本数据,以及有标签的第二样本数据预先训练而得到;将待标注地址拆分为多个字符,以将待标注地址转换为由多个字符排列而成的待标注字符序列;采用地址标注模型对待标注字符序列进行处理,得到标注数据序列;根据标注数据序列确定待标注地址的标注结果。一方面,本示例性实施例通过建立地址标注模型对待标注地址的字符序列进行处理,得到标注结果,较少依赖于人工操作对地址数据的标注,标注过程智能化程度较高,操作简捷且具有较高的准确率;另一方面,本示例性实施例仅需在模型训练时,对部分样本数据进行标签标注,确定地址标注模型,以进行大规模地址数据的标注,减少了地址数据标注所需的标注周期,降低了人力资源成本,且具有较广的适用性。

在一示例性实施例中,如图3所示,步骤s110中,地址标注模型可以通过以下方式训练得到:

步骤s310,获取第一样本数据、第二样本数据,以及第二样本数据的地址类别标签;

步骤s320,利用第一样本数据预训练机器学习模型,生成中间模型;

步骤s330,基于中间模型的至少一部分,构建初始的地址标注模型;

步骤s340,利用第二样本数据以及第二样本数据的地址类别标签,训练并得到地址标注模型。

其中,第一样本数据与第二样本数据均为用于确定地址标注模型的训练数据,区别在于,第一样本数据为无标签的样本数据,而第二样本数据为有标签的样本数据。本示例性实施例可以通过第一样本数据与第二样本数据构建稳健的深度学习模型,以减少对标注数据的依赖。具体的,可以通过第一样本数据对机器学习模型进行无监督学习的预训练,生成中间模型,再通过有标签的第二样本数据对中间模型进行迁移学习,得到最终的地址标注模型。这种方式构建的地址标注模型,无需人为对标注规则进行定期更新维护,也减少了人为标注大量标签所耗费的人力与物力的投入。另外,为了保证模型训练的准确性,本示例性实施例可以从多个平台获取多样且全面的样本数据,例如可以从最近一个季度内,获取多个电商平台中订单数据库中的全量收货地址作为样本数据等。

在一示例性实施例中,如图4所示,上述步骤s310中,获取第一样本数据、第二样本数据可以包括以下步骤:

步骤s410,获取初始样本数据,并对初始样本数据进行标准化处理;

步骤s420,对标准化处理后的初始样本数据进行分层采样,并更新分层采样后初始样本数据的顺序;

步骤s430,按照预设比例,将初始样本数据划分为第一样本数据与第二样本数据。

其中,初始样本数据是指未经过处理的用于进行模型训练的样本数据,在获取初始样本数据后,为了提高机器学习模型训练的准确性与便捷性,可以对初始样本数据进行标准化处理,具体可以包括但不限于:剔除初始样本数据中过短或过长的数据;字符转换,例如将数据中的全角字符转换为半角字符;字符特殊化处理,例如剔除数据中的空格、制表符、引号、各种括号等标点符号;去重等文本清洗处理。此外,考虑到获取数据的随机性,可能会导致数据的不均衡,例如获取的100条关于北京市的地址数据中,其中可能包含60条朝阳区、20条海淀区、20条新城区的数据,为了保证样本数据的无偏性,本示例性实施例还可以对标准化处理后的初始样本数据进行分层采样处理,具体可以将获取的地址数据按省、市、区县进行分层采样,例如通过分层采样使得地址数据中朝阳区、海淀区以及新城区的地址数据的数量保持分布均衡。再对分层采样后的初始样本数据的顺序进行更新,例如将样本数据的顺序随机打乱。最后按照预设比例,将初始样本数据划分成无标签的第一样本数据和有标签的第二样本数据。其中,预设比例可以根据需要进行自定义设置,本公开对此不做具体限定。

在一示例性实施例中,在上述步骤s430之后,可以通过以下方式获取第二样本数据的地址类别标签:

采用预设标注方法对第二样本数据中的每个字符进行标注,得到每个字符的地址类别标签;

根据针对地址类别标签的核验结果,更新第二样本数据中每个字符的地址类别标签。

为全面解析地址数据中的行政区划层级、地理实体和有意义的文本信息,使地址序列的标注结果具有通用性并满足多业务场景的需求,通过对地址数据属性和特点的分析,本示例性实施例可以归纳、抽象出地址数据中的多种类别,例如表1所示的15种标签类别,并对每个标签类别的内涵和范畴进行定义。需要说明的是,本公开中所涉及的标签类别并不限于表1中的15种类别。

表1地址数据的类别标签及其定义

在本示例性实施例中,可以通过预设标注方法对第二样本数据中的每个字符进行标注,例如将第二样本数据导入文本标注工具(例如doccano),采用bio(begininsideoutside,开始中间外部)序列标注方式,对第二样本数据中的每个字符进行标注。为了保证地址类别标签的准确性,本示例性实施例还可以通过人工核验的方式对标注的结果进行再次核验和修正,根据地址类别标签的核验结果,更新第二样本数据中每个字符的地址类别标签,以确保每个字符的地址类别标签的准确性和一致性。

采用bio序列标注方式对地址数据进行标注,即将地址数据中每个字符标注为“b-x”、“i-x”或者“o”。其中,“b-x”表示此字符所在的片段属于x类型并且此字符在此片段的开头,“i-x”表示此字符所在的片段属于x类型并且此字符在此片段的中间位置,“o”表示不属于任何类型。所有可能的地址类别标签可以包括:["b-province","i-province","b-city","i-city","b-county","i-county","b-town","i-town","b-village","i-village","b-road","i-road","b-roadnum","i-roadnum","b-roadaux","i-roadaux","b-residence","i-residence","b-build","i-build","b-school","i-school","b-institution","i-institution","b-buildnum","i-buildnum","b-unit","i-unit","b-location","i-location","o"],分别与表1中的地址类别标签对应。具体的标签形式如表2所示:

表2基于bio序列标注的标注结果形式

在一示例性实施例中,上述步骤s320可以包括以下步骤:

从第一样本数据中确定多组样本地址对,并将每组样本地址对转换为样本地址序列;

将样本地址序列输入机器学习模型中,以得到预先设置的子任务的结果值;

根据第一损失函数更新机器学习模型的参数,以得到中间模型,第一损失函数包括子任务的结果值与子任务的标签值之间的误差;

其中,子任务可以包括以下任意一种或多种的组合:

判断样本地址对中两个地址的省字符是否相同;

判断样本地址对中两个地址的市字符是否相同;

判断样本地址对中两个地址的区字符是否相同。

在根据无标签的第一样本数据预训练机器学习模型时,可以对模型构建所需的第一样本数据进行预处理,按比例划分出训练集、验证集、测试集。对于训练集中的每一条地址,以概率p从剩余地址中随机选择一条地址,以概率1-p选择该条地址本身,构建样本地址对,即当从第一样本数据中选择某一条地址作为样本地址对中的其中一条地址时,有概率p从其他地址中选择另外一条地址,有概率1-p与其自身构成样本地址对。其中,概率p可以根据需要进行自定义设置,例如可以设置p为50%等,本公开对此不做具体限定。然后将样本地址序列输入机器学习模型中,以得到预先设置的子任务的结果值。在本示例性实施例中,可以设置上述三种子任务中的一种或多种的组合,将样本地址对中两条地址对应省、市、区/县字符进行对比,判断两条样本地址所属省份是否相同、两条样本地址所属市是否相同、两条样本地址所属区县是否相同等。

由于地址数据不同于普通的文本数据,其可以包含地理区划的空间拓扑关系,表达的语义是存在明显的行政层级及行政层级之间隶属关系的。例如,地址1“浙江温州市乐清市虹桥镇虹南路”中,“浙江”、“温州市”、“乐清市”是存在行政层级及行政层级隶属关系的,而且是地址数据中包含的重要地理信息;地址2“浙江省杭州市萧山区蓬镇”中的“杭州市”与地址1中的“温州市”是并列的关系。因此,本示例性实施例提出在预训练语言模型中通过增加上述“样本地址对中两个地址的省字符是否相同”、“样本地址对中两个地址的市字符是否相同”、“样本地址对中两个地址的区字符是否相同”的子任务约束条件,以将这种外部知识以及行政层级隶属关系编码至文本的语义表征中。具体地,在模型训练数据预处理构建模型训练样本样本地址对时,对应“样本地址对中两个地址的省字符是否相同”、“样本地址对中两个地址的市字符是否相同”、“样本地址对中两个地址的区字符是否相同”三个子任务,分别预留标识位“[cls1]”、“[cls2]”、“[cls3]”,由机器学习模型(本示例性实施例可以采用bert模型)逐层提出语义信息后,在最上层输出的向量矩阵中分别提取“[cls1]”、“[cls2]”、“[cls3]”对应的多维向量,分别输入到一个二分类模型中,并计算损失值loss1、loss2、loss3,进一步根据损失值更新模型参数,得到中间模型。

需要说明的是,为了便于机器学习模型对样本地址对的处理,本示例性实施例可以先对第一样本数据进行数据处理,将每组样本地址对转换为样本地址序列。具体的,可以将上述得到的样本地址对按字分词(即划分为单个字符),并在样本地址序列的首、尾分别添加[start]、[end]标记以指示地址序列的开始和结束,构建语料字典,并将两条样本地址的长度对齐到参数设置的最大长度。如果两条样本地址的总长度超过了参数设置的最大长度,则挑出其中较长的一条,依次随机地删除头部或尾部非[start]、[end]标识字符,直至满足最大长度条件;如果两条地址文本的总长度小于参数设置的最大长度,则在末尾补充特殊字符“[pad]”等,通过这种方式构建机器学习模型待处理的样本地址序列。

在一示例性实施例中,在将每组样本地址对转换为样本地址序列后,地址数据标注方法还可以包括:

对样本地址序列中的一个或多个字符进行随机化替换处理;

上述子任务还可以包括:

预测样本地址序列中经过随机化替换处理的字符所对应的原始字符。

在本示例性实施例中,除了上述三种子任务之外,还可以设置“遮掩字符预测”的子任务,以对机器学习模型进行预训练。具体的,可以对样本地址序列中的一个或多个字符进行随机化替换处理,包括但不限于:随机对一定比例的一个或多个字符进行遮掩、替换、删除或不变等,即可以把遮掩替换字中的80%的字符替换为“[mask]”,10%的字符保留为原始字符,或者10%的字符替换为语料字典中的随机取出的字符等等。通过设置“遮掩单字预测”子任务,预测样本地址序列中经过随机化替换处理的字符所对应的原始字符,将该子任务损失值记为loss4,并根据第一损失函数更新机器学习模型的参数,得到中间模型。

需要说明的是,本示例性实施例中预训练语言模型可以是一个包含多子任务约束的模型,预训练语言模型总的第一损失函数可以由各子任务的第一损失函数加权求和得到,其权重可以根据需要进行自定义设置,本公开对此不做具体限定。

在本示例性实施例中,如图5所示,中间模型的训练过程可以包括以下步骤:

步骤s510,获取第一样本数据;

步骤s520,从所述第一样本数据中确定多组样本地址对,并将每组样本地址对转换为样本地址序列;

步骤s530,构建预训练中间模型,设计子任务,定义第一损失函数;

步骤s540,基于第一样本数据训练机器学习模型,进行前向传播过程计算第一损失函数的损失值;

步骤s550,判断损失值是否低于第一预设阈值;

步骤s560,如果低于第一预设阈值,则结束模型训练,获得预训练完成的中间模型;

如果高于第一预设阈值,执行步骤s570,进行反向传播过程,计算每一层的参数更新梯度,进行权值更新;

并返回执行步骤s540,进行多次迭代,直至模型收敛和模型损失值低于第一预设阈值,从而得到预训练的中间模型及最优参数。

在一示例性实施例中,上述步骤s340可以包括以下步骤:

基于标注路径的归一化构建第二损失函数;

将第二样本数据输入地址标注模型,根据输出的标注路径与第二样本数据的地址类别标签的误差、以及第二损失函数,更新地址标注模型的参数,以训练并得到地址标注模型。

本示例性实施例可以通过finetuning(微调)的方式迁移学习在大规模无标签的第二样本数据上预训练的中间模型中学习到的地址数据中的语言特征、语义模式和行政层级之间的隶属关系等信息,以减少地址标注模型对大规模有标签的样本数据的依赖。

在对地址标注模型进行迁移训练时,面向地址数据的地址标注模型的第二样本数据以及第二样本数据的标签形式可以如表2所示。本示例性实施例可以对第二样本数据可以构建如下形式的训练数据:[cls1][cls2][cls3][start][c1]…[cm][end][pad]。其中,[clsi](i=1,2,3)指本本示例性实施例提出的为新增3个子任务预留的标识位,[cj]指地址数据按单字分词后每个字符,m为地址数据中单个字符的数量。然后将地址文本中的每个字符转换为语料字典中相应字符对应的整数索引。

将标注数据的标注标签["start","b-province","i-province","b-city","i-city","b-county","i-county","b-town","i-town","b-village","i-village","b-road","i-road","b-roadnum","i-roadnum","b-roadaux","i-roadaux","b-residence","i-residence","b-build","i-build","b-school","i-school","b-institution","i-institution","b-buildnum","i-buildnum","b-unit","i-unit","b-location","i-location","o","end"]分别映射对应的整数值,例如映射为0-33的整数值,并将映射值保存为标签字典,供将模型推理后结果反向转换为标签时使用。将处理后的第二样本数据按一定比例,例如70%:15%:15%,划分出训练集、验证集和测试集。在训练集上训练模型,根据模型在验证集上的性能表现调整超参数。

图6示出了本示例性实施例中的地址标注模型的架构示意图。具体可以包括:输入层610,用于在大规模无标注数据上预训练的中间模型的基础(如面向地址的bert-base(768))上,提取预训练中间模型最上层输出的向量矩阵中“[cls1][cls2][cls3]”对应的向量矩阵;输入到第一中间层620(包括textcnn(textconvolutionalneuralnetworks,文本卷积神经网络)(64)+dropout)的textcnn中,以获取该地址序列的全局表征向量,通过提取预训练中间模型最上层输出的向量矩阵中“[start][c1]…[cm][end][pad]”对应的向量矩阵,然后将textcnn输出的全局表征向量与地址序列每个字符对应的向量拼接起来,输入到第二中间层630(包括双向lstm(longshort-termmemory,长短期记忆网络)/gur(门控循环单元))中的双向lstm(128)中,即两个独立反方向传播的lstm,输出每一个步骤的输出向量,然后在第三中间层640(包括dropout(丢弃层)(0.5))中,将正向、反向lstm的输出向量经过拼接后,连接两层带dropout的全连接层(第四中间层650和第五中间层660)denselayer(稠密层)(128)和denselayer(33),得到地址序列中每个字符属于各个地址类别标签的分数,即状态矩阵;通过第六中间层670,连接一个crf(条件随机场)层,以学习地址序列中字符之间隐含的约束条件,例如,句子的开头应该是“b-”或“o”,而不是“i-”;“b-label1i-label2i-label3…”,在该模式中,类别1,2,3应该是同一种标签类别。“b-cityi-city”是正确的,而“b-cityi-organization”则是错误的;“oi-label”是错误的,命名实体的开头应该是“b-”而不是“i-”,等等。通过crf层中定义的状态转移矩阵来表示地址序列中前后字符所属地址类别标签转移的可能性分数。地址标注模型的最终目的在于找到一条最优序列标注路径,即最优路径的分数应该是所有路径中分数最高的。

地址标注模型的第二损失函数可以定义为:

其中,sp为每一条可能序列标注路径的分数,srealpath为地址标注模型迭代优化所得的最优路径的分数;xij代表状态矩阵中状态分数,i是地址序列中第i个字符的位置索引,yi是地址序列中第i个字符对应的地址类别标签的索引。是转移矩阵中标签yi向标签yi+1转移的可能性分数。

如图7所示,具体的训练过程可以包括以下步骤:

步骤s710,获取第二样本数据以及第二样本数据对应的地址类别标签;

步骤s720,在预训练的中间模型的基础上构建地址标注模型,定义第二损失函数;

步骤s730,基于第二样本数据迁移训练中间模型,计算前向传播过程第二损失函数的损失值;

步骤s740,判断损失值是否低于第二预设阈值;

步骤s750,如果低于第二预设阈值,则结束模型训练,获得训练好的最优的地址标注模型;

如果高于第二预设阈值,执行步骤s760,进行反向传播过程,计算每一层的参数更新梯度,进行权值更新;

并继续执行步骤s730,进行多次迭代,直至模型收敛和模型损失值低于第二预设阈值,从而得到最终的地址标注模型及最优参数。

最后,可以通过测试集评估最终得到的地址标注模型的性能。本示例性实施例的测试结果表明,基于迁移学习的地址文本序列标注方法能够在各类标签上取得优异的表现。例如,地址标注模型在省、市、区/县、乡镇、道路、路号、楼号、单元8类标签上f1值达到90%以上,在学校、住宅2类标签的f1值分别为84.95%和83.60%,在其它5类标签上的f1值分别为:道路附属点:79.67,机构:77.62,村庄/社区:74.49,建筑物:74.28,方位74.47。模型详细的性能表现如表3所示:

表3地址标注模型在测试集上各地址类别标签的准确率、召回率和f1值

在一示例性实施例中,在上述步骤s310中,获取第二样本数据的地址类别标签之后,地址数据标注方法可以包括以下步骤:

获取每个地址类别下第二样本数据的数量,计算每个地址类别的样本比例;

如果存在至少一个地址类别的样本比例低于预设阈值,则对第二样本数据中至少一部分数据进行调整,使调整后的第二样本数据中每个地址类别的样本比例满足预设条件。

考虑到地址数据的特殊性,例如每条地址中一般都会包含省、市、区/县、乡镇、村庄/社区等行政层级标签,第二样本数据中这几类标签的数量极度不均衡,省、市、区/县标签的数量远多于其它地址类别标签,会导致模型更多地关注省、市、区/县标签标注的正确性,而这三类标签本身又是比较易于标注的。建筑物、机构、学校、住宅、乡村/村庄等由于实体名称的多样性,样本数量又较少,会导致地址标注模型在这些标签上得到不充分训练。因此,本示例性实施例在获取第二样本数据的地址类别标签后,可以获取每个地址类别下第二样本数据的数量,并计算每个地址类别的样本比例,如果存在至少一个地址类别的样本比例低于预设阈值,则对第二样本数据中至少一部分数据进行调整,即数据不均衡处理或数据增强处理。

需要说明的是,为了避免数据调整过渡导致数据失真,本示例性实施例可以设置一预设条件,在统计处理后训练集中各类标签的数量后,选择性的通过上述方式进行数据调整,使各类标签的数量大致相等,当满足预设条件时,可以结束数据调整过程。例如当进行数据调整的数据量超过原始训练集数量的2倍时,停止进行数据调整等。

具体的,在一示例性实施例中,对第二样本数据中至少一部分数据进行调整,可以包括以下方式:

(1)从样本比例高于预设阈值的地址类别的第二样本数据中删除一部分数据;和/或

(2)基于样本比例低于预设阈值的地址类别的第二样本数据,构造新的样本数据,添加至第二样本数据中。

举例说明,由于第二样本数据中省、市、区/县标签的数量远多于其它地址类别标签,因此,可以考虑采用方式(1)从第二样本数据中删除关于省、市、区/县地址类别标签下的第二样本数据。使得省、市、区/县、乡镇、村庄/社区等地址类别标签下的第二样本数据数量保持均衡。

另外,还可以采用方式(2)对第二样本数据进行数据调整处理,具体可以是,分别提取已标注数据中数据量较少标签(例如建筑物、机构、学校、住宅、乡村/村庄等)的实体名称,去重后,分别构建实体名称集合,从已标注标签的第二样本数据的数据集中随机提取一定比例标注数据,对已标注数据集中的每条地址针对性地进行数据调整处理并添加到训练集中,使合并后训练集中各标签样本数据量平衡。举例说明构建建筑物、机构、学校、住宅、乡村/村庄5类实体名称集合,对于每一条地址,随机地选择n(0<=n<=5)类标签进行数据调整处理。对于选中的标签,随机地采用“不做任何处理”、“删除该标签”、“从对应的实体名称集合中随机选择一个替换当前实体名称”3种方式中的一种进行数据调整,将调整的数据添加到训练集中。

图8示出了本示例性实施例中一种数据处理的流程图,具体可以包括以下步骤:

步骤s810,获取第二样本数据;

步骤s820,采用预设标注方法对第二样本数据中的每个字符进行标注,得到每个字符的地址类别标签;

步骤s830,根据针对地址类别标签的核验结果,更新第二样本数据中每个字符的地址类别标签;

步骤s840,获取每个地址类别下第二样本数据的数量,计算每个地址类别的样本比例;

步骤s850,判断第二样本数据中每个地址类别的样本比例是否均衡;

步骤s860,如果第二样本数据中每个地址类别的样本比例不均衡,则对第二样本数据中至少一部分数据进行调整,使调整后的第二样本数据中每个地址类别的样本比例满足预设条件;

步骤s870,如果第二样本数据中每个地址类别的样本比例均衡,则完成数据处理流程。

图9示出了本示例性实施例中另一种地址数据标注方法的流程图,具体可以包括以下步骤:

步骤s910,获取初始样本数据,并对初始样本数据进行标准化处理;

步骤s920,按照预设比例,将初始样本数据划分为第一样本数据与第二样本数据;

步骤s930,利用第一样本数据预训练机器学习模型,生成中间模型;

步骤s940,采用预设标注方法对第二样本数据中的每个字符进行标注,并进行核验,得到每个字符的地址类别标签;

步骤s950,对样本比例不均衡的样本数据进行数据调整,构建迁移学习所需的第二样本数据;

步骤s960,利用第二样本数据以及第二样本数据的地址类别标签,迁移训练中间模型,得到地址标注模型;

步骤s970,获取待标注地址,采用地址标注模型对待标注地址进行处理,得到待标注地址的标注结果。

本公开的示例性实施例还提供了一种地址数据标注装置。参照图10,该装置1000可以包括,模型获取模块1010,用于获取地址标注模型,地址标注模型基于无标签的第一样本数据,以及有标签的第二样本数据预先训练而得到;字符拆分模块1020,用于将待标注地址拆分为多个字符,以将待标注地址转换为由多个字符排列而成的待标注字符序列;序列处理模块1030,用于采用地址标注模型对待标注字符序列进行处理,得到标注数据序列;结果确定模块1040,用于根据标注数据序列确定待标注地址的标注结果。

在一示例性实施例中,地址标注模型可以通过以下方式训练得到:数据获取单元,用于获取第一样本数据、第二样本数据,以及第二样本数据的地址类别标签;中间模型生成单元,用于利用第一样本数据预训练机器学习模型,生成中间模型;初始模型构建单元,用于基于中间模型的至少一部分,构建初始的地址标注模型;模型训练单元,用于利用第二样本数据以及第二样本数据的地址类别标签,训练并得到地址标注模型。

在一示例性实施例中,数据获取单元可以包括:标准化处理子单元,用于获取初始样本数据,并对初始样本数据进行标准化处理;分层处理子单元,用于对标准化处理后的初始样本数据进行分层采样,并更新分层采样后初始样本数据的顺序;数据划分子单元,用于按照预设比例,将初始样本数据划分为第一样本数据与第二样本数据。

在一示例性实施例中,在将初始样本数据划分为第一样本数据与第二样本数据之后,可以通过以下方式获取第二样本数据的地址类别标签:字符标注子单元,用于采用预设标注方法对第二样本数据中的每个字符进行标注,得到每个字符的地址类别标签;标签更新子单元,用于根据针对地址类别标签的核验结果,更新第二样本数据中每个字符的地址类别标签。

在一示例性实施例中,中间模型生成单元可以包括:序列转换子单元,用于从第一样本数据中确定多组样本地址对,并将每组样本地址对转换为样本地址序列;序列输入子单元,用于将样本地址序列输入机器学习模型中,以得到预先设置的子任务的结果值;参数更新子单元,用于根据第一损失函数更新机器学习模型的参数,以得到中间模型,第一损失函数包括子任务的结果值与子任务的标签值之间的误差;其中,子任务包括以下任意一种或多种的组合:判断样本地址对中两个地址的省字符是否相同;判断样本地址对中两个地址的市字符是否相同;判断样本地址对中两个地址的区字符是否相同。

在一示例性实施例中,在将每组样本地址对转换为样本地址序列后,地址数据标注装置还可以包括:替换处理模块,用于对样本地址序列中的一个或多个字符进行随机化替换处理;子任务还包括:预测样本地址序列中经过随机化替换处理的字符所对应的原始字符。

在一示例性实施例中,模型训练单元可以包括:函数构建子单元,用于基于标注路径的归一化构建第二损失函数;模型训练子单元,用于将第二样本数据输入地址标注模型,根据输出的标注路径与第二样本数据的地址类别标签的误差、以及第二损失函数,更新地址标注模型的参数,以训练并得到地址标注模型。

在一示例性实施例中,在获取第二样本数据的地址类别标签之后,地址数据标注装置可以包括:样本比例计算模块,用于获取每个地址类别下第二样本数据的数量,计算每个地址类别的样本比例;数据调整模块,用于如果存在至少一个地址类别的样本比例低于预设阈值,则对第二样本数据中至少一部分数据进行调整,使调整后的第二样本数据中每个地址类别的样本比例满足预设条件。

在一示例性实施例中,数据调整模块可以包括:数据删除单元,用于从样本比例高于预设阈值的地址类别的第二样本数据中删除一部分数据;和/或样本构建单元,用于基于样本比例低于预设阈值的地址类别的第二样本数据,构造新的样本数据,添加至第二样本数据中。

在一示例性实施例中,字符拆分模块可以包括:地址获取单元,用于获取待标注地址,并对待标注地址进行文本清洗处理;字符拆分单元,用于对进行文本清洗处理后的待标注地址进行单个字符的拆分处理,并将拆分后的每个字符转换为数字索引;序列处理模块包括:索引处理单元,用于采用地址标注模型对数字索引进行处理,得到每个字符的标签索引组成的标注数据序列;结果确定模块包括:索引查找单元,用于根据标签索引,在预设的标签字典中进行查找,以确定待标注地址的标注结果。

上述装置中各模块/单元的具体细节在方法部分的实施例中已经详细说明,未披露的细节内容可以参见方法部分的实施例内容,因此此处不再赘述。

本公开的示例性实施例还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

下面参照图11来描述根据本公开的这种示例性实施例的电子设备1100。图11显示的电子设备1100仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示,电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于:上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130、显示单元1140。

其中,存储单元存储有程序代码,程序代码可以被处理单元1110执行,使得处理单元1110执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,处理单元1110可以执行图1所示的步骤s110~s140,也可以执行图2所示的步骤s210~s240等。

存储单元1120可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)1121和/或高速缓存存储单元1122,还可以进一步包括只读存储单元(rom)1123。

存储单元1120还可以包括具有一组(至少一个)程序模块1125的程序/实用工具1124,这样的程序模块1125包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1130可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1100也可以与一个或多个外部设备1300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1100交互的设备通信,和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口1150进行。并且,电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器1160通过总线1130与电子设备1100的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施例的方法。

本公开的示例性实施例还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图12所示,描述了根据本公开的示例性实施例的用于实现上述方法的程序产品1200,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施例,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1