近似商标的获取方法、装置、计算机设备和存储介质与流程

文档序号:16919523发布日期:2019-02-19 19:14阅读:173来源:国知局
近似商标的获取方法、装置、计算机设备和存储介质与流程

本申请涉及信息数据处理技术领域,特别是涉及一种近似商标的获取方法、装置、计算机设备和存储介质。



背景技术:

目前,业内对于文字商标近似判定主要依靠人工检索商标库中的近似商标并对商标间的相似性进行判断,如商标审查员、律师等检索人员根据从业经验从商标库中进行商标检索以及对检索结果中的商标进行相似性判定,近似商标的人工检索以及判定的处理速度有限,导致商标的检索、审查的工作效率低。



技术实现要素:

基于此,有必要针对近似商标的人工检索以及判定的处理速度有限,导致商标的检索、审查的工作效率低的技术问题,提供一种近似商标的获取方法、装置、计算机设备和存储介质。

一种近似商标的获取方法,所述方法包括:

获取待检测文字商标;

获取所述待检测文字商标与商标库中各个在先商标之间的最长公共子序列、最长公共字串以及编辑距离;

根据所述最长公共子序列、所述最长公共字串以及所述编辑距离,计算所述待检测文字商标与各所述在先商标之间的字符串相似度;

将与所述待检测文字商标的字符串相似度大于预设筛选阈值的在先商标确定为相近在先商标;

当所述待检测文字商标为中文文字商标时,获取所述待检测文字商标与所述相近在先商标间的差异中文字符,计算所述差异中文字符间的字音相似度以及字形相似度;

根据所述待检测文字商标与所述相近在先商标间的字符串相似度、所述差异中文字符的字音相似度以及字形相似度,计算所述待检测文字商标与相近在先商标之间的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

在其中一个实施例中,所述根据所述最长公共子序列、所述最长公共字串以及所述编辑距离,计算所述待检测文字商标与各所述在先商标之间的字符串相似度的步骤,包括:

根据计算所述待检测文字商标与所述在先商标之间的字符串相似度;

其中,s表示所述待检测文字商标与所述在先商标间的字符串相似度;a表示所述最长公共子序列的长度值;b表示所述最长公共字串的长度值;c表示所述编辑距离值;x表示所述待检测文字商标的长度值,y表示所述在先商标的长度值;max(·)表示取最大值。

在其中一个实施例中,所述获取所述待检测文字商标与所述相近在先商标间的差异中文字符的步骤之前,还包括:

分别获取所述待检测文字商标中各个中文字符对应的第一字符编码,以及所述相近在先商标中各个中文字符对应的第二字符编码;

分别对所述第一字符编码以及所述第二字符编码进行排序;

若排序后的第一字符编码以及排序后的第二字符编码一致,则将所述相近在先商标中确定为近似商标;

若排序后的第一字符编码以及排序后的第二字符编码不一致,则进入获取所述待检测文字商标与所述相近在先商标间的差异中文字符的步骤。

在其中一个实施例中,所述差异中文字符包括第一差异字符以及第二差异字符;其中,所述第一差异字符包括在所述待检测文字商标的中文字符中,与所述相近在先商标的中文字符不同的差异字符;所述第二差异字符包括在所述相近在先商标的中文字符中,与所述待检测文字商标的文字符不同的差异字符;

所述计算所述差异中文字符间的字音相似度的步骤,包括:

获取第一差异字符对应的第一拼音序列以及第二差异字符对应的第二拼音序列;

根据所述第一拼音序列与所述第二拼音序列间的编辑距离确定所述第一差异字符以及所述第二差异字符的字音相似度。

在其中一个实施例中,所述计算所述差异中文字符间的字形相似度的步骤,包括:

获取第一差异字符对应的第一四角编码以及第二差异字符对应的第二四角编码;

根据所述第一四角编码以及所述第二四角编码间的汉明距离确定所述第一差异字符以及所述第二差异字符的字形相似度。

在其中一个实施例中,所述将与所述待检测文字商标的字符串相似度大于预设筛选阈值的在先商标确定为相近在先商标的步骤之后,还包括:

当所述待检测文字商标为英文文字商标时,分别对所述待检测文字商标以及所述相近在先商标进行英文切词获得对应的英文字符串;

对各所述英文字符串进行拼写检查,若所述英文字符串为合法的英文单词,对所述英文字符串进行词性还原获得原始英文单词;

计算根据所述待检测文字商标获得的原始英文单词与根据所述相近在先商标获得的原始英文单词间的编辑距离值,根据所述编辑距离值获取所述待检测文字商标以及所述相近在先商标间的英文单词相似度;

根据所述字符串相似度以及所述英文单词相似度计算所述待检测文字商标与所述相近在先商标的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

一种近似商标的获取装置,所述装置包括:

文字商标获取模块,用于获取待检测文字商标;

字符串对比模块,用于获取所述待检测文字商标与商标库中各个在先商标之间的最长公共子序列、最长公共字串以及编辑距离;

字符串相似度获取模块,用于根据所述最长公共子序列、所述最长公共字串以及所述编辑距离,计算所述待检测文字商标与各所述在先商标之间的字符串相似度;

相近商标获取模块,用于将与所述待检测文字商标的字符串相似度大于预设筛选阈值的在先商标确定为相近在先商标;

字符相似度获取模块,用于当所述待检测文字商标为中文文字商标时,获取所述待检测文字商标与所述相近在先商标间的差异中文字符,计算所述差异中文字符间的字音相似度以及字形相似度;

近似商标获取模块,用于根据所述待检测文字商标与所述相近在先商标间的字符串相似度、所述差异中文字符的字音相似度以及字形相似度,计算所述待检测文字商标与相近在先商标之间的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

在其中一个实施例中,近似商标的获取装置还包括换序判定模块;

所述换序判定模块,用于分别获取所述待检测文字商标中各个中文字符对应的第一字符编码,以及所述相近在先商标中各个中文字符对应的第二字符编码;分别对所述第一字符编码以及所述第二字符编码进行排序;在排序后的第一字符编码以及排序后的第二字符编码一致时,将所述相近在先商标中确定为近似商标;在排序后的第一字符编码以及排序后的第二字符编码不一致时,使字符相似度获取模块获取所述待检测文字商标与所述相近在先商标间的差异中文字符。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取待检测文字商标;

获取所述待检测文字商标与商标库中各个在先商标之间的最长公共子序列、最长公共字串以及编辑距离;

根据所述最长公共子序列、所述最长公共字串以及所述编辑距离,计算所述待检测文字商标与各所述在先商标之间的字符串相似度;

将与所述待检测文字商标的字符串相似度大于预设筛选阈值的在先商标确定为相近在先商标;

当所述待检测文字商标为中文文字商标时,获取所述待检测文字商标与所述相近在先商标间的差异中文字符,计算所述差异中文字符间的字音相似度以及字形相似度;

根据所述待检测文字商标与所述相近在先商标间的字符串相似度、所述差异中文字符的字音相似度以及字形相似度,计算所述待检测文字商标与相近在先商标之间的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取待检测文字商标;

获取所述待检测文字商标与商标库中各个在先商标之间的最长公共子序列、最长公共字串以及编辑距离;

根据所述最长公共子序列、所述最长公共字串以及所述编辑距离,计算所述待检测文字商标与各所述在先商标之间的字符串相似度;

将与所述待检测文字商标的字符串相似度大于预设筛选阈值的在先商标确定为相近在先商标;

当所述待检测文字商标为中文文字商标时,获取所述待检测文字商标与所述相近在先商标间的差异中文字符,计算所述差异中文字符间的字音相似度以及字形相似度;

根据所述待检测文字商标与所述相近在先商标间的字符串相似度、所述差异中文字符的字音相似度以及字形相似度,计算所述待检测文字商标与相近在先商标之间的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

上述近似商标的获取方法、装置、计算机设备和存储介质,基于最长公共子序列、最长公共字串以及编辑距离对待检测文字商标与在先商标进行字符串整体性的相似度判定,从而筛选出相似度较高的相近在先商标,再对待检测文字商标与相近在先商标之间的差异字符进行字音以及字形的相似度判定,综合字符串整体判定结果和字符独立判定结果计算出综合相似度,将综合相似度较高的在先商标反馈给用户,实现快速获取待检测文字商标的近似商标,提高近似商标检索的效率,同时,对待检测文字商标与在先商标间的近似性判断是由字符串整体判定结果和字符独立判定结果综合后的结果决定的,有效提高近似商标检索的准确率。

附图说明

图1为一个实施例中近似商标的获取方法的应用场景图;

图2为一个实施例中近似商标的获取方法的流程示意图;

图3为另一个实施例中近似商标的获取方法的流程示意图;

图4为一个实施例中近似商标的获取装置的结构框图;

图5为另一个实施例中近似商标的获取装置的结构框图;

图6为又一个实施例中近似商标的获取装置的结构框图;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的近似商标的获取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。用户通过终端102将待检测文字商标发送至服务器104,服务器104接收到待检测文字商标后,根据待检测文字商标从商标库中的在先商标中筛选出字符串相似度较高的相近在先商标,并计算与相近在先商标的字符串相似度以及差异字符间的相似度,最后计算不同的相似度的综合值,将综合相似度较大的相近在先商标作为近似商标返回至终端102,使得用户能够获取与待检测文字商标相似的在先商标,节省人工检索近似商标的时间。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种近似商标的获取方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤s210:获取待检测文字商标。

步骤s220:获取待检测文字商标与商标库中各个在先商标之间的最长公共子序列、最长公共字串以及编辑距离。

具体的,子序列指由若干个字符组成的序列,从中任意删掉几个字符后剩下的字符构成的序列,最长公共子序列是指在两个或多个序列中都具有的最长的子序列;子串是指一个字符串中任意选取的连续的一段字符串,最长公共子串是指在两个或多个序列中都具有的最长的子串;编辑距离(editdistance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,其中编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

服务器在接收到终端发送的待检测文字商标后,遍历商标库中各个在先商标,获取待检测文字商标与各个在先商标之间的最长公共子序列、最长公共字串以及编辑距离。

步骤s230:根据最长公共子序列、最长公共字串以及编辑距离,计算待检测文字商标与各在先商标之间的字符串相似度。

本步骤中,最长公共子序列与最长公共字串的长度值越大,待检测文字商标与在先商标之间的相同的字符越多,它们的相似度越高;编辑距离越小,由待检测文字商标转变成在先商标的编辑次数越少,它们的相似度越高;因而,服务器根据最长公共子序列、最长公共字串以及编辑距离对待检测文字商标与各在先商标进行字符串整体性上的相似度判定。

步骤s240:将与待检测文字商标的字符串相似度大于预设筛选阈值的在先商标确定为相近在先商标。

本步骤中,预设筛选阈值可以根据具体情况而设置的;当某个在先商标与待检测文字商标的字符串相似度大于预设筛选阈值,即说明在先商标中的字符与待检测文字商标中的字符大部分是相同的,该在先商标与待检测文字商标具有一定的相关性,在一定概率上是待检测文字商标的近似商标。通过从商标库中筛选出与待检测文字商标的字符串相似度大于预设筛选阈值的相近在先商标,减少后续需要处理的商标数量,提高获取近似商标效率,节省处理时间。

步骤s250:当待检测文字商标为中文文字商标时,获取待检测文字商标与相近在先商标间的差异中文字符,计算差异中文字符间的字音相似度以及字形相似度。

本步骤中,差异中文字符是指待检测文字商标与相近在先商标间不同的字符。具体的,服务器若检测到待检测文字商标为中文文字商标,逐个对比待检测文字商标与相近在先商标中的中文字符,将待检测文字商标与相近在先商标间的差异中文字符提取出来,并通过对比差异中文字符间的读音以及字形获取差异中文字符间的字音相似度以及字形相似度,提高近似商标获取的准确性。

步骤s260:根据待检测文字商标与相近在先商标间的字符串相似度、差异中文字符的字音相似度以及字形相似度,计算待检测文字商标与相近在先商标之间的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

具体的,服务器可以根据字符串相似度、字音相似度以及字形相似度的重要程度,分别对字符串相似度、字音相似度以及字形相似度设置不同的权重因子,在获得字符串相似度、字音相似度以及字形相似度后,将字符串相似度、字音相似度以及字形相似度后乘以各自对应的权重因子后相加,获得待检测文字商标与相近在先商标间综合相似度。

上述近似商标的获取方法中,基于最长公共子序列、最长公共字串以及编辑距离对待检测文字商标与在先商标进行字符串整体性的相似度判定,从而筛选出相似度较高的相近在先商标,再对待检测文字商标与相近在先商标之间的差异字符进行字音以及字形的相似度判定,综合字符串整体判定结果和字符独立判定结果计算出综合相似度,将综合相似度较高的在先商标反馈给用户,实现快速获取待检测文字商标的近似商标,提高近似商标检索的效率,同时,对待检测文字商标与在先商标间的近似性判断是由字符串整体判定结果和字符独立判定结果综合后的结果决定的,有效提高近似商标检索的准确率。

在一个实施例中,根据最长公共子序列、最长公共字串以及编辑距离,计算待检测文字商标与各在先商标之间的字符串相似度的步骤,包括:根据下述公式(1)计算待检测文字商标与在先商标之间的字符串相似度;

其中,s表示待检测文字商标与在先商标间的字符串相似度;a表示最长公共子序列的长度值;b表示最长公共字串的长度值;c表示编辑距离值;x表示待检测文字商标的长度值,y表示在先商标的长度值;max(·)表示取最大值。

本实施例中,服务器综合最长公共子序列的长度值、最长公共字串的长度值以及编辑距离,对待检测文字商标与各在先商标进行字符串整体性上的相似度判定,提高商标间字符串整体性相似度判定的准确性。

在近似商标的判定中,若中文商标的汉字构成相同,仅字符的排列顺序不同,则判定为近似商标,因此,在一个实施例中,获取待检测文字商标与相近在先商标间的差异中文字符的步骤之前,还包括:分别获取待检测文字商标中各个中文字符对应的第一字符编码,以及相近在先商标中各个中文字符对应的第二字符编码;分别对第一字符编码以及第二字符编码进行排序;若排序后的第一字符编码以及排序后的第二字符编码一致,则将相近在先商标中确定为近似商标;若排序后的第一字符编码以及排序后的第二字符编码不一致,则进入获取待检测文字商标与相近在先商标间的差异中文字符的步骤。

本实施例中,服务器获取待检测文字商标和相近在先商标中的每个字符对应的字符编码,然后分别对待检测文字商标的第一字符编码以及相近在先商标的第二字符编码进行排序,例如可以将字符编码从大到小顺序排列,并对排序结果进行检测。如果待检测文字商标和相近在先商标中的字符完全一样,只是字符的顺序不同,则根据待检测文字商标中的字符获得的第一字符编码与根据相近在先商标中的字符获得的第二字符编码是一致的,第一字符编码与第二字符编码的排序结果也是一致的;如果待检测文字商标和相近在先商标中的字符不一样,则第一字符编码与第二字符编码是不一致的,第一字符编码与第二字符编码的排序结果也是不一致的;因此,若第一字符编码的排序结果与第二字符编码的排序结果一致,则待检测文字商标和相近在先商标中的字符完全一样,只是字符的顺序不同,服务器将相近在先商标中确定为近似商标,否则,服务器进行后续的字符独立判定,计算待检测文字商标和相近在先商标之间差异中文字符的字音相似度以及字符相似度。

具体的,服务器可以利用python内置的算法timsort排序算法实现对待检测文字商标以及相近在先商标中的字符进行排序,timsort排序算法的内置函数可以将任意字符转码为一个编码,并对获得的编码进行排序。

在一个实施例中,差异中文字符包括第一差异字符以及第二差异字符;其中,第一差异字符包括在待检测文字商标的中文字符中,与相近在先商标的中文字符不同的差异字符;第二差异字符包括在相近在先商标的中文字符中,与待检测文字商标的文字符不同的差异字符;计算差异中文字符间的字音相似度的步骤,包括:获取第一差异字符对应的第一拼音序列以及第二差异字符对应的第二拼音序列;根据第一拼音序列与第二拼音序列间的编辑距离确定第一差异字符以及第二差异字符的字音相似度。

本实施例中,服务器通过将第一差异字符以及第二差异字符分别转换为相应的拼音字母,利用第一差异字符的拼音序列与第二差异字符的拼音序列之间的编辑距离确定为差异中文字符间字音相似度。

具体的,可以根据下述公式(2)计算第一差异字符以及第二差异字符的字音相似度;

其中,α表示第一差异字符以及第二差异字符的字音相似度;d表示第一拼音序列与第二拼音序列间的编辑距离;x表示所述待检测文字商标的长度值,y表示所述在先商标的长度值,max(·)表示取最大值。

例如,待检测文字商标为“阿里巴巴”,相近在先商标为“阿里爸爸”,两个商标间的差异中文字符为“爸爸”和“巴巴”,第一差异字符“巴巴”的拼音序列以及第二差异字符“爸爸”的拼音序列都是“baba”,其编辑距离为0,则根据编辑距离计算的字音相似度为1,又例如,待检测文字商标为“浪子”,相近在先商标为“娘子”,两个商标间的差异中文字符为“浪”和“娘”,第一差异字符“浪”的拼音序列为“lang”,第二差异字符“娘”的拼音序列为“niang”,其编辑距离为2,则根据编辑距离计算的字音相似度α=1-2/5=0.6。

进一步的,在字音相似度计算中可以根据汉语混淆音修正相似度。例如,差异中文字符为“浪”和“娘”的例子中,“n”与“l”为汉语拼音的声母混淆发音,字音相似度由0.6被修正到0.8;其中,汉语拼音的声母混淆发音还包括“h”和“f”、“zh”和“z”、“ch”和“c”、“sh”和“s”等。

在一个实施例中,计算差异中文字符间的字形相似度的步骤,包括:获取第一差异字符对应的第一四角编码以及第二差异字符对应的第二四角编码;根据第一四角编码以及第二四角编码间的汉明距离确定第一差异字符以及第二差异字符的字形相似度。

本实施例中,汉明距离(hammingdistance)表示两个等长字符串在对应位置上不同字符的数目;服务器通过将第一差异字符以及第二差异字符分别转换为相应的四角编码,利用第一差异字符的四角编码与第二差异字符的四角编码之间的汉明距离确定为差异中文字符间字形相似度。

具体的,可以根据下述公式(3)计算第一差异字符以及第二差异字符的字音形似度;

其中,β表示第一差异字符以及第二差异字符的字音相似度;e表示第一四角编码与第二四角编码间的汉明距离;x表示所述待检测文字商标的长度值,y表示所述在先商标的长度值,max(·)表示取最大值。

以待检测文字商标为“浪子”、相近在先商标为“娘子”为例进行说明,两个商标间的差异中文字符为“浪”和“娘”,第一差异字符“浪”的四角编码为3313,第二差异字符“娘”的四角编码为4343,其编辑距离为2,则根据编辑距离计算的字音相似度β为β=1-2/4=0.5。

在一个实施例中,对于长度较长的待检测文字商标,服务器可以先对该待检测文字商标进行结巴中文分词,获得不同的字符串;服务器将在中文词典中出现频率较高的字符串作为非显著性字符串,将剩余的字符串作为显著性字符串;此时,服务器针对待检测文字商标的显著性字符串部分与在先商标进行字符串相似度计算,筛选相近在先商标,再对待检测文字商标的显著性字符串部分与相近在先商标之间的差异中文字符进行字音相似度以及字形相似度计算。

例如,服务器对待检测文字商标“阿里巴巴酒店”进行结巴中文分词后,获得“阿里巴巴/酒店”,其中,“酒店”词频高作为非显著性字符串,而臆造词“阿里巴巴”作为显著性字符串;服务器再根据显著性字符串部分“阿里巴巴”与在先商标进行字符串相似度计算,筛选相近在先商标,再对显著性字符串部分“阿里巴巴”与相近在先商标之间的差异中文字符进行字音相似度以及字形相似度计算。本实施例中,针对字符长度较长的文字商标,针对字符串结构中显著性字符串以及非显著性字符串考虑不同的权重值,提高获取近似商标的准确率。

在一个实施例中,将与待检测文字商标的字符串相似度大于预设筛选阈值的在先商标确定为相近在先商标的步骤之后,还包括:当待检测文字商标为英文文字商标时,分别对待检测文字商标以及相近在先商标进行英文切词获得对应的英文字符串;对各英文字符串进行拼写检查,若英文字符串为合法的英文单词,对英文字符串进行词性还原获得原始英文单词;计算根据待检测文字商标获得的原始英文单词与根据相近在先商标获得的原始英文单词间的编辑距离值,根据编辑距离值获取待检测文字商标以及相近在先商标间的英文单词相似度;根据字符串相似度以及英文单词相似度计算待检测文字商标与相近在先商标的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

本实施例中,除了可以获取中文文字商标的近似商标,还可以获取英文文字商标的近似商标;对于英文文字商标,不同商标间除了比较英文字符串的相似度,还针对是否为有含义的英文单词、英文词性词形变化等情况加入相似度判定权重,计算综合相似度,提高获取相似商标的准确性。具体的,若服务器检测到用户输入的待检测文字商标为英文文字商标,则服务器对待检测文字商标以及相近在先商标中进行英文切词(wordsegment),得到英文字符串,并对英文切词后的英文字符串做拼写检查;若拼写检查检测结果显示英文字符串是合法的英文单词,对英文字符串进行词性还原,获得原始英文单词;根据待检测文字商标最终获得的原始英文单词与相近在先商标最终获得的原始英文单词的编辑距离,计算两个原始英文单词的相似度;最终根据字符串相似度以及英文单词相似度计算英文文字商标与相近在先商标的综合相似度。

例如,对于待检测文字商标“playedboys”,相近在先商标“playboy”,服务器分别对检测文字商标与相近在先商标进行英文切词,待检测文字商标得到“playedboys”,相近在先商标得到“playboy”,利用enchant包调用内置英文词典对英文切词后的英文字符串做拼写检查,其中“played”、“boys”、“play”、“boy”都是合法的英文单词;对英文字符串进行词性还原,最终获得原始英文单词,根据待检测文字商标获得的原始英文单词为“playboy”,根据相近在先商标获得的原始英文单词为“playboy”,两者的编辑距离为0,所以得到的英文单词相似度为1。

在一个实施例中,如图3所示,提供了一种近似商标的获取方法,包括以下步骤:

步骤s301:获取待检测文字商标。

步骤s302:获取待检测文字商标与商标库中各个在先商标之间的最长公共子序列、最长公共字串以及编辑距离。

步骤s303:根据最长公共子序列、最长公共字串以及编辑距离,计算待检测文字商标与各在先商标之间的字符串相似度。

步骤s304:将与待检测文字商标的字符串相似度大于预设筛选阈值的在先商标确定为相近在先商标。

步骤s305:判断待检测文字商标为中文文字商标还是英文文字商标;当待检测文字商标为中文文字商标时,跳转至步骤306;当待检测文字商标为英文文字商标时,跳转至步骤s308。

步骤s306:当待检测文字商标为中文文字商标时,获取待检测文字商标与相近在先商标间的差异中文字符,计算差异中文字符间的字音相似度以及字形相似度。

步骤s307:根据待检测文字商标与相近在先商标间的字符串相似度、差异中文字符的字音相似度以及字形相似度,计算待检测文字商标与相近在先商标之间的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

步骤s308:当待检测文字商标为英文文字商标时,分别对待检测文字商标以及相近在先商标进行英文切词获得对应的英文字符串。

步骤s309:对各英文字符串进行拼写检查,若英文字符串为合法的英文单词,对英文字符串进行词性还原获得原始英文单词。

步骤s310:计算根据待检测文字商标获得的原始英文单词与根据相近在先商标获得的原始英文单词间的编辑距离值,根据编辑距离值获取待检测文字商标以及相近在先商标间的英文单词相似度。

步骤s311:根据字符串相似度以及英文单词相似度计算待检测文字商标与相近在先商标的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

上述实施例中,基于最长公共子序列、最长公共字串以及编辑距离对待检测文字商标与在先商标进行字符串整体性的相似度判定,从而筛选出相似度较高的相近在先商标,再判断对待检测文字商标是中文文字商标还是英文文字商标,基于中外文自然语言处理技术,针对不同文字的文字商标对待检测文字商标以及相近在先商标进行的音、形、义、换序等多种相似度判定,最终综合各个不同的相似度,利用综合相似度确定近似商标,提高近似商标检索的准确率。对于需要商标维权的企业,实现高效地主动挖掘到其他企业与维权企业近似的商标,快速、有效地对商标侵权进行法律诉讼行动,商标品牌权益受损。

应该理解的是,虽然图2以及图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2以及图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图4所示,提供了一种近似商标的获取装置,包括:文字商标获取模块410、字符串对比模块420、字符串相似度获取模块430、相近商标获取模块440、字符相似度获取模块450和近似商标获取模块460,其中:

文字商标获取模块410,用于获取待检测文字商标;

字符串对比模块420,用于获取待检测文字商标与商标库中各个在先商标之间的最长公共子序列、最长公共字串以及编辑距离;

字符串相似度获取模块430,用于根据最长公共子序列、最长公共字串以及编辑距离,计算待检测文字商标与各在先商标之间的字符串相似度;

相近商标获取模块440,用于将与待检测文字商标的字符串相似度大于预设筛选阈值的在先商标确定为相近在先商标;

字符相似度获取模块450,用于当待检测文字商标为中文文字商标时,获取待检测文字商标与相近在先商标间的差异中文字符,计算差异中文字符间的字音相似度以及字形相似度;

近似商标获取模块460,用于根据待检测文字商标与相近在先商标间的字符串相似度、差异中文字符的字音相似度以及字形相似度,计算待检测文字商标与相近在先商标之间的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

在一个实施例中,如图5所示,提供了一种近似商标的获取装置,该近似商标的获取装置还包括换序判定模块470;换序判定模块470,用于分别获取待检测文字商标中各个中文字符对应的第一字符编码,以及相近在先商标中各个中文字符对应的第二字符编码;分别对第一字符编码以及第二字符编码进行排序;在排序后的第一字符编码以及排序后的第二字符编码一致时,将相近在先商标中确定为近似商标;在排序后的第一字符编码以及排序后的第二字符编码不一致时,使字符相似度获取模块450获取待检测文字商标与相近在先商标间的差异中文字符。

在一个实施例中,字符串相似度获取模块430用于根据下述公式(4)计算待检测文字商标与在先商标之间的字符串相似度;

其中,s表示待检测文字商标与在先商标间的字符串相似度;a表示最长公共子序列的长度值;b表示最长公共字串的长度值;c表示编辑距离值;x表示待检测文字商标的长度值,y表示在先商标的长度值;max(·)表示取最大值。

在一个实施例中,差异中文字符包括第一差异字符以及第二差异字符;其中,第一差异字符包括在待检测文字商标的中文字符中,与相近在先商标的中文字符不同的差异字符;第二差异字符包括在相近在先商标的中文字符中,与待检测文字商标的文字符不同的差异字符;字符相似度获取模块450用于获取第一差异字符对应的第一拼音序列以及第二差异字符对应的第二拼音序列;根据第一拼音序列与第二拼音序列间的编辑距离确定第一差异字符以及第二差异字符的字音相似度。

在一个实施例中,字符相似度获取模块450用于获取第一差异字符对应的第一四角编码以及第二差异字符对应的第二四角编码;根据第一四角编码以及第二四角编码间的汉明距离确定第一差异字符以及第二差异字符的字形相似度。

在一个实施例中,如图6所示,提供了一种近似商标的获取装置,该近似商标的获取装置还包括英文文字商标获取模块480:用于在待检测文字商标为英文文字商标时,则分别对待检测文字商标以及相近在先商标进行英文切词获得对应的英文字符串;对各英文字符串进行拼写检查,若英文字符串为合法的英文单词,对英文字符串进行词性还原获得原始英文单词;计算根据待检测文字商标获得的原始英文单词与根据相近在先商标获得的原始英文单词间的编辑距离值,根据编辑距离值获取待检测文字商标以及相近在先商标间的英文单词相似度;根据字符串相似度以及英文单词相似度计算待检测文字商标与相近在先商标的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

关于近似商标的获取装置的具体限定可以参见上文中对于近似商标的获取方法的限定,在此不再赘述。上述近似商标的获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储在先商标数据、相似度数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种近似商标的获取方法。

本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取待检测文字商标;

获取待检测文字商标与商标库中各个在先商标之间的最长公共子序列、最长公共字串以及编辑距离;

根据最长公共子序列、最长公共字串以及编辑距离,计算待检测文字商标与各在先商标之间的字符串相似度;

将与待检测文字商标的字符串相似度大于预设筛选阈值的在先商标确定为相近在先商标;

当待检测文字商标为中文文字商标时,获取待检测文字商标与相近在先商标间的差异中文字符,计算差异中文字符间的字音相似度以及字形相似度;

根据待检测文字商标与相近在先商标间的字符串相似度、差异中文字符的字音相似度以及字形相似度,计算待检测文字商标与相近在先商标之间的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

在一个实施例中,处理器执行计算机程序实现根据最长公共子序列、最长公共字串以及编辑距离,计算待检测文字商标与各在先商标之间的字符串相似度的步骤时,具体实现以下步骤:根据下述公式(5)计算待检测文字商标与在先商标之间的字符串相似度;

其中,s表示待检测文字商标与在先商标间的字符串相似度;a表示最长公共子序列的长度值;b表示最长公共字串的长度值;c表示编辑距离值;x表示待检测文字商标的长度值,y表示在先商标的长度值;max(·)表示取最大值。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别获取待检测文字商标中各个中文字符对应的第一字符编码,以及相近在先商标中各个中文字符对应的第二字符编码;分别对第一字符编码以及第二字符编码进行排序;若排序后的第一字符编码以及排序后的第二字符编码一致,则将相近在先商标中确定为近似商标;若排序后的第一字符编码以及排序后的第二字符编码不一致,则进入获取待检测文字商标与相近在先商标间的差异中文字符的步骤。

在一个实施例中,差异中文字符包括第一差异字符以及第二差异字符;其中,第一差异字符包括在待检测文字商标的中文字符中,与相近在先商标的中文字符不同的差异字符;第二差异字符包括在相近在先商标的中文字符中,与待检测文字商标的文字符不同的差异字符;处理器执行计算机程序实现计算差异中文字符间的字音相似度的步骤时,具体实现以下步骤:获取第一差异字符对应的第一拼音序列以及第二差异字符对应的第二拼音序列;根据第一拼音序列与第二拼音序列间的编辑距离确定第一差异字符以及第二差异字符的字音相似度。

在一个实施例中,处理器执行计算机程序实现计算差异中文字符间的字形相似度的步骤时,具体实现以下步骤:获取第一差异字符对应的第一四角编码以及第二差异字符对应的第二四角编码;根据第一四角编码以及第二四角编码间的汉明距离确定第一差异字符以及第二差异字符的字形相似度。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:在待检测文字商标为英文文字商标时,分别对待检测文字商标以及相近在先商标进行英文切词获得对应的英文字符串;对各英文字符串进行拼写检查,若英文字符串为合法的英文单词,对英文字符串进行词性还原获得原始英文单词;计算根据待检测文字商标获得的原始英文单词与根据相近在先商标获得的原始英文单词间的编辑距离值,根据编辑距离值获取待检测文字商标以及相近在先商标间的英文单词相似度;根据字符串相似度以及英文单词相似度计算待检测文字商标与相近在先商标的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取待检测文字商标;

获取待检测文字商标与商标库中各个在先商标之间的最长公共子序列、最长公共字串以及编辑距离;

根据最长公共子序列、最长公共字串以及编辑距离,计算待检测文字商标与各在先商标之间的字符串相似度;

将与待检测文字商标的字符串相似度大于预设筛选阈值的在先商标确定为相近在先商标;

当待检测文字商标为中文文字商标时,获取待检测文字商标与相近在先商标间的差异中文字符,计算差异中文字符间的字音相似度以及字形相似度;

根据待检测文字商标与相近在先商标间的字符串相似度、差异中文字符的字音相似度以及字形相似度,计算待检测文字商标与相近在先商标之间的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

在一个实施例中,计算机程序被处理器执行时实现根据最长公共子序列、最长公共字串以及编辑距离,计算待检测文字商标与各在先商标之间的字符串相似度的步骤,具体实现以下步骤:根据下述公式(6)计算待检测文字商标与在先商标之间的字符串相似度;

其中,s表示待检测文字商标与在先商标间的字符串相似度;a表示最长公共子序列的长度值;b表示最长公共字串的长度值;c表示编辑距离值;x表示待检测文字商标的长度值,y表示在先商标的长度值;max(·)表示取最大值。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别获取待检测文字商标中各个中文字符对应的第一字符编码,以及相近在先商标中各个中文字符对应的第二字符编码;分别对第一字符编码以及第二字符编码进行排序;若排序后的第一字符编码以及排序后的第二字符编码一致,则将相近在先商标中确定为近似商标;若排序后的第一字符编码以及排序后的第二字符编码不一致,则进入获取待检测文字商标与相近在先商标间的差异中文字符的步骤。

在一个实施例中,差异中文字符包括第一差异字符以及第二差异字符;其中,第一差异字符包括在待检测文字商标的中文字符中,与相近在先商标的中文字符不同的差异字符;第二差异字符包括在相近在先商标的中文字符中,与待检测文字商标的文字符不同的差异字符;计算机程序被处理器执行时实现计算差异中文字符间的字音相似度的步骤时,具体实现以下步骤:获取第一差异字符对应的第一拼音序列以及第二差异字符对应的第二拼音序列;根据第一拼音序列与第二拼音序列间的编辑距离确定第一差异字符以及第二差异字符的字音相似度。

在一个实施例中,计算机程序被处理器执行时实现计算差异中文字符间的字形相似度的步骤时,具体实现以下步骤:获取第一差异字符对应的第一四角编码以及第二差异字符对应的第二四角编码;根据第一四角编码以及第二四角编码间的汉明距离确定第一差异字符以及第二差异字符的字形相似度。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若待检测文字商标为英文文字商标,则分别对待检测文字商标以及相近在先商标进行英文切词获得对应的英文字符串;对各英文字符串进行拼写检查,若英文字符串为合法的英文单词,对英文字符串进行词性还原获得原始英文单词;计算根据待检测文字商标获得的原始英文单词与根据相近在先商标获得的原始英文单词间的编辑距离值,根据编辑距离值获取待检测文字商标以及相近在先商标间的英文单词相似度;根据字符串相似度以及英文单词相似度计算待检测文字商标与相近在先商标的综合相似度,将综合相似度大于相似度阈值的相近在先商标确定为近似商标。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1