一种基于商标近似分析的数据预处理方法、系统及终端与流程

文档序号：20683784发布日期：2020-05-08 18:38阅读：137来源：国知局

本发明涉及数据分析技术领域，具体涉及一种基于商标近似分析的数据预处理方法、系统及终端。

背景技术：

近年来，随着世界经济与社会的迅速发展，商标所蕴含的价值大幅增加，商标注册的数量持续的增长。商标所有人在商标的注册或维权上通常会自己或委托代理机构对在固定周期内对商标局公布的已注册商标进行查询检索，以便及时发现近似的商标，这样的情况下，人工检索的检索层面比较窄，以至于检索结果不够全面，本领域技术人员在不断的创新出商标的近似的分析的方法。

此时，如何能够使检索的结构更精准，成为我们待解决的问题。为了解决上述问题。本发明提出一种基于商标近似分析的数据预处理方法、系统及终端。

技术实现要素：

本发明解决的技术问题是，提供了一种基于商标近似分析的数据预处理方法、系统及终端。所述的一种基于商标近似分析的数据预处理方法、系统及终端可简化用户对组合商标分析步骤，提升分析效率。

为了解决上述技术问题，本发明提供的技术方案为：

一种基于商标近似分析的数据预处理方法，包括：

获取输入的关键字；

对关键字进行文字类型识别；

判断关键字是否为多类型文字组合，若是，进行是否包含数字判断，若否，按中文、英文、数字分别进行脱敏识别；

判断脱敏识别的结果是否完全命中敏感词，若是，弹出不具备显著性提示，若否，对分析对象进行拆字处理，生成集合；

判断集合中是否至少有一个包含于a类敏感词，若是，弹出影响显著性提示；

若否，判断集合中是否至少有一个包含于b类敏感词，若是，弹出不具备显著性提示，若否，进入注册分析逻辑。

优选地，所述的是否包含数字判断具体为，

判断是否包含数字；

若是，进行阿拉伯数字抽取、英文数字抽取、中文类型数字抽取，

判断抽取后是否剩余文字；

若否，进行数字格式统一初始化；

按照中文、英文、数字分别进入脱敏识别。通过对关键字进行分析，将关键字分别抽取阿拉伯数字、英文、中文，分别进行识别，这样的方法能大大的增加商标分析的准确性。

优选地，所述的判断抽取后是否有剩余文字；

若是，进行中文文字抽取、英文文字抽取。

进行数字格式统一初始化；

按照按中文、英文、数字分别进行脱敏识别

优选地，所述的判断是否包含数字，若否，

中文文字抽取、英文文字抽取；

进行数字格式统一初始化；

按中文、英文、数字分别进行脱敏识别。

进一步优选地，所述的判断脱敏识别的结果是否完全命中敏感词具体为：

建立敏感词文集；

获取抽取的中文、英文、数字；

将获取的中文、英文、数字与敏感词文集进行匹配，获取匹配词；

将匹配词与抽取的中文、英文、数字进行相似度分析。

进一步优选地，所述的相似度的判断依照如下公式进行判断：

相似度y(,…)=α∗；

其中，α>0，α为可调参数，为获取的中文、英文、数字词，为敏感词文集匹配的相似词，为分别所处的层次。在判断相似度的过程中，采用相似度y算法，y算法将每个词的层次关系进行位置上的定义，判断相同字的不同位置，在相同字位置上极度相似，则判定相似。这种判定相似度的方法，能够在数据库中匹配相似的商标，增加了匹配的准确性。

优选地，所述的对分析对象进行拆字处理，生成集合具体为：对分析对象进行拆字，拆字后逐一升序组合，生成组合字的集合。

优选地，所述的a类敏感词为对注册产生影响的一类词。

优选地，所述的b类敏感词为不能注册的词。

一种基于商标近似分析的数据预处理系统，包括：

关键词获取模块：所述的关键词获取模块用于获取输入的关键字；

文字类型识别模块：所述的文字类型识别模块用于对关键字进行文字类型识别；

文字类型判断模块：所述的文字类型判断模块用于判断关键字是否为多类型文字组合，若是，进行是否包含数字判断，若否，按中文、英文、数字分别进行脱敏识别；

脱敏识别模块：所述的脱敏识别模块用于判断脱敏识别的结果是否完全命中敏感词，若是，弹出不具备显著性提示，若否，对分析对象进行拆字处理，生成集合；

脱敏判断模块：所述的脱敏判断模块用于判断集合中是否至少有一个包含于a类敏感词，若是，弹出影响显著性提示；若否，判断集合中是否至少有一个包含于b类敏感词，若是，弹出不具备显著性提示，若否，进入注册分析逻辑。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，该程序指令适于由处理器加载并执行权一种基于商标近似分析的数据预处理方法。

一种移动终端，包括处理器以及存储器，所述的处理器用于执行存储器中存储的程序，以实现一种基于商标近似分析的数据预处理方法。

与现有技术相比，本发明具有的有益效果为：对待分析的商标进行数据预处理，可简化用户对组合商标分析步骤，提升分析效率，对分析对象进行脱敏识别后，更加准确的反馈用户，降低因存在敏感词而导致提交注册后被驳回的问题，对后续近似分析，提升精准度。具体的，本发明不局限于对英文商标、中文商标、阿拉伯数字商标进行分析，可以三种的组合商标进行抽取后逐个分析，这种方法大大增加了智能性以及判断的准确性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明所述的一种基于商标近似分析的数据预处理方法的流程示意图；

图2是本发明所述的一种基于商标近似分析的数据预处理系统结构图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本流程图，因此其仅显示与本发明有关的流程。

实施例1

如图1所示，本发明是一种基于商标近似分析的数据预处理方法，所述的方法具体为：

获取输入的关键字；

对关键字进行文字类型识别；

判断关键字是否为多类型文字组合，若是，进行是否包含数字判断，若否，按中文、英文、数字分别进行脱敏识别；

判断脱敏识别的结果是否完全命中敏感词，若是，弹出不具备显著性提示，若否，对分析对象进行拆字处理，生成集合；

判断集合中是否至少有一个包含于a类敏感词，若是，弹出影响显著性提示；

若否，判断集合中是否至少有一个包含于b类敏感词，若是，弹出不具备显著性提示，若否，进入注册分析逻辑。

其中，所述的对分析对象进行拆字处理，生成集合具体为：对分析对象进行拆字，拆字后逐一升序组合，生成组合字的集合。

其中，所述的a类敏感词为对注册产生影响的一类词。所述的b类敏感词为不能注册的词。

举例说明：例如a类敏感词例如“小猫”、“小狗”这样的词，在不同类注册有很大的可能产生影响，因为这类的词有较大的关联性，可能会很难注册下来。对于b类敏感词，例如驰名商标即为不能注册的词，驰名商标，驰名商标是被认定的商标，这种认定商标有跨类保护的优惠，所以这种在申请人再次要注册时，系统会提醒不具有显著性。

实施例2

判断关键字是否为多类型文字组合的方法如下所述：

步骤1.所述的是否包含数字判断具体为：

判断是否包含数字；

若是，进行阿拉伯数字抽取、英文数字抽取、中文类型数字抽取，

判断抽取后是否剩余文字；

若否，进行数字格式统一初始化；

按照中文、英文、数字分别进入脱敏识别。

步骤2.所述的判断抽取后是否有剩余文字；

其中，所述的进行中文文字抽取、英文文字抽取。

进行数字格式统一初始化；

按照按中文、英文、数字分别进行脱敏识别。

所述的判断脱敏识别的结果是否完全命中敏感词具体为：

建立敏感词文集；

获取抽取的中文、英文、数字；

将获取的中文、英文、数字与敏感词文集进行匹配，获取匹配词；

将匹配词与抽取的中文、英文、数字进行相似度分析。

进一步优选地，所述的相似度的判断依照如下公式进行判断：

相似度y(,…)=α∗；

其中，α>0，α为可调参数，为获取的中文、英文、数字词，为敏感词文集匹配的相似词，为分别所处的层次。

例如，在商标注册中，有一些规定，一些词语是不可以被注册成商标，例如：同政府间国际组织的名称、旗帜、徽记相同或者近似的，但经该组织同意或者不易误导公众的除外，有害于社会主义道德风尚或者有其他不良影响的，县级以上行政区划的地名或者公众知晓的外国地名，不得作为商标。

在商标申请中，有申请者使用“爱屋及屋”作为商标的申请，其实词申请是将“爱屋及乌”进行演化过来的，容易被大众造成误导，让大众以为成语的爱屋及乌就是爱屋及屋这种写法，此时，用户将词词进行写入，系统获取该词，进行在数据库中相似度的匹配过程，首在判断相同字的位置时，通过，为两个词定义一个位置，选取位置中最大距离，当距离越大时，说明相似性越低，距离越小时，说明相似性越高，此时，爱屋及乌与爱屋及屋存在很大的相似性，则不能被使用。其中定义的为分别所处的层次即为字在词语中的位置。

例如：获取的关键字为：若获取一关键词：色彩color123，首先对该词进行文字类型的识别，在识别的过程中，关键词存在中文、英文与数字，所以，将关键字进行拆分，分别拆分出中文、英文以及数字，并按中文、英文、数字分别进行脱敏识别；

判断脱敏识别的结果是否完全命中敏感词，若是，弹出不具备显著性提示，若否，对分析对象进行拆字处理，生成集合；

判断集合中是否至少有一个包含于a类敏感词，若是，弹出影响显著性提示；

若否，判断集合中是否至少有一个包含于b类敏感词，若是，弹出不具备显著性提示，若否，进入注册分析逻辑。

实施例3

如图2所示，本发明提供了一种基于商标近似分析的数据预处理系统：

关键词获取模块1：所述的关键词获取模块用于获取输入的关键字；

文字类型识别模块2：所述的文字类型识别模块用于对关键字进行文字类型识别；

文字类型判断模块3：所述的文字类型判断模块用于判断关键字是否为多类型文字组合，若是，进行是否包含数字判断，若否，按中文、英文、数字分别进行脱敏识别；

脱敏识别模块4：所述的脱敏识别模块用于判断脱敏识别的结果是否完全命中敏感词，若是，弹出不具备显著性提示，若否，对分析对象进行拆字处理，生成集合；

脱敏判断模块5：所述的脱敏判断模块用于判断集合中是否至少有一个包含于a类敏感词，若是，弹出影响显著性提示；若否，判断集合中是否至少有一个包含于b类敏感词，若是，弹出不具备显著性提示，若否，进入注册分析逻辑。

文字类型判断模块3中，判断关键字是否为多类型文字具体的过程为：

判断是否包含数字；若是，进行阿拉伯数字抽取、英文数字抽取、中文类型数字抽取，判断抽取后是否剩余文字；若否，进行数字格式统一初始化；按照中文、英文、数字分别进入脱敏识别。

其中，所述的判断抽取后是否有剩余文字；所述的进行中文文字抽取、英文文字抽取。进行数字格式统一初始化；按照按中文、英文、数字分别进行脱敏识别。

所述的判断脱敏识别的结果是否完全命中敏感词具体为：

建立敏感词文集；

获取抽取的中文、英文、数字；

将获取的中文、英文、数字与敏感词文集进行匹配，获取匹配词；

将匹配词与抽取的中文、英文、数字进行相似度分析。

进一步优选地，所述的相似度的判断依照如下公式进行判断：

相似度y(,…)=α∗；

其中，α>0，α为可调参数，为获取的中文、英文、数字词，为敏感词文集匹配的相似词，为分别所处的层次。

一种移动终端，包括处理器以及存储器，所述的处理器用于执行存储器中存储的程序，以实现一种基于商标近似分析的数据预处理方法。

上列详细说明是针对本发明可行实施例的具体说明，以上实施例并非用以限制本发明的专利范围，凡未脱离本发明所为的等效实施或变更，均应包含于本案的专利范围中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱峰;彭丽
技术所有人：广东知得失网络科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。