一种基于机器识别的线上商品专利获取方法及系统与流程

文档序号:16247964发布日期:2018-12-11 23:45阅读:152来源:国知局
一种基于机器识别的线上商品专利获取方法及系统与流程

本发明涉及机器识别技术领域,尤其涉及一种基于机器识别的线上商品专利获取方法及系统。

背景技术

随着人民生活水平的提高和网络的普及,网上购物模式逐渐为人们所认可。然而,由于网上购物具有买家无法接触到实体商品的局限性,买家往往仅能通过商家所提供的商品参数信息或商品图片来进行商品的挑选。因此,为了吸引消费者,商家往往会在在相应的购物页面上投放大量的宣传用语或宣传图片来吸引消费者购买。

由于消费者无法试用商品,难以分辨商品质量好坏,在比较衡量多个同类型商品的时候往往难以进行抉择。此时,消费者往往容易由于商品的价格等因素而选择了较低价格的商品,从而容易导致消费者购买到了一些质量较差的或者是仿冒的商品,影响了消费者的购物体验。



技术实现要素:

本发明提供了一种基于机器识别的线上商品专利获取方法及系统,解决了当前消费者在进行网上购物时,难以分辨出商品的质量好坏,在比较衡量多个同类型商品的时候往往难以进行抉择的技术问题。

本发明提供的一种基于机器识别的线上商品专利获取方法,包括:

获取用户提供的购物网页,并采用网页爬虫爬取所述购物网页的商品标题和商品图片;

将所述商品标题与预设的品牌词库及预设的商品名称词库进行匹配,获得品牌名称及商品名称;

将所述商品的品牌名称作为申请人关键词并将所述商品的名称作为检索关键词,在预置专利数据库中进行组合检索,获得对应的第一检索结果;

根据所述商品名称选取对应的图像库,采用所述图像库并基于颜色特征提取的卷积神经网络对所述商品信息图像进行匹配,获得所述图像库中与所述商品信息图像中的主体目标相似度最高的模板图像;

根据所述模板图像的轮廓特征,结合canny算子和形态学运算对所述商品信息图像中的主体目标进行边缘轮廓提取,获得所述主体目标的轮廓图像;

提取所述轮廓图像的特征,并基于所述轮廓图像的特征对所述第一检索结果中的附图进行特征匹配,获得与所述轮廓图像匹配的附图及对应的专利文献。

可选地,所述采用所述图像库并基于颜色特征提取的卷积神经网络对所述商品信息图像进行匹配包括:

对所述商品信息图像的颜色直方向量进行归一化处理,获得归一化颜色矩向量;

对所述颜色直方向量以及所述归一化颜色矩向量进行赋权拼接,获得颜色特征向量;

将所述颜色特征向量输入卷积神经网络获得图像特征向量后与所述图像库中的图像进行匹配。

可选地,根据所述模板图像的轮廓特征,所述结合canny算子和形态学运算对所述商品信息图像中的主体目标进行边缘轮廓提取包括:

采用canny算子对所述主体目标进行整体轮廓提取,并通过形态学运算提取所述主体目标的内部边缘。

可选地,所述结合canny算子和形态学运算对所述商品信息图像中的主体目标进行边缘轮廓提取之后还包括:

根据所述模板图像的轮廓特征,对所述主体目标的轮廓图像中的缺陷部分进行边缘轮廓修复。

可选地,所述提取所述轮廓图像的特征,并基于所述轮廓图像的特征对所述第一检索结果中的附图进行特征匹配包括:

提取所述轮廓图像的特征点和轮廓中心点,并采用所述特征点和轮廓中心点建立相似矩阵;

对所述轮廓图像上的像素点均进行相似矩阵的计算,获得所述轮廓图像的特征组合;

将所述特征组合与所述第一检索结果中的附图的特征进行特征匹配;

所述第一检索结果中的附图的特征的获取方法与所述轮廓图像的特征组合获取方法一致。

可选地,在获得商品的名称之后还包括:

在预设的专业术语词库中检索是否存在与所述商品的名称匹配的专业术语,若是,则将所述商品的品牌名称作为申请人关键词并将所述专业术语作为检索关键词,在预置专利数据库中进行组合检索,获得对应的第一检索结果。

本发明提供的基于机器识别的线上商品专利获取方法,还包括:

获取所述购物网页的源代码,并通过预设的正则表达式检索特定标签下包裹的内容,获得商品的特征词;

将所述特征词作为检索关键词在所述第一检索结果中进行二次检索,获得第二检索结果。

本发明提供的基于机器识别的线上商品专利获取方法,还包括:

对所述商品图片进行字符识别;

根据进行字符识别获得的文字,生成商品描述文;

对所述商品描述文进行高频词摘取,并将摘取获得的高频词作为检索关键词在所述第一检索结果中进行二次检索,获得第三检索结果。

可选地,所述对所述商品描述文进行高频词摘取具体包括:

根据所述商品描述文中的每个词语在图片中的大小比例,赋予所述每个词语对应的权重;

将所述商品描述文中所有的词语的权重进行叠加,获得权重值最高的词语,并将所述权重值最高的词语作为高频词。

本发明提供的一种基于机器识别的线上商品专利获取系统,包括:

获取模块,用于获取用户提供的购物网页,并采用网页爬虫爬取所述购物网页的商品标题和商品图片;

匹配模块,用于将所述商品标题与预设的品牌词库及预设的商品名称词库进行匹配,获得品牌名称及商品名称;

检索模块,用于将所述商品的品牌名称作为申请人关键词并将所述商品的名称作为检索关键词,在预置专利数据库中进行组合检索,获得对应的第一检索结果;

图像匹配模块,用于根据所述商品名称选取对应的图像库,采用所述图像库并基于颜色特征提取的卷积神经网络对所述商品信息图像进行匹配,获得所述图像库中与所述商品信息图像中的主体目标相似度最高的模板图像;

轮廓提取模块,用于根据所述模板图像的轮廓特征,结合canny算子和形态学运算对所述商品信息图像中的主体目标进行边缘轮廓提取,获得所述主体目标的轮廓图像;

特征匹配模块,用于提取所述轮廓图像的特征,并基于所述轮廓图像的特征对所述第一检索结果中的附图进行特征匹配,获得与所述轮廓图像匹配的附图及对应的专利文献。

从以上技术方案可以看出,本发明具有以下优点:

在本发明中通过利用网页爬虫自动爬取购物网页中的商品标题以及图片,并对商品标题进行分词处理,识别出商品的品牌名称以及商品名称之后,将该商品的品牌名称以及商品名称分别作为申请人关键词和检索关键词在专利数据库中进行组合检索,获得该商品所对应的商家在该在商品上进行申请的专利;此外,还根据商品名称选取对应的图像库,并从图像库中采用卷积神经网络匹配获得与商品图片相似度最高的模板图像,再基于模板图像的轮廓特征提取商品的轮廓图像,并将商品的轮廓图像与检索获得的专利文献中的附图进行匹配,找到对应的专利文献,即商品所对应的专利,以便于消费者根据所获得的专利检索结果对该商品所属的商家在该商品上相较于同行而言的竞争力进行判断,并且可以通过对专利检索结果进行查看分析来判断不同商家在同一类商品上的技术优劣势,有利于消费者进行多个同类商品的挑选的时候下抉择。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种基于机器识别的线上商品专利获取方法的流程示意图;

图2为本发明实施例提供的一种包含有商品图像的商品信息图像的示意图;

图3为本发明实施例提供的对图2进行轮廓提取后的图像示意图;

图4为本发明实施例提供的对图3进行边缘轮廓修复后的轮廓图像示意图;

图5为本发明实施例提供的一种进行图像匹配后所获取到的检索结果;

图6为本发明实施例提供的图5的检索结果所对应的附图;

图7(a)为本发明实施例提供的购物网页上的商品图片的一个示意图;

图7(b)为本发明实施例提供的购物网页上的商品图片另一示意图;

图7(c)为本发明实施例提供的购物网页上的商品图片又一示意图;

图7(d)为本发明实施例提供的购物网页上的商品图片再一示意图;

图8为本发明实施例提供的根据图片中的高频词进行二次检索后的部分检索结果示意图;

图9为本发明实施例提供的一种基于机器识别的线上商品专利获取系统的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

专利作为一个公司的自主知识产权的体现,往往在一定程度上代表了公司的核心竞争力。通常,大部分公司在研发出新的产品或针对某一产品有了新的研发成果的时候,往往会通过申请专利来保护公司的自主知识产权,以保持自身产品的竞争力。因此,在大部分时候可以通过观察一个公司在某一产品上的专利申请情况(如申请数量和申请日期等)以及专利授权情况来判断该公司在该产品上相对于同行而言的竞争力,即给消费者在挑选多个同类商品时提供另外的一种参考方法。

机器识别技术,是一门涉及人工智能、计算机科学、图像处理、模式识别等诸多领域的交叉学科。机器识别主要用计算机来模拟人的视觉功能,从客观事物的图像中提取信息,进行处理并加以理解,最终用于实际检测、测量和控制,其最大的特点是速度快、信息量大、功能多。针对消费者在进行购物时往往需要对商品进行挑选并在多个同类商品中做出抉择的场景,本发明中提出一种通过机器识别技术对消费者当前在挑选的商品进行字符以及图像的识别,并根据识别结果自主获取到与该商品在名称、品牌以及外观上最为进阶的专利,使得消费者可以通过商品对应的专利进行一步了解并评估商品的技术质量,并且可以通过对专利检索结果进行查看分析来判断不同商家在同一类商品上的技术优劣势,有利于消费者进行多个同类商品的挑选的时候下抉择。

请参阅图1,图1为本发明实施例提供的一种基于机器识别的线上商品专利获取方法的流程示意图。

本发明提供的一种基于机器识别的线上商品专利获取方法,包括:

s101、获取用户提供的购物网页,并采用网页爬虫爬取购物网页的商品标题和商品图片。

购物网页指的是各种购物网站的具体网页地址,其中购物网站包括淘宝、京东、唯品会以及亚马逊等同类型的购物网站。需要说明的是,本实施例中所提及的购物网页中包含有具体的商品标题信息,如网页“https://item.jd.com/1084054.html”中包含有商品标题“科沃斯(ecovacs)地宝魔镜s(cen540-lg)扫地机器人家用吸尘器全自动智能拖地机”。由于购物网页中一般会将摄有商品全貌的图片设置为购物网页的第一张图片,因此,本实施例中所指的商品图片为摄有商品全貌且最能反映商品整体的图片,一般可以取购物网页中的第一张图片作为商品图片,或者视具体购物网页的设置而定,此处不做具体限定。

可选地,在本实施例中采用网页爬虫爬取购物网页的商品标题以及商品图片的一种实施方式具体可以为:获取购物网页的源代码,并通过预设的正则表达式检索预置标签下包裹的内容,获得购物网页的商品标题或商品图片,预置标签为商品标题或商品图片的源代码标签。可以理解的是,可以根据获得的购物网页的地址获取该购物网页的源代码,然后通过正则表达式检索商品标题源代码标签所包裹下的商品标题,例如,对上述的网页通过源代码标签<title>可以找到该源代码标签下所包裹的商品标题“科沃斯(ecovacs)地宝魔镜s(cen540-lg)扫地机器人家用吸尘器全自动智能拖地机”。

s102、将商品标题与预设的品牌词库及预设的商品名称词库进行匹配,获得品牌名称及商品名称。

s103、将商品的品牌名称作为申请人关键词并将商品的名称作为检索关键词,在预置专利数据库中进行组合检索,获得对应的第一检索结果。

可以理解的是,为了便于快速给消费者传达关于商品的大致信息,当前业内所采用的商品的信息标题中通常包含了商品具体的品牌名称以及该商品的具体名称。例如,“苏泊尔(supor)电磁炉整板触控sdhc8e15-210d”此商品信息标题下包括了商品的品牌名称:苏泊尔;商品名称:电磁炉。因此,在识别出商品的信息标题之后,为了将信息标题中所包含的品牌名称和商品的名称识别出来,可以通过分词处理将品牌名称和商品的名称分辨出来。本发明实施例中所采用的最大匹配算法主要包括正向最大匹配算法、逆向最大匹配算法、双向匹配算法等。其主要原理都是切分出单字串,然后和词库进行比对,如果是一个词就记录下来,否则通过增加或者减少一个单字,继续比较,一直还剩下一个单字则终止,如果该单字串无法切分,则作为未记录处理。因此,在本发明实施例中可以预先建立好商品的品牌词库和商品名称词库,然后通过将信息标题与预设的品牌词库以及商品名称词库进行匹配,可以获得商品的品牌名称和商品的名称。

需要说明的是,在进行分词处理的时候,可以是将商品的信息标题分别与品牌词库和商品名称词库进行匹配,其中进行匹配的顺序可以同时进行,以提高匹配的速度;此外,由于大部分的商品的信息标题的开头都为商品的品牌名称,因此可以先进行商品的信息标题与品牌词库的匹配,在匹配完毕后,将商品的信息标题中所剩下的未进行匹配的部分再进行商品的名称的匹配,以减少终端进行匹配的步骤,降低终端的负荷。例如,在对“苏泊尔(supor)电磁炉整板触控sdhc8e15-210d”进行品牌词库匹配获得“苏泊尔”之后,将商品标题中剩下的部分“(supor)电磁炉整板触控sdhc8e15-210d”进行后续的商品名称词库匹配,获得“电磁炉”。

可以理解的是,商品的品牌名称通常代表了该商品所属的商家,即商品的品牌名称可以认为是商家的公司名称的简称。例如,小米可以认为是小米科技有限责任公司的简称,华为可以认为是华为技术有限公司的简称;因此,可以将商品的品牌名称作为申请人关键词,可以检索出该商品所属的商家的专利。在本实施例中,通过将商品的品牌名称作为申请人关键词并将商品的名称作为检索关键词,在专利数据库中进行组合检索,可以获得该商品对应的商家关于该商品的所有专利。需要说明的是,将商品的名称作为检索关键词可以是作为专利的全文检索关键词,也可以是作为专利的摘要的检索关键词,或者是作为专利的权利要求的检索关键词,可以根据具体的情况而定,此处不做具体限定。例如,在将“电磁炉”作为全文检索关键词,将“苏泊尔”作为申请人关键词时,可以获得全文中包含有“电磁炉”以及申请人名称中包含有“苏泊尔”的所有专利文献。

s104、根据商品名称选取对应的图像库,采用图像库并基于颜色特征提取的卷积神经网络对商品信息图像进行匹配,获得图像库中与商品信息图像中的主体目标相似度最高的模板图像。

图像库是预先根据各种商品的种类进行分类后进行建立的,每一个图像库中均包含有大量的同类型商品图像。采用图像库并基于颜色特征提取的卷积神经网络对商品信息图像进行匹配的具体步骤可以为:首先,获取商品信息图像的颜色直方图,然后对商品信息图像的颜色直方向量进行归一化处理,获得归一化颜色矩向量;对颜色直方向量以及归一化颜色矩向量进行赋权拼接,获得颜色特征向量;将颜色特征向量输入卷积神经网络获得图像特征向量后与图像库中的图像进行匹配。其中,赋权拼接的具体过程为:将颜色直方向量以及归一化颜色矩向量分别点乘预设的第一权重向量以及第一权重向量,获得赋权颜色直方向量和赋权颜色矩向量,并将赋权颜色直方向量和赋权颜色矩向量进行拼接,获得颜色特征向量。

其中,预设的卷积神经网络由一个线性映射和一个包含了多个卷积层的非线性映射构成,多个卷积层中的每个卷积层包含有多个卷积核,多个卷积核包含有1*1卷积核、3*3卷积核以及5*5卷积核。在原来的传统神经网络中,只着重于增加网络的深度,而经过申请人试验发现,当神经网络的深度过深时,会出现以下问题:在进行正向传播时,浅层的卷积层传播过来的有用的特征有可能会被过滤掉,导致深层的卷积层很难辨别有用的梯度方向。因此,本实施例中摒弃了传统的只采用单一的3*3卷积核的神经网络,增加了神经网络的宽度,即使用了多个1*1卷积核、3*3卷积核以及5*5卷积核,让卷积层从不同的尺度对输入数据进行运算,能够帮助不同的卷积核收敛到不同的值,有效避免神经网络的协同工作。

可以理解的是,为了提高商品的标识度,当前市面上的大部分商品均具有色彩艳丽的外观,同类型商品的颜色、形状均有一定的差别。本实施例中采用基于颜色特征提取的卷积神经网络将商品信息图像与图像库进行匹配,可以快速且准确找出与商品信息图像中的主体目标相似度最高的模板图像,有利于后续将模板图像作为指导图像来对主体目标进行边缘轮廓提取。

s105、根据模板图像的轮廓特征,结合canny算子和形态学运算对商品信息图像中的主体目标进行边缘轮廓提取,获得主体目标的轮廓图像。

在获得模板图像之后,可以利用模板图像中的轮廓特征作为指导来进行主体目标的轮廓提取。即可以通过多次结合canny算子和形态学运算对商品信息图像中的主体目标进行边缘轮廓提取,或者调整对商品信息图像进行预处理的方法,获得多个不同的轮廓图像,最后将多个轮廓图像与模板图像的轮廓特征进行相似度比较,选取相似度最高的作为主体目标的轮廓图像。其中,轮廓提取的具体过程可以为采用canny算子对主体目标进行整体轮廓提取,并通过形态学运算提取主体目标的内部边缘,形态学运算可以有效地提取主体目标内部的空隙边缘部分。可以理解的是,由于商品信息图像中除了目标商品(即主体目标)之外,还有可能存在背景或其他的物品,而这些背景以及物品又会影响到后续的图像匹配,因此,需要通过提取目标商品的轮廓来将背景以及物品去除。本实施例中通过将与商品信息图像中的主体目标最为相似的模板图像作为轮廓提取指导图像,使得主体目标的轮廓提取具备参考图像,可以极大地提高对主体目标的轮廓提取准确率。

s106、提取轮廓图像的特征,并基于轮廓图像的特征对第一检索结果中的附图进行特征匹配,获得与轮廓图像匹配的附图及对应的专利文献。

具体地,可以提取轮廓图像的特征点和轮廓中心点,并采用特征点和轮廓中心点建立相似矩阵;然后对轮廓图像上的像素点均进行相似矩阵的计算,获得轮廓图像的特征组合;将特征组合与第一检索结果中的附图的特征进行特征匹配。需要说明的是,第一检索结果中的附图的特征的获取方法与轮廓图像的特征组合获取方法一致,即相当于采用相同的特征获取方法对轮廓图像以及专利的附图进行特征组合的获取,并且比对两者的特征组合的匹配度,来获得与轮廓图像匹配的附图及对应的专利文献。

由于专利文献中附图大多为采用线条进行描绘获得的轮廓图像,因此,本实施例中通过将商品进行轮廓提取后再进行与专利文献附图的匹配,提高了匹配的准确率,更容易获得与商品所对应的专利文献。

可选地,在结合canny算子和形态学运算对商品信息图像中的主体目标进行边缘轮廓提取之后还可以包括:根据模板图像的轮廓特征,对主体目标的轮廓图像中的缺陷部分进行边缘轮廓修复。由于在商品信息图像中,主体目标有可能会被一些物品遮挡住,而无法呈现完整的图像,导致所提取出来的轮廓图像也是不完整的。因此,可以根据模板图像的轮廓特征以及主体目标缺陷部分附近的特征对主体目标的轮廓图像中的缺陷部分进行边缘轮廓修复,以获得完整的轮廓图像。

为了便于理解,以下将结合具体的应用场景进行详细的描述。

首先,获取到购物网页的地址https://item.jd.com/11007521602.html,然后采用网页爬虫获取购物网页上的商品标题以及商品介绍中的商品图片。其中,商品标题具体为“九阳(joyoung)空气炸锅kl-28j02家用无油烟智能控温薯条机电炸锅2.8l”,商品图片具体可以参阅图2,图2为本发明实施例提供的一种包含有商品图像的商品信息图像的示意图。对商品标题采用最大匹配法进行分词处理,可以获得用于作为申请人关键词的商品品牌名称“九阳”,并获得作为检索关键词的商品名称“空气炸锅”。在根据申请人关键词“九阳”和检索关键词“空气炸锅”进行全文检索得到对应的检索结果之后,挑选与“空气炸锅”对应的图像库,并且采用卷积神经网络将商品信息图像与图像库中的图像进行匹配,获得图像库中与商品信息图像相似度最高的模板图像。然后结合模板图像的轮廓特征对商品信息图像中的主体目标进行轮廓提取。如图3所示,图3为本发明实施例提供的对图2进行轮廓提取后的图像示意图。由图3可以看出,由于商品信息图像中的空气炸锅前摆放有薯条炸鸡等物品,遮挡住了空气炸锅的一部分,因此进行轮廓提取后所获得的轮廓图像具有多处缺陷部分。因此,根据模板图像的轮廓特征以及主体目标缺陷部分附近的特征对主体目标的轮廓图像中的缺陷部分进行边缘轮廓修复,以获得完整的轮廓图像。如图4所示,图4为本发明实施例提供的对图3进行边缘轮廓修复后的轮廓图像示意图。最后,将进行修复后的轮廓图像与检索结果中的附图进行图像匹配,获得与该轮廓图像相似度较高的专利文献,如图5所示,图5为本发明实施例提供的一种进行图像匹配后所获取到的检索结果。如图6所示,图6为本发明实施例提供的图5的检索结果所对应的附图。由图5和图6可以看出,经过图像匹配后获取得到的专利文献与商品的契合度很高,可以认为该专利文献与该商品互相对应,消费者通过查阅该专利文献可以大致的掌握该商品的详细信息,便于消费者对商品的技术质量进行一定的评判。

进一步地,在本实施例提供的一种实施方式中,在获得商品的名称之后还可以包括:

在预设的专业术语词库中检索是否存在与商品的名称匹配的专业术语,若是,则将商品的品牌名称作为申请人关键词并将专业术语作为检索关键词,在预置专利数据库中进行组合检索,获得对应的第一检索结果。可以理解的是,由于商品所面向的为广大人民群众,而专利文献作为一种具有法律效应的文献,要求的是用词准确与标准,因此,往往商品的一些通用名称与该商品实际上的专业术语是不一致的。例如,商品“洗衣液”的专业术语实质上为“洗涤剂”。因此,为了能够准确搜索到商品对应的专利,可以针对通用名称与专业术语名称不一致的商品建立专业术语词库,在获得商品的名称之后,在预设的专业术语词库中检索是否存在与商品的通用名称匹配的专业术语,若是存在则进行商品的通用名称与其专业术语的替换,以便于后续的专利组合检索。

进一步地,本发明实施例提供的基于机器识别的线上商品专利获取方法的一种实施方式中,还可以包括:获取购物网页的源代码,并通过预设的正则表达式检索特定标签下包裹的内容,获得商品的特征词;将特征词作为检索关键词在第一检索结果中进行二次检索,获得第二检索结果。可以理解的是,特定便签可以为描述商品的技术特点或者是商品的功效用途的标签,主要用于检索获得该商品的技术特征或功效特征。例如,对于商品“洗衣液”,可以寻找其功效标签下所包裹的内容,获得其功效特征如:“去污”、“增艳”或“护色”等;对于商品“空调”,可以寻找其特色功能标签下所包裹的内容,获得其技术特征如:“自清洁”、“光线感应”等。

可以理解的是,在通过申请人关键词以及商品名称进行组合检索的时候,可能会存在检索结果量较大且检索结果中存在较多与实际商品吻合度较低的专利文献的情况,从而不便于消费者准确获取到与该商品对应的专利。因此,有必要根据该商品的产品特征进行检索结果的二次筛选,以便于检索出更为接近该商品的专利。由于商品的信息标题中除了包含有商品的品牌名称以及商品名称之外,还有可能会包含对产品的一些技术特征、产品功效或产品用途等的一些特征限定描述。在将与商品对应的特征词进行摘取,并且根据特征词对检索获得的结果进行二次检索之后,可以获得与该商品更加吻合的专利文献。需要注意的是,当获得多个特征词时,可以用or运算符连接多个特征词后作为检索关键词在第一检索结果中进行二次检索,获得第二检索结果。例如,在进行爬取商品“洗衣液”的功效标签下包裹的内容,获得“去污”、“去渍”、“护色”和“增艳”这四个特征词之后,可以用or运算符连接多个特征词后作为检索关键词(即作为并列检索关键词)在此前检索获得的结果中进行二次检索,以获得进一步的检索结果。

进一步地,本发明实施例提供的基于机器识别的线上商品专利获取方法,还可以包括:对商品图片进行字符识别;根据进行字符识别获得的文字,生成商品描述文;对商品描述文进行高频词摘取,并将摘取获得的高频词作为检索关键词在第一检索结果中进行二次检索,获得第三检索结果。可以理解的是,由于购物网页中通常会采用大量包含有文字以及商品图像的图片对商品进行描述,而图片中的文字一般为对商品的技术特征、功效、用途等进行的描述,且在图片中频繁出现的词语(即高频词)可以认为是商家最想要宣传的商品卖点,该商品卖点往往象征着商品最突出的特征,因此,根据该商品最突出的特征进行商品对应的专利文献的进一步检索可以提高检索的准确度。在本实施例中,对爬取获得的商品图片通过光学字符识别(opticalcharacterrecognition,ocr),可以获得每张图片上的文字,将每张图片上识别出来的文字进行拼凑后,可以生成商品的描述文。需要注意的是,在图片中识别获得文字后,将每一句紧密连接着的文字作为一个文字句,并用分隔号进行分隔;此外,将每一张图片上的文字单独作为一个段落,由此可以获得具有多个段落,每个段落中包含有多个句子的商品描述文。然后,对商品描述文进行高频词的摘取,并将干扰词(例如的、地、得等常用词)进行排除,获得代表商品特征的高频词,并将该高频词作为检索关键词在第一检索结果中进行二次检索,获得更为接近商品的第三检索结果。

进一步地,对商品描述文进行高频词摘取具体可以包括:根据商品描述文中的每个词语在图片中的大小比例,赋予每个词语对应的权重;将商品描述文中所有的词语的权重进行叠加,获得权重值最高的词语,并将权重值最高的词语作为高频词。可以理解的是,在商家采用图片进行对商品的宣传、描述的时候,对于商品最突出的特征,商家往往可能在图片中以较大的文字突出显示,来突出商品的特征。例如,如图7(a)~7(d)所示,图7(a)~7(d)为本发明实施例提供的购物网页上的商品图片示意图。由图7(a)~7(d)可以看出,图片中均对豆浆机的所采用主要技术(即“免滤技术”)进行了突出显示描述,通过本实施例中的方法可以根据所有图片中的文字在图片中所占的比例,赋予文字对应的权重,例如,在本实施例中所提供的四张图片中,“免滤”一词共出现了六次,根据词语在图片中所占的面积与图片的面积之比,可以分别赋予每个词语1/79、1/112、1/60、1/464、1/103、1/1210的权重,最后将每一个权重进行相加,得到“免滤”一词的权重和。通过与其他的词语的权重和进行比较可知,“免滤”一词的权重和最大,因此可以将“免滤”一词作为高频词进行专利文献的二次检索,获得对应的检索结果。如图8所示,图8为本发明实施例提供的根据图片中的高频词进行二次检索后的部分检索结果示意图。获得图8中的检索结果的具体过程为:先对网页进行商品标题的爬取,并获得“九阳”作为申请人关键词以及获得“豆浆机”作为检索关键词,然后通过对图片中的高频词进行摘取,获得“免滤”作为二次检索的高频词,然后根据“免滤”一词在“九阳”和“豆浆机”的组合检索结果中进行二次检索,获得如图8所示的部分检索结果。

本发明实施例中通过利用网页爬虫自动爬取购物网页中的商品标题,并在获得商品标题后对商品标题进行分词处理,识别出商品的品牌名称以及商品名称之后,将该商品的品牌名称以及商品名称分别作为申请人关键词和检索关键词在专利数据库中进行组合检索,获得该商品所对应的商家在该在商品上进行申请的专利,以便于消费者根据所获得的专利检索结果对该商品所属的商家在该商品上相较于同行而言的竞争力进行判断,并且可以通过对专利检索结果进行查看分析来判断不同商家在同一类商品上的技术优劣势,有利于消费者进行多个同类商品的挑选的时候下抉择。此外,本发明实施例中还通过采用正则表达式检索网页的特定标签下的内容,获得表征商品特征的特征词,以及通过摘取商品图片中的高频词作为商品的特征词;并采用特征词对检索结果进行二次检索,提高了检索的准确率。

以上为对于本发明实施例提供的一种基于机器识别的线上商品专利获取方法的详细描述,以下将对本发明实施例提供的一种基于机器识别的线上商品专利获取系统进行详细描述。

请参阅图9,图9为本发明实施例提供的一种基于机器识别的线上商品专利获取系统的结构示意图。

本发明实施例提供的一种基于机器识别的线上商品专利获取系统,包括:

获取模块901,用于获取用户提供的购物网页,并采用网页爬虫爬取购物网页的商品标题和商品图片;

匹配模块902,用于将商品标题与预设的品牌词库及预设的商品名称词库进行匹配,获得品牌名称及商品名称;

检索模块903,用于将商品的品牌名称作为申请人关键词并将商品的名称作为检索关键词,在预置专利数据库中进行组合检索,获得对应的第一检索结果;

图像匹配模块904,用于根据商品名称选取对应的图像库,采用图像库并基于颜色特征提取的卷积神经网络对商品信息图像进行匹配,获得图像库中与商品信息图像中的主体目标相似度最高的模板图像;

轮廓提取模块905,用于根据模板图像的轮廓特征,结合canny算子和形态学运算对商品信息图像中的主体目标进行边缘轮廓提取,获得主体目标的轮廓图像;

特征匹配模块906,用于提取轮廓图像的特征,并基于轮廓图像的特征对第一检索结果中的附图进行特征匹配,获得与轮廓图像匹配的附图及对应的专利文献。

可选地,图像匹配模块具体用于:对商品信息图像的颜色直方向量进行归一化处理,获得归一化颜色矩向量;对颜色直方向量以及归一化颜色矩向量进行赋权拼接,获得颜色特征向量;将颜色特征向量输入卷积神经网络获得图像特征向量后与图像库中的图像进行匹配。

可选地,轮廓提取模块具体用于:采用canny算子对主体目标进行整体轮廓提取,并通过形态学运算提取主体目标的内部边缘。

可选地,本发明实施例提供的基于机器识别的商品专利获取系统还包括有:轮廓修复模块,用于根据模板图像的轮廓特征,对主体目标的轮廓图像中的缺陷部分进行边缘轮廓修复。

可选地,特征匹配模块具体用于:提取轮廓图像的特征点和轮廓中心点,并采用特征点和轮廓中心点建立相似矩阵;对轮廓图像上的像素点均进行相似矩阵的计算,获得轮廓图像的特征组合;将特征组合与第一检索结果中的附图的特征进行特征匹配;第一检索结果中的附图的特征的获取方法与轮廓图像的特征组合获取方法一致。

可选地,还包括:专业术语检索模块,用于在预设的专业术语词库中检索是否存在与商品的名称匹配的专业术语,若是,则将商品的品牌名称作为申请人关键词并将专业术语作为检索关键词,在预置专利数据库中进行组合检索,获得对应的第一检索结果。

进一步地,本发明实施例提供的基于机器识别的线上商品专利获取系统,还包括:

特征词检索模块,用于获取购物网页的源代码,并通过预设的正则表达式检索特定标签下包裹的内容,获得商品的特征词;将特征词作为检索关键词在第一检索结果中进行二次检索,获得第二检索结果。

进一步地,本发明实施例提供的基于机器识别的线上商品专利获取系统,还包括:

字符识别模块,用于对商品图片进行字符识别;根据进行字符识别获得的文字,生成商品描述文;

高频词摘取模块,用于对商品描述文进行高频词摘取,并将摘取获得的高频词作为检索关键词在第一检索结果中进行二次检索,获得第三检索结果。

可选地,高频词摘取模块具体用于:根据商品描述文中的每个词语在图片中的大小比例,赋予每个词语对应的权重;将商品描述文中所有的词语的权重进行叠加,获得权重值最高的词语,并将权重值最高的词语作为高频词。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1