一种商品识别方法和装置与流程

文档序号：13143054阅读：415来源：国知局

本发明涉及商品识别技术领域，尤其涉及一种商品识别方法和装置。

背景技术：

盲是世界上严重的社会和公共卫生问题之一。人类70％以上的信息都是通过视觉来获取的，视力问题很大程度上限制了盲人进行信息获取。

由于视力问题，盲人的生活中存在诸多不便，尤其是在商场进行购物时，面对商场中品类繁多的商品，盲人无法独立获取种类、型号、价格等商品的信息，因此对于盲人而言，在较大的空间范围和繁多的商品中挑选出自己需要的商品，独立完成购物，是非常困难的。一情况下盲人在购物时是通过导购员讲解来获取商品信息的，但这不仅给盲人购物带来了很大的不便，也大大增大了导购员的工作量，耗费了大量的人力和时间成本。因此，如何辅助盲人获取商品信息是亟待解决的一个问题。

技术实现要素：

本发明的实施例提供一种商品识别方法和装置，用于辅助盲人获取商品信息。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种商品识别方法，用于辅助盲人获取商品信息，所述方法包括：

从至少一个视角对商品进行图像采集，获取所述商品的图像信息；

根据所述商品的图像信息获取所述商品的文本信息；

将所述商品的文本信息转换为语音信息，并对所述语音信息进行输出。

第二方面，提供一种商品识别装置，用于辅助盲人获取商品信息，所述装置包括：

图像采集模块，用于从至少一个视角对商品进行图像采集，获取所述商品的图像信息；

图像识别模块，用于根据所述商品的图像信息获取所述商品的文本信息；

语音输出模块，用于将所述商品的文本信息转换为语音信息，并对所述语音信息进行输出。

第三方面，提供一种商品识别装置，所述装置包括：处理器和存储器，所述存储器用于存储计算机执行代码，所述计算机执行代码用于控制所述处理器执行第一方面所述的商品识别方法。

第四方面，提供一种计算机存储介质，用于储存为第三方面所述的商品识别装置所用的计算机软件指令，其包含执行第一方面所述的商品识别方法所设计的程序代码。

第五方面，提供一种计算机程序产品，可直接加载到计算机的内部存储器中，并含有软件代码，所述计算机程序经由计算机载入并执行后能够实现第一方面所述的商品识别方法。

本发明的实施例提供的商品识别方法首先从至少一个视角对商品进行图像采集，获取商品的图像信息，然后根据商品的图像信息获取商品的文本信息，最后将商品的文本信息转换为语音信息，并对语音信息进行输出，由于本发明实施例提供的商品识别装置可以获取商品的图像信息并根据商品的图像信息获取商品的文本信息，最后将商品的文本信息转换为语音信息输出，所以通过本发明实施例盲人可以通过语音的方式获取商品信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的实施例提供的商品识别方法的步骤流程图之一；

图2为本发明的实施例提供的商品识别方法的步骤流程图之二；

图3为本发明的实施例提供的商品识别方法的步骤流程图之三；

图4为本发明的实施例提供的商品识别方法的步骤流程图之四；

图5为本发明的实施例提供的商品识别方法的步骤流程图之五；

图6为本发明的实施例提供的商品识别装置的示意性结构图之一；

图7为本发明的实施例提供的商品识别装置的示意性结构图之二；

图8为本发明的实施例提供的商品识别装置的示意性结构图之三。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。需要说明的是，下文所提供的任意多个技术方案中的部分或全部技术特征在不冲突的情况下，可以结合使用，形成新的技术方案。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。如果不加说明，本文中的“多个”是指两个或两个以上。

在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

需要说明的是，本发明实施例中，除非另有说明，“多个”的含义是指两个或两个以上。

还需要说明的是，本发明实施例中，“的(英文：of)”，“相应的(英文：corresponding，relevant)”和“对应的(英文：corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

本发明实施例所提供的技术方案的基本原理为：针对盲人因视力问题而无法获取商品信息，进而导致盲人不能独立的进行购物的问题，本发明实施例所提供的技术方案通过获取商品的图像信息，然后根据商品的图像信息获取商品的文本信息，最后将商品的文本信息转换为语音信息输出，进而使盲人通过接收语音信息获取商品的信息，从而解决上述盲人无法获取商品信息的问题。

基于上述内容，本发明实施例提供一种用于辅助盲人获取商品信息的商品识别方法。

示例性的，本发明实施例提供的商品识别方法的执行主体可以为采用本发明实施例提供的商品识别方法对商品行识别的终端设备。终端设备可以为头戴式导盲装置、导盲眼镜、手机、便携式计算机、袖珍式计算机、手持式计算机、数码相框、掌上电脑、导航仪等，或者终端设备可以为安装有可以采用本发明实施例提供的商品识别方法对商品行识别的软件客户端或软件系统或软件应用的个人计算机(英文全称：personalcomputer,简称：pc)、服务器等，具体的硬件实现环境可以通用计算机形式，或者是专门设计的集成电路(英文全称：applicationspecificintegratedcircuit，简称：asic)的方式，也可以是(英文全称：fieldprogrammablegatearray，简称：fpga)，或者是一些可编程的扩展平台例如嵌入式(英文名称：tensilica)的可配置处理器平台等。

参照图1所示，本发明实施例提供的商品识别方法包括：

s11、从至少一个视角对商品进行图像采集，获取商品的图像信息。

示例性的，可以通过单目摄像头、双目摄像头等图像传感器中的一种或多种来实现上述步骤s11中的图像采集。

可选的，上述s11中从至少一个视角对商品进行图像采集具体可以为从一个视角对商品进行图像采集，也可以为从多个视角对商品进行图像采集。示例性的，本发明实施例中具体可以通过如下方法实现从多个视角对商品进行图像采集：

一、用户将商品放置于图像采集装置的采集范围之内，然后对商品进行转动和/或移动，图像采集装置在用户对商品进行转动和/或移动的过程中从多个视角对商品进行图像采集。

二、图像采集装置包括多个且分别设置于不同的位置，当进行图像采集时，多个设置于不同位置的图像采集装置分别从一个视角对商品进行图像采集，从而实现从多个视角对商品进行图像采集。

还需要说明的是，当从多个视角对商品进行图像采集时，由于商品的图像信息是通过从多个视角对商品进行图像采集获取的，因此商品的图像信息包括：多个视角商品的图像。通过从多个视角对商品进行图像采集可以更加全面的获取商品的图像信息，进而有利后继对商品的图像信息进行识别。

s12、根据商品的图像信息获取商品的文本信息。

上述实施例中的根据商品的图像信息获取商品的文本信息的过程可以在图像识别装置内部完成，也可以通过远程服务设备协助完成。

当根据商品的图像信息获取商品的文本信息的过程在图像识别装置内部完成时，步骤s12具体可以通过如下步骤实现：a、对商品的图像信息进行识别。b、根据识别结果获取商品的文本信息。示例性的，可以通过安装有图像识别软件的图像处理设备来执行上述步骤。

当根据商品的图像信息获取商品的文本信息的过程通过远程服务设备协助完成时，步骤s12具体可以通过如下步骤实现：c、将商品图像信息发送至远端服务设备，以便远端服务设备对商品的图像信息进行识别，并根据识别结果获取商品的文本信息。d、接收远端服务设备发送的商品的文本信息。示例性的，远端服务设备可以为云端服务器等。

此外，对商品的图像信息进行识别可以采用任一种图像识别算法对商品图像信息进行处理、分析和理解。本发明实施例中对商品的图像信息识别过程中采用的图像识别算法不做限定。

s13、将商品的文本信息转换为语音信息，并对语音信息进行输出。

具体的，可以通过语音合成技术将商品的文本信息转换为语音信息，然后通过扬声器、功放机、音箱、耳机等音频输出设备将合成的语音信息输出。

需要说明的是，将商品的文本信息转换为语音信息，并对语音信息进行输出具体可以为：直接通过语音合成技术将商品的文本信息转换为语音信息输出，也可以为将商品的文本信息进行关键字提取，比如将商品的文本信息与数据库中存储的商品的关键字进行比对，然后语音输出关键字比对结果。

进一步的，本发明实施例提供如下几种具体实现方式来实现图1所示的商品识别方法：

一、

参照图2所示，上述商品识别方法具体包括如下步骤：

s21、从至少一个视角对商品进行图像采集，获取商品的图像信息。

s22、对商品的图像信息进行条码识别，获取商品的条码。

具体的，上述实施例中商品条码可以为一维条码和/或二维条码。其中，商品的一维条码由一组规则排列的条、空及其对应代码组成。商品的二维条码是用特定的几何图形按一定规律在二维方向上分布的黑白相间的图形。其形成商品条码的条码符号可以包括零售商品、储运包装商品、物流单元、参与方位置等等的代码与条码标识。通常商品的条码印在商品包装上，或将其制成条码标签附在商品上。因此通过对商品的图像信息进行条码识别可以获取商品的条码。

对商品的一维条码别进行识别具体可以为：先进行一维条码检测和定位，确定一维条码的在图像中的区域，然后在对该区域的图像进行一维条码识别，读取一维条码中的商品编号等的信息，最后根据一维条码中的信息查询获取商品文本信息。同样对商品的二维条码进行识别具体可以为：先进行二维条码检测和定位然后在对该区域的图像进行二维条码识别，读取二维条码中的信息。与一维条码不同之处在于，二维条码中可以包括更多信息，因此可以通过二维条码的内容直接获取商品的文本信息或者对获得信息进行进一步处理获得商品的文本。

s23、根据商品的条码获取商品的文本信息。

对商品的条码进行查询和数据处理，可立即识别出商品制造厂商、名称、价格、颜色等商品信息，并且这些商品信息都是通过文本的形式显示出来的，所以可以根据商品的条码获取商品的文本信息。

此外，商品的条码还遵循唯一性原则，即一个商品项目只能有一个代码，或者说一个代码只能标识一种商品项目。不同规格、不同包装、不同品种、不同价格、不同颜色的商品均会使用不同的商品的条码。因此通过商品的条码获取的商品的文本信息相对准确，可以避免向用户提供的商品信息错误。

s24、将商品的文本信息转换为语音信息，并对语音信息进行输出。

二、

参照图3所示，上述商品识别方法具体包括如下步骤：

s31、从至少一个视角对商品进行图像采集，获取商品的图像信息。

s32、对商品的图像信息进行光学字符识别(英文名称：opticalcharacterrecognition，英文简称：ocr)，获取商品的图像信息中的字符。

具体的，光学字符识别是指光学字符识别设备(例如扫描仪、数码相机、打印机等)检查纸质文档、图像上的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

可选的，如上所述，本发明实施例中的商品的图像信息包括至少两张图像，在对商品的图像信息进行光学字符识别的过程中可以先分别对每一张图像进行光学字符识别，然后再将识别的字符整理获取商品的文本信息，也可以先对商品的图像信息中包括的至少两张图像进行拼接、融合处理，然后再进行光学字符识别获取商品的文本信息。

s33、根据商品图像信息中的字符获取商品的文本信息。

通常，商品的外包装都会附有包装标签，而包装标签会通过文字方式表明商品的制造者或销售者的名称和地址、产品名称、商标、成分、品质特点、包装内产品数量、使用方法及用量、编号、贮藏应注意的事项、质检号、生产日期和有效期等内容，所以可以根据商品图像信息中的字符获取商品的文本信息。

s34、将商品的文本信息转换为语音信息，并对语音信息进行输出。

三、

参照图4所示，上述商品识别方法具体包括如下步骤：

s41、从至少一个视角对商品进行图像采集，获取商品的图像信息。

s42、对商品的图像信息进行特征提取，获取商品的特征。

可选的，上述实施例中的商品的特征可以是通过人工设计的图像特征提取器获取的特征，也可以是通过机器学习方法，比如通过深度学习方法自动学习获取的图像特征。

s43、根据商品的特征对商品进行分类，获取商品的分类。

示例性的，根据商品的特征对商品进行分类并获取商品的分类可以为将商品的特征输入分类器进行分类，获取商品的分类。其中，分类器可以是传统的支持向量机分类器(英文名称：supportvectormachine，简称：svm)或者传统的迭代(英文名称：adaboost)分类器，也可以是基于深度学习网络的分类器。

s44、根据商品的分类获取商品的文本信息。

在上述步骤s43中获取商品的分类后，可以根据商品的分类获取该类别的商品的文本信息。

s45、将商品的文本信息转换为语音信息，并对语音信息进行输出。

四、

参照图5所示，上述商品识别方法具体包括如下步骤：

s51、从至少两个视角对商品进行图像采集，获取商品的图像信息。

s52、对商品的图像信息进行条码识别。

当步骤s52中对商品的图像信息进行条码识别成功时，执行步骤s53、s57，当步骤s52中对商品的图像信息进行条码识别失败时，执行步骤s54。

s53、获取商品的条码，根据商品的条码获取商品的文本信息。

s54、对商品的图像信息进行光学字符识别。

当步骤s54中对商品的图像信息进行光学字符识别成功时，执行步骤s55、s57，当步骤s52中对商品的图像信息进行光学字符识别失败时，执行步骤s56、s57。

s55、获取商品的图像信息中的字符，根据商品图像信息中的字符获取商品的文本信息。

s56、对商品的图像信息进行特征提取,根据商品的特征对商品进行分类,获取商品的分类，根据商品的分类获取商品的文本信息。

s57、将商品的文本信息转换为语音信息，并对语音信息进行输出。

需要说明的是，上述实施例中提供的商品识别方法中获取商品的文本信息的步骤还可以应用于远端服务器中，例如：当远端服务设备接收到商品的图像信息时，也可以对商品的图像信息进行条码识别，获取商品的条码，并根据商品的条码获取商品的文本信息，然后再发出商品的文本信息；再例如：当远端服务设备接收到商品的图像信息时，也可以对商品的图像信息进行光学字符识别，获取商品的图像信息中的字符；根据商品图像信息中的字符获取商品的文本信息，然后用再发出商品的文本信息；即远端服务器也可以采用上述任一种实现方式中的商品的文本信息获取方法来获取商品的文本信息。

下面说明本发明实施例提供的与上文所提供的方法实施例相对应的装置实施例。需要说明的是，下述装置实施例中相关内容的解释，均可以参考上述方法实施例。

在采用对应各个功能划分各个功能模块的情况下，图6示出了上述实施例中所涉及的用于辅助盲人获取商品信息的商品识别装置的一种可能的结构示意图。商品识别装置600包括：

图像采集模块61，用于从至少一个视角对商品进行图像采集，获取商品的图像信息。

图像识别模块62，用于根据商品的图像信息获取商品的文本信息。

语音输出模块63，用于将商品的文本信息转换为语音信息，并对语音信息进行输出。

本发明的实施例提供的商品识别装置包括：图像采集模块、图像识别模块以及语音输出模块，其中，图像采集模块用于从至少一个视角对商品进行图像采集，获取商品的图像信息，图像识别模块用于对商品的图像信息进行识别，并根据识别结果获取商品的文本信息，语音输出模块用于将商品的文本信息转换为语音信息，并对语音信息进行输出，由于本发明实施例提供的商品识别装置可以获取商品的图像信息并根据商品的图像信息获取商品文本信息，最后将商品的文本信息转换为语音信息输出，所以通过本发明实施例盲人可以通过语音的方式获取商品信息。

可选的，参照图7所示，图像识别模块62包括：发送单元621和接收单元622；

发送单元621用于将商品图像信息发送至远端服务设备，以便远端服务设备对商品的图像信息进行识别，并根据识别结果获取商品的文本信息；

接收单元622用于接收远端服务设备发送的商品的文本信息。

可选的，图像识别模块62具体用于对商品图像信息进行条码识别，获取商品的条码，根据商品的条码获取商品的文本信息。

可选的，图像识别模块62具体用于对商品的图像信息进行光学字符识别，获取商品的图像信息中的字符，根据商品的图像信息中的字符获取商品的文本信息。

可选的，图像识别模块62具体用于对商品的图像信息进行特征提取，获取商品的特征；根据商品的特征对商品进行分类，获取商品的分类；根据商品的分类获取商品的文本信息。

即，图像采集模块61用于实现图1所示的步骤s11、图2所示的步骤s21、图3所示的步骤s31、图4所示的步骤s41以及图5所示的步骤s51；图像识别模块62用于实现图1所示的步骤s12、图2所示的步骤s22、s23、图3所示的步骤s32、s33、图4所示的步骤s42、s43、s44以及图5所示的步骤s52、s53、s54、s55、s56；语音输出模块63用于实现图1所示的步骤s13、图2所示的步骤s24、图3所示的步骤s34、图4所示的步骤s45以及图5所示的步骤s57。

还需说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

在硬件实现上，上述的图像采集模块61可以是单目摄像头、双目摄像头等图像传感器中的一种或多种。图像识别模块62可以是处理器；语音输出模块63可以是扬声器、功放机、音箱、耳机等音频输出设备。上述商品识别装置所执行的动作所对应的程序均可以以软件形式存储于商品识别装置的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在采用集成的单元的情况下，图8示出了上述实施例中所涉及的商品识别装置的一种可能的结构示意图。商品识别装置800包括：处理器81、存储器82、系统总线83、通信接口84、图像采集装置85、语音输出装置86。

上述处理器81可以是一个处理器，也可以是多个处理元件的统称。例如，处理器81可以为中央处理器(centralprocessingunit，cpu)。处理器81也可以为其他通用处理器、数字信号处理器(digitalsignalprocessing，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。处理器81还可以为专用处理器，该专用处理器可以包括基带处理芯片、射频处理芯片等中的至少一个。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等等。进一步地，该专用处理器还可以包括具有该装置其他专用处理功能的芯片。

存储器82用于存储计算机执行代码，处理器81与存储器82通过系统总线83连接，当移动终端运行时，处理器81用于执行存储器82存储的计算机执行代码，以执行本发明实施例提供的任意一种商品识别方法，如，处理器81用于支持移动终端执行图1所示的步骤s12、图2所示的步骤s22、s23、图3所示的步骤s32、s33、图4所示的步骤s42、s43、s44以及图5所示的步骤s52、s53、s54、s55、s56，和/或用于本文所描述的技术的其它过程，具体的商品识别方法可参考上文及附图中的相关描述，此处不再赘述。

系统总线83可以包括数据总线、电源总线、控制总线和信号状态总线等。本实施例中为了清楚说明，在图8中将各种总线都示意为系统总线83。

通信接口84具体可以是该装置上的收发器。该收发器可以为无线收发器。例如，无线收发器可以是该装置的天线等。处理器81通过通信接口84与其他设备，例如，若该装置为该终端设备中的一个模块或组件时，该装置用于与该终端设备中的其他模块之间进行数据交互。

结合本发明公开内容所描述的方法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。本发明实施例还提供一种存储介质，用于储存为图8所示的移动终端所用的计算机软件指令，其包含执行图1、2、3、4、5所示的商品识别方法所设计的程序代码。其中，软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(英文：randomaccessmemory，缩写：ram)、闪存、只读存储器(英文：readonlymemory，缩写：rom)、可擦除可编程只读存储器(英文：erasableprogrammablerom，缩写：eprom)、电可擦可编程只读存储器(英文：electricallyeprom，缩写：eeprom)、寄存器、硬盘、移动硬盘、只读光盘(cd-rom)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。另外，该asic可以位于核心网接口设备中。当然，处理器和存储介质也可以作为分立组件存在于核心网接口设备中。

本发明实施例还提供一种计算机程序产品，该计算机程序可直接加载到计算机的内部存储器中，并含有软件代码，计算机程序经由计算机载入并执行后能够实现图1、2、3、4、5所示的商品识别方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘兆祥;廉士国
技术所有人：深圳前海达闼云端智能科技有限公司
我是此专利的发明人

上一篇：神经网络处理器中的批处理的制作方法
上一篇：指纹图像处理方法、光学指纹辨识系统及电子装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。