一种信息提供方法及装置的制造方法_2

文档序号:9688168阅读:来源:国知局
的内容信息。假设图像中包含“2014年05月28日”这一内容信息,识别“2014年05月28日”这一内容信息,具体如下:
[0047]例如,设定指定类型的文字为数字类型的文字,且设定预设集合包括:2000至2014的15个分词的第一集合、01至12的12个分词的第二集合、包含01至31的31个分词的第三集合。
[0048]则服务器识别图像中的数字类型的文字,并确定由识别出的数字类型的文字构成的分词为:“2014”、“05”和“28”,且确定分词“2014”落入第一集合,分词“05”落入第二集合,分词“28”落入第三集合,因此,服务器则确定这三个分词为识别出的内容信息,且该内容信息为表示2014年05月28这个日期信息。
[0049]在上述三种识别文字类型的内容信息的方法中,服务器均可通过光学字符识别(Optical Character Recognit1n, OCR)技术识别图像中的文字,并可通过预设的词库或分词模型确定由识别出的文字构成的分词。
[0050]另外,在步骤S102中,当服务器获取到的图像中的内容信息为图形类型的内容信息时,可采用以下方法识别图像中图形类型的内容信息。
[0051]服务器可确定获取到的图像与预存的图像的相似度,当确定的相似度大于设定阈值时,则直接将预存的该图像作为识别出的图形类型的内容信息。
[0052]进一步的,由于相比于风景图像、环境图像等颜色较为多变复杂的图像而言,票据图像具有颜色单一、前景和背景分明的特点,因此,从票据图像中识别文字类型的内容信息具有较高的准确性,而且,越来越多的用户开始采用将采集的票据图像上传到服务器的方式进行记账,这样,服务器也会获取到相应的票据图像,因此,下面将以服务器获取到的图像为票据图像为例,详细说明服务器根据票据图像向用户提供信息的方法,如图2所示。
[0053]图2为本申请实施例提供的服务器根据获取到的票据图像向用户提供信息的过程,具体包括以下步骤:
[0054]S201:服务器获取用户采集的票据图像。
[0055]在实际应用场景中,用户在实体店购买商品后,可通过终端采集的相应的票据图像,再通过终端上安装的记账APP将该票据图像上传到服务器,服务器则获取到该票据图像。
[0056]其中,在本申请实施例中,所述的票据图像是以票据为对象采集的图像,根据票据的不同类型,该票据可以但不限于为各种凭证类型的票据,如,发票、单据、购物小票等。根据票据的不同内容,票据可以但不限于为与住宿相关的票据、与就餐相关的票据、与旅游相关的票据、与商品进出口相关的票据,或与购物相关的票据等。
[0057]S202:服务器识别票据图像中文字类型的内容信息。
[0058]在本申请实施例中,所述的内容信息可包括票据图像中的商品标识、商品金额和购买时间中的至少一个。
[0059]下面以票据类型为购物小票,票据图像为购物小票的图像为例说明。
[0060]例如,假设用户通过手机对一张购物小票进行拍照,将拍照获取的图像上传到服务器,服务器则在通过步骤S201获取到该购物小票的图像之后,通过图像识别技术对图像进行识别,获取购物小票的图像中所包含的商品标识、商品金额和购买时间中的一种或几种内容信息。
[0061]假设购物小票中包含四种商品的商品标识,分别为女裙、泳衣、牙膏和拖鞋,这四种商品对应的商品金额分别为P1、P2、P3、P4,各商品对应的购买时间均为tl。则服务器通过上述步骤S201获取该购物小票的图像之后,可通过步骤S202识别该图像中商品标识(如,女裙、泳衣、牙膏和拖鞋),商品金额(如,各商品对应的商品金额P1、P2、P3、P4),和购买时间(如,各商品标识对应的购买时间tl)中的至少一个。
[0062]S203:服务器根据识别出的票据图像中的内容信息,确定待提供给用户的推荐信肩、O
[0063]具体的,服务器在识别出票据图像中文字类型的内容信息之后,如果确定预存内容信息中包含当前识别出的内容信息,则将与该内容信息对应的相关信息确定为待提供给用户的推荐信息。
[0064]继续延用上述实例,当服务器识别出商品标识女裙、泳衣、牙膏和拖鞋之后,如果确定在预存商品标识中包含女裙,则将与女裙对应的商品信息确定为待提供给用户的推荐信息。
[0065]S204:服务器将推荐信息提供给用户。
[0066]在上述步骤S202中,服务器在识别购物小票的图像中的商品标识、商品金额和购买时间等文字类型的内容信息时,可采用前述的实施方式一?实施方式三进行识别。具体的,服务器可采用实施方式一识别购物小票的图像中的商品标识,采用实施方式二识别购物小票的图像中的商品金额,采用实施方式三识别购物小票的图像中的购买时间。
[0067]其中,在采用实施方式二识别商品金额时,可预设关键词为“单价”、“应收”、“金额”等,指定类型的文字为数字类型的文字。则服务器获取购物小票的图像之后,识别购物小票的图像中的文字,并确定由识别出的文字构成的分词“商品单价”中包括预设关键词“单价”,并且位于该分词“商品单价”之后的文字是数字类型的文字“2.00”,从而确定该数字类型的文字“2.00”为识别出的商品金额。
[0068]进一步的,假设识别出的文字构成的分词中包含不止一个预设关键词,则可根据各预设关键词的优先级,确定优先级最高的预设关键词后的数字类型的文字为识别出的商品金名页。
[0069]一般的,能够准确反映商品金额的关键词的优先级从高到低顺序为:单价、应收、金额。这是因为,对于一个购物小票而言,“单价”反映了每一件商品的实际金额,其优先级最高,而“应收”反映了购物小票上的所有商品的总金额,“金额”一般是指用户针对该次购物交付给售货员的纸币的面值之和,该金额可能会大于实际应收的金额。因此,上例中,如果服务器从购物小票的图像中识别出的文字所构成的分词包括“商品单价”和“应收”这两个分词,则按照预设关键词“单价”和“应收”的优先级,服务器仅将“商品单价”后的数字类型的文字确定为识别出的商品金额。
[0070]在本申请实施例中,在服务器通过步骤S202识别出票据图像中文字类型的内容信息之后,通过步骤S203确定待提供给用户的推荐信息的方法可包括如下几种:
[0071]方法A:
[0072]当服务器从票据图像中识别出的内容信息至少包括商品标识和购买时间时,根据该商品标识和购买时间确定待提供给用户的推荐信息,具体包括:当服务器识别出的商品标识中不包含预设的易耗类型的商品标识时,在历史记录中,确定最近一次记录的所述易耗类型的商品标识对应的历史时间,若所述历史时间到识别出的购买时间的时间长度大于针对所述易耗类型的商品标识对应的预设的消耗时间,则将保存的易耗类型的商品标识对应的商品信息确定为待提供给用户的推荐信息,当识别出的商品标识中包含预设的易耗类型的商品标识时,将识别出的购买时间记录为所述用户购买所述易耗类型的商品的历史时间。
[0073]延用上述实例,假设预设的易耗类型的商品标识包括牙膏、卫生纸、洗衣液。针对牙膏、卫生纸、洗衣液这三种易耗类型的商品标识预设的消耗时间分别为til、tl2和tl3。则服务器在识别出该购物小票的图像中的商品标识为女裙、泳衣、牙膏和拖鞋,并识别出购买时间tl后,确定识别出的四种商品标识中不包含易耗类型的商品标识卫生纸和洗衣液,因此,服务器在历史记录中,查找到该用户上一次购买卫生纸的历史时间为t2,并确定针对该卫生纸预设的消耗时间为tl2,从而,判断历史时间t2到识别出的购买时间tl的时间长度是否大于消耗时间tl2,若大于,则说明该用户有必要购买卫生纸,将预存的卫生纸的商品信息确定为待提供给用户的推荐信息。类似的,针对用户本次未购买的易耗类型商品洗衣液,服务器也可进行相似的处理以确定要向用户提供的推荐信息,这里就不再一一赘述。
[0074]需要说明的是,本申请实施例中所述的历史记录为:用户之前购买商品时,将相应的票据图像上传到服务器,服务器识别并记录的票据图像中的内容信息。
[0075]进一步的,针对易耗类型的商品预设消耗时间时,可根据记录的该用户购买该易耗类型的商品的频次进行设定,具体为:预先根据记录的该用户每次购买该易耗类型的商品的历史时间,确定相邻两个历史时间的时间间隔,将各时间间隔的平均值设置为该易耗类型的商品的消耗时间。
[0076]延用上述实例,以预设卫生纸的消耗时间为例说明,假设记录的该用户每次购买的卫生纸的历史时间为tl21、tl22、tl23、tl24,则服务器确定相邻两个历史时间的时间间隔 tl22-tl21、tl23-tl22、tl24-tl23,将各时间间隔的平均值(tl22_tl31+tl23_tl22+tl24-tl23)/3设置为卫生纸的消耗时间tl2。
[0077]另外,在上述方法A中,当服务器从本次获取到的票据图像中识别出的商品标识中不包含预设的易耗类型的商品标识时,如果判定最近一次记录的所述易耗类型的商品标识对应的历史时间到购买时间(该购买时间为服务器从本次获取到
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1