基于经验学习的商品归一和检索系统的制作方法

文档序号:21409839发布日期:2020-07-07 14:45阅读:218来源:国知局
基于经验学习的商品归一和检索系统的制作方法

本发明涉及商品信息归一技术领域,具体是基于经验学习的商品归一和检索系统。



背景技术:

经验学习是指从经验或从实干中学习,广义地说,任何学习都是一种经验的过程,经验学习更强调通过具体的做达到行为改变的目的。

在saas服务的业务场景下,每个客户都会维护自己的商品档案,对同一个商品实体的判别通常可以通过ean(商品69码)识别,但实际业务场景下客户的管理水平不同,档案资料的完整性各不相同,这给数据治理带来了极大的挑战。

所以,人们急需一种基于经验学习的商品归一和检索系统来解决上述问题。



技术实现要素:

本发明的目的在于提供基于经验学习的商品归一和检索系统,以解决现有技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:基于经验学习的商品归一和检索系统,该系统包括用于对商品基本档案进行存储的商品档案库、用于对商品基本档案进行查询和补充的客户端、用于对商品基本档案完善过程中的归一化处理以及用于对完善的商品基本档案进行查询和检索的检索模块;

所述客户端的输出端电性连接归一化处理的输入端,所述归一化处理的输出端电性连接商品档案库的输入端,所述商品档案库通过信息同步将信息发送至其他客户端,形成良性反馈,所述商品档案库通过匹配模块对检索模块的检索信息进行匹配。

作为优选技术方案,所述归一化处理通过短文本拆分模块、关键词提取模块、行业词汇积累模块和商品归一化模块共同实现;

所述短文本拆分模块的输出端电性连接关键词提取模块的输入端,所述行业词汇积累模块的输出端电性连接关键词提取模块的输入端,所述关键词提取模块的输出端电性连接商品归一模块的输入端;

所述短文本拆分模块用于对客户端输入的关于商品基本档案的部分描述进行拆分,形成若干个对商品基本档案描述的词汇,所述关键词提取模块用于将短文本拆分模块所拆分的若干个对基本档案描述的词汇进行关键词的提取,所述关键词是指未在对商品的基本档案描述过程中出现的词汇,所述行业词汇积累模块用于对行业中会出现的描述词汇进行积累和收集,使得关键词提取模块在进行关键词提取的过程中有依据可寻,避免出现关键词提取模块所提取的短文本拆分模块所拆分的关键词较少,无法对商品基本档案进行完善,所述商品归一模块用于对关键词提取模块所提取的关键词进行归一处理,完善商品的基本档案并存储在商品档案库中。

作为优选技术方案,所述短文本拆分模块包括对短文本的初步拆分和细致拆分;

所述初步拆分是指根据传统的对于商品的描述以及助词在短文本中出现的位置将短文本初步拆分成若干个单元,这若干个单元单独之间不能作为对商品基本档案描述的关键词,所述细致拆分是指根据词库对初步拆分之后的若干个单元中的每个单元再次进行拆分成若干个小单元,使得再次拆分之后的若干个小单元都能作为单独的关键词对商品基本档案进行描述。

作为优选技术方案,所述初步拆分通过字符数识别单元、助词匹配单元、助词库和拆分初确认单元实现,所述细致拆分通过词汇匹配单元、词库和拆分确认单元实现;

所述字符数识别单元的输出端电性连接助词匹配单元的输入端,所述助词库的输出端电性连接助词匹配单元的输入端,所述助词匹配单元的输出端电性连接拆分初确认单元的输入端,所述拆分初确认单元的输出端电性连接词汇匹配单元的输入端,所述词库的输出端电性连接词汇匹配单元的输入端,所述词汇匹配单元的输出端电性连接拆分确认单元的输入端;

所述字符数识别单元用于对客户端所发布的对商品基本档案的部分描述短文本的总字符进行识别和确认,所述助词匹配单元用于在助词库的基础上对短文本中的助词进行匹配和标注,所述拆分初确认单元用于根据所匹配和标注的助词确认初步拆分之后的单元,所述词汇匹配单元用于在词库的基础上对初步拆分之后的单元中的词汇进行匹配和标注,所述拆分确认单元用于根据匹配和批注的词汇将初步拆分之后的单元最终细致拆分成若干个小单元,完成对短文本的关键词拆分。

作为优选技术方案,所述短文本拆分单元的拆分步骤为:

s1、识别短文本中的字符数t;

s2、根据助词库匹配并标注短文本中的助词,显示助词数量k以及标点符号所占字符数y;

s3、短文本根据助词数量和标点符号所占字符被初步拆分成(k+1+y)个单元;

s4、根据词汇匹配单元和词库对(k+1+y)个单元进行细致拆分,形成若干个词汇小单元,并将拆分之后的小单元输入检索模块形成检索数据库;

s5、最终确认所拆分的小单元的数量x以及每个小单元的字符数;

s6、根据公式计算出不同字符数的词汇占整个短文本的比例,便于后期根据大数据统计不同字符的词汇出现的频率,用于加快对于短文本的拆分速度。

作为优选技术方案,所述步骤s6中;

根据公式:

t=k+2*a+3*b+4*c+5*d+y(a+b+c+d=x);

其中,a表示两个字词汇的数量,b表示三个字词汇的数量,c表示四个字词汇的数量,d表示五个字词汇的数量;

根据公式:

分别计算不同字符数的词汇在整个短文本中所出现的概率,其中i为a、b、c和d,通过对不同字符数的词汇在短文本中出现的概率进行计算和统计,使得后期在遇到较多字符数的单元时,可以根据概率大小有限选择概率较大的词汇进行拆分,加速了对于短文本拆分的速度和效率。

作为优选技术方案,所述检索模块包括语音检索单元和文本检索单元,所述语音检索单元和文本检索单元均通过匹配模块从商品档案库中检索相关商品。

作为优选技术方案,所述语音检索模块由语音识别单元、文本转化单元和文本识别单元共同实现;

所述语音识别单元的输出端电性连接文本转化单元的输入端,所述文本转化单元的输出端电性连接文本识别单元的输入端,所花文本检索单元的输出端电性连接文本识别单元的输出端,所述文本识别单元的输出端电性连接匹配模块的输入端,所述匹配模块与商品档案库电性连接;

所述语音识别单元用于对语音检索过程中的语音进行识别,所述文本转化单元用于将语音识别单元所识别的语音转化成文本,所述文本识别单元用于对文本中的关键字进行识别,所述文本识别单元还用于对文本检索单元输入的关键词进行识别。

作为优选技术方案,所述客户端包括结果显示模块,用于对检索模块的检索结果进行显示。

与现有技术相比,本发明的有益效果是:

1、该系统通过不同客户对同一个商品的部分描述,可以构建一个商品实体的尽可能详尽的描述,一个商品的基本档案可以通过不同人的描述,以“拼图”的方式补全全貌,同时任何一个客户补充了自己关注的商品信息后,该信息都会同步到其他客户的商品档案中,形成了良性反馈。

2、通过对短文本中的字符数进行识别,以及通过助词对短文本进行初步拆分,可以大大的提高短文本拆分之后词汇的正确性,因为助词都是用于连接名词和形容词,使得可以很好的对短文本中的词汇进行拆分,使得拆分的速度更加的迅速,使得拆分的结果更加的精准。

3、通过对商品档案库与客户端之间的信息同步,使得关注该商品的客户端都能第一时间得到完整的关于商品的基本档案,通过对短文本拆分之后的关键词进行提取,使得在利用检索模块进行检索时,使得检索结果更加的精准。

附图说明

图1为本发明基于经验学习的商品归一和检索系统的模块连接示意图;

图2为本发明基于经验学习的商品归一和检索系统的短文本拆分模块单元连接示意图;

图3为本发明基于经验学习的商品归一和检索系统的检索模块单元连接示意图;

图4为本发明基于经验学习的商品归一和检索系统的短文本拆分模块步骤流程示意图;

图5为本发明基于经验学习的商品归一和检索系统的客户端与商品档案库连接示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1-5所示,基于经验学习的商品归一和检索系统,该系统包括用于对商品基本档案进行存储的商品档案库、用于对商品基本档案进行查询和补充的客户端、用于对商品基本档案完善过程中的归一化处理以及用于对完善的商品基本档案进行查询和检索的检索模块;

所述客户端的输出端电性连接归一化处理的输入端,所述归一化处理的输出端电性连接商品档案库的输入端,所述商品档案库通过信息同步将信息发送至其他客户端,形成良性反馈,所述商品档案库通过匹配模块对检索模块的检索信息进行匹配。

所述归一化处理通过短文本拆分模块、关键词提取模块、行业词汇积累模块和商品归一化模块共同实现;

所述短文本拆分模块的输出端电性连接关键词提取模块的输入端,所述行业词汇积累模块的输出端电性连接关键词提取模块的输入端,所述关键词提取模块的输出端电性连接商品归一模块的输入端;

所述短文本拆分模块用于对客户端输入的关于商品基本档案的部分描述进行拆分,形成若干个对商品基本档案描述的词汇,所述关键词提取模块用于将短文本拆分模块所拆分的若干个对基本档案描述的词汇进行关键词的提取,所述关键词是指未在对商品的基本档案描述过程中出现的词汇,所述行业词汇积累模块用于对行业中会出现的描述词汇进行积累和收集,使得关键词提取模块在进行关键词提取的过程中有依据可寻,避免出现关键词提取模块所提取的短文本拆分模块所拆分的关键词较少,无法对商品基本档案进行完善,所述商品归一模块用于对关键词提取模块所提取的关键词进行归一处理,完善商品的基本档案并存储在商品档案库中。

所述短文本拆分模块包括对短文本的初步拆分和细致拆分;

所述初步拆分是指根据传统的对于商品的描述以及助词在短文本中出现的位置将短文本初步拆分成若干个单元,这若干个单元单独之间不能作为对商品基本档案描述的关键词,所述细致拆分是指根据词库对初步拆分之后的若干个单元中的每个单元再次进行拆分成若干个小单元,使得再次拆分之后的若干个小单元都能作为单独的关键词对商品基本档案进行描述。

所述初步拆分通过字符数识别单元、助词匹配单元、助词库和拆分初确认单元实现,所述细致拆分通过词汇匹配单元、词库和拆分确认单元实现;

所述字符数识别单元的输出端电性连接助词匹配单元的输入端,所述助词库的输出端电性连接助词匹配单元的输入端,所述助词匹配单元的输出端电性连接拆分初确认单元的输入端,所述拆分初确认单元的输出端电性连接词汇匹配单元的输入端,所述词库的输出端电性连接词汇匹配单元的输入端,所述词汇匹配单元的输出端电性连接拆分确认单元的输入端;

所述字符数识别单元用于对客户端所发布的对商品基本档案的部分描述短文本的总字符进行识别和确认,所述助词匹配单元用于在助词库的基础上对短文本中的助词进行匹配和标注,所述拆分初确认单元用于根据所匹配和标注的助词确认初步拆分之后的单元,所述词汇匹配单元用于在词库的基础上对初步拆分之后的单元中的词汇进行匹配和标注,所述拆分确认单元用于根据匹配和批注的词汇将初步拆分之后的单元最终细致拆分成若干个小单元,完成对短文本的关键词拆分。

所述短文本拆分单元的拆分步骤为:

s1、识别短文本中的字符数t;

s2、根据助词库匹配并标注短文本中的助词,显示助词数量k以及标点符号所占字符数y;

s3、短文本根据助词数量和标点符号所占字符被初步拆分成(k+1+y)个单元;

s4、根据词汇匹配单元和词库对(k+1+y)个单元进行细致拆分,形成若干个词汇小单元,并将拆分之后的小单元输入检索模块形成检索数据库;

s5、最终确认所拆分的小单元的数量x以及每个小单元的字符数;

s6、根据公式计算出不同字符数的词汇占整个短文本的比例,便于后期根据大数据统计不同字符的词汇出现的频率,用于加快对于短文本的拆分速度。

所述步骤s6中;

根据公式:

t=k+2*a+3*b+4*c+5*d+y(a+b+c+d=x);

其中,a表示两个字词汇的数量,b表示三个字词汇的数量,c表示四个字词汇的数量,d表示五个字词汇的数量;

根据公式:

分别计算不同字符数的词汇在整个短文本中所出现的概率,其中i为a、b、c和d,通过对不同字符数的词汇在短文本中出现的概率进行计算和统计,使得后期在遇到较多字符数的单元时,可以根据概率大小有限选择概率较大的词汇进行拆分,加速了对于短文本拆分的速度和效率。

所述检索模块包括语音检索单元和文本检索单元,所述语音检索单元和文本检索单元均通过匹配模块从商品档案库中检索相关商品。

所述语音检索模块由语音识别单元、文本转化单元和文本识别单元共同实现;

所述语音识别单元的输出端电性连接文本转化单元的输入端,所述文本转化单元的输出端电性连接文本识别单元的输入端,所花文本检索单元的输出端电性连接文本识别单元的输出端,所述文本识别单元的输出端电性连接匹配模块的输入端,所述匹配模块与商品档案库电性连接;

所述语音识别单元用于对语音检索过程中的语音进行识别,所述文本转化单元用于将语音识别单元所识别的语音转化成文本,所述文本识别单元用于对文本中的关键字进行识别,所述文本识别单元还用于对文本检索单元输入的关键词进行识别。

所述客户端包括结果显示模块,用于对检索模块的检索结果进行显示。

实施例一:客户端51对商品取暖器进行了描述:取暖器耗电量低,供暖效果好,不伤眼,供暖范围大,摇头供暖。

s1、识别短文本中的字符数29;

s2、根据助词库匹配并标注短文本中的助词,显示助词数量0以及标点符号所占字符数5;

s3、短文本根据助词数量和标点符号所占字符被初步拆分成5个单元;

s4、根据词汇匹配单元和词库对5个单元进行细致拆分,形成若干个词汇小单元,并将拆分之后的小单元输入检索模块形成检索数据库;

s5、最终确认所拆分的小单元的数量x以及每个小单元的字符数;

s6、根据公式计算出不同字符数的词汇占整个短文本的比例,便于后期根据大数据统计不同字符的词汇出现的频率,用于加快对于短文本的拆分速度。

所述步骤s6中;

根据公式:

29=0+2*4+3*4+4*1+5*0+5(4+4+1+0=9);

其中,a=2表示两个字词汇的数量,b=3表示三个字词汇的数量,c=4表示四个字词汇的数量,d=5表示五个字词汇的数量;

根据公式:

分别计算不同字符数的词汇在整个短文本中所出现的概率,其中出现两个字符的词汇和三个字符的词汇概率最大,所以,通过对不同字符数的词汇在短文本中出现的概率进行计算和统计,使得后期在遇到较多字符数的单元时,可以根据概率大小有限选择概率较大的词汇进行拆分,加速了对于短文本拆分的速度和效率,例如:此次两个字符和三个字符的词汇量最大,在后期拆分过程中以两个字符和三个字符的词汇为主。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1