基于人工智能的查询信息纠错构架生成方法和装置与流程

文档序号:14474375阅读:262来源:国知局
本发明涉及信息处理
技术领域
:,尤其涉及一种基于人工智能的查询信息纠错构架生成方法和装置。
背景技术
::用户在使用搜索引擎进行检索时,经常会输入错误的查询词,比如“清华大学”输入成“情华大学”,或者输入成为“亲华大学”,或者输入成“清华学”。因此,需要搜索引擎能够对错误的查询词进行识别,并对其进行纠错。目前,在对查询词进行纠错时,主要通过先验指导完成错误片段识别,然后提供正确候选片段。上述构架是以固定的方式进行编码实现的。但是,针对不同的场景需求,相应的场景需求会不同。因此,针对不同的场景,采用的策略和资源是不同的,例如英文的纠错框架、针对app端的纠错框架等,均需要独自开发对应的纠错框架。显然,现有的纠错框架无法满足多个场景的需求,不够灵活。技术实现要素:本发明提供一种基于人工智能的查询信息纠错构架生成方法和装置,以解决上述技术问题中的至少一个。本发明实施例提供一种基于人工智能的查询信息纠错构架生成方法,包括:获取应用场景信息;根据所述应用场景信息确定纠错需求信息;根据所述纠错需求信息从数据库中选取能够实现对应功能的网络层和/或组件,结合神经元,以生成查询信息纠错构架。可选的,如果所述数据库中不包含能够实现对应功能的网络层和/或组件,则建立能够实现对应功能的新网络层和/或新组件。可选的,所述组件包括存储型组件和功能性组件。可选的,所述存储型组件包括通用键值查询组件kvcommonweight、结果缓存查询组件resultcacheweight、变长短语替换表单表组件phrasetablesingleweight以及变长短语替换表多表组件phrasetableconcatweight。可选的,所述功能性组件包括编辑距离召回组件、归一化组件、切词组件、语言模型组件、注音组件、梯度提升决策树gbdt模型组件、一元错拼模型组件errormodel1weight以及二元错拼模型组件errormodel2weight。可选的,所述网络层包括流程相关网络层和训练测试相关网络层。可选的,所述流程相关网络层包括变量初始化网络层clearlayer、输入归一化网络层normlayer、规则确认网络层checklayer、分词网络层segmentlayer、deepcrf分词层deepcrfsegmentlayer、预处理层preprocesslayer、短语替换表单表召回层ptsinglerecalllayer、短语替换表多表召回层ptconcatrecalllayer、错误位置检测层errordetectlayer、拼音编辑距离召回层edrecalllayer、自身片段召回层selfrecalllayer、特征抽取层featureextractlayer、模型打分层rankinglayer、贪心搜索层greedysearchlayer以及束搜索层beamsearchlayer。可选的,所述训练测试相关网络层包括加载预测语料层loadpredictcorpuslayer、加载训练语料层loadtraincorpuslayer、特征输出层dumpfullfeaturelayer以及短语替换特征输出层dumpptfeaturelayer。可选的,所述神经元包括查询信息元、候选元、结果元以及指导元。本发明另一实施例提供一种基于人工智能的查询信息纠错构架生成装置,包括:获取模块,用于获取应用场景信息;确定模块,用于根据所述应用场景信息确定纠错需求信息;生成模块,用于根据所述纠错需求信息从数据库中选取能够实现对应功能的网络层和/或组件,结合神经元,以生成查询信息纠错构架。可选的,建立模块,用于如果所述数据库中不包含能够实现对应功能的网络层和/或组件,则建立能够实现对应功能的新网络层和/或新组件。可选的,所述组件包括存储型组件和功能性组件。可选的,所述存储型组件包括通用键值查询组件kvcommonweight、结果缓存查询组件resultcacheweight、变长短语替换表单表组件phrasetablesingleweight以及变长短语替换表多表组件phrasetableconcatweight。可选的,所述功能性组件包括编辑距离召回组件、归一化组件、切词组件、语言模型组件、注音组件、梯度提升决策树gbdt模型组件、一元错拼模型组件errormodel1weight以及二元错拼模型组件errormodel2weight。可选的,所述网络层包括流程相关网络层和训练测试相关网络层。可选的,所述流程相关网络层包括变量初始化网络层clearlayer、输入归一化网络层normlayer、规则确认网络层checklayer、分词网络层segmentlayer、deepcrf分词层deepcrfsegmentlayer、预处理层preprocesslayer、短语替换表单表召回层ptsinglerecalllayer、短语替换表多表召回层ptconcatrecalllayer、错误位置检测层errordetectlayer、拼音编辑距离召回层edrecalllayer、自身片段召回层selfrecalllayer、特征抽取层featureextractlayer、模型打分层rankinglayer、贪心搜索层greedysearchlayer以及束搜索层beamsearchlayer。可选的,所述训练测试相关网络层包括加载预测语料层loadpredictcorpuslayer、加载训练语料层loadtraincorpuslayer、特征输出层dumpfullfeaturelayer以及短语替换特征输出层dumpptfeaturelayer。可选的,所述神经元包括查询信息元、候选元、结果元以及指导元。本发明还一实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述的基于人工智能的查询信息纠错构架生成方法。本发明又一实施例提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器用于执行本发明第一方面实施例所述的基于人工智能的查询信息纠错构架生成方法。本发明实施例提供的技术方案可以包括以下有益效果:通过获取应用场景信息,并根据所述应用场景信息确定纠错需求信息,以及根据所述纠错需求信息从数据库中选取能够实现对应功能的网络层和/或组件,结合神经元,以生成查询信息纠错构架,能够针对不同应用场景,灵活地生成与其相对应的纠错框架,更加符合需求。本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是根据本发明一个实施例的基于人工智能的查询信息纠错构架生成方法的流程图;图2是根据本发明一个实施例的纠错框架关系示意图;图3是一个具体应用场景的生成纠错框架的示意图;图4是根据本发明另一个实施例的基于人工智能的查询信息纠错构架生成方法的流程图;图5是根据本发明一个实施例的基于人工智能的查询信息纠错构架生成装置的结构框图;图6是根据本发明另一个实施例的基于人工智能的查询信息纠错构架生成装置的结构框图。具体实施方式下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。下面参考附图描述本发明实施例的基于人工智能的查询信息纠错构架生成方法和装置。图1是根据本发明一个实施例的基于人工智能的查询信息纠错构架生成方法的流程图。如图1所示,该基于人工智能的查询信息纠错构架生成方法包括:s101,获取应用场景信息。目前,针对查询信息纠错,有多种不同的应用场景。例如,中文纠错场景,对用户输入的中文查询信息进行纠错,这是最基础的纠错场景。英文纠错场景,针对的是用户输入的英文查询信息。针对英文的纠错,尽管流程上与中文的纠错是差不多的,但是在具体的功能实现上还是具有一定区别的。再例如移动终端纠错场景,用户所使用的是移动终端,其是基于安卓系统的,与使用pc端基于windows系统是有区别的。针对智能机器人的纠错场景,用户是对智能机器人说出语音信息的,因此需要先将语音信息转换成文本信息再进行纠错。上述不同的应用场景,有的是系统不同,有的是功能的细微差别,但是均需要独立开发各自对应的纠错框架,这就提高了研发的成本,并不能满足多元化的需求,不够灵活。因此,本发明提出一种基于人工智能的查询信息纠错构架生成方法,通过建立一个神经元式的纠错框架,能够针对不同的应用场景灵活地搭配选用相应的网络层和组件以及神经元,来实现满足不同应用场景的纠错功能。在本发明的一个实施例中,首先可获取应用场景信息。其中,应用场景信息可包括中文纠错场景、英文纠错场景、智能机器人纠错场景等等。s102,根据应用场景信息确定纠错需求信息。由于不同的应用场景,其对应的纠错需求是不同的,因此可根据应用场景信息确定纠错需求信息。s103,根据纠错需求信息从数据库中选取能够实现对应功能的网络层和/或组件,结合神经元,以生成查询信息纠错构架。在确定纠错需求信息之后,即可根据纠错需求信息从数据库中选取能够实现对应功能的网络层和/或组件,结合神经元,以生成查询信息纠错构架,从而满足不同应用场景的需求。下面详细介绍下纠错框架的组成部分。纠错框架通常包括应用场景application、网络层layer、神经元neural以及组件weight。上述组成部分之间的层次关系,可如图2所示。具体地,组件可包括存储型组件和功能性组件。存储型组件包括通用键值查询组件kvcommonweight、结果缓存查询组件resultcacheweight、变长短语替换表单表组件phrasetablesingleweight以及变长短语替换表多表组件phrasetableconcatweight。功能性组件包括编辑距离召回组件、归一化组件、切词组件、语言模型组件、注音组件、梯度提升决策树gbdt模型组件、一元错拼模型组件errormodel1weight以及二元错拼模型组件errormodel2weight。网络层包括流程相关网络层和训练测试相关网络层。流程相关网络层包括变量初始化网络层clearlayer、输入归一化网络层normlayer、规则确认网络层checklayer、分词网络层segmentlayer、deepcrf分词层deepcrfsegmentlayer、预处理层preprocesslayer、短语替换表单表召回层ptsinglerecalllayer、短语替换表多表召回层ptconcatrecalllayer、错误位置检测层errordetectlayer、拼音编辑距离召回层edrecalllayer、自身片段召回层selfrecalllayer、特征抽取层featureextractlayer、模型打分层rankinglayer、贪心搜索层greedysearchlayer以及束搜索层beamsearchlayer。训练测试相关网络层包括加载预测语料层loadpredictcorpuslayer、加载训练语料层loadtraincorpuslayer、特征输出层dumpfullfeaturelayer以及短语替换特征输出层dumpptfeaturelayer。神经元包括查询信息元、候选元、结果元以及指导元。其中,查询信息元包括外部输入信息元stringneuron和内部信息元queryneuron。候选元为纠错候选结果candidateneuron。结果元为纠错最终结果信息resultneuron。指导元extroinfoneuron主要用于解析多轮纠错用户输入的指导信息。在针对某一应用场景生成纠错框架时,可通过配置一个conf文件,来对组件、网络层和神经元进行定义,以生成一个应用场景。如图3所示,stringneuron表示输入信息,通过归一化网络层normlayer对其进行归一化,然后通过错误片段定位网络层errordetectlayer定位错误片段,再通过纠错候选网络层edrecalllayer获得纠错候选。其中,纠错候选网络层edrecalllayer中具有edpinyinweight组件,用于实现从查询词(query)的子串和拼音(pinyin)串上,通过键值索引方法召回片段,得到纠错候选。这里的键值索引方法可以是拼音,也可以是汉字删除后的自身。接下来,通过信道模型层noisechannellayer或者模型打分层rankinglayer进行候选评估,然后通过候选组合层compositelayer实现不同位置的候选组合,最终输出纠错结果信息resultneuron。采用神经元式的设计,可以针对不同的应用场景定制相应的网络层layer,共享具有复用功能的组件weight。每个组件weight可独立灵活地升级。并且纠错构架中的每个模块(网络层layer、组件weight、神经元neuron)支持组合搭配,增加了快速迭代能力。在本发明的另一个实施例中,如图4所示,还可包括以下步骤:s104,如果数据库中不包含能够实现对应功能的网络层和/或组件,则建立能够实现对应功能的新网络层和/或新组件。其中,数据库中保存有实现不同功能的网络层和组件。如果有的应用场景所需要实现的功能,在数据库中并没有找到相对应的网络层和/或组件,则可建立能够实现对应功能的新网络层和/或新组件。在建立好新网络层和/或新组件之后,可选用该新网络层和/或新组件,来生成纠错框架。本发明实施例的基于人工智能的查询信息纠错构架生成方法,通过获取应用场景信息,并根据应用场景信息确定纠错需求信息,以及根据纠错需求信息从数据库中选取能够实现对应功能的网络层和/或组件,结合神经元,以生成查询信息纠错构架,能够针对不同应用场景,灵活地生成与其相对应的纠错框架,更加符合需求。为了实现上述实施例,本发明还提出了一种基于人工智能的查询信息纠错构架生成装置,图5是根据本发明一个实施例的基于人工智能的查询信息纠错构架生成装置的结构框图,如图5所示,该装置包括获取模块510、确定模块520和生成模块530。其中,获取模块510,用于获取应用场景信息。确定模块520,用于根据应用场景信息确定纠错需求信息。生成模块530,用于根据纠错需求信息从数据库中选取能够实现对应功能的网络层和/或组件,结合神经元,以生成查询信息纠错构架。如图6所示,在本发明的另一个实施例中,该装置还可包括建立模块540。建立模块540,用于如果数据库中不包含能够实现对应功能的网络层和/或组件,则建立能够实现对应功能的新网络层和/或新组件。需要说明的是,前述对基于人工智能的查询信息纠错构架生成方法的解释说明,也适用于本发明实施例的基于人工智能的查询信息纠错构架生成装置,本发明实施例中未公布的细节,在此不再赘述。本发明实施例的基于人工智能的查询信息纠错构架生成装置,通过获取应用场景信息,并根据应用场景信息确定纠错需求信息,以及根据纠错需求信息从数据库中选取能够实现对应功能的网络层和/或组件,结合神经元,以生成查询信息纠错构架,能够针对不同应用场景,灵活地生成与其相对应的纠错框架,更加符合需求。为了实现上述实施例,本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例的基于人工智能的查询信息纠错构架生成方法。为了实现上述实施例,本发明还提出了一种电子设备。电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,处理器用于执行本发明第一方面实施例的基于人工智能的查询信息纠错构架生成方法。例如,计算机程序可被处理器执行以完成以下步骤的基于人工智能的查询信息纠错构架生成方法:s101’,获取应用场景信息。s102’,根据应用场景信息确定纠错需求信息。s103’,根据纠错需求信息从数据库中选取能够实现对应功能的网络层和/或组件,结合神经元,以生成查询信息纠错构架。本发明实施例的电子设备,通过获取应用场景信息,并根据应用场景信息确定纠错需求信息,以及根据纠错需求信息从数据库中选取能够实现对应功能的网络层和/或组件,结合神经元,以生成查询信息纠错构架,能够针对不同应用场景,灵活地生成与其相对应的纠错框架,更加符合需求。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属
技术领域
:的技术人员所理解。在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。本
技术领域
:的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1