电子渠道应用上的faq识别系统及方法

文档序号:6385688阅读:194来源:国知局
专利名称:电子渠道应用上的faq识别系统及方法
技术领域
本发明涉及FAQ识别的技术领域,具体涉及一种电子渠道应用上的FAQ识别系统及方法。
背景技术
电信运营商急需一种针对增值业务的问答对的系统,能够快速自动地解答用户纷繁的疑问。电子渠道应用上的FAQ识别,主要通过基于要素词的FAQ识别,在电信运营商增值业务方面,分析用户的咨询意向,给用户解答增值业务细节疑问。例如用户咨询数据流量有哪些套餐。系统通过FAQ识别,从预设的问题中找到最适合的问题,找到相似的回复给用户。并且能够在补充对应的QA对,让相关的知识,立即生效,达到自学习功能。现有技术的方案为电子渠道应用上的FAQ识别是针对运营商增值业务方面的疑问依次进行分词、业务要素词提取、索引构建、文本相似度计算判决等过程,查找最相近的Question,回复对应的Answer。后续进行自学习。具体的,如

图1所示,首先形成索引;如图2所示,接着进行检索;如图3所示,最后进行自学习的流程图。现有技术的缺点1.分词仅基于名词、动词,无法体现电子渠道增值业务的特征。2.基于普通分词的FAQ检索,计算出来的得分,更多是基于字面含义的,误识别的现象比较明显。3.基于普通分词的同义词,由于非侧重于增值业务的,存在多候选答案,与用户输入找不到相同点,用户感知度很差。4.自学习基于统计进行,基于用户的词频,或者用户之间的反馈进行。由于电信运营商增值业务回复准确性,全权属于电信运营商,用户反馈的结果,不适用。

发明内容
针对现有技术的缺点,本发明目的在于提供一种电子渠道应用上的FAQ识别系统及方法,该方法可以体现电子渠道增值业务的特征,误识别的现象比较少,用户感知度好。本发明采用的技术方案为一种电子渠道应用上的FAQ识别系统,包括如下模块FAQ分词模块,该模块采用了前向、后向分词两种方法,并将两种方法得到的分词结果做了合并,即去掉了相同的结果,同时保留两者不同的结果;检索出多候选模块,该模块中每个句子的特征向量的维数由基于电信运营商增值业务中相关词的个数决定,每一维的值是该维对应的词在该句子中的贡献,该词在该句中不出现,则认为该维值为0,所以每句话的特征向量维度很高,但其中只有几维值不为0,所以我们只关心其中不为0的维,即句子中分词结果中的词即可;
同义词扩展模块,该模块中同义词扩展计算得分的方式为将可进行扩展的词依次换为该词的同义词,计算其得分;自学习模块,该模块主要用于离线日志标注,该模块首先对比,运营商今日与昨日更新的资源知识,根据此差别,工具主动修改线下运营商积累一些知识问题,并录入识别知识的储备资源库,若最小粒度的问答对中,问题一半以上发生变化,则线下标注的部分,提示运营商进行核定。其中,所述的FAQ分词模块采用的具体算法为采用了前向、后向分词两种方法,并将两种方法得到的分词结果做了合并,即去掉了相同的结果,同时保留两者不同的结果。其中,所述的检索出多候选模块采用的具体算法为每个句子的特征向量的维数由字典中词的个数决定,每一维的值是该维对应的词在该句子中的贡献,该词在该句中不出现,则认为该维值为0,所以每句话的特征向量维度很高,但其中只有几维值不为0,所以我们只关心其中不为0的维,即句子中分词结果中的词即可;具体如下 首先在索引文件时会针对建索引的句子进行计算它的要素词权重得分,(I)、如表I所示第一条模板表I “数据流量功能暂停与恢复”分词结果为
权利要求
1.一种电子渠道应用上的FAQ识别系统,其特征在于包括如下模块FAQ分词模块,该模块采用了前向、后向分词两种方法,并将两种方法得到的分词结果做了合并,即去掉了相同的结果,同时保留两者不同的结果;检索出多候选模块,该模块中每个句子的特征向量的维数由基于电信运营商增值业务中相关词的个数决定,每一维的值是该维对应的词在该句子中的贡献,该词在该句中不出现,则认为该维值为0,所以每句话的特征向量维度很高,但其中只有几维值不为0,所以我们只关心其中不为O的维,即句子中分词结果中的词即可;同义词扩展模块,该模块中同义词扩展计算得分的方式为将可进行扩展的词依次换为该词的同义词,计算其得分;自学习模块,该模块主要用于离线日志标注,该模块首先对比,运营商今日与昨日更新的资源知识,根据此差别,工具主动修改线下运营商积累一些知识问题,并录入识别知识的储备资源库,若最小粒度的问答对中,问题一半以上发生变化,则线下标注的部分,提示运营商进行核定。
2.根据权利要求1所述的一种电子渠道应用上的FAQ识别系统,其特征在于所述的 FAQ分词模块采用的具体算法为采用了前向、后向分词两种方法,并将两种方法得到的分词结果做了合并,即去掉了相同的结果,同时保留两者不同的结果。
3.根据权利要求1所述的一种电子渠道应用上的FAQ识别系统,其特征在于所述的检索出多候选模块采用的具体算法为每个句子的特征向量的维数由字典中词的个数决定,每一维的值是该维对应的词在该句子中的贡献,该词在该句中不出现,则认为该维值为0,所以每句话的特征向量维度很高, 但其中只有几维值不为0,所以我们只关心其中不为O的维,即句子中分词结果中的词即可;具体如下首先在索引文件时会针对建索引的句子进行计算它的要素词权重得分,(I)、如表I所不第一条模板
4.根据权利要求3所述的一种电子渠道应用上的FAQ识别系统,其特征在于所述的同义词扩展模块采用的具体算法为同义词扩展计算得分的方法为将可进行扩展的词依次换为该词的同义词,计算其得分;如果用户输入为“想把我的gprs暂停了” ;提要素结果为表4所示表4
5.根据权利要求1所述的一种电子渠道应用上的FAQ识别系统,其特征在于所述的自学习模块采用的具体算法为根据昨日局方提供的问答库、今日局方提供的问答库将线下积累的问答库进行升级,从而实现动态更新问答库,主要逻辑如下首先对比出局方问答对变化情况,若局方在某个主题名称(style)下新增了问题 (Question),首先判断是否与问答对知识库(QA)是否相同,若相同则不做更改;若新增的问题(Question)与我们之前的标注不一致,则调整我们该主题名称(style)的所有问答对,若局方没有新增问题(Question),而是删除了部分问题(Question),首先判断该主题名称(style)是否全部删除,则之前标注的部分该主题名称(style)及其问答对全部删除; 若该主题名称(style)仍然保留,但是其下的问题库一半以上发生变动,则将我们标注的部分提交局方确认;若只是小部分变动,则整体以局方为主,其中局方指的是运营商;QA库为问答对知识库;Style为问答对中的主题名称。
6.一种电子渠道应用上的FAQ识别方法,其特征在于包括如下步骤(1)FAQ分词步骤后,将用户输入的短信分词保存起来;(2)进入检索多候选步骤,将集内所有Question分词,逐一与用户输入短信比对,计算得分,在海量集合中,计算出得分最高的若干项,通常我们保留前10项结果;(3)在(2)的计算过程中,会基于运营商增值业务的同义词进行同义词得分转换,据此, 保证多样化的问题,在检索的过程中同样被检索出来;(4)经过(2)、(3)后,得出前10个候选,将得分最高的候选项回复内容,推送给用户; 将其与候选展现给用户查看;(5)前4项都是线上实现的,知识库越大,计算越准确,同时,这些问题对应的答案根据的实际情况,会有所变化,整个问答对的变化是很快的,所以,需要及时应对各种变化,则需要自学习功能;(6)自学习是对比局方的问答对变化,及时调整我们线下标注的问答对,达到快速的更新整个线上问答对知识库效果;(7)如此线上及时检索,线下及时更新,保证整个识别率更高,覆盖度更广。
全文摘要
本发明提供一种电子渠道应用上的FAQ识别系统及方法,包括FAQ分词模块、检索出多候选模块、同义词扩展模块、自学习模块;FAQ分词采用电子渠道上专有词典进行要素词分词;根据要素词计算,得到多候选;在计算过程中,采用特定的电子渠道同义词辅助准确计算;最后是离线通过自学习模块对日志进行标注。本发明形成专有字典。对增值业务划分要素词。分为业务要素词、操作要素词、特殊要素词等。同时支持词性扩展;检索时,侧重于业务要素词检索;同义词也根据词性划分,多组同义词见不传递。使得提高识别率时,多候选中至少出现与用户输入存在相同词;自学习中,知识更新,通过资源升级工具,对比出差异后,提交给运营商知识库人员审核后,线上更新。
文档编号G06F17/30GK103049548SQ20121057936
公开日2013年4月17日 申请日期2012年12月27日 优先权日2012年12月27日
发明者徐伟, 沈明花, 周正友, 张磊, 江涛, 聂小林 申请人:安徽科大讯飞信息科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1