问题答案对扩充方法、装置、设备及计算机可读存储介质与流程

文档序号:17696786发布日期:2019-05-17 21:37阅读:136来源:国知局
问题答案对扩充方法、装置、设备及计算机可读存储介质与流程

本公开涉及一种问题答案对扩充方法、装置、计算机设备及计算机可读存储介质。



背景技术:

在人机交互系统例如语言助手系统中,人工创造的问题答案对是十分重要的资源,因为这种数据是人类真实的回复,答案的质量高于通过社交网站获得的答案,这里说的通过社交网站获得的答案的流程大致为爬取社交网站上的用户的真实问题和回复来作为问题和答案,但是这种答案因为是自动爬取的,而且是在一定的上下文中产生的答案,所以常见的问题就是答案与问题不匹配。

人工创造的问题答案对一般是由标注团队或产品经理等人员进行手动书写的,这种方式不仅速度慢而且成本高,不适合进行大规模扩充问题答案对。

通过社交网站获得的答案,虽然很多与问题不匹配,但是通过人工逐条过滤的方式,也是可以获得高质量的问题答案对的,可是,因为通过网络自动爬取的数据太多,如果每条都要进行人工过滤,花费的时间和收益比很低,所以这种方式也可以视为速度慢且成本高。



技术实现要素:

为了解决上述技术问题中的至少一个,本公开提供了一种问题答案对扩充方法、装置、计算机设备及计算机可读存储介质。

根据本公开的第一个方面,提供一种问题答案对扩充方法,包括:收集系统日志中的问题;获取网络中的问题和答案;为网络中的问题和答案建立索引;对系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对;以及基于候选问题答案对,扩充问题答案对。

根据本公开的至少一个实施方式,收集系统日志中的问题后,对收集的系统日志中的问题进行过滤;获取网络中的问题和答案后,对获取的网络中的问题和答案进行过滤。

根据本公开的至少一个实施方式,对收集的系统日志中的问题进行过滤包括:去重、去掉长度小于预定长度阈值的问题、保留含有“你”或“我”的问题、去掉含有数字的问题、去掉含有英文的问题和/或去掉含有公司名称的问题。

根据本公开的至少一个实施方式,对获取的网络中的问题和答案进行过滤包括:去掉含有非法字符的问题和答案、去掉含有政治色情敏感词的问题和答案和/或保留预定长度的问题和答案。

根据本公开的至少一个实施方式,匹配包括:从建立索引后的网络中的问题和答案中提取出答案,与系统日志中的问题组成候选问题答案对。

根据本公开的至少一个实施方式,匹配包括:使用索引算法匹配得到预定数目的候选问题答案对。

根据本公开的至少一个实施方式,索引算法与为网络中的问题和答案建立索引使用的算法为相同算法。

根据本公开的第二个方面,提供一种问题答案对扩充装置,包括:系统日志问题收集部,系统日志问题收集部收集系统日志中的问题;网络问题答案获取部,网络问题答案获取部获取网络中的问题和答案;索引建立部,索引建立部为网络中的问题和答案建立索引;匹配部,匹配部对系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对;以及扩充部,扩充部基于候选问题答案对,扩充问题答案对。

根据本公开的至少一个实施方式,问题答案对扩充装置还包括:系统日志问题过滤部,系统日志问题过滤部对收集的系统日志中的问题进行过滤;以及网络问题答案过滤部,网络问题答案过滤部对获取的网络中的问题和答案进行过滤。

根据本公开的第三个方面,提供一种计算机设备,包括:存储器,存储器存储计算机执行指令;以及处理器,处理器执行存储器存储的计算机执行指令,使得处理器执行如上述第一个方面中的问题答案对扩充方法。

根据本公开的第四个方面,提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一个方面中的问题答案对扩充方法。

根据本公开的第五个方面,提供一种手持设备,包括:存储器,存储器存储指令;以及处理器,处理器执行存储器存储的指令,使得处理器执行如上述第一个方面中的问题答案对扩充方法。

上面提到的“系统”相对于网络,为本地系统,例如配置在手机、手表或计算机中的人机交互系统,例如语言助手系统。

附图说明

附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。

图1是本公开的一个实施方式的问题答案对扩充方法流程示意图。

图2是本公开的一个实施方式的问题答案对扩充方法流程示意图。

图3是本公开的一个实施方式的问题答案对扩充装置结构示意图。

图4是本公开的一个实施方式的问题答案对扩充装置结构示意图。

图5是本公开的一个实施方式的问题答案对扩充装置结构示意图。

图6是本公开的一个实施方式的计算机设备或手持设备的结构示意图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。

需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。

根据本公开的一个实施方式,本公开提供一种问题答案对扩充方法,如图1所示,包括:收集系统日志中的问题;获取网络中的问题和答案;对收集的系统日志中的问题进行过滤;对获取的网络中的问题和答案进行过滤;为过滤后的网络中的问题和答案建立索引;对过滤后的系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对;基于预定数目的候选问题答案对,扩充问题答案对。

其中,在收集系统日志中的问题之前,还可以包括获取系统所有日志的步骤。问题答案对中的问题一定是来源于日志,这样数据才能更好的反馈系统。

上面提到的“系统”相对于网络,为本地系统,例如配置在手机、手表或计算机中的人机交互系统,例如语言助手系统。上面的“系统”也可以是人机交互系统的子系统例如人机对话系统。一般地,语言助手系统具备下面的功能:接收语音或者文本输入,机器识别输入的语音或者文本,形成控制指令,被控制对象根据控制指令进行动作(例如控制对象可以是电视机、手机、搜索引擎等等)。

在本公开的一个实施方式中,对收集的系统日志中的问题进行过滤,包括:去重、去掉长度小于预定长度阈值的问题、保留含有“你”或“我”的问题、去掉含有数字的问题、去掉含有英文的问题和/或去掉含有公司名称的问题。

优选地,去掉含有数字和英文的问题,去掉含有公司名称的问题,之所以做这种过滤,是因为在例如语言助手系统中,含有数字和英文的问题很多都是非法输入,去掉含有公司名称的问题是为了使得收集到的问题更具有通用性。

优选地,去掉字符数小于预定长度阈值(例如问题的字符数预定长度阈值为3)的问题,因为这部分问题语义不够丰富。

优选地,保留以“我”、“你”开头的问题,因为我们要增加的是人机交互系统的问题答案对,而以“我”、“你”开头的问题使用的频次是很高的。

优选地,将问题输入到人机交互系统中,例如也可以输入到人机交互系统的子系统人机对话系统中,保留现有人机对话系统无法处理的问题,因为这部分数据才能真正提高人机对话系统的性能。

在本公开的一个实施方式中,对获取的网络中的问题和答案进行过滤包括:去掉含有非法字符的问题和答案、去掉含有政治色情敏感词的问题和答案和/或保留预定长度的问题和答案。

之所以保留预定长度(例如字符数在5-50之间)的问题和答案,是因为太长的答案在人机交互系统或者人机对话系统中的体验较差。

在本公开的一个实施方式中,对过滤后的系统日志中的问题和建立索引后的网络中的问题和答案进行匹配包括:使用索引算法匹配得到预定数目的候选问题答案对;索引算法与为过滤后的网络中的问题和答案建立索引使用的算法为相同算法。

优选地,索引算法可以采用idf算法;索引算法也可以采用现有技术中的其他算法。

根据本公开的一个实施方式,提供的问题答案对扩充方法,如图2所示,包括:收集人机交互系统日志中的问题;获取网络中的问题和答案;对收集的人机交互系统日志中的问题进行过滤;对获取的网络中的问题和答案进行过滤;为过滤后的网络中的问题和答案建立索引;对过滤后的人机交互系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对;基于预定数目的候选问题答案对,扩充问题答案对。

其中过滤后的网络中的问题和答案建立索引可以采用搜索引擎中常用的索引建立方式。

根据本公开的一个实施方式,提供的问题答案对扩充装置100,如图3所示,包括:系统日志问题收集部,系统日志问题收集部收集系统日志中的问题;网络问题答案获取部,网络问题答案获取部获取网络中的问题和答案;系统日志问题过滤部,系统日志问题过滤部对收集的系统日志中的问题进行过滤;网络问题答案过滤部,网络问题答案过滤部对获取的网络中的问题和答案进行过滤;索引建立部,索引建立部为过滤后的网络中的问题和答案建立索引;匹配部,匹配部对过滤后的系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对;扩充部,扩充部基于预定数目的候选问题答案对,扩充问题答案对。

其中,匹配部对过滤后的系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对,优选地,对于匹配的系统日志中的问题和建立索引后的网络中的问题和答案,从建立索引后的网络中的问题和答案中提取出答案,与系统日志中的问题组成候选问题答案对。

其中,基于预定数目的候选问题答案对扩充问题答案对,可以将这些候选问题答案对全部用于扩充问题答案对,优选地,可以对候选问题答案对按照相关度进行排序,选取预定数目的候选问题答案对用于扩充问题答案对。

根据本公开的一个实施方式,提供的问题答案对扩充装置200,如图4所示,包括:人机交互系统日志问题收集部,人机交互系统日志问题收集部收集人机交互系统日志中的问题;网络问题答案获取部,网络问题答案获取部获取网络中的问题和答案;人机交互系统日志问题过滤部,人机交互系统日志问题过滤部对收集的人机交互系统日志中的问题进行过滤;网络问题答案过滤部,网络问题答案过滤部对获取的网络中的问题和答案进行过滤;索引建立部,索引建立部为过滤后的网络中的问题和答案建立索引;匹配部,匹配部对过滤后的人机交互系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对;扩充部,扩充部基于预定数目的候选问题答案对,扩充问题答案对。

问题答案对扩充装置200配置在人机交互系统中。

根据本公开的一个实施方式,提供的问题答案对扩充装置300,如图5所示,包括:语言助手系统日志问题收集部,语言助手系统日志问题收集部收集语言助手系统日志中的问题;网络问题答案获取部,网络问题答案获取部获取网络中的问题和答案;语言助手系统日志问题过滤部,语言助手系统日志问题过滤部对收集的语言助手系统日志中的问题进行过滤;网络问题答案过滤部,网络问题答案过滤部对获取的网络中的问题和答案进行过滤;索引建立部,索引建立部为过滤后的网络中的问题和答案建立索引;匹配部,匹配部对过滤后的语言助手系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对;扩充部,扩充部基于预定数目的候选问题答案对,扩充问题答案对;人机交互部,人机交互部被人员操作,来对候选问题答案对进行处理。

问题答案对扩充装置300配置在语言助手系统中。

其中,对候选问题答案对进行处理例如删除、保存等操作。由于获得的候选问题答案对的集合,是高度精炼的,为标注人员去掉了很多垃圾数据,且比人工创造答案的成本要低。

下面为优选的问题答案对的几条标准:

(1)答案的意思可以被理解;

(2)答案中没有错别字;

(3)答案中的信息与实际的信息相符;

(4)答案与问题具有关联性;

(5)答案与问题中不含有辱骂词语、不含有政治和色情敏感词语。

根据本公开的一个实施方式,还提供一种计算机设备或手持设备,如图6所示,该设备包括:通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信,进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。处理器3000执行所述计算机程序时实现上述实施方式中方法。所述存储器2000和处理器3000的数量可以为一个或多个。

存储器2000可以包括高速ram存储器,也可以还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

如果通信接口1000、存储器2000及处理器3000独立实现,则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(isa,industrystandardarchitecture)总线、外部设备互连(pci,peripheralcomponent)总线或扩展工业标准体系结构(eisa,extendedindustrystandardcomponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

可选的,在具体实现上,如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上,则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,计算机软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当计算机软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。

就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),手持式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及手持式只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。

此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1