一种数据处理方法和装置的制造方法

文档序号:10725090阅读:434来源:国知局
一种数据处理方法和装置的制造方法
【专利摘要】本发明公开了一种数据处理方法和装置,所述方法包括:获取实时的用户交互日志数据;按设定的分析过滤策略,对所述用户交互日志数据进行实时过滤,以得到目标问题;在指定网站抓取所述目标问题对应的结果数据;基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展。本发明所述方法通过对用户交互日志进行实时获取及实时分析,提高了数据处理的时效性;且在数据获取、分析及结果数据抓取全过程,无需人工参与,提高了数据处理效率,从而提高了智能问答系统知识库的维护效率,提升了用户的使用体验。
【专利说明】
一种数据处理方法和装置
技术领域
[0001 ]本发明涉及数据处理技术领域,尤其涉及一种数据处理方法和装置。
【背景技术】
[0002]知识库,又称为智能数据库或人工智能数据库。知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。
[0003]知识库有着广泛的应用,典型的应用有智能问答系统或自动问题系统。智能问答系统中有一套知识库,里面有大量的问题和与每个问题相对应的答案。智能问答系统首先需要识别用户所提出的问题,即从知识库中找到与该用户问题所对应的问题,然后找出与该问题相匹配的答案。所以,知识库中是否能够给出线上用户问题的准确或合理的答案,是衡量智能问答系统性能的一项重要指标。为了保障智能问答系统的性能,需要一种机制,判断智能问答系统是否给出了准确或合理的答案,并基于回答质量不高的问题,重新确定该问题的答案,更新知识库。
[0004]目前,通常都是采用批处理结合人工的机制来实现,具体的:通过批处理,每天对之前一天的日志数据进行分析,找出回答质量不好或无法回复的问题,添加到数据库,然后由知识工程师人工通过搜索引擎进行搜索相关问题,来添加对应的标准问和答案。
[0005]此机制存在两个方面的不足:首先,时效性不高,不能实时对线上用户的问答质量不高的问题进行及时分析;其次,依赖人工搜索,处理效率低下。

【发明内容】

[0006]鉴于上述问题,提出了本发明以便提供一种解决上述问题或者部分解决上述问题的数据处理方法和装置。
[0007]依据本发明的一个方面,提供一种数据处理方法,包括:
[0008]获取实时的用户交互日志数据;
[0009]按设定的分析过滤策略,对所述用户交互日志数据进行实时过滤,以得到目标问题;
[0010]在指定网站抓取所述目标问题对应的结果数据;
[0011 ]基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展。
[0012]可选地,所述获取实时的用户交互日志数据,具体包括:
[0013]在存储用户交互日志的各服务器中设置日志收集代理节点,获取所述代理节点实时收集并上报的用户交互日志数据。
[0014]可选地,得到所述目标问题后,所述方法还包括:对所述目标问题进行分词处理,得到多个目标词;
[0015]抓取所述目标问题对应的结果数据包括抓取与至少部分目标词对应的结果数据。
[0016]可选地,所述方法还包括:
[0017]在获取实时的用户交互日志数据后,将所述实时的用户交互日志数据存入第一消息缓存队列,并按照订阅日志主题的方式,从所述第一消息缓存队列中提取用户交互日志数据,以进行实时过滤;
[0018]将过滤得到的目标问题作为待处理问题发送到第二消息缓存队列,并按照订阅待处理问题主题的方式,从第二消息缓存队列中提取问题,以进行问题的结果数据抓取。
[0019]可选地,所述分析过滤策略包括如下策略之一或者如下多种策略的组合:
[0020]策略1:按照设定的回答类型,在用户交互日志数据中的用户问题中过滤出目标问题;
[0021]策略2:按照设定的关键词,在用户交互日志数据中的用户问题中过滤出目标问题;
[0022]策略3:按照回答内容与问题的语义相似度,在用户交互日志数据中的用户问题中过滤出目标问题;
[0023]策略4:按照从用户交互日志数据中分析得到的情感信息,在用户交互日志数据的用户问题中过滤出目标问题。
[0024]可选地,所述基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展,包括:将所述目标问题及其对应的结果数据,以新增知识点的方式存入所述知识库。
[0025]可选地,所述基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展,包括:
[0026]将所述目标问题及其对应的结果数据存入关系型数据库,待所述关系型数据库中的结果数据被审核校验通过后,以新增知识点的方式存入所述知识库。
[0027]可选地,利用Flume日志收集系统获取实时的用户交互日志数据;
[0028]采用Spark Streaming技术,对所述用户交互日志数据进行实时过滤。
[0029 ]依据本发明的另一个方面,提供一种数据处理装置,包括:
[0030]数据获取模块,用于获取实时的用户交互日志数据;
[0031 ]数据处理模块,用于按设定的分析过滤策略,对所述用户交互日志数据进行实时过滤,以得到目标问题;
[0032]结果抓取模块,用于在指定网站抓取所述目标问题对应的结果数据;
[0033]管理模块,用于基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展。
[0034]可选地,所述数据获取模块,具体用于获取日志收集代理节点实时收集并上报的用户交互日志数据;其中,所述日志收集代理节点设置在存储有用户交互日志的各服务器中。
[0035]可选地,所述数据处理模块,还用于在得到所述目标问题后,对所述目标问题进行分词处理,得到多个目标词;
[0036]所述结果抓取模块抓取所述目标问题对应的结果数据时包括抓取与至少部分目标词对应的结果数据。
[0037]可选地,所述数据获取模块,还用于在获取实时的用户交互日志数据后,将所述实时的用户交互日志数据存入第一消息缓存队列;
[0038]所述数据处理模块,还用于按照订阅日志主题的方式,从所述第一消息缓存队列中提取用户交互日志数据,以进行实时过滤;以及将过滤得到的目标问题作为待处理问题发送到第二消息缓存队列;
[0039]所述结果抓取模块,还用于按照订阅待处理问题主题的方式,从第二消息缓存队列中提取问题,以进行问题的结果数据抓取。
[0040]可选地,所述数据处理模块应用的分析过滤策略包括如下策略之一或者如下多种策略的组合:
[0041]策略1:按照设定的回答类型,在用户交互日志数据中的用户问题中过滤出目标问题;
[0042]策略2:按照设定的关键词,在用户交互日志数据中的用户问题中过滤出目标问题;
[0043]策略3:按照回答内容与问题的语义相似度,在用户交互日志数据中的用户问题中过滤出目标问题;
[0044]策略4:按照从用户交互日志数据中分析得到的情感信息,在用户交互日志数据的用户问题中过滤出目标问题。
[0045]可选地,所述管理模块,具体用于将所述目标问题及其对应的结果数据,以新增知识点的方式存入所述知识库。
[0046]可选地,所述管理模块,具体用于将所述目标问题及其对应的结果数据存入关系型数据库,待所述关系型数据库中的结果数据被审核校验通过后,以新增知识点的方式存入所述知识库。
[0047]可选地,所述数据获取模块,具体用于利用Flume日志收集系统获取实时的用户交互日志数据;
[0048]所述数据处理模块,具体用于采用SparkStreaming技术,对所述用户交互日志数据进行实时过滤。
[0049]与现有技术相比,本发明的有益效果如下:
[0050]首先,本发明通过对用户交互日志进行实时获取及实时分析,提高了数据处理的时效性;
[0051]其次,本发明在数据获取、分析及结果数据抓取全过程,无需人工参与,提高了数据处理效率;
[0052]再次,利用本发明所述的数据处理方案,提高了智能问答系统知识库的维护效率,从而可以为用户提供更准确的问题答案,提高了用户的使用体验。
[0053]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0054]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0055]图1为本发明实施例提供的一种数据处理方法的流程图;
[0056]图2为本发明实施例提供的数据处理方法应用的系统架构图;
[0057]图3为本发明实施例中Flume日志收集系统的示意图;
[0058]图4为本发明实施例提供的一种数据处理装置的结构框图。
【具体实施方式】
[0059]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0060]智能问答系统在使用中会产生大量的用户交互日志数据,每一条日志数据包括用户给出的用户问题以及针对该用户问题由智能问答系统给出的答案。本发明实施例提供的数据处理方法,旨在通过实时分析技术,发现用户日志中的回答质量不好或无法回复的问题,然后利用爬虫抓取互联网上的相关问答,再将抓取的答案添加到知识库中,以提高用户体验。
[0061]具体的,本实施例提供的数据处理方法,如图1所示,包括如下步骤:
[0062]步骤SlOl,获取实时的用户交互日志数据。
[0063]在本发明的一个具体实施例中,获取实时的用户交互日志数据的方式包括:
[0064]I)在存储用户交互日志的各服务器中设置日志收集代理节点;
[0065]2)获取各日志收集代理节点实时收集并上报的用户交互日志数据。
[0066]其中,日志收集代理节点较佳的是基于Flume的日志收集代理节点,即,本发明利用Flume日志收集系统获取实时的用户交互日志数据。
[0067]需要指出的是,上述给出的日志数据获取方式只是众多方式中的一种,本发明并不唯一限定采用该方式实现,本领域技术人员容易想到的其他可以实现日志数据实时获取的方式都在本发明的保护思想范围内。
[0068]在本发明的又一实施例中,获取的实时的用户交互日志数据存储在第一消息缓存队列中,该第一消息缓存队列对外提供按主题订阅数据的接口。
[0069]步骤S102,按设定的分析过滤策略,对所述用户交互日志数据进行实时过滤,以得到目标问题。
[0070]当用户交互日志数据存储在第一消息缓存队列中时,该步骤需要按照订阅日志主题的方式,从第一消息缓存队列中提取用户交互日志数据,以进行实时过滤。
[0071]在本发明的一个具体实施例中,按设定的分析过滤策略,采用SparkStreaming技术,对所述用户交互日志数据进行实时过滤。
[0072]在本发明的又一具体实施例中,设定的分析过滤策略包括如下策略之一或者如下多种策略的组合:
[0073]策略1:按照设定的回答类型,在用户交互日志数据中的用户问题中过滤出目标问题。例如,用户交互日志中针对用户问题的回答类型为“未回答”或者“给出建议问”或者“做出反问”,则将该类回答对应的用户问题过滤出来。
[0074]策略2:按照设定的关键词,在用户交互日志数据中的用户问题中过滤出目标问题。例如,用户交互日志中针对用户问题的回答中包含“无法回答”、“描述不清晰”等关键词,则将回答中包含这些关键词的用户问题过滤出来。
[0075]策略3:按照回答内容与问题的语义相似度,在用户交互日志数据中的用户问题中过滤出目标问题。具体的,当回答内容与问题的语义相似度低于设定的阈值,则将这类用户问题过滤出来。
[0076]策略4:按照从用户交互日志数据中分析得到的情感信息,在用户交互日志数据的用户问题中过滤出目标问题。例如,对话中用户使用了负面情感值较高的词汇,则表示用户对回答不满意,可以将对应的问题过滤出来。
[0077]在本发明的一个优选实施例中,得到过滤出的目标问题后,还包括:对所述目标问题进行分词处理,得到多个目标词。
[0078]在本发明的一个可选实施例中:
[0079]若未对目标问题进行分词处理,则过滤得到目标问题后,还包括:将得到的目标问题,作为待处理问题发送到第二消息缓存队列,第二消息缓存队列对外提供按主题订阅数据的接口。
[0080]若对目标问题进行了分词处理,则得到多个目标词后,还包括:将得到的目标问题和至少部分目标词,作为待处理问题发送到第二消息缓存队列,第二消息缓存队列对外提供按主题订阅数据的接口。
[0081]其中,第二消息缓存队列与第一消息缓存队列可以相同,也可以不同。
[0082]步骤S103,在指定网站抓取所述目标问题对应的结果数据。
[0083]本发明实施例中,当目标问题,或者,目标问题和至少目标词存储在第二消息缓存队列中时,该步骤需要按照订阅待处理问题主题的方式,从第二消息缓存队列中提取问题,以进行问题的结果数据抓取。
[0084]进一步的,本发明实施例中,当S102步骤中未对目标问题进行分词处理时,抓取的目标问题对应的结果数据包括:直接抓取目标问题得到的结果数据;
[0085]当S102步骤中对目标问题进行分词处理时,抓取的目标问题对应的结果数据包括:直接抓取目标问题得到的结果数据,以及抓取至少部分目标词对应的结果数据。
[0086]进一步地,本发明实施例中,指定网站可以为数据的可信度相对较高的网站,例如:百度百科等等。
[0087]步骤S104,基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展。
[0088]本发明实施例中,该步骤的一种实施方式为:将目标问题及其对应的结果数据,以新增知识点的方式存入知识库。
[0089]该步骤的另一种实施方式为:将目标问题及其对应的结果数据存入关系型数据库,待关系型数据库中的结果数据被审核校验通过后,以新增知识点的方式存入知识库。其中,审核校验可以为人工审核校验,也可以为加载了特定算法的机器校验。
[0090]知识库中包括多个知识点,每个知识点包括:一个标准问、多个扩展问和答案,结果数据是答案的来源,目标问题是标准问或扩展问。此外,还可以根据目标问题生成更多的扩展问。
[0091 ] 综上可知,本实施例所述的数据处理方法通过对用户交互日志进行实时获取及实时分析,提高了数据处理的时效性;在数据获取、分析及结果数据抓取全过程,无需人工参与,提高了数据处理效率。
[0092]本实施例所述数据处理方案,提高了智能问答系统知识库的维护效率,从而可以为用户提供更准确的问题答案,提高了用户的使用体验。
[0093]下面给出本发明的一个具体实施例,用以更清楚的阐述本发明的实施过程。
[0094]本实施例所述的数据处理方法,利用了Flume日志收集系统,可以实时采集线上用户的交互日志,通过Spark Streaming实时计算引擎,对Flume采集到的用户实时交互日志数据流进行分析过滤得到待处理的问题,结合爬虫技术,对待处理问题,抓取对应的问答信息入库,提供给知识库维护人员编辑审核校验,来及时改善用户体验。
[0095]如图2所示,为本实施例所述数据处理方法应用的系统架构图,下面基于该系统架构图,对本发明所述数据处理方法进行详细阐述,所述数据处理方法包括如下步骤:
[0096]步骤I,通过ApacheFlume来进行日志的收集,将分散在各处服务器上的用户交互日志收集到Apache Kafka消息队列中。
[0097]下面结合【附图说明】Flume日志收集机制。如图3所示,为Flume日志收集系统部署结构图。
[0098]Flume传输数据的基本单位是Event (事件),对于文本文件,通常是一行记录。Event同时也是事务(Transact 1n)的基本单位。
[0099]Flume程序的关键是Agent (代理hAgent是一个完整的数据收集工具,包括三个组件:Source(来源)、Channel (通道)和Sink(目的端)。
[0?00] Event代表数据流的最小完成单元,本质是一个字节数据,Event可以包含Headers(消息头)信息。Event从Source流经ChanneI,再从ChanneI流向Sink。
[0101 ] Source完成原始日志数据的收集,并作为Event和Transact 1n,缓存到Channe I中,ChanneI提供缓冲队列的功能,对Source发来的数据进行缓存,Sink取出ChanneI中的数据,存储到Apache Kafka消息队列中。
[0102] 步骤2,通过SparkStreaming订阅Apache Kafka消息队列中的日志主题(Kafka概念Topic),实时分析用户交互日志数据流,过滤得到目标问题,并对目标问题进行分词,将目标问题和分词后的结果,发送到Apache Kafka消息队列中的待处理问题主题。
[0?03] 其中,SparkStreaming分析得到目标问题的过程包括:
[0104] Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。数据可以来自Kafka、Flume、HDFS、TCPSocket等数据源,这些数据可以通过使用高阶函数(map、reduce、join、window等)来构造复杂的算法进行处理。最终处理过的数据被发送到文件系统、数据库等进行存储。
[0? O5] SparkStreaming在内部接收实时输入数据流,并将数据流切分为固定时间间隔的批量数据(DStream),然后交给Spark任务执行引擎进行处理,生成各个批量数据的最终处理结果。
[0106]具体到本案,Spark Streaming从ApacheKafka消息队列中获取实时用户交互日志记录,如下:
[0107]记录I
[0108]2016-05-0819:47:56 |……|亮度无法调节I 8 |台式显示器若无法通过物理按键调整亮度……1111亮度无法调节11.0l……
[0109]记录2
[0110]2016-05-0819:47:56 |……|如何安装指纹驱动软件I 8 |太抱歉了,您提的问题我正在学习,暂时还无法回答……111如何安装指纹驱动软件11.01……
[0111]……
[0112]SparkStreaming将数据流切分为固定时间间隔的批量数据(DStream),然后交给Spark任务执行引擎进行目标问题过滤处理。
[0113]Spark任务执行引擎进行目标问题过滤处理所采用的分析过滤策略包含(不仅限于以下列出的):1.用户交互日志中回答类型为0(表示未回答)和11(表示给出建议问)的用户问题;2.回答中包含“无法回答”、“描述不清晰”等关键词;3.日志中问题和回答的语义相似度字段值低于配置的阀值;4.对话中包含负面情感值较高的词汇。
[0114]得到用户交互日志中的目标问题(上述记录2),将目标问题和对目标问题进行分词后得到的分词结果发送到ApacheKafka消息队列的待处理问题主题,供爬虫程序去抓取答案。
[0115]步骤3,爬虫抓取系统通过订阅Apache Kafka中的待处理问题主题,去抓取待处理问题相关的问答信息,并把得到的结果保存,以供知识库维护人员审核校验。
[0116]具体的,爬虫程序从ApacheKafka消息队列获取待处理问题(例如:如何安装指纹驱动软件)以及对应的分词结果(例如:安装指纹驱动软件),然后从指定好的爬取网站列表(百度百科、百度知道等)抓取相应的答案(通过分词抓取到的答案同样作为待处理问题的备选答案),并保存到MySQL数据库中。
[0117]步骤4,将MySQL数据库中通过知识库维护人员审核和校验的记录加入知识库。此时,当用户再次提出类似问题,即可以给出正确的答复。
[0118]其中,知识库对外提供修改编辑功能,使知识库维护人员可以编辑正确的问题和答案来加入知识库。
[0119]进一步地,本发明实施例还提供一种数据处理装置,如图4所示,所述装置具体包括:
[0120]数据获取模块410,用于获取实时的用户交互日志数据;
[0121 ]数据处理模块420,用于按设定的分析过滤策略,对所述用户交互日志数据进行实时过滤,以得到目标问题;
[0122]结果抓取模块430,用于在指定网站抓取所述目标问题对应的结果数据;
[0123]管理模块440,用于基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展。
[0124]基于上述结构框架及实施原理,下面给出在上述结构下的几个具体及优选实施方式,用以细化和优化本发明所述装置的功能,以使本发明方案的实施更方便,准确。具体涉及如下内容:
[0125]本发明实施例中,数据获取模块410,具体用于获取日志收集代理节点实时收集并上报的用户交互日志数据;其中,所述日志收集代理节点设置在存储有用户交互日志的各服务器中。
[0126]进一步地,本发明实施例中,数据处理模块420,还用于在得到所述目标问题后,对所述目标问题进行分词处理,得到多个目标词;
[0127]此时,结果抓取模块430抓取所述目标问题对应的结果数据时包括抓取与至少部分目标词对应的结果数据。
[0128]进一步地,本发明实施例中,数据获取模块410,还用于在获取实时的用户交互日志数据后,将所述实时的用户交互日志数据存入第一消息缓存队列;
[0129]数据处理模块420,还用于按照订阅日志主题的方式,从所述第一消息缓存队列中提取用户交互日志数据,以进行实时过滤;以及将过滤得到的目标问题作为待处理问题发送到第二消息缓存队列;
[0130]结果抓取模块430,还用于按照订阅待处理问题主题的方式,从第二消息缓存队列中提取问题,以进行问题的结果数据抓取。
[0131]进一步地,本发明实施例中,数据处理模块420应用的分析过滤策略包括如下策略之一或者如下多种策略的组合:
[0132]策略1:按照设定的回答类型,在用户交互日志数据中的用户问题中过滤出目标问题;
[0133]策略2:按照设定的关键词,在用户交互日志数据中的用户问题中过滤出目标问题;
[0134]策略3:按照回答内容与问题的语义相似度,在用户交互日志数据中的用户问题中过滤出目标问题;
[0135]策略4:按照从用户交互日志数据中分析得到的情感信息,在用户交互日志数据的用户问题中过滤出目标问题。
[0136]进一步地,本发明实施例中,管理模块440,具体用于将所述目标问题及其对应的结果数据,以新增知识点的方式存入所述知识库。
[0137]或者,管理模块440,具体用于将所述目标问题及其对应的结果数据存入关系型数据库,待所述关系型数据库中的结果数据被审核校验通过后,以新增知识点的方式存入所述知识库。
[0138]较佳的,本发明实施例中,数据获取模块410利用Flume日志收集系统获取实时的用户交互日志数据。
[0139]数据处理模块420采用Spark Streaming技术,对所述用户交互日志数据进行实时过滤。
[0140]综上可知,本发明实施例所述装置,通过对用户交互日志进行实时获取及实时分析,提高了数据处理的时效性;在数据获取、分析及结果数据抓取全过程,无需人工参与,提高了数据处理效率。
[0141]本实施例所述数据处理方案,提高了智能问答系统知识库的维护效率,从而可以为用户提供更准确的问题答案,提高了用户的使用体验。
[0142]本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是其与其他实施例的不同之处。尤其对于装置实施例而言,由于其基本相似与方法实施例,所以,描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0143]本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
[0144]总之,以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种数据处理方法,其特征在于,包括: 获取实时的用户交互日志数据; 按设定的分析过滤策略,对所述用户交互日志数据进行实时过滤,以得到目标问题; 在指定网站抓取所述目标问题对应的结果数据; 基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展。2.如权利要求1所述的方法,其特征在于,所述获取实时的用户交互日志数据,具体包括: 在存储用户交互日志的各服务器中设置日志收集代理节点,获取所述代理节点实时收集并上报的用户交互日志数据。3.如权利要求1或2所述的方法,其特征在于,得到所述目标问题后,所述方法还包括:对所述目标问题进行分词处理,得到多个目标词; 抓取所述目标问题对应的结果数据包括抓取与至少部分目标词对应的结果数据。4.如权利要求1所述的方法,其特征在于,还包括: 在获取实时的用户交互日志数据后,将所述实时的用户交互日志数据存入第一消息缓存队列,并按照订阅日志主题的方式,从所述第一消息缓存队列中提取用户交互日志数据,以进行实时过滤; 将过滤得到的目标问题作为待处理问题发送到第二消息缓存队列,并按照订阅待处理问题主题的方式,从第二消息缓存队列中提取问题,以进行问题的结果数据抓取。5.如权利要求1或2或4所述的方法,其特征在于,所述分析过滤策略包括如下策略之一或者如下多种策略的组合: 策略1:按照设定的回答类型,在用户交互日志数据中的用户问题中过滤出目标问题; 策略2:按照设定的关键词,在用户交互日志数据中的用户问题中过滤出目标问题; 策略3:按照回答内容与问题的语义相似度,在用户交互日志数据中的用户问题中过滤出目标问题; 策略4:按照从用户交互日志数据中分析得到的情感信息,在用户交互日志数据的用户问题中过滤出目标问题。6.如权利要求1所述的方法,其特征在于,所述基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展,包括:将所述目标问题及其对应的结果数据,以新增知识点的方式存入所述知识库。7.如权利要求1所述的方法,其特征在于,所述基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展,包括: 将所述目标问题及其对应的结果数据存入关系型数据库,待所述关系型数据库中的结果数据被审核校验通过后,以新增知识点的方式存入所述知识库。8.如权利要求1所述的方法,其特征在于, 利用Flume日志收集系统获取实时的用户交互日志数据; 采用Spark Streaming技术,对所述用户交互日志数据进行实时过滤。9.一种数据处理装置,其特征在于,包括: 数据获取模块,用于获取实时的用户交互日志数据; 数据处理模块,用于按设定的分析过滤策略,对所述用户交互日志数据进行实时过滤,以得到目标问题; 结果抓取模块,用于在指定网站抓取所述目标问题对应的结果数据; 管理模块,用于基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展。10.如权利要求9所述的装置,其特征在于, 所述数据获取模块,具体用于获取日志收集代理节点实时收集并上报的用户交互日志数据;其中,所述日志收集代理节点设置在存储有用户交互日志的各服务器中。11.如权利要求9或10所述的装置,其特征在于,所述数据处理模块,还用于在得到所述目标问题后,对所述目标问题进行分词处理,得到多个目标词; 所述结果抓取模块抓取所述目标问题对应的结果数据时包括抓取与至少部分目标词对应的结果数据。12.如权利要求9所述的装置,其特征在于, 所述数据获取模块,还用于在获取实时的用户交互日志数据后,将所述实时的用户交互日志数据存入第一消息缓存队列; 所述数据处理模块,还用于按照订阅日志主题的方式,从所述第一消息缓存队列中提取用户交互日志数据,以进行实时过滤;以及将过滤得到的目标问题作为待处理问题发送到第二消息缓存队列; 所述结果抓取模块,还用于按照订阅待处理问题主题的方式,从第二消息缓存队列中提取问题,以进行问题的结果数据抓取。13.如权利要求9或10或12所述的装置,其特征在于,所述数据处理模块应用的分析过滤策略包括如下策略之一或者如下多种策略的组合: 策略1:按照设定的回答类型,在用户交互日志数据中的用户问题中过滤出目标问题; 策略2:按照设定的关键词,在用户交互日志数据中的用户问题中过滤出目标问题; 策略3:按照回答内容与问题的语义相似度,在用户交互日志数据中的用户问题中过滤出目标问题; 策略4:按照从用户交互日志数据中分析得到的情感信息,在用户交互日志数据的用户问题中过滤出目标问题。14.如权利要求9所述的装置,其特征在于,所述管理模块,具体用于将所述目标问题及其对应的结果数据,以新增知识点的方式存入所述知识库。15.如权利要求9所述的装置,其特征在于,所述管理模块,具体用于将所述目标问题及其对应的结果数据存入关系型数据库,待所述关系型数据库中的结果数据被审核校验通过后,以新增知识点的方式存入所述知识库。16.如权利要求9所述的装置,其特征在于, 所述数据获取模块,具体用于利用Flume日志收集系统获取实时的用户交互日志数据;所述数据处理模块,具体用于采用Spark Streaming技术,对所述用户交互日志数据进行实时过滤。
【文档编号】G06F17/30GK106095965SQ201610435485
【公开日】2016年11月9日
【申请日】2016年6月17日
【发明人】李广增, 张磊, 朱频频
【申请人】上海智臻智能网络科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1