一种基于微信公众号的多模智能问答系统及方法与流程

文档序号：24306864发布日期：2021-03-17 00:59阅读：来源：国知局

技术特征：

1.一种基于微信公众号的多模智能问答系统，其特征在于：包括信息采集模块、信息分析模块、知识库构建模块、用户请求信息接收模块、用户请求信息理解模块、多模应答信息生成模块、多模应答信息输出模块；

所述信息采集模块：用于通过爬虫或微信官方api方式对指定微信公众号的信息进行采集；

所述信息分析模块：用于通过网页分析、数据清洗、数据预处理对采集到的信息数据进行分析处理，提取出构建知识库所需要的相关信息数据；

所述知识库构建模块：用于对所述信息分析模块提取出来的信息数据进行知识库构建；

所述用户请求信息接收模块：用于从文本输入或语音输入接口接收用户的请求信息，接收到的用户请求信息即视为用户提出的问题；其中若用户请求信息为文本输入，则直接对接收到的文本信息进行数据清洗，若为语音输入，则首先采用语音识别技术将接收到的语音信息转化为文本信息后再进行数据清洗；

所述用户请求信息理解模块：用于通过nlp技术对所述用户请求信息接收模块中已清洗的数据进行处理；

所述多模应答信息生成模块：用于通过所述用户请求信息理解模块的数据处理对用户请求信息的理解；按照一定规则进行知识库搜索，返回最匹配的搜索结果，根据该搜索结果包含的信息内容，按照预设规则和相关技术组织生成多模应答信息；

所述多模应答信息输出模块：用于按照规定模板和格式将所述多模应答信息生成模块组织生成的多模应答信息输出给用户；其中若多维应答信息中的文本信息输出部分需要进行语音输出，则采用语音合成技术将文本信息转化为语音信息进行输出。

2.基于权利要求1所述的多模智能问答系统实现的多模智能问答方法，其特征在于：包括以下步骤：

1）将从微信公众号采集的网页信息分析处理后构建知识库；具体包括：

11）采集微信公众号网页信息；其中采集对象是指定的一个或多个微信公众号的一定数量的完整的网页信息；

12）对采集到的网页信息进行分析处理；分析处理采集到微信公众号的网页信息并挖掘出每一篇公众号文章相关的信息；

13）对公众号文章进行编号并提取文章的关键信息；对挖掘出来的每一篇公众号文章按照顺序进行编号，提取每一篇公众号文章所对应的关键信息；其中关键信息包括文章标题、发布时间、发布者、文章url；

14）根据步骤13）的文章编号和关键信息构建知识库；以文章编号为索引，将其与提取出来的对应的公众号文章的关键信息合并为一个信息条，以此来构建知识库；

2）依据步骤1）中所构建的知识库进行智能问答交互；具体包括：

21）接收用户请求信息；以文本输入或语音输入的方式接收用户的请求信息并转换为文本信息，实现用户请求信息的接收，即用户提出的问题表现为文本信息的形式；

22）清洗用户请求信息；其中包含对非常规字符、标点符号以及冗余数据的数据清洗；

23）提取用户请求信息关键词组；接收到的用户请求主要为中文字符，对步骤22）中已清洗数据采用nlp方法对中文分词、词性标注、词性分类、关键词进行处理，处理后得到一个包括1至5个关键词的关键词组；

24）根据用户请求信息关键词组搜索知识库；将步骤23）中得到的用户请求信息的关键词组与知识库中的文章标题关键词组逐一比对，进行关键词组相似度打分，遍历知识库，得分最高的文章标题关键词组所对应的信息条索引值即为与搜索最匹配的索引值，以此索引值作为本次搜索的搜索结果；

25）根据搜索结果定位知识库信息条，组织生成多模应答信息；其中步骤24）返回的搜索结果是一个与搜索最匹配的索引值，将此索引值指向的知识库信息条用来组织生成多模应答信息；

26）按照规定模板和格式输出多模应答信息；其中组织生成的多模应答信息按照预设好的模板和格式进行输出。

3.根据权利要求2所述的多模智能问答方法，其特征在于：步骤25）具体包括：在定位知识库信息条之后，根据信息条中的文章url实时在线采集该文章的网页信息，通过网页分析、数据清洗技术对网页信息进行分析处理，提取出该文章的信息内容；

其中多模应答信息的信息模式根据信息内容和预设规则来设定，包括文本信息、图片信息、视音频信息和文章url信息；文本信息包含文章标题和文章内容摘要，文章标题和文章url信息直接从知识库信息条中获取；文章内容摘要是根据文章的url实时在线下载文章网页，提取其中的文本信息，然后采用nlp的文本摘要方法获取；

图片信息包含jpeg静图和gif动图；图片信息和视音频信息是从文章网页中提取图片和视音频的url，然后根据提取到的图片和视音频的url实时在线下载获取。

4.根据权利要求2所述的多模智能问答方法，其特征在于：步骤26）输出的多模应答信息中，文本信息以文本输出框的形式输出，文章url信息以超链接的形式输出，图片信息以相册的形式输出，视音频信息以视音频播放窗的形式输出。

5.根据权利要求3所述的多模智能问答方法，其特征在于：所述步骤25）中文章内容摘要的数量为5句以下，jpeg静图的数量为10张以下，gif动图的数量为5张以下，视频信息的数量为3个以下。

技术总结
本发明提出了一种基于微信公众号的多模智能问答方法，包括以下步骤：首先将从微信公众号采集的网页信息分析处理，对公众号文章进行编号并提取文章的关键信息；根据文章编号和关键信息构建知识库；然后依据所构建的知识库进行智能问答交互本发明通过多维智能问答的形式为用户提供了一种体验良好的优质内容智能服务，用精细的方式来组织生成应答信息，对于用户提出的问题，在与知识库的显式信息进行匹配之后，根据匹配信息获取进一步的信息数据，并基于获取到的信息数据进行知识提炼，从而为用户提供摘要式的应答信息；另外，这种方式下知识库只需用较少的数据量便可根据用户问题组织生成详尽的应答信息。

技术研发人员：王三山;付巍;李小凡;何莲
受保护的技术使用者：王三山
技术研发日：2021.01.26
技术公布日：2021.03.16

完整全部详细技术资料下载

当前第2页1 2