一种基于语义匹配和向量搜索的问题分析系统及方法与流程

文档序号:37449271发布日期:2024-03-28 18:32阅读:12来源:国知局
一种基于语义匹配和向量搜索的问题分析系统及方法与流程

本发明涉及机器学习,尤其涉及一种基于语义匹配和向量搜索的问题分析系统及方法。


背景技术:

1、当前在面向政务类的智能问答系统中,由于提问的对象范围较广、对相关领域的知识掌握程度差异较大,智能问答系统无法回答的情况频出。在问答系统中出现未知问题时,虽然基于各种算法、策略的问答系统处理方法各异,但是一般会给予提问者相对统一的话术回复,至于未知问题本身,是否被处理、分析、学习各有不同。

2、在现有技术中,在处理未知问题时,如果只是定时更新知识库,由于提问者的表达形式差异化巨大,对于知识已存在而表达形式不同导致的未知问题,单纯通过补充知识库是无法解决的;如果出现大量未知问题,仅通过人工补充答案的方法,会消耗大量的人力成本,如果未知问题仅表达形式不同但是含义相同,那么针对此类未知问题的回复也是重复补充,会进一步造成人力浪费。


技术实现思路

1、本发明的目的在于,提供一种基于语义匹配和向量搜索的问题分析系统,解决以上技术问题;

2、本发明的目的还在于,提供一种基于语义匹配和向量搜索的问题分析方法,解决以上技术问题;

3、一种基于语义匹配和向量搜索的问题分析系统,包括,

4、文本嵌入模块,收集待处理问题并进行数据处理,将处理后的问题通过一文本嵌入模型转换为向量数据,以进行语义分析;

5、语义分析模块,连接所述文本嵌入模块,基于一向量引擎中的存量数据对所述向量数据进行语义匹配和向量搜索,以判定所述待处理问题的类型;

6、问题存储模块,连接所述语义分析模块和所述文本嵌入模块,基于一搜索引擎对所述待处理问题进行归类存储。

7、优选地,所述待处理问题包括,

8、通过聊天机器人传递给问答系统的未知问题以及历史未处理的未知问题。

9、优选地,所述数据处理包括,

10、对所述待处理问题进行物理去重,判断所述待处理问题是否重复,如果是,则存入所述问题存储模块的关联问题簇中,如果否,则输入所述文本嵌入模型,得到所述向量数据。

11、优选地,所述向量引擎包括用于向量搜索的检索单元和用于存储向量数据的存储单元。

12、优选地,所述存量数据是预先经过所述文本嵌入模块后存入所述向量引擎中的所述向量数据。

13、优选地,所述语义分析模块包括,

14、第一筛选单元,依据所述存量数据对所述向量数据进行向量召回,判断是否存在召回向量,如果否,则判定所述待处理问题为未知问题并存入所述向量引擎的存储单元,如果是,则收集对应的所述存量数据得到一候选数据集;

15、第二筛选单元,连接所述第一筛选单元,通过一语义匹配模型判断是否和所述候选数据集的所述存量数据语义相同,如果否,则判定为所述未知问题并存入所述问题存储模块的原始问题簇和所述存储单元中,如果是,则判定为已知问题并存入所述问题存储模块的关联问题簇中。

16、优选地,所述向量引擎中的所述存量数据均为无重复语义的未知问题;

17、所述搜索引擎为文本搜索引擎。

18、一种基于语义匹配和向量搜索的问题分析方法,用于所述的问题分析系统,包括,

19、步骤s1,收集所述待处理问题并进行处理,将处理后的问题进行向量转换,得到所述向量数据;

20、步骤s2,对所述向量数据进行语义匹配和向量搜索,判定所述待处理问题的类型;

21、步骤s3,通过所述搜索引擎对所述待处理问题进行归类存储。

22、优选地,步骤s1包括,

23、步骤s11,收集聊天机器人传递给问答系统的未知问题和历史未处理的未知问题,得到所述待处理问题;

24、步骤s12,对所述待处理问题进行物理去重,判断所述待处理问题是否重复,如果是,则存入所述问题存储模块的关联问题簇,如果否,则输入所述文本嵌入模型,得到所述向量数据。

25、优选地,步骤s2包括,

26、步骤s21,基于所述向量引擎对所述向量数据进行向量召回,判断是否存在召回向量,如果否,则判定为未知问题并存入所述向量引擎的存储单元,如果是,则收集对应的所述存量数据得到候选数据集;

27、步骤s22,通过语义匹配模型判断是否和所述候选数据集中的所述存量数据语义相同,如果否,则判定为所述未知问题并存入所述问题存储模块的原始问题簇和存储单元中,如果是,则判定为已知问题并存入所述问题存储模块的关联问题簇中。

28、本发明的有益效果是:由于采用以上技术方案,解决了由于提问方式差异化带来的问题,能精准判别文本问题间的匹配程度,避免相似问题重复记录,节省人力。



技术特征:

1.一种基于语义匹配和向量搜索的问题分析系统,其特征在于,包括,

2.根据权利要求1所述的基于语义匹配和向量搜索的问题分析系统,其特征在于,所述待处理问题包括,

3.根据权利要求1所述的基于语义匹配和向量搜索的问题分析系统,其特征在于,所述数据处理包括,

4.根据权利要求1所述的基于语义匹配和向量搜索的问题分析系统,其特征在于,所述向量引擎包括用于向量搜索的检索单元和用于存储向量数据的存储单元。

5.根据权利要求1所述的基于语义匹配和向量搜索的问题分析系统,其特征在于,所述存量数据是预先经过所述文本嵌入模块后存入所述向量引擎中的所述向量数据。

6.根据权利要求1所述的基于语义匹配和向量搜索的问题分析系统,其特征在于,所述语义分析模块包括,

7.根据权利要求1所述的基于语义匹配和向量搜索的问题分析系统,其特征在于,所述向量引擎中的所述存量数据均为无重复语义的未知问题;

8.一种基于语义匹配和向量搜索的问题分析方法,其特征在于,用于权利要求1-7任意一项所述的问题分析系统,包括,

9.根据权利要求8所述的基于语义匹配和向量搜索的问题分析方法,其特征在于,步骤s1包括,

10.根据权利要求8所述的基于语义匹配和向量搜索的问题分析方法,其特征在于,步骤s2包括,


技术总结
本发明公开了一种基于语义匹配和向量搜索的问题分析系统及方法,属于机器学习技术领域;包括,文本嵌入模块,收集待处理问题并进行数据处理,将处理后的问题通过一文本嵌入模型转换为向量数据,以进行语义分析;语义分析模块,连接文本嵌入模块,基于一向量引擎中的存量数据对向量数据进行语义匹配和向量搜索,以判定待处理问题的类型;问题存储模块,连接语义分析模块和文本嵌入模块,基于一搜索引擎对待处理问题进行归类存储。上述技术方案的有益效果是:解决了由于提问方式差异化带来的问题,能精准判别文本问题间的匹配程度,避免相似问题重复记录,节省人力。

技术研发人员:程栋,张泽宏,潘希尧,蔡易林,王晔,谭锐,吴颖健
受保护的技术使用者:上海市大数据股份有限公司
技术研发日:
技术公布日:2024/3/27
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1