一种基于用户注册信息的人机对话控制方法及系统与流程

文档序号：11097785阅读：285来源：国知局

本发明涉及身份验证的领域，特别涉及一种基于用户注册信息的人机对话控制方法及系统。

背景技术：

近年来，社会对于身份验证问题的需求越来越迫切，尤其是在携程、虚拟信用卡等安全问题爆发，各互联网公司加强产品中的安全认证设施，国家开展网络安全宣传周以后，人们对于网络认证的安全意识大大地增强。

用于验证身份的特征主要是人脸、瞳孔、声音等生物特征。而与其他生物特征相比，声纹认证具有用户接受程度高、设备成本低、方便采集等优势，是非现场身份认证的首选，对于基于电话网络的应用，是唯一的选择，因此，声纹认证在生物认证技术中占有非常重要的地位。

然而，尽管声纹验证具有如此多的优点，它也面临着各种各样的系统攻击，其中最易施行、成本最低、也最有成效的一种攻击是回放攻击，就是录制认证实体的真实语音样本，然后攻击者在认证的时候把声音样本回放出来，从而达到欺骗系统的目的。

为抵御录音回防攻击攻击，需要采取人机挑战-响应策略，由机器主导与用户的对话，这带来了以下几个方面的难点：首先，为了保证系统提出的问题具有很高的随机性，需要实现准备丰富的问题库，问题涉及面广，需要牵涉到语言学、心理学、人们日常生活习惯等，因此建设一个合格的问题库具有很高的难度；其次，问题之间的关联度也是一个问题，假如用户需要回答一系列没有关联的随机问题，这会极大的提高用户的心理防御，用户接受度低；第三，在人机会话不合拍的情况下，勉强地应对将影响发音质量，提升系统拒识概率，从而进一步提高人们的抗拒心理。

技术实现要素：

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于用户注册信息的人机对话控制方法及系统。该方法用于身份认证领域，提高机器挑战的随机性和人机对话的自然性，确保对话过程不易被录音回放攻击和用户能顺利依据机器的思路完成人机对话。

为了达到上述目的，本发明采用以下技术方案：

本发明基于用户注册信息的人机对话控制方法，包括下述步骤：

S1、控制基于概率的多层次话题状态机跳转至下一个子状态；

S2、根据当前状态从知识主题树提取对话模板或知识素材；

S3、利用语句生成器将模板或素材转换成文字语句；

S4、将文字语句合成为语音播放给用户听；

S5、等待并获取用户语音回答，将语音回复转换成文字，并跳转至S1。

作为优选的技术方案，步骤S1中，基于概率的多层次话题状态机由用户信息注册器采集到的信息生成。

作为优选的技术方案，步骤S1中，基于概率的多层次话题状态机由状态和转移概率组成，每一个状态对应一类话题，而每个大状态下又会派生出一层子状态机，代表该大类话题下的细分子话题，而子状态机又可以继续派生出再下一层子状态机，每个状态之间有对应的转移概率；部分状态有一个入口问题集，进入这类状态的子状态机之前，会先向用户提问入口问题，然后再依据用户回答决定下一步跳转。

作为优选的技术方案，步骤S1中，状态跳转的具体过程如下：

S11、初始化当前状态Sc为当前层级状态机的初始状态；

S12、若Sc下没有子状态机，则将Sc作为提取知识主体树的状态；否则执行S13；

S13、从Sc开始，依据其所连弧线上概率转移至下一级子状态机中的任意一个状态Sk，则此时Sc＝Sk；

S14、若状态Sc有入口问题集，则随机选出一条问题询问用户，根据用户回答选择是否进入子状态机，若是进入子状态机，则Sc赋值为子状态机的初始状态，跳转至步骤S12；

S15、若状态Sc没有入口问题集，则直接进入子状态机，Sc赋值为子状态机的初始状态，跳转至步骤S12。

作为优选的技术方案，步骤S2中，知识主题树具体如下：

按树状划分，主干为一级主题，主干继续向下延伸，继续往下细分二级、三级、...、n级主题，叶子主题为没有任何子主题的主题，叶子主题下的内容由常规语句模板库和扩展素材库组成；

其中，所述常规语句模板库由模板语句组成，模板语句采用模板语法进行编写，模板结构有多选分支、可选分支和类别项三种；

所述扩展素材库由一系列从互联网搜集到的特定主题下简单句组成，可以是时事素材、人物简介或者代表某一主题下的知识。

作为优选的技术方案，步骤S2流程具体为：

S21、采用深度优先搜索从知识主题树中搜索与当前状态所属话题相匹配的主题；

S22、搜索到与前状态所属话题相匹配的知识主题后，采用随机选择策略从该主题对应的常规语句模板库选择一条语句模板，或者从扩展素材库选择一个对话素材。

作为优选的技术方案，步骤S3中，将模板转换成文字语句的策略为，针对不同模板结构，采用不同的替换操作：

(1)多选分支：替换时选择根据用户的身份信息选择一个分支替代；

(2)可选分支：替换时可以选择用这个分支，或者不用这个分支；

(3)类别项：替换时可以用该类别下的任意对象替换。

作为优选的技术方案，步骤S3中，将扩展素材转换成文字语句的策略具体如下：

(1)针对人名进行转换，利用实体命名工具找到素材句子中的人名，然后进行替换；

(2)针对地名进行转换，利用实体命名工具找到素材句子中的地名，然后进行替换；

(3)针对原因进行转换，把陈述句转换成疑问句。

本发明还提供了一种基于用户注册信息的人机对话控制系统，包括：

用户信息注册模块，用于采集用户身份信息；

基于概率的多层次话题状态机，利用用户身份信息生成，用于控制人机对话过程中的话题转换；

知识主题树，用于存储话题知识；

语句生成器，用于将语句模板或知识素材转换成文字语句，由常规语句模板处理器和扩展素材处理器组成；

常规语句模板处理器，用于将常规语句模板转换成普通文字语句；

扩展素材处理器，用于将扩展素材语句转换成问题；

语音合成模块，用于将文字语句合成为语音播放给用户；

语音输入模块，用于录取用户语音输入，并将其转化成文字；

所述用户信息注册模块、基于概率的多层次话题状态机、知识主体树、语句生成器以及语音合成模块顺序连接，所述语音输入模块与基于概率的多层次话题状态机连接。

作为优选的技术方案，所述知识主体树，按主题树划分，由常规语句模板库和扩展素材库组成；

常规语句模板库，采用模板化技术，用于存储与用户登记信息直接相关的常规问题；

扩展素材库，用于存储从互联网搜集的扩展性素材。

本发明与现有技术相比，具有如下优点和有益效果：

本发明的基于用户注册信息的人机对话控制方法可用于身份认证领域，根据用户身份信息产生用户所熟悉的对话内容，以一种自然亲切的方式主导人机对话，在用户防备心理较低的情况下采集用户声纹。

附图说明

图1示出本发明基于用户注册信息的人机对话控制方法一个实施例的流程图；

图2示出本发明基于用户注册信息的人机对话控制方法中基于概率的多层次话题状态机的一个实施例的结构图；

图3示出本发明基于用户注册信息的人机对话装置中用户信息注册模块一个实施例的结构图；

图4示出本发明基于用户注册信息的人机对话控制方法中基于概率的多层次话题状态机一个实施例的跳转流程图；

图5示出本发明基于用户注册信息的人机对话控制方法中知识主题树一个实施例的结构图；

图6示出本发明基于用户注册信息的人机对话装置一个实施例的结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示为本发明实施例的流程图，包括下述步骤：

步骤11，控制基于概率的多层次话题状态机跳转至下一个子状态；

步骤12，根据当前状态从知识主题树提取对话模板或知识素材；

步骤13，利用语句生成器将模板或素材转换成文字语句；

步骤14，将文字语句合成为语音播放给用户听；

步骤15，等待并获取用户语音回答，将语音回复转换成文字，并跳转至步骤11。

根据本发明的优选实施例，步骤11中的状态跳转可以由基于概率的多层次话题状态机执行。

如图2所示为本发明基于用户注册信息的人机对话控制方法中基于概率的多层次话题状态机的一个实施例的结构图，为了直观地阐述本发明涉及规则思想，图2仅示出状态机的一部分。

基于概率的多层次话题状态机可以由状态和转移概率组成，如图2所示，每一个圆圈代表一个状态，每个状态代表对应于一类话题，而每个状态下又会有一层子状态机，代表该类话题下的细分子话题，而子状态机又可以继续派生出下一层子状态机；而弧线代表状态转移关系，弧线上的权重表示状态之间的转移概率。此外，子状态可以有一个入口问题集，问题集内含多个入口问题，进入该状态的子状态机之前，会先向用户提问入口问题，然后再依据用户回答决定下一步跳转。

基于概率的多层次话题状态机由用户信息注册器采集到的信息生成，图3为用户信息注册器的结构图，用于采集用户本身、妻子(假如有)、所有孩子(假如有)的年龄、籍贯、受教育程度、出生日期等信息。该装置可以部署在一台服务器上，用户从互联网访问注册页面，填写信息，并提交信息，然后用户信息注册器将信息保存至特定的存储介质中。

图4为基于概率的多层次话题状态机的跳转流程图，包括以下步骤：

步骤31，初始化当前状态变量S_c＝S₁₀，其中，表示第一层状态机的初始状态S₁₀；

步骤32，若S_c下没有子状态机，则返回状态Sc，否则执行步骤33；

步骤33，从S_c开始，依据其所连弧线上概率转移至下一级子状态机中的任意一个状态S_k，则此时S_c＝S_k；

步骤34，若状态S_c有入口问题集，则选出一条问题询问用户，根据用户回答选择是否进入子状态机，若是进入子状态机，则S_c赋值为子状态机的初始状态S_j0；跳转至步骤32；

步骤35，若状态S_c没有入口问题集，则直接进入子状态机，S_c赋值为子状态机的初始状态S_j0；跳转至步骤32。

举例来说，用户从第一层状态机初始状态S₁₀开始跳转至S₁₄，进入爱好话题，由于S₁₄没有入口问题集，因此直接进入S₁₄的下一层子状态机，跳转至子状态机的初始状态S₂₀，然后跳转至S₂₂，进入旅游话题，由于S₂₂同样没有入口问题集，因此直接进入S₂₂的下一层子状态机，跳转至子状态机的初始状态S₃₀，然后跳转至S₃₁，进入湖南话题，该状态下有入口问题集，选择一条用户提问，如“你有去过湖南旅游吗？”，若用户回答“是”，则继续进入S₃₁，以此类推，一直深入至最底层的子状态机。

图5为知识主题树的示例结构图，按树状划分，主干为一级主题，主干继续向下延伸，开枝散叶，继续往下细分二级、三级、...、n级主题，叶子主题为没有任何子主题的主题。

根据本发明的优选实施例，步骤12中，根据当前状态所属话题从知识主题树中搜索相匹配的主题，搜索方式可以采用深度优先搜索，从第一级主题开始和当前状态所属话题比较，若相同，则认为找到匹配主题，否则，继续往下搜索，若遇到叶子主题，则应回溯至父级主题。

根据本发明的优选实施例，步骤12中，搜索到与前状态所属话题相匹配的知识主题后，可从该主题对应的常规语句模板库选择一条语句模板，或者从扩展素材库选择一个对话素材，选择策略可以采用随机选择策略。

常规语句模板库模板语句组成，模板语句采用模板语法进行编写，模板结构有多选分支、可选分支、类别项三种，结构具体可参见下文。

扩展素材库由一系列从互联网搜集到的特定主题下简单句组成，可以是时事素材，人物简介等，代表某一主题下的知识。

根据本发明的优选实施例，步骤13中，语句生成器先对输入作出判断，若输入为语句模板，则调用常规语句模板处理器进行处理；若输入为对话素材，则调用扩展素材处理器进行处理。

常规语句模板处理器用于将语句模板中的模板结构替换为常规文字。本实施例的一种实现方式中，模板结构和对应的替换策略如下：

(1)多选分支：用“|”分隔各个选择分支，替换时选择根据用户的身份信息选择一个分支替代，例如“小学|中学”表明可以用“小学”或“中学”进行替代；

(2)可选分支：用“？”作为符号，替换时可以选择用这个分支，或者不用这个分支，例如“(平时)？喜欢旅游吗”，替换后可以变成“喜欢旅游吗”，或者变成“平时喜欢旅游吗”；

(3)类别项：用“<>”包含类型，替换时可以用该类别下的任意对象替换，例如“<运动>”，替换时可以用属于“运动”类别的任意一个名词替换，可以替换成“足球”或者“篮球”等等。

扩展素材处理器用于将扩展素材转换成常规的问题，扩展素材从扩展素材库获取，扩展素材库预先收录从互联网上摘录下来的简单句，本实施例的一种实现方式中，扩展素材处理器的转换策略如下：

(1)针对人名进行转换，可以利用实体命名工具找到素材句子中的人名，然后用“谁”进行替换，例如，“三国时，诸葛亮大摆空城计”，可将“诸葛亮”替换成“谁”，转换结果为“三国时，谁大摆空城计”；

(2)针对地名进行转换，可以利用实体命名工具找到素材句子中的地名，然后用“哪里”进行替换，例如，“广交会在广州举行”，可将“广州”替换成“哪里”，转换结果为“广交会在哪里举行”；

(3)针对原因进行转换，可以在陈述句前面加上“为什么”转换成疑问句，例如，“海水是咸的”，加上“为什么”后，转换结果为“为什么海水是咸的”。

图6为实现本发明基于用户注册信息的人机对话方法的一个装置图，图中表明了各模块的连线关系，该装置包括如下模块：

用户信息注册模块，用于采集用户身份信息；

基于概率的多层次话题状态机，利用用户身份信息生成，用于控制人机对话过程中的话题转换；

知识主题树，用于存储话题知识，按主题树划分，由常规语句模板库和扩展素材库组成；

常规语句模板库，采用模板化技术，用于存储与用户登记信息直接相关的常规问题；

扩展素材库，用于存储从互联网搜集的扩展性素材；

语句生成器，用于将语句模板或知识素材转换成文字语句，由常规语句模板处理器和扩展素材处理器组成；

常规语句模板处理器，将常规语句模板转换成普通文字语句；

扩展素材处理器，将扩展素材语句转换成问题；

语音合成模块，将文字语句合成为语音播放给用户；

语音输入模块，录取用户语音输入，并将其转化成文字。

根据本发明的优选实施例，语音合成模块和语音输入模块这两个模块可以采用开源库或专用的语音-文字转换芯片完成，也可以由实施方自行研发实现。

上述各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件、存储在存储器中且由合适的指令执行系统执行的软件或固件或它们的组合来实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贺前华;叶卓贤;吴俊峰
技术所有人：华南理工大学
我是此专利的发明人