人机对话内容处理方法

文档序号:10724961阅读:328来源:国知局
人机对话内容处理方法
【专利摘要】本发明公开了人机对话内容处理方法,主要为:获得用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话内容信息,得到用户画像信息,结合常识信息,创建图谱数据库,并创建分类器,根据对话内容信息,判定用户身份,然后通过分类器对对话内容信息进行分类,得到分类结果,分类后提取对话内容信息对应的三元组信息,判定三元组信息的处理方式:存储还是查询,并且根据不同的处理方式得到相应的应答信息和查询结果,最后将上述应答信息和查询结果在对话系统界面显示。本发明人机对话内容处理方法,用户可以通过该方法在人机对话过程中获得准确的,个性化的和差别化的回答。
【专利说明】
人机对话内容处理方法
技术领域
[0001]本发明涉及人工智能领域,尤其涉及人机交互领域。
【背景技术】
[0002]当今社会已进入到了一个科技日新月异的时代。其中,一个最明显的标志是高科技产品大量涌入消费市场。它们为人们的工作,生活,交流,学习和交通带来了很大的便利和享受。另一方面,高科技产品的普及也为高科技产品自身的提升带来很大的挑战。比如,人机对话系统。
[0003]现有技术中的人机对话系统主要分为以下几种:
[0004]第一种是基于问答库(即QA Library),主要是搜集整理出海量的问题及对应答案库(简称问答库或QA Library),当用户提问时,从问答库中找出已存在的相似问题,返回问答库中的答案给用户。但如果问答库中不存在与用户的提问较相似的问题,则返回的结果质量很差,甚至答非所问。
[0005]第二种是基于知识图谱,图谱中的知识来源于维基百科、百度百科等知识库,或通过手工编撰或自动半自动的方式来提取。对于用户的输入,图谱系统试图用形式化的方法将其转换成图谱查询语句,从而给出相应的回应。基于知识图谱进行人机对话是目前人机对话系统常用的技术,但目前自动化构建知识图谱尚未达到实用的要求,因此人机对话系统只能无差别、无个性地回答实际上千差万别的用户提问。同一个问题虽然由不同的用户提出,但答案(答案集合)往往是相同或类似的,并未充分考虑用户的特点和个性等,因此给用户的回答往往是不够准确的。
[0006]第三种是基于搜索引擎,针对用户的提问,利用搜索引擎返回相关网页,然后从中提取相关的内容给用户。但需要先构建一个搜索引擎系统,这进一步增加了问答系统的工作量和难度。搜索引擎抓取网页的质量对问答系统的好坏影响较大。另外,搜索引擎搜索优势在于信息的检索,通常对共性、信息类的问题有效,比如搜索“压缩软件”,可以返回压缩软件相关的网页。但是,它对于个性化、差异化的问题依然无能为力。比如:我喜欢什么水果?搜索引擎只能返回包含这些关键词的网页,根本不可能正确回答此类因人而异的个性化问题。
[0007]因此,现有技术中的人机对话系统不能区别对待每个用户的问题,给出个性化、差别化和准确的回答是目前需要解决的技术问题。

【发明内容】

[0008]本发明要解决的技术问题是提供人机对话内容处理方法,可根据对用户在对话系统界面中的对话内容进行处理和存储的处理,区别对待每个用户的问题,给出个性化的差别化的回答。
[0009 ]为解决上述技术问题,本发明提供的技术方案是:人机对话内容处理方法,包括:
[0010]步骤SI,获得用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话内容信息;
[0011]步骤S2,根据所述用户在搜索引擎中使用关键字信息、所述用户使用手机应用程序信息和所述用户在对话系统界面中的对话内容信息,得到用户画像信息,所述用户画像信息为描述包括所述用户个性、特点和行为特征的信息;
[0012]步骤S3,根据所述用户画像信息,结合常识信息,创建图谱数据库,所述常识信息为预先搜集整理的?目息;
[0013]步骤S4,根据所述用户在搜索引擎中使用关键字信息、所述用户使用手机应用程序信息、所述用户在对话系统界面中的对话内容信息和常识信息,创建分类器,所述分类器用于对所述用户在对话系统界面中的对话内容信息进行自动分类;
[0014]步骤S5,根据所述用户在对话系统界面中的对话内容信息,判断所述用户的身份,得到用户身份判定结果;
[0015]步骤S6,根据所述用户身份判定结果,所述分类器对所述用户在对话系统界面中的对话内容信息进行分类,得到所述用户在对话系统界面中的对话内容信息的分类结果;
[0016]步骤S7,根据所述用户在对话系统界面中的对话内容信息的分类结果,提取所述用户在对话系统界面中的对话内容信息的三元组信息,判断所述用户在对话系统界面中的对话内容信息的三元组信息处理方式:
[0017]当所述用户在对话系统界面中的对话内容信息为陈述句,将所述三元组信息存储到所述图谱数据库中,根据所述三元组信息和预先设定的应答模式进行推理,给出所述用户在对话系统界面中的对话内容信息的应答信息;
[0018]当所述用户在对话系统界面中的对话内容信息为疑问句,在所述图谱数据库中查询所述三元组信息,给出所述用户在对话系统界面中的对话内容信息对应的查询结果;
[0019]步骤S8,根据所述应答信息和所述查询结果,将所述应答信息和所述查询结果在所述对话系统界面中显示。
[0020]本发明的技术方案为:先获得用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话内容信息;这些信息包含了用户的特点、个性、行为特征等。然后根据用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话内容信息,得到用户画像信息,便于根据不同用户的特点进行区分,接着根据所述用户画像信息,结合常识信息,创建图谱数据库,所述常识信息为预先搜集整理的常识信息;比如日常普遍使用的常识,包括水果,游戏,餐厅,明星,且得到的图谱数据库可作为回答用户问题的信息源。
[0021]然后根据用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息、用户在对话系统界面中的对话内容信息和常识信息,创建分类器,所述分类器用于对所述用户在对话系统界面中的对话内容信息进行自动分类;需要说明的是,分类器不只会根据上述信息创建,还可以通过其它渠道获得的信息创建分类器;根据所述用户在对话系统界面中的对话内容信息,判断所述用户的身份,得到用户身份判定结果(判定用户为用户本人还是其他);接着通过所述分类器对所述用户在对话系统界面中的对话内容信息进行类别判定,得到所述用户在对话系统界面中的对话内容信息的分类结果,即将所述用户在对话系统界面中的对话内容信息判定出所属类别,然后根据所述用户在对话系统界面中的对话内容信息的分类结果,提取所述用户在对话系统界面中的对话内容信息的三元组信息,判断所述三元组信息处理方式:
[0022]当所述用户在对话系统界面中的对话内容信息为陈述句,将所述三元组信息存储到所述图谱数据库中,根据所述三元组信息和预先设定的应答模式进行推理,给出所述用户在对话系统界面中的对话内容信息的应答信息;可以根据三元组中的信息,定义应答信息的范围,然后根据预先设定的应答模式给出相应的反馈。
[0023]当所述用户在对话系统界面中的对话内容信息为疑问句,在所述图谱数据库中查询所述三元组信息,给出所述用户在对话系统界面中的对话内容信息对应的查询结果;可以在图谱数据库中搜索三元组信息,然后给出对应准确的回答。
[0024]最后,将上述得到的应答信息和查询结果在所述对话系统界面中显示。
[0025]根据上述两种处理方式,在人机对话过程中,系统会根据用户在系统界面中的不同对话内容给出相应的回答,比如用户说我想念妈妈”。经判断,这句话是个陈述句,那么系统就会将此句话的三元组信息“我,想念,妈妈”存到图谱数据库中,然后根据“我,想念,妈妈”这三个名词信息,和预设的应答模式,给出适当的回应,如“妈妈也想念你”;因为受“我,想念,妈妈”三元组信息的约束,判定三元组信息涉及到的是妈妈,不会给出不相关的回答,因此根据预先设定好的应答模式(与原对话内容对应的三元组信息相对应的模式),会给出“妈妈也想念你”这样的回答。又比如用户说:“我喜欢的明星是谁”?经判断,这句话是疑问句,那么系统就会将此句话进行分析,先提取出该句话的三元组信息“我,喜欢,明星”,然后在图谱数据库中查找相应的回答,可能根据该用户平时搜索明星名字的相关信息,或是根据该用户以前与系统对话时涉及到的有关明星的信息给出用户答案,系统就会在相应的喜好分类和明星分类中查找到相应的回答:“小影认为你喜欢A和B”(A和B是两个明星的名字)。同时将这句回答存储到图谱数据库中,作为以后回答该用户的信息源。这样就可以根据不同用户的个性、特征及行为不同给出个性化、差别化且准确的回答。
[0026]进一步地,所述步骤S3还包括:
[0027]步骤S31,分析所述用户在对话系统界面中的对话内容信息的语义,得到分析结果;
[0028]步骤S32,根据所述分析结果,提取所述用户在对话系统界面中的对话内容信息的三元组信息,将所述三元组信息存储在所述图谱数据库中,所述存储方式包括长期存储和短期存储。
[0029]对所述用户在对话系统界面中的对话内容信息分析过程中,还可以对所述用户在对话系统界面中的对话内容信息进行长期记忆存储和短期记忆存储处理,具体根据用户在对话系统界面中的对话内容信息的语义进行存储,比如我发烧了”属于短期记忆,此状态短期内因用户恢复健康而改变,可进行短期记忆存储,提取对应的三元组信息存储在图谱数据库中。又比如:“我一直喜欢我的奶奶,从小时候就对我特别好。”属于长期记忆,可进行长期记忆存储,提取对应的三元组信息“我,喜欢,奶奶”,将此信息存储在图谱数据库中。将所述用户在对话系统界面中的对话内容信息进行长期记忆存储或短期记忆存储,可以时图谱数据库的信息更将丰富,为用户提供合理、精准的和有差别化的回答。
[0030]进一步地,所述步骤S4还包括:
[0031]步骤S41,根据所述用户在搜索引擎中使用关键字信息、用户在对话系统界面中的对话内容信息和常识信息,通过人工标注的方式选择样本数据,所述样本数据为用来描述用户类别的数据;
[0032]步骤S42,根据所述样本数据,训练分类模型;
[0033]步骤S43,根据所述分类模型创建分类器。
[0034]本发明对用户对话内容信息的处理方法,可以通过机器学习的方法创建的分类器,就是通过对大量的数据进行模型训练,建立的分类器,用来对所述用户在对话系统界面中的对话内容信息进行自动分类。根据用户在搜索引擎中使用关键字信息、用户在对话系统界面中的对话内容信息和常识信息,这些数据的是具有参考价值的样本数据,是通过人工标注的方式获得的,如果某用户在对话系统界面中的对话内容信息为“我喜欢苹果”,可以人工标注为“喜好”,将此用户在对话系统界面中的对话内容信息归到喜好类别中;那么再有类似对话信息内容为“我喜欢XX”,就可以人工标注为“喜好”,归到喜好类别中。这样可以使训练模型更精准,分类器分类结果更好。
[0035]进一步地,所述分类器还可以通过统计分析所述用户使用手机应用程序信息创建。对于用户使用手机应用程序信息,可以通过统计分析的方法进行分类,如统计所述用户使用手机上购物应用程序的次数,当使用同一类购物APP的次数大于某一阈值,就将此用户分为网购爱好者这一类,这样可以对用户的用户在对话系统界面中的对话内容信息进行准确的分类,给用户准确的回答。
[0036]进一步地,所述用户在搜索引擎中使用关键字信息的获得方式包括分析所述用户在搜索引擎中使用关键字的次数、使用频率和使用时间;所述用户使用手机应用程序信息的获得方式包括分析所述用户使用手机应用程序的次数、使用频率和使用时间。
[0037]可以通过多种方式获得具有用户个性特征的信息,本发明中提到了三种获取方式,其中所述用户在搜索引擎中使用关键字信息是根据所述用户在搜索引擎中使用关键字的次数获得,可以统计所述用户在搜索引擎中使用关键字的次数,当大于某一阈值时,即判定此关键词是用户在搜索引擎中经常使用的,同样,也可以统计用户使用手机应用程序的次数,当大于某一阈值时,即判定此应用程序是该用户经常使用的,根据这些信息可以判断出该用户的类别信息,比如某用户在引擎中经常搜索菜谱,美食,那么就可以判定该用户是个美食爱好者;比如某用户经常使用京东、唯品会或淘宝等购物应用程序,那么可以判定该用户是一个网购爱好者。同时也可以根据用户在搜索引擎中使用关键字的使用频率和使用时间来判断,根据所述用户使用手机应用程序的使用频率和使用时间来判断,这些数据指标都可以用来判断用户属于那一类别。
[0038]进一步地,所述用户画像信息包括标签信息和图谱信息。用户画像信息是用来描述用户的个人特点的,因此可以通过标签或者图谱的形式表现,直观方便。
[0039]进一步地,所述用户在对话系统界面中的对话内容信息为文字信息、图画信息和语音信息中的至少一种。用户在对话系统界面中的对话内容信息可以有多种输入形式,随着目前自然语言处理技术的发展,用户在对话系统界面中的对话内容信息可以是文字信息,也可以是语音信息,或者符号信息,图片信息都可以,都可以通过相关技术识别出并转化成计算机语言。
[0040]进一步地,所述用户在对话系统界面中的对话内容信息的三元组信息包括主体信息、关系信息和实体信息,所述主体信息为人称信息,所述实体信息为名词信息,所述关系信息为描述所述主体信息与所述实体信息之间关系的信息。将用户在对话系统界面中的对话内容信息以三元组的形式表示,即通过对一句话中的词语进行定义划分,可方便对这句话的信息进行处理,比如将一句话分为主体,关系,实体三部分,就可根据主体,关系,实体所代表的不同信息进行进一步分析处理,方便计算机进行处理。如,一句话“我明天要去公园”,其三元组信息为“我,去,公园”,这样直接把三元组信息进行存储,减少了数据量的处理。
[0041]进一步地,所述步骤S7中,所述用户在对话系统界面中的对话内容信息为陈述句或疑问句可通过标点符号、语气助词或疑问词来判断。需要判断用户在对话系统界面中的对话内容信息是陈述句还是疑问句,可以通过这句话的标点符号判断,“句号”就表示是陈述句,“问号”就表示疑问句,可以通过语气助词来判断,比如,“你吃饭了吗”,中“吗”就代表疑问语气,可判断这句话为疑问句;还可以通过疑问词来判断,比如“谁在屋外唱歌”中“谁”是疑问词,可以判断这句话是疑问句。
[0042]进一步地,所述常识信息通过互联网或手工编撰获得。常识信息是大家公知的一些常识信息,可以通过互联网直接获得或自己手工编撰,得到一个数据库,数据量大,可作为创建图谱的一部分数据来源。
【附图说明】
[0043]为了更清楚地说明本发明【具体实施方式】或现有技术中的技术方案,下面将对【具体实施方式】或现有技术描述中所需要使用的附图作简单地介绍。
[0044]图1示出了本发明第一实施例所提供的人机对话内容处理方法的流程图;
[0045]图2示出了本发明第一实施例所提供的人机对话内容处理方法的应用流程图;
[0046]图3示出了本发明第二实施例所提供的人机对话内容处理方法的常识信息分类结果示意图;
[0047]图4示出了本发明第二实施例所提供的人机对话内容处理方法的对话示意图。
【具体实施方式】
[0048]下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
[0049]实施例一
[0050]图1示出了本发明第一实施例所提供的人机对话内容处理方法流程图。如图1所示,根据本发明第一实施例的人机对话内容处理方法包括:
[0051]步骤SI,获得用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话内容信息;
[0052]步骤S2,根据用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话内容信息,得到用户画像信息,用户画像信息为描述包括用户个性、特点和行为特征的信息;
[0053]步骤S3,根据用户画像信息,结合常识信息,创建图谱数据库,常识信息为预先搜集整理的信息;
[0054]步骤S4,根据用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息、用户在对话系统界面中的对话内容信息和常识信息,创建分类器,分类器用于对用户在对话系统界面中的对话内容信息进行自动分类;
[0055]步骤S5,根据用户在对话系统界面中的对话内容信息,判断用户的身份,得到用户身份判定结果;
[0056]步骤S6,根据用户身份判定结果,分类器对用户在对话系统界面中的对话内容信息进行分类,得到用户在对话系统界面中的对话内容信息的分类结果;
[0057]步骤S7,根据用户在对话系统界面中的对话内容信息的分类结果,提取用户在对话系统界面中的对话内容信息的三元组信息,判断三元组信息处理方式:
[0058]当用户在对话系统界面中的对话内容信息为陈述句,将三元组信息存储到图谱数据库中,根据三元组信息和预先设定的应答模式进行推理,给出用户在对话系统界面中的对话内容信息的应答信息;
[0059]当用户在对话系统界面中的对话内容信息为疑问句,在图谱数据库中查询三元组信息,给出用户在对话系统界面中的对话内容信息对应的查询结果;
[0060]步骤S8,根据应答信息和所述查询结果,将应答信息和查询结果在对话系统界面中显示。
[0061]本发明的技术方案为:先获得用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话内容信息;这些信息包含了用户的特点、个性、行为特征等。然后根据用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话内容信息,得到用户画像信息,便于根据不同用户的特点进行区分,接着根据用户画像信息,结合常识信息,创建图谱数据库,常识信息为预先搜集整理的常识信息;比如日常普遍使用的常识,包括水果,游戏,餐厅,明星,且得到的图谱数据库可作为回答用户问题的信息源。
[0062]然后根据用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息、用户在对话系统界面中的对话内容信息和常识信息,创建分类器,分类器用于对用户在对话系统界面中的对话内容信息进行自动分类;根据用户在对话系统界面中的对话内容信息,判断用户的身份,得到用户身份判定结果(判定用户为用户本人还是其他);接着通过分类器对所述用户在对话系统界面中的对话内容信息进行类别判定,得到用户在对话系统界面中的对话内容信息的分类结果,即将用户在对话系统界面中的对话内容信息判定出所属类另IJ,然后根据用户在对话系统界面中的对话内容信息的分类结果,提取用户在对话系统界面中的对话内容信息的三元组信息,判断三元组信息处理方式:
[0063]当用户在对话系统界面中的对话内容信息为陈述句,将三元组信息存储到所述图谱数据库中,根据三元组信息和预先设定的应答模式进行推理,给出用户在对话系统界面中的对话内容信息的应答信息;可以根据三元组中的信息,定义应答信息的范围,然后根据预先设定的应答模式给出相应的反馈。
[0064]当用户在对话系统界面中的对话内容信息为疑问句,在图谱数据库中查询三元组信息,给出用户在对话系统界面中的对话内容信息对应的查询结果;可以在图谱数据库中搜索三元组信息,然后给出对应准确的回答。
[0065]最后,将上述得到的应答信息和查询结果在对话系统界面中显示。
[0066]根据上述两种处理方式,在人机对话过程中,系统会根据用户在系统界面中的不同对话内容给出相应的回答,比如用户说:“我想念妈妈”。经判断,这句话是个陈述句,那么系统就会将此句话的三元组信息“我,想念,妈妈”存到图谱数据库中,然后根据“我,想念,妈妈”这三个名词信息,和预设的应答模式,给出适当的回应,如“妈妈也想念你”;因为受“我,想念,妈妈”三元组信息的约束,不会给出不相关的回答。又比如用户说我喜欢的明星是谁”?经判断,这句话是疑问句,那么系统就会将此句话进行分析,先提取出该句话的三元组信息“我,喜欢,明星”,然后在图谱数据库中查找相应的回答,可能根据该用户平时搜索明星名字的相关信息,或是根据该用户以前与系统对话时涉及到的有关明星的信息给出用户答案,系统就会在相应的喜好分类和明星分类中查找到相应的回答小影认为你喜欢A和B”(A和B是两个明星的名字)。同时将这句回答存储到图谱数据库中,作为以后回答该用户的信息源。这样就可以根据不同用户的个性、特征及行为不同给出个性化、差别化且准确的回答。
[0067]另外,当用户在对话系统界面中的对话内容信息的三元组信息的主体信息不是用户本人,如“爸爸喜欢喝茶”,对应的主体信息为“爸爸”,这样分类器对这句话进行类别判断,然后进行存储,作为图谱数据库中的回答用户问题的参考数据。
[0068]作为本发明人机对话内容处理方法的优选实施例,步骤S3还包括:
[0069]步骤S31,分析用户在对话系统界面中的对话内容信息的语义,得到分析结果;
[0070]步骤S32,根据分析结果,提取用户在对话系统界面中的对话内容信息的三元组信息,将三元组信息存储在图谱数据库中,存储方式包括长期存储和短期存储。
[0071]对用户在对话系统界面中的对话内容信息分析过程中,还可以对用户在对话系统界面中的对话内容信息进行长期记忆存储和短期记忆存储处理,具体根据用户在对话系统界面中的对话内容信息的语义进行存储,比如:“我发烧了”属于短期记忆,此状态短期内因用户恢复健康而改变,可进行短期记忆存储,提取对应的三元组信息,存储在图谱数据库中。又比如:“我一直喜欢我的奶奶,从小时候就对我特别好。”属于长期记忆,可进行长期记忆存储,提取对应的三元组信息“我,喜欢,奶奶”,将此三元组信息存储在图谱数据库中。将用户在对话系统界面中的对话内容信息进行长期记忆存储或短期记忆存储,可以时图谱数据库的信息更将丰富,为用户提供合理、精准的和有差别化的回答。
[0072]具体地,步骤S4还包括:
[0073]步骤S41,根据用户在搜索引擎中使用关键字信息、用户在对话系统界面中的对话内容信息和常识信息,通过人工标注的方式选择样本数据,样本数据为用来描述用户类别的数据;
[0074]步骤S42,根据样本数据,训练分类模型;
[0075]步骤S43,根据分类模型创建分类器。
[0076]本发明对用户对话内容信息的处理方法,可以通过机器学习的方法创建的分类器,就是通过对大量的数据进行模型训练,建立的分类器,用来对用户在对话系统界面中的对话内容信息进行自动分类。根据用户在搜索引擎中使用关键字信息、用户在对话系统界面中的对话内容信息和常识信息,这些数据的是具有参考价值的样本数据,是通过人工标注的方式获得的,如果某用户在对话系统界面中的对话内容信息为“我喜欢苹果”,可以人工标注为“喜好”,将此用户在对话系统界面中的对话内容信息归到喜好类别中;那么再有类似对话信息内容为“我喜欢XX”,就可以人工标注为“喜好”,归到喜好类别中。这样可以使训练模型更精准,分类器分类结果更好。
[0077]具体地,分类器还可以通过统计分析用户使用手机应用程序信息创建。对于用户使用手机应用程序信息,可以通过统计分析的方法进行分类,如统计用户使用手机上购物应用程序的次数,当使用同一类购物APP的次数大于某一阈值,就将此用户分为网购爱好者这一类,这样可以对用户的用户在对话系统界面中的对话内容信息进行准确的分类,给用户准确的回答。
[0078]具体地,用户在搜索引擎中使用关键字信息的获得方式包括分析用户在搜索引擎中使用关键字的次数、使用频率和使用时间;用户使用手机应用程序信息的获得方式包括分析用户使用手机应用程序的次数、使用频率和使用时间。
[0079]可以通过多种方式获得具有用户个性特征的信息,本发明中提到了三种获取方式,其中用户在搜索引擎中使用关键字信息是根据用户在搜索引擎中使用关键字的次数获得,可以统计用户在搜索引擎中使用关键字的次数,当大于某一阈值时,即判定此关键词是用户在搜索引擎中经常使用的,同样,也可以统计用户使用手机应用程序的次数,当大于某一阈值时,即判定此应用程序是该用户经常使用的,根据这些信息可以判断出该用户的类别信息,比如某用户在引擎中经常搜索菜谱,美食,那么就可以判定该用户是个美食爱好者;比如某用户经常使用京东、唯品会或淘宝等购物应用程序,那么可以判定该用户是一个网购爱好者。同时也可以根据用户在搜索引擎中使用关键字的使用频率和使用时间来判断,根据用户使用手机应用程序的使用频率和使用时间来判断,比如用户使用“运动类APP”,而且通常在周六,周日使用较多(使用时间)。根据使用时间可以得到用户的画像:运动爱好者,运动时间:周末。这些数据指标都可以用来判断用户属于那一类别。
[0080]具体地,用户画像信息包括标签信息和图谱信息。用户画像信息是用来描述用户的个人特点的,因此可以通过标签或者图谱的形式表现,直观方便。如足球迷,苹果粉等可以用贴标签的形式表示用户画像。
[0081]具体地,用户在对话系统界面中的对话内容信息为文字信息、图画信息和语音信息中的至少一种。用户在对话系统界面中的对话内容信息可以有多种输入形式,随着目前自然语言处理技术的发展,用户在对话系统界面中的对话内容信息可以是文字信息,也可以是语音信息,或者符号信息,图片信息都可以,都可以通过相关技术识别出并转化成计算机语言。
[0082]具体地,用户在对话系统界面中的对话内容信息的三元组信息包括主体信息、关系信息和实体信息,主体信息为人称信息,实体信息为名词信息,关系信息为描述主体信息与实体信息之间关系的信息。将用户在对话系统界面中的对话内容信息以三元组的形式表示,即通过对一句话中的词语进行定义划分,可方便对这句话的信息进行处理,比如将一句话分为主体,关系,实体三部分,就可根据主体,关系,实体所代表的不同信息进行进一步分析处理,方便计算机进行处理。如,一句话“我明天要去公园”,其三元组信息为“我,去,公园”,这样直接把三元组信息进行存储,减少了数据量的处理。
[0083]具体地,步骤S7中,用户在对话系统界面中的对话内容信息为陈述句或疑问句可通过标点符号、语气助词或疑问词来判断。需要判断用户在对话系统界面中的对话内容信息是陈述句还是疑问句,可以通过这句话的标点符号判断,“句号”就表示是陈述句,“问号”就表示疑问句,可以通过语气助词来判断,比如,“你吃饭了吗”,中“吗”就代表疑问语气,可判断这句话为疑问句;还可以通过疑问词来判断,比如“谁在屋外唱歌”中“谁”是疑问词,可以判断这句话是疑问句。
[0084]具体地,常识信息通过互联网或手工编撰获得。常识信息是大家公知的一些常识信息,可以通过互联网直接获得或自己手工编撰,得到一个数据库,数据量大,可作为创建图谱的一部分数据来源。也可以通过其他方式获得,比如半手工半自动的方式。
[0085]参见图2,为本发明人机对话内容处理方法的常识信息分类结果示意图;常识信息是日常人们熟悉的事物,如水果,游戏,球类,海鲜等,如图2所示是有关水果的常识信息存储结果示意图,结合用户的个人喜好对信息进行分类,如用户喜欢草莓,草莓属于水果,就把此信息归为水果,用户说喜欢蓝莓,蓝莓也是水果,就把这个信息也归为水果。
[0086]实施例二
[0087]参见图2和图3,本发明人机对话内容处理方法,结合简单的人机对话内容解释本发明人机对话内容处理方法的工作流程,前提是本发明人机对话内容处理方法已根据用户在搜索引擎中经常输入的关键字信息、用户经常使用的手机应用程序的信息和用户在对话系统界面中的用户在对话系统界面中的对话内容信息,形成用户画像信息;然后根据用户画像信息和获取到的常识信息,建立图谱数据库和分类器分类器,分类器可对用户在对话系统界面中的对话内容信息进行自动分类。
[0088]然后用户开始进行人机对话:用户先输入对话内容,
[0089]用户:我喜欢吃草莓。
[0090]根据用户输入的这句话,首先判断用户输入话的主体是否为用户本人,因为此句话的主体是“我”,因此判定为用户本人,接下来进入分类器判定,比如分类器I就是喜好分类器,那么分类器就判定这句话属于喜好类,同时计算分类可信度,分类可信度大于阈值
0.9,则下一步利用提取原则提取出三元组信息,即这句话的主体,关系,实体三种信息,根据用户所输入的这句话,三元组信息为“我,喜欢,草莓”,得到信息后,判断这句话是陈述句还是疑问句,很显然“我喜欢吃草莓”是陈述句,因此下一步对这句话进行存储处理,即将这句话存储到图谱中,作为新的用户对话样本信息,更新图谱数据库作为回答用户的信息源。[0091 ]人机对话系统回复:草莓不错啊。
[0092 ]人机对话系统对用户的喜好进行了肯定回答。
[0093]用户:我喜欢吃蓝莓。
[0094]用户又输入了一句话,因此按照上述处理流程,判断此句话的主体是“我”,因此判定为用户本人,分类器对此句话做了喜好的分类,且分类可信度大于阈值0.9,因此提取这句话的三元组信息“我,喜欢,蓝莓”,同样此句话为陈述句,因此将这个三元组信息也存入到图谱中,同样作为新的吧用户对话样本信息,进而更新了回答用户的信息源。
[0095]人机对话系统回复:蓝莓也不错啊。
[0096]用户接着输入对话信息,
[0097]用户:我喜欢什么水果啊?
[0098]根据同样的系统流程,先判断此句话的主体是不是用户本人,经判断“我”代表用户本人,因此,进入分类器判定阶段,分类器I就是关于喜好的分类,因此将此句话的内容信息分类到分类器I中,计算此时分类器的分类可信度,也是大于规定阈值0.9的,因此分类器I的分类效果很好,下面利用提取规则对这句话的内容信息进行提取,即提取该句话内容信息的三元组信息,“主体,关系,实体”三种信息内容,那么本句话的提取结果为“我,喜欢,水果”;计算分类器I的分类可信度小于0.9时,那么我们可以结合基于规则的方法辅助提取这句话的三元组信息,总之,分类器I将这句话分类后,我们要对这句话进行三元组信息提取,提取后,判定这句话是要进行存储处理还是查询处理,由于这句话是疑问句,因此要进行查询处理,即在图谱中查询这句话对应的回答。由于提取三元组中主体,关系,实体三者都存在,所以搜索图谱进行推理,将之前对话内容中的“蓝莓” “草莓”返回。图谱的存储方式与传统的关系数据库不一样,而是以图的形式存储数据,更加直观。当用户输入后,我们的系统将发起图谱查询,搜索从用户节点到水果节点的路径。并将路径上的节点(草莓,蓝莓)返回。
[0099]人机对话系统回复:小影觉得你喜欢如下水果:蓝莓草莓。
[0100]也就是说该人机对话系统中充分应用了该用户与系统对话的内容,将之前的对话内容进行了长期记忆存储,在回答用户问题时,会根据这些信息给用户差别化的回答,而不是只根据大众喜欢的水果进行没有针对性的回答,因此本发明人机对话内容处理方法解决了系统不能根据不同用户性格特点等因素给出有差别的回答的问题。
[0101]如果用户接着提问,
[0102]用户:我喜欢蓝莓吗?
[0103]人机对话系统回复:小影觉得你喜欢蓝莓。
[0104]用户:我喜欢草莓吗?
[0105]人机对话系统回复:小影觉得你喜欢草莓。(小影是我们为系统人为起的名字)
[0106]其处理流程与上述类似。不同之处在于:搜索图谱的时候,此时将搜索用户节点和草莓节点的关系,并将图谱中获取的关系与用户输入中提取的三元组关系进行一致性判定。也去就是说在搜索图谱中的时候,只搜索到用户节点信息和草莓节点信息之间的关系为止,然后对搜索到的结果与提取到的三元组关系进行判断,判断我们搜索查询到的结果是否与三元组信息中的一致,如果搜索图谱查询到的结果是“我喜欢草莓”,那么返回肯定的回答,如上述系统的回答“小影觉得你喜欢草莓”。如果搜索图谱查询到的结果是“我不喜欢草莓”,那么就返回否定的回答,系统可能这样回答“小影觉得你不喜欢草莓”。还可以包括这种情况,用户我讨厌草莓”。但搜索图谱查询到的结果是“我喜欢草莓”,这样就与用户表达信息不一致,则会返回“你以前喜欢草莓呀,怎么不喜欢啦?”。因此,系统会根据用户的不同对话信息,在图谱中进行搜索,给出个性化差别化的回答。
[0107]本发明人机对话内容处理方法主要有以下几点有益效果:
[0108]1、从多方面刻画用户画像。包括用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话内容信息;特别是通过用户对话信息获得用户的画像,通过得知用户的个性特征,系统可以给用户提供个性化的回答,如用户在对话内容中说过喜欢吃辣的东西,某个中午,用户对系统说我饿了”,那么系统就会根据之前对话中提到过的“我喜欢辣的东西”,系统给用户回答去吃麻辣香锅吧”。因此根据用户画像可以给出个性化的回答。
[0109]2、本发明人机对话内容处理方法对人机对话内容进行了长期记忆和短期记忆存储。通过长期存储的对话内容可以获得用户以前,现在做过的事情,通过短期存储对话内容(如生病,出差等一些短暂性,会改变的事),可以预测未来会发生的事情(如,生病好了,出差回来了)。
[0110]3、随着用户与系统的对话内容不断增多,会不断完善系统对用户对话内容的理解能力。因为随着对话内容的增多,分类器也会不断增多,可以对更多方面的信息进行分类,包括天文、地理、文学、医学、工学、日常知识等多方面,这样就会更加智能的理解用户的对话内容,给出个性化的回答。
[0111]4、创建图谱,将常识信息、用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话内容信息整合在一起,创建图谱,形成一个数据库,帮助机器理解对话内容,在人机对话时,可根据图谱进行查询和推理,得到准确的回答。
[0112]综上,通过本发明人机对话内容处理方法进行人机对话,可以得到个性化、差别化的回答。
[0113]最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
【主权项】
1.人机对话内容处理方法,其特征在于,包括以下步骤: 步骤Si,获得用户在搜索引擎中使用关键字信息、用户使用手机应用程序信息和用户在对话系统界面中的对话内容信息; 步骤S2,根据所述用户在搜索引擎中使用关键字信息、所述用户使用手机应用程序信息和所述用户在对话系统界面中的对话内容信息,得到用户画像信息,所述用户画像信息为描述包括所述用户个性、特点和行为特征的信息; 步骤S3,根据所述用户画像信息,结合常识信息,创建图谱数据库,所述常识信息为预先搜集整理的?目息; 步骤S4,根据所述用户在搜索引擎中使用关键字信息、所述用户使用手机应用程序信息、所述用户在对话系统界面中的对话内容信息和常识信息,创建分类器,所述分类器用于对所述用户在对话系统界面中的对话内容信息进行自动分类; 步骤S5,根据所述用户在对话系统界面中的对话内容信息,判断所述用户的身份,得到用户身份判定结果; 步骤S6,根据所述用户身份判定结果,所述分类器对所述用户在对话系统界面中的对话内容信息进行分类,得到所述用户在对话系统界面中的对话内容信息的分类结果; 步骤S7,根据所述用户在对话系统界面中的对话内容信息的分类结果,提取所述用户在对话系统界面中的对话内容信息的三元组信息,判断所述用户在对话系统界面中的对话内容信息的三元组信息处理方式: 当所述用户在对话系统界面中的对话内容信息为陈述句,将所述三元组信息存储到所述图谱数据库中,根据所述三元组信息和预先设定的应答模式进行推理,给出所述用户在对话系统界面中的对话内容信息的应答信息; 当所述用户在对话系统界面中的对话内容信息为疑问句,在所述图谱数据库中查询所述三元组信息,给出所述用户在对话系统界面中的对话内容信息对应的查询结果; 步骤S8,根据所述应答信息和所述查询结果,将所述应答信息和所述查询结果在所述对话系统界面中显示。2.根据权利要求1所述人机对话内容处理方法,其特征在于, 所述步骤S3还包括: 步骤S31,分析所述用户在对话系统界面中的对话内容信息的语义,得到分析结果; 步骤S32,根据所述分析结果,提取所述用户在对话系统界面中的对话内容信息的三元组信息,将所述三元组信息存储在所述图谱数据库中,所述存储方式包括长期存储和短期存储。3.根据权利要求1所述人机对话内容处理方法,其特征在于, 所述步骤S4还包括: 步骤S41,根据所述用户在搜索引擎中使用关键字信息、用户在对话系统界面中的对话内容信息和常识信息,通过人工标注的方式选择样本数据,所述样本数据为用来描述用户类别的数据; 步骤S42,根据所述样本数据,训练分类模型; 步骤S43,根据所述分类模型创建分类器。4.根据权利要求1所述人机对话内容处理方法,其特征在于, 所述分类器还可以通过统计分析所述用户使用手机应用程序信息创建。5.根据权利要求1所述人机对话内容处理方法,其特征在于, 所述用户在搜索引擎中使用关键字信息的获得方式包括分析所述用户在搜索引擎中使用关键字的次数、使用频率和使用时间; 所述用户使用手机应用程序信息的获得方式包括分析所述用户使用手机应用程序的次数、使用频率和使用时间。6.根据权利要求1所述人机对话内容处理方法,其特征在于, 所述用户画像信息包括标签信息和图谱信息。7.根据权利要求1所述人机对话内容处理方法,其特征在于, 所述用户在对话系统界面中的对话内容信息为文字信息、图画信息和语音信息中的至少一种。8.根据权利要求1所述人机对话内容处理方法,其特征在于, 所述用户在对话系统界面中的对话内容信息的三元组信息包括主体信息、关系信息和实体信息,所述主体信息为人称信息,所述实体信息为名词信息,所述关系信息为描述所述主体信息与所述实体信息之间关系的信息。9.根据权利要求1所述人机对话内容处理方法,其特征在于, 所述步骤S7中,所述用户在对话系统界面中的对话内容信息为陈述句或疑问句可通过标点符号、语气助词或疑问词来判断。10.根据权利要求1所述人机对话内容处理方法,其特征在于, 所述常识信息通过互联网或手工编撰获得。
【文档编号】G06F17/30GK106095833SQ201610383236
【公开日】2016年11月9日
【申请日】2016年6月1日 公开号201610383236.7, CN 106095833 A, CN 106095833A, CN 201610383236, CN-A-106095833, CN106095833 A, CN106095833A, CN201610383236, CN201610383236.7
【发明人】姜伟, 王海波, 熊耀华, 童旭平, 仪倩, 叶俊杰, 王艳
【申请人】竹间智能科技(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1