基于智能问答系统会话历史的新词发现方法及系统的制作方法

文档序号：9865614阅读：418来源：国知局

基于智能问答系统会话历史的新词发现方法及系统的制作方法
【技术领域】
[0001] 本发明设及智能问答领域，特别是一种基于智能问答系统会话历史的新词发现方法及系统。
【背景技术】
[0002] 智能问答系统，又称智能机器人，可W接受用户的自然语言输入，分析用户的真实意图，得到唯一的答案返回给用户。随着人工智能技术的进步，智能问答系统，迎来了新一轮的发展热潮。国内外软件公司纷纷推出多款产品，运其中，有WGoogle Now,微软小冰，百度的小度机器人为代表的聊天机器人，可W满足用户生活、娱乐的需要;也有W北京中科汇联科技股份有限公司研发的微喂智能机器人、爱客服智能机器人为代表的专业智能客服机器人，可W满足企事业单位客户服务工作的需要，帮助企事业单位提升客户服务满意度，提高客户服务工作效率，降低客户服务成本。智能问答系统，已经在人们的工作和生活中扮演越来越重要的角色，也正因为此，智能问答系统被称为人工智能皇冠上的明珠，成为科研界、企业界持续关注的热点方向。
[0003] 智能问答系统是一个非常复杂的软件系统，使用了几乎所有的自然语言处理和深度学习技术，比如分词、词性标注、命名实体识别、语法分析、句法分析、卷积神经网络、递归神经网络等等。运其中，分词是一项最为基础的工作，分词结果的好坏直接决定了智能问答系统能否正确的理解用户输入。目前，所有主流的分词器都有内置的词典，词典包含所有已知词语的条目。如果句子中的所有词都在词典中已经收录，主流分词器将该句话进行正确分词的概率在95% W上。如果句子中的某个词在词典中未收录，则分词器很可能无法对运句话进行正确的分词。
[0004] 互联网的普及，知识的爆炸性增长和不断创造，使得新的词汇不断涌现，比如"大众创业"、"万众创新"、"然并卵"、"duang"，运里面既有政府政策和工作中出现的新提法，也有忽然之间发端于互联网的新表达。海量新词的发现使得分词效果面临极大的挑战，进而影响到了智能问答系统的语义理解水平。W "然并卵"为例，只有将其作为一个词看待，才有可能从语义上理解出运个词表达的含义是"然而并没有什么卵用"。
[0005] 那么，如何发现和识别新的词语就成为一个亟待解决的问题。一种解决方法是通过人工筛选的方法来发现和识别新词，但是随着信息的爆炸式增长，新的词语也注定层出不穷，随着中国劳动人口的减少和工作收入的增加，依靠人力的方法成本高昂，W致于难W 负担。

【发明内容】

[0006] 为了克服现有技术的不足，发明人对互联网涌现的新词汇进行深入研究，发现用户无论通过何种途经学习到的新的词语，最终都会应用到自己与人、或者机器人的交互过程中。智能问答系统的会话历史是用户与机器聊天的完整记录。将大量用户与智能问答系统的会话历史进行汇总，就能得到人们日常生活工作中经常使用的字、词、句的语料库，运其中自然也会包含人们对新词的使用，并且，越是常用的新词，它出现的频率就会越高，出现在不同搭配和句式中的次数也会越多。
[0007] 发明人进一步对运些出现在语料库中的新词语进行分析，总结得到运些新词的的四个鲜明特征：（1) 一个词由若干个字组成，（2)-个词在一定规模的语料中肯定会多次出现；（3)词语具有较好的凝固度，即作为词语的若干个字在一个规模较大的语料中连续出现的概率要远大于不作为词语的若干个字在一个规模较大的语料中连续出现的概率；（4)词语具有较好的自由度，即作为词语的若干个字，可W和其它的字、词进行各种不同的搭配和组合，如若不然，此连续出现的若干个字很可能只是一个真正词语的子串。也就是说，只有同时满足了上述四个鲜明的特征的若干个字，才可能是一个新词。本发明正是基于此，提出计算新词特征的方法，并应用此方法从智能问答系统的会话历史中发现新词，W提高智能问答系统的语义分析效果，持续完善和提高智能问答系统的性能。
[0008] 本发明提供一种基于智能问答系统会话历史的新词发现方法，所述方法包括如下步骤：
[0009] S1、对智能问答系统的会话历史建立索引，所述索引中包含新词的候选词；
[0010] S2、依次遍历索引中的候选词，计算每个候选词在所述会话历史中的出现频度，如果候选词的出现频度低于预设的频度阔值，则判断该候选词不是新词，如果候选词的出现频度不低于所述频度阔值，则执行步骤S3;
[0011] S3、计算候选词的凝固度，如果候选词的凝固度低于预设的凝固度阔值，则判断该候选词不是新词，如果候选词的凝固度不低于所述凝固度阔值，则执行步骤S4;
[0012] S4、计算候选词的自由度，如果候选词的自由度低于预设的自由度阔值，则判断该候选词不是新词，如果候选词的自由度不低于所述自由度阔值，则判断该候选词为新词。
[0013] 具体地，所述对智能问答系统的会话历史建立索引，所述索引中包含新词的候选词包括：
[0014] S11、建立索引；
[0015] S12、提取会话历史中的词语，判断所述词语是否已经存在于所述智能问答系统的系统词表中，如果已经存在，则判断所述词语不是新词的候选词，否则，判断所述词语是新词的候选词，并将其加入索引中。
[0016] 优选地，所述步骤S12中的词语由任意连续出现的2个字、3个字、4个字或5个字组成。
[0017] 优选地，所述步骤S1之前还包括:智能问答系统定时检测会话历史数据的大小，当检测到会话历史数据超过预设的数据阔值时，则触发新词判断流程。
[0018] 进一步地，所述候选词的凝固度的计算公式为：
[0019] &热班a把(r 1W:眠 '>=巧r ι?Τ 2.,..眠私max(巧VI?械沁巧(职I带2".船微
[0020] 其中，η为候选词的总字数，分子部分P(WiW2. . .Wn)表示η个字在会话历史中连续出现的概率，Di Vi S i on (W1W2. . . Wn)表示候选词的一个划分，VOWwVw诉)表示候选词的任意划分，巧V访，邮航W表示候选词的任意划分的概率，π?3Χ(/χν〇?如如师',巧'2...眠,：》)表示候选词的所有划分的概率的最大值。
[0021] 进一步地，所述候选词的自由度的计算公式为：
[0022] FlexibilityRate(WiW2. . .Wn) =min化nt;ropy(Left化iglibourWordSet) .Entropy (Right 化 iglibourWordSet))
[0023] 其中，Entropy化eftNei曲bourWordSet)表示候选词左邻接字集的赌，Entropy (Right化ig化ourWordSet)表示候选词右邻接字集的赌，候选词的自由度为左邻接字集的赌和右邻接字集的赌中的最小值。
[0024] 进一步地，所述左邻接字集是指会话历史中出现在候选词左面的所有字的集合，所述右邻接字集是指会话历史中出现在候选词右面的所有字的集合；
[0025] 所述左邻接字集或右邻接字集的赌通过邻接字集赌的计算公式计算得到，邻接字集赌的计算公式为:Entropy=I(-Pwi log Pwi)，其中Pwi表示邻接字集中某个字的概率。
[0026] 优选地，所述步骤S4之后还包括:将判断为新词的候选词存入新词词库。
[0027] 相应地，本发明还提供了一种基于智能问答系统会话历史的新词发现系统，所述系统包括：
[0028] 候选词索引，

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：游世学;杜新凯;
技术所有人：北京中科汇联科技股份有限公司;
我是此专利的发明人

上一篇：一种菜单选项的显示方法及电子设备的制造方法
上一篇：通用缓存的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。