基于智能问答系统会话历史的新词发现方法及系统的制作方法

文档序号:9865614阅读:418来源:国知局
基于智能问答系统会话历史的新词发现方法及系统的制作方法
【技术领域】
[0001] 本发明设及智能问答领域,特别是一种基于智能问答系统会话历史的新词发现方 法及系统。
【背景技术】
[0002] 智能问答系统,又称智能机器人,可W接受用户的自然语言输入,分析用户的真实 意图,得到唯一的答案返回给用户。随着人工智能技术的进步,智能问答系统,迎来了新一 轮的发展热潮。国内外软件公司纷纷推出多款产品,运其中,有WGoogle Now,微软小冰,百 度的小度机器人为代表的聊天机器人,可W满足用户生活、娱乐的需要;也有W北京中科汇 联科技股份有限公司研发的微喂智能机器人、爱客服智能机器人为代表的专业智能客服机 器人,可W满足企事业单位客户服务工作的需要,帮助企事业单位提升客户服务满意度,提 高客户服务工作效率,降低客户服务成本。智能问答系统,已经在人们的工作和生活中扮演 越来越重要的角色,也正因为此,智能问答系统被称为人工智能皇冠上的明珠,成为科研 界、企业界持续关注的热点方向。
[0003] 智能问答系统是一个非常复杂的软件系统,使用了几乎所有的自然语言处理和深 度学习技术,比如分词、词性标注、命名实体识别、语法分析、句法分析、卷积神经网络、递归 神经网络等等。运其中,分词是一项最为基础的工作,分词结果的好坏直接决定了智能问答 系统能否正确的理解用户输入。目前,所有主流的分词器都有内置的词典,词典包含所有已 知词语的条目。如果句子中的所有词都在词典中已经收录,主流分词器将该句话进行正确 分词的概率在95% W上。如果句子中的某个词在词典中未收录,则分词器很可能无法对运 句话进行正确的分词。
[0004] 互联网的普及,知识的爆炸性增长和不断创造,使得新的词汇不断涌现,比如"大 众创业"、"万众创新"、"然并卵"、"duang",运里面既有政府政策和工作中出现的新提法,也 有忽然之间发端于互联网的新表达。海量新词的发现使得分词效果面临极大的挑战,进而 影响到了智能问答系统的语义理解水平。W "然并卵"为例,只有将其作为一个词看待,才有 可能从语义上理解出运个词表达的含义是"然而并没有什么卵用"。
[0005] 那么,如何发现和识别新的词语就成为一个亟待解决的问题。一种解决方法是通 过人工筛选的方法来发现和识别新词,但是随着信息的爆炸式增长,新的词语也注定层出 不穷,随着中国劳动人口的减少和工作收入的增加,依靠人力的方法成本高昂,W致于难W 负担。

【发明内容】

[0006] 为了克服现有技术的不足,发明人对互联网涌现的新词汇进行深入研究,发现用 户无论通过何种途经学习到的新的词语,最终都会应用到自己与人、或者机器人的交互过 程中。智能问答系统的会话历史是用户与机器聊天的完整记录。将大量用户与智能问答系 统的会话历史进行汇总,就能得到人们日常生活工作中经常使用的字、词、句的语料库,运 其中自然也会包含人们对新词的使用,并且,越是常用的新词,它出现的频率就会越高,出 现在不同搭配和句式中的次数也会越多。
[0007] 发明人进一步对运些出现在语料库中的新词语进行分析,总结得到运些新词的的 四个鲜明特征:(1) 一个词由若干个字组成,(2)-个词在一定规模的语料中肯定会多次出 现;(3)词语具有较好的凝固度,即作为词语的若干个字在一个规模较大的语料中连续出现 的概率要远大于不作为词语的若干个字在一个规模较大的语料中连续出现的概率;(4)词 语具有较好的自由度,即作为词语的若干个字,可W和其它的字、词进行各种不同的搭配和 组合,如若不然,此连续出现的若干个字很可能只是一个真正词语的子串。也就是说,只有 同时满足了上述四个鲜明的特征的若干个字,才可能是一个新词。本发明正是基于此,提出 计算新词特征的方法,并应用此方法从智能问答系统的会话历史中发现新词,W提高智能 问答系统的语义分析效果,持续完善和提高智能问答系统的性能。
[0008] 本发明提供一种基于智能问答系统会话历史的新词发现方法,所述方法包括如下 步骤:
[0009] S1、对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词;
[0010] S2、依次遍历索引中的候选词,计算每个候选词在所述会话历史中的出现频度,如 果候选词的出现频度低于预设的频度阔值,则判断该候选词不是新词,如果候选词的出现 频度不低于所述频度阔值,则执行步骤S3;
[0011] S3、计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阔值,则判断该 候选词不是新词,如果候选词的凝固度不低于所述凝固度阔值,则执行步骤S4;
[0012] S4、计算候选词的自由度,如果候选词的自由度低于预设的自由度阔值,则判断该 候选词不是新词,如果候选词的自由度不低于所述自由度阔值,则判断该候选词为新词。
[0013] 具体地,所述对智能问答系统的会话历史建立索引,所述索引中包含新词的候选 词包括:
[0014] S11、建立索引;
[0015] S12、提取会话历史中的词语,判断所述词语是否已经存在于所述智能问答系统的 系统词表中,如果已经存在,则判断所述词语不是新词的候选词,否则,判断所述词语是新 词的候选词,并将其加入索引中。
[0016] 优选地,所述步骤S12中的词语由任意连续出现的2个字、3个字、4个字或5个字组 成。
[0017] 优选地,所述步骤S1之前还包括:智能问答系统定时检测会话历史数据的大小,当 检测到会话历史数据超过预设的数据阔值时,则触发新词判断流程。
[0018] 进一步地,所述候选词的凝固度的计算公式为:
[0019] &热班a把(r 1W:眠 '>=巧r ι?Τ 2.,..眠私max(巧VI?械沁巧(职I带2".船微
[0020] 其中,η为候选词的总字数,分子部分P(WiW2. . .Wn)表示η个字在会话历史中连续出 现的概率,Di Vi S i on (W1W2. . . Wn)表示候选词的一个划分,VOWwVw诉)表示候选词的任 意划分,巧V访,邮航W表示候选词的任意划分的概率,π?3Χ(/χν〇?如如师',巧'2...眠,:》)表 示候选词的所有划分的概率的最大值。
[0021] 进一步地,所述候选词的自由度的计算公式为:
[0022] FlexibilityRate(WiW2. . .Wn) =min化nt;ropy(Left化iglibourWordSet) .Entropy (Right 化 iglibourWordSet))
[0023] 其中,Entropy化eftNei曲bourWordSet)表示候选词左邻接字集的赌,Entropy (Right化ig化ourWordSet)表示候选词右邻接字集的赌,候选词的自由度为左邻接字集的 赌和右邻接字集的赌中的最小值。
[0024] 进一步地,所述左邻接字集是指会话历史中出现在候选词左面的所有字的集合, 所述右邻接字集是指会话历史中出现在候选词右面的所有字的集合;
[0025] 所述左邻接字集或右邻接字集的赌通过邻接字集赌的计算公式计算得到,邻接字 集赌的计算公式为:Entropy=I(-Pwi log Pwi),其中Pwi表示邻接字集中某个字的概率。
[0026] 优选地,所述步骤S4之后还包括:将判断为新词的候选词存入新词词库。
[0027] 相应地,本发明还提供了一种基于智能问答系统会话历史的新词发现系统,所述 系统包括:
[0028] 候选词索引,
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1