基于智能问答系统会话历史的新词发现方法及系统的制作方法_3

文档序号:9865614阅读:来源:国知局
块、候选词判断模块、候选词索引、判断模块及新词词库。
[0062] 所述触发模块,其用于定时检测智能问答系统的会话历史数据的大小,当检测到 会话历史数据超过预设的数据阔值时,触发新词发现流程;
[0063] 所述候选词判断模块,其用于提取会话历史中的词语,判断所述词语是否已经存 在于所述智能问答系统的系统词表中,如果已经存在,则判断所述词语不是新词的候选词, 否则,判断所述词语是新词的候选词,并将其加入候选词索引中;
[0064] 所述候选词索引,其存储有新词的候选词;
[0065] 所述判断模块,其用于依次遍历索引中的候选词,计算每个候选词在所述会话历 史中的出现频度,如果候选词的出现频度低于预设的频度阔值,则判断该候选词不是新词, 如果候选词的出现频度不低于所述频度阔值,则计算候选词的凝固度,如果候选词的凝固 度低于预设的凝固度阔值,则判断该候选词不是新词,如果候选词的凝固度不低于所述凝 固度阔值,则计算候选词的自由度,如果候选词的自由度低于预设的自由度阔值,则判断该 候选词不是新词,如果候选词的自由度不低于所述自由度阔值,则判断该候选词为新词;
[0066] 所述新词词库,其用于存储判断模块判断得到的新词。
[0067] 图1是基于智能问答系统会话历史的新词发现系统的新词发现流程图,包括对候 选词的频度、凝固度和自由度的计算和比较判断,其具体的计算和判断方法与上述基于智 能问答系统会话历史的新词发现方法一致。
[0068] 本发明分析了新词的四个重要特征,提出计算新词特征的方法,给出了候选词的 凝固度和自由度的数学计算公式,将新词特征计算方法应用到智能问答系统中,W从会话 历史中发现新词,提高智能问答系统的语义分析效果,持续完善和提高智能问答系统的性 能。
[0069] W上所掲露的仅为本发明的一种较佳实施例而已,当然不能W此来限定本发明之 权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
【主权项】
1. 一种基于智能问答系统会话历史的新词发现方法,其特征在于,所述方法包括如下 步骤: 51、 对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词; 52、 依次遍历索引中的候选词,计算每个候选词在所述会话历史中的出现频度,如果候 选词的出现频度低于预设的频度阈值,则判断该候选词不是新词,如果候选词的出现频度 不低于所述频度阈值,则执行步骤S3; 53、 计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阈值,则判断该候选 词不是新词,如果候选词的凝固度不低于所述凝固度阈值,则执行步骤S4; 54、 计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断该候选 词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词。2. 根据权利要求1所述的方法,其特征在于,所述对智能问答系统的会话历史建立索 弓丨,所述索引中包含新词的候选词包括: 511、 建立索引; 512、 提取会话历史中的词语,判断所述词语是否已经存在于所述智能问答系统的系统 词表中,如果已经存在,则判断所述词语不是新词的候选词,否则,判断所述词语是新词的 候选词,并将其加入索引中。3. 根据权利要求2所述的方法,其特征在于,所述步骤S12中的词语由任意连续出现的2 个字、3个字、4个字或5个字组成。4. 根据权利要求1或2所述的方法,其特征在于,所述步骤S1之前还包括:智能问答系统 定时检测会话历史数据的大小,当检测到会话历史数据超过预设的数据阈值时,触发新词 发现流程。5. 根据权利要求1所述的方法,其特征在于,所述候选词的凝固度的计算公式为: iff = i3(奶妒2…恥)/綱私户(¥1)扣_伽(,,:2··.恥)))其中,η为候选词的总 字数,分子部分P(W1W2. . .Wn)表示η个字在会话历史中连续出现的概率,Division mw2.. .Wn)表示候选词的一个划分,▽/)/也/〇"@/狀:....队)表示候选词的任意划分, Ρ(ν?)/ν?'ο/?(?Γ, 2.·.?^))表示候选词的任意划分的概率,max(P(VZ)M?'o?(W2..,")))表 示候选词的所有划分的概率的最大值。6. 根据权利要求1所述的方法,其特征在于,所述候选词的自由度的计算公式为: FlexibilityRate(ffiff2. . .ffn)=min(Entropy(LeftNeighbourffordSet),Entropy (RightNeighbourffordSet)) 其中,Entropy (Lef tNeighbourWordSet)表示候选词左邻接字集的熵,Entropy (RightNeighbourWordSet)表示候选词右邻接字集的熵,候选词的自由度为左邻接字集的 熵和右邻接字集的熵中的最小值。7. 根据权利要求6所述的方法,其特征在于,所述左邻接字集是指会话历史中出现在候 选词左面的所有字的集合,所述右邻接字集是指会话历史中出现在候选词右面的所有字的 集合; 所述左邻接字集或右邻接字集的熵通过邻接字集熵的计算公式计算得到,邻接字集熵 的计算公式为:Entropy= Σ (-Pwdog Pwi),其中Pwi表示邻接字集中某个字的概率。8. 根据权利要求1所述的方法,其特征在于,所述步骤S4之后还包括:将判断为新词的 候选词存入新词词库。9. 一种基于智能问答系统会话历史的新词发现系统,其包含在智能问答系统中,其特 征在于,所述系统包括: 候选词索引,其存储有新词的候选词; 判断模块,其用于依次遍历索引中的候选词,计算每个候选词在智能问答系统的会话 历史中的出现频度,如果候选词的出现频度低于预设的频度阈值,则判断该候选词不是新 词,如果候选词的出现频度不低于所述频度阈值,则计算候选词的凝固度,如果候选词的凝 固度低于预设的凝固度阈值,则判断该候选词不是新词,如果候选词的凝固度不低于所述 凝固度阈值,则计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断 该候选词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词; 新词词库,其用于存储判断模块判断得到的新词。10. 根据权利要求9所述的基于智能问答系统会话历史的新词发现系统,其特征在于, 还包括触发模块和候选词判断模块, 所述触发模块,其用于定时检测智能问答系统的会话历史数据的大小,当检测到会话 历史数据超过预设的数据阈值时,触发新词发现流程; 所述候选词判断模块,其用于提取会话历史中的词语,判断所述词语是否已经存在于 所述智能问答系统的系统词表中,如果已经存在,则判断所述词语不是新词的候选词,否 贝1J,判断所述词语是新词的候选词,并将其加入候选词索引中。
【专利摘要】本发明提供一种基于智能问答系统会话历史的新词发现方法,分析了新词的四个重要特征,即含有多个字、在一定数量的文本中出现多次、具有较高的凝固度,具有较高的自由度,通过数学语言进行定义,使计算机可以直接计算给定文本中的给定的若干候选字是否满足新词的特征,从而对新词进行识别。本发明还提供了一种基于智能问答系统会话历史的新词发现系统,将新词发现系统融合到智能问答系统中,使得智能问答系统具备自动发现新词的功能,持续完善和提高了智能问答系统的性能。
【IPC分类】G06F17/30
【公开号】CN105630890
【申请号】CN201510959114
【发明人】游世学, 杜新凯
【申请人】北京中科汇联科技股份有限公司
【公开日】2016年6月1日
【申请日】2015年12月18日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1