基于智能问答系统会话历史的新词发现方法及系统的制作方法_2

文档序号：9865614阅读：来源：国知局

其存储有新词的候选词；
[0029] 判断模块，其用于依次遍历候选词词库中的候选词，计算每个候选词在所述会话历史中的出现频度，如果候选词的出现频度低于预设的频度阔值，则判断该候选词不是新词，如果候选词的出现频度不低于所述频度阔值，则计算候选词的凝固度，如果候选词的凝固度低于预设的凝固度阔值，则判断该候选词不是新词，如果候选词的凝固度不低于所述凝固度阔值，则计算候选词的自由度，如果候选词的自由度低于预设的自由度阔值，则判断该候选词不是新词，如果候选词的自由度不低于所述自由度阔值，则判断该候选词为新词；
[0030] 新词词库，其用于存储判断模块判断得到的新词。
[0031 ]进一步地，所述系统还包括触发模块和候选词判断模块，
[0032] 所述触发模块，其用于定时检测智能问答系统的会话历史数据的大小，当检测到会话历史数据超过预设的数据阔值时，触发新词发现流程；
[0033] 所述候选词判断模块，其用于提取会话历史中的词语，判断所述词语是否已经存在于所述智能问答系统的系统词表中，如果已经存在，则判断所述词语不是新词的候选词，否则，判断所述词语是新词的候选词，并将其加入候选词索引中。
[0034] 本发明具有W下有益效果：
[0035] (1)本发明将新词的四个特征，即含有多个字、在一定数量的文本中出现多次、具有较高的凝固度，具有较高的自由度，通过数学语言进行定义，使得计算机可W直接计算给定文本中的给定若干候选字是否满足词的特征，从而对新词进行识别，并W智能问答系统的会话历史为语料，词语的特征规律明显，新词识别的准确性较高。
[0036] (2)将新词发现系统融合到智能问答系统中，使得智能问答系统具备自动发现新词的功能，能够提升智能问答系统的语义理解智能化水平，达到系统自学习的目的，使智能问答系统的性能可W持续完善和提高。
【附图说明】
[0037] 为了更清楚地说明本发明的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可W根据运些附图获得其它附图。
[0038] 图1是基于智能问答系统会话历史的新词发现流程。
【具体实施方式】
[0039] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0040] 本发明提供一种基于智能问答系统会话历史的新词发现方法，首先，智能问答系统定时检测会话历史数据的大小，当检测到会话历史数据超过预设的数据阔值时，则触发新词发现流程。例如，可W在检测到会话历史数据超过10MB时触发新词发现流程。新词发现流程具体包括：
[0041] S1、对智能问答系统的会话历史建立索引，所述索引中包含新词的候选词。
[0042] 具体地，所述对智能问答系统的会话历史建立索引，所述索引中包含新词的候选词包括：
[0043] S11、建立索引；
[0044] S12、提取会话历史中的词语，所述词语可W是由任意连续出现的2个字、3个字、4 个字或5个字组成，判断所述词语是否已经存在于所述智能问答系统的系统词表中，如果已经存在，则判断所述词语不是新词的候选词，否则，判断所述词语是新词的候选词，并将其加入索引中。
[0045] S2、依次遍历索引中的候选词，计算每个候选词在所述会话历史中的出现频度，如果候选词的出现频度低于预设的频度阔值，则判断该候选词不是新词，如果候选词的出现频度不低于所述频度阔值，则执行步骤S3。
[0046] 例如，候选词在正在处理的会话历史中的出现频度低于5次，则判断该候选词不是新词，将其丢弃，继续处理下一个候选词;如果候选词在正在处理的会话历史中的出现频度不低于5次，则判断该候选词可能是新词，并进入凝固度计算环节。
[0047] S3、计算候选词的凝固度，如果候选词的凝固度低于预设的凝固度阔值，则判断该候选词不是新词，如果候选词的凝固度不低于所述凝固度阔值，则执行步骤S4;
[0048] 所述候选词的凝固度的计算公式为：
[0049] 沉//(/化I 二巧趴 …斯）/ max(/)(V饼v/'v/(w(W'iW2...趴
[0050] 其中，η为候选词的总字数，分子部分P(WiW2. . .Wn)表示η个字在会话历史中连续出现的概率;Division(Wi化...Wn)表示候选词的一个划分，比如"爱客服"是一个候选词，则其有W下；种划分：爱+客+服，爱客+服，爱+客服；V公/V/.v/Vw(肌趴...瓶)表示候选词的任意划分，巧V彷切诚w(rW2...W，))表示候选词的任意划分的概率，max(巧V彷曲沁《(WiWl.WO)) 表示候选词的所有划分的概率的最大值。
[0051] 按照上述公式，如果凝固度比较小，说明候选词很可能是该候选含有的若干字随机地出现在一起;反之，则说明候选词很可能是一个词。但是凝固度比较高，并不一定说明运个候选词一定是新词。但如果一个候选词是新词，则该候选词的一个子串凝固度同样很高，因此为进一步确定该候选词是否为新词，还需要计算该候选词的自由度特征。
[0052] 通过设置凝固度阔值淘汰凝固度过低的候选词。例如，按照上述凝固度计算公式计算得到某一候选词的凝固度，如果凝固度低于500,则丢弃该候选词，处理下一个候选词；如果凝固度不低于500,则进入自由度计算环节。通过运种筛选留下来的候选词是新词的几率更大。
[0053] S4、计算候选词的自由度，如果候选词的自由度低于预设的自由度阔值，则判断该候选词不是新词，如果候选词的自由度不低于所述自由度阔值，则判断该候选词为新词。
[0054] 所述候选词的自由度的计算公式为：
[0055] FlexibilityRate(WiW2. . .Wn) =min化nt;ropy(Left化iglibourWordSet) .Entropy (Right 化 iglibourWordSet))
[0056] 其中，Entropy化eftNei曲bourWordSet)表示候选词左邻接字集的赌，Entropy (Right化ig化ourWordSet)表示候选词右邻接字集的赌，候选词的自由度为左邻接字集的赌和右邻接字集的赌中的最小值。
[0057] 进一步地，所述左邻接字集是指会话历史中出现在候选词左面的所有字的集合，所述右邻接字集是指会话历史中出现在候选词右面的所有字的集合;所述左邻接字集或右邻接字集的赌通过邻接字集赌的计算公式计算得到，邻接字集赌的计算公式为:Entropy = I(-Pwi log Pwi)，其中Pwi表示邻接字集中某个字的概率。
[0058] 优选地，按照上述自由度计算公式，计算得到候选词的自由度，如果自由度低于 1.5，则丢弃该候选词，并处理下一个候选词；如果自由度不低于1.5，则判断该候选词为新词。
[0059] S5、判断为新词的候选词存入新词词库。
[0060] 本发明还提供了一种基于智能问答系统会话历史的新词发现系统，该系统与上述方法基于同样的发明构思。
[0061] 所述系统包括:触发模

完整全部详细技术资料下载

当前第2页1 2 3