深度百科学习的中文医疗问句分类系统的制作方法

文档序号:26673457发布日期:2021-09-17 23:25阅读:83来源:国知局
深度百科学习的中文医疗问句分类系统的制作方法

1.本发明涉及一种中文医疗问句分类系统,特别涉及一种深度百科学习的中文医疗问句分类系统,属于中文问句分类技术领域。


背景技术:

2.在信息大数据时代,搜索引擎已成为广大网民不可或缺的重要工具,通过搜索引擎可以从海量信息获取所需资料。用户仅仅需要在搜索引擎中输入关键词,可以立刻获取关键词有关的网页信息。但目前的搜索引擎存在一些缺陷,主要有三个问题:一是搜索引擎返回的检索信息太多,其中不乏包含一些噪声数据,用户不能有效的定位到所需的信息;二是搜索引擎不理解用户真正的搜索意图;三是搜索引擎只是单纯的考虑了关键词的匹配,没有考虑检索词语的语法和语义关系,所以要提高查询检索准确率比较困难。
3.但是,智能问答系统却为用户提供了自然语言的问答方法,更加接近人们平常的交流方法,更好的满足了用户的需求,因此其发展前景十分乐观,主要体现在以下几个领域:一是在教育、培训、咨询领域,目前各大教育机构都推出了在线教育,学生通过互联网即可获取知识,但当学生遇到问题需要请教老师时,一般通过电话或发邮件的方法,这两种方法都不能快速解决学生的问题,智能问答系统可以快速准确的解决学生遇到的问题;二是在线客服和人工智能领域,由于人工客户成本增加,各大网络公司都已推出聊天机器人,例如在线问诊、阿里旺旺机器人,它们在本质上就是一个智能问答系统。
4.在线问诊作为智能问答较突出的应用,能够有效解决医疗资源不足的问题,智能问答作为在线问诊的关键技术,具有非常重要的作用,而医疗问句分类又影响着智能问答系统的抽取结果。利用问句分类可以对问句自动归类,方便用户在发表问题时自动添加问题类别标签,所以了解用户问句归属于某一类具有重要作用。问句分类的作用主要表现在:首先,问句分类可以有效的提高检索命中率和速度,例如,“冠心病的药物治疗方法?”,经过问句分类后,可以将候选答案简约到冠心病和治疗类别中,缩小了问句的检索范围,减少了检索时间;其次,问句分类可以优化检索条目,向用户个性化推荐相似度问句条目,提高了问答系统的召回率;最后,问句分类影响着问句答案的准确性,问句分类算法的好坏决定着答案的准确性,通常采取多种不同的分类算法,一定程度上避免单一算法的单调和低效率,同时有利于提高答案的命中率。
5.因此,问句分类对于问答系统和自然语言处理具有重要作用,问句分类的准确性对问答系统有着深远影响。现有技术对于问句分类主要有以下三种方法:第一,基于规则的问句分类方法,这种方法出现比较早,开始一般是基于数学和语言学,制定合适的规则来判定问句的归属类别,比如判断问句是否疑问句、反问句或其他类型;第二,基于统计学习的问句分类方法,利用机器学习等自动形成规则;三是上面二种方法相结合,充分利用了二种方法的优势互补策略。利用机器学习对问句进行分类能够保证训练语料库的统一性和准确性,具有广阔的研究和应用价值,但机器学习的准确性依据训练集数据,因此可以采用基于人工规则和基于机器学习相结合的问句分类方法。当前,问句分类虽然取得了一定的成绩,
但是分类所遇到的问题仍然存在:问句本身较短,含有少量的词语,使得在问句分类训练时面临维数灾难和数据稀疏问题。
6.现有技术的智能问答在线问诊系统存在缺陷和不足,本发明的难点和待解决的问题主要集中在以下方面:
7.第一,医疗问句分类直接影响智能问答系统的抽取结果,利用问句分类可以对问句自动归类,方便用户在发表问题时自动添加问题类别标签,了解用户问句归属于某一类具有重要作用。但现有技术的中文问句分类不能有效提高检索命中率和速度,无法缩小问句的检索范围,减少检索时间;现有技术的问句分类无法优化检索条目,无法向用户个性化推荐相似度问句条目,问答系统的召回率低;问句分类影响着问句答案的准确性,问句分类算法的好坏决定着答案的准确性,现有技术问句分类单一算法单调且效率低,不利于提高答案的命中率,现有技术的中文问句分类系统无法满足在线问诊智能问答的要求,无法运用到严谨的智能医疗领域;
8.第二,中文问句分类相比于英文问句分类,还存在不小的差距,特别是在医疗问句分类领域,主要原因一是中文问句有自身的特点,相比较英文问句,中文问句的语法结构复杂、语义信息多样化;二是缺乏相应的语料库和知识库;三是中文问句分类的研究和应用相对较晚,现有技术中文问句分类大部分采用基于规则的分类方法,在一些标准数据集上取得了一些效果,通过改进贝叶斯模型对中文问句分类,抽取问句主干以及结合分词和词性特征值进行问句分类,但是它的准确度受句法结构分析准确度影响。受到语义相关度计算方法的影响,总体而言,中文问句分类遇到的问题包括:问句本身较短,含有少量的词语,使得在问句分类训练时面临维数灾难和数据稀疏问题,中文问句分类的效率和准确率都无法满足医疗在线问诊的要求;
9.第三,智能问答作为在线问诊中的关键技术,直接影响这种新兴诊疗服务的质量和用户体验,智能问答的核心难题之一是对问句进行高效分类,但医疗问句的特征是问句关键词较少,由疾病或者症状+疑问词+动词组成,现有技术构建问诊特征向量的方法效率较低,全文索引方法误差较大,在中文环境下,医疗问句分类的问题更显突出,构建网络问诊问句特征向量时速度慢,构建问句特征向量时易造成维数过大、数据稀疏等难题,问诊分类效率很低,会造成同义词产生不同的分布式向量,并且受到语料库的限制,不能很好的识别网络新词,词语关联度的准确性和医疗问句分类效率较低;
10.第四,语义关联度算法存在明显的缺点,它没有考虑语义的差别,有些词语出现一词多义现象,语义关联度算法只是简单的概念映射,容易引入噪声数据,除此之外,语义关联度算法需要考虑搜索引擎百科页面所有数据,预处理阶段消耗更多时间和资源,表示文本向量包括所有搜索引擎百科概念,向量维数达到90万维,计算量过大;
11.第五,中文问句蕴含丰富的语义信息,它的结构复杂,问句形式多样化,词语之间存在多义、同义关系依赖,且中文问句大多比较短小,只包含较少关键词,对于问句分类存在不少难题。现有技术的文本表示方法是向量空间模型,这种表示方法造成向量稀疏、维度过大的结果,不能够很好的描述词语之间的语义关系,导致计算相似度误差大,影响测试的准确性,对问句集合语料库进项训练分析发现问句中有许多同义词,但他们因为训练语料库缺少,导致相似度不准确,而且有些词典中词语不够丰富,无法消除同义词的误差,无法解决未登录词的词向量构造问题,没有考虑词语出现的频率、语法、语义及上下文关系,得
到的特征词向量无法满足要求。


技术实现要素:

12.针对现有技术的额不足,本发明围绕中文搜索引擎百科的语义结构,医疗问句条目的搜集和组织,中文问句特征词向量的构建等关键技术,从新浪爱问爬取56.4万条医疗问句,构建了医疗问句语料库,提出利用中文搜索引擎百科的语义结构解决同义词向量不相等问题,通过改进的搜索引擎百科算法语义关联度高效收敛方法构建网络流行词特征向量,提出基于中文搜索引擎百科与深度学习中文词模型相结合的cb

cbs方法来构建特定维度的分布式中文词向量空间,降低特征空间的维度和数据稀疏性,针对cb

cbs构造的词向量,采用词语语义关联度评测方法,实验结果表明,该模型可以显著提高关联度准确性和问句分类效率,能够较好的满足中文医疗问句分类的效率和准确率要求。
13.为达到以上技术效果,本发明所采用的技术方案如下:
14.深度百科学习的中文医疗问句分类系统,利用基于深度学习语言模型产生词向量,解决训练语料库不足的问题,利用中文搜索引擎百科解决网络流行词和同义词的问题,核心是基于中文搜索引擎百科和深度学习模型的问句分类,包括:一是从中文搜索引擎百科的语义结构入手,基于中文搜索引擎百科链接结构的语义关联度计算方法,并且提出基于语义关联度算法的改进算法语义关联度高效收敛方法;二是对传统的词向量表示方法进行改进,采用深度学习语言模型训练分布式的词向量,基于m元中文词模型,建立深度学习中文词模型,利用中文搜索引擎百科对于同义词、网络流行词和语言模型词典中缺少词进行预处理,构建基于搜索引擎百科的词向量,提出cb

cbc构建医疗问句特征向量,最后采用svm分类器对医疗问句进行分类,提高中文医疗问句分类效率和准确性;
15.计算基于中文搜索百科的语义关联度:首先分析中文搜索引擎百科的语义结构,提出实体命名消除歧义模型,根据搜索引擎百科链接结构,抽取中文搜索引擎百科的链接词,提出改进语义关联度算法计算语义关联度,然后根据中文搜索引擎百科海量知识库的特征,提出基于中文搜索百科语义结构的语义关联度高效收敛方法;
16.基于cb

cbc模型的中文医疗问句分类:基于分布式中文词向量,利用深度学习构建分布式中文词向量模型构造词向量,采用中文搜索引擎百科与深度学习相结合的模型构造问句特征向量,对问句降维后,利用svm方法对问句进行分类。
17.深度百科学习的中文医疗问句分类系统,进一步的,中文搜索百科语义结构处理中分解语义结构:采用搜索引擎百科中文词链接结构、词项分类结构、词项重定向和概念消除歧义页构建特征扩展表。
18.中文词链接结构:中文搜索引擎百科页面中具有链接结构词语是与当前概念有关联的词语,本发明利用该特性来表示概念的语义信息,扩充概念特征词,一些站内链接由于还未创建条目,页面直接舍弃,中文搜索引擎百科中页面的出链接容易获取,但入链接需要访问所有搜索引擎百科页面判断页面引用的当前页面,在预处理阶段,对出链接和入链接建立索引;
19.词项分类结构:融合wordnet上的语义算法运用在搜索引擎百科的语义关联度计算上;
20.词项重定向:重定向页面是多个概念之间指向同一个解释页面,搜索引擎百科把
他们链接为同一个解释页面,减少搜索引擎百科概念个数,减少储存空间;
21.概念消除歧义页:设置一个消除歧义页面,把选择权交给用户,消除歧义页是搜索引擎百科重要的语义知识挖掘资源,用来建立同义词词库、多义词词库,概念消除歧义页包含歧义词的所有词义,对每个候选词做简短的解释和词语链接。
22.深度百科学习的中文医疗问句分类系统,进一步的,实体命名消除歧义:提出一种基于中文搜索引擎百科的问句实体命名消除歧义方法,利用实体命名的上下信息作为文本信息,搜索引擎百科的分类信息和词语链接信息作为搜索百科特征,并通过余弦相似度计算与杰卡德相似度系数计算问句中实体命名和搜索引擎百科概念之间的关联性,从而选出最优匹配答案;
23.搜索引擎百科词语链接和父结点的杰卡德相似度计算:在一个问句中,对于待消除歧义实体命名n,获取问句中n的上下文信息a,a表示n上下文信息的词语集合,对集合a中词语映射到搜索引擎百科概念,找出搜索引擎百科概念页面链接词和父结点,则n的扩展特征词集合为c={a1,a2,a3,

,a
m
},其中m表示n相关的特征词个数,n的候选词语集合r={n1,n2,n3,

,n
w
},其中w表示n歧义词的个数,对集合r中任一候选词语n
i
,与它相关的搜索引擎百科链接词与父结点集合为h={n
j1
,n
j2
,n
j
3,n
j
4,

,n
ji
},i表示候选词语n
j
通过搜索引擎百科页面获得词语链接个数,通过杰卡德方法计算集合h和c集合的关联度t
j
,即t
j
表示候选词n
j
和n的上下文信息关联度,t
j
越大,关联度越高,反之,关联度越低,采用余弦相似度计算它们之间的关联性;
24.计算基于搜索引擎百科分类信息的余弦相似度:通过问句得到实体命名n的上下文信息为a={a1,a2,a3,

,a
m
},m表示n的上下文信息,本发明取问句中词语,n的候选词语集合r={n1,n2,n3,

,n
w
},其中w表示n歧义词的个数,对集合r中任一候选词语n
j
,与它相关的搜索引擎百科分类层次中父结点集合为h={n
j1
,n
j2
,n
j3
,n
j4
,

,n
ji
},i表示候选词语n
j
通过搜索引擎百科页面获得词语父结点个数,采用语义关联度算法计算相似度。
25.深度百科学习的中文医疗问句分类系统,进一步的,计算基于中文搜索百科链接结构的语义关联度:首先抽取基于中文搜索引擎百科的链接结构,然后通过抽取的词语链接改进语义关联度算法,得到基于链接结构的语义关联度高效收敛方法;
26.抽取链接结构:主题概念中的词语链接是搜索引擎百科和主题概念关联度较高的词语,因此本发明利用搜索引擎百科这一特征做特征词扩展,利用搜索引擎百科的相关链接词对问句进行扩充,但基于中文搜索引擎百科特征:有些主题概念页面包含太多相关概念,如果将所有链接作为扩展词语会增大扩展库的冗余,对于页面链接词超过临界值m
max
的概念,选取和搜索引擎百科概念有双向链接关系的词语,而有些主题概念页面大约太少词语链接,对于页面链接词数少于临界值m
min
的概念,,采用它的入链和出链,其他的则取主题概念页面的出链;
27.语义关联度算法:首先将文本关键词映射到搜索引擎百科概念中,采用向量空间模型表示文本向量,tf

idf值表示文本向量的权重,然后通过余弦相似度计算文本之间的关联度,语义关联度算法使用细粒度语义表示不受限制的文本,采用搜索引擎百科概念映射会产生高维向量空间,设置tf

idf临界值来过滤噪声数据。
28.语义关联度算法的实现过程为:
29.过程一:对搜索引擎百科所有页面分词预处理后,统计各个词语k
j
在某个搜索百
科概念页面的tf

idf值为w
j

30.过程二:建立词语k
j
和搜索引擎百科概念s
j
倒排索引,表示词语k
j
和搜索引擎百科概念s
j
之间的映射,用w
j
表示它们之间的权重,每个词语k
j
有多个搜索引擎百科概念s
j
,它们按照tf

idf值即w
j
的大小排序;
31.过程三:对于两篇要计算关联度的文本分词预处理后,分别用词语集合rd={k
j
}、re={k
j
}表示,分别计算文本中词语k
j
的tf

idf值用向量{u
j
}表示,u
j
表示k
j
的权重;
32.过程四:文本rd中词语k
j
通过倒排索引,映射到搜索引擎百科概念s
j
,一个词语k
j
有多个搜索引擎百科概念s
j
,所以对它们求和得到s
j
的权重q
j
,文本rd用向量空间{q1,q2,q3,q4,

,q
m
}表示,m表示搜索引擎百科概念数目,同理求得re;
33.过程五:用余弦值求两文本向量的关联度gld(rd,re)。
34.深度百科学习的中文医疗问句分类系统,进一步的,语义关联度高效收敛方法:提出运用考虑搜索引擎百科概念页面中链接词的权重,而不是页面中所有词语的权重,然后持续对链接词进行扩展和收敛性计算,计算每个链接词的权重采用基于链接数的词语权重计算方法,根据其他搜索引擎百科概念对它的链接数来计算权重,计算文章c中词语链接r权重的公式如式2所示:
[0035][0036]
其中,r表示搜索引擎百科中其他概念链接到k的数目,k表示搜索引擎百科中所有的链接数目,|r|+1是为了防止公式中分母为0;
[0037]
语义关联度高效收敛方法与语义关联度算法相比较不同的是:只统计搜索引擎百科概念页面链接词的权重,然后继续对链接词进行特征词扩展,对扩展后的词语集合和上一阶的词语集合做关联度计算,大于一定关联度临界值的词语加入到下一阶集合中,重复上述过程直到集合词语不在发生变化,语义关联度高效收敛方法为找出词语的扩展集,然后再进行集合收敛,计算两个词语k
d
、k
e
的语义关联度具体实现过程为:
[0038]
第一步:统计搜索引擎百科页面链接词kj的权重,计算其权重为w
j

[0039]
第二步:对于词语k
d
通过搜索引擎百科映射,如果找到与之相等的搜索引擎百科概念,则得到其页面中含有链接的词语集合d,如果没有找到与之相等的搜索引擎百科概念,则设置该页面中含有链接词的集合为g;
[0040]
第三步:对集合d中词语通过搜索引擎百科概念映射分别找出各自的链接词集合jh;
[0041]
第四步:集合jh中词语分别与集合d中词语进行语义关联度计算,求关联度平均值avg,如果关联度平均值avg大于某个人为设置的临界值t,则加入到集合d中变成新的集合d
j
,否则舍弃;
[0042]
第五步:重复第三步、第四步,直到集合d
j
中元素个数不再发生变化;
[0043]
第六步:同理求得词语k
e
集合e
j
,利用杰卡德系数求词语的关联度t(k
d
,k
e
)。
[0044]
深度百科学习的中文医疗问句分类系统,进一步的,深度学习表征词向量:根据分布式词向量表示方法,提出一种基于搜索引擎百科与深度学习相结合的分布式中文词向量表示模型,每个问句都由各关键词组成;
[0045]
分布式词向量表示方法:采用分布式词向量表示方法,用一个饱满的向量表示一
个词语,维度用50到200维表示,向量表示训练采用word2vec方法,利用统计方法tf

idf训练语料库,首先给定一个足够大的语料库,语料库包含科技、人文、健康、新闻、娱乐、生活多个方面,统计中文词在各领域的tf

idf结果后词向量,得到词向量后,想出与它相似的中文词,利用余弦距离或者欧式距离公式得到词语之间的相似度;
[0046]
深度学习表征分布式中文词向量:利用搜索引擎百科的海量知识库,消除同义词的误差,并解决未登录词的词向量构造问题,首先对于问句中一词多义现象,利用搜索引擎百科消除歧义页面,而对于同义词,当问句中特征词与搜索引擎百科概念匹配时,把同义词用相同的向量表示,搜索引擎百科采用开放式的群体编辑方法,深度学习语言模型不仅考虑词语出现的频率,而且还考虑词语的语法、语义及上下文关系。
[0047]
深度百科学习的中文医疗问句分类系统,进一步的,m元中文词模型:中文词模型是描述自然语言的一种抽象数学建模,判断句子的语法、句法、语义是否正确,从无标注自然语言文本中,统计词频,计算语义关系,词语的先后顺序建立数学模型,得到中文词模型;
[0048]
语言模型形式化表示为包含m个词语的字符串c,求出该字符串是一个自然语言的概率q(k1,k2,k3,

,k
m
)。其中k
j
,j∈(1,m)表示字符串c中个中文词,得到c的概率如式3所示:
[0049]
q(c)=q(k1,k2,k3,

,k
m
)=q(k1)q(k2|k1)

q(k
n
|k1,

k
m
‑1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式3
[0050]
其中q(k2|k1)表示出现k1的前提下出现k2的概率,q(k
n
|k1,

k
m
‑1)表示某个词语在它前面词语出现前提下的概率,假设任意中文词k
j
出现的概率只和它前面的词k
j
‑1有关,字符串c的概率表示成式4:
[0051]
q(c)=q(k1)q(k2|k1)q(k3|k2)

q(k
m
|k
m
‑1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式4
[0052]
式4表示的语言模型是二元中文词模型,由前面m

1个词语决定的中文词模型为n元中文词模型。
[0053]
深度百科学习的中文医疗问句分类系统,进一步的,深度学习中文词模型:第一层是输入层,表示某中文词前后s个中文词的词向量,向量总共有w维,第二层为投影层,是前后s个词向量相加求和sum,sum也是w维向量,第三层是输出层,中文词r在哈夫曼树的叶子结点上,输入中文词是k
r
的上下文,哈夫曼树叶子结点是词典按照中文词出现次数而构建,每次中文词唯一,结合层次softmax算法和深度学习中文词模型联合使用,而且层次softmax算法结合哈夫曼编码,哈夫曼树中每个叶子结点中文词k都从树的根结点通过唯一路径被访问到,其路径也就是中文词的哈夫曼编码code,给定一个中文词可以非常快速的找到对应哈夫曼编码;
[0054]
深度学习中文词模型判断一句话是否是正常的自然语言,通过计算一系列词组的概率联合概率大小,如果联合概率低于某个临界值,则判断该句不是正常的自然语言,否则是,对于网络层图形,有字符串c包含一连串词语中文词k1,k2,

,k
r
组成,求字符串c是自然语言的概率利用式5:
[0055][0056]
式5中ctext
j
表示该中文词的上下文,即它的前后s个中文词,s是随机生成,q(k
j
|ctext
j
)表示前后s个中文词出现的情况下,再出现该中文词的概率。
[0057]
深度百科学习的中文医疗问句分类系统,进一步的,cb

cbc构造医疗问句特征向量:采用深度学习与中文搜索引擎百科相结合的方法训练问句特征词向量,采用cb

cbc模
型构建问句特征向量的方法为:
[0058]
第1步:获取医疗问句语料库med,利用分词工具ansj对所有问句进行预处理,得到一个分好词的prdctice.txt文件;
[0059]
第2步:把prdctice.txt文件作为word2vec工具的输入文本,经过一定时间训练后得到词向量文件vec.txt,每个向量的维度都是w维;
[0060]
第3步:同样对医疗问句文件med的每个问句构造问句特征向量,如果问句中的词语在vec.txt中没有,那么通过搜索引擎百科语义关联度高效收敛方法扩展特征词,特征词用tf

idf代表向量权重;如果该词语并不存在搜索引擎百科概念中则构建w维的0向量,所有的医疗问句得到特征空间为med_vec.txt。
[0061]
深度百科学习的中文医疗问句分类系统,进一步的,中文医疗问句分类中对医疗问句特征向量降维:提出特征词关联度合并策略对问句特征向量空间降维,首先对中文问句集合进行分词、去停用词的预处理,使用特征词表示中文问句;然后对特征词两两之间进行关联度计算,构建关联度降序链接表;最后对关联度大于某一个临界值的合并特征空间维,删除多余的特征维数;
[0062]
特征空间降维模型算法步骤为:
[0063]
步骤一:对中文问句集合进行分词、去停用词的预处理操作,把所有问句特征词合并至集合c={k1,k2,k3,

,k
m
};
[0064]
步骤二:利用语义关联度高效收敛方法分别计算集合c中词语两两之间的关联度t
ji
,j和i的范围分别是1≤j≤m,1≤i≤n,其中t
ji
=t
ij

[0065]
步骤三:按照词语关联度构建降序链接表,链接表头结点表示某一个特征词,链接表其他结点表示剩余词语和头结点的关联度,并且按照关联度降序排列;
[0066]
步骤四:构建问句特征向量空间,某一问句p
j
表示成一个特征向量p
j
=(p
j1
,p
j2
,

,p
jm
),m表示所有问句特征词的总数,如果有n个问句,则构成n
×
n的特征向量矩阵;
[0067]
步骤五:设定关联度临界值a,扫描关联度链接表,如果发现关联度t
ji
≥a,则将第j列的值和第i列值相加,对于t
ji
(k
j
,k
i
)≥a,并且t
iw
(k
i
,k
w
)≥a,需要重新计算t
iw
(k
i
,k
w
)的值,词语关联度不具有传递性;
[0068]
步骤六:对于合并后的特征向量维后,删除多余的特征向量维。
[0069]
与现有技术相比,本发明的贡献和创新点在于:
[0070]
第一,本发明利用中文搜索百科的语义结构,并融合深度学习方法,提出更为高效和准确的构建特征向量的方法,主要创新点包括:一是提出基于中文搜索百科语义结构的语义关联度高效收敛方法,构建网络问诊问句特征向量,首先基于医疗问句的特征,改进语义关联度算法,解决其构建特征向量时速度慢等缺陷,通过提取中文搜索百科词语链接扩展特征词;二是提出基于cb

cbs语言模型的分布式中文词向量空间,实现网络问诊问句特征向量的高效降维和避免出现数据稀疏问题,大幅提高问诊分类效率,传统方法构建问句特征向量时易造成维数过大、数据稀疏等难题,采用深度学习构建分布式中文词向量会造成同义词产生不同的分布式向量,并且受到语料库的限制,不能很好的识别网络新词,本发明采用中文搜索百科与深度学习相结合的cb

cbs模型,构造分布式的医疗问句词向量,从新浪爱问爬取56.4万条医疗问诊问题,构建专业的医疗问句语料库,然后采用语义关联度评测方法实施评估,本发明可以显著提高词语关联度的准确性和医疗问句分类效率;
[0071]
第二,本发明的语义关联度高效收敛方法与语义关联度算法相比较优势明显:只统计搜索引擎百科概念页面链接词的权重,然后继续对链接词进行特征词扩展,对扩展后的词语集合和上一阶的词语集合做关联度计算,大于一定关联度临界值的词语加入到下一阶集合中,重复上述过程直到集合词语不在发生变化,语义关联度高效收敛方法为找出词语的扩展集,然后再进行集合收敛,有效利用了搜索引擎百科巨大的概念库,基本上可以处理所有的词语,覆盖面更广,而且对于网络新词、专有名词处理也有较好的效果,它不需要训练语料库,方法效率更高,语义关联度算法可用于计算文本与文本、词语与词语、文本与词语的关联度,而且语义关联度算法准确度高,考虑语义的差别,不容易引入噪声数据,计算量适中;
[0072]
第三,本发明对问句集合语料库进项训练,在进行训练之后,分析发现问句中有许多同义词,但他们因为训练语料库缺少,导致相似度不准确,而且有些词典中词语不够丰富,因此利用搜索引擎百科的海量知识库,消除同义词的误差,并解决未登录词的词向量构造问题,首先对于问句中一词多义现象,利用搜索引擎百科消除歧义页面,而对于同义词,当问句中特征词与搜索引擎百科概念匹配时,把同义词用相同的向量表示,以免增加词向量之间的误差,搜索引擎百科采用开放式的群体编辑方法,具有广泛的覆盖率和快速的迭代更新,对比语料库训练方法,能较好的识别中文问句中新颖流行词语、网络用语、热门事件,提高问句预处理质量,本发明深度学习语言模型不仅考虑词语出现的频率,而且还考虑词语的语法、语义及上下文关系,通过这种方法得到的特征词向量能更加方便运用;
[0073]
第四,传统的中文问句分类时,经常会遇到问句特征向量维数过大、数据稀疏的问题,导致关联度计算成本过高,本发明提出特征词关联度合并策略对问句特征向量空间降维,中文问句特征向量与现有技术的中文问句特征向量相比,优点包括:一是传统的问句分类通常把问句表示成词袋向量,而本发明提出的中文问句分类方法用搜索引擎百科概念来扩展问句特征词,降低问句特征向量稀疏问题;二是传统的问句分类特征向量维数较大,没有采取有效的降维策略,本发明采用合并特征词的方法,降低特征向量空间维数;
[0074]
第五,智能问答系统的出现给广大用户带来了全新体验,它能更准确的判断用户意图,通过问答系统,用户更加直接快速获取答案,中文问句分类直接影响智能问答系统的准确性,对于问句的聚类以及抽取有重要作用,但中文问句本身比较短小,利用有效的方法对问句聚类较为困难,按照传统构建特征词空间的方法,导致特征向量矩阵数据稀疏,维数过大等问题。本发明提出利用基于深度学习语言模型产生词向量,同时解决训练语料库不足的问题,还利用中文搜索引擎百科解决网络流行词和同义词的问题,本发明的核心是对基于中文搜索引擎百科和深度学习模型的问句分类,提出基于中文搜索引擎百科链接结构的语义关联度计算方法,并且提出基于语义关联度算法的改进算法语义关联度高效收敛方法,对传统的词向量表示方法进行改进,利用中文搜索引擎百科对于同义词、网络流行词和语言模型词典中缺少词进行预处理,构建基于搜索引擎百科的词向量,提出cb

cbc构建医疗问句特征向量,最后采用svm分类器对医疗问句进行分类,大幅提高了中文医疗问句分类效率,而且对于词语之间的关联度准确性也是有明显提高。
附图说明
[0075]
图1是本发明的实体命名消除歧义计算流程图。
[0076]
图2是本发明的语义关联度算法流程图。
[0077]
图3是本发明深度学习中文词模型结合层次softmax算法流程图。
[0078]
图4是本发明提出合并特征词空间的降维模型示意图。
[0079]
具体实施方法
[0080]
下面结合附图,对本发明提供的深度百科学习的中文医疗问句分类系统的技术方案进行进一步的描述,使本领域的技术人员能够更好的理解本发明并能予以实施。
[0081]
移动医疗近几年飞速发展,而在线问诊作为其中最突出最现实的应用,获得了越来越多的关注,智能问答作为在线问诊中的关键技术,直接影响了这种新兴诊疗服务的质量和用户体验,智能问答的核心难题之一是对问句进行高效分类,但医疗问句的特征是问句关键词较少,由疾病或者症状+疑问词+动词组成,现有技术构建问诊特征向量的方法效率较低,全文索引方法误差较大,在中文环境下,医疗问句分类的问题更显突出。
[0082]
本发明利用中文搜索百科的语义结构,并融合深度学习方法,提出更为高效和准确的构建特征向量的方法,本发明主要创新工作包括:一是提出基于中文搜索百科语义结构的语义关联度高效收敛方法,构建网络问诊问句特征向量,本发明首先基于医疗问句的特征,改进语义关联度算法,解决其构建特征向量时速度慢等缺陷,通过提取中文搜索百科词语链接扩展特征词;二是提出基于cb

cbs语言模型的分布式中文词向量空间,实现网络问诊问句特征向量的高效降维和避免出现数据稀疏问题,大幅提高问诊分类效率,传统方法构建问句特征向量时易造成维数过大、数据稀疏等难题,采用深度学习构建分布式中文词向量会造成同义词产生不同的分布式向量,并且受到语料库的限制,不能很好的识别网络新词,所以本发明采用中文搜索百科与深度学习相结合的cb

cbs模型,构造分布式的医疗问句词向量,为验证本发明提出方法的可行性和高效性,本发明从新浪爱问爬取56.4万条医疗问诊问题,构建专业的医疗问句语料库,然后采用语义关联度评测方法实施评估,实验结果表明,本发明的方法可以显著提高词语关联度的准确性和医疗问句分类效率。
[0083]
一、计算基于中文搜索百科的语义关联度
[0084]
首先分析中文搜索引擎百科的语义结构,提出实体命名消除歧义模型,然后根据搜索引擎百科链接结构,抽取中文搜索引擎百科的链接词,提出改进语义关联度算法计算语义关联度,然后根据中文搜索引擎百科海量知识库的特征,提出基于中文搜索百科语义结构的语义关联度高效收敛方法。
[0085]
(一)中文搜索百科语义结构处理
[0086]
中文搜索引擎百科除拥有字索引外,页面还有丰富的语义结构,页面上拥有与概念相关的内部和外部超链接,概念的树状结构目录,对于一词多义现象设置歧义页面,而同义词设置重定向页面的一系列优化策略,中文搜索引擎百科为语义知识挖掘做基础性工作。
[0087]
1.分解语义结构
[0088]
中文搜索引擎百科一个页面对应一个概念,由搜索引擎百科志愿者编辑完成,概念可以是一个名词、动词、短语对象或者事件,通过搜索引擎或者中文搜索引擎百科站内搜索定位至某个解释页面,解释页面中包括多个站内链接和站外链接,通过链接直接跳到指定页面,方便关联度知识的阅读,提升阅读体验,解释页面第一段为概念定义字段,帮助迅速了解概念大意,对于页面较长的解释页面类比书本目录的页面目录,定位各段介绍的内
容,页面最底部注释概念所属类别,每个概念属于多个类别,中文搜索引擎百科所有概念构成一个有向图结构,图中一个结点代表一个概念。
[0089]
中文搜索引擎百科页面存在一些特殊语义结构,本发明采用搜索引擎百科中文词链接结构、词项分类结构、词项重定向和概念消除歧义页构建特征扩展表。
[0090]
(1)中文词链接结构
[0091]
中文搜索引擎百科页面中包含丰富的超链接结构,方便用户进行词语链接跳转,将中文搜索引擎百科中的概念结合,形成一个具有拓扑结构特性的链接图,这种链接图结构每两个结点之间有多条路径,结构健壮,具有风险抵御能力,即使网络图中某些结点丢失也不会影响链接图的流通性,中文搜索引擎百科页面中具有链接结构词语是与当前概念有关联的词语,本发明利用该特性来表示概念的语义信息,扩充概念特征词,但站外链接不反映具体的语义关联信息,一些站内链接由于还未创建条目,页面直接舍弃,中文搜索引擎百科中页面的出链接容易获取,但入链接需要访问所有搜索引擎百科页面判断哪些页面引用的当前页面,所以在预处理阶段,需要对出链接和入链接建立索引。
[0092]
(2)词项分类结构
[0093]
中文搜索引擎百科中所有概念按照一定的类别分类,有效管理搜索引擎百科页面信息,分类结构反映概念之间的层次关系,分类页面只有类别的链接关系,每个概念页面归属于一个或者多个类别,中文搜索引擎百科的分类图结构和语义词典wordnet有许多相同的特性,本发明融合wordnet上的语义算法运用在搜索引擎百科的语义关联度计算上。
[0094]
(3)词项重定向
[0095]
重定向页面是一种特殊结构的页面,它不包含解释页面,仅含有重定向链接,重定向页面是多个概念之间指向同一个解释页面,搜索引擎百科把他们链接为同一个解释页面,有效减少搜索引擎百科概念个数,减少储存空间。
[0096]
(4)概念消除歧义页
[0097]
消除歧义页是指有些概念包含一词多义问题,搜索引擎不能通过简单的查询词判断用户需要查询的意思,因此设置一个消除歧义页面,把选择权交给用户,消除歧义页是搜索引擎百科重要的语义知识挖掘资源,用来建立同义词词库、多义词词库,概念消除歧义页包含歧义词的所有词义,对每个候选词做简短的解释和词语链接,方便用户选择需要的解释页面。
[0098]
2.实体命名消除歧义
[0099]
本发明提出一种基于中文搜索引擎百科的问句实体命名消除歧义方法,利用实体命名的上下信息作为文本信息,搜索引擎百科的分类信息和词语链接信息作为搜索百科特征,并通过余弦相似度计算与杰卡德相似度系数计算问句中实体命名和搜索引擎百科概念之间的关联性,从而选出最优匹配答案。
[0100]
(1)搜索引擎百科词语链接和父结点的杰卡德相似度计算
[0101]
在一个问句中,对于待消除歧义实体命名n,获取问句中n的上下文信息a,a表示n上下文信息的词语集合,对集合a中词语映射到搜索引擎百科概念,找出搜索引擎百科概念页面链接词和父结点,则n的扩展特征词集合为c={a1,a2,a3,

,a
m
},其中m表示n相关的特征词个数,n的候选词语(歧义词语)集合r={n1,n2,n3,

,n
w
},其中w表示n歧义词的个数,对集合r中任一候选词语n
i
,与它相关的搜索引擎百科链接词与父结点集合为h={n
j1
,n
j2
,
n
j
3,n
j
4,

,n
ji
},i表示候选词语n
j
通过搜索引擎百科页面获得词语链接个数,通过杰卡德方法计算集合h和c集合的关联度t
j
,即t
j
表示候选词n
j
和n的上下文信息关联度,t
j
越大,关联度越高,反之,关联度越低。实体命名消除歧义计算流程图1所示。
[0102]
虽然杰卡德计算方便简单、算法效率高,但是通过搜索引擎百科链接获取的特征词较少,集合中共同词语较少,导致杰卡德相似度系数结果为0,不利于问句分类,采用余弦相似度计算它们之间的关联性。
[0103]
(2)计算基于搜索引擎百科分类信息的余弦相似度
[0104]
通过问句得到实体命名n的上下文信息为a={a1,a2,a3,

,a
m
},m表示n的上下文信息,本发明取问句中词语,问句只有4个词语左右,n的候选词语(歧义词语)集合r={n1,n2,n3,

,n
w
},其中w表示n歧义词的个数,对集合r中任一候选词语n
j
,与它相关的搜索引擎百科分类层次中父结点集合为h={n
j1
,n
j2
,n
j3
,n
j4
,

,n
ji
},i表示候选词语n
j
通过搜索引擎百科页面获得词语父结点个数,采用语义关联度算法计算相似度。
[0105]
(二)计算基于中文搜索百科链接结构的语义关联度
[0106]
首先抽取基于中文搜索引擎百科的链接结构,然后通过抽取的词语链接改进语义关联度算法,得到基于链接结构的语义关联度高效收敛方法。
[0107]
1.抽取链接结构概念
[0108]
搜索引擎百科中对于每个主题概念都有对应的解释页面,每个解释页面包含其他主题概念的链接,有些链接是无效链接,而另一些则是与主题概念关联度较强的链接,它们在语义像是近义词,把链接概念按照方向分为三种:第一种,其他相关页面单方向链接到主题概念d为入链;第二种,主题概念单方向链接到其他页面为出链;第三种,主题页面中词语的双向链接。主题概念中的词语链接是搜索引擎百科和主题概念关联度较高的词语,因此本发明利用搜索引擎百科这一特征做特征词扩展,中文问句短小,拥有的特征词只有3个左右,构成的特征矩阵数据较稀疏,不利于问句进行聚类。因此,本发明利用搜索引擎百科的相关链接词对问句进行扩充,但基于中文搜索引擎百科特征:有些主题概念页面包含太多相关概念,如果将所有链接作为扩展词语会增大扩展库的冗余,对于页面链接词超过临界值m
max
的概念,选取和搜索引擎百科概念有双向链接关系的词语,而有些主题概念页面大约太少词语链接,对于页面链接词数少于临界值m
min
的概念,,采用它的入链和出链,其他的则取主题概念页面的出链。
[0109]
实施例列举三种搜索引擎百科主题概念的扩展词语,第一个主题概念页面词语链接超过临界值m
max
,第三个主题概念页面词语链接数少于m
min
,第二个词语链接数介于m
max
和m
min
之间,可以判断出页面的词语链接与主题有一定的关联度,下一步利用它们这种链接关系做关联度计算。
[0110]
2.语义关联度高效收敛方法
[0111]
(1)语义关联度算法
[0112]
首先将文本关键词映射到搜索引擎百科概念中,采用向量空间模型表示文本向量,tf

idf值表示文本向量的权重,然后通过余弦相似度计算文本之间的关联度,语义关联度算法使用细粒度语义表示不受限制的文本,采用搜索引擎百科概念映射会产生高维向量空间,设置tf

idf临界值来过滤噪声数据。
[0113]
语义关联度算法的实现过程为:
[0114]
过程一:对搜索引擎百科所有页面分词预处理后,统计各个词语k
j
在某个搜索百科概念页面的tf

idf值为w
j

[0115]
过程二:建立词语k
j
和搜索引擎百科概念s
j
倒排索引,表示词语k
j
和搜索引擎百科概念s
j
之间的映射,用w
j
表示它们之间的权重,每个词语k
j
有多个搜索引擎百科概念s
j
,它们按照tf

idf值即w
j
的大小排序;
[0116]
过程三:对于两篇要计算关联度的文本分词预处理后,分别用词语集合rd={k
j
}、re={k
j
}表示,分别计算文本中词语k
j
的tf

idf值用向量{u
j
}表示,u
j
表示k
j
的权重;
[0117]
过程四:文本rd中词语k
j
通过倒排索引,映射到搜索引擎百科概念s
j
,一个词语k
j
有多个搜索引擎百科概念s
j
,所以对它们求和得到s
j
的权重q
j
,文本rd用向量空间{q1,q2,q3,q4,

,q
m
}表示,m表示搜索引擎百科概念数目,同理求得re;
[0118]
过程五:用余弦值求两文本向量的关联度gld(rd,re)。
[0119]
图2表示语义关联度算法流程图。rd用向量空间模型表示为:a={q1,q2,q3,q4,

,q
m
},计算r
e
的向量空间e,利用余弦关联度计算式1:
[0120][0121]
语义关联度算法有效利用了搜索引擎百科巨大的概念库,基本上可以处理所有的词语,覆盖面更广,而且对于网络新词、专有名词处理也有较好的效果,它不需要训练语料库,方法效率更高,语义关联度算法可用于计算文本与文本、词语与词语、文本与词语的关联度,而且语义关联度算法准确度高。但语义关联度算法也有明显的缺点,它没有考虑语义的差别,有些词语出现一词多义现象,语义关联度算法只是简单的概念映射,容易引入噪声数据,除此之外,语义关联度算法需要考虑搜索引擎百科页面所有数据,预处理阶段消耗更多时间和资源,表示文本向量包括所有搜索引擎百科概念,向量维数达到90万维,计算量过大。
[0122]
(2)语义关联度高效收敛方法
[0123]
为解决上述语义关联度算法计算时维数过大问题,本发明提出运用考虑搜索引擎百科概念页面中链接词的权重,而不是页面中所有词语的权重,然后持续对链接词进行扩展和收敛性计算,降低噪声数据的干扰,同时减少计算复杂量,计算每个链接词的权重采用基于链接数的词语权重计算方法,根据其他搜索引擎百科概念对它的链接数来计算权重,计算文章c中词语链接r权重的公式如式2所示:
[0124][0125]
其中,r表示搜索引擎百科中其他概念链接到k的数目,k表示搜索引擎百科中所有的链接数目,|r|+1是为了防止公式中分母为0。
[0126]
语义关联度高效收敛方法与语义关联度算法相比较不同的是:只统计搜索引擎百科概念页面链接词的权重,然后继续对链接词进行特征词扩展,对扩展后的词语集合和上一阶的词语集合做关联度计算,大于一定关联度临界值的词语加入到下一阶集合中,重复上述过程直到集合词语不在发生变化,语义关联度高效收敛方法为找出词语的扩展集,然后再进行集合收敛,计算两个词语k
d
、k
e
的语义关联度具体实现过程为:
[0127]
第一步:统计搜索引擎百科页面链接词kj的权重,计算其权重为w
j

[0128]
第二步:对于词语k
d
通过搜索引擎百科映射,如果找到与之相等的搜索引擎百科概念,则得到其页面中含有链接的词语集合d,如果没有找到与之相等的搜索引擎百科概念,则设置该页面中含有链接词的集合为g;
[0129]
第三步:对集合d中词语通过搜索引擎百科概念映射分别找出各自的链接词集合jh;
[0130]
第四步:集合jh中词语分别与集合d中词语进行语义关联度计算,求关联度平均值avg,如果关联度平均值avg大于某个人为设置的临界值t,则加入到集合d中变成新的集合d
j
,否则舍弃;
[0131]
第五步:重复第三步、第四步,直到集合d
j
中元素个数不再发生变化;
[0132]
第六步:同理求得词语k
e
集合e
j
,利用杰卡德系数求词语的关联度t(k
d
,k
e
)。
[0133]
二、基于cb

cbc模型的中文医疗问句分类
[0134]
由于中文问句其特征,现有技术的文本分类算法对问句分类效果不佳。本发明提出一种基于中文搜索引擎百科和深度学习相结合的问句分类模型,首先与传统的词向量表示方法进行对比,然后采用中文搜索引擎百科的语义结构对问句的多义词和同义词进行预处理,构造问句中特征分布式中文词向量,并运用svm分类器对中文问句进行分类。
[0135]
(一)深度学习表征词向量
[0136]
中文问句蕴含丰富的语义信息,它的结构复杂,问句形式多样化,词语之间存在多义、同义关系依赖,而且,中文问句大多比较短小,只包含较少关键词,对于问句分类存在不少难题。目前使用较广泛的文本表示方法是向量空间模型,这种表示方法虽然简单明了、效率高,但同样造成向量稀疏、维度过大的结果,不能够很好的描述词语之间的语义关系,导致计算相似度误差大,影响测试的准确性。针对上述问题,本发明根据分布式词向量表示方法,提出一种基于搜索引擎百科与深度学习相结合的分布式中文词向量表示模型,每个问句都由各关键词组成。
[0137]
1.分布式词向量表示方法
[0138]
在把自然语言交给机器的学习算法处理之前,需要把自然语言表示成机器可识别的语言,词向量就是对自然语言数学化处理,把各中文词表示成一连串的数字。本发明采用分布式词向量表示方法,用一个饱满的向量表示一个词语,维度用50到200维表示,向量表示训练采用word2vec方法,每个词在不同语料库和不同训练方法下,得到的词向量也不同,实施例利用统计方法tf

idf训练语料库,首先给定一个足够大的语料库,语料库包含科技、人文、健康、新闻、娱乐、生活多个方面,统计中文词在各领域的tf

idf结果后词向量,得到词向量后,想出与它相似的中文词,利用余弦距离或者欧式距离公式得到词语之间的相似度。
[0139]
2.深度学习表征分布式中文词向量
[0140]
本发明对问句集合语料库进项训练,在进行训练之后,分析发现问句中有许多同义词,但他们因为训练语料库缺少,导致相似度不准确,而且有些词典中词语不够丰富,因此利用搜索引擎百科的海量知识库,消除同义词的误差,并解决未登录词的词向量构造问题,首先对于问句中一词多义现象,利用搜索引擎百科消除歧义页面,而对于同义词,当问句中特征词与搜索引擎百科概念匹配时,把同义词用相同的向量表示,以免增加词向量之间的误差,搜索引擎百科采用开放式的群体编辑方法,具有广泛的覆盖率和快速的迭代更
新,对比语料库训练方法,能较好的识别中文问句中新颖流行词语、网络用语、热门事件,提高问句预处理质量。
[0141]
深度学习语言模型不仅考虑词语出现的频率,而且还考虑词语的语法、语义及上下文关系。通过这种方法得到的特征词向量能更加方便运用。
[0142]
(二)深度学习构建分布式中文词向量模型
[0143]
1.m元中文词模型
[0144]
中文词模型是描述自然语言的一种抽象数学建模,判断句子的语法、句法、语义是否正确,从无标注自然语言文本中,统计词频,计算语义关系,词语的先后顺序建立数学模型,得到中文词模型。
[0145]
语言模型形式化表示为包含m个词语的字符串c,求出该字符串是一个自然语言的概率q(k1,k2,k3,

,k
m
)。其中k
j
,j∈(1,m)表示字符串c中个中文词,得到c的概率如式3所示:
[0146]
q(c)=q(k1,k2,k3,

,k
m
)=q(k1)q(k2|k1)

q(k
n
|k1,

k
m
‑1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式3
[0147]
其中q(k2|k1)表示出现k1的前提下出现k2的概率,q(k
n
|k1,

k
m
‑1)表示某个词语在它前面词语出现前提下的概率,假设任意中文词k
j
出现的概率只和它前面的词k
j
‑1有关,字符串c的概率表示成式4:
[0148]
q(c)=q(k1)q(k2|k1)q(k3|k2)

q(k
m
|k
m
‑1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式4
[0149]
式4表示的语言模型是二元中文词模型,由前面m

1个词语决定的中文词模型为n元中文词模型。
[0150]
2.深度学习中文词模型
[0151]
深度学习中文词模型如图3所示。第一层是输入层,表示某中文词前后s个中文词的词向量,向量总共有w维,第二层为投影层,是前后s个词向量相加求和sum,sum也是w维向量,第三层是输出层,中文词r在哈夫曼树的叶子结点上,输入中文词和叶子结点中文词不一样。输入中文词是k
r
的上下文,哈夫曼树叶子结点是词典按照中文词出现次数而构建,每次中文词唯一。为加快查询速度,结合层次softmax算法和深度学习中文词模型联合使用,而且层次softmax算法结合哈夫曼编码,哈夫曼树中每个叶子结点中文词k都从树的根结点通过唯一路径被访问到,其路径也就是中文词的哈夫曼编码code,因此给定一个中文词可以非常快速的找到对应哈夫曼编码。
[0152]
深度学习中文词模型判断一句话是否是正常的自然语言,通过计算一系列词组的概率联合概率大小,如果联合概率低于某个临界值,则判断该句不是正常的自然语言,否则是。对于图3网络层图形,有字符串c包含一连串词语中文词k1,k2,

,k
r
组成,求字符串c是自然语言的概率利用式5:
[0153][0154]
式5中ctext
j
表示该中文词的上下文,即它的前后s个中文词,s是随机生成,q(k
j
|ctext
j
)表示前后s个中文词出现的情况下,再出现该中文词的概率。
[0155]
(三)采用cb

cbc模型的医疗问句分类
[0156]
1.cb

cbc构造医疗问句特征向量
[0157]
利用深度学习对问句语料库进行词向量训练,有速度快和效率高的特征,但对于一些同义词,网络流行词的处理效果不太好。然而,中文搜索引擎百科有丰富的语料资源,
采用众包形式编辑,对于网络流行词更新快。此外,搜索引擎百科还提供歧义页面,对区分同义词有较大优势。因此,本发明采用深度学习与中文搜索引擎百科相结合的方法训练问句特征词向量,采用cb

cbc模型构建问句特征向量的方法为:
[0158]
第1步:获取医疗问句语料库med,利用分词工具ansj对所有问句进行预处理,得到一个分好词的prdctice.txt文件;
[0159]
第2步:把prdctice.txt文件作为word2vec工具的输入文本,经过一定时间训练后得到词向量文件vec.txt,每个向量的维度都是w维;
[0160]
第3步:同样对医疗问句文件med的每个问句构造问句特征向量,如果问句中的词语在vec.txt中没有,那么通过搜索引擎百科语义关联度高效收敛方法扩展特征词,特征词用tf

idf代表向量权重;如果该词语并不存在搜索引擎百科概念中则构建w维的0向量,所有的医疗问句得到特征空间为med_vec.txt。
[0161]
实施例:“脑出血的治疗方法有哪些?”通过word2vec对语料库进行训练,去除出现频率小于5的词语,其他词语建立词典,最后词典中每个词语生成词向量(这里向量维数取50),但训练后的词典中vec.txt中没有“脑出血”的向量,因此,通过搜索引擎百科构建50维向量,利用语义关联度高效收敛方法扩展特征词,得到扩展词的tf

idf值。对问句设置特征词个数为n(本发明n取值为4),问句中超过n个特征词的必须删除,删除词语向量的顺序为:先删除“有”、“的”类停用词,第二删除顺序为“哪些”、“吗”类疑问词,最后删除动词或者名词。最后问句“脑出血的治疗方法有哪些?”的特征向量为“脑出血/治疗/方法/哪些”各分词向量相连接构成4*50=200维向量。下一步是如何对问句特征向量降维,然后svm分类器对问句特征向量进行分类。
[0162]
2.中文医疗问句分类
[0163]
(1)对医疗问句特征向量降维
[0164]
传统的中文问句分类时,经常会遇到问句特征向量维数过大、数据稀疏的问题,导致关联度计算成本过高,本发明提出特征词关联度合并策略对问句特征向量空间降维,本发明的中文问句特征向量与现有技术的中文问句特征向量相比,优点包括:一是传统的问句分类通常把问句表示成词袋向量,而本发明提出的中文问句分类方法用搜索引擎百科概念来扩展问句特征词,降低问句特征向量稀疏问题;二是传统的问句分类特征向量维数较大,没有采取有效的降维策略,本发明采用合并特征词的方法,降低特征向量空间维数。
[0165]
基于以上两个特征,本发明提出合并特征词空间的降维模型如图4所示。首先对中文问句集合进行分词、去停用词的预处理,使用特征词表示中文问句;然后对特征词两两之间进行关联度计算,构建关联度降序链接表;最后对关联度大于某一个临界值的合并特征空间维,删除多余的特征维数。
[0166]
特征空间降维模型算法步骤为:
[0167]
步骤一:对中文问句集合进行分词、去停用词的预处理操作,把所有问句特征词合并至集合c={k1,k2,k3,

,k
m
};
[0168]
步骤二:利用语义关联度高效收敛方法分别计算集合c中词语两两之间的关联度t
ji
,j和i的范围分别是1≤j≤m,1≤i≤n,其中t
ji
=t
ij

[0169]
步骤三:按照词语关联度构建降序链接表,链接表头结点表示某一个特征词,链接表其他结点表示剩余词语和头结点的关联度,并且按照关联度降序排列;
[0170]
步骤四:构建问句特征向量空间,某一问句p
j
表示成一个特征向量p
j
=(p
j1
,p
j2
,

,p
jm
),m表示所有问句特征词的总数,如果有n个问句,则构成n
×
n的特征向量矩阵;
[0171]
步骤五:设定关联度临界值a,扫描关联度链接表,如果发现关联度t
ji
≥a,则将第j列的值和第i列值相加,对于t
ji
(k
j
,k
i
)≥a,并且t
iw
(k
i
,k
w
)≥a,需要重新计算t
iw
(k
i
,k
w
)的值,词语关联度不具有传递性;
[0172]
步骤六:对于合并后的特征向量维后,删除多余的特征向量维。
[0173]
(2)svm医疗问句分类
[0174]
svm是一种基于统计学习的的机器学习方法,结构简单,而且相比其他分类器只是取局部最优解,它具有全局最优解,可以将实际问题通过非线性转换到高维特征空间,正符合本发明的医疗问句特征向量需要构建高维空间。因此,本发明采用svm分类器对问句进行分类。
[0175]
三、发明点总结
[0176]
随着大数据时代的到来,互联网上每天都产生海量信息,尽管用户可以利用搜索引擎查询所需资料,但搜索引擎不能够很好的理解用户查询意图,返回大量关联性较差的信息,这给用户带来较差的体验。智能问答系统的出现给广大用户带来了全新体验,它能更准确的判断用户意图,通过问答系统,用户更加直接快速获取答案。中文问句分类直接影响智能问答系统的准确性,对于问句的聚类以及抽取有重要作用,但中文问句本身比较短小,利用有效的方法对问句聚类较为困难。
[0177]
中文问句包含的关键词信息较少,按照传统构建特征词空间的方法,导致特征向量矩阵数据稀疏,维数过大等问题。因此,本发明提出利用基于深度学习语言模型产生词向量,同时解决训练语料库不足的问题,还利用中文搜索引擎百科解决网络流行词和同义词的问题。本发明的核心是对基于中文搜索引擎百科和深度学习模型的问句分类进行详细描述,一是从介绍中文搜索引擎百科的语义结构入手,提出基于中文搜索引擎百科链接结构的语义关联度计算方法,并且提出基于语义关联度算法的改进算法语义关联度高效收敛方法;二是对传统的词向量表示方法进行改进,采用深度学习语言模型训练分布式的词向量,基于m元中文词模型,建立深度学习中文词模型,利用中文搜索引擎百科对于同义词、网络流行词和语言模型词典中缺少词进行预处理,构建基于搜索引擎百科的词向量,提出cb

cbc构建医疗问句特征向量,最后采用svm分类器对医疗问句进行分类。
[0178]
按照本发明提出的中文问句分类模型,设计相关实验进行验证,通过实验对比,基于深度学习和搜索引擎百科相结合的模型大幅提高了中文医疗问句分类效率,而且对于词语之间的关联度准确性也是有明显提高。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1