一种领域词典的构建方法与流程

文档序号:11155410阅读:724来源:国知局
一种领域词典的构建方法与制造工艺

本发明自然语言处理领域,特别涉及一种领域词典构建方法。



背景技术:

随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的数据信息分析。大数据分析中自然语言处理占据重要的地位,面对海量的网络文本资源通过运用自然语言处理分析方法自动地、智能地判断出文本或者文本发布者所蕴含的某种情感倾向,无论是在舆情分析还是商业调查中都有着至关重要的实际应用意义。利用这些分析结果,对事情的发展演变进行正确的预判,进而提前采取相应的措施来实现更大的正面效果。

而情感分析主要有两大类方法,一类是基于机器学习的方法,另一类是基于词典的方法。基于机器学习的方法首先是构建分类器,将待分析文本输入到分类器中进行进行分析。这种方法的局限在于,构建分类器,需要大规模语料来对分类器进行训练,而且分类特征的选择也非常具有挑战,特征选择的优劣将直接影响分类器的性能。基于词典的方法,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。

基于情感词典的情感分析方法是有针对性的分析和挖掘,不同的领域所采取的词典也有很大的不同,目前现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到较好的分析效果,构建针对性的领域词典十分必要,然而手动构建词典非常的耗时耗力;不能满足海量文本分析的需求。



技术实现要素:

本发明的目的在于克服现有技术中所存在的上述不足,提供一种领域词典构建方法,在自动获取文本关键词的基础上,对待处理文本进行聚类,形成不同的领域或者主题文本集;根据分析需要,选取少量的对应领域种子词,在此基础上分析出聚类后的领域或者主题文本集与所选领域种子词的关系远近,仅保留关系较密切的领域或者主题文本集作为领域词典扩展的来源。在此基础上结合词语相关性分析算法进行领域词典的自动扩展,进而得到对应的领域词典。

为了实现上述发明目的,本发明提供了以下技术方案:一种领域词典构建方法,包含以下实现步骤:

(1)提取出待处理文本集中各文本的关键词;

(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;

(3)选取领域的种子词;

(4)统计种子词在各主题文本集中出现的频率;将频率超过阈值的主题文本集保留,作为领域词典扩展的源文本集;

(5)计算种子词与源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为领域词存入待扩充的词典中。

具体的,本发明方法包含分词、去高频词、去停用词的预处理步骤。

进一步的,所述步骤(1)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:

TR(vi)是文本中词vi的重要性,d是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。

进一步的,所述步骤(2)中对待处理文本聚类包含以下过程:

(2-1)初始时,每个待处理文本各自为一个类;

类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:

其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:

Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}

其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb(2-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;

(2-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;

(2-4)重复步骤(2-1)至(2-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用所而自行设定。

作为一种优选:所述步骤(5)中候选词与种子词的关联度计算公式为:

其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。

作为一种优选,所述步骤(2)中,N=3。

作为一种优选,所述步骤(3)中,所选取的种子词的个数为50-200个。

进一步的,所述步骤(3)顺序可移到所述步骤(1)和,或者步骤(2)之前。

作为一种优选,所述步骤(4)中,仅保留种子词出现频率最高的主题文本集作为词典扩充的源文本集。

作为一种优选,所述步骤(5)中候选词与种子词的阈值设置为MI(word1,word2)=0.2,当文本集中词汇与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中。

与现有技术相比,本发明的有益效果:本发明提供一种领域词典构建方法,在自动获取文本关键词的基础上,对待处理文本进行聚类,形成不同的主题文本集;并选取一定数量的领域种子词,通过种子词来自动发现聚类后的待处理文本集与待扩展领域的关系远近,自动识别出聚类后文本的领域类型的基础上,仅保留关系密切的主题文本集来进行领域词典扩展。词典构建的准确性更强,构建效率更高。

本发明方法,选取一部分种子词,种子词的选取可根据分析的具体方向而定,因此更加具有针对性,在种子词选取和领域自动发现的基础上,计算种子词与源文本集的文本中词的关联程度远近,保留关系密切的词作为该领域词典的扩充词;相比于普通的领域词典,本发明方法所构建的领域词典具有更强灵活。词典的实用性更强,更加适应于具体问题或者主题的文本分析。

附图说明:

图1为本领域词典的构建方法的实现步骤图。

图2为本领域词构建方法步骤(5)的实现过程图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。

提供一种领域词典构建方法,在自动获取文本关键词的基础上,对待处理文本进行聚类,形成不同的主题文本集;在欲构建词典的领域文本集中通过人工查看,选取一部分种子词。在此基础上分析出聚类后的主题文本集与所选领域种子词的关系远近,仅保留关系较密切的主题文本集来进行领域词典扩展。在此基础上再结合算法进行领域词典的自动扩展,得到对应的领域词典。本发明方法在自动区分文本主题领域的基础上通过少量的部分种子词对想要构建的领域词典进行自动扩充;词典的构建效率较高,准确性高,领域的针对性很强;在文本分析和自然语言处理领域有广泛的应用前景。

为了实现上述发明目的,本发明提供了以下技术方案:一种领域词典构建方法,包含如图1所示的以下实现步骤:

(1)提取出待处理文本集中各文本的关键词;

(2)对待处理文本进行聚类,形成N个主题文本集,其中N为整数且N≥2;

(3)选取少量的领域种子词;选取具有明显领域特征的词汇,人工选取种子词的方式,对于具体领域或者问题的针对性更强,所构建的词典的适用更加灵活。

(4)统计种子词在各主题文本集中出现的频率;将种子词出现频率超过阈值的主题文本集保留,作为领域词典扩展的源文本集。通过聚类对待处理文本集进行分类,形成了不同主题的文本集合,同一主题内的文本之间的关联程度更高,为后续的词典扩展进行了语料的准备和筛选。

通过聚类形成不同主题文本集后,经过计算种子词在主题文本关键词的出现频率,进而分析出不同主题与所构建词典领域之间的关系远近,将关系较远的文本集舍弃,这样在进行词典扩展时,只在领域较近的主题中进行,大大提高了词典扩展来源语料的质量,词典扩展的准确性显著提升,同时由于仅在于所扩展的领域最近的文本集中进行词典扩展,缩小了词典扩展时计算的范围,减少了词典扩展的计算量,提高了词典扩展的效率。

(5)计算种子词与源文本集的各词的关联度,将关联度到达设定阈值的词作为领域词存入待扩充的词典中。

具体的,本发明方法包含分词、去高频词、去停用词的预处理步骤。

进一步的,所述步骤(1)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:

TR(vi)是文本中词vi的重要性。d是阻尼系数,一般设置为0.85。N是无向图中(将文本分词后,抽象成一个无向图,其中文本中的每个词是图中的一个节点)所有词的个数。relat{vi}是与词vi有共现关系的词集合。vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。

通过本计算公式进行迭代计算,抽取TR(vi)大于阈值的对应词作为该文本的关键词;通过关键词的自动抽取,为文本聚类进行准备。

进一步的,所述步骤(2)中对待处理文本聚类包含以下过程:

(2-1)初始时,每个待处理文本各自为一个类;

类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:

其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:

Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}

其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb(2-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;

(2-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;

(2-4)重复步骤(2-1)至(2-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用而自行设定。

作为一种优选,所述步骤(2-4)N=3,将待处理文本集仅分为三个主题,方便后续计算。

作为一种优选,所述步骤(3)中,所抽取的领域种子词的数量为50-200个。选取的种子词过少,将影响领域词典扩展的准确性,过多则将增加选取的人力和时间成本。

作为一种优选;所述步骤(4)中,仅保留种子词出现频率最高的主题文本集作为词典扩充的源文本集;本步骤从个主题文本集中选取与种子词关系最密切的文本集,使得词典扩展的语料集更加符合领域的特点,词典的扩展质量更高,针对性更强。

作为一种优选:所述步骤(5)中词汇与种子词的关联度计算采用互信息的计算思想,所采用的计算公式为:

其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。互信息算法对于分析词汇之间的关联度,算法简洁容易实现,计算效率较高;互信息是计算语言学模型的分析方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。在进行领域词典构建时,在选取种子词的基础上,利用互信息的方法来计算待扩充的词汇和现有种子词的相关性,相关度越高表示该词与种子词的关联性越高。

作为一种优选,所述步骤(5)的阈值设置为MI(word1,word2)=0.2,当文本集中候选词与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中,所述步骤(5)的计算过程如图2所示。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1