基于主题自动匹配的多领域词典构建系统的制作方法

文档序号:11918484阅读:196来源:国知局
基于主题自动匹配的多领域词典构建系统的制作方法与工艺

本发明自然语言处理领域,特别涉及基于主题自动匹配的多领域词典构建系统。



背景技术:

随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的数据信息分析。大数据分析中自然语言处理占据重要的地位,面对海量的网络文本资源通过运用自然语言处理分析方法自动地、智能抽取出我们所关心的信息,或判断出文本或者文本发布者所蕴含的某种情感倾向,无论是在舆情分析还是商业调查中都有着至关重要的实际应用意义。利用这些分析结果,可以对事情的发展演变进行正确的预判,进而提前采取相应的措施来实现更大的正面效果。

基于词典的分析方法在自然语言分析中具有重要的应用,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。

基于情感词典的情感分析方法是有针对性的分析和挖掘,不同的领域所采取的词典也有很大的不同,目前现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到较好的分析效果;并且数据随着商业的发展和技术的进步,进行自然语言分析的角度越来越丰富,对同一文本或者目标相关文本的分析也越来越细致;对应词典领域的需求也越来越多。然而手动构建词典非常的耗时耗力;不能满足海量文本分析的需求。



技术实现要素:

本发明的目的在于克服现有技术中所存在的上述不足,提供基于主题自动匹配的多领域词典构建系统,用户只需要输入待处理文本和M个领域的种子就可以自动构建出对应各个领域词典。

为了实现上述发明目的,本发明提供了以下技术方案:基于主题自动匹配的多领域词典构建系统,所述系统根据用户输入的待处理文本和所选取的M个领域的种子词,实现M个领域词典的自动构建,其中M为整数,且M≥2;

所述词典构建包含以下实现步骤:

(1)提取出待处理文本集中各文本的关键词;

(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且其中N≥M;

(3)根据用户输入的各领域种子词,依次统计各领域种子词在各主题文本集中出现的频率;将频率大于阈值的主题文本集作为对应领域词典扩展的源文本集;

(4)计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。

具体的,所述系统还包括预处理系统,所述预处理系统对输入其中的待处理文本进行包括分词、去高频词、去停用词的处理。

进一步的,所述步骤(1)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:

TR(vi)是文本中词vi的重要性,d是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。

进一步的,所述步骤(2)中对待处理文本聚类包含以下过程:

(2-1)初始时,每个待处理文本各自为一个类;

类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:

其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:

Dist(ca,cb)=max{C(tx,tb),ta∈ca,tb∈cb}

其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cx。

(2-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;

(2-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;

(2-4)重复步骤(2-1)至(2-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用所而自行设定。

作为一种优选,所述步骤(4)中候选词与种子词的阈值设置为MI(word1,word2)=0.2,当文本集中词汇与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中。

作为一种优选:所述步骤(4)中候选词与种子词的关联度计算公式为:

其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。

与现有技术相比,本发明的有益效果:本发明提供基于主题自动匹配的多领域词典构建系统,所述系统根据用户输入的待处理文本和所选取的M个领域的种子词,实现M个领域词典的自动构建,在自动获取文本关键词的基础上,对待处理文本进行聚类,形成N个主题文本集;根据用户输入的各领域种子词,依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集,从而实现了领域种子词语与先关主题的自动识别和匹配;据此实现的词典构建的效率和准确性更高,在主题自动发现的基础上计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。

本发明系统种子词的选取可根据分析的具体方向而定,因此更加具有针对性,在种子词选取和领域自动发现的基础上,计算种子词与源文本集的文本中词的关联程度远近,保留关系密切的词作为该领域词典的扩充词;相比于普通的领域词典,本发明系统所构建的领域词典具有更强灵活。词典的实用性更强,更加适应于具体问题或者主题的文本分析。

此外本发明系统在较短的时间内可以构建数个词典,为相关的文本分析提供更多可用工具。

附图说明:

图1为基于主题自动匹配的多领域词典构建系统的系统结构示意图。

图2为本发明系统领域词典的构建实现过程示意图。

图3为发明系统领域词典的构建实现步骤(4)的实现过程图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。

提供基于主题自动匹配的多领域词典构建系统,提供基于主题自动匹配的多领域词典构建系统,通过本系统用户只需要输入待处理文本和M个领域的种子,本系统实现了领域种子词语与先关主题的自动识别和匹配,在主题自动匹配的基础上自动构建出对应各个领域词典。

为了实现上述发明目的,本发明提供了以下技术方案:基于主题自动匹配的多领域词典构建系统,如图1所示,所述系统根据用户通过文本数据输入的待处理文本和所选取的M个领域的种子词(第一领域种子词,第二领域种子词,第三领域种子词…第M领域种子词),实现M个领域词典(第一领域词典,第二领域词典,第三领域词典…第M领域词典)的自动构建,其中M为整数,且M≥2:

包含如图2所示的以下实现步骤:

(1)提取出待处理文本集中各文本的关键词;

(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2:

(3)依次统计各领域种子词在各主题文本集中出现的频率;将频率超过阈值的主题文本集作为对应领域词典扩展的源文本集;通过聚类对待处理文本集进行分类,形成了不同主题的文本集合,同一主题内的文本之间的关联程度更高,为后续的词典扩展进行了语料的准备和筛选。

通过聚类形成不同主题文本集后,经过计算种子词在主题文本关键词的出现频率,进而分析出不同主题与所构建词典领域之间的关系远近,将关系较远的文本集舍弃,这样在进行词典扩展时,只在领域较近的主题中进行,实现了领域种子词与相关主题的自动识别和匹配,大大提高了词典扩展来源语料的质量,词典扩展的准确性显著提升,同时由于仅在于所扩展的领域最近的文本集中进行词典扩展,缩小了词典扩展时计算的范围,减少了词典扩展的计算量,提高了词典扩展的效率。

(4)计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。

具体的,如图1所示,所述系统还包括预处理系统,所述预处理系统对输入其中的待处理文本进行包括分词、去高频词、去停用词的处理。

进一步的,所述步骤(2)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:

TR(vi)是文本中词vi的重要性。d是阻尼系数,一般设置为0.85。N是无向图中(将文本分词后,抽象成一个无向图,其中文本中的每个词是图中的一个节点)所有词的个数。relat{vi}是与词vi有共现关系的词集合。vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vx有共现关系的词的个数。

通过本计算公式进行迭代计算,抽取TR(vi)大于阈值的对应词作为该文本的关键词;通过关键词的自动抽取,为文本聚类进行准备。

进一步的,所述步骤(2)中对待处理文本聚类包含以下过程:

(2-1)初始时,每个待处理文本各自为一个类;

类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:

其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:

Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}

其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb

(2-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;

(2-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;

(2-4)重复步骤(2-1)至(2-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用而自行设定。

作为一种优选;所述步骤(3)中,仅保留种子词出现频率最高的主题文本集作为词典扩充的源文本集;

作为一种优选:所述步骤(4)中词汇与种子词的关联度计算采用互信息的计算思想,所采用的计算公式为:

其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。互信息算法对于分析词汇之间的关联度,算法简洁容易实现,计算效率较高;互信息是计算语言学模型的分析方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。在进行领域词典构建时,在选取种子词的基础上,利用互信息的方法来计算待扩充的词汇和现有种子词的相关性,相关度越高表示该词与种子词的关联性越高。

作为一种优选,所述步骤(4)的阈值设置为MI(word1,word2)=0.2,当文本集中候选词与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中,所述步骤(4)的计算过程如图3所示。

进一步的,所述系统为加载有上述主题自动匹配的多领域词典构建功能的计算机或者服务器。

实施例1

用户根据所要分析的问题,初步选取1000件文本作为待处理文本集;对待处理文本集和需要构建领域的对应种子词;将待处理文本集和各领域的种子词输入本发明系统中,本发明系统对用户输入的待处理文本集中的文本进行分词,去高频词和去停用词的预处理;在此基础上通过textrank算法来提取待处理文本集各文本中的关键词;根据各文本关键词对待处理文本集中的文本进行聚类(聚类后的主题个数可以根据用户需要进行自行设置),比如经过迭代聚类后剩下3个主题,假如第一主题集中包含350件文本,第二主题文本集中包含350件文本;第三主题文本集中包含300件文本。

假设用户根据分析需要,欲设置两个领域词典,通过人工挑选,在第一个领域挑选50个种子词;在第二个领域中挑选出40个种子词。输入到本发明系统中,本发明系统先计算第一领域与聚类后主题集之间的远近:统计第一领域种子词在第一主题文本集中的出现频率;假设在第一主题文本集所包含的关键字总数为1000个,其中属于第一领域种子词的个数为310个,那么种子词出现的频率为310/1000=31%;第二主题集包含的关键字总数为1500个,其中属于第一领域种子词的个数为250个,对应的种子词的出现频率为250/1500≈16.67%;第三主题集中所包含的关键字总数为1200个,其中属于第一领域种子词的个数为100个,对应的种子词的出现概率为:100/1200≈8.33%;经过比较认为只有第一主题文本集与第一领域的相关度最高,将第一主题文本集作为第一领域词典扩展的源文本集;计算第一主题文集中各文本中各候选词与第一领域各种子种子词的关联程度,将关联程度大于阈值的候选词添加到第一领域词典中。

计算第二领域与聚类后主题集之间的远近,假设第一主题文本集中关键字属于第二领域的种子词的个数为100个,对应的种子词的出现频率为100/1000=10%;第二主题文本集中关键字属于第二领域的种子词的个数为600个,对应的种子词的出现频率为600/1500=40%;第三主题文本集中关键字属于第二领域的种子词的个数为80个,对应的种子词的出现频率为80/1200≈6.67%;经过比较认为只有第二主题文本集与第二领域的相关度最高,将第二主题文本集作为第二领域词典扩展的源文本集;计算第二主题文集中各文本中各候选词与第二领域各种子种子词的关联程度,将关联程度大于阈值的候选词添加到第二领域词典中。

经过上面的分析过程,自动建立了两个领域词典;词典构建效率高,准确率更高。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1