本发明涉及关联词提取方法,尤其涉及一种基于专有名词的关联词提取方法。
背景技术:
古籍中包括的信息量非常大,一篇古籍文献中往往涉及多个人物,如果想要了解各个人物之间的关联关系,需要阅读很多的古籍文献,而现在人们的生活节奏很快,人们没有很多的时间去阅读所有的古籍文献,以了解各个人物之间的关联关系。因此,如果可以从大量的古籍文献中提取出能描述各个人物之间关联关系的词或词组呈现给人们,通过简短的词或词组描述各个人物之间的关联关系,将会帮助人们以简要的方式浏览各个人物之间的关联关系,以简要的方式了解各个人物之间发生的事情,将可以使人们用最少的时间,获取最大的信息量。
技术实现要素:
本发明的目的是针对现有技术中存在的上述问题,提供一种能够用最少时间,获取最大信息量的基于专有名词的关联词提取方法。
本发明解决其技术问题所采用的技术方案是:
基于专有名词的关联词提取方法,包括以下步骤:
步骤1:获取设定领域的文本集;
步骤2:对所述文本集进行预处理,获得特征文本;
步骤3:从所述特征文本中,提取每两个专有名词之间的关联词;
步骤4:根据所述关联词中每个关联词的相关信息,应用回归分析或信念网络技术,发现每个所述关联词与特征文本之间的相互依赖关系;
步骤5:根据所述相互依赖关系,从所述关联词中选择部分关联词或全部关联词。
进一步的,所述预处理为自动分词,所述自动分词的分词方法为逆向最大匹配法,即从被处理文档的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。
进一步的,所述步骤3具体包括:
获取所述特征文本中的每个句子中的每个词的词性;
当根据每个句子中的每个词的词性判断出该句子中含有两个以上专有名词时,在该句子中包含的每一个词的前后选择预设个数的词,组成专有名词关联词提取组;
根据句子语法规则和所述专有名词关联词提取组中各个词的词性,从所述专有名词关联词提取组中提取该句子中包含的每两个对应专有名词之间的专有名词关联词。
与现有技术相比,本发明产生的有益效果是:
通过从特征文本中提取每两个专有名词之间的关联词,并根据关联词与特征文本之间的相互依赖关系,呈现每两个专有名词之间的关联词,使得可以根据关联词了解到专有名词之间的关系,可以使用户用最少的时间,获取最大的信息量。
具体实施方式
下面结合实施例对本发明做进一步说明:
本发明提供的基于专有名词的关联词提取方法,包括以下步骤:
步骤1:获取设定领域的文本集;
步骤2:对所述文本集进行预处理,获得特征文本;
步骤3:从所述特征文本中,提取每两个专有名词之间的关联词;
步骤4:根据所述关联词中每个关联词的相关信息,应用回归分析或信念网络技术,发现每个所述关联词与特征文本之间的相互依赖关系;
步骤5:根据所述相互依赖关系,从所述关联词中选择部分关联词或全部关联词。
所述预处理为自动分词,所述自动分词的分词方法为逆向最大匹配法,即从被处理文档的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。
所述步骤3具体包括:
获取所述特征文本中的每个句子中的每个词的词性;
当根据每个句子中的每个词的词性判断出该句子中含有两个以上专有名词时,在该句子中包含的每一个词的前后选择预设个数的词,组成专有名词关联词提取组;
根据句子语法规则和所述专有名词关联词提取组中各个词的词性,从所述专有名词关联词提取组中提取该句子中包含的每两个对应专有名词之间的专有名词关联词。
本发明通过从特征文本中提取每两个专有名词之间的关联词,并根据关联词与特征文本之间的相互依赖关系,呈现每两个专有名词之间的关联词,使得可以根据关联词了解到专有名词之间的关系,可以使用户用最少的时间,获取最大的信息量。
综上所述,本发明可提供一种能够用最少时间,获取最大信息量的基于专有名词的关联词提取方法。
以上通过实施例对本发明的进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。