一种不同词之间的相关程度处理方法和装置的制造方法

文档序号:8943070阅读:367来源:国知局
一种不同词之间的相关程度处理方法和装置的制造方法
【技术领域】
[0001]本发明涉及自然语言处理技术领域,特别涉及一种不同词之间的相关程度处理方法和装置。
【背景技术】
[0002]在自然语言处理技术中,探索词汇与词汇之间的关联程度是相当重要的技术问题,通过词汇与词汇之间的关联程度,传统的自然语言处理技术可以获取一个词汇的关联词汇,并通过这些关联词汇延伸扩展出该词汇的多个相关词汇。
[0003]但是,传统的自然语言处理技术中只是通过词汇与词汇之间的直接关联程度,获取一个词汇的直接关联词汇(如近义词和同义词等),却不能获取与该词汇有间接关系的词汇。例如,对于词汇“棒球”而言,假设词汇“棒球”与词汇“运动”存在直接关系,而词汇“运动”又与词汇“篮球”、“足球”存在直接关系。传统的自然语言处理技术只能找到与词汇“棒球”有直接关联的词汇,如“运动”等,而对于与“棒球”有间接关系的词汇,如“篮球”、“足球”等,却无法获取。
[0004]对于毫无关联的词汇,传统的语言处理技术不会对之进行相关处理,但是,对于上述间接相关的词汇,如“篮球”、“足球”等,其可能存在一定程度的相关关系。而在现有技术中,缺乏一种有效的对如上述可能存在间接关系的词汇的相关程度进行判断和分析的方法。

【发明内容】

[0005]本发明提供一种不同词之间的相关程度处理方法和装置,用以对可能存在间接关联的不同词之间的关联关系进行分析处理,实现快速、准确地确定不同词之间的相关程度的目的。
[0006]本发明提供一种不同词之间的相关程度处理方法,包括:
[0007]步骤A:接收用户输入的关键词,在预设的外围词库中搜索与所述关键词相关的一重外围词;
[0008]步骤B:在所述预设的外围词库中搜索与所述一重外围词中每个词相关的二重外围词,并重复搜索操作,直至搜索到N重外围词,所述N为预设的外围词级数;
[0009]步骤C:分别对每个词与相关的外围词之间建立关联线条,根据所述关联线条生成不同词之间关联关系的发散图;
[0010]步骤D:根据不同词同时出现的视频数和关联级数,对所述发散图中对应的关联线条进行颜色深浅度和线条粗细度处理,根据处理后的关联线条的颜色深浅度和线条粗细度判断所述不同词之间的相关程度。
[0011]本发明实施例的一些有益效果可以包括:
[0012]该实施例通过获取用户输入的关键词,并在预设的外围词库中搜索与该关键词相关的I至N重外围词,然后通过构建发散图,将每个词与相关的关键词之间都建立关联线条。在判定不同词之间的相关程度时,可以通过分析包含关联线条的发散图,并结合该不同词同时出现的视频数和关联级数,对发散图中对应的关联线条进行颜色和线条粗细的处理,用户能够根据处理结果,清晰、直观地看到不同词之间关联线条的变化。通过本实施例的方法,能够在发散图中快速、直观地反映不同词之间相关程度的变化,该方法操作简单、表现直观,以图形化的方式形象地反映词与词之间的相关程度。
[0013]在一个实施例中,还包括:
[0014]步骤E:获取待判断相关程度的第一词汇和第二词汇,确定所述第一词汇和第二词汇在所述发散图中的第一关联线条;
[0015]步骤F:判断所述第一关联线条的颜色深浅度和线条粗细度,当所述第一关联线条的颜色越深时,则第一词汇与第二词汇的相关程度越高;
[0016]当所述第一关联线条的越粗时,则第一词汇与第二词汇的相关程度越高。
[0017]该实施例对判断不同词之间的相关程度的具体方法进行了限定,在进行判定时,首先在发散图中获取到该不同词对应的关联线条。然后通过判断该关联线条的颜色深浅和线条粗细,判定该不同词之间的相关程度的高低。本领域技术人员应当了解,在根据不同词同时在视频中出现的次数以及关联级数进行关联线条处理的基础上,如果该线条颜色越深和/或线条越粗,则代表其同时在视频中出现的次数越多和/或关联级数越近,即表明该不同词之间的相关程度越高。本实施例提供的方法能够快速、准确地为用户提供判断不同词之间相关程度高低的依据,节省了判定时间,提高了判定效率。
[0018]在一个实施例中,在所述步骤A之前还包括:
[0019]步骤G:采集用户输入的历史关键词数据,根据所述历史关键词数据获取包含所述历史关键词的搜索信息;
[0020]步骤H:根据所述搜索信息包含的文本描述信息,对所述文本描述信息进行分词,提取目标分词;
[0021]步骤1:采用聚类算法计算每一个目标分词在各搜索信息中出现的频率,并根据预设的关联度计算方法每一个目标分词与所述历史关键词之间的关联度;
[0022]步骤J:将所述关联度达到预设阈值的目标分词,作为所述历史关键词相关的外围词;
[0023]步骤K:根据全部历史关键词分别对应的外围词,构建外围词库。
[0024]该实施例提供了一种构建外围词库的方法,首先需要采集用户输入的历史关键词,进而通过历史关键词获取与该历史关键词相关的搜索信息。如:历史关键词以“成龙”为例,可能搜索到包含成龙的全部信息,如其家庭成员、影视作品、电视节目、新闻报道等等,在这些信息中,提取每个信息的文本描述信息,并对文本描述信息进行分词处理。如对“成龙”的搜索信息一两届台湾电影金马奖最佳男主角进行分词处理,至少可以得到:两届、台湾金马奖、最佳男主角等分词信息,根据这些分词信息,分别计算其在“成龙”的搜索信息中出现的频率,再根据该频率结合预设的关联度计算方法,得出不同分词与“成龙”的关联度,继而将达到预设阈值的关联度对应的分词作为“成龙”的外围词。由上述方法依次可以得到用户输入的全部历史关键词的外围词,以全部历史关键词的外围词为基础,既能够构建外围词库。该实施例提供的构建外围词库的方法以用户历史输入数据为构建基础,充分考虑到了用户的喜好等因素,构建的外围词库能够满足基本的不同词之间相关程度的判断。
[0025]在一个实施例中,所述步骤C包括:
[0026]构建词汇关联关系发散图,并将所述关键词及所有词级的外围词标注在所述发散图中;
[0027]将每个词与相关的外围词之间建立关联线条,生成不同词之间关联关系的发散图。
[0028]该实施例提供了一种构建发散图的方法,在获取关键词与所有词级的外围词的基础上,将所有的词分别标注在关联关系发散图中,将每个词分别与其相关的外围词之间建立关联线条,如:成龙-房祖名、成龙-金马奖、成龙-功夫巨星、成龙-好莱坞等等。由此即可将所有词与对应的外围词的关联关系以关联线条的形式体现在发散图中。该实施例提供的方法表示清楚、易于查看,且为后续的线条处理和相关程度判断奠定了基础。
[0029]在一个实施例中,所述根据处理后的关联线条的颜色深浅度和线条粗细度判断所述不同词之间的相关程度包括:
[0030]判断所述不同词之间是否存在关联线条,如果存在则将所述不同词分别与关键词之间的词级数之差作为关联级数X ;
[0031]如果不存在,则在所述发散图中将所述不同词之间建立关联线条,将所述不同词到共同外围词的词级数之和作为关联级数X ;
[0032]根据所述关联级数X和预设的关联权重函数计算第一颜色权重值和第一粗细权重值;
[0033]获取所述不同词同时出现的视频数Y,根据所述Y和预设的视频数权重函数计算第二颜色权重值和第二粗浅权重值;
[0034]根据计算得到的第一颜色权重值和第一粗细权重值以及第二颜色权重值和第二粗浅权重值,配置所述发散图中该不同词对应的关联线条的颜色深浅和线条粗细。
[0035]该实施例主要对如何根据不同词同时在视频中出现的次数和关联级数,对关联线条进行处理进行了限定。首先,需要确定不同词之间的关联级数,假设A的外围词为B、C,B、C 的外围词分别为(D,E)、(F,G),D、E、F、G 的外围词分别为(H,I)、(J,K)、(L,M)、(N,O)。首先判断不同词之间是否已经存在关联线条,如B、H之间存在关联线条,则分别将B、H到A的词级数之差作为关联级数,即为3-1 = 2 ;如B、J之间不存在关联线条,则分别判断B、J到A词级数为1、3,则B、J之间的关联级数即为1+3 = 4。根据计算得到的关联级数X结合预设的关联权重函数能够计算出关联级数对线条处理的影响。同样的,在得到不同词同时出现的视频数Y的基础上,结合预设的视频数权重函数计算Y对线条处理时的影响,最后根据两次计算的影响权重值即可以对相应的关联线条进行处理。该实施例的方法为准确计算不同词的关联级数以及同时出现的视频数,对线条颜色深浅、线条粗细的影响提供了理论依据。
[0036]一种不同词之间的相关程度处理装置,包括:
[0037]第一搜索模块,用于接收用户输入的关键词,在预设的外围词库中搜索与所述关键词相关的一重外围词;
[0038]第二搜索模块,用于在所述预设的外围词库中搜索与所述一重外围词中每个词相关的二重外围词,并重复搜索操作,直至搜索到N重外围词,所述N为预设的外围词级数;
[0039]发散图建立模块,用于分别对每个词与相关的外围词之间建立关
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1