语料库制作装置及其方法

文档序号:6638315阅读:209来源:国知局
专利名称:语料库制作装置及其方法
技术领域
本发明涉及一种语料库(Corpus)的制作装置及其方法,更具体地说,本发明涉及一种能分析单词间的语义关系、统计相关关系以及相似关系的语料库(Corpus)的制作装置及其方法。
背景技术
现今,各种各样的信息交融在一起人类提供了方便、快捷、有效的信息,同时也带来了这样一个问题,即,如何才能有效地组织管理并最终有效利用这些信息。目前,常用的信息存储方法有基于词典的方法和基于知识库的方法。
语料库是用来存储语言材料的仓库,其内部大量的语言材料能被广泛应用于计算机检索、查找和分析。
现有的语料库的制作方法包括基于词典的方法。在该方法中,将与预先所具有的词典信息中的单词相一致的单词切分出来。由于词典中存在的单词大部分能正确切分出来,所以在语料库中很少包括不是单词的信息,所以可以生成高精度的语料库。但是,基于词典的方法需要存储词典的大量存储空间,因此不利于在便携式设备上使用该方法。同时,由于仅仅切分词典中存在的单词,所以语料库中的如特殊的专业单词或最新单词一般不能作为单词信息切分出来。另外,在基于词典的方法中,关于单词之间的关系的信息很难量化(quantization),从而很难将其运用到数字化设备当中。
根据现有技术构造的语料库虽然各有特点,但其共有的不足之处在于,语料库中一般存放的都只是单词,而并不反映单词之间的关系,所以能够提供的信息比较少,相应能提供的应用就受到限制。

发明内容
针对现有技术存在的问题,本发明的目的之一在于提供一种能够在有限空间存储尽量多的单词,分析单词间的语义关系、统计相关关系以及相似关系的语料库的制作装置。
本发明的语料库的制作装置,其除了包括单词抽出部、出现频率计算部、关联度计算部、语料库制作部之外,其特征在于,该语料库制作装置还包括包含关系制作部,该包含关系制作部基于单词之间的语义,对单词抽出部得到的单词用树形结构建立纵向包含关系结构。该纵向包含关系结构是表示所存储的单词之间的语义的上下位概念的包含关系。
在本发明的语料库制作装置中,出现频率计算部可以按下式(1)计算所述单词之间的相关度 (亦即共现权重Weightw1w2)relw1w2‾=freqw1w2freqw1×γdistw1w2‾+γ---(1)]]>其中,freqw1w2、freqw1、 分别表示所述出现频率计算部计算得到的单词w1和单词w2的共现频率、单词w1的出现频率、以及单词w1和单词w2之间的平均共现距离,γ为可调参数。
另外,在本发明的语料库制作装置中,关联度计算部按下式(2)计算上述两个单词之间的相似度sim(w1,w2)sim(w1,w2)=αsimsemantic(w1,w2)+βsimstatistic(w1,w2)(2)α,β∈(0,1)且α+β=1其中,simsemantic(w1,w2)表示单词w1和单词w2的语义相似度,simstatistic(w1,w2)表示所述单词w1和单词w2之间的统计相关度,α和β为可调参数。
此外,在本发明的语料库制作装置中,关联度计算部可按下式(3)计算所述单词w1和单词w2的语义相似度simsemantic(w1,w2)simsemantic(w1,w2)=1/Dissemantic(w1,w2)(3)其中Dissemantic(w1,w2)表示根据包含关系制作部构成的纵向包含关系结构中获得的单词w1和单词w2之间的最短距离。
上述单词w1和单词w2之间的统计相关度simstatistic(w1,w2)即为单词w1和单词w2的相关度
在此言及的“单词w1和单词w2的最短距离Dissemantic(w1,w2)”是指,在关系制作部构成的单词纵向包含关系结构中,单词w1和单词w2之间的最短距离。
“单词w1的出现频率freqw1”是指,单词w1(基准词)在训练样本集中出现的总的次数。
“共现”是指窗口宽度 内,就训练样本L(L属于训练样本集中任意一样本)中单词w1的某次出现为起点,对其后 个单词进行观察,并得到单词集 若发现词 则说单词w1和单词w2在窗口宽度 中共现。
“共现频率freqw1,w2”是指,单词w1和单词w2在训练样本集中同时出现在一定的预设的窗口宽度内的次数。
“共现距离disw1w2)”是指,单词w1和单词w2在预设的窗口宽度内同时出现时的单词w2距单词w1的位置距离。
“平均共现距离 ”是指,disw1w2‾=ΣK=1freqw1w2(disw1w2)k,]]>其中disw1w2)k表示单词w1和单词w2的第k次共现距离。
另外,在本发明的语料库制作装置中,出现频率计算部可按下式(4)计算单词wi的关系个数kiki=lgwfreqilgwfreq‾×k,---(4)]]>其中,wfreq表示所述语料库中所有单词的平均出现频率,wfreqi表示单词wi的出现频率,k表示所述语料库中所有单词的平均关系个数;当单词wi的关系总数超过δ×ki时,其中,δ为预先设定的大于1的缓冲系数,对与单词wi的关系权重最小的单词wj进行裁减,该关系权重Weight(Relation)按下式(5)计算Weight(Relation)=freqwiwj×Weightwiwj---(5)]]>其中,freqwiwj表示单词wi和单词wj的共现频率,Weightwiwj表示单词wi和单词wj的共现权重。
本发明的另一目的还在于提供一种语料库制作方法。
该语料库制作方法,包括以下步骤
单词抽出步骤对训练样本内容进行切分,得到单词序列;包含关系制作步骤基于单词之间的语义,对单词抽出步骤得到的单词用树形结构建立纵向包含关系结构;出现频率计算步骤计算单词的出现频率,两个单词之间的共现频率、共现距离以及平均共现距离;相关度相似度计算步骤根据包含关系制作步骤和出现频率计算步骤的结果,计算两个单词之间的相关度和相似度;语料库制作步骤将以上步骤中得到的单词、它们之间的包含关系、相关度和相似度作为记录来构造语料库。
根据本发明的语料库制作方法,在其相关度相似度计算步骤中,两个单词之间的相关度 (亦即共现权重Weightw1w2)可按下式计算relw1w2‾=freqw1w2freqw1×γdistw1w2‾+γ---(1)]]>其中,freqw1w2、freqw1、 分别表示从出现频率计算步骤得到的单词w1和单词w2的共现频率、单词w1的出现频率、以及单词w1和单词w2之间的平均共现距离,γ为可调参数。
上述单词w1和单词w2的语义相似度simsemantic(w1,w2)可按下式(3)进行计算simsemantic(w1,w2)=1/Dissemantic(w1,w2) (3)其中Dissemantic(w1,w2)表示根据所述包含关系制作步骤建立的所述纵向包含关系结构中获得的单词w1和单词w2之间的最短距离。
上述单词w1和单词w2之间的统计相关度simstatistic(w1,w2)即为单词w1和单词w2的相关度。
另外,本发明的语料库制作方法,还可以包括裁减步骤按下式(4)计算单词wi的关系个数kiki=lgwfreqilgwfreq‾×k,---(4)]]>其中,wfreq表示语料库中所有单词的平均出现频率,wfreqi表示单词wi的出现频率,k表示所述语料库中所有单词的平均关系个数;当单词wi的关系总数超过δ×ki时,其中,δ为预先设定的大于1的缓冲系数,对与单词wi的关系权重最小的单词wj进行裁减,该关系权重Weight(Relation)按下式(5)计算Weight(Relation)=freqwiwj×Weightwiwj---(5)]]>其中,freqwiwj表示单词wi和单词wj的共现频率,Weightwiwj表示单词wi和单词wj的共现权重根据本发明的语料库制作装置及其制作方法不需要存储词典的大量存储空间,在存储单词的同时,不仅对存储单词之间的横向关系(统计相关关系)进行分析,还能同时对单词之间纵向关系(语义的上下位概念包含关系)进行分析、并且基于该横向及纵向关系分析单词之间相似性。即根据本发明的语料库制作装置及其制作方法所得到语料库同时具有单词间的纵向包含关系结构、相关网络、相似网络,因此,使用根据本发明制作的语料库不仅可以对各种信息进行有机的组织,而且更加便于根据用户的要求对信息进行分类,在海量的数据中找到个人感兴趣的信息。因此,由此制作的语料库可以用在例如信息检索、信息抽取、训练样本分类、智能电视节目选择等应用中。
另外,根据本发明的语料库制作装置及其制作方法,当随着训练样本的增加,语料库中的相关网络不断地膨胀,由于本发明采取适宜的裁减方案,使得语料库物理空间的负担减轻,以保持单词存储及单词间相关度相似度分析的效率。
此外,根据本发明的语料库制作装置及其制作方法,由于相关网络特定的存储结构以及裁减算法的运用,使得语料库中保存的单词具有动态更新性。即、当训练样本中出现了语料库中已有的单词,新的训练样本有可能为该单词引入新的关系,当该单词的关系总数超过裁减阈值时,便根据上述的裁减方案对其进行关系裁减,从而在引入新的关系的同时,淘汰弱的关系,使所制作的语料库在保持一定容量范围的同时,能根据训练样本进行动态更新。


图1是本发明的语料库制作装置的一实施方式的结构示意图;图2是本发明的该种实施方式的单词抽出部的工作流程图;
图3表示本发明的该种实施方式的由包含关系制作部构成的单词间的纵向包含关系结构;图4是本发明的该种实施方式的出现频率计算部的基本处理流程图;图5是本发明的该种实施方式的关联度计算部计算相似度的流程图;图6是本发明的该种实施方式所得到的语料库的结构图;图7是本发明的该种实施方式的包含关系制作部所得到的纵向包含关系结构的一个实例;图8是本发明的该种实施方式所得到的语料库的结构图的一个实例。
具体实施例方式
在下文中,根据附图所示的具体实施方式
对本发明进行解释。
图1是本发明的语料库制作装置的一实施方式的结构示意图,其中用附图标记100表示语料库制作装置。该语料库制作装置100包括单词抽出部104、包含关系制作部106、出现频率计算部108、关联度计算部110、语料库制作部112。
训练样本102经单词抽出部104分割成单词序列,经由包含关系制作部106根据单词间的语义的上下位概念的关系来制作单词间的纵向包含关系,经由出现频率计算部108计算出单词间的共现频率和共现距离,经由关联度计算部110计算出单词间的相关度和相似度,再由语料库制作部112将单词、单词的纵向包含关系、相关度、相似度存入语料库保存部114。
以下将对上述各部分作出详细描述。
训练样本102是指用于训练的语料,例如,文章。语料用于构造语料库的相关度网络,其必须具备语料大、涵盖面广、具有一定的权威性的条件,以保证可以对建立在其上的各种算法进行客观的评价。
单词抽出部104主要用来对训练样本102进行词法分析,通过自然语言处理工具对训练样本的内容进行切分,得到单词序列。在中文系统中可以采用自学习的方法对训练样本进行切分。该方法例如可以基于最大似然原理,通过EM(Expectation-Maximization)算法的多次迭代,最终得到训练样本的最佳切分结果。
图2给出了根据该实施方式的该方法的处理流程。读入的训练样本102经过单词抽出部104中的非法字符处理模块204提出合法字符并存入临时训练样本中,然后一方面用训练样本切分模块208通过查找数据库的记录来对训练样本进行切分,另一方面通过自学习模块206利用该样本对数据库进行适当更新。
包含关系制作部106用来制作单词间的纵向包含关系结构。这种纵向包含关系结构实际上是基于概念单词之间的语义的上下位概念的包含关系得到的。图3示出了用树形结构表征的这种纵向关系。在这样的语义树上我们用父子关系来表示节点之间的包含关系。换句话说,父节点(Fa_cnpt)所代表的单词在语义上包含了子节点(Son_cnpt)所代表的单词。纵向包含关系结构的训练关键是要组织一个语义森林,该语义森林又包含了很多的语义树。这需要有语言学的知识,可以通过同义词词典或者专家分类的方法获得语义树。在该实施方式中,语义树的建立借鉴了专家分类(知网),并通过人工分类而获得。
这样,就构成了语料库的纵向包含关系结构。
出现频率计算部108用来计算单词之间的共现距离和共现频率。出现频率计算部108的基本处理流程如图4所示。首先,出现频率计算部108接收单词抽出部104的处理结果,即单词序列。预先设定一个宽度为w的窗口,如果某两个单词在窗口内同时出现则认为这两个单词的共现频率为一次,而两个单词之间的间隔为共现距离。
基于单词之间的共现距离和共现频率,出现频率计算部108按下面公式(1)计算单词之间的共现权重Wegihtw1w2,亦即相关度 relw1w2‾=freqw1w2freqw1×γdistw1w2‾+γ---(1)]]>其中,freqw1w2、freqw1、 分别表示出现频率计算部108计算得到的单词w1和单词w2的共现频率、单词w1的出现频率、以及单词w1和单词w2之间的平均共现距离,γ为可调参数。
此外,语料库中的关系很多,随着训练样本的增加,语料库中的相关网络会不断地膨胀,使得物理空间的负担相当繁重。因此需要有一个裁减算法控制其空间上的膨胀。在图4中所示的出现频率计算部108采用的关系裁减算法如下ki=lgwfreqilgwfreq‾×k---(4)]]>其中wfreq为语料库中所有单词的平均出现频率,wfreqi为单词wi的出现频率。k为语料库中所有单词的平均关系个数。裁减的过程是一个动态过程,当某个单词的关系总数超过阈值δ×ki(δ为预先设定的大于1的缓冲系数)时,对其进行裁减。裁减的对象是那些关系权重最小的关系。计算方法如下Weight(Relation)=freqwiwj×Weightwiwj---(5)]]>freqwiwj表示单词wi和单词wj的共现频率,Weightwiwj表示单词wi和单词wj的共现权重。
这样,基于以上各部分的处理构成语料库的相关网络。
接下来,关联度计算部110对单词之间的相似度进行计算。相似度的计算参照图5加以说明。首先,根据语料库中的纵向包含关系结构来计算并获得两个单词间的最短距离Dissemantic(w1,w2)(502)。接着,依据所得的最短距离Dissemantic(w1,w2)来计算以simsemantic(w1,w2)表示的单词w1和单词w2的语义相似度(504)。然后,基于语料库的相关网络来计算以simstatistic(w1,w2)即为单词w1和单词w2的相关度(506)。继而,根据步骤504和506所得结果,通过下式(2)计算两个单词之间的相似度sim(w1,w2)sim(w1,w2)=αsimsemantic(w1,w2)+βsimstatistic(w1,w2)(2)α,β∈(0,1)且α+β=1其中,α和β为可调参数。
这样,通过以上处理便构成语料库的相似网络。
语料库制作部112把由包含关系制作部、出现频率计算部、关联度计算部构成并输出的语料库的纵向包含关系结构、相关网络、相似网络作为输入,保存在语料库保存部114中。
图6给出了最终得到的语料库的结构图,在图6中,每个节点代表一个单词,其中,左边是纵向包含关系,右边是横向相关关系,虚线表示同一个节点分开表示的效果。实际上虚线联接的节点是同一个节点的不同组成部分。左边的部分与图3相似,在此不再赘述。在右边的图中,上面表示相关关系的联接,下面表示相似关系的联接。上面的相关关系联接到相关的单词并且标出相关的频度和距离。下面的相似关系联接到相似的单词并且标出相似的程度。
本发明的语料库制作方法的具体实施方式
,可以使用本发明的语料库制作装置的实施方式,以图2、图3、图4、图5所示的方式来实现其单词提取步骤;包含关系制作步骤;出现频率计算步骤;相关度相似度计算步骤;以及语料库制作步骤,得到如图6所示的同时具有单词间的纵向包含关系结构、相关网络、相似网络的语料库。
(实施例)以下用一个实例来具体说明本发明的语料库制作的流程。
在该实例中,训练样本采用以下的一段文章欧洲男子体操赛闭幕新华社洛桑5月27日电(记者施光耀)第十九届欧洲男子体操锦标赛经过3天角逐,27日下午在瑞士洛桑降下帷幕。苏联选手大振雄风,夺走全部8枚金牌中的6枚(1枚并列)。苏联名将莫吉利尼获得个人全能、鞍马和双杠(并列)3枚金牌,索赫尔博获得自由体操、跳马和单杠三项冠军。瑞士选手吉贝尔利尼和意大利选手凯基分别获得双杠和吊环冠军。来自25个欧洲国家的73名运动员参加了本届比赛。(完)单词抽出部104利用单词切分工具,把一篇文章的内容切成一个个独立的单词,其中主要抽出名词。输出结果如下欧洲 男子 体操赛 新华社 洛桑 记者 光耀 欧洲 男子 体操 锦标赛 角逐 瑞士 洛桑 帷幕 苏联 选手 雄风 金牌 苏联 名将 个人全能 鞍马 双杠 金牌 跳马 单杠 冠军 瑞士 选手 贝尔 意大利 选手 双杠 吊环 冠军 欧洲 国家 运动员 比赛包含关系制作部106根据单词抽出部的输出,同时借鉴专家分类(知网)输出如图7所示的结果,即纵向包含关系结构。
出现频率计算部108接收切分的单词的集合,通过预先设定的宽度为w的窗口内,对一篇篇训练样本进行扫描。如果某两个单词在窗口内同时出现,则认为这两个单词共现一次,两个单词之间的间隔为共现距离。经过统计,得到以每一个词作为关键词,与该关键词相关的其它的单词的平均共现距离和共现频率。
在下表中,“KEY”表示关键词;“REL_NODE”表示相关节点“frequency”表示共现频率;ave_dis表示平均共现距离。
KEY男子REL_NODE[1]=体操赛 ave_dis=1.000000 frequency=1REL_NODE[2]=新华社 ave_dis=2.000000 frequency=1REL_NODE[3]=洛桑 ave_dis=4.000000 frequency=2REL_NODE[4]=记者 ave_dis=4.000000 frequency=1REL_NODE[5]=光耀 ave_dis=5.000000 frequency=1REL_NODE[6]=体操 ave_dis=1.000000 frequency=1REL_NODE[7]=锦标赛 ave_dis=2.000000 frequency=1REL_NODE[8]=角逐 ave_dis=3.000000 frequency=1REL_NODE[9]=瑞士 ave_dis=4.000000 frequency=1从上表中可以看出,例如,“男子”和“记者”的平均共现距离为4.000000,共现频率为1。
关联度计算部110计算两个单词之间的相关度和两个单词之间的相似度。首先根据出现频率计算部统计得到的单词之间的平均共现距离和共现频率计算单词与单词之间的相关度relw1w2‾=freqw1w2freqw1×γdistw1w2‾+γ---(1)]]>其中, 即为上表中的平均距离ave_dis,γ为一可调参数。这样就可以得到两词之间的相关度。
如果取γ=0.5,如上“男子”和“记者”的平均距离为4.000000,共现频率为1,假如此时“男子”的出现频率为10,则两词的相关度relw1w2‾=110×0.54.0+0.5=0.01111]]>
根据上文所述的相似度计算方法,基于以上语料库的纵向包含关系结构和相关度网络,使用式(2)计算本实例中的相似度sim(w1,w2)=αsimsemantic(w1,w2)+βsimstatistic(w1,w2)(2)α,β∈(0,1)且α+β=1在纵向包含关系中,例如,如果两个单词具有父子关系,其间的最短距离Dissemantic(w1,w2)可取为2,其语义相似度simsemantic(w1,w2)为0.5。simstatistic(w1,w2)表示w1和w2的统计相关度,即为上式(1)计算所得的相关度 例如,在此取α=0.4,β=0.6,计算“男子”和“记者”之间的相似度。由于“男子”和“记者”之间没有父子关系,simsenantic(w1,w2)为0,simstatistic(w1,w2)为公式(1)计算所得的0.01111。则两词之间的相似度用公式(2)得到,sim(W1,w2)=0.4×0+0.6×0.01111=0.006666由此通过语料库制作部112将符合语料库结构的记录,例如,上面统计所得的关键单词,如“男子”、相关单词,如“记者”和它们的相似度“0.006666”以一条数据库记录的形式保存在语料库保存部114中。根据该实例构成的语料库结构如图8所示。这样,包含单词、关键单词与相关单词的纵向包含关系结构、其对应的相关网络和相似网络的记录构成了语料库。当需要两个单词的相关度或相似度信息时,就从该语料库中读取。
另外,如此时加入一个新关系(newrelation)“男子和足球”,满足启动裁减条件(即lgwfreqilgwfreq‾×ki×δ<10]]>),窗口宽度w=6,γ=3,且此时ave_dis=1,frequency=1,,则由式(5)得上述新关系的权重Weight(newrelation)=freqw1w2×weightw1w2=freqw1w2×freqw1w2freqw1×γdistw1w2‾+γ=1×1/10×(3/(1+3))=0.075]]>而此时“男子”和“瑞士”的关系为Weight(relation)=1×1/10×(3/(4+3))=0.043,所以该关系要被裁减掉,而新关系“男子”和“足球”则被加入语料库。由此,使语料库得到更新。
上述实例只是为了说明本发明实施方式的实例,本发明也可以采用修改的其它实现方式进行。语料库制作装置可以以处理器为核心器件构成。制作的语料库可以用硬盘、磁盘等常用的存储设备来实现。
以上对本发明的语料库制作装置及其方法做了详细的说明。本领域技术人员在本发明的精神和范围内所做出的修改和改进应当包含在本发明所附的权利要求限定的范围内。
权利要求
1.一种包括单词抽出部、出现频率计算部、关联度计算部、语料库制作部的语料库制作装置,其特征在于该语料库制作装置还包括包含关系制作部,该包含关系制作部基于单词之间的语义,对单词抽出部得到的单词用树形结构建立纵向包含关系结构。
2.根据权利要求1所述的语料库制作装置,其特征在于,所述出现频率计算部按下式(1)计算所述单词之间的相关度 relw1w2‾=freqw1w2freqw1×γdistw1w2‾+γ---(1)]]>其中,freqw1w2、freqw1、 分别表示所述出现频率计算部得到的单词w1和单词w2的共现频率、单词w1的出现频率、以及单词w1和单词w2之间的平均共现距离,γ为可调参数。
3.根据权利要求2所述的语料库制作装置,其特征在于所述关联度计算部按下式(2)计算两个单词之间的相似度sim(w1,w2)sim(w1,w2)=αsimsemantic(w1,w2)+βsimstatistic(w1,w2) (2)α,β∈(0,1)且α+β=1其中,simsemantic(w1,w2)表示单词w1和单词w2的语义相似度,simstatistic(w1,w2)表示所述单词w1和单词w2之间的统计相关度,α和β为可调参数。
4.根据权利要求3所述的语料库制作装置,其特征在于所述关联度计算部按下式(3)计算所述单词w1和单词w2的语义相似度simsemantic(w1,w2)simsemantic(w1,w2)=1/Dissemantic(w1,w2)(3)其中Dissemantic(w1,w2)表示根据所述包含关系制作部构成的所述纵向包含关系结构中获得的单词w1和单词w2之间的最短距离。
5.根据权利要求3所述的语料库制作装置,其特征在于所述单词w1和单词w2之间的统计相关度simstatistic(w1,w2)为所述单词w1和单词w2的相关度
6.根据权利要求1所述的语料库制作装置,其特征在于在所述出现频率计算部,按下式(4)计算单词wi的关系个数kiki=lg wfreqilgwfreq‾×k,---(4)]]>其中,wfreq表示所述语料库中所有单词的平均出现频率,wfreqi表示单词wi的出现频率,k表示所述语料库中所有单词的平均关系个数;当单词wi的关系总数超过阈值δ×ki时,其中,δ为预先设定的大于1的缓冲系数,对与单词wi的关系权重最小的单词wj进行裁减,所述关系权重Weight(Relation)按下式(5)计算Weight(Relation)=freqwiwj×Weightwiwj---(5)]]>其中,freqwiwj表示单词wi和单词wj的共现频率,Weightwiwj表示单词wi和单词wj的共现权重。
7.一种语料库制作方法,其特征在于包括以下步骤单词提取步骤对训练样本内容进行切分,得到单词序列;包含关系制作步骤基于单词之间的语义,对单词抽出步骤得到的单词用树形结构建立纵向包含关系结构;出现频率计算步骤计算单词的出现频率,两个单词之间的共现频率、共现距离以及平均共现距离;相关度相似度计算步骤根据包含关系制作步骤和出现频率计算步骤的结果,计算两个单词之间的相关度和相似度;语料库制作步骤将以上步骤中得到的单词、它们之间的纵向包含关系结构、相关度和相似度作为记录来构造语料库。
8.根据权利要求7所述的语料库制作方法,其特征在于在所述相关度相似度计算步骤中,按下式计算所述两个单词之间的相关度 relw1w2‾=freqw1w2freqw1×γdistw1w2‾+γ---(1)]]>其中,freqw1w2、freqw1、 分别表示从所述出现频率计算步骤得到的单词w1和单词w2的共现频率、单词w1的出现频率、以及单词w1和单词w2之间的平均共现距离,γ为可调参数。
9.根据权利要求8所述的语料库制作方法,其特征在于在所述相关度相似度计算步骤中,如下式(2)计算所述两个单词之间的相似度sim(w1,w2)sim(w1,w2)=αsimsemantic(w1,w2)+βsimstatistic(w1,w2) (2)α,β∈(0,1)且α+β=1其中,simsemantic(w1,w2)表示单词w1和单词w2的语义相似度,simstatistic(w1,w2)是所述单词w1和单词w2之间的统计相关度,α和β为可调参数。
10.根据权利要求9所述的语料库制作方法,其特征在于所述单词w1和单词w2的语义相似度simsemantic(w1,w2)按下式(3)进行计算simsemantic(w1,w2)=1/Dissemantic(w1,w2) (3)其中Dissemantic(w1,w2)表示根据所述包含关系制作步骤建立的所述纵向包含关系结构中获得的单词w1和单词w2之间的最短距离。
11.根据权利要求9所述的语料库制作方法,其特征在于所述单词w1和单词w2之间的统计相关度simstatistic(w1,w2)为所述单词w1和单词w2的之间的相关度
12.根据权利要求7所述的语料库制作方法,其特征在于,还包括裁减步骤按下式(4)计算单词wi的关系个数kiki=lgwfreqilgsfreq‾×k,---(4)]]>其中,wfreq表示所述语料库中所有单词的平均出现频率,wfreqi表示单词wi的出现频率,k表示所述语料库中所有单词的平均关系个数;当单词wi的关系总数超过阈值δ×ki时,其中,δ为预先设定的大于1的缓冲系数,对与单词wi的关系权重最小的单词wj进行裁减,所述关系权重Weight(Relation)按下式(5)计算Weight(Relation)=freqwiwj×Weightwiwj---(5)]]>其中,freqwiwj表示单词wi和单词wj的共现频率,Weightwiwj表示单词wi和单词wj的共现权重。
全文摘要
本发明提供一种语料库的制作装置及其制作方法,该装置除了包括单词抽出部、出现频率计算部、关联度计算部、语料库制作部之外,还包括包含关系制作部,该包含关系制作部基于单词之间的语义,对单词抽出部得到的单词用树形结构建立纵向包含关系结构。根据本发明的语料库制作装置及其制作方法所得到的语料库同时具有单词间的纵向包含关系结构、相关网络、相似网络,因此,使用根据本发明制作的语料库不仅可以对各种信息进行有机的组织,而且更加便于根据用户的要求对信息进行分类,在海量的数据中找到个人感兴趣的信息。
文档编号G06F17/30GK1916889SQ200510093228
公开日2007年2月21日 申请日期2005年8月19日 优先权日2005年8月19日
发明者伊藤荣朗, 桑原祯司, 黑田昌芳, 虞立群, 陈奕秋, 汪更正 申请人:株式会社日立制作所, 上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1