用于确定词汇空间中词的相对定位的设备、方法和程序的制作方法

文档序号:6456904阅读:107来源:国知局
专利名称:用于确定词汇空间中词的相对定位的设备、方法和程序的制作方法
技术领域
本发明涉及确定词汇空间中任意领域中彼此相互有关的词条的相对位置。

背景技术
所考虑的问题是,测量特定领域中彼此相互有关的词条之间的关系,由此构建反映测量结果的词汇空间。
通过尤其基于人类感知在二维或三维空间中排列词条以使词汇空间可视化从而促进语义关系的理解是有益的。可视化还促进识别所关注词汇与其周围词条之间的关系。
作为其应用示例,希望有各种应用,诸如分析主题领域中词汇特征的应用,包括分析在线社区中所用的词条特征,以及用于请求选择用于现象的适当词汇条目的界面的应用,所述现象通常难以进行描述,诸如用户的喜好以及疾病的症状。
常规地,通过应用多维尺度技术来构建词汇空间,但本发明公开了一种涉及计算某些条件下语义上接近的词汇邻域的稳定词汇空间的设备、程序和方法。
专利文献1JP 2005-309853A(Method,system or memory storinga computer program for document processing) 非专利文献1Takane,Y.2005.Applications ofmultidimensional scaling in psychometrics.In C.R.Rao and S.Sinharay(Eds.),Handbook of Statistics(Vol.27)Pyschometrics.AmsterdamElsevier. 非专利文献2Honkela,T.1997.Self-Organizing Maps inNatural Language Processing,Ph.D.theseis,Helsinki Universityof Technology 非专利文献3T.Kohonen,1995.Self-Organizing Maps,Springer 非专利文献4Holger Theisel and Matthias Kreuseler,1999,AnEnhanced Spring Model for Information Visualization,EUROGRAPHICS′98,Vol.1,No.3 非专利文献5W.K.Church and P.Hanks,1990.Word associationnorms,mutual information,and lexicography,ComputationalLinguistics,Vol.16,No.1,22-29.

发明内容
本发明要解决的问题 常规地,对于在多维空间中排列大量词条的问题,最常用的方法称为多维尺度(MDS)技术,并且已经提出了各种模型。然而,这种方法最初用于根据通过在实验心理学领域中的测量所获得的测量值来构建未知的多维空间,而对于构建词汇空间不一定合适。
对于词汇空间的构建,有许多种情况,其中通过语言学研究已经发现了词汇空间结构的某些假设/假定,并且需要根据该假设构建词汇空间。
根据多维尺度技术,使用通常被称为奇异值分解的数学技术。
然而,采用寻找最佳描述数据变化的轴的原理的方法(诸如奇异值分解)未考虑预先指定假设/假定并由此确定词汇空间的情况,并且采用奇异值分解的方法似乎不允许上面描述的指定。
作为用于基于观测距离计算网络或图的方法,还已经提出了诸如自组织映射图和物理模型(如弹簧模型等)的方法。
通过那些方法预先指定假设/假定看起来不是不可能,但是那些方法中的任何方法都不是预期用于词汇空间的方法,并且尚未提出用于构建词汇空间的有效方法。
另外,即使所讨论的一对词条都是通常频繁使用的高频词时,它们也可能不同时出现在主题文档数据中。
在这种情况下,根据常规方法,没有定义不同时出现的所有词对之间的距离,但是存在被计算为词条之间距离的可能最大距离被指定的大量词对,导致词汇空间不稳定。
为了解决上面提到的问题,本发明提出一种方法,用于以无法通过常规方法获得的精度实现布置(constellation)的稳定性,同时允许在如下条件下设置词汇空间的假设。
(a)词汇空间限于词汇邻域。
(b)词条直接排列在二维空间中。
(c)基于对词汇空间的假设预先排列少量的词。
此外,当所讨论的一对词条都是通常频繁使用的高频词,并且不同时出现在主题文档数据中时,认为用于增大该对词条之间距离的力正在起作用,并且公开了一种甚至对于同现频率为0的词条定义预定距离的方法。
解决问题的手段 [权利要求1] 权利要求1公开了一种用于确定任意领域中相互有关的词在二维空间中的相对位置的设备,包括 (a)用于接收与该任意领域有关的n个文档B(i)、所述任意领域中使用的词条的m个词汇邻域词条W(i)、k个指定词条A(i)以及所述k个指定词条A(i)在所述二维空间中的位置信息P的装置; (b)用于使用与所述任意领域有关的所述n个文档B(i)和所述m个词汇邻域词条W(i)来确定n×m频率矩阵V(i,j)的装置; (c)用于使用所述n×m频率矩阵V(i,j)计算m×m观测距离矩阵M(i,j)的装置; (d)用于根据所述二维空间中所述指定词条的所述位置信息P和除所述指定词条之外的词条在所述二维空间中任意确定的初始位置来确定m×m词汇位置矩阵D(i,j)的装置;以及 (e)用于基于所述m×m词汇位置矩阵D(i,j)和所述m×m观测距离矩阵M(i,j)来确定应力函数S,并确定使所述应力函数S最小化的m×m词汇位置矩阵D(i,j)的装置。
[权利要求2] 另外,权利要求2公开了,在权利要求1的设备中,用于计算m×m观测距离矩阵M(i,j)的装置还包括 (a)用于按照公式1确定m×m同现矩阵C(i,j)的装置 (公式1)C(i,j)=VTV 其中T表示矩阵的转置;以及 (b)用于按照公式2根据所述m×m同现矩阵C(i,j)确定所述m×m观测距离矩阵M(i,j)的装置; (公式2)M(i,j)=-2×C(i,j)/{tf(i)×tf(j)}对于C(i,j)≠0 {tf(i)×tf(j)}/(2×β)对于C(i,j)=0 其中C(i,j)是每个词汇对的同现矩阵的值,tf(j)是整个文档中词汇的频率,而β是tf(i)的最大值(i=1到m)。
[权利要求3] 权利要求3公开了,在权利要求1或2的设备中,至少三个指定词条和所述指定词条在所述二维空间中的位置被输入到用于接收所述指定词条和所述指定词条在所述二维空间中的位置的装置。
[权利要求7] 权利要求4公开了根据权利要求1到3中任一项的设备,还包括 (a)用于接收素朴词汇(

vocabulary)的指定的装置; (b)用于从词汇映射矩阵中选择对应于所述素朴词汇的行数据的装置; (c)用于选择对应于所选行数据的专家词汇和对应于所述专家词汇的列数据的装置;以及 (d)用于确定对应于所选列数据的素朴词汇,并确定所述词汇邻域词汇(lexical neighborhood vocabulary)W(i)的装置。
[权利要求5] 权利要求5公开了一种控制计算机操作权利要求1的设备的计算机程序。
[权利要求6] 权利要求6公开了在权利要求1的设备中所用的方法。
[权利要求7] 权利要求7公开了在权利要求2的设备中所用的方法。
[权利要求8] 权利要求8公开了在权利要求3的设备中所用的方法。
[权利要求9] 权利要求9公开了在权利要求4的设备中所用的方法。
本发明的效果 本发明可以以通过常规技术无法获得的高精度并且同时稳定地确定词条布置。
因此,词汇空间中的预定特定领域中的词条之间的相互关系可以被阐明并且可视化。



图1是示出体现本发明的设备的图示。
图2是示出本发明优选实施例的框图。
图3是示出本发明优选实施例的流程图。
图4是示出根据本发明的词汇频率矩阵的图示。
图5是示出二维空间中指定词条的位置示例的图示。
图6是示出其它词条随机排列为初始布置的示例的图示。
图7是示出已经应用了本发明之后的结果的示例的图示。
图8是示出词汇映射矩阵的示例的图示。
图9是用于根据词汇映射矩阵确定词汇邻域词条的流程图。
图10a是示出根据本发明的初始布置的示例的图示。
图10b是示出已经应用了本发明之后的结果的示例的图示。
图11a是示出根据本发明的初始布置的示例的图示。
图11b是示出已经应用了本发明之后的结果的示例的图示。

具体实施例方式 [设备概述] 图1示出了体现本发明的设备。壳体100包括存储单元110、主存储器120、输出单元130、中央处理单元(CPU)140、操作单元150和输入单元160。
用户从操作单元150输入必要的信息。
中央处理单元140基于输入信息读取存储在存储单元110中的信息,基于要从输入单元160输入的信息执行数据处理,并将结果输出到输出单元130。
[功能框图] 图2示出了根据本发明的功能框图。
附图标记210表示数据输入单元;220表示用于计算词汇频率矩阵V的单元;230表示同现矩阵C;240表示用于计算词汇空间距离函数D的单元;250表示用于计算和创建观测距离矩阵M的单元;260表示用于计算应力函数S的单元;270表示用于计算最优位置D的单元;并且280表示输出单元。
[算法] 图3示出了在计算机上实施本发明时的流程图。
10输入数据 20计算词汇频率矩阵V 30计算同现矩阵C 40计算观测距离矩阵M 50计算词汇空间距离函数D 60计算应力函数S的最优值 70显示最优位置D 现在给出这个算法的详细说明。
通过如下步骤实现由本发明公开的词汇空间的构建。
[详细算法] (1)输入数据 输入如下数据片段以执行该实施例1 (a)与任意领域有关的n个文档B(i)(i=1到n); (b)所述任意领域中所用的m个词汇邻域词条W(i)(i=1到m); (c)k个指定词条A(i)(i=1到k);以及 (d)所述指定词条A(i)在二维空间中的位置信息P(i=1到k)。
现在给出数据的详细说明。
(a)与任意领域有关的n个文档B(i)(i=1到n) 本发明的目的是确定二维空间中任意领域中彼此相互有关的词条的相对位置,并且输入与该领域有关的一个或多个文档。
(b)所述任意领域中所用的m个词汇邻域词条W(i)(i=1到m) 处于主题领域中的并且要确定其在所述二维空间中的布置的词条被输入。
对于词汇邻域词条的集合W,可选择在任意领域中所用的任意词条,但优选地使用通过将大量文档进行数据处理所获得的词条。
当基于出现数据而将词汇邻域简单地认为是具有高度相关的词条集合时,已知几种用于计算词汇邻域的方法。
例如,仅采用同现频率的方法、采用t分数(t-score)的方法、采用Church和Hanks的互信息(1990)的方法等等,都是众所周知的。
然而,那些方法中的任何一种都基于两个词之间的同现关系,并不总是确定语义上彼此接近的词集合。
那些方法可收集许多搭配词(collocated word),诸如短语。
因此,当上面提到的方法只用于收集具有高度相关的词时,所收集的词可能不合适作为根据本发明定义的“词汇邻域词条集合”。
本发明基于在JP 2005-309853 A(Method,system or memorystoring a computer program for document processing)中描述的方法所确定的数据,计算“词汇邻域词条集合”。
现在给出如何确定“词汇邻域词条集合”的描述。
图8示出了根据在JP 2005-309853 A中公开的词汇映射方法所生成的“专家描述与非专家描述之间的词汇映射矩阵”(后面称为词汇映射矩阵)。
这个词汇映射矩阵通过根据上面提到的词汇映射方法处理通过访问日本的因特网网站所收集的数据来确定,同时日本米酒的品牌名称被指定为词列表。
在图8中,在最左一列中,作为素朴词条,示出了适度的、可口的、清爽的、不纯的、果味的、上品的、上等的、醇香的、瓜香的、有香味的、可口的等等。
在最上一行,作为专家词条,示出了诸如″古都千年″(Kotosen-nen)、″花の舞″(Hananomai)和″会津吟の藏″(Aizu gin-nokura)等品牌。
如图9中示出的,根据如下步骤确定“词汇邻域词条”。
(1)指定素朴词汇 (2)从对应于素朴词汇的行数据中选择大的行数据 (3)选择对应于所选行数据的专家词条及与其对应的列数据 (4)选择对应于列数据的素朴词条 (5)从素朴词条中删除冗余的素朴词条 现在给出说明,同时示出特定示例。
(1)指定素朴词汇 选择期望词作为素朴词汇。
在这个示例中,选择“清爽的”。
(2)从对应于素朴词汇的行数据中选择大的行数据 从对应于指定词汇的行的数据中选择具有大值的预定数量的数据片段。
在这种情况下,作为对应于“清爽的”的数据,由A1、B10和C7表示的数值是该行数据的三个最大值。
(3)选择对应于所选行数据的专家词条及与其对应的列数据 识别对应于所选数据的专家词条,并从对应于该专家词条的列数据中选择具有大值的预定数量的列数据片段。
在这种情况下,″古都千年″对应于A1,并且从″古都千年″那列选择A1、A2、A3、A4等等。
类似地,″花の舞ぃ″对应于B10,并且从″花の舞ぃ″那列选择B1、B2、B3、B10等等。
此外,″会津吟の藏″对应于C7,并且从″会津吟の藏″那列选择C1、C2、C3、C7等等。
(4)选择对应于列数据的素朴词条 选择对应于该预定数量的所选列数据片段的行上的素朴词条。
在这种情况下,作为对应于″古都千年″的词条,选择“清爽的”、“不纯的”、“可口的”和“上品的”。
此外,选择图8中未示出的“回味的”、“美味的”、“芳香的”、“无甜味的”、“有香味的”和“滋味好的”。
作为对应于″花の舞″的词条,选择“清爽的”、“可口的”、“不纯的”和“上品的”。
此外,选择图8中未示出的“未熟的”、“浓郁的”、“味美的”、“上等的”、“良好的”和“果味的”。
作为对应于″会津吟の藏″的词条,选择“清爽的”、“适度的”、“醇香的”和“瓜香的”。
此外,选择图8中未示出的“余味无穷的”、“柠檬的”、“醇和的”、“果味的”、“清淡的”和“舒适的”。
(5)从素朴词条中删除冗余的素朴词条 除了冗余的词条之外的所选的素朴词条被设置为词汇邻域词条。
根据这个实施例,作为词条W(i)(i=1到25),选择如下词条。
[词条示例] 清爽的、不纯的、果味的、上品的、上等的、美味的、醇和的、瓜香的、柠檬的、醇香的、适度的、清淡的、回味的、浓郁的、宜人的、良好的、芳香的、可口的、滋味好的、味美的、舒适的、无甜味的、未熟的、有香味的和余味无穷的。
所选的词条包括仅表示法不同的词条,但被视为在意思上基本相同,诸如“醇和的”和“醇香的”,并由此假设通过这种方法提取的词汇邻域词条构成在意思上彼此接近的一组词条。
(c)k个指定词条A(i)(i=1到k) 输入从所述词汇邻域词条中选择的至少三个词条。
那些词条在此处称为“指定词条”。
通过任意选择指定词条,可以确定那些词条与其它词条之间的关系。
根据这个实施例,将如下词条选择为指定词条。
[指定词条示例] 不纯的、清爽的和果味的 (d)二维空间中k个指定词条A(i)(i=1到k)的位置信息P 通过输入二维空间中所述至少三个输入的指定词条的位置,可以可视地确定与其它词条的关系。
如图5中所示出的,作为二维空间中指定词条的位置,“不纯的”、“清爽的”和“果味的”分别排列在左下位置、中下位置和右下位置。
(2)计算词汇频率矩阵V(n×m) 对于词汇邻域词条集合W(i)(i=1到m),基于n个文档B(i)(i=1到n)中的频率,确定词汇频率矩阵V(i,j)(i=1到n,j=1到m)。
参考图2的框220。
在这种情况下,可任意选择相关领域中的文档作为所述文档。
此外,甚至作为某一特定领域中的文档,根据目的,可仅选择该领域中由专家撰写的文档或仅选择由没有经验的人(

person)撰写的文档。
图4示出了表示频率的n×m词汇频率矩阵V(i,j)(i=1到n,j=1到m)的示例。
表示任意文档的文档B(1)到B(n)对应于图3的垂直轴。
词汇邻域词条集合W的相应词条W(i)(i=1到m)对应于水平轴。
V的相应元素V(i,j)表示文档B(i)中的词汇W(j)的频率。
(3)计算同现矩阵C(m×m) V的相应元素V(i,j)只表示相应文档中相应词条的频率。由此,为了考虑相应词条同现的信息,首先根据公式1,计算m×m同现矩阵C(i,j)(i,j=1到m)。
参考图2的框230。
(公式1)C=VTV 其中T表示转置矩阵。
(4)计算观测距离矩阵M(m×m) 同现的词条应该自然地彼此紧密相关,但是非常频繁的词汇与大量其它词同现,并且由此有必要认为它没有用于词汇映射的候选那么重要。
此外,当一个文档很长并由此包含大量词条时,在这个句子中生成的词汇需要被认为是不太重要的。
现在考虑这种情况即使当所讨论的一对词条都是通常频繁使用的高频词时,它们也不同时出现在主题文档数据中。
根据常规技术,当同现数据的值为0时,无论进行什么计算,都不能定义构成该词汇对的这两个词之间的关系。
然而,基于通常频繁出现的词条并不同时出现的事实,可想得到,那两个词的关系是它们彼此相斥。
换句话说,可想得到,用于增大这两个词之间距离的力正在起作用。
根据这个想法,当大量文档用作计算词条之间距离的数据时,甚至对于同现频率为0的词条,可以定义某一距离。
这个想法对于排列词汇空间中的大量词是非常有效的。
这是因为,根据常规方法,无法定义不同时出现的所有词对之间的距离,但是存在对其定义了被计算为词条之间距离的可能最大距离的大量词对,导致词汇空间的不稳定。
通过考虑排斥关系,有可能减少这种不稳定状态。
此外,对于处于吸引关系的词汇对,当这些词在整个文档数据中频率都很高并且在其它文档中也频繁使用时,相比集中在它们同现的文档上的词,应该将该距离设置为大的。
由此,基于m×m同现矩阵C(i,j)(i,j=1到m),考虑词条之间的排斥力和吸引力,(参考图2的框250)创建由公式2表示的m×m观测距离矩阵M(i,j)(i,j=1到m)。
(公式2)M(i,j)=-2×C(i,j)/{tf(i)×tf(j)}对于C(i,j)≠0 {tf(i)×tf(j)}/(2×β)对于C(i,j)=0 其中C(i,j)是相应词汇对的同现矩阵的值,tf(j)是整个文档中词汇的频率,而β是tf(i)(i=1到m)的最大值。应该注意的是,将频率值转换成对数形式以用于平滑,并且当对于所有词汇对计算对数形式时,将矩阵M的相应元素的值归一化,使得最小距离、即到它本身的距离为0,并且最大值为1。
(5)计算词汇空间距离函数D(m×m) 根据如下步骤(a)到(c),确定词汇空间距离函数D(m×m)(参考图2的框230)。
(a)二维空间中指定词条的初始布置 通过在(1)的(c)和(d)中描述的处理,输入三个或更多个指定词条及其在二维空间中的布置信息。
如图5中所示出的,作为二维空间中指定词条的位置,“不纯的”、“清爽的”和“果味的”分别排列在左上位置、中间位置和中右位置。
(b)确定二维空间中其它词条的初始布置 其余词条随机排列为初始布置。
在这种情况下,相应词条的x坐标和y坐标由dx(i)和dy(i)(i=1到m)表示。
图6示出其余词条随机排列为初始布置的示例。
(c)计算二维空间中词汇对的词汇空间距离D(i,j) 计算二维空间中词汇对的词汇空间距离D(i,j)(i,j=1到m) 在这种情况下,二维空间中存在各种可能的距离,但是此处使用由公式3表示的欧几里德距离函数。
(公式3)D(i,j)=√{(dx(i)-dx(j))2+(dy(i)-dy(j))2}其中i,j=1到m。
(6)计算应力函数S的最优值 二维空间中词汇对之间的词汇空间距离D(i,j)与观测值M(i,j)之间的误差的和S被定义为应力,由公式4表示。
参考图2的框250。
(公式4)S=∑i∑j((D(i,j)-M(i,j))2其中i,j=1到m 通过改变随机初始化的词条的位置D(i,j),确定使应力S最小化的词条的位置D(i,j)。
存在各种已知的优化方法,并且本发明根据置信域方法确定最优值,其中置信域方法的研究近来已经发展为在全局收敛方面很优秀的方法,得到稳定的词汇空间。
参考图2的框270。
(7)输出最优位置D(i,j) 通过布置二维空间中的最优位置D(i,j),当三个或更多个词条及其布置作为初始值给出时,示出了二维词汇空间中的最优布置。
参考图2的框280。
图7示出应用本发明之后的结果。
[本发明有效性的验证] 本发明的目的是,基于所选词条的频率,构建反映词条之间语义空间的词汇空间,并至少在语言用户的语言学直观层面确定与词条意思的对应关系。
因此,本发明可有效地用于诸如词条之间关系的分析和直观界面的确认等应用领域。
然后,根据如下方法验证,基于频率数据构建的词汇空间给出了语义对应关系。
1.高频词不同时出现的情况 要讨论这种情况虽然所讨论的一对词条都是通常频繁使用的高频词,但它们不同时出现在主题文档数据中,并且该对词条彼此相互排斥。
为了说明起见,现在考虑4个词条t1到t4出现在3个文档d1、d2和d3中的情况。
在这种情况下做如下假设。
(1)t1和t2同时出现在d1中。
(2)T3和t4同时出现在d2中。
(3)t3和t1不同时出现在d1到d3中,并且t3和t2不同时出现在d1到d3中。
(4)t4和t1不同时出现在d1到d3中,并且t4和t2不同时出现在d1到d3中。
(5)t4是仅在d3中频繁使用的高频词。
上面提到的关系由n×m频率矩阵V(i,j)(i=1到3,j=1到4)表示如下 [表达式1] 应该注意,tf(1)=10,tf(2)=10,tf(3)=10,并且tf(4)=10+90=100。
根据这个频率矩阵V(i,j)(i=1到3,j=1到4),按照公式1,确定同现矩阵C(i,j)(i,j=1到4),并且进一步按照公式2,如下确定观测距离矩阵。
分别提供对应于移位单元(33,40,42,205,206,305,306)的“或”门(34、38),所述“或”门的输出连接到对应的移位单元(33,40,42,205,206,305,306)的移位控制端口(35),并且“或”门(34、38)的一个或多个输入连接到用于编程对应的移位单元(33,40,42,205,206,305,306)的移位模式的一个或多个相线(41,44,45)。
[表达式2] 在这种情况下,执行归一化以使得到它本身的距离为0,并且最大距离为1。
结果表明,当t1与t2之间的距离为″0.0004″并由此非常接近时,频繁出现的t4与t3之间的距离″0.2686″比那个距离大。
此外,对于同现频率为0的情况,作为整体频繁出现的t4与t1之间的距离″1.0000″和t4与t2之间的距离″1.0000″大于t3与t1之间的距离″0.8456″和t3与t2之间的距离″0.8456″,并由此认为本发明有效。
2.最终布置的检验 图10a示出根据本发明的排列,其中作为初始布置,“上等的”固定在中左位置(0.2,0.5),“甜味的”固定在中下位置(0.5,0.2),并且“劣质的”固定在中右位置(0.8,0.5)。
要考虑这种情况固定那三个词,并作为下一个词,定位“苦味的”。
“上等的”排列在中左位置,与此对应的“劣质的”排列在中右位置,并且“甜味的”排列在中下位置。因此,希望按照意思将与此对应的“苦味的”布置在中上位置。
该图(图10a)示出这种情况计算机为第四个词“苦味的”计算随机数,并选择左上位置作为初始布置。
然后,当应用本发明同时将图10a视为初始状态时,作为基于频率数据的最优化结果获得图10b。
在这种情况下,相对于“甜味的”沿对角线设置“苦味的”的布置,并且该布置表示“苦味的”在语义上与“甜味的”相反。
类似地,图11a示出这种情况对于“苦味的”,选择右上位置作为初始布置。
当应用本发明同时将图11a视为初始状态时,如在图10b中那样,获得图11b。
对于根据多个不同领域中文档数据确定的词条,这种验证给出了相似的结果。因此,认为本发明有效。
[附图标记的说明] 100壳体 110存储单元 120主存储器 130显示单元 140中央处理单元(CPU) 150操作单元 160输入单元 产业适用性 本发明可应用于用于确定词汇空间中任意领域中彼此相互有关的词条的相对位置的信息处理。
权利要求
1.一种用于确定任意领域中相互有关的词在二维空间中的相对位置的设备,包括
(a)用于接收与所述任意领域有关的n个文档B(i)、所述任意领域中使用的词条的m个词汇邻域词条W(i)、k个指定词条A(i)以及所述二维空间中所述k个指定词条A(i)的位置信息P的装置;
(b)用于使用与所述任意领域有关的所述n个文档B(i)和所述m个词汇邻域词条W(i)来确定n×m频率矩阵V(i,j)的装置;
(c)用于使用所述n×m频率矩阵V(i,j)计算m×m观测距离矩阵M(i,j)的装置;
(d)用于根据所述二维空间中所述指定词条的所述位置信息P和除所述指定词条之外的词条在所述二维空间中任意确定的初始位置来确定m×m词汇位置矩阵D(i,j)的装置;以及
(e)用于基于所述m×m词汇位置矩阵D(i,j)和所述m×m词汇位置矩阵M(i,j)确定应力函数S,并确定使所述应力函数S最小化的m×m词汇位置矩阵D(i,j)的装置。
2.如权利要求1所述的设备,其中用于计算所述m×m观测距离矩阵M(i,j)的装置还包括
(a)用于按照公式1确定m×m同现矩阵C(i,j)的装置
(公式1)C(i,j)=VTV
其中T表示矩阵的转置;以及
(b)用于按照公式2根据所述m×m同现矩阵C(i,j)来确定所述m×m观测距离矩阵M(i,j)的装置;
(公式2)M(i,j)=-2×C(i,j)/{tf(i)×tf(j)}对于C(i,j)≠0{tf(i)×tf(j)}/(2×β)对于C(i,j)=0
其中C(i,j)是每个词汇对的同现矩阵的值,tf(j)是整个文档中词汇的频率,而β是tf(i)的最大值(i=1到m)。
3.如权利要求1或2所述的设备,其中用于接收所述指定词条和所述二维空间中所述指定词条的位置的装置接收至少三个指定词条和所述二维空间中所述指定词条的位置。
4.如权利要求1到3中任一项所述的设备,还包括
(a)用于接收素朴词汇的指定的装置;
(b)用于从词汇映射矩阵中选择对应于所述素朴词汇的行数据的装置;
(c)用于选择对应于所选行数据的专家词汇和对应于所述专家词汇的列数据的装置;以及
(d)用于确定对应于所选列数据的素朴词汇,并确定所述词汇邻域词汇W(i)的装置。
5.一种用于确定任意领域中相互有关的词在二维空间中的相对位置的程序,所述程序控制计算机用作
(a)用于接收与所述任意领域有关的n个文档B(i)、所述任意领域中使用的词条的m个词汇邻域词条W(i)、k个指定词条A(i)以及所述二维空间中所述k个指定词条A(i)的位置信息P的装置;
(b)用于使用与所述任意领域有关的所述n个文档B(i)和所述m个词汇邻域词条W(i)来确定n×m频率矩阵V(i,j)的装置;
(c)用于使用所述n×m频率矩阵V(i,j)计算m×m观测距离矩阵M(i,j)的装置;
(d)用于根据所述二维空间中所述指定词条的所述位置信息P和除所述指定词条之外的词条在所述二维空间中任意确定的初始位置来确定m×m词汇位置矩阵D(i,j)的装置;以及
(e)用于基于所述m×m词汇位置矩阵D(i,j)和所述m×m词汇位置矩阵M(i,j)确定应力函数S,并确定使所述应力函数S最小化的m×m词汇位置矩阵D(i,j)的装置。
6.一种用于通过控制计算机执行如下步骤来确定任意领域中相互有关的词在二维空间中的相对位置的方法
(a)接收与所述任意领域有关的n个文档B(i)、所述任意领域中使用的词条的m个词汇邻域词条W(i)、k个指定词条A(i)以及所述二维空间中所述k个指定词条A(i)的位置信息P;
(b)使用与所述任意领域有关的所述n个文档B(i)和所述m个词汇邻域词条W(i)来确定n×m频率矩阵V(i,j);
(c)使用所述n×m频率矩阵V(i,j)来计算m×m观测距离矩阵M(i,j);
(d)根据所述二维空间中所述指定词条的所述位置信息P和除所述指定词条之外的词条在所述二维空间中任意确定的初始位置来确定m×m词汇位置矩阵D(i,j);以及
(e)基于所述m×m词汇位置矩阵D(i,j)和所述m×m词汇位置矩阵M(i,j)来确定应力函数S,并确定使所述应力函数S最小化的m×m词汇位置矩阵D(i,j)。
7.如权利要求6所述的方法,其中计算所述m×m观测距离矩阵M(i,j)的步骤还包括如下步骤
(a)按照公式1确定m×m同现矩阵C(i,j)
(公式1)C(i,j)=VTV
其中T表示矩阵的转置;以及
(b)按照公式2根据所述m×m同现矩阵C(i,j)来确定所述m×m观测距离矩阵M(i,j);
(公式2)M(i,j)=-2×C(i,j)/{tf(i)×tf(j)}对于C(i,j)≠0{tf(i)×tf(j)}/(2×β)对于C(i,j)=0
其中C(i,j)是每个词汇对的同现矩阵的值,tf(j)是整个文档中词汇的频率,而β是tf(i)的最大值(i=1到m)。
8.如权利要求6或7所述的方法,其中接收所述指定词条和所述指定词条在所述二维空间中的位置的步骤接收至少三个指定词条和所述指定词条在所述二维空间中的位置。
9.如权利要求6到8中任一项所述的方法,还包括如下步骤
(a)接收素朴词汇的指定;
(b)从词汇映射矩阵中选择对应于所述素朴词汇的行数据;
(c)选择对应于所选行数据的专家词汇和对应于所述专家词汇的列数据;以及
(d)确定对应于所选列数据的素朴词汇,并确定所述词汇邻域词汇W(i)。
全文摘要
[问题]在常规技术中,虽然已经提出由多维尺度(MDS)所表示的各种模型来研究特定领域中彼此有关的词之间的关系,并根据研究结果构建词汇空间,但是它们不一定适合构建词汇空间。加之,在构建词汇空间时,不能认定可以有效地确定词汇空间,即使当在预定假设上构建词汇空间时也是这样。[用于解决问题的手段]根据本发明,通过任意设置预定初始条件、在给定条件下确定词的出现频率与同现关系并最小化出现频率和同现值与任意设置的初始布局值之间的差,来稳定而高度准确地确定词汇空间中词的定位。
文档编号G06F17/30GK101601035SQ200780048945
公开日2009年12月9日 申请日期2007年10月31日 优先权日2006年10月31日
发明者小田弘美 申请人:惠普开发有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1